Единый стандарт описания данных

Прикладные задачи в области почвоведения и сельского хозяйства, для решения которых создается цифровой двойник почв, невозможно реализовать без пространственно-временных данных. Современные почвенные и экосистемные модели требуют интеграции разнообразных типов данных из различных источников – глобальных баз данных, полевых и экспериментальных наблюдений, информации с локальных сенсоров. В связи с разнородностью источников данных и самих получаемых данных требуется их унификация в соответствии с единым стандартом формального описания. Этот стандарт описания данных должен обладать рядом ключевых свойств:

Машиночитаемость

стандарт должен описывать данные в формализованном виде, чтобы автоматически читать и анализировать цифровым двойником;

Совместимость

данные, описанные по стандарту, должны быть совместимы между различными источниками, моделями и сервисами API;

Расширяемость

стандарт должен поддерживать добавление новых типов данных, моделей, отвечающих новым прикладным задачам;

Интеграция

с внешними стандартами описания данных и метаданных

На сегодняшний день разработаны международные и национальные стандарты метаданных, которые устанавливают единые правила описания, обмена и распознавания всех возможных типов географических данных. К таким стандартам относятся ISO 19115-1:2014 «Geographic Information – Metadata», INSPIRE (ISO 19139), FGDC-CSDGM, OGC-EO Metadata. Часть стандартов разработаны с учетом принципов каталогизации пространственных данных что обеспечивает их непосредственную интеграцию в системы каталогов и сервисов метаданных. Стандарт STAC выступает не только моделью описания данных, но и основой для их публикации, поиска и использования через веб-интерфейсы.

В рамках проекта разработан ЕСОД – единый стандарт описания данных с опорой на стандарты STAC, ISO-19115 и OGC. СОД определяет обязательные элементы метаданных – основную информацию о датасете, пространственно-временные границы, системы координат, лицензию распространения данных, контактную информацию и ссылка на связанные ресурсы. Основное свойство ЕСОД заключается в описании смешанных данных, которые заключают в себе растровые, векторные, табличные и другие типы данных, включая данные, доступные во внешних общедоступных STAC-каталогах.

ЕСОД является центральной частью системы каталогизации, публикации и визуализации пространственных данных, реализованной на основе связки pgSTAC и pygeoapi. Хранение и индексирование метаданных о наборах растровых данных организовано в базе данных PostgreSQL/PostGIS с установленным расширением pgSTAC, обеспечивающим структурирование и быстрый поиск STAC-совместимых коллекций и файлов. Доступ к этим данным реализован через stac-fastapi – динамический сервер, предоставляющий интерфейсы для публикации и поиска коллекций в соответствии со спецификацией STAC API и поддерживающий базовые функции предварительной визуализации датасетов. Публикация наборов данных иных форматов, включая векторные, табличные и вспомогательные, осуществляется на локальном файловом хранилище с использованием приложения pygeoapi, которое реализует спецификации OGC API (Features, Records, Coverages) и обеспечивает стандартизованный доступ и визуализацию таких ресурсов. Это решение позволяет структурированно хранить, искать и визуализировать растровые и векторные коллекции, включая подключение к ГИС-клиенту (QGIS).

В таблице приведена структура ЕСОД на примере основных типов данных, используемых в реализациях цифрового двойника.

Тип данных Растры (grid) Вектор (vector) stac-collection
Формат хранения данных PostGIS, GeoPackage, Shapefile GeoTIFF, NetCDF, GRIB2… JSON-файлы (каталог STAC)
Resources (особые поля) 5. type: feature
6. providers: PostgreSQL или GeoPackage
7. id_field, geom_field, title_field (поля для предварительного отображения)
8. type: coverage
9. providers: rasterio
10. data: путь к GeoTIFF/NetCDF (на локальном диске или внешний URL)
11. format: name, mimetype
12. type: stac
13. providers: stac
14. data: путь к STAC-каталогу на локальном диске или внешний URL
Основное применение Климатические и геолого-геоморфологические данные, землепользование Почвенные карты, земельные угодья, границы ключевых участков Общедоступные каталоги данных