Выработка тематической модели проведения многосторонних проектов исследований и распространения результатов, основанной на концептах АГРОВОК

FAO/Luis Sánchez Díaz

За семь лет осуществления Рамочной программы ЕС по научным исследованиям и инновациям "Горизонт 2020" (H2020) инвестиции Европейской комиссии в исследовательские и инновационные проекты в области сельского и лесного хозяйства и развития сельских районов составили в общей сложности почти миллиард евро. В ходе этих многосторонних проектов (подробная информация о концепции и охвате многосторонних проектов H2020 представлена в докладе Европейского инновационного партнерства для повышения продуктивности и устойчивости сельского хозяйства (EIP-AGRI) "Многосторонние проекты программы «Горизонт 2020»" 2017 года) было получено и подготовлено к распространению значительное количество результатов (так называемые цифровые объекты), содержавших важную информацию о результатах исследований, передовых методах и инновациях. Однако применение и повторное использование этих цифровых объектов было ограничено. Как это часто бывает с исследовательскими проектами, многие из данных стали недоступными после завершения проекта. В результате у различных заинтересованных сторон в сельском хозяйстве мало возможностей использовать имеющиеся знания для дальнейших исследований и разработок. Задача проекта EUREKA – обеспечить долгосрочное решение проблемы путем создания постоянного хранилища для сбора и дальнейшего распространения цифрового контента и наборов данных, относящихся к сельскому хозяйству. 

EUREKA – это финансирующийся Европейским союзом проект H2020, главная цель которого – упорядочить поток сельскохозяйственных знаний и инноваций на европейском, страновом и региональном уровнях. Участники проекта работают над созданием FarmBook – цифрового репозитория для постоянного хранения и распространения "цифровых объектов", созданных в рамках ранее профинансированных многосторонних проектов. Репозиторий должен быть способен обращаться с разнородными цифровыми объектами (документы, видео- и аудиоматериалы, изображения, наборы численных значений, полученных в результате полевых измерений или переданных датчиками, и т.д.), доступными в различных форматах. Для облегчения доступа и повторного использования цифровых объектов FarmBook использует стандарты семантической сети и FAIRпринципы (Wilkinson, et al., 2016). 

Разработки, ведущиеся в рамках проекта EUREKA, включают создание легковесной (в терминах семантики), основанной на графах структуры, описывающей тематики цифровых объектов FarmBook путем объединения категоризации сельскохозяйственных тем в таксономии EIP-AGRI с АГРОВОК. EIP-AGRI – инициатива, направленная на предоставление фермерам и лесоводам поддержки и стимулов, необходимых для создания сетей, внедрения инноваций, обмена опытом и передовыми методами. Портал EIP-AGRI служит информационным центром для европейского сельскохозяйственного сообщества, обеспечивая доступ к широкому спектру ресурсов. Материалы, доступные на портале (например, короткие текстовые резюме практической информации или рекомендации, выработанные в ходе осуществления многосторонних проектов и предназначенные для использования различными участниками производственно-сбытовой цепочки), отмечены тегами с тематическими категориями применяющейся в EIP-AGRI таксономии сельскохозяйственных тем. Широкое использование этой таксономии в сообществе привело к решению использовать ее как основу для нашей тематической модели.

Разработкой тематической модели занималась группа организаций-партнеров, включая Афинский аграрный университет, Маастрихтский университет, Институт животноводства, Гентский университет, Институт сельскохозяйственной экономики и Лип Форвард Груп

Описание варианта использования

Методика, которой мы придерживались при разработке тематической модели, показана на рисунке 1.  

Рисунок 1. Методика, использовавшаяся для создания тематической модели в проекте EUREKA. Источник: проект EUREKA, 2021 год.

 

Обзор таксономии сельскохозяйственных тем EIP-AGRI

Категории тем EIP-AGRI были созданы на основе эмпирического подхода "снизу вверх", в ходе многосторонних проектов "Исследования и инновации", и определения не получили. Целью проведенного обзора была выработка определений для каждой тематической категории EIPAGRI, основанных на отраслевой литературе. Предложенные определения помогли найти соответствующие им концепты АГРОВОК и выработать семантическую сеть каждой тематической категории в таксономии EIPAGRI. На рисунке 2 показаны тематические категории EIP-AGRI.

 

Рисунок 2. Тематические категории EIP-AGRI, адаптированные на основе материалов с портала EIP-AGRI. Источник: проект EUREKA, 2021 год.

Создание семантической сети для каждой тематической категории EIPAGRI.

Каждая тематическая категория таксономии EIP-AGRI связывалась с терминами АГРОВОК. Нашей задачей было определить для каждой тематической категории EIP-AGRI термины АГРОВОК с более широким, более узким и подобным значением. Эти типы отношений были закодированы в нашей модели с использованием атрибутов skos:broader, skos:narrower и skos:closeMatch модели данных SKOS (Miles & Brickley, 2005). В таблице 1 перечислены термины АГРОВОК, которые группой отраслевых специалистов были определены как имеющие более широкое, более узкое и сходное значение по сравнению с тематической категорией "управление ландшафтами/землепользование" в таксономии EIPAGRI. Установление связей, смоделированное с помощью упомянутых выше типов отношения, основывалось на определениях тематических категорий EIPAGRI (получены на предыдущем шаге) и терминов АГРОВОК.

Помимо определения типов связей, упомянутых выше, каждая из тематических категорий EIPAGRI была соотнесена с одним или несколькими секторами сельского хозяйства (т.е. "Растениеводство", "Животноводство" и "Лесоводство"; "Аквакультуру" мы не рассматривали, поскольку ни один из многосторонних проектов H2020 не занимался проблемами этого конкретного сектора) и/или межсекторальными темами ("Окружающая среда", "Общество" и "Экономика"). Эти соотнесения были определены по результатам консультаций с группой отраслевых специалистов и закодированы в тематической модели с использованием SKOS. Концепты АГРОВОК, сельскохозяйственные секторы и межсекторальные темы, а также свойства SKOS, которые связывают их с каждой из тематических категорий EIP-AGRI, образуют семантическую сеть каждой тематической категории. На рисунке 3 показана семантическая сеть тематической категории "управление ландшафтами/землепользование". 

Рисунок 3. Семантическая сеть тематической категории "управление ландшафтами/землепользование". Источник: проект EUREKA, 2021 год.

 

Сборка тематической модели.

Объединение семантических сетей всех тематических категорий EIP-AGRI в граф привело к построению тематической модели FarmBook.   

Преимущества использования АГРОВОК

Создание тематической модели, основанной на использовании концептов АГРОВОК, призвано улучшить поиск и навигацию на платформе FarmBook. В частности, ключевым преимуществом использования АГРОВОК является наличие меток на нескольких языках, что может быть использовано для многоязычного поиска. Согласно Celli and Keizer (2016), идея, которая лежит в основе концепции многоязычного поиска, заключается в том, что пользователь может получить результаты на других языках, отличных от языка, на котором осуществлялся поиск. Благодаря связи каждой сельскохозяйственной темы в таксономии EIP-AGRI с концептами АГРОВОК с более широким, более узким и подобным значением, пользователь может получить расширенный набор результатов (охватывающих проблемы с более широким, более узким по сравнению с конкретной темой и с подобным значением – для предоставления расширенного набора результатов поиска концепты АГРОВОК используются и как ключевые слова для аннотаций к цифровым объектам FarmBook) на языках, отличных от языка поискового запроса.

Таким образом мы можем обеспечить решения для исчерпывающего исследования (т.е. дать пользователю возможность найти все, что доступно по определенной теме поиска) и "разведочного" поиска (т.е. дать пользователю несколько "хороших" результатов в том случае, если пользователь не уверен, что именно ищет) в соответствии с категоризацией информационных потребностей, упоминаемой Rosenfeld et. al. (2015). 

Дальнейшее развитие

Следующим шагом будет оценка тематической модели группой экспертов более широкого состава, чем та, что участвовала в ее создании. Оценка будет проводиться методом оценочного обследования, которое позволит внести необходимые уточнения и доработать тематическую модель (на рисунке 1 стрелками показано, как от этапа оценки методики возвращаются к предыдущим этапам). Тематическая модель будет использована в информационной архитектуре FarmBook для тегирования цифровых объектов. Создание ее RDF-графа с использованием соответствующего программного обеспечения (например, Protégé, Brandt, 2011) позволит опубликовать ее и разместить в репозитории с открытым доступом (например, Zenodo).

Выражение признательности

Представленная работа проведена в рамках проекта H2020 EUREKA, получившего финансирование ЕС по соглашению о субсидировании № 862790.

Источники

Brandt, S. 2011. A practical guide to building owl ontologies using Protégé 4 and co-ode tools, edition 1.3. The university of Manchester107.

Celli, F. and Keizer, J. 2016. Enabling multilingual search through controlled vocabularies: The AGRIS approach. In Research Conference on Metadata and Semantics Research (pp. 237-248). Springer, Cham.

European Innovation Partnership for Agricultural Productivity and Sustainability 2017. Horizon 2020 multiactor projects [15 June 2021]https://ec.europa.eu/eip/agriculture/en/publications/eip-agri-brochure-horizon-2020-multi-actor 

Miles, A. and Brickley, D. 2005. SKOS Core Vocabulary Specification: W3C Working Draft 2 November 2005 [23 August 2021]. https://www.w3.org/TR/2005/WD-swbp-skos-core-spec-200511 02/ .

Rosenfeld, L., Morville, P. and Arango, J., 2015. Information Architecture: For the Web and beyond. 4th edition. O’Reilly Media: Estados Unidos, California.

Wilkinson, M., Dumontier, M., Aalbersberg, I. et al. 2016. The FAIR Guiding Principles for scientific data management and stewardship Sci Data 3160018 https://doi.org/10.1038/sdata.2016.18