建立基于AGROVOC概念的多主体项目研究和传播产出的主题模型
15/06/2022

FAO/Luis Sánchez Díaz
A use case by Hercules Panoutsopoulos, Agricultural University of Athens
在实施 地平线2020框架计划的七年中,欧盟委员会对以农业、林业和农村发展为重点的研究和创新项目的投资总额已达近10亿欧元。这些多主体项目(关于地平线2020多主体项目概念和范围的详细信息,见欧洲农业生产力和可持续发展创新伙伴关系的“地平线2020多方项目”报告,2017)创造了大量的研究和传播产出(所谓的“数字对象”),传达了有关研究成果、最佳做法和创新的重要信息。然而,对这些数字对象的吸收和再利用是有限的。与许多研究项目一样,这些产出当中有许多在项目结束后就不再可用。因此,各农业利益相关者在进一步研究和开发中获得现有知识的潜力有限。在这种情况下, EUREKA项目 得以设计,旨在提供一个长期的解决方案,即建立一个永久性的资源库来收集和进一步传播与农业有关的数字内容和数据集。
EUREKA是由欧盟资助的地平线2020项目(由第862790号赠款协议资助),其主要目标是加强和改善在欧洲、国家和地区层面农业知识和创新的流动。该项目正在开发“FarmBook”,一种数字存储库(仍在开发中),用于永久存储和共享以往资助的多主体项目所创建的数字对象。存储库必须能够处理各种格式的异质数字对象(文件、视频、音频、图像、来自田间测量或传感器传输的数值数据集等)。为了促进数字对象的获取和再利用,FarmBook借鉴了语义网标准以及可查找、可访问、可互操作和可重复使用(FAIR)数据原则(Wilkinson等,2016)。
在EUREKA的设计工作中,通过将欧洲农业创新伙伴关系分类法中的农业主题分类与AGROVOC词库相结合,创建了一个轻量级(在语义方面)、基于图形的结构来描述FarmBook数字对象的主题。EIP-AGRI(即欧洲农业生产力和可持续发展创新伙伴关系)一项旨在为农民和林农提供建立网络、创新、分享经验和措施所需支持和激励的举措。在这种情况下, EIP-AGRI的门户网站成为欧洲农业界的一个枢纽,使人们能够获得各种资源。门户网站提供的内容(如实践摘要--在多部门项目实施过程中出现的实用信息或建议的简短文字总结,旨在供价值链上的各主体使用)被标记为EIP-AGRI农业主题分类法的主题类别。农业界对这一分类法的广泛使用促使我们决定将其作为我们的主题模型的主干。
多个项目伙伴组织,包括雅典农业大学、马斯特里赫特大学、法国畜牧研究院(Institut de l' Elevage)、根特大学、 非营利农业经济研究所和Leap Forward Group,共同开发了该主题模。
使用案例描述
主题模型的开发所遵循的方法如图1所示。
审查EIP-AGRI的农业主题分类法 –EIP-AGRI的主题类别是根据研究和创新、多主体项目产出中所涉及的问题,采用实证性、自下而上的方法建立的。这些主题类别尚未被定义。为此,一项审查得以展开,以便根据领域文献为每个EIP-AGRI主题类别提出定义。所提出的定义有助于确定映射到它们的AGROVOC概念,并开发EIP-AGRI分类法每个主题类别的语义网络。图2显示了EIP-AGRI的主题类别。
为每个EIP-AGRI主题类别创建一个语义网络--EIP-AGRI分类法的每个主题类别都与AGROVOC词库中定义的概念相联系。这项活动的目的是确定AGROVOC概念,这些概念与EIP-AGRI的每个主题类别相比范围较广、较窄或相似。已使用简单知识组织系统(SKOS)规范的属性skos:较广、skos:较窄和skos:相似 ,将这些关系类型编码到我们的模型中(Miles和Brickley, 2005)。下文中表1列出了领域专家小组认定的,与EIP-AGRI分类法的 “景观/土地管理”主题类别相比范围较广、较窄或相似的AGROVOC概念。根据EIP-AGRI主题类别(在上一步中产生)和AGROVOC概念的定义,建立了借助上述关系类型建模的链接。
除了确定上述关系类型外,EIP-AGRI的每个主题类别都涉及一个或多个农业部门(即“种植业”、“畜牧业”和“林业”,水产养殖被有意排除在外,因为没有地平线2020多部门项目处理过该部门的问题)和(或)跨部门主题(即“环境”、“社会”和“经济”)。这些关联已经根据领域专家小组的专业知识确定,并使用简单知识组织系统将其编码到主题模型中。AGROVOC词库的概念、农业部门和跨部门主题,以及将其与每个EIP-AGRI主题类别联系起来的简单知识组织系统属性构成了每个主题类别的语义网络。下列图3是“景观/土地管理”主题类别的语义网络。
整合主题模型--将所有EIP-AGRI主题类别的语义网络整合到一个图中,从而完成EUREKA FarmBook主题模型的最终构建。
使用AGROVOC词库的益处
在使用AGROVOC概念的基础上建立一个主题模型,是为了改善FarmBook平台的搜索和导航操作。具体而言,使用AGROVOC的主要益处是可以获得多种语言的标签,从而可以将其用于多语言搜索。根据Celli和Keizer(2016),支持多语言搜索概念的想法是,除了搜索操作所使用的语言以外,用户可以获得多种语言的搜索结果。通过将EIP-AGRI分类法中的每一个农业主题与范围较广、较窄或相似的AGROVOC概念联系起来,用户确实可以获得一组强化结果(涵盖与特定主题相比范围较广、较窄、相似的问题,为了提供强化搜索结果,AGROVOC概念也被用作FarmBook数字对象注释的关键词),而不仅仅是搜索词/查询所用语言的结果。这样,我们就可以根据Rosenfeld等(2015)提及的信息需求分类,为详尽研究(即使得用户能够找到关于特定搜索主题的任何现有内容)和探索性搜寻(即在不确定用户在寻找什么的情况下为用户提供一些“好”的结果)需求提供解决方案。
下一步工作
下一步是由一个比参与创建的专家组更广泛的专家组,通过评价调查的方式对主题模型进行评价。这项调查的目的是收集反馈意见,以便对模型进行完善和微调(如图1所示,箭头从方法的评价步骤指向之前的步骤)。主题模型将在FarmBook的信息架构中,用于标记数字对象。通过使用适当的软件(如Protégé-Brandt,2011)开发其资源描述框架(rdf)图,将使其能够通过开放获取资源库(如Zenodo)发布和可用。
致谢
本文件介绍的工作是在地平线2020计划EUREKA项目下进行的,根据第862790号拨款协议接受欧盟的资助。
参考文献
Brandt, S.2011.A practical guide to building owl ontologies using Protégé 4 and co-ode tools, edition 1.3.The university of Manchester, 107.
Celli, F. and Keizer, J. 2016.Enabling multilingual search through controlled vocabularies: The AGRIS approach.In Research Conference on Metadata and Semantics Research(pp. 237-248).Springer, Cham.
European Innovation Partnership for Agricultural Productivity and Sustainability 2017.Horizon 2020 multi-actor projects [15 June 2021].
https://ec.europa.eu/eip/agriculture/en/publications/eip-agri-brochure-horizon-2020-multi-actor
Miles, A. and Brickley, D. 2005.SKOS Core Vocabulary Specification: W3C Working Draft 2 November 2005 [23 August 2021].https://www.w3.org/TR/2005/WD-swbp-skos-core-spec-200511 02/ .
Rosenfeld, L., Morville, P. and Arango, J., 2015.Information Architecture: For the Web and beyond.4thedition.O’Reilly Media: Estados Unidos, California.
Wilkinson, M., Dumontier, M., Aalbersberg, I.et al.2016.The FAIR Guiding Principles for scientific data management and stewardship Sci Data 3, 160018 https://doi.org/10.1038/sdata.2016.18 .