机构和项目信息:巴西、巴西农业研究所及其受控词汇、农业术语和农业语义学常设委员会

FAO/Giorgio Cosulich de Pecine

A use case by Embrapa

 

巴西:事实和数据

  • 人口:211,639,714名居民(2020)
  • 总面积:8,510,295.914平方公里 
  • 六个生物群落:稀树草原(塞拉多);半干旱区(卡廷加);热带森林(大西洋森林);草原(彭巴);湿地(潘塔纳尔)

巴西农业

  • 235,918,760公顷农业用地
  • 55,384.06公顷耕地
  • 7,982公顷永久性作物用地
  • 172,552.7公顷永久性草地和牧场用地
  • 主要产品:大豆、糖、肉类(鸡肉、牛肉和猪肉)、玉米、咖啡、烟草、橙汁、水果、棉花、甘蔗和生物产品[3] 

巴西语言:葡萄牙语

  • 约有2.7亿葡萄牙语使用者,分布在四大洲--安哥拉、巴西、佛得角、几内亚比绍、莫桑比克、葡萄牙、圣多美和普林西比、东帝汶
  • 1990年,这些国家签署了《正字法协定》,为葡萄牙语建立了单一的官方正字法:这是一个重要的举措,但该语言在句法、语义和词汇上仍然存在差异。 

巴西葡萄牙语

  • 由于国家的延伸和文化的多样性及交流,出现了巨大的语言多样性 
  • 同一物体有不同的词;例如:mandioca/aipim/macaxeira(木薯)(见图YY)
  • 同一个词代表不同的含义;例如:

- colher (餐具/勺子) e colher (动词 apanhar/收获)

- molho (汤汁/酱汁) e molho (第一人称一般现在时动词molhar/弄湿)

  • 新词和外来语

图1.在巴西使用的“Manihot esculenta”的不同词汇示例及其在Agrotermos中的概念结构资料来源:Banco Multimídia da Embrapa,2017;图片:Ronaldo Rosa,2021;地图:Zimmerman,2014;图形:Agrotermos,2021;插图:GTermos、Suzi Carneiro,2021。

 

MapaDescrição gerada automaticamente com confiança média
图2.关于巴西农业研究所组织结构的基本事实资料来源:GTermos,2021。

 

目前,指导巴西农业研究所(Embrapa)项目组合的主要研究、开发和创新主题有:农用化学品;农业生态区划;生态农业;亚马逊;动物卫生;水产养殖;自动化、数字和精准农业;生物经济;生物防治;生物固氮;生物供应;生物技术;巴西土壤;气候变化;咖啡;企业创新;品种市场;耐旱性(半干旱地区);能源、生物质能技术和化学;环境服务;产业用纤维和生物质能;捕捞与水产养殖;粮食损失和浪费;食品安全、营养和健康;森林;水果种植(温带和热带);遗传资源;地质技术;粮食;园艺;农牧林综合系统灌溉农业;低碳农业;马托皮巴(Matopiba)地区;肉类;奶类:纳米技术;农业营养素;牧场;植物卫生;检疫性有害生物;农村废水处理;农业社会创新;地区情报、管理和监测;转基因学;杂草。

如需了解更多信息,请查询https://www.embrapa.br/en/web/portal/about-us

 

 

GTermos

 巴西农业研究所受控词汇、农业术语和农业语义学常设委员会(GTermos)致力于建立、分享、传播和管理与农业数据和信息的语义学和符号学有关的知识和做法及其在研究所信息和知识管理过程中的应用。我们的目标是扩大这些知识和做法在内部和外部环境中的使用潜力,与全球趋势和倡议保持一致。自2018年5月以来,GTermos已成为研究所的一个常设工作组。

GTermos使用的方法和技术方式及工具:

  • 语料库语言学
  • 知识图谱、组织和表示 
  • 数据、信息和知识可视化
  • 知识组织系统工程
  • 术语映射和匹配以及符号学/称名学分析和比对
  • 语义互操作性
  • 词语嵌入的培训和使用
  • 开放和链接数据
  • 概念空间
  • 知识图谱

Agrotermos

GTermos构想、构建、实施和管理Agrotermos,一个农业知识的受控词汇和概念空间。利用信息工程、自然语言处理方法和工具、语料库语言学和语义建模,正在准备将其作为术语资源的技术功能扩大到巴西农业知识的概念空间水平。 

Agrotermos是研究所的平台,用于组织、限定和提供研究所内部产生的术语数据和语义应用。Agrotermos不仅仅是一个受控词汇,它还是一个表示农业和相关领域知识的概念空间。您可以此处进行访问。

Agrotermos的管理依赖于概念(语义)和术语的重新设计/充实过程。在这种情况下,向Agrotermos添加新的术语通常涉及使用科学景观和从文本语料库(语料库语言学)中提取术语,并由领域专家进行概念/术语验证,见图3。因此,巴西农业中特定子领域的概念和术语被模块化地纳入Agrotermos。 

 

图3.VOSviewer为“牧场”这一主题制作的科学景观资料来源:InfoPasto项目/GTermos,2019。

 

基于信息系统的使用案例或实际使用案例:Agrotermos与AGROVOC

Agrotermos是通过汇集国家和国际农业术语库中的葡萄牙语术语而建立的。Agrotermos主要由两个不同的葡萄牙语词库组成,其中包括AGROVOC。这些词库不仅构成了Agrotermos的内容,而且还形成了它的结构,由术语之间的关系组合而成。

所有来自这些词库的新输入都被结合起来,构成了更广泛的、相互交织的术语和语义资源,即Agrotermos。其中的术语不会重复,即所有新增加/更新的内容都被编入索引,但不会被覆盖或重复,而且它们的来源可以被识别,见图4。 

图4.描述Agrotermos结构中“sistema agrosilvopastoril”一词的所有联系及其来源(AGROVOC)的图形资源资料来源:Gtermos,2021。

 

每个月,Agrotermos都会对AGROVOC的术语和概念进行收集和索引。目前,Agrotermos由大约245 000个术语组成,其中41 337个来自AGROVOC。  

 整个基础设施以网络服务的形式提供给研究所的资源库(如地理信息库GeoInfo,项目库Quaesta等)。这是目前Agrotermos和AGROVOC在研究所的主要用途。作为Agrotermos的一部分,AGROVOC因此也参与了研究所内部的以下基础应用: 

  1. 术语匹配:一个自动和智能的过程,将任何文本或术语列表与Agrotermos的内容进行比较(“匹配”),并对输入的文本或列表产生一个概念性的语义表示,然后描述为Agrotermos结构的反射。这个匹配过程也揭示了文本或列表中包含的术语已经是Agrotermos的一部分,因此为我们提供了额外的感兴趣的术语列表,便于以后纳入我们的语义结构或AGROVOC中。
  2. Quaesta:研究所的项目研究工具使用了人工智能的原理及其与自然语言处理的接口。

    在这个工具中,Agrotermos(也就是AGROVOC)被作为一个合格的信息工具,项目的文本内容通过使用术语及其关系进行索引。因此,Agrotermos作为农业内容的专门本体结构,改善了搜索引擎,扩大了搜索的概念覆盖面。 
  3. 形态句法相似性分析:我们最近开始使用Agrotermos进行特定的文本相似性分析任务。我们使用一种算法来分析研究所研究项目文本的形态句法相似性,根据文本内容来寻找类似的项目。在这里,Agrotermos(和AGROVOC)被用来扩展分析目标文本中的术语和某些关系,并通过传达从Agrotermos的概念结构中继承的语义特征来辅助算法。

此外,研究所的信息专业人员一直使用AGROVOC的主要搜索界面作为参考,并在其资料库中为研究所的产品和信息编制索引,例如在农业研究数据库(BDPA)中。 

 为了使研究所更接近网络语义学环境,2010年,研究所联系了粮农组织,并从那时起一直伴随着AGROVOC的发展和演变,首先是在研究数据联盟的农业语义学工作组内进行观察,最近则是作为AGROVOC巴西葡萄牙语术语和概念的积极管理者,因此加入了编辑界及其讨论。AGROVOC对概念和术语的吸收,在知识表示和概念协调方面的经验和专长,现在已经成为Agrotermos不可逾越的参考。  

使用AGROVOC的益处

1.AGROVOC成为创建研究所自身受控词汇/语义结构Agrotermos的理论、概念和操作参考,使Agrotermos于2014年得以创建。 

2.AGROVOC是Agrotermos的一部分:在Agrotermos现有的245 000个术语中,有41 337个是直接从AGROVOC纳入的。我们向AGROVOC提供的所有更新和新的巴西葡萄牙语上传内容都自动纳入Agrotermos。 

3.AGROVOC巴西葡萄牙语术语和概念的管理工作,极大地促进了我们对概念、术语、定义、关系以及其他语义网络技术集合的理解。

4.与AGROVOC的合作,特别是在其巴西葡萄牙语术语和概念的管理方面,是丰富双方词汇的宝贵机会,并使我们能够传播庞大而多样的巴西农业科学成果。

下面的实例提供了我们在AGROVOC巴西葡萄牙语管理工作中的日常任务和挑战的一个快速样本。 

 

英文

葡萄牙语/葡萄牙

葡萄牙语/巴西

差异的原因

观察结果

Reproduction control

Controlo da reprodução

Controle da reprodução

拼写法

“Controle” 而不是 “controlo”

Ammonia

Amónia

Amônia

拼写法

“Amônia”,而不是 “amónia

Weeding

Monda

Capina

葡萄牙语/巴西中为不同的词

-

Food shortages

Penúria alimentar

Escassez alimentar

葡萄牙语/巴西中为不同的词

-

Bumble bees

Abelhão

Mamangava;mamangaba

葡萄牙语/巴西中为不同的词

巴西本土词

表1.AGROVOC中巴西葡萄牙语管理者的实例资料来源:Gtermos,2021。

 

2019年GTermos小组会议 ©Francisca Rasche

 

GTermos小组

巴西农业研究所受控词汇、农业术语和农业语义学常设委员会

Ivo Pierozzi Júnior (技术协调员)

生物学家,生态学博士,研究所农业信息学研究人员

Bibiana Teixeira de Almeida

语言文学学士,翻译,分析师

Francisca Rasche

图书管理员,信息科学硕士,森林部门分析师

Maria de Cléofas Faggion Alencar

图书管理员,教育学博士,环境部门分析师

Viviane de Oliveira Solano

图书管理员,信息科学硕士,潘塔纳尔湿地部门分析师

Leandro Henrique Mendonça de Oliveira

计算机科学家,计算机科学与计算数学博士,研究与开发秘书处分析师

Milena Ambrosio Telles

语言文学学士,信息科学博士,研究与开发秘书处分析师

Rochelle Alvorcem

图书管理员,信息科学硕士,葡萄和葡萄酒部门分析师

Vera Viana dos Santos Brandão

图书管理员,信息部门管理专家,分析师

Patrícia Rocha Bello Bertin (institutional coordinator)

生物学家,信息管理博士,制度建设秘书处研究

 

参考文献

[1] IBGE.População.Available at: https://www.ibge.gov.br/estatisticas/sociais/populacao.html.Accessed on: June 12, 2020. 

[2] FAOSTAT.Selected Indicators - Brazil.Available at: http://www.fao.org/faostat/en/#country/21.Accessed on: June 13, 2020.

[3] Map image source: WIKIMEDIA COMMONS.File:BlankMap-World-Microstates.svgContent source:File:Mapa_da_CPLP.png, CC BY-SA 4.0, By Cristiano Tomás.Available at: https://commons.wikimedia.org/w/index.php?curid=77196210.Acessed on: June 13, 2020.

[4] Map image source:File:BlankMap-World-Microstates.svgContent source:File:Mapa_da_CPLP.png, CC BY-SA 4.0, By Cristiano Tomás. https://commons.wikimedia.org/w/index.php?curid=77196210. 

[5] ZIMMERMAN, A. 'Sotaques do Brasil' desvenda as diferentes formas de falar do brasileiro.Globo.com - Jornal Hoje, 02 set.2014.Available at: http://g1.globo.com/jornal-hoje/noticia/2014/08/sotaques-do-brasil-desv… .Accessed on: 08 set.2021.