Agrotermos and the use of AGROVOC for Brazilian Portuguese terms

FAO/Giorgio Cosulich de Pecine

A use case by Embrapa

El Brasil: datos y cifras

  • Población: 211.639.714 habitantes (2020)
  • Superficie total: 8.510.295,914 km2
  • Seis biomas: sabanas (Cerrado); zonas semiáridas (Caatinga); bosques tropicales (Mata Atlântica); pastizales (Pampa), y marismas (Pantanal)

La agricultura del Brasil

  • 235.918,76 miles de hectáreas de terreno agrícola
  • 55.384,06 hectáreas de tierra cultivable
  • 7.982 hectáreas de tierra dedicadas a cultivos permanentes
  • 172.552,7 hectáreas de tierra dedicadas a praderas y pastos permanentes
  • Productor importante de: soja, azúcar, carne (pollo, bovino y cerdo), maíz, café, tabaco, zumo de naranja, fruta, algodón, caña de azúcar y bioproductos

El Brasil habla portugués

  • Hablan portugués unos 270 millones de personas de países de cuatro continentes: Angola, el Brasil, Cabo Verde, Guinea-Bissau, Mozambique, Portugal, Santo Tomé y Príncipe y Timor-Leste
  • En 1990 estos países firmaron el Acuerdo Ortográfico para establecer una ortografía oficial única para el idioma portugués: fue un paso importante, pero el idioma sigue siendo diverso en cuanto a sintaxis, semántica y léxico 

El portugués del Brasil

  • Tiene una gran variedad lingüística debido a la extensión del país, su diversidad cultural y los intercambios culturales
  • Tiene distintas palabras para el mismo objeto; por ejemplo: mandioca/aipim/macaxeira (mandioca/yuca) (véase la figura 1)
  • Tiene la misma palabra para distintos objetos; por ejemplo:
  1. colher (talher/cuchara) y colher (verbo apanhar/cosechar)
  2. molho (caldo/salsa) y molho (primera persona singular del presente del verbo molhar/mojar)
  • Tiene neologismos y extranjerismos

Figura 1. Ejemplo de distintas las palabras para ‘Manihot esculenta’ que se utilizan en el Brasil y su estructura conceptual en Agrotermos. Fuente: Banco Multimídia da Embrapa, 2017; Fotografía: Ronaldo Rosa, 2021; Mapa: Zimmerman, 2014; Grafico: Agrotermos,  2021; Ilustración: GTermos, Suzi Carneiro, 2021.

 

MapaDescrição gerada automaticamente com confiança média
Figura 2. Información esencial sobre la estructura organizacional de la Embrapa. Fuente: GTermos, 2021.

Actualmente los principales temas de investigación, desarrollo e innovación que orientan las carteras de proyectos de la Empresa Brasileña de Investigación Agropecuaria (Embrapa) son: los productos agroquímicos; la calificación de zonas agroecológicas; la agroecología; la Amazonía; la sanidad animal; la acuicultura; la automatización, la agricultura digital y de precisión; la bioeconomía; el control biológico; la fijación biológica del nitrógeno; los insumos biológicos; la biotecnología; los suelos del Brasil; el cambio climático; el café; la innovación institucional; el mercado de cultivares; la resistencia a la sequía (región semiárida); la energía, la tecnología y la química de biomasa; los servicios ambientales; las fibras y la biomasa para el sector industrial; la pesca y la acuicultura; la pérdida y el desperdicio de alimentos; la inocuidad de los alimentos, la nutrición y la salud; la fruticultura (de zona templada y tropical); los recursos genéticos; las geotecnologías; los cereales; la horticultura; los sistemas agrícolas-ganaderos-forestales integrados; la agricultura de regadío; la agricultura de bajas emisiones de carbono; la región del MATOPIBA; la carne; la leche; la nanotecnología; las sustancias nutrientes para la agricultura; los pastizales; la sanidad vegetal; las plagas cuarentenarias; el tratamiento de las aguas residuales rurales; la innovación social en agricultura; la inteligencia, la ordenación y el seguimiento territoriales; los transgénicos y las malas hierbas.

Para obtener más información le rogamos que consulte https://www.embrapa.br/en/web/portal/about-us

GTermos

La Comisión Permanente de Vocabularios Controlados y Terminología y Semántica Agrícolas de la Embrapa (GTermos) está dedicada a ampliar, intercambiar, difundir y gestionar los conocimientos y prácticas relacionados con la semántica y la semiótica de los datos y la información agrícolas y sus aplicaciones a la información y los procesos de gestión de los conocimientos de la Embrapa. Nuestro objetivo es ampliar el potencial de uso que presentan tanto en entornos internos como externos, en consonancia con las tendencias e iniciativas a nivel mundial. La GTermos es un grupo de trabajo permanente de la Embrapa desde mayo de 2018.

Enfoques y herramientas metodológicas y tecnológicas utilizados en la GTermos:

  • Lingüística de corpus 
  • Cartografía, organización y representación de los conocimientos
  • Visualización de datos, información y conocimientos
  • Ingeniería de sistemas de conocimientos
  • Cartografías y correspondencias terminológicas y análisis y alineaciones semasiológicos/onomasiológicos
  • Interoperabilidad semántica
  • Capacitación en Word Embeddings y su uso
  • Datos abiertos y vinculados
  • Espacio conceptual 
  • Gráfico de conocimiento (Knowledge Graph)

Agrotermos

La GTermos concibió, construyó y llevó a la práctica el Agrotermos y se encarga de su gestión. El Agrotermos es un vocabulario controlado y un espacio conceptual para el conocimiento agrícola. Se está preparando para la ampliación de sus funcionalidades tecnológicas como recurso terminológico hasta el nivel de espacio conceptual de los conocimientos agrícolas del Brasil, para lo cual se utilizan la ingeniería de la información, las metodologías y herramientas de procesamiento del lenguaje natural (NLP), la lingüística de corpus y el modelado semántico,

El Agrotermos es la plataforma de la Embrapa para organizar, cualificar y ofrecer los datos terminológicos y las aplicaciones semánticas producidos en la Embrapa. Más que un vocabulario controlado, el Agrotermos es un espacio conceptual para la representación de los conocimientos sobre agricultura y esferas conexas. Se puede acceder a él en este enlace.

El mantenimiento y la gestión del Agrotermos depende de procesos de enriquecimiento conceptual (semántico) y terminológico. En este contexto, añadir nuevos términos en Agrotermos suele requerir el uso de paisajes científicos y la extracción de términos de corpus textuales (lingüística de corpus), y la validación conceptual/terminológica por parte de especialistas de la esfera correspondiente (véase la figura 3). Así pues, los conceptos y términos de subesferas específicas de la agricultura del Brasil se incorporan modularmente en el Agrotermos.

Figura 3. Paisaje científico producido por VOSviewer para el tema 'pastizal'. Fuente: InfoPasto Project/GTermos, 2019.

 

El caso de uso basado en sistemas de información o casos de uso práctico: Agrotermos y AGROVOC

El Agrotermos se construyó mediante la reunión de las terminologías en idioma portugués contenidas en tesauros agrícolas de nivel nacional e internacional. El Agrotermos está compuesto principalmente por dos tesauros distintos que utilizan el portugués, uno de los cuales es el AGROVOC. Estos tesauros no solo componen el contenido del Agrotermos, si no que también dan forma a su estructura, que se construye a partir de las relaciones entre términos.

Todas las nuevas entradas procedentes de estos tesauros se combinan para componer el recurso terminológico y semántico más amplio e intervinculado que es el Agrotermos. Los términos contenidos en el Agrotermos no se repiten, es decir todas las adiciones/actualizaciones nuevas se indizan, pero no se sobrescriben ni repiten, y su fuente se puede identificar (véase la figure 4).

Figura 4. Recurso gráfico que ilustra todas las conexiones del término ‘sistema agrosilvopastoril’ en la estructura del y su origen (AGROVOC). Fuente: Gtermos, 2021

Cada mes, el Agrotermos recoge e indiza términos y conceptos del AGROVOC. Actualmente, el Agrotermos contiene unos 245.000 términos, 41.337 de los cuales proceden del AGROVOC.

A continuación toda esta infraestructura se ofrece a los depósitos de la Embrapa (como el depósito de geoinformación - GeoInfo - y el depósito de proyectos - Quaesta -, entre otros) en forma de un servicio web. Actualmente este es el principal uso del Agrotermos, y por consiguiente del AGROVOC, en la Embrapa. Así pues, el AGROVOC, como parte del Agrotermos, también desempeña una función en las aplicaciones subyacentes en el marco de la empresa que figuran a continuación:

  1. Correspondencia de términos: es un proceso automático e inteligente que compara (‘encuentra correspondencias’) cualquier texto o lista de términos con el contenido del Agrotermos, y produce una representación semántica conceptual del texto o la lista de la entrada que luego se ilustra como reflejo de la estructura del Agrotermos. Este proceso de encontrar correspondencias también pone de manifiesto los términos contenidos en el texto o lista que ya forman parte del Agrotermos, y por consiguiente nos ofrece nuevas listas de términos de interés para incluirlas posteriormente en nuestra estructura semántica o en el AGROVOC.
  2. Quaesta: es la herramienta de búsqueda de proyectos de la Embrapa y utiliza los principios de la inteligencia artificial y sus interfaces con procesamiento del lenguaje natural (NLP). En esta herramienta, el Agrotermos (y por consiguiente el AGROVOC) se utilizan como herramienta de información calificada, y el contenido textual de los proyectos se indiza utilizando los términos y sus relaciones. Por consiguiente, el Agrotermos sirve como estructura ontológica especializada para contenidos agrícolas, mejora el motor de búsqueda y amplía el alcance conceptual de la búsqueda.
  3. Análisis de similitudes morfosintácticas: hace poco hemos empezado a utilizar el Agrotermos para tareas específicas de análisis de similitudes textuales. Utilizamos un algoritmo para analizar la similitud morfosintáctica los de textos de los proyectos de investigación de la Embrapa con el fin de encontrar proyectos similares sobre la base del contenido textual. En este caso, el Agrotermos (y el AGROVOC) se utiliza para ampliar los términos y determinadas relaciones encontradas en los textos que han sido objeto de análisis, y esto ayuda al algoritmo mediante la comunicación de características semánticas heredadas de la estructura conceptual del Agrotermos.

Además, los profesionales de la tecnología de la información de la Embrapa siempre han utilizado la interfaz principal de búsqueda del AGROVOC como referencia y para indizar los productos y la información de la Embrapa en los depósitos de la empresa, como la Base de Dados da Pesquisa Agropecuária (BDPA).

En 2010, en una iniciativa más general de aproximación de la empresa a los entornos de web semánticas, la Embrapa se puso en contacto con la FAO y desde entonces ha venido acompañando el desarrollo y la evolución del AGROVOC, primero mediante observación en el marco del Grupo de Trabajo sobre Agrisemántica de la Alianza de Datos de la Investigación y más recientemente actuando activamente en el mantenimiento de los términos y conceptos del AGROVOC en portugués del Brasil, de modo que participa en la comunidad editorial y sus debates. La aceptación de los conceptos y términos del AGROVOC, su experiencia y su competencia en representación y alineación conceptual de los conocimientos son ya un referente insuperable para el Agrotermos

Beneficios del uso del AGROVOC

  1. El AGROVOC se convirtió en un referente teórico, conceptual y operacional para la creación, en 2014, del Agrotermos, la estructura de vocabulario controlado/semántica propia de la Embrapa.
  2. El AGROVOC es parte de Agrotermos: de los 245.000 términos que actualmente contiene el Agrotermos, 41.337 se incorporaron directamente del AGROVOC. Todas las actualizaciones y archivos cargados en portugués del Brasil que proporcionamos al AGROVOC se incorporan automáticamente al Agrotermos.
  3. Las actividades de mantenimiento de los términos y conceptos en portugués del Brasil contenidos en el AGROVOC contribuyen en gran medida a nuestra comprensión de aspectos de las web semánticas como las colecciones de conceptos, los términos, las definiciones y las relaciones, así como de otros tipos de tecnologías de web semántica.
  4. La colaboración con el AGROVOC en el mantenimiento de sus términos y conceptos en portugués del Brasil, es una oportunidad inestimable de enriquecimiento de ambos vocabularios y nos permite difundir la gran y diversa producción científica sobre agricultura en el Brasil

Los ejemplos prácticos que figuran a continuación son una muestra rápida de las tareas y desafíos cotidianos que se nos plantean en las actividades de mantenimiento de los elementos en portugués del  Brasil contenidos en el AGROVOC.

ENGLISH

PT/PT

PT/BR

DIFFERENCES DUE TO

OBSERVATIONS

Reproduction control

Controlo da reprodução

Controle da reprodução

Orthography

Controle” instead of “controlo”

Ammonia

Amónia

Amônia

Orthography

Amônia” instead of “amónia”

Weeding

Monda

Capina

Other term used in PT/BR

-

Food shortages

Penúria alimentar

Escassez alimentar

Other term used in PT/BR

-

Bumble bees

Abelhão

Mamangava;mamangaba

Other term used in PT/BR

Brazilian indigenous term

 Cuadro 1. Ejemplos prácticos de mantenimiento del portugués del Brasil en el AGROVOC. Fuente: GTermos, 2021.

Reunión de equipo de la GTermos en 2019. ©Francisca Rasche

Equipo de la GTermos - Comisión Permanente de Vocabularios Controlados y Terminología y Semántica Agrícolas de la Embrapa 

Ivo Pierozzi Júnior (coordinador técnico)

Biólogo, Doctor en Ecología, investigador en la Embrapa Informática Agropecuaria 

Bibiana Teixeira de Almeida

Licenciada en Lengua y Literatura, especialista en Traducción, analista de la Embrapa Territorial

Francisca Rasche

Bibliotecaria, Máster en Ciencias de la Información, analista de la Embrapa Florestas

Maria de Cléofas Faggion Alencar

Bibliotecaria, Doctora en Educación, analista de la Embrapa Meio Ambiente

Viviane de Oliveira Solano

Bibliotecaria, Máster en Ciencias de la Información, analista de la Embrapa Pantanal

Leandro Henrique Mendonça de Oliveira

Informático, Doctor en Ciencias de la Información y Matemática Computacional, analista de la Secretaría de Investigación y Desarrollo

Milena Ambrosio Telles

Licenciada en Lengua y Literatura, Doctora en Ciencias de la Información, analista de la Secretaría de Investigación y Desarrollo

Rochelle Alvorcem

Bibliotecaria, Máster en Ciencias de la Información, analista de la Embrapa Uva e Vinho

Vera Viana dos Santos Brandão

Bibliotecaria, especialista en Gestión de Unidades de Información, analista de la Embrapa Territorial

Patrícia Rocha Bello Bertin (coordinadora institucional)

Bióloga, Doctora en Gestión de la Información, investigadora de la Secretaría de Desarrollo Institucional

 

Referencias

[1] IBGE. População. Disponible en: https://www.ibge.gov.br/estatisticas/sociais/populacao.html. Consulado el 12 de junio de 2020. 

[2] FAOSTAT. Selected Indicators - Brazil. Disponible en: http://www.fao.org/faostat/en/#country/21. Consultado el 13 de junio de 2020.

[3] Fuente de la imagen del mapa: WIKIMEDIA COMMONS. File:BlankMap-World-Microstates.svg. Fuente del contenido: Arxivo: Mapa_da_CPLP.png, CC BY-SA 4.0, por Cristiano Tomás. Disponible en: https://commons.wikimedia.org/w/index.php?curid=77196210. Consulado el 13 de junio de 2020.

[4] Fuente de la imagen del mapa: File:BlankMap-World-Microstates.svg. Fuente del contenido: File:Mapa_da_CPLP.png, CC BY-SA 4.0, por Cristiano Tomás. https://commons.wikimedia.org/w/index.php?curid=77196210. 

[5]  ZIMMERMAN, A. 'Sotaques do Brasil' desvenda as diferentes formas de falar do brasileiro. Globo.com - Jornal Hoje, 2 de septiembre de 2014. Disponible en : http://g1.globo.com/jornal-hoje/noticia/2014/08/sotaques-do-brasil-desv… . Consultado el 8 de septiembre de 2021.