Agrotermos and the use of AGROVOC for Brazilian Portuguese terms
14/02/2022

FAO/Giorgio Cosulich de Pecine
A use case by Embrapa
El Brasil: datos y cifras
- Población: 211.639.714 habitantes (2020)
- Superficie total: 8.510.295,914 km2
- Seis biomas: sabanas (Cerrado); zonas semiáridas (Caatinga); bosques tropicales (Mata Atlântica); pastizales (Pampa), y marismas (Pantanal)
La agricultura del Brasil
- 235.918,76 miles de hectáreas de terreno agrícola
- 55.384,06 hectáreas de tierra cultivable
- 7.982 hectáreas de tierra dedicadas a cultivos permanentes
- 172.552,7 hectáreas de tierra dedicadas a praderas y pastos permanentes
- Productor importante de: soja, azúcar, carne (pollo, bovino y cerdo), maíz, café, tabaco, zumo de naranja, fruta, algodón, caña de azúcar y bioproductos
El Brasil habla portugués
- Hablan portugués unos 270 millones de personas de países de cuatro continentes: Angola, el Brasil, Cabo Verde, Guinea-Bissau, Mozambique, Portugal, Santo Tomé y Príncipe y Timor-Leste
- En 1990 estos países firmaron el Acuerdo Ortográfico para establecer una ortografía oficial única para el idioma portugués: fue un paso importante, pero el idioma sigue siendo diverso en cuanto a sintaxis, semántica y léxico
El portugués del Brasil
- Tiene una gran variedad lingüística debido a la extensión del país, su diversidad cultural y los intercambios culturales
- Tiene distintas palabras para el mismo objeto; por ejemplo: mandioca/aipim/macaxeira (mandioca/yuca) (véase la figura 1)
- Tiene la misma palabra para distintos objetos; por ejemplo:
- colher (talher/cuchara) y colher (verbo apanhar/cosechar)
- molho (caldo/salsa) y molho (primera persona singular del presente del verbo molhar/mojar)
- Tiene neologismos y extranjerismos
Actualmente los principales temas de investigación, desarrollo e innovación que orientan las carteras de proyectos de la Empresa Brasileña de Investigación Agropecuaria (Embrapa) son: los productos agroquímicos; la calificación de zonas agroecológicas; la agroecología; la Amazonía; la sanidad animal; la acuicultura; la automatización, la agricultura digital y de precisión; la bioeconomía; el control biológico; la fijación biológica del nitrógeno; los insumos biológicos; la biotecnología; los suelos del Brasil; el cambio climático; el café; la innovación institucional; el mercado de cultivares; la resistencia a la sequía (región semiárida); la energía, la tecnología y la química de biomasa; los servicios ambientales; las fibras y la biomasa para el sector industrial; la pesca y la acuicultura; la pérdida y el desperdicio de alimentos; la inocuidad de los alimentos, la nutrición y la salud; la fruticultura (de zona templada y tropical); los recursos genéticos; las geotecnologías; los cereales; la horticultura; los sistemas agrícolas-ganaderos-forestales integrados; la agricultura de regadío; la agricultura de bajas emisiones de carbono; la región del MATOPIBA; la carne; la leche; la nanotecnología; las sustancias nutrientes para la agricultura; los pastizales; la sanidad vegetal; las plagas cuarentenarias; el tratamiento de las aguas residuales rurales; la innovación social en agricultura; la inteligencia, la ordenación y el seguimiento territoriales; los transgénicos y las malas hierbas.
Para obtener más información le rogamos que consulte https://www.embrapa.br/en/web/portal/about-us
GTermos
La Comisión Permanente de Vocabularios Controlados y Terminología y Semántica Agrícolas de la Embrapa (GTermos) está dedicada a ampliar, intercambiar, difundir y gestionar los conocimientos y prácticas relacionados con la semántica y la semiótica de los datos y la información agrícolas y sus aplicaciones a la información y los procesos de gestión de los conocimientos de la Embrapa. Nuestro objetivo es ampliar el potencial de uso que presentan tanto en entornos internos como externos, en consonancia con las tendencias e iniciativas a nivel mundial. La GTermos es un grupo de trabajo permanente de la Embrapa desde mayo de 2018.
Enfoques y herramientas metodológicas y tecnológicas utilizados en la GTermos:
- Lingüística de corpus
- Cartografía, organización y representación de los conocimientos
- Visualización de datos, información y conocimientos
- Ingeniería de sistemas de conocimientos
- Cartografías y correspondencias terminológicas y análisis y alineaciones semasiológicos/onomasiológicos
- Interoperabilidad semántica
- Capacitación en Word Embeddings y su uso
- Datos abiertos y vinculados
- Espacio conceptual
- Gráfico de conocimiento (Knowledge Graph)
Agrotermos
La GTermos concibió, construyó y llevó a la práctica el Agrotermos y se encarga de su gestión. El Agrotermos es un vocabulario controlado y un espacio conceptual para el conocimiento agrícola. Se está preparando para la ampliación de sus funcionalidades tecnológicas como recurso terminológico hasta el nivel de espacio conceptual de los conocimientos agrícolas del Brasil, para lo cual se utilizan la ingeniería de la información, las metodologías y herramientas de procesamiento del lenguaje natural (NLP), la lingüística de corpus y el modelado semántico,
El Agrotermos es la plataforma de la Embrapa para organizar, cualificar y ofrecer los datos terminológicos y las aplicaciones semánticas producidos en la Embrapa. Más que un vocabulario controlado, el Agrotermos es un espacio conceptual para la representación de los conocimientos sobre agricultura y esferas conexas. Se puede acceder a él en este enlace.
El mantenimiento y la gestión del Agrotermos depende de procesos de enriquecimiento conceptual (semántico) y terminológico. En este contexto, añadir nuevos términos en Agrotermos suele requerir el uso de paisajes científicos y la extracción de términos de corpus textuales (lingüística de corpus), y la validación conceptual/terminológica por parte de especialistas de la esfera correspondiente (véase la figura 3). Así pues, los conceptos y términos de subesferas específicas de la agricultura del Brasil se incorporan modularmente en el Agrotermos.
El caso de uso basado en sistemas de información o casos de uso práctico: Agrotermos y AGROVOC
El Agrotermos se construyó mediante la reunión de las terminologías en idioma portugués contenidas en tesauros agrícolas de nivel nacional e internacional. El Agrotermos está compuesto principalmente por dos tesauros distintos que utilizan el portugués, uno de los cuales es el AGROVOC. Estos tesauros no solo componen el contenido del Agrotermos, si no que también dan forma a su estructura, que se construye a partir de las relaciones entre términos.
Todas las nuevas entradas procedentes de estos tesauros se combinan para componer el recurso terminológico y semántico más amplio e intervinculado que es el Agrotermos. Los términos contenidos en el Agrotermos no se repiten, es decir todas las adiciones/actualizaciones nuevas se indizan, pero no se sobrescriben ni repiten, y su fuente se puede identificar (véase la figure 4).
Cada mes, el Agrotermos recoge e indiza términos y conceptos del AGROVOC. Actualmente, el Agrotermos contiene unos 245.000 términos, 41.337 de los cuales proceden del AGROVOC.
A continuación toda esta infraestructura se ofrece a los depósitos de la Embrapa (como el depósito de geoinformación - GeoInfo - y el depósito de proyectos - Quaesta -, entre otros) en forma de un servicio web. Actualmente este es el principal uso del Agrotermos, y por consiguiente del AGROVOC, en la Embrapa. Así pues, el AGROVOC, como parte del Agrotermos, también desempeña una función en las aplicaciones subyacentes en el marco de la empresa que figuran a continuación:
- Correspondencia de términos: es un proceso automático e inteligente que compara (‘encuentra correspondencias’) cualquier texto o lista de términos con el contenido del Agrotermos, y produce una representación semántica conceptual del texto o la lista de la entrada que luego se ilustra como reflejo de la estructura del Agrotermos. Este proceso de encontrar correspondencias también pone de manifiesto los términos contenidos en el texto o lista que ya forman parte del Agrotermos, y por consiguiente nos ofrece nuevas listas de términos de interés para incluirlas posteriormente en nuestra estructura semántica o en el AGROVOC.
- Quaesta: es la herramienta de búsqueda de proyectos de la Embrapa y utiliza los principios de la inteligencia artificial y sus interfaces con procesamiento del lenguaje natural (NLP). En esta herramienta, el Agrotermos (y por consiguiente el AGROVOC) se utilizan como herramienta de información calificada, y el contenido textual de los proyectos se indiza utilizando los términos y sus relaciones. Por consiguiente, el Agrotermos sirve como estructura ontológica especializada para contenidos agrícolas, mejora el motor de búsqueda y amplía el alcance conceptual de la búsqueda.
- Análisis de similitudes morfosintácticas: hace poco hemos empezado a utilizar el Agrotermos para tareas específicas de análisis de similitudes textuales. Utilizamos un algoritmo para analizar la similitud morfosintáctica los de textos de los proyectos de investigación de la Embrapa con el fin de encontrar proyectos similares sobre la base del contenido textual. En este caso, el Agrotermos (y el AGROVOC) se utiliza para ampliar los términos y determinadas relaciones encontradas en los textos que han sido objeto de análisis, y esto ayuda al algoritmo mediante la comunicación de características semánticas heredadas de la estructura conceptual del Agrotermos.
Además, los profesionales de la tecnología de la información de la Embrapa siempre han utilizado la interfaz principal de búsqueda del AGROVOC como referencia y para indizar los productos y la información de la Embrapa en los depósitos de la empresa, como la Base de Dados da Pesquisa Agropecuária (BDPA).
En 2010, en una iniciativa más general de aproximación de la empresa a los entornos de web semánticas, la Embrapa se puso en contacto con la FAO y desde entonces ha venido acompañando el desarrollo y la evolución del AGROVOC, primero mediante observación en el marco del Grupo de Trabajo sobre Agrisemántica de la Alianza de Datos de la Investigación y más recientemente actuando activamente en el mantenimiento de los términos y conceptos del AGROVOC en portugués del Brasil, de modo que participa en la comunidad editorial y sus debates. La aceptación de los conceptos y términos del AGROVOC, su experiencia y su competencia en representación y alineación conceptual de los conocimientos son ya un referente insuperable para el Agrotermos
Beneficios del uso del AGROVOC
- El AGROVOC se convirtió en un referente teórico, conceptual y operacional para la creación, en 2014, del Agrotermos, la estructura de vocabulario controlado/semántica propia de la Embrapa.
- El AGROVOC es parte de Agrotermos: de los 245.000 términos que actualmente contiene el Agrotermos, 41.337 se incorporaron directamente del AGROVOC. Todas las actualizaciones y archivos cargados en portugués del Brasil que proporcionamos al AGROVOC se incorporan automáticamente al Agrotermos.
- Las actividades de mantenimiento de los términos y conceptos en portugués del Brasil contenidos en el AGROVOC contribuyen en gran medida a nuestra comprensión de aspectos de las web semánticas como las colecciones de conceptos, los términos, las definiciones y las relaciones, así como de otros tipos de tecnologías de web semántica.
- La colaboración con el AGROVOC en el mantenimiento de sus términos y conceptos en portugués del Brasil, es una oportunidad inestimable de enriquecimiento de ambos vocabularios y nos permite difundir la gran y diversa producción científica sobre agricultura en el Brasil
Los ejemplos prácticos que figuran a continuación son una muestra rápida de las tareas y desafíos cotidianos que se nos plantean en las actividades de mantenimiento de los elementos en portugués del Brasil contenidos en el AGROVOC.
ENGLISH | PT/PT | PT/BR | DIFFERENCES DUE TO | OBSERVATIONS |
Reproduction control | Controlo da reprodução | Controle da reprodução | Orthography | “Controle” instead of “controlo” |
Ammonia | Amónia | Amônia | Orthography | “Amônia” instead of “amónia” |
Weeding | Monda | Capina | Other term used in PT/BR | - |
Food shortages | Penúria alimentar | Escassez alimentar | Other term used in PT/BR | - |
Bumble bees | Abelhão | Mamangava;mamangaba | Other term used in PT/BR | Brazilian indigenous term |
Cuadro 1. Ejemplos prácticos de mantenimiento del portugués del Brasil en el AGROVOC. Fuente: GTermos, 2021.
Equipo de la GTermos - Comisión Permanente de Vocabularios Controlados y Terminología y Semántica Agrícolas de la Embrapa
Ivo Pierozzi Júnior (coordinador técnico)
Biólogo, Doctor en Ecología, investigador en la Embrapa Informática Agropecuaria
Bibiana Teixeira de Almeida
Licenciada en Lengua y Literatura, especialista en Traducción, analista de la Embrapa Territorial
Francisca Rasche
Bibliotecaria, Máster en Ciencias de la Información, analista de la Embrapa Florestas
Maria de Cléofas Faggion Alencar
Bibliotecaria, Doctora en Educación, analista de la Embrapa Meio Ambiente
Viviane de Oliveira Solano
Bibliotecaria, Máster en Ciencias de la Información, analista de la Embrapa Pantanal
Leandro Henrique Mendonça de Oliveira
Informático, Doctor en Ciencias de la Información y Matemática Computacional, analista de la Secretaría de Investigación y Desarrollo
Milena Ambrosio Telles
Licenciada en Lengua y Literatura, Doctora en Ciencias de la Información, analista de la Secretaría de Investigación y Desarrollo
Rochelle Alvorcem
Bibliotecaria, Máster en Ciencias de la Información, analista de la Embrapa Uva e Vinho
Vera Viana dos Santos Brandão
Bibliotecaria, especialista en Gestión de Unidades de Información, analista de la Embrapa Territorial
Patrícia Rocha Bello Bertin (coordinadora institucional)
Bióloga, Doctora en Gestión de la Información, investigadora de la Secretaría de Desarrollo Institucional
Referencias
[1] IBGE. População. Disponible en: https://www.ibge.gov.br/estatisticas/sociais/populacao.html. Consulado el 12 de junio de 2020.
[2] FAOSTAT. Selected Indicators - Brazil. Disponible en: http://www.fao.org/faostat/en/#country/21. Consultado el 13 de junio de 2020.
[3] Fuente de la imagen del mapa: WIKIMEDIA COMMONS. File:BlankMap-World-Microstates.svg. Fuente del contenido: Arxivo: Mapa_da_CPLP.png, CC BY-SA 4.0, por Cristiano Tomás. Disponible en: https://commons.wikimedia.org/w/index.php?curid=77196210. Consulado el 13 de junio de 2020.
[4] Fuente de la imagen del mapa: File:BlankMap-World-Microstates.svg. Fuente del contenido: File:Mapa_da_CPLP.png, CC BY-SA 4.0, por Cristiano Tomás. https://commons.wikimedia.org/w/index.php?curid=77196210.
[5] ZIMMERMAN, A. 'Sotaques do Brasil' desvenda as diferentes formas de falar do brasileiro. Globo.com - Jornal Hoje, 2 de septiembre de 2014. Disponible en : http://g1.globo.com/jornal-hoje/noticia/2014/08/sotaques-do-brasil-desv… . Consultado el 8 de septiembre de 2021.