О вашем учреждении и проекте: Бразилия, Embrapa и GTermos

FAO/Giorgio Cosulich de Pecine

A use case by Embrapa

Бразилия: факты и цифры

  • Население: 211 639 714 (2020 год)
  • Общая площадь: 8 510 295,914 кв. км 
  • Шесть биомов: саванны (Cerrado); полузасушливые тропики (Caatinga); тропические леса (Mata Atlântica); луговые степи (Pampa); болота (Pantanal)

Сельское хозяйство Бразилии

  • 235 918,76 тыс. га сельскохозяйственных земель
  • 55 384,06 га пахотных земель
  • 7 982 га земель под многолетними культурами
  • 172 552,7 га земель под многолетними лугами и пастбищами
  • Страна – главный производитель сои, сахара, мяса (птица, говядина, свинина), кукурузы, кофе, табака, апельсинового сока, фруктов, хлопка, сахарного тростника и биопродуктов[3]

Язык – португальский

  • Около 270 миллионов человек на четырех континентах говорят на португальском – в Анголе, Бразилии, Гвинее-Бисау, Кабо-Верде, Мозамбике, Португалии, Сан-Томе и Принсипи, Тимор-Лешти.
  • В 1990 году эти страны подписали Соглашение о португальской орфографии, чтобы установить единую официальную орфографическую норму для португальского языка (PT). Это был важный шаг, но язык по-прежнему остается синтаксически, семантически и лексически разнообразным. 

Бразильский португальский (PT/BR)

  • Для бразильского португальского характерно большое лингвистическое разнообразие, обусловленное размерами страны, культурным многообразием и взаимопроникновением культур. 
  • Разные слова для одного объекта, например: mandioca/aipim/macaxeira (маниок/кассава) (см. рисунок 1).
  • Одно слово для разных объектов, например:

- colher (talher/ложка) и colher (глагол apanhar/собирать урожай)

- molho (caldo/соус) и molho (глагол molhar/смачивать)

  • Неологизмы и заимствования.

Рисунок 1. Примеры разных названий для маниока (Manihot esculenta), используемых в Бразилии, и их концептуальная структура в словаре Agrotermos. Источник: Banco Multimídia da Embrapa, 2017; Фото: Ronaldo Rosa, 2021; карта: Zimmerman, 2014; график: Agrotermos, 2021; рисунок: GTermos, Suzi Carneiro, 2021.

 

MapaDescrição gerada automaticamente com confiança média
Рисунок 2. Организационная структура Embrapa. Источник: GTermos, 2021 год. 

В настоящее время в число основных направлений научно-исследовательской работы Embrapa (Бразильская корпорация сельскохозяйственных исследований) входят: агрохимикаты; автоматизация, цифровое и прецизионное сельское хозяйство; агроэкологическое зонирование; агроэкология; аквакультура; Амазония; безопасность пищевой продукции, питание и здравоохранение; биологическая фиксация азота; биологический контроль; биотехнологии; биоэкономика; ветеринария; волокна и биомасса для промышленного использования; генетические ресурсы; геотехнологии; засухоустойчивость (полузасушливые регионы); здоровье растений; злаки; изменение климата; карантинные вредители; комплексные системы сельского и лесного хозяйства и животноводства (ICLFS); корпоративные инновации; кофе; биологические материалы; лес; Матопиба (регион); менеджмент и мониторинг; молоко; мясо; нанотехнологии; низкоуглеродное сельское хозяйство; орошаемое земледелие; очистка сточных вод в сельском хозяйстве; пастбища; плодоовощеводство; потери и порча пищевой продукции; почвы Бразилии; рыболовство и аквакультура; рынок культурных сортов; садоводство (в умеренном и тропическом климате); система мониторинга территорий; сорняки; социальные инновации в сельском хозяйстве; трансгенные методы; удобрения; экологические услуги; энергетика, технология и химия производства биомассы.

С более подробной информацией можно познакомиться на сайте https://www.embrapa.br/en/web/portal/about-us.

GTermos

 GTermos – постоянная комиссия по контролируемым словарям, агротерминологии и семантике агротерминов корпорации Embrapa занимается процессами управления знаниями, т.е. формированием, обменом, распространением знаний и методов, относящихся к семантике и семиотике сельскохозяйственных данных и информации, и их применением. Задача GTermos – расширить возможности использования знаний как в стране, так и за ее пределами в соответствии с глобальными тенденциями и инициативами. GTermos является постоянной рабочей группой с мая 2018 года.

Методологические и технологические подходы и инструменты, используемые GTermos:

 

  • корпусная лингвистика
  • картирование, организация и представление знаний 
  • визуализация данных, информации и знаний
  • инжиниринг систем организации знаний
  • картирование и согласование терминов и семасиологический/ономасиологический анализ и связи
  • семантическое взаимодействие
  • обучение ИИ и использование векторного представления слов
  • открытые и связанные данные
  • концептуальный анализ текста
  • граф знаний

Словарь Agrotermos

GTermos разработала, создала и поддерживает Agrotermos – контролируемый словарь и концептуальное пространство для сельскохозяйственных знаний. Используя информационные технологии, методы и инструменты обработки естественного языка, корпусную лингвистику и семантическое моделирование, Agrotermos в настоящее время готовится расширить свою технологическую функциональность в качестве терминологического ресурса до уровня концептуального пространства для бразильских сельскохозяйственных знаний.

Agrotermos является платформой Embrapa для систематизации, категоризации и предоставления терминологических данных и семантических приложений, созданных в Embrapa. Agrotermos – нечто большее, чем контролируемый словарь, это концептуальное пространство для представления знаний о сельском хозяйстве и смежных отраслях. Получить доступ к Agrotermos можно по ссылке.

Курирование и управление Agrotermos основывается на концептуальном (семантическом) и терминологическом процессах реструктуризации/пополнения информацией. В этом смысле добавление новых терминов в Agrotermos, как правило, включает использование научных ландшафтов, построенных с помощью информационно-аналитических систем, и извлечение терминов из текстового корпуса (корпусная лингвистика) и концептуальную/терминологическую валидацию отраслевыми специалистами (см. рисунок 3). Таким образом понятия и термины конкретных подобластей науки о сельском хозяйстве Бразилии модульно включаются в Agrotermos. 

 

Рисунок 3. Научный ландшафт, полученный с помощью программы VOSviewer для темы pasture. Источник: InfoPasto Project/GTermos, 2019 год.

 

Пример использования на основе информационной системы или практического использования: Agrotermos и АГРОВОК

Agrotermos был построен путем объединения португалоязычных терминологий, представленных в национальных и международных сельскохозяйственных тезаурусах, и составлен главным образом из двух различных португальских тезаурусов, один из которых –АГРОВОК. Эти тезаурусы составляют не только содержание Agrotermos, но и формируют его структуру, которая определяется связями между терминами. 

Все новые поступления из этих тезаурусов объединяются в расширенный, взаимосвязанный терминологический и семантический ресурс, которым является Agrotermos. Термины не дублируются, т.е. все добавления/обновления индексируются, но не перезаписываются и не дублируются, и их источник четко идентифицируется (см. рисунок 4). 

 

Рисунок 4. График, отображающий все связи термина sistema agrosilvopastoril в структуре Agrotermos и его происхождение (АГРОВОК). Источник: Gtermos, 2021 год.

 

Ежемесячно Agrotermos собирает и индексирует термины и понятия АГРОВОК. В настоящее время Agrotermos включает приблизительно 245 000 терминов, 41 337 из которых были включены из АГРОВОК. 

Вся инфраструктура затем предоставляется в репозитории Embrapa (например, в геоинформационный репозиторий GeoInfo или в репозиторий информации по проектам Quaesta) через веб-службы. В настоящее время это основное применение Agrotermos и, следовательно, АГРОВОК в Embrapa. Являясь частью Agrotermos, АГРОВОК, таким образом, также используется в следующих корпоративных прикладных программах: 

  1. Установление соответствия между терминами: автоматизированный настраиваемый процесс сравнения (сопоставления) любого текста или списка терминов с содержимым Agrotermos позволяет получить концептуальное, семантическое представление вводимого текста или списка, которое затем описывается в соответствии со структурой Agrotermos. В процессе сравнения также выявляются содержащиеся в тексте или списке термины, которые уже включены в Agrotermos, и таким образом мы получаем дополнительные списки представляющих интерес терминов для включения в дальнейшем в нашу семантическую структуру или в АГРОВОК.
  2. Quaesta: инструмент исследования проектов Embrapa использует принципы искусственного интеллекта (ИИ) и его интерфейсы обработки естественного языка (NLP). В этом инструменте Agrotermos (и, следовательно, АГРОВОК) используется как специальный информационный инструмент, и текстовое содержание проектов индексируется с использованием терминов и их взаимосвязей. Таким образом, Agrotermos служит специализированной онтологической структурой для сельскохозяйственной информации, совершенствуя поисковый механизм и расширяя понятийный охват поиска. 
  3. Анализ морфосинтаксической близости: недавно мы начали использовать Agrotermos для решения специфических задач анализа текстуального сходства. Мы используем алгоритм для анализа морфосинтаксического сходства текстов исследовательских проектов Embrapa, чтобы находить схожие проекты на основе их текстового содержания. В этом случае Agrotermos (и АГРОВОК) используется для расширения терминов и отдельных взаимосвязей, обнаруженных в анализируемых текстах, и помогает алгоритму, представляя семантические характеристики, унаследованные от концептуальной структуры Agrotermos.

Специалисты Embrapa по работе с информацией всегда используют главный интерфейс поиска АГРОВОК в качестве справочной базы и для индексирования продуктов корпорации и информации в ее репозиториях, таких как База данных сельскохозяйственных исследований (BDPA)

В рамках усилий по наращиванию объема семантических публикаций в 2010 году Embrapa обратилась в ФАО и с тех пор содействует развитию и совершенствованию АГРОВОК сначала в качестве наблюдателя в составе Рабочей группы по агросемантике Альянса по обмену данными научных исследований, а затем как активный куратор терминов и понятий на бразильском варианте португальского языка, участвуя в работе и дискуссиях редакционного сообщества. Понятийное и терминологическое пополнение АГРОВОК, опыт и экспертные знания в области представления знаний и согласования понятий на сегодняшний день – лучшая рекомендация для Agrotermos. 

Преимущества использования АГРОВОК

1. АГРОВОК стал теоретической, концептуальной и операционной основой для создания в 2014 году корпоративного контролируемого словаря/семантической структуры Embrapa – Agrotermos. 

2. АГРОВОК является частью Agrotermos: из 245 000 терминов, в настоящее время входящих в Agrotermos, 41 337 терминов поступили непосредственно из АГРОВОК. Все обновления и новые поступления на бразильском варианте португальского языка, которые мы поставляем в АГРОВОК, автоматически включаются в Agrotermos. 

3. Курирование терминов и понятий АГРОВОК на бразильском варианте португальского языка в значительной мере способствует нашему пониманию коллекций понятий, терминов, определений и их взаимосвязей и других семантических веб-технологий.

4. Сотрудничество с АГРОВОК в рамках нашей роли куратора входящих в него терминов и понятий на бразильском варианте португальского языка предоставляет бесценную возможность обогащать оба словаря и позволяет нам распространять огромный массив работ бразильских ученых, занимающихся проблемами сельского хозяйства.

Следующий пример позволяет представить наши повседневные проблемы и задачи, связанные с курированием терминов на бразильском варианте португальского языка в АГРОВОК. 

АНГЛИЙСКИЙ

ПОРТУ-ГАЛЬСКИЙ

БРАЗИЛЬСКИЙ ВАРИАНТ ПОРТУГАЛЬСКОГО

ПРИЧИНА РАЗЛИЧИЙ

ПРИМЕЧАНИЯ

Reproduction control

Controlo da reprodução

Controle da reprodução

Орфография

“Controle”  вместо “controlo”

Ammonia

Amónia

Amônia

Орфография

“Amônia”, вместо “amónia

Weeding

Monda

Capina

В бразильском варианте португальского используется другой термин.

-

Food shortages

Penúria alimentar

Escassez alimentar

В бразильском варианте португальского используется другой термин.

-

Bumble bees

Abelhão

Mamangava;mamangaba

В бразильском варианте португальского используется другой термин.

Местное название

Таблица 1. Практические примеры курирования терминов на бразильском варианте португальского языка в АГРОВОК. Источник: GTermos, 2021.

 

 



Собрание сотрудников Gtermos, 2019 год. ©Francisca Rasche

Сотрудники Gtermos, постоянной комиссии по контролируемым словарям, агротерминологии и семантике агротерминов Embrapa

Иво Пиероззи Жуниор (технический координатор)

Биолог, к.н. в области экологии, научный сотрудник в Embrapa Informática Agropecuária

Бибиана Тейксейра де Алмейда 

Бакалавр филологии, переводчик, аналитик в Embrapa Territorial

Франциска Раше

Библиотекарь, магистр в области информатики, аналитик в Embrapa Florestas

Мария де Клэофас Фажжион Аленсар

Библиотекарь, к.н. в области педагогики, аналитик в Embrapa Meio Ambiente

Вивиан де Оливейра Солано

Библиотекарь, магистр в области информатики, аналитик в Embrapa Pantanal

Леандро Энрике Мендонса де Оливейра

Информатик, к.н. в области информатики и вычислительной математики, аналитик в Секретариате исследовательской работы и развития

Милена Амброзио Теллес

Бакалавр филологии, к.н. в области информатики, аналитик в Секретариате исследовательской работы и развития

Рошель Алворсем

Библиотекарь, магистр в области информатики, аналитик в Embrapa Uva e Vinho

Вера Виана дус Сантус Брандау

Библиотекарь, специалист по управлению блоками информации, аналитик в Embrapa Territorial

Патрисиа Роша Бело Бертин (организационный координатор)

Биолог, к.н. в области информатики, научный сотрудник в Секретариате организационного развития

 

Источники

[1] IBGE. População. Available at: https://www.ibge.gov.br/estatisticas/sociais/populacao.html. Accessed on: June 12, 2020. 

[2] FAOSTAT. Selected Indicators - Brazil. Available at: http://www.fao.org/faostat/en/#country/21. Accessed on: June 13, 2020.

[3] Map image source: WIKIMEDIA COMMONS. File:BlankMap-World-Microstates.svgContent source:File:Mapa_da_CPLP.png, CC BY-SA 4.0, By Cristiano Tomás. Available at: https://commons.wikimedia.org/w/index.php?curid=77196210. Acessed on: June 13, 2020.

[4] Map image source:File:BlankMap-World-Microstates.svgContent source:File:Mapa_da_CPLP.png, CC BY-SA 4.0, By Cristiano Tomás. https://commons.wikimedia.org/w/index.php?curid=77196210. 

[5] ZIMMERMAN, A. 'Sotaques do Brasil' desvenda as diferentes formas de falar do brasileiro. Globo.com - Jornal Hoje, 02 set. 2014. Available at: http://g1.globo.com/jornal-hoje/noticia/2014/08/sotaques-do-brasil-desv… . Accessed on: 08 set. 2021.