О вашем учреждении и проекте: Бразилия, Embrapa и GTermos
08/07/2022

FAO/Giorgio Cosulich de Pecine
A use case by Embrapa
Бразилия: факты и цифры
- Население: 211 639 714 (2020 год)
- Общая площадь: 8 510 295,914 кв. км
- Шесть биомов: саванны (Cerrado); полузасушливые тропики (Caatinga); тропические леса (Mata Atlântica); луговые степи (Pampa); болота (Pantanal)
Сельское хозяйство Бразилии
- 235 918,76 тыс. га сельскохозяйственных земель
- 55 384,06 га пахотных земель
- 7 982 га земель под многолетними культурами
- 172 552,7 га земель под многолетними лугами и пастбищами
- Страна – главный производитель сои, сахара, мяса (птица, говядина, свинина), кукурузы, кофе, табака, апельсинового сока, фруктов, хлопка, сахарного тростника и биопродуктов[3]
Язык – португальский
- Около 270 миллионов человек на четырех континентах говорят на португальском – в Анголе, Бразилии, Гвинее-Бисау, Кабо-Верде, Мозамбике, Португалии, Сан-Томе и Принсипи, Тимор-Лешти.
- В 1990 году эти страны подписали Соглашение о португальской орфографии, чтобы установить единую официальную орфографическую норму для португальского языка (PT). Это был важный шаг, но язык по-прежнему остается синтаксически, семантически и лексически разнообразным.
Бразильский португальский (PT/BR)
- Для бразильского португальского характерно большое лингвистическое разнообразие, обусловленное размерами страны, культурным многообразием и взаимопроникновением культур.
- Разные слова для одного объекта, например: mandioca/aipim/macaxeira (маниок/кассава) (см. рисунок 1).
- Одно слово для разных объектов, например:
- colher (talher/ложка) и colher (глагол apanhar/собирать урожай)
- molho (caldo/соус) и molho (глагол molhar/смачивать)
- Неологизмы и заимствования.
В настоящее время в число основных направлений научно-исследовательской работы Embrapa (Бразильская корпорация сельскохозяйственных исследований) входят: агрохимикаты; автоматизация, цифровое и прецизионное сельское хозяйство; агроэкологическое зонирование; агроэкология; аквакультура; Амазония; безопасность пищевой продукции, питание и здравоохранение; биологическая фиксация азота; биологический контроль; биотехнологии; биоэкономика; ветеринария; волокна и биомасса для промышленного использования; генетические ресурсы; геотехнологии; засухоустойчивость (полузасушливые регионы); здоровье растений; злаки; изменение климата; карантинные вредители; комплексные системы сельского и лесного хозяйства и животноводства (ICLFS); корпоративные инновации; кофе; биологические материалы; лес; Матопиба (регион); менеджмент и мониторинг; молоко; мясо; нанотехнологии; низкоуглеродное сельское хозяйство; орошаемое земледелие; очистка сточных вод в сельском хозяйстве; пастбища; плодоовощеводство; потери и порча пищевой продукции; почвы Бразилии; рыболовство и аквакультура; рынок культурных сортов; садоводство (в умеренном и тропическом климате); система мониторинга территорий; сорняки; социальные инновации в сельском хозяйстве; трансгенные методы; удобрения; экологические услуги; энергетика, технология и химия производства биомассы.
С более подробной информацией можно познакомиться на сайте https://www.embrapa.br/en/web/portal/about-us.
GTermos
GTermos – постоянная комиссия по контролируемым словарям, агротерминологии и семантике агротерминов корпорации Embrapa занимается процессами управления знаниями, т.е. формированием, обменом, распространением знаний и методов, относящихся к семантике и семиотике сельскохозяйственных данных и информации, и их применением. Задача GTermos – расширить возможности использования знаний как в стране, так и за ее пределами в соответствии с глобальными тенденциями и инициативами. GTermos является постоянной рабочей группой с мая 2018 года.
Методологические и технологические подходы и инструменты, используемые GTermos:
- корпусная лингвистика
- картирование, организация и представление знаний
- визуализация данных, информации и знаний
- инжиниринг систем организации знаний
- картирование и согласование терминов и семасиологический/ономасиологический анализ и связи
- семантическое взаимодействие
- обучение ИИ и использование векторного представления слов
- открытые и связанные данные
- концептуальный анализ текста
- граф знаний
Словарь Agrotermos
GTermos разработала, создала и поддерживает Agrotermos – контролируемый словарь и концептуальное пространство для сельскохозяйственных знаний. Используя информационные технологии, методы и инструменты обработки естественного языка, корпусную лингвистику и семантическое моделирование, Agrotermos в настоящее время готовится расширить свою технологическую функциональность в качестве терминологического ресурса до уровня концептуального пространства для бразильских сельскохозяйственных знаний.
Agrotermos является платформой Embrapa для систематизации, категоризации и предоставления терминологических данных и семантических приложений, созданных в Embrapa. Agrotermos – нечто большее, чем контролируемый словарь, это концептуальное пространство для представления знаний о сельском хозяйстве и смежных отраслях. Получить доступ к Agrotermos можно по ссылке.
Курирование и управление Agrotermos основывается на концептуальном (семантическом) и терминологическом процессах реструктуризации/пополнения информацией. В этом смысле добавление новых терминов в Agrotermos, как правило, включает использование научных ландшафтов, построенных с помощью информационно-аналитических систем, и извлечение терминов из текстового корпуса (корпусная лингвистика) и концептуальную/терминологическую валидацию отраслевыми специалистами (см. рисунок 3). Таким образом понятия и термины конкретных подобластей науки о сельском хозяйстве Бразилии модульно включаются в Agrotermos.
Пример использования на основе информационной системы или практического использования: Agrotermos и АГРОВОК
Agrotermos был построен путем объединения португалоязычных терминологий, представленных в национальных и международных сельскохозяйственных тезаурусах, и составлен главным образом из двух различных португальских тезаурусов, один из которых –АГРОВОК. Эти тезаурусы составляют не только содержание Agrotermos, но и формируют его структуру, которая определяется связями между терминами.
Все новые поступления из этих тезаурусов объединяются в расширенный, взаимосвязанный терминологический и семантический ресурс, которым является Agrotermos. Термины не дублируются, т.е. все добавления/обновления индексируются, но не перезаписываются и не дублируются, и их источник четко идентифицируется (см. рисунок 4).
Ежемесячно Agrotermos собирает и индексирует термины и понятия АГРОВОК. В настоящее время Agrotermos включает приблизительно 245 000 терминов, 41 337 из которых были включены из АГРОВОК.
Вся инфраструктура затем предоставляется в репозитории Embrapa (например, в геоинформационный репозиторий GeoInfo или в репозиторий информации по проектам Quaesta) через веб-службы. В настоящее время это основное применение Agrotermos и, следовательно, АГРОВОК в Embrapa. Являясь частью Agrotermos, АГРОВОК, таким образом, также используется в следующих корпоративных прикладных программах:
- Установление соответствия между терминами: автоматизированный настраиваемый процесс сравнения (сопоставления) любого текста или списка терминов с содержимым Agrotermos позволяет получить концептуальное, семантическое представление вводимого текста или списка, которое затем описывается в соответствии со структурой Agrotermos. В процессе сравнения также выявляются содержащиеся в тексте или списке термины, которые уже включены в Agrotermos, и таким образом мы получаем дополнительные списки представляющих интерес терминов для включения в дальнейшем в нашу семантическую структуру или в АГРОВОК.
- Quaesta: инструмент исследования проектов Embrapa использует принципы искусственного интеллекта (ИИ) и его интерфейсы обработки естественного языка (NLP). В этом инструменте Agrotermos (и, следовательно, АГРОВОК) используется как специальный информационный инструмент, и текстовое содержание проектов индексируется с использованием терминов и их взаимосвязей. Таким образом, Agrotermos служит специализированной онтологической структурой для сельскохозяйственной информации, совершенствуя поисковый механизм и расширяя понятийный охват поиска.
- Анализ морфосинтаксической близости: недавно мы начали использовать Agrotermos для решения специфических задач анализа текстуального сходства. Мы используем алгоритм для анализа морфосинтаксического сходства текстов исследовательских проектов Embrapa, чтобы находить схожие проекты на основе их текстового содержания. В этом случае Agrotermos (и АГРОВОК) используется для расширения терминов и отдельных взаимосвязей, обнаруженных в анализируемых текстах, и помогает алгоритму, представляя семантические характеристики, унаследованные от концептуальной структуры Agrotermos.
Специалисты Embrapa по работе с информацией всегда используют главный интерфейс поиска АГРОВОК в качестве справочной базы и для индексирования продуктов корпорации и информации в ее репозиториях, таких как База данных сельскохозяйственных исследований (BDPA).
В рамках усилий по наращиванию объема семантических публикаций в 2010 году Embrapa обратилась в ФАО и с тех пор содействует развитию и совершенствованию АГРОВОК сначала в качестве наблюдателя в составе Рабочей группы по агросемантике Альянса по обмену данными научных исследований, а затем как активный куратор терминов и понятий на бразильском варианте португальского языка, участвуя в работе и дискуссиях редакционного сообщества. Понятийное и терминологическое пополнение АГРОВОК, опыт и экспертные знания в области представления знаний и согласования понятий на сегодняшний день – лучшая рекомендация для Agrotermos.
Преимущества использования АГРОВОК
1. АГРОВОК стал теоретической, концептуальной и операционной основой для создания в 2014 году корпоративного контролируемого словаря/семантической структуры Embrapa – Agrotermos.
2. АГРОВОК является частью Agrotermos: из 245 000 терминов, в настоящее время входящих в Agrotermos, 41 337 терминов поступили непосредственно из АГРОВОК. Все обновления и новые поступления на бразильском варианте португальского языка, которые мы поставляем в АГРОВОК, автоматически включаются в Agrotermos.
3. Курирование терминов и понятий АГРОВОК на бразильском варианте португальского языка в значительной мере способствует нашему пониманию коллекций понятий, терминов, определений и их взаимосвязей и других семантических веб-технологий.
4. Сотрудничество с АГРОВОК в рамках нашей роли куратора входящих в него терминов и понятий на бразильском варианте португальского языка предоставляет бесценную возможность обогащать оба словаря и позволяет нам распространять огромный массив работ бразильских ученых, занимающихся проблемами сельского хозяйства.
Следующий пример позволяет представить наши повседневные проблемы и задачи, связанные с курированием терминов на бразильском варианте португальского языка в АГРОВОК.
АНГЛИЙСКИЙ | ПОРТУ-ГАЛЬСКИЙ | БРАЗИЛЬСКИЙ ВАРИАНТ ПОРТУГАЛЬСКОГО | ПРИЧИНА РАЗЛИЧИЙ | ПРИМЕЧАНИЯ |
Reproduction control | Controlo da reprodução | Controle da reprodução | Орфография | “Controle” вместо “controlo” |
Ammonia | Amónia | Amônia | Орфография | “Amônia”, вместо “amónia |
Weeding | Monda | Capina | В бразильском варианте португальского используется другой термин. | - |
Food shortages | Penúria alimentar | Escassez alimentar | В бразильском варианте португальского используется другой термин. | - |
Bumble bees | Abelhão | Mamangava;mamangaba | В бразильском варианте португальского используется другой термин. | Местное название |
Таблица 1. Практические примеры курирования терминов на бразильском варианте португальского языка в АГРОВОК. Источник: GTermos, 2021.
Собрание сотрудников Gtermos, 2019 год. ©Francisca Rasche
Сотрудники Gtermos, постоянной комиссии по контролируемым словарям, агротерминологии и семантике агротерминов Embrapa
Иво Пиероззи Жуниор (технический координатор)
Биолог, к.н. в области экологии, научный сотрудник в Embrapa Informática Agropecuária
Бибиана Тейксейра де Алмейда
Бакалавр филологии, переводчик, аналитик в Embrapa Territorial
Франциска Раше
Библиотекарь, магистр в области информатики, аналитик в Embrapa Florestas
Мария де Клэофас Фажжион Аленсар
Библиотекарь, к.н. в области педагогики, аналитик в Embrapa Meio Ambiente
Вивиан де Оливейра Солано
Библиотекарь, магистр в области информатики, аналитик в Embrapa Pantanal
Леандро Энрике Мендонса де Оливейра
Информатик, к.н. в области информатики и вычислительной математики, аналитик в Секретариате исследовательской работы и развития
Милена Амброзио Теллес
Бакалавр филологии, к.н. в области информатики, аналитик в Секретариате исследовательской работы и развития
Рошель Алворсем
Библиотекарь, магистр в области информатики, аналитик в Embrapa Uva e Vinho
Вера Виана дус Сантус Брандау
Библиотекарь, специалист по управлению блоками информации, аналитик в Embrapa Territorial
Патрисиа Роша Бело Бертин (организационный координатор)
Биолог, к.н. в области информатики, научный сотрудник в Секретариате организационного развития
Источники
[1] IBGE. População. Available at: https://www.ibge.gov.br/estatisticas/sociais/populacao.html. Accessed on: June 12, 2020.
[2] FAOSTAT. Selected Indicators - Brazil. Available at: http://www.fao.org/faostat/en/#country/21. Accessed on: June 13, 2020.
[3] Map image source: WIKIMEDIA COMMONS. File:BlankMap-World-Microstates.svgContent source:File:Mapa_da_CPLP.png, CC BY-SA 4.0, By Cristiano Tomás. Available at: https://commons.wikimedia.org/w/index.php?curid=77196210. Acessed on: June 13, 2020.
[4] Map image source:File:BlankMap-World-Microstates.svgContent source:File:Mapa_da_CPLP.png, CC BY-SA 4.0, By Cristiano Tomás. https://commons.wikimedia.org/w/index.php?curid=77196210.
[5] ZIMMERMAN, A. 'Sotaques do Brasil' desvenda as diferentes formas de falar do brasileiro. Globo.com - Jornal Hoje, 02 set. 2014. Available at: http://g1.globo.com/jornal-hoje/noticia/2014/08/sotaques-do-brasil-desv… . Accessed on: 08 set. 2021.