Поиск
  • Деловой Язык

Искусственный интеллект от Baidu поможет понять не только китайский

Разработкой систем, способных понимать естественный человеческий язык, с применением технологий искусственного интеллекта занимаются многие технологические компании. Одним из лидеров в этой сфере является китайская Baidu со своей разработкой ERNIE.



Baidu уверенно обходит конкурентов в тесте General Language Understanding Evaluation (GLUE). Этот общепризнанный тест представляет собой набор ресурсов и тестов, применяемых для обучения, оценки и анализа систем понимания естественного языка. На странице GLUE можно найти список лидеров в этой отрасли. И хотя список постоянно меняется, тройкой лидеров на протяжении довольно долгого времени остаются Google, Microsoft и Baidu.


Изначально перед разработчиками ERNIE (Enhanced Representation through kNowledge IntEgration – «Усовершенствованный результат через интеграцию знаний») ставилась задача научить систему понимать китайский язык. Неожиданным результатом, однако, стало то, что понимание английского языка также значительно улучшилось.


Развивая ERNIE, его создатели ориентировались, в основном, на созданную в 2018 году систему от Google, которая носит название BERT (Bidirectional Encoder Representations from Transformers). Одной из ключевых идей в основе анализа текстов здесь является техника «маскировки».


Она состоит в том, что BERT скрывает в отдельных текстовых отрывках порядка 15% слов, а затем пытается предсказать, какими будут эти слова. При этом анализируется информация как впереди скрытого слова, так и позади него. Это делает систему двунаправленной (в отличие от более ранних систем, которые анализировали либо только слова, стоящие перед нужным, либо же только те, что расположены после) и даёт возможность все время повышать точность прогнозов.


Но для разработчиков из Baidu такой подход показался не слишком подходящим для китайского языка. Ведь, в отличие от многих европейских языков, в китайском один иероглиф может либо вообще не иметь самостоятельного значения, либо существенно менять значение, будучи написанным рядом с другим иероглифом. Смысловое значение семантической единицы имеют только сочетания иероглифов. Тогда было принято решение научить ERNIE «маскировать» сочетания символов, а не отдельные иероглифы, К тому же систему научили различать, какие сочетания являются значимыми, а какие случайными. Это в разы повысило точность прогнозов пропущенных фрагментов текста на китайском языке.


Но и для английского языка такой подход сработал в качестве сильнейшего толчка к развитию системы. Ведь и в английском, как и во многих других языках, сочетания слов могут иметь совсем другой смысл, чем просто сумма смыслов двух слов. Для компьютерных систем идиомы и устоявшиеся словосочетания часто составляют серьёзную трудность для понимания. «Маскируя» и пытаясь предсказать словосочетания, в противовес отдельным словам, система делает огромный шаг на пути понимания естественного языка.


Используют создатели ERNIE и множество других техник. В том числе учитывается порядок предложений в абзаце, а также расстояния между ними, так система пытается найти логическую структуру в текстовом отрывке.


Разработчики ERNIE считают, что именно разные, иногда неожиданные подходы и могут, в итоге, помочь развитию отрасли в целом. И чем более непохожими будут те, кто вкладывает свои усилия в развитие подобных систем, чем более разносторонними будут их цели и задачи, тем интереснее и значительнее окажутся результаты.


Деловой язык: https://www.delovoyazyk.ru/

Просмотров: 84Комментариев: 0

Недавние посты

Смотреть все