Лингвисты из Университета штата Огайо объединились с Суперкомпьютерным центром для работы над проектом Low Resource Languages for Emergent Incidents («Малые языки для чрезвычайных ситуаций», сокращенно LORELEI). Цель этого проекта — эффективное и быстрое изучение грамматик редких языков для последующего мониторинга бедствий и катастроф. Об этом сообщается в пресс-релизе на сайте Суперкомпьютерного центра Огайо (Ohio Supercomputer Center).
В мире насчитывается около семи тысяч различных языков; примерно на половине из них говорит менее 0,2 процента населения Земли. Чем менее распространен язык, тем сложнее его изучать: для систематического анализа грамматики может не хватить достаточного объема языкового корпуса, а полевым лингвистам может потребоваться очень много времени и ресурсов. Современные компьютерные технологии, однако, сильно облегчают процесс: Яндекс.Переводчик, например, учится переводить с малых и искусственных языков на основе данных об их родственных, более распространенных языках. Тем не менее, для эффективного и быстрого изучения грамматики при ограниченности естественных ресурсов (в случае с малыми языками речь идет, в первую очередь, о текстах) компьютеры нужны очень мощные. Именно поэтому авторы проекта LORELEI будут использовать суперкомпьютер.
Команда исследователей под руководством лингвиста Уильяма Шулера (William Schuler) работает над компьютерным алгоритмом изучения грамматики малых языков. Главная цель этого проекта — быстрое и эффективное определение грамматики языка входного текста. Такая цель в рамках проекта имеет исключительно прикладное значение: она будет использоваться при анализе сообщений и новостей о бедствиях и катастрофах для своевременного предупреждения и ликвидации последствий на территориях распространения малых языков.
По словам разработчиков, использование одного сервера для автоматического изучения грамматики неэффективно: такой компьютер может проанализировать от 10 до 15 грамматических категорий языка, в то время как 60 графических процессоров суперкомпьютера — от 50 и более. Команда также сможет использовать имеющиеся ресурсы для эффективного изучения грамматики на основе статистической модели — то есть используя большое количество текстов.
Проект LORELEI контролируется Управлением перспективных исследовательских проектов Министерства обороны США, поэтому о подробностях исследования, а также о том, будут ли разработанные алгоритмы изучения грамматики применяться, например, для пользовательского перевода, пока не сообщается.
Статистические модели часто используются и для машинного перевода; однако, в последнее время на смену и в дополнение к нему пришел более точный и улучшенный нейросетевой перевод. Так, например, в нашей заметке вы можете узнать о том, как глубинное обучение помогло Google создать рекордно точную модель перевода, а здесь — почитать интервью с руководителем Яндекс.Переводчика Дэвидом Талботом.
Елизавета Ивтушок