Яндекс.Переводчик теперь может переводить текст в эмодзи и обратно. Обновление доступно для всех языков, представленных в сервисе: от английского и русского до эльфийского и эсперанто. О нововведении сообщается в пресс-релизе, поступившем в редакцию N + 1.
Классическая модель машинного перевода работает благодаря анализу большого количества данных из параллельных корпусов: в нем представлены тексты как на исходном, так и на целевом языке. При отсутствии необходимых данных (как в случае с малыми или искусственными языками) применяются другие методы: например, данные о грамматике других, родственных языков. В случае с эмодзи задача машинного переводчика осложняется тем, что нет точной информации о том, как именно переводится тот или иной знак: так, невозможно точно определить, как именно переводится «🙄». У языка эмодзи также нет известной грамматики: если существительные переводятся достаточно легко, то с другими частями речи могут возникнуть проблемы. Тем не менее, смысл отдельных знаков обработать можно — и именно этому научился Переводчик.
При переводе текста система разбивает его на отдельные слова и фразы и представляет в виде векторов в соответствии с их смыслом: в таком же виде представлены и сами эмодзи. Затем система сопоставляет два вектора и выдает пользователю результат с максимально совпадающими векторами. В качестве базового языка при переводе сервис использует английский — и затем переводит на все остальные языки.
Переводчик хорошо работает на отдельных небольших предложениях, но пока что испытывает трудности с большими текстами.
Нововведение Яндекса — не первый сервис, позволяющий переводить эмодзи. Так, существует также Decodemoji: он, однако, владеет только английским, а обратный перевод с естественного языка на пиктограммы пока что недоступен.
Елизавета Ивтушок