В Москве в РГГУ стартует 22-я конференция по компьютерной лингвистике «Диалог». Она посвящена современным направлениям в компьютерной лингвистике — извлечению данных из текстов, написанных на естественном языке, анализу тональности текста. Конференция проводится уже более 40 лет.
В качестве приглашенных гостей на конференции выступят Аллесандро Москитти и Бонни Веббер. Москитти — один из создателей IBM Watson и крупнейший в мире специалист по вопросно-ответным системам, то есть системам, которые предназначены для формулировки ответов на заданные человеком вопросы. Он расскажет о применении глубинного обучения для таких систем.
Веббер — специалист по анализу связных текстов. Одна из самых известных ее работ посвящена стабильной классификации жанров. На основе корпуса текстов The New York Times предложила систему, определяющую тему и формат текста (новостная заметка, колонка от редакции или статья).
В 2015 году проводился конкурс на создание системы исправления опечаток. Речь идет не о привычных всем системах, как, например, в текстовых редакторах, которые подчеркивают неправильные слова, предлагая пользователю их заменить. Здесь подразумевается, что система, получив на входе текст, автоматически «нормализует» его, то есть самостоятельно исправляет.
Такого рода системы нужны для предварительной обработки текстов при машинном анализе, когда ручная обработка невозможна. Примечательно, что существенную сложность для таких систем представляют опечатки, при которых получается другое существующее слово, например: «Министр вместе с уполномоченным ослом». Результаты конкурса будут представлены на конференции, а мы предлагаем читателям протестировать программу-победителя уже сейчас.