Алгоритм Baidu догнал людей в распознавании речи на английском и китайском

Лаборатория искусственного интеллекта (SVAIL) исследовательского подразделения китайской компании Baidu улучшила алгоритм распознавания речи под названием Deep Speech, при этом в некоторых случаях вторая версия программы распознает речь даже быстрее людей. Препринт статьи опубликован на arXiv.org, кратко о прогрессе рассказывает MIT Technology Review.

Разработчикам удалось использовать один алгоритм глубокого обучения для распознавания устной речи на двух языках: английском и мандаринском (крупнейший из китайских). При этом авторы улучшили распознавание английского в шумных местах, а также продвинулись вперед в быстродействии — создали новую аппаратную платформу на видеокартах, в семь раз подняв производительность по сравнению с предыдущей версией сервера для Deep Speech.

Авторы также протестировали Deep Speech 2 на скорость распознавания коротких фраз, сравнив ее с человеческой. Оказалось, что в некоторых случаях (короткие фразы без контекста) алгоритм справляется с распознаванием даже быстрее людей. Тем не менее, Deep Speech 2 все еще уступает людям в распознавании больших фрагментов текста, а также в распознавании речи с акцентом или при большом количестве посторонних шумов.

По словам авторов, система уже готова к применению в онлайн-сервисах и мобильных приложениях и превосходит аналогичные алгоритмы конкурентов. В ближайшем будущем специалисты SVAIL планируют работать в направлении распознавания фраз на английском с акцентом. В частности, исследователи начали обучение нейросети английскому с индийским акцентом.

Один из авторов статьи — Эндрю Ын — известен своими исследованиями в области информатики и искусственного интеллекта. До весны 2014 года работал на Google. Эндрю Ын опубликовал более сотни научных работ и известен как создатель проекта Google Brain и образовательной онлайн-платформы Coursera.

Кроме Baidu обучение нейросетей для улучшения своих продуктов используют и другие компании. Facebook, например, разработала алгоритм, способный узнать человека даже со спины, а Google использует обученную нейросеть для перевода надписей на 27 языков в приложении Google Translate.

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.
Jump Aero показала одноместный электролет для быстрой доставки врача к пациенту

Он позволит за восемь минут добраться до любой точки в радиусе 50 километров