Компьютер научили читать по губам

Кристина Уласович

Ученые из университета Ист-Англии создали систему машинного обучения, которая умеет читать по губам. Работа была представлена на конференции ICASSP в Шанхае, детали исследования редакция N+1 выяснила у одного из авторов исследования Хелен Бир (Helen Bear).

Система, созданная программистами следит за речью человека при помощи видеокамеры.Для обучения ее классификаторов авторы работы использовали скрытую марковскую модель, а также разработали новый метод, который будет потенциально применим для нейросетей.

Чтобы научить систему читать по губам, исследователи разделили речь на две составляющие: фонемы и виземы, которые являются визуальным эквивалентом фонем. Основная сложность заключалась в том, что фонем в речи больше, чем визем, поэтому ученые создали двухуровневую иерархическую структуру.

Сначала они обучали классификаторы соотносить виземы с различными звуками, в качестве материала для обучения используя записи речи людей. Затем, ученые увеличивали количество классификаторов. Например, если виземе V1 соответствуют фонемы P1, P2 и P3, то в системе должно существовать три копии виземы V1. После этого классификаторы обучались второй раз, после чего система уже могла распознавать речь.

Работоспособность системы специалисты проверяли на двух моделях. Первая подразумевала «языковую» модель, то есть распознавание непрерывной речи, а вторая — «фонемную» модель. В обоих случаях процент успеха пока достаточно невелик — слова система распознает с точностью до 10-15 процентов, фонемы — до 25 процентов. Тем не менее, ученые замечают, что это значительное продвижение по сравнению с прошлыми результатами.

В будущем исследователи планируют усовершенствовать свою технологию, которая сможет найти применение для таких ситуаций, когда голоса на записи плохо различимы или отсутствует или испорчена аудиодорожка. «Потенциально, система чтения по губам может быть применена для различных целей, от развлечения до расследования преступлений» — замечает один из авторов работы.

Ранее британские исследователи во главе с Эндрю Симпсоном (Andrew Simpson) из Университета Суррея создали искусственную нейронную сеть, вычленяющую голос из посторонних шумов. Эта задача является первым шагом к решению проблемы так называемого «эффекта вечеринки».

Кристина Уласович

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.

13:01 05.05.25 2.4 Биология Технологии

Представлен трехмерный атлас мозга мыши с разрешением 15 микрометров

Для его создания использовали три метода визуализации

Олег Лищук

Аллан Джонсон (Allan Johnson) из Дьюкского университета с коллегами представил трехмерный стереотаксический атлас мозга мыши, охватывающий анатомические структуры и клетки. Для его создания мозг и череп пяти мышей визуализировали тремя способами. Сначала мозг в черепной коробке трехмерно визуализировали диффузно-тензорной томографией с разрешением 15 микрометров (в 2,4 миллиона раз выше, чем у клинических томографов), которое позволяет рассмотреть цитоархитектуру мозговых структур. Затем с помощью микрокомпьютерной томографии отметили опорные точки черепа. После этого мозг извлекли и сделали снимки его срезов микроскопией плоскостного освещения, чтобы получить карты клеток. Результаты работы опубликованы в журнале Science Advances.