19:44 27.12.17 3.1 IT

В Google создали новую систему синтеза речи. И она почти неотличима от человека

Елизавета Ивтушок

Разработчики Google представили Tacotron 2 — систему синтеза речи, основанную на работе рекуррентных нейросетей. Алгоритм, подробно описанный в препринте на arXiv.org, реконструирует на основе сгенерированных из текста спектрограмм речь, максимально приближенную к человеческой. Послушать примеры работы алгоритма можно здесь.

Google занимается разработкой систем синтеза человеческой речи достаточно давно. Например, их система WaveNet, работающая на основе сверточных нейросетей, при производстве аудио учитывает не только звучание отдельных языковых токенов из обучающей выборки, но также и языковые параметры, например, просодию и длину слогов и слов. Для работы такого алгоритма, тем не менее, требуется сложный предварительный анализ текста и огромное количество данных в обучающей выборке.

Другой подход к синтезу речи, придуманный разработчиками Google, — это представление звуковой информации в виде спектрограмм (визуализации частоты в зависимости от времени). Такой подход позволяет избавиться от подробного языкового анализа и может быть осуществлен с использованием всего одной нейросети (разработчики назвали первую ее версию Tacotron), разработанной при помощи модели Seq2Seq (sequence to sequence).

Алгоритм, представленный командой разработчиков Google при участии Джонатана Шена (Jonathan Shen), работает на основе двух нейронных сетей. Первая нейросеть разбивает полученный текст на отдельные токены (буквы, паузы и знаки препинания) и визуализирует их в виде спектрограмм, а вторая — синтезирует на их основе аудио, используя алгоритмы WaveNet.

Новый алгоритм во многом превосходит все существующие. Например, Tacotron2 может распознавать омонимию на основе семантики (отличать разные формы глагола read или понимать, обозначает слово desert существительное или глагол), а также делать интонационные паузы на месте знаков препинания или делать акценты на словах, которые в исходном тексте написаны заглавными буквами.

Более того, синтезируемая алгоритмом речь практически ничем не отличается от человеческой. Авторы разработки представили несколько примеров парных аудиозаписей, которые практически не отличаются друг от друга.

— отрывок, синтезированный Tacotron2

— отрывок, произнесенный человеком

Разработчики также попросили восемь человек оценить полученные с помощью работы системы образцы речи, сравнив их с теми же фразами, произнесенными людьми, по шкале от 1 до 5 (где 1 — меньше всего похоже на человеческую речь). Средняя оценка аудио, полученных с помощью Tacotron2, составила 4,53. Для сравнения, человеческая речь была оценена теми же людьми в среднем в 4,58 балла, а предыдущая версия Tacotron — в 4,001.

Авторы работы утверждают, что новый алгоритм является самым совершенным на сегодняшний момент в сфере искусственного синтеза речи и может быть использован для улучшения работы голосовых помощников.

Недавно специалисты из DeepMind (подразделения, принадлежащего Alphabet Inc. — материнской компании Google) представили новую систему компьютерного зрения, которая может распознавать объекты без учителя.

Елизавета Ивтушок

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.

12:18 20.10.25 1.4 Психология Социология IT

Пользование соцсетями связали со сниженными когнитивными функциями у подростков

Наблюдения проводили в США

Олег Лищук

Джейсон Нагата (Jason Nagata) из Калифорнийского университета в Сан-Франциско с коллегами провел проспективное когортное исследование и пришел к выводу, что повышение времени пользования социальными сетями у подростков связано с более низкими показателями когнитивных функций. В работу включили данные 6554 участников (51,1 процента — мужского пола) долгосрочного исследования ABCD. Данные анализировали в трех временных точках: на исходном уровне (2016–2018 годы, возраст 9–10 лет), через год (2017–2019) и два (2018–2020). Траектории пользования соцсетями выявляли групповым моделированием, когнитивные функции измеряли инструментом NIH Toolbox, связь между ними устанавливали множественными линейными регрессионными анализами. Результаты проведенного исследования опубликованы в JAMA: The Journal of the American Medical Association.