Специалисты компании Google собрали масштабный датасет, который содержит тысячи записей синтезированной английской речи. Всего в базе данных доступны несколько десятков «голосов». Подробнее об этом можно прочитать в блоге компании: пока что датасет открыт только для разработчиков — участников конкурса по созданию автоматических систем различения синтезированной и реальной речи.
Технологии синтеза речи (text-to-speech) позволяют формировать речевой сигнал из печатного текста. Для этого человеку, чей голос используется для конечной модели, необязательно проговаривать весь нужный текст целиком: нужна только репрезентативная выборка данных, из которых можно выделить достаточное количество фонем для дальнейшего качественного синтеза. Сейчас такие технологии в основном используются для озвучивания голосовых помощников: например, о том, как научилась разговаривать Алиса, голосовой помощник компании «Яндекс», вы можете прочитать в нашем материале «Алиса, скажи что-нибудь».
Синтез речи постоянно улучшается: например, в декабре 2017 года разработчики Google создали систему, которая может производить устную речь, почти неотличимую от человеческой. Создание и использование настолько эффективных технологий поднимает важные вопросы приватности данных пользователей: с хорошим синтезом злоумышленники могут правдоподобно скопировать чужой голос и использовать его в своих целях.
Специально для того, чтобы это предотвратить, Google опубликовала большую базу данных образцов синтезированной речи: в нее входят несколько тысяч отрывков из газет, «зачитанных» 68 синтезированными голосами. Фразы звучат на английском и имитируют несколько разных акцентов.
Пока что датасет доступен только для участников конкурса Automatic Speaker Verification, который посвящен обучению систем, позволяющих автоматически отличить синтезировнную речь от реальной. Результаты конкурса будут подведены в сентябре этого года; будут ли данные доступны для сторонних разработчиков, пока неизвестно.
Помимо эффективного синтеза голоса сейчас также создаются системы, которые позволяют переносить лица и даже движения между людьми. К примеру, летом прошлого года в NVIDIA создали нейросеть, которая позволяет переносить движения человека с одного видео на тело человека в другом.
Елизавета Ивтушок
А в командном зачете заняли второе место, уступив команде из Польши
Российские школьники успешно выступили на второй Международной олимпиаде по искусственному интеллекту IOAI-2025, которая проходила с 2 по 9 августа в Пекине. Об этом N + 1 рассказал Александр Гущин, один из тренеров команды. В соревновании принимали участие команды из более чем 60 стран. В индивидуальном зачете российская сборная выиграла восемь наград, из которых шесть золотых — наибольшее количество среди остальных сборных. Победителями стали Михаил Вершинин, Матвей Беляев, Тимур Гарифуллин, Данис Динмухаметов, Андрей Хлопотных и Олег Дроканов. Кроме того, Артем Мазур получил серебряную медаль, а Константин Сигалов — бронзовую. В командном соревновании российская команда стала второй, набрав 212,2 балла и обойдя 80 других команд со всего мира. На первом месте оказалась команда из Польши с результатом 212,3 балла. Подготовкой сборной занимались преподаватели Центрального университета и ведущие эксперты в области искусственного интеллекта из российских и международных компаний. Основные тренеры: Александр Гущин, Татьяна Гайнцева, Сергей Арефьев, Ильсеяр Алимова и Илья Осокин.