14:45 25.09.19 1.4 IT

Google создала датасет для борьбы с дипфейками

Григорий Копиев

Компании Google и Jigsaw собрали датасет, состоящий из более трех тысяч видеороликов, созданных алгоритмами подмены лиц. Созданные ролики (модифицированные и оригинальные) исследователи добавили в другой большой проект, посвященный подмене лиц на видео, — FaceForensics++. Описание датасета опубликовано на GitHub, а сами данные доступны сторонним исследователям только после одобрения.

В последние несколько лет в области использования машинного обучения для работы с изображениями произошел большой прогресс. Однако вместе с алгоритмами, способными, к примеру, распознавать рак кожи, разработчики создали и мощные алгоритмы для создания поддельных видео. Массовую известность они получили в 2017 году, когда пользователь Reddit с ником deepfakes (из-за этого такие ролики стали называть дипфейками) опубликовал порнографические ролики, в которых оригинальные лица были заменены на лица популярных актрис, в том числе Галь Гадот и Скарлетт Йоханссон. Вскоре после этого крупные интернет-платформы запретили публиковать такой контент, однако разработчики совершенствуют алгоритмы для создания дипфейков, поэтому их распознавание становится все труднее.

Google и Jigsaw (обе компании принадлежат холдингу Alphabet) решили помочь в совершенствовании алгоритмов для распознавания дипфейков, дополнив уже существующий проект FaceForensics++, в рамках которого европейские разработчики создали датасет, а также автоматизированный бенчмарк, состоящий из нескольких алгоритмов для подмены лиц и определяющий их эффективность с помощью различных методов.

Новый датасет Deep Fake Detection Dataset основан на 363 роликах, которые разработчики сняли специально для проекта. На основе этих роликов они создали 3068 новых, в которых лица добровольцев заменены на другие: для создания роликов использовали публично доступные алгоритмы Deepfakes, Face2Face, FaceSwap и NeuralTextures. Разработчики отмечают, что в будущем будут дополнять датасет.

Недавно к борьбе с дипфейками присоединились другие крупные IT-компании: Facebook и Microsoft. Они объявили о создании конкурса для разработчиков алгоритмов для определения подмены лиц на видео, а также пообещали создать большой открытый датасет для этой задачи. Как и Google, компании не будут использовать данные пользователей социальных сетей или YouTube, а наймут актеров-добровольцев.

Григорий Копиев

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.

09:56 03.07.26 3.2 IT Биология

Российские ученые создали нейросеть для картирования генов по последовательности ДНК

Ее обучили на генах человека и 38 других видов млекопитающих

Олег Лищук

Сотрудники Института AIRI разработали нейросетевой инструмент GENATATOR, который по последовательности ДНК строит карту генов — находит их границы, определяет тип транскрипта и восстанавливает внутреннюю структуру, говорится в пресс-релизе, поступившем в редакцию N + 1. GENATATOR состоит из нескольких моделей, которые работают поэтапно: находят возможные начала и окончания транскриптов, проверяют, похожи ли участки между ними на гены, уточняют их внутреннюю структуру и в завершение фильтруют полученные данные, убирая сомнительные предсказания. Система предназначена для идентификации белок-кодирующих генов и генов длинных некодирующих РНК.