Искусственный интеллект научился определять объекты без учителя

Елизавета Ивтушок

Специалисты из DeepMind, отделения Google, отвечающего за исследования искусственного интеллекта, разработали нейросеть, которая умеет соотносить видеоряд со звуком, и таким образом учится распознавать объекты без предварительного понимания того, что перед ней находится. Препринт статьи опубликован на сайте arXiv.

Развитие в области нейросетей и, в частности, компьютерного зрения научило искусственный интеллект распознавать объекты реального мира. Алгоритмы Microsoft, например, умеют определять то, что изображено на фотографии, с точностью до 95 процентов. Однако, для того, чтобы обучить такую нейросеть, требуется использование очень большого количества размеченной человеком информации: чтобы компьютер научился узнавать, например, собак, он сначала должен обучиться концепту того, что такое собака, обработав миллионы изображений животного. Определение объектов с помощью методов машинного обучения без учителя (unsupervised learning), то есть без предварительной разметки изображенных объектов, — задача более сложная.

Авторы новой работы представили алгоритм, главная задача которого — решение задания на соотнесение видео и аудио (Audio-Video Correspondance task, или коротко AVC). Алгоритм состоит из трех частей: первая нейросеть обрабатывает изображения, взятые из видео, вторая – аудио, соответствующие этим изображениям, третья часть учится соотносить изображения с определенным звуком. Алгоритм был обучен на 60 миллионах изображений и соответствующих им звукам, каждый из которых длился одну секунду.

В итоге, алгоритм научился правильно определять объекты и явления (например, игру на саксофоне или мужскую речь) по звуку и изображению в 79 процентах случаев. Для сравнения, подобный алгоритм, созданный при помощи машинного обучения с учителем, SoundNet, правильно определяет объект по звуку в 74 процентах случаев.

Создатели алгоритма отмечают, что, используя созданную ими систему, искусственный интеллект может научиться определять объекты окружающего его мира не путем предварительного обучения определенным концептам, а взаимодействуя с ними в реальном времени, слушая и наблюдая, – точно так же, как это делают люди.

Специалисты из DeepMind добиваются успеха во многих областях применения искусственного интеллекта. Так, в нашей заметке вы можете прочитать о том, как нейросеть одержала победу в игре го над профессиональными игроками, а здесь — об успехах в компьютерном синтезе человеческого голоса.

Елизавета Ивтушок

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.

00:51 08.08.25 1.7 IT

OpenAI выпустила GPT-5

Она хороша в программировании и меньше галлюцинирует

Андрей Фокин

Компания OpenAI представила новую флагманскую систему алгоритмов GPT-5, которая в ближайшее время заменит модели предыдущего поколения в ChatGPT. Пятое поколение GPT представляет собой единую систему, которая в зависимости от сложности запроса в реальном времени решает: быстро дать ответ, либо задействовать более глубокие рассуждения. GPT-5 демонстрирует повышенную производительность в программировании, написании текстов и ответах на вопросы, связанные со здоровьем, а также значительно реже галлюцинирует по сравнению с предыдущим поколением моделей OpenAI. GPT-5 будет доступна для всех пользователей ChatGPT, включая бесплатных, с ограничениями на количество запросов в зависимости от уровня подписки. Подробности опубликованы в блоге компании и системной карточке модели.