Ученые AIRI рассказывают о своих статьях, прошедших отбор на NeurIPS 2023 года
Ежегодно в научных журналах появляются сотни тысяч статей, посвященных технологиям искусственного интеллекта. Однако только небольшая их часть — действительно важные исследования. Как правило, такие работы попадают на престижные научные конференции — например, NeurIPS (Conference and Workshop on Neural Information Processing Systems), которая ежегодно проходит в декабре. Мы поговорили с сотрудниками научно-исследовательского Института искусственного интеллекта AIRI об их работах, принятых на NeurIPS 2023 года, и о том, что интересного происходит в сфере ИИ.
NeurIPS — одна из самых влиятельных технических конференций по машинному обучению и нейровычислениям в мире. Благодаря ей ученые, специалисты и предприниматели в области ИИ следят за новыми методами, архитектурами и инструментами для работы с нейросетями.
Все конференции в мире выстраиваются в рейтинги по влиянию на науку, в том числе по цитируемости, числу важных публикаций, выходящих на них. Так, 7,5 процента ИИ-конференций имеют высочайший рейтинг (так называемый А*, исключительные по влиянию), 14,5 процента — рейтинг А (тоже очень высокий), 28 процентов — рейтинг В (хороший). Оставшимся присвоен рейтинг С (средний), либо они не имеют признанного рейтинга. Среди конференций по ИИ NeurIPS из года в год занимает первое место.
В 2023 году она прошла в Новом Орлеане. Оргкомитет NeurIPS получил 12 343 научные статьи, из которых к участию в конференции были приняты 26 процентов. В разные годы именно на NeurIPS впервые были представлены такие революционные работы, как:
Каждый год на конференции выбираются темы года, проходят пленарные доклады и постерные сессии известных ученых в области машинного обучения, а также всех смежных областей — от нейрофизиологии до философии. Темы 2023 года — это обработка естественного языка и языковые модели, машинное обучение для физики и биологических наук, мультиагентное обучение, ИИ для экологических проблем.
Организаторы конференции известны своим вкладом в методологию науки и процедуру двойного слепого рецензирования. Ежегодно они получают десятки тысяч научных статей и после тщательного отбора публикуют только две-три тысячи лучших — воспроизводимых, открытых и прорывных. Оргкомитет соблюдает полную анонимность: ни авторы, ни рецензенты не знают имен друг друга. Это гарантирует объективность оценки, но обеспечивает ли высокое качество рецензий?
Раз в несколько лет организаторы проводят статистический эксперимент: одни и те же статьи разным группам рецензентов, чтобы затем измерить степень их согласия. В 2021 году было установлено, что рецензенты из разных групп сходятся во мнении о том, что статью нужно принять, только в 26 процентах случаев, а отвергнуть — в 44 процентах случаев. В остальных случаях группы рецензентов выносят противоположные вердикты.
Участники конференции, в свою очередь, иногда создают инструменты для взлома этой системы. Например, пытаются обучить нейросеть подбирать название, которое точно понравится рецензентам, или создают калькулятор рейтингов рецензий, чтобы предположить, примут статью или нет.
Помимо научных докладов, в рамках NeurIPS каждый год проходят соревнования и хакатоны, демосекции с интерактивом и роботами, а также тематические вечеринки IT-компаний.
Большинство работ NeurIPS — это алгоритмы и их улучшения. Эффект от таких работ планомерно накапливается годами по мере применения в различных областях, включая прикладные разработки и прототипы. Мы поговорили с авторами четырех из восьми работ, над которыми работали сотрудники Института искусственного интеллекта AIRI и которые были приняты к участию на конференции в этом году.
Авторы: Anastasia Batsheva, Andrei Chertkov, Gleb V. Ryzhakov, Ivan V. Oseledets
[N + 1]: Когда в 2023 году говорят про нейросети, обычно звучат такие слова, как «трансформеры», «внимание» и другие ставшие популярными элементы архитектур. Ваша работа не про них, а скорее про нестареющую классику NeurIPS — методы оптимизации. Какое место эта задача занимает сейчас в машинном обучении?
Иван Оселедец: Машинное обучение многогранное, и методы оптимизации далеко не на последнем месте. Наш метод принадлежит к классу безградиентных методов, и мы смогли на целом ряде задач обойти, в частности, методы из пакета Nevergrad. Одно из приложений — поиск дискретных весов, которые принимают несколько значений, в нейронных сетях.
Обычные методы основаны на алгоритмах обратного распространения ошибки. Грубо говоря, нейросеть состоит из последовательности блоков, каждый из которых берет данные на вход и отдает определенные данные на выход. Если нейросеть допускает ошибку, мы корректируем параметры последнего блока и его вход, потом делаем то же самое с предпоследним и так далее.
Кроме значения («проход вперед») вычисляется градиент («проход назад»). Есть задачи, в которых градиент посчитать нельзя, например задачи дискретной оптимизации. Они возникают при оптимизации финансовых портфелей, задачах управления и многих других. В частности, это задачи логистики, где нужно составить расписание — условно говоря, в какой момент отправить вагон поезда.
[N + 1]: Как изменились методы оптимизации за историю NeurIPS? Какие прикладные приложения можно придумать, развивая такие методы?
Иван Оселедец: Работы по методам оптимизации почти не поменялись: есть и классическая область выпуклой оптимизации, много работ по federated learning, есть работы по безградиентной оптимизации.
Число параметров нейросетевых моделей постоянно растет, и для работы с ними необходимо большое количество памяти и вычислительных ресурсов. Например, для выписывания штрафов используются большие камеры с большими «вычислительными» коробками, так как обработка видео — достаточно трудоемкая задача. Если же обучить сеть с дискретными весами, то число параметров для хранения можно сократить в несколько раз.
[N + 1]: Как сравнивают методы оптимизации между собой? Может быть, есть классические задачи, на которых это можно проиллюстрировать?
Иван Оселедец: Мы сравниваем методы оптимизации на стандартных модельных функциях (Ackley, Rastrigin и других) с большим количеством локальных минимумов, часто смотрят на функцию Розенброка. Иногда рассматриваются более сложные задачи, чтобы показать эффективность метода, но эти задачи меняются от статьи к статье. Стандартизированных бенчмарков нет.
Авторы: Marina Munkhoeva, Ivan V. Oseledets
[N + 1]: Другая ваша работа посвящена методам в области Self-Supervised Learning (SSL). Почему этот тип обучения хорошо сочетается с большими объемами данных, необходимых для обучения?
Иван Оселедец: SSL — вариант обучения без учителя на неразмеченных данных. Одним из апологетов этого направления является знаменитый Ян Лекун. У него не так давно вышла работа о связи SSL с классическими спектральными методами. Нам было обидно, что мы не успели, так как работали над похожим текстом, и пришлось идти дальше.
Идея состоит в том, что представления похожих объектов должны быть похожи, а разных — различны. Например, достаточно потребовать, чтобы представления повернутой картинки и обычной были близки («положительные пары»), а двух разных — далеки. Вариантов SSL много.
[N + 1]: Что сейчас важнее всего понять про работу таких методов? Нормально ли это, когда применение настолько сильно опережает теорию?
Иван Оселедец: Абсолютно нормально. Хорошая теория должна уметь описывать явления и в идеале двигать развитие алгоритмов, но бывает и наоборот. Исследования SSL идут в целом ряде направлений. Нельзя сказать, что есть какие-то крупные «нерешенные проблемы», над которыми бьется все сообщество. Скорее это набор интересных результатов. На мой взгляд, задача поиска оптимального способа обучения в режиме SSL до сих пор не решена. В этом случае нам удалось найти важные характеристики данных, которые позволяют понимать, какие представления лучше даже в неразмеченном режиме.
Авторы: Nikita Gushchin, Alexander Kolesov, Alexander Korotin, Dmitry Vetrov, Evgeny Burnaev
[N + 1]: В этом году вышло множество статей про диффузионные процессы. Почему они так популярны и где применяются?
Александр Коротин: Диффузионные методы, наверное, так активно развиваются три-четыре года. И популярность они получили в первую очередь потому, что позволяют достигать лучших результатов в задачах генеративного моделирования, то есть генерации изображений, генерации звуков, музыки и прочего. Проще говоря, такие методы работают лучше, чем все, что было до них.
Сейчас они активно внедряются, например, в генерации цифрового контента. Речь про большие модели: Midjourney, Kandinsky, Stable Diffusion и так далее. Они доступны всем. Кто угодно может с помощью этих моделей генерировать картинки для своих задач или даже банально править или стилизовать аватары.
[N + 1]: Как работает генерация в диффузионных моделях?
Александр Коротин: На вход нейросети поступают данные, которые с помощью операций поэтапного зашумления шаг за шагом превращаются в случайный шум. Для того чтобы генерировать новые объекты, шум нужно преобразовать обратно в данные, то есть найти обратный процесс диффузии. Фактически процесс обучения диффузионной модели заключается в поиске этого обратного процесса, а генерация изображений происходит, когда обратная диффузия применяется к случайному шуму.
Евгений Бурнаев: В некотором смысле диффузия учится воспроизводить некий порядок из беспорядка так, чтобы пиксели на фотографии организовывались в очертания объектов. А эти очертания можно организовать так, чтобы они появлялись с учетом текстового описания, заданного пользователем. Для этого модель обучается на большом наборе материалов, изображений и соответствующих им текстов.
[N + 1]: А как устроен, если очень кратко, непосредственно процесс генерации изображения? Зачем генерировать изображение в 20 или 50 шагов? Почему 50 лучше, чем 20?
Евгений Бурнаев: У нас есть случайные пиксели, и мы из них, как пазл, собираем изображения. Чем больше времени мы проведем над пазлом, тем точнее сможем эти кусочки приладить друг к другу и получить картинку.
[N + 1]: Как можно определить, что для некоторой задачи оптимальное количество шагов — это 50, или 100, или 150?
Евгений Бурнаев: К сожалению, никак. Обычно для большинства ситуаций есть какое-то разумное число шагов, когда получаются достаточно хорошие результаты и при этом объем вычислений не слишком обременителен.
[N + 1]: Давайте поговорим про вашу статью. Что такое фундаментальная проблема entropic optimal transport (EOT)? Почему в ней помогают диффузионные методы?
Евгений Бурнаев: Предположим, что у нас есть две камеры: одна снимает в низком разрешении, а другая — в высоком. Когда мы фотографируем первой камерой, у объектов могут быть размыты края, на фотографии будут блики и так далее. Фотография с камеры в высоком разрешении зачастую отличается как раз тем, что края объектов, наоборот, четкие и нет никаких бликов. Нам бы хотелось повысить разрешение, сделать так, чтобы фотография, снятая на камеру с низким разрешением, стала более качественной.
В голове у человека есть априорные знания о том, как должны выглядеть разные объекты на фотографии. Например, у стола прямые линии, а если он коричневый, то даже там, где на изображении встречаются блики, его части тоже должны быть коричневыми. Нейросеть, естественно, ничего этого не знает, и ее нужно обучить. Если бы у нас были пары фотографий, снятые из одной точки сначала камерой с высоким разрешением, а потом камерой с низким, мы могли бы научить нейросеть, например, закрашивать блики. Проблема заключается в том, что существует множество технических проблем, которые препятствуют сбору такого датасета.
Получается, мы можем только собрать фотографии низкого качества и фотографии высокого качества, и никакой связи между ними не будет. И должны построить модель, которая понимает, какие типичные со статистической точки зрения модификации и в каких местах надо сделать, если на вход поступает фотография низкого качества, чтобы после мы посмотрели на нее и сказали: да, эта фотография высокого качества. Это то, что называется задачей непарного обучения. Мы хотим построить нейросеть, которая один тип данных переводит в другой и никаких пар при этом не требует. Оказывается, что эту задачу можно решить с помощью техники, которую мы описали в нашей статье.
[N + 1]: А что вообще такое проблема оптимального транспорта?
Александр Коротин: Это довольно глубокая математическая теория, которую впервые сформулировал французский математик Гаспар Монж. Он интересовался тем, как оптимально переносить массу, затрачивая как можно меньше энергии. В 1940-х годах советский математик Леонид Канторович заметил, что эта задача осмыслена в экономическом контексте оптимального распределения ресурсов. Именно он получил ряд основополагающих результатов в теории оптимального транспорта.
Сейчас оптимальный транспорт начинает применяться в машинном обучении, а именно в генеративных моделях. Как мы вначале обсуждали, большинство генеративных моделей берут случайный шум и преобразуют его в данные. Соответственно, случайный шум можно интерпретировать как некоторую массу, которую нужно транспортировать в сложное распределение данных. Фактически задача увеличения разрешения — тоже задача транспортировки, распределения массы изображений плохого качества в изображения хорошего качества. «Оптимально» в данном случае означает, что сгенерированная картинка в высоком разрешении соответствует исходному изображению с точки зрения содержания. То есть если на изображении низкого качества был, например, стол с ровными краями, то он должен остаться и на новой картинке. Это то, что обычно называется сохранением контента при преобразовании.
Помимо этого, оптимальность важна для эффективности вычислений. Чем больше шагов мы берем, тем больше времени уходит на генерацию и тем лучше результат. Но мы не можем затрачивать бесконечно много ресурсов. Компании и пользователи не хотят так долго ждать. Поэтому сейчас в науке стоит вопрос о том, как сделать так, чтобы те же диффузионные модели генерировали очень качественно, но за меньшее число шагов. Оптимальный транспорт оказывается очень полезен, поскольку, когда мы рассматриваем перенос массы из одного распределения в другое с его помощью, траектории, по которым осуществляется перенос, достаточно прямые.
Тут мы плавно переходим к энтропийному оптимальному транспорту. Это некоторая надстройка над оптимальным транспортом, которая позволяет эффективнее работать с задачей оптимального транспорта, расширяя ее до так называемой динамической задачи оптимального транспорта.
Евгений Бурнаев: Давайте попробую объяснить на примере задачи повышения разрешения, которую мы описывали выше. Если картинка смазанная, то человек не всегда может точно рассмотреть детали и расположение объектов. Поэтому даже с помощью камеры с высоким разрешением мы эту картинку в точности воспроизвести не можем. Мы просто хотим получить результат, который более или менее соответствует действительности. Оптимальный транспорт позволяет за счет надстройки, про которую говорит Александр, порождать различные варианты.
[N + 1]: Спасибо. Теперь давайте поговорим про прикладную валидацию метода.
Александр Коротин: Есть набор датасетов или бенчмарков, на которых сравниваются такие методы. Если мы говорим про задачи сверхразрешения, то есть стандартные данные, которые используются для обучения, и отложенная, так называемая тестовая выборка — то, что модель никогда не видела. На этих данных и проверяется модель. Обычно сравниваются метрики качества по сравнению с другими моделями, то есть насколько сгенерированная картинка соответствует действительности на тестовой выборке, а также проверяется скорость и возможность генерации за меньшее число шагов, чем у существующих моделей.
[N + 1]: Сейчас много говорят о том, что у генеративных технологий есть как позитивные стороны, так и потенциальные вредоносные применения. Что вы об этом думаете?
Александр Коротин: Естественно, с развитием генеративных моделей возрастает и их польза, и потенциальные риски. Я думаю, в ближайшие годы все это будет урегулировано на уровне правительств разных государств. Будут приняты законы, которые ограничивают использование, в частности, генеративного искусственного интеллекта. И, возможно, в ряде индустрий, где сейчас применяется и потенциально будет использоваться искусственный интеллект, введут дополнительные меры валидации моделей. То есть будут проверять, действительно ли они работают и решают конкретные задачи, условно говоря, без вреда для человека.
Евгений Бурнаев: Представим, что мы построили генеративную модель, которая выдает контент, противоречащий текущему законодательству. Что мы должны сделать? Выключить ее, преследовать по закону разработчика или не обращать внимания? Вопрос нетривиальный. Хотя понятно, что на бюрократическом уровне необходимо обезопасить разработчика, потому что у всех таких моделей есть вероятность, если ты только ее настроил, что-то странное выдать. Тем более есть люди, которые модель специально, так сказать, ломают и смотрят, что будет.
Нужен механизм, который, если что-то такое наблюдаем, дает время на устранение проблемы. Появление новых технических средств сопровождается изобретением средств и методов противодействия. Например, если у вас есть генеративная модель и вы публикуете в общий доступ созданное с ее помощью изображение, то ставите некоторую невидимую метку, водяной знак, который указывает, что изображение было сгенерировано. Можно придумать много подходов, которые тем или иным образом будут и такого рода область регулировать, и защищать публику и разработчиков.
Авторы: Andrey Okhotin, Dmitry Molchanov, Vladimir Arkhipkin, Grigory Bartosh, Aibek Alanov, Dmitry P. Vetrov
[N + 1]: В рамках этого материала мы уже немного поговорили о диффузионных моделях. Кажется, большинство методов работают с нормальным распределением. Почему важно разрабатывать методы, включающие другие типы распределений?
Дмитрий Ветров: Концепция диффузионных моделей была изначально предложена именно с нормальным (гауссовским) распределением. Базовая модель напрямую использует некоторые свойства этого распределения. Например, многие выражения, входящие в оптимизируемый функционал, в ней можно аналитически выписать и получить стабильную процедуру обучения, достаточно понятную и обоснованную конструкцию процесса генерации новых объектов. И то, что стандартные диффузионные модели опираются на свойства нормального распределения, не дает нам менять способ зашумления. У большинства других случайных величин, которые могли бы использоваться для зашумления, таких хороших свойств нет.
Хотя диффузионные модели с гауссовским зашумлением в целом хорошо себя зарекомендовали, остается открытым вопрос: а нельзя сделать модель еще лучше, если изменить вид зашумления? Кроме того, многие объекты описываются параметрами, значения которых лежат в ограниченных областях (доменах). Примерами могут являться взаимные расстояния или углы между составными частями объекта. Нормальный шум может принимать значения на всей числовой прямой. При его добавлении некоторые расстояния могут стать отрицательными, то есть зашумленный объект теряет физический смысл. Изменение вида впрыскиваемого шума может помочь сохранить физическую или геометрическую интерпретацию даже у зашумленной реплики объекта реального мира.
[N + 1]: В своей работе вы продолжаете идеи принципа denoising diffusion probabilistic models (DDPM), представленного на NeurIPS в 2020 году. Что это за принцип? Как вы его развили?
Айбек Аланов: Основная сложность замены нормального распределения на какое-либо другое связана с тем, как мы выводим определенное переходное распределение, которое получается в процессе. Изначально в DDPM было предложено зашумлять объект с помощью марковского процесса.
Дмитрий Ветров: Классические модели имели марковскую структуру, из-за чего в них можно было использовать только три вида распределений: нормальное, категориальное и гамма-распределение. Соответственно, как только мы хотим поменять вид распределения, нам приходится отказываться от марковской структуры. Это можно сделать разными способами, но идея у нас в любом случае одна и та же: мы хотим, чтобы в процессе генерации модель шаг за шагом расшумляла объект и в итоге выдала нам чистый, реалистичный объект из обучающей выборки.
Соответственно, как мы отказались от этой марковской структуры? Мы решили сделать все промежуточные состояния независимыми. Раньше состояния были объединены в цепочку последовательного зашумления. Теперь промежуточные состояния условно независимы. Соответственно, как только мы отказываемся от марковской структуры модели в прямом процессе, мы, очевидно, должны перейти также к немарковской структуре обратного процесса — это мы и сделали в нашей модели.
У нас были сложности с тем, как сделать обратный процесс немарковским. Свойство марковости говорит, что каждое следующее состояние можно получить, используя только информацию из предыдущего. Немарковская модель должна использовать информацию обо всех предыдущих состояниях, чтобы получить следующее. Как нам в нейронную сеть подать все предыдущие состояния? Айбек сказал, что мы предложили способ, как, определенным образом просуммировав эти состояния в один объект, в одно суперсостояние, сделать так, чтобы суперсостояние содержало информацию обо всех состояниях, которые мы в него сложили.
Мы доказали теорему о том, что это новое состояние хранит информацию обо всех предыдущих состояниях. С помощью него мы построили немарковский обратный процесс и получили те результаты, о которых говорим в статье.
[N + 1]: Как вы думаете, сколько времени пройдет до момента, когда кто-нибудь сделает новую большую диффузионную модель с использованием вашего метода? Или, может быть, вы сами этим занимаетесь?
Айбек Аланов: Я бы ожидал, что, скорее всего, нашу модель будут применять в тех доменах, где есть какой-то inductive bias. То есть мы знаем, как должны быть устроены данные, и это уже вшито в модель. Если будут делать большие модели, чтобы генерировать те же молекулы или какие-то специфические 3D-структуры, скорее всего, будут искать диффузии, позволяющие ограничивать пространство генерации.
На мой взгляд, область диффузионных моделей не раскрыта полностью. Проблем много, и при этом понятно, в какую сторону эти модели нужно улучшать. Есть много идей о том, как комбинировать генеративные модели прошлого поколения, те же GAN, с текущими диффузионками. Я бы посоветовал следить за этой областью, потому что кажется, что здесь будут очень интересные прорывы в ближайшее время.
Дмитрий Ветров: Сейчас основное применение диффузионные модели находят в генерации изображений, сигналов и видео. А в жизни еще много очень сложных задач, где было бы полезно уметь создавать новые реалистичные объекты. Диффузионные модели становятся все сложнее и сложнее, а задачи все амбициознее. При этом научное сообщество пока не полностью понимает, какие элементы диффузионных моделей являются критически важными для получения высокого качества генерации, а какие — лишь дань математическому украшательству.
В частности, при разработке нашей модели мы отказались от интерпретации диффузионной модели как обучаемого стохастического дифференциального уравнения и трактовали ее исключительно как нейробайесовскую модель с латентными переменными. Оказалось, что этого достаточно для получения хорошей генеративной модели, а за счет отказа от дифференциальной интерпретации мы получили возможность обучать ее при различных видах впрыскиваемого шума.
Думаю, что в ближайшие годы мы увидим еще много модификаций и расширений базовых диффузионных моделей, которые позволят решить более сложные или более специфические задачи генеративного моделирования.
Реклама: АНО «ИНСТИТУТ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА», 7730261209, erid: LjN8K4JRY