Глава Yandex Research Артем Бабенко — о машинном обучении, научном сообществе и доступности технологий
В декабре 2023 года Яндекс стал единственной российской компанией, вошедшей в число мировых лидеров в области развития искусственного интеллекта (ИИ). Мы поговорили с руководителем направления Yandex Research Артемом Бабенко о том, каким был рынок машинного обучения в 2011 году, какие есть проблемы при развитии искусственного интеллекта и как соблюсти интересы бизнеса и науки.
Когда у Яндекса появилась необходимость развивать собственную команду исследователей?
Это было в 2011 году, когда внутри компании стало понятно, что в машинное обучение (machine learning, ML) — тогда это еще не называлось искусственным интеллектом — нужно много инвестировать. Кроме того, Яндексу нужно было наводить мосты с международным академическим сообществом по этому направлению для сотрудничества в будущем.
На тот момент внутри компании уже была экспертиза в области машинного обучения, которая сформировалась за счет работы над прикладными задачами. Мы знали, как их решать. Этот опыт нужно было связать с мировыми научными трендами.
Как выглядел мировой рынок машинного обучения в 2011 году? Каким он был в России?
На слуху была лаборатория Microsoft Research, создававшая передовые технологии. Был Yahoo.Research — сейчас про него уже почти не слышно. Замечу интересный факт: отдел Yandex Research старше Meta.Research*.
В то время все инновации придумывали в академических кругах. Тренда на разработку передовых технологий внутри корпораций еще не было. В России же на тот момент, насколько я помню, не было ни одного места, которое бы стабильно представляло научные результаты мирового уровня в области машинного обучения. Яндекс стал первым.
Какими были ключевые прорывы вашей команды в этой области?
В 2014 году лаборатория Yandex Research опубликовала статью, где описала способ применения нейросети для поиска по изображениям. Затем этот алгоритм использовали в «Яндекс.Картинках», а именно в функции поиска по изображениям.
Ближе к 2020 году у нас уже было несколько знаковых работ про генеративные модели в компьютерном зрении. Тогда были популярны GAN-модели (generative adversarial network, генеративно-состязательные сети). Наш отдел разработал первый в своем роде алгоритм, который позволяет использовать их для семантического редактирования изображений, то есть для того, чтобы создавать визуальные эффекты на картинках, например добавлять очки или улыбку. Эта техника переехала и в более современные диффузионные модели.
Мы также предложили алгоритм коллаборативного обучения больших языковых моделей (large language models, LLM). Большие языковые модели можно обучать, только имея огромные GPU-кластеры. На всей планете их всего около пяти, что сильно ограничивает других игроков. Yandex Research совместно с коллегами из Вашингтонского университета и компании Hugging face предложил алгоритм, который позволяет большому количеству компьютеров объединять мощности. Они могут быть полностью гетерогенными (различными по мощности), никак не связанными между собой и при этом находиться на разных континентах.
Таким образом мы образовали сообщество людей, которые хотят обучать LLM. По отдельности у них нет необходимых мощностей, но, объединившись, они могут обучить модель, которая по качеству будет сравнима с разработками OpenAI и Meta. Это демократизация ИИ. Шаг в сторону того, что передовые модели становятся доступны не только ограниченному кругу лиц. Для тех, у кого нет GPU-кластера, можно воспользоваться нашей статьей — это open-source разработка.
Yandex Research занимается фундаментальными проблемами в области искусственного интеллекта. Какие проблемы в этой области вы замечаете?
Все уже поняли, что нейросети — это круто, что они буквально могут перевернуть мир, но их доступность под вопросом. Проблема заключается в том, что передовые модели искусственного интеллекта очень дороги. Это задача со звездочкой. Для их обучения и использования нужно очень много данных, GPU-мощностей и в конечном счете денег. Поэтому ключевая задача — сделать этот процесс дешевле.
Как решается вопрос доступности сейчас: у компаний есть проприетарные модели ИИ, API которых они предоставляют, но их параметрами ни с кем не делятся, так как это уже конкурентное преимущество.
Вторая проблема — в интерпретации работы искусственного интеллекта. Для многих работа нейросетевых моделей — это черный ящик: непонятно, что внутри них происходит (подробнее о том, как исследуют логику нейросетей, читайте в материале «Внимание, черный ящик». — Прим. N + 1). Здесь также поднимается вопрос этичности и безопасности использования моделей — пользователи интересуются, а не используют ли они какие-то приватные данные для обучения.
Грамота.ру назвала «нейросеть» словом 2023 года. Авторы портала сделали выбор на основе «сбалансированных критериев» — анализа больших данных, частотности запросов, оценки ведущих экспертов: лингвистов, социологов и других специалистов. Слово «нейросеть» набрало более 75 процентов голосов.
Можно ли измерить стоимость производства отдельной модели?
Точную цифру я не назову, но это определенно космические суммы.
Как подходы в обучении от Yandex Research помогают решить обе проблемы?
Про демократизацию и нашу статью я уже сказал. Важность понимания устройства нейросети мы осознали, работая с одной из GAN-моделей для генерации картинок. Мы залезли в ее «кишки» и обнаружили, что, изменив некоторые параметры, можем добиться полезных трансформаций на практике. Допустим, мы могли изменить параметр в одном из слоев, чтобы человек на сгенерированном фото начал улыбаться. Это к разговору о том, что понимание работы нейросетевой модели дает возможность использовать ее по-новому.
Какие направления существуют в Yandex Research?
В 2020 году мы начали активно развивать направление генеративного моделирования картинок с помощью GAN-моделей. Затем популярность обрели диффузионные модели. Например, под капотом Яндекс.Шедеврума как раз находится огромная диффузионная модель, которую собрали в Yandex Research.
Второе направление — распределенное обучение. Нам хотелось, чтобы большие языковые модели в первую очередь были доступны всем и каждому.
Третье направление связано с графовыми нейросетями. Речь о многомерных структурах, которые связаны между собой. Например, молекула вещества — это граф. В наших нейросетях графами могут выступать данные, между которыми есть связи. Яндекс использует графовые нейросети в антифродеАнтифрод-системы оценивают финансовые транзакции в интернете и проверяют, насколько они подозрительны с точки зрения мошенничества. и детекции недобросовестного поведения пользователей.
Четвертое направление — табличное глубинное обучение, или табличный deep learning. Для большинства задач в машинном обучении могут применяться не только мультимедийные данные, но и обычные числа, с которыми живому человеку работать будет сложно. До недавнего времени с такими данными нейросети справлялись не очень успешно.
По данным сервиса Нейростат, треть активных интернет-пользователей уже применяют генеративные нейросети, а две трети — слышали о них.
Какие из этих направлений развиваются активнее всего?
В Yandex Research мы верим и инвестируем в каждое из них одинаково. Сегодня многих беспокоит эффективность LLM и их демократизация, а также работа тех ИИ-сервисов, которые генерируют изображения.
Яндекс развивает совместные лаборатории с рядом вузов, в том числе с ВШЭ и МФТИ. Чем они вам выгодны?
В ВШЭ и МФТИ учится много заинтересованной в научной карьере молодежи, для которой мы можем быть научными руководителями. Мы вкладываемся в этих студентов, у нас они вырастают и в будущем помогают в проектах.
Это взаимовыгодное сотрудничество. До того как мы начали активно дружить с вузами, студенты просто не рассматривали научную карьеру, нормального продвижения не было. А Яндекс предоставил карьерный лифт.
Один из студентов, который учился на нашей программе, попал на работу в OpenAI штатным исследователем, еще один — в DeepMind также исследователем. Также многие продолжают работать у нас, в Yandex Research.
Яндекс стал единственной российской компанией, вошедшей в рейтинг мировых лидеров в области развития искусственного интеллекта по итогам исследования Epoch AI и MIT. Благодаря чему это стало возможным?
Яндекс довольно рано относительно других компаний задумался о создании ML-подразделения. Большая часть компаний, представленных в рейтинге, образовали такие отделы и вступили в гонку сильно позже. И, конечно же, мы пишем достойные научные шедевры, которые активно цитируются. В научном мире цитируемость — один из показателей того, что научный труд востребован и полезен.
Что нужно, чтобы обойти Google, OpenAI и Meta по числу научных статей?
Расти в размере, нанимать новых студентов и обучать их.
По некоторым показателям мы уже обошли Google и OpenAI. Например, если количество цитирований в научных статьях делить на объем средств, необходимый для содержания всего отдела, мы будем в мировом топе.
Но в научном сообществе ориентируются на конкретный результат, а не на числа — по количеству цитирований легко с кем-то сравниться. Была поставлена задача сделать нейросеть, с помощью которой можно будет удобнее искать по изображениям. Yandex Research в свое время сделал такую нейросеть, обогнав и Facebook, и Google.
Одна из частых проблем в машинном обучении — это неспособность ML-моделей корректно работать на бо́льшем разнообразии примеров, чем при обучении. Например, модель может опознать корову на фоне зеленого поля, но не на фоне пятиэтажки. Как эту задачу решить?
Можно использовать дополнительные условия, которые запретят модели считать, что если она видит зеленое поле, то на фото — корова. Еще можно сделать так, чтобы в обучающих изображениях корова находилась на всех возможных фонах. Нужно больше инвестировать в data pipeline — процесс сбора, обработки и передачи данных из одной системы в другую.
Мне кажется, сейчас во всем мире разработчики ML-моделей начали понимать, что нельзя отдавать задачи на откуп модели, а вместо этого стоит озаботиться подготовкой качественного набора обучающих данных. Это могут быть изображения или текст, все что угодно. Да, это сложно и дорого, но это максимально правильный способ.
По-вашему, какие направления в машинном обучении сейчас наиболее актуальны и развиваются активнее всего?
Первое направление — большие языковые модели, или LLM. Задач здесь несколько: нужно улучшать общее качество, удешевлять использование и находить новые приложения.
Второе — диффузионные модели и все, что с ними связано. В первую очередь речь идет о приложениях для генерации картинок и тех, которые используют речевые технологии. Мы не остаемся в стороне: Yandex Research много инвестирует в развитие этого направления.
По данным исследования «Искусственный интеллект в России — 2023: тренды и перспективы», 20 процентов крупных российских компаний внедряют генеративные нейросети.
Какие у Yandex Research планы на 2024 год?
Наш горизонт планирования обычно длиннее, чем один год, — этого требует наука. В планах расти в численности, развиваться во всех направлениях и запускать международные коллаборации. По своему личному примеру могу сказать, что общение с другими ML-лабораториями дает взаимообогащающий опыт, так как у разных ученых разный взгляд на один и тот же предмет. Это дает большое поле для интересных научных экспериментов.
С кем вы сейчас развиваете сотрудничество на мировом рынке?
С Microsoft проводили совместный челлендж на NeurIPS. Несколько совместных проектов запускали с компанией Hugging Face, в том числе писали статьи. Этим же занимались с командами из университетов Беркли, Карнеги Меллон, Стэнфорда, Швейцарской высшей технической школы в Цюрихе и Института науки и технологий в Австрии.
Как в научном мире вы находите друг друга и договариваетесь о коммуникации и совместной работе?
Все начинается с научного интереса и желания проверить определенную научную идею. Уже во время работы становится понятно, что необходима чья-то экспертиза. Мы ищем эксперта и приходим к нему с предложением. В онлайн начинается общение — и пошло-поехало.
Обычно научное сообщество очень солидарное. Даже если ты работаешь на компанию-конкурента, тебе все равно помогут.
У Яндекса много сервисов, основанных на ИИ. Как Yandex Research распределяет между ними приоритет?
Успеха будет больше в тех прорывных сервисах, где используются нейросетевые модели. Это YandexGPT, Алиса и Шедеврум. Логика здесь проста: научный успех в этих разработках транслируется в успех бизнеса.
Как одновременно соблюсти интересы и науки, и бизнеса?
Бизнес и наука одинаково нужны друг другу. В последние годы у компаний появилась возможность сильно влиять на научную повестку: бизнес обращается к ученым, формирует интересующие задачи и предлагает по ним писать статьи; ученые находят задачи важными и начинают работать.
Значит ли это, что бизнес стал больше интересоваться наукой?
Тут все взаимно. Компании начали понимать, что определенные научные разработки могут принести им пользу. А ученые понимают, что реальные задачи, которые предлагает бизнес, интересны, к ним можно приложить мозги.
*Деятельность компании Meta запрещена в России.
Реклама: Общество с ограниченной ответственностью «ЯНДЕКС», ИНН 7736207543, LjN8KNBpM