Гадание на датасетах

Может ли машинное обучение предсказать свое будущее?

Вы каждый день сталкиваетесь с машинным обучением и его работой. Вас удивляет, как быстро его учат новым навыкам и совершенствуют в старых. Но что если мы скажем, что все это достигнуто с помощью всего половины процента от имеющихся у человечества данных? Вместе с экспертами Яндекса рассказываем, как в ближайшие годы машинное обучение изменит мир вокруг нас.

N + 1 совместно с экспертами Яндекса, а также членами жюри и лауреатами научной премии им. Ильи Сегаловича представляет материал о ближайших и более дальних перспективах машинного обучения. В 2019 году Яндекс учредил премию имени Ильи Сегаловича в память о создателе первой версии поисковика «Яндекс» и популяризатора компьютерных наук. Это ежегодная премия для молодых исследователей в области машинного обучения, компьютерного зрения, информационного поиска и анализа данных, а также обработки естественного языка.

Если вы студент, аспирант или научный руководитель из России, Беларуси или Казахстана и работаете над подобными задачами, вам стоит рассказать о своих успехах и подать заявку на соискание премии. В этом году они будут приниматься до 1 марта включительно.


Здесь нет заголовка, но машинное обучение может его придумать

Машинное обучение есть почти в каждом гаджете, который нас окружает. С его помощью работают поисковики, агрегаторы такси, камеры, отслеживающие нарушения ПДД. Сейчас этим никого не удивишь. Но в последние годы машинное обучение стало важной частью медицинских и даже гуманитарных исследований.



В январе разработчики из OpenAI представили нейросеть DALL-E, способную создавать изображения по текстовому описанию. Это не первая подобная разработка, но очень интересная и разносторонняя. Пока рано говорить, что у нейросетей появилось воображение, но DALL-E способен рисовать предметы, руководствуясь даже очень абстрактным описанием, — например, «кресло в форме авокадо». Нейросеть также способна дорисовывать существующему изображению прямоугольную область с любой стороны, создавать реалистичные изображения по наброску и разбирается в том, как менялись вещи со временем. К примеру, DALL-E отличает деревянный телефон 1920-х годов от не таких старых домашних барабанных телефонов.

Подобная технология помогает создавать сцену по имеющемуся сценарию — то есть рисовать примерное изображение того действа, которое задумал сценарист. И этим использование машинного обучения в кино не ограничивается. По словам Игоря Куралёнка, члена жюри научной премии им. Ильи Сегаловича, руководителя подразделения AI & ML Yandex.Cloud, можно выполнять дубляж зарубежных фильмов, не используя голоса российских актеров, а при помощи машинного обучения «заставляя» иностранных исполнителей говорить по-русски.

Беспилотные автомобили, которые мы раньше могли видеть только в качестве первых прототипов на специальных полигонах, уже разъезжают по Москве, пока в тестовом режиме. И пускай эта технология еще не достигла полного развития, от нее можно ждать большого прогресса в ближайшем будущем. Другая интересная технология, в которой широко применяется машинное зрение, — магазины без продавцов. Несколько торговых сетей уже запустили пилотные проекты в Москве.

«Технологии глубокого обучения необходимы для обработки данных после сканирования трехмерного пространства — с помощью лидаров, сканеров структурированного света и других инструментов. Результаты применяются и при создании беспилотных авто, и в разработке приложений для мобильных устройств».

Евгений Бурнаев, доцент Сколтеха, стал обладателем научной премии им. Ильи Сегаловича среди научных руководителей в 2020 году

Гораздо необычнее то, что сейчас машинное обучение помогает расшифровывать забытую письменность. До начала предыдущего столетия в Японии использовалась письменная система, называемая кузусидзи. Сейчас — спустя более века после реформы системы образования — почти не осталось людей, способных ее понимать. Чтобы решить проблему расшифровки древних текстов Национальный институт японской литературы опубликовал датасет кузусидзи, содержащий более 4 тысяч классов символов и миллион их разнообразных изображений. Чтобы извлечь максимум из имеющихся данных, на платформе Kaggle открыли соревнование, победитель которого достиг F1 = 0,950. Суть соревнования заключалась в распознавании письменности и ее переводе на современную японскую письменность.

Постепенно машинное обучение проникает и в медицину. Как утверждает Александр Крайнов, член совета научной премии им. Ильи Сегаловича и руководитель Лаборатории машинного интеллекта Яндекса, медицина — самое интересное место для внедрения машинного обучения, начиная от распознавания медицинских снимков и заканчивая постановкой диагноза, пусть не в качестве конечного вердикта, но в виде весомого совета для докторов.

Пока машинное обучение помогает врачам иначе. Например, в американском госпитале алгоритм на основе машинного обучения предсказывает заполняемость больницы, распределяет время врачей и медсестер и заказывает расходники.

«Машинное обучение применяется в медицине и в сложных задачах — таких, как модель AlphaFold2, предсказывающая структуру белков. И в более приземленных и доступных — например, при создании элайнеров (ортодонтических капп на зубы)».

Лариса Маркеева, лауреат научной премии им. Ильи Сегаловича в 2020 году


Предупрежден, значит вооружен

Может показаться, что машинное обучение всесильно и сможет вскоре заменить человека в любой области. Это не так. Не во всех задачах сейчас можно прибегнуть к помощи машинного обучения. Порой собранных данных просто недостаточно для создания качественного алгоритма. Но, как подсказывает Игорь Куралёнок, возглавляющий подразделения AI & ML Yandex.Cloud, иногда выход все же есть — применение трансферного обучения (transfer learning).

Эта методика позволяет экстраполировать имеющиеся алгоритмы на более узкие проблемы. Подходящим примером является переобучение готовой языковой модели на перевод специфической малоизученной литературы. Возможны ли в этом случае ошибки? Скорее всего, да. Но не стоит забывать, что ошибки, человеческие они или машинные, — это естественная часть совершенствования технологии. И чем больше мы о них знаем, тем проще их обнаружить и исправить.

Но использование даже самых современных методик пока что не позволяет доверить машинному обучению задачи, сопряженные с высоким риском. Дэвид Талбот, руководитель отдела NLP Яндекса и член жюри научной премии им. Ильи Сегаловича, считает, что полностью доверить машинам такие задачи, как, например, операции на сердце или даже управление автомобилем, еще нельзя.

«Очевидно, что приход transfer learning в NLP (от англ. natural language processing — "обработка естественного языка") — очень важный прорыв, который чуть раньше произошел и в компьютерном зрении. Отдельно стоит отметить модели (например, DeBERTa — Decoding-enhanced BERT with Disentangled Attention), которые смогли превзойти человека в задачах понимания текста (на SuperGLUE benchmark). Но стоит обратить внимание и на другие важные работы в области. Использование баз и графов знаний (knowledge bases и knowledge graphs) совместно с языковыми моделями становится популярным и используется, например, в диалоговых системах или для генерации текста».

Анастасия Янина, лауреат научной премии им. Ильи Сегаловича в 2020 году

Александр Крайнов из Лаборатории машинного интеллекта Яндекса считает, что нейросети технически несовершенны в сравнении с мозгом. Мозг способен выполнять самые разнообразные задачи, затрачивая несравнимо меньше энергии, чем нейросети. В том числе поэтому не стоит ждать, что в скором времени машина сможет воспроизвести работу человеческого мозга. В ближайшее время нейросети будут эффективны лишь в решении узких конкретных задач.



Куда едем? В будущее!

Создание беспилотного авто требует работы по пяти направлениям:

  1. Локализация и построение карты (map and localization), которые определяют, где автомобиль расположен в конкретный момент.
  2. Восприятие (perception) отвечает за анализ окружающего мира.
  3. Прогнозирование (prediction) — предсказание поведения других участников дорожного движения.
  4. Планирование маршрута/траектории (motion planning) — этот компонент получает входные данные от perception и prediction и строит траекторию движения.
  5. Низкоуровневые команды (vehicle control) — непосредственное управление автомобилем, производимое с помощью motion planning.

Из этих пяти компонентов восприятие (perception) и прогнозирование (prediction) больше всего опираются на машинное обучение. Для анализа окружающего мира восприятие (perception) получает данные от камер, радаров и лидаров, расположенных на автомобиле. Радары позволяют заметить объект на большем расстоянии, чем другие датчики, и определить его скорость, но не могут при этом определить класс объекта.

Другим важным сенсором являются лидары, чей принцип работы напоминает строительные лазерные дальномеры. Лидар на беспилотных машинах состоит из некоторого числа вертикально расположенных «лазерных дальномеров», которые постоянно вращаются, посылая около миллиона импульсов в секунду. Отражаясь от объектов, они независимо от уровня освещения создают трехмерный слепок окружающего мира (лидарное облако), с чем анализ видеопотока с камер справляется гораздо хуже. Сами же лидарные облака помогают не только понять, что окружает беспилотный автомобиль, но и помогают определить, где он находится. Определение положения в пространстве по GPS имеет довольно большую погрешность, поэтому алгоритмы сравнивают полученный слепок окружающего мира с объектами на трехмерной карте, хранящейся в памяти беспилотного авто, и определяют точное местоположение автомобиля. Создание датасетов в Яндексе происходит при помощи Толоки, участники которой также размечают изображения и лидарные облака, чтобы собрать данные для улучшения машинного зрения беспилотных машин.

Для успешного движения беспилотных машин необходима качественная работа алгоритма сегментации. Он отвечает, к какому классу объектов относится каждый пиксель изображения и каждая фигура на лидарном облаке, относятся ли они к пешеходу, автомобилю или дорожному знаку. При этом алгоритм должен выделять из классов объектов отдельные единицы: например, разделять поток автомобилей на машины.

Константин Лахман, член жюри научной премии им. Ильи Сегаловича и руководитель отдела компьютерного зрения и ML приложений Яндекса, считает что грузовые перевозки уже скоро будут автоматизированы. Но в ближайшее время всеобщего внедрения беспилотных машин ждать не стоит. Тем не менее появление на дорогах смешанного потока, в котором по соседству с обычными автомобилями будут ездить гораздо более совершенные в сравнении с сегодняшним днем беспилотные авто, уже не за горами.

Смешанный режим, кстати, является важной проблемой, которую надо решить на пути к общедоступности беспилотных автомобилей. Координироваться друг с другом и обмениваться информацией им существенно проще, чем предугадывать поведение автомобилей с живыми водителями. Примером налаженного совместного движения беспилотных машин являются роботы на складах Amazon, которые перемещаются по ограниченному пространству в полной гармонии друг с другом.

Для наилучшего взаимодействия с живыми участниками дорожного движения беспилотные машины опираются на прогнозирование (prediction). Этот компонент с помощью техник машинного обучения предугадывает поведение других участников дорожного движения. Другими словами, он определяет их наиболее вероятные намерения и траектории. Безусловно, стиль вождения отличается не только от страны к стране, но и от города к городу. Но с помощью хороших датасетов и нейросетей беспилотные автомобили могут научиться ездить в любых условиях.

Плохая погода, к примеру, современным беспилотным авто уже не помеха. Для различных погодных условий разработаны соответствующие режимы езды. Снег, конечно, способен слегка зашумить лидарное облако, но очистить его от шума не представляет сложности. Также и все датчики на беспилотных машинах способны сами очищать себя от грязи и осадков. Большую сложность представляет езда в загруженном и непредсказуемом транспортном потоке.

По мнению Александра Крайнова, возглавляющего Лабораторию машинного интеллекта Яндекса, взрослые люди еще будут водить автомобили, а ребята, которым сейчас по десять лет, будут сидеть в автомобилях только в качестве пассажиров, даже находясь за рулем.

Изменят беспилотные машины и общественный транспорт. Беспилотный автомобиль может быть одновременно и каршерингом, и такси. И если вы таким обзаведетесь в будущем, вам будет гораздо выгоднее сдавать его в аренду, пока вы его не используете. Значит, города будущего будут наполнены координированными беспилотными машинами, которые будут постоянно в движении.

«Беспилотные авто в качестве общественного транспорта могут существенно снизить нагрузку на дороги. Выделенная полоса — это ведь отдельный трек. В ее рамках можно все автоматизировать, увеличить частоту движения, минимизировать человеческий фактор».

Александр Гасников, профессор МФТИ, доктор физико-математических наук, стал обладателем научной премии им. Ильи Сегаловича среди научных руководителей в 2020 году



Всевидящее машинное око

Банки, сотовые телефоны, камеры в общественных местах — в повседневную действительность все больше входят методы идентификации по лицу. И поскольку от их защищенности зависит порой состояние вашего банковского счета или приватность данных на вашем телефоне, стоит задуматься безопасно ли их использовать. На самом деле да.

Возможно, вы сталкивались с примерами, когда небольшое и невидимое человеческому глазу зашумление картинки полностью сбивало с толку машинное зрение. Такие методы взлома называются состязательными атаками. С их помощью можно заставить алгоритм перестать обнаруживать на изображении человеческие лица или даже представить черепаху ружьем. Казалось бы, таким образом злоумышленники могут маленькими штрихами помечать дорожные знаки и это полностью собьет с толку те же беспилотные авто. Но нет.

«В ближайшее время большое внимание будет обращено к задачам устойчивости и интерпретируемости алгоритмов. Как построить модели, устойчивые к атакам и шуму? Как объяснить, почему алгоритм выбрал именно такой ответ? При этом очень важно следить за новыми технологиями. Машинное обучение настолько быстро меняется, что нужно адаптироваться, а студентам в особенности решать отдельные, "яркие" задачи, пока их не успели решить другие».

Иван Оселедец, профессор Сколтеха, доктор физико-математических наук, стал обладателем научной премии им. Ильи Сегаловича среди научных руководителей в 2019 году



Применяемые сейчас методы идентификации по лицу и просто методы распознавания лиц и объектов гораздо чаще опираются на анализ видеопотока, чем на анализ статического изображения. Это касается и ваших мобильных телефонов и камер на беспилотных машинах. Актуальных и опасных методов взлома видеопотока в таких ситуациях пока нет. Тем не менее совершенствование методик защиты не останавливается.

Одной из самых интересных задач является задача распознавания лица. Ваш телефон ведь должен понять, что вы — это вы, а не цветная фотография вашего лица. Есть несколько подходов. Например, более совершенные камеры способны определять сосуды на человеческом лице, движение крови по ним, чего у фотографии точно быть не может. Apple пошли другим путем — их новые телефоны оборудованы лидарами, которые определяют рельефность лица и в перспективе могут защищать от подмен.

В том, что касается взаимодействия машинного зрения с NLP, глава отдела NLP Яндекса Дэвид Талбот обещает: в ближайшем будущем машинный перевод текста с изображения будет учитывать контекст этого самого изображения. Например, если на бутылке воды будет слово «still», машинный перевод поймет, что в контексте «still» значит «негазированная», а не «все еще».

Но проникает машинное зрение не только в ваш телефон и беспилотные автомобили. В Москве и ближнем Подмосковье, например, действуют несколько небольших магазинов без продавцов — это эксперименты крупных сетей. Возможно, вы даже бывали в таких. Камеры, расположенные внутри помещений, считывают лица покупателей, продукты, которые они берут себе в корзину и на выходе списывают с банковского счета необходимую сумму. По словам Константина Лахмана (компьютерное зрение и ML приложений Яндекса), пока такие магазинчики являются только proof of concept — крупные розничные сети оттачивают на них новую технологию и пытаются исключить лазейки для мошенничества. В ближайшем будущем, когда сомнения в целесообразности таких магазинов отпадут, вполне возможно, мы увидим и гипермаркеты, наполненные только покупателями.


Говорите-говорите, я за вами успеваю

С помощью машинного обучения NLP выполняет разнообразные задачи: перевод, распознавание речи, анализ тональности текста, создание вопросно-ответных систем, которые сейчас применяются в чат-ботах.

Классический NLP с учителем разбивал задачу на подпункты: токенизация, категоризация, классификация и так далее. То есть каждую задачу (анализ тональности, извлечение отношений, перевод и так далее) решали отдельно и независимо. Но современный NLP отходит от разделения на компоненты в сторону прямого решения задачи. Сейчас, как и в остальных областях машинного обучения, в NLP широко используют предобученные нейросети — языковая модель текста извлекает закономерности языка без привязки к конкретной задаче. Затем эту модель можно легко дообучить на определенную задачу с помощью небольшого набора размеченных данных. Примером успешной языковой модели, основанной на трансферном обучении, является BERT.

Человеку может казаться, что один язык проще, а другой сложнее. Носителям европейских языков вряд ли легко дастся изучение арабского или китайского. Однако машины не повторяют логику человеческого мозга и воспринимают задачу иначе. По словам Дэвида Талбота из отдела NLP Яндекса, качество перевода зависит исключительно от величины и качества имеющихся датасетов. Поэтому хуже всего машинный перевод справляется с непопулярными языками, но и в этом случае перевод улучшается — данные помогают собирать локальные сообщества. Если этого недостаточно и хороших билингвических датасетов нет, на помощь придет машинное обучение без учителя. Вначале представления слов в каждом языке обучаются на моноязычных данных. Затем эти представления выравнивают, опираясь на слова, которые присутствуют в обоих языках. На этих выровненных представлениях запускается модель перевода. С ее помощью текст итеративно переводится с одного языка на другой, а в качестве метрики качества используется разница между исходным текстом и переводом туда-обратно.



Однако в отдельных случаях при сохранении смысла перевода, некоторую шероховатость можно простить. Возможно, вы слышали о «вавилонской рыбке». Сейчас так называют разрабатываемое устройство, способное переводить человеческую речь «на лету». Дэвид Талбот считает, что оно будет доступно пользователям в течение следующих пяти-десяти лет. Разумеется, при быстрой обработке недосказанных предложений высокой точности перевода пока ждать не стоит, но общий смысл слов собеседника с его помощью будет можно понять. Более трудной задачей является воссоздание голоса человека, его тональности и эмоций при переводе на другой язык. Но и в этом направлении сейчас ведется работа.


Brake! Снято!

Проникает машинное обучение и туда, где его меньше всего ждали, — в творческие специальности. В Яндексе есть онлайн-выставка картин, нарисованных нейросетью. Все уже разошлись по «частным коллекциям». Или вы, может быть, слышали о музыкальном исполнителе «Нейронная оборона», стихи для песен которого также были написаны нейросетью. Отличить их от настоящих произведений Егора Летова удается не всем.

Машинное обучение может изменить и мир кино. Уже сейчас нейросети способны создавать лица никогда не существовавших людей. По мнению руководителя Лаборатории машинного интеллекта Яндекса Александра Крайнова, при помощи дипфейков киностудии избавятся от необходимости переплачивать известным актерам за бренд — их лицо. А цениться в профессии будут те люди, которые действительно смогут качественно сыграть роль. Пускай и не со своим лицом. Как утверждает Александр, это приведет к тому, что в будущем суперзвезд кинематографа вроде Леонардо ДиКаприо больше не будет.

Другим важным нововведением машинного обучения в кино является создание виртуальной сцены по сценарию. Пускай пока качество этих сцен не позволяет их использовать в готовом монтаже, но с их помощью можно выставить свет и понять, как будет смотреться кадр до того, как дорогостоящие декорации будут построены.

Но не все творчество дается нейросетям так легко. Нельзя ждать, что в осязаемом будущем с помощью методов машинного обучения можно будет написать роман. Создание большого художественного текста с нуля предполагает жизненный опыт, переживания, которых у нейросети нет. Пока нельзя представить, что машинное обучение сможет придумать персонажей, дать им характеры и выстроить отношения между ними. Тем не менее написание коротких текстов журналистского характера нейросетям уже удается. Дэвид Талбот, который руководит отделом NLP Яндекса, в качестве примера приводит алгоритм обработки естественного языка GPT-3. Но, по его словам, хоть он и впечатляет своими возможностями, одного-двух абзацев написанного им текста обычно достаточно, чтобы увидеть в нем некоторую несвязность.

Другая сложность, отмечает Константин Лахман из отдела компьютерного зрения и ML приложений Яндекса, в том, что у потребителя художественное произведение, созданное машинным обучением, может не вызвать интереса. Просто он не будет чувствовать эмоциональную связь с автором-алгоритмом.



Будущее в будущем

Одна из проблем более далекой перспективы, решения которой в скором времени ждать не стоит, — Поиск 2.0, отмечает руководитель подразделения AI & ML Yandex.Cloud Игорь Куралёнок. Когда появлялись первые поисковики, страниц в интернете было немного и индексировать их было относительно просто. Затем этот процесс отдали нейросетям, и сейчас они из множества страниц выбирают подборку наиболее релевантную нашему запросу. Но в будущем стоит задача научить нейросети не искать страницы, на которых мы можем найти ответ на наш вопрос, а непосредственно отвечать на запрос пользователя, проанализировав всю необходимую информацию из интернета. Яндекс приближается постепенно к этому, прямо отвечая нам на запрос, «какая погода в Москве» или «где появилось первое метро», однако полноценный поиск 2.0 появится нескоро.

Но уже сейчас в дополнение к поисковым результатам на многие запросы Яндекс выводит «суммаризацию» выдачи — вместо просмотра самих документов пользователь может получить общий ответ. Пока такая технология, по мнению Константина Лахмана (отдел компьютерного зрения и ML приложений Яндекса), помогает в основном на фактовых запросах, но с быстрым развитием генеративных текстовых моделей, вполне вероятно, подобной суммаризацией будет сопровождаться большинство поисковых запросов. Похожие подходы используются и в Алисе, потому что ответы на простые и сложные вопросы пользователей — это одно из неотъемлемых качеств хорошего диалогового помощника.

Не стоит в ближайшее время ждать и появления настоящего искусственного интеллекта — ИИ общего назначения. Основан этот искусственный интеллект может быть только на технологиях машинного обучения без человека в качестве учителя — то есть обучения с подкреплением, ведь, обучаясь на данных, размеченных людьми, машина в лучшем случае достигнет уровня квалифицированного специалиста, но не превзойдет его. Задача искусственного интеллекта общего назначения, самообучаясь, не просто выполнять задачи лучше человека, но и формулировать критерии качества, по которым оценивается выполнение этих задач. На пути к этому стоит необходимость выработать у машины любопытство и интерес к окружающему. Как этого достигнуть, пока тоже неизвестно.

По мнению Дэвида Талбота (отдел NLP Яндекса), в ближайшем будущем машины не научатся читать наши мысли по лицу, и способов коммуникации без речи не появится. Да и в существующих областях NLP от машинного перевода до синтеза речи алгоритмы все еще будут допускать ошибки. Но голосовые помощники будут плотнее взаимодействовать с поисковиками и будут гораздо более персонализированными, чем сейчас. В ближайшем будущем вы даже сможете попросить ИИ подобрать подарки для ваших родственников на праздник, показав ему какие-то примеры. Но не все так просто.



Игорь Куралёнок, возглавляющий подразделения AI & ML Yandex.Cloud, считает, что сфера применения голосовых помощников ограничена. Мало кому комфортно пользоваться ими в общественном транспорте. К тому же, по его словам, через голосовой сигнал мы воспринимаем только 30 процентов информации. Поэтому взаимодействие с устройствами традиционными способами пока никуда не уйдет.

В будущем стоит ждать, что профессия асессора (человека, размечающего данные для машинного обучения) будет становиться все более квалифицированной. Пока что на той же Толоке существует необходимость решать даже простейшие задачи, вроде разметки общепонятных изображений. В перспективе, когда ML будет учиться более сложным навыкам, оно будет нуждаться в датасетах, размеченных лучшими специалистами планеты. Будет ли это интересно им? Скорее всего, да. Ведь машина, обученная нашим умениям и талантам, успеет сделать больше, чем мы за свою карьеру.

Технологии ML к нашему времени достигли уже очень многого и наверняка не остановятся. Уже через год нас будут удивлять совсем новые достижения и способности нейросетей. Но машинное обучение создается людьми, а не машинами. И, возможно, именно вы поможете ему стать еще лучше.



Текст — Богдан Сиротич

Видео — Сергей Арнаутов, Мария Климова, Надежда Рослякова

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.