Исследователи из Google Brain создали метод, позволяющий применять для выполнения определенной задачи нейросетевой алгоритм, обученный выполнять другую задачу, используя для такого «перепрограммирования» только входные данные. К примеру, авторы показали, как можно с помощью специально созданных входных изображений распознавать рукописные цифры на изображении, используя нейросеть, обученную распознавать животных. Статья с описанием метода опубликована на arXiv.org.
Алгоритмы машинного обучения имеют архитектурный недостаток, делающий их уязвимыми к состязательным примерам. Эти примеры представляют собой входные данные, которые специально созданы таким образом, чтобы заставить нейросетевую модель ошибиться и выдать некорректный результат. К примеру, в случае с алгоритмами распознавания и классификации объектов на фотографиях исходное изображение и состязательный пример могут быть неотличимы друг от друга для человека, но нейросетевой алгоритм распознает на них совершенно разные объекты.
Некоторые методы позволяют создавать состязательные примеры, цель которых заключается только в том, чтобы заставить алгоритм выдать некорректный результат, а более совершенные атаки позволяют получать от алгоритма конкретный результат. Пока эти атаки работают в ограниченных условиях и далеко не всегда эффективны, однако в будущем их развитие может представлять собой большую опасность. К примеру, таким способом потенциально можно обманывать системы компьютерного зрения беспилотных автомобилей и заставлять их некорректно распознавать дорожные знаки. Из-за этого исследователи активно изучают как методы защиты от состязательных примеров, так и новые способы атак для того, чтобы впоследствии найти защиту и от них.
Группа разработчиков из Google Brain под руководством Яши Сол-Дикштейна (Jascha Sohl-Dickstein) разработала новый вид атаки с использованием состязательных примеров, позволяющий использовать алгоритмы, обученные для классификации одних объектов, в качестве классификаторов других типов объектов, используя для такого «перепрограммирования» только входные данные. Стоит отметить, что предложенная исследователями атака подразумевает, что злоумышленник получил доступ к параметрам алгоритма-жертвы. Входные данные в этом методе состоят из двух частей: непосредственно данных для анализа и данных, заставляющих алгоритм выполнять требуемую задачу. К примеру, это может быть небольшое изображение с цифрой, встроенное в гораздо большее изображение, представляющее собой «программу» для выполнения нужной задачи.
Атакуемый алгоритм выполняет определенную функцию классификации для определенного типа входящих данных. Задача заключается в том, чтобы алгоритм выполнял другую функцию классификации в ответ на другой класс входящих данных. Для этого изображение-программа подбирается для конкретной нейросетевой модели таким образом, чтобы она осуществляла перенос входящих данных и функций между двумя задачами.
Для проверки концепции исследователи выбрали шесть сверточных нейросетевых моделей, используемых для классификации изображений животных из известного датасета ImageNet. При этом принцип работы метода относительно универсален и может быть использован и для других моделей. Авторы выбрали для эксперимента три популярные задачи в области машинного обучения: распознавание рукописных цифр из датасета MNIST, распознавание фотографий из датасета CIFAR-10 и распознавание количества квадратов на изображении. Для каждой из шести моделей и задачи подбиралось такое изображение-программа, чтобы она представляла десять классов животных из исходного датасета ImageNet в качестве соответствующих десяти классов из других датасетов. К примеру, для задачи распознавания количества квадратов каждому из десяти изображений с квадратами было сопоставлено десять классов животных.
Авторы называют изображение программой, потому что для одной модели необходимо лишь одно изображение-состязательный пример, в центр которого вставляется одно из десяти изображений из нового датасета. Тестирование показало, что «перепрограммированные» нейросетевые модели хорошо справляются с классификацией изображений с квадратами и цифр, но намного хуже с классификацией фотографий из CIFAR-10.
Исследователи считают, что в будущем метод было бы интересно проверить на моделях для классификации других типов данных, например, звуковых записей или текста. Кроме того, авторы считают особо потенциально перспективным применение метода к рекуррентным нейросетям, потому что они могут быть полными по Тьюрингу, то есть применимыми для любых вычислительных функций. Исследователи считают, что потенциально метод можно использовать для бесплатного использования в своих целях мощностей сервисов, изначально выполняющих другие задачи.
Один из авторов работы Айан Гудфеллоу (Ian Goodfellow) известен как один из разработчиков концепции генеративно-состязательных нейросетей, которая была описана в 2014 году и с тех пор была использована во многих проектах, использующих машинное обучение для обработки и создания изображений. Например, с помощью такой архитектуры исследователи научили нейросети создавать изображения по текстовому описанию и рисовать оригинальные произведения искусства, превращать фотографию в короткое видео с событиями из будущего, и генерировать фотореалистичные портреты людей.
Григорий Копиев
Она поможет написать письмо, план тренировки или сочинит историю
Яндекс обучил большую русскоязычную языковую модель YandexGPT и внедрил ее в своего виртуального помощника Алису. Сейчас нейросеть тестируют пользователи продуктов Яндекса, новость об этом вышла на сайте компании. Языковая модель — это нейросеть, которая умеет генерировать тексты, по очереди предсказывая каждое слово в предложении. Языковая модель YandexGPT основана на архитектуре Transformer, которую создали исследователи из Google в 2017 году. Когда в такую нейросеть загружают текст, она умеет выделять в нем важные слова и фокусировать на них внимание. Главный навык модели — хорошо понимать и запоминать тексты, и генерировать новые. Когда нейросеть осваивает этот навык, она одновременно естественным образом учится выполнять самые разные задачи, связанные с анализом текстов. Большие языковые модели основаны на архитектуре Transformer и обучены на огромном количестве данных, обычно из интернета. Они умеют создавать текст, почти не отличимый от человеческой речи. Первой успешной моделью такого типа стала нейросеть GPT от компании OpenAI. В 2022 вышла улучшенная версия модели ChatGPT. Ее не просто натренировали на большом количестве данных, но и дообучили с помощью обучения с подкреплением. Люди-эксперты работали с нейросетью в режиме диалога, показывая ей как правильно отвечать на вопросы. В надежде повторить успех ChatGPT, многие компании обучают свои языковые модели-аналоги (например, Bard от Google или Poe от Quora). Яндекс первым внедрил такую модель в виртуального помощника. 17 мая Яндекс выпустил большую языковую модель YandexGPT в открытый доступ. С ней можно пообщаться через Алису в приложении Яндекс, браузере, умной колонке или телевизоре. Чтобы активировать YandexGPT, нужно сказать: «Алиса, давай придумаем!» Языковая модель пока находится в режиме тестирования, но уже умеет выполнять разные задачи пользователей: выбрать подарок, составить план тренировки или написать деловое письмо. Модель умеет составлять грамотные содержательные тексты, но может ошибаться в фактах. Посмотрите, как пользователи общаются с YandexGPT: Нейросеть обучали на суперкомпьютерах Яндекса в два этапа. Сначала разработчики отобрали для обучения много книг, статей и страниц сайтов с помощью поисковых инструментов Яндекса — по утверждению компании, в выборку попадали только содержательные и хорошо написанные тексты. На втором этапе модель дообучили, чтобы она лучше вела диалог. Для этого Яндекс воспользовался методом, который придумали исследователи из OpenAI. Эксперты-разметчики составили сотни тысяч пар вопрос-ответ и показывали их YandexGPT на втором этапе обучения. Но у YandexGPT есть свои ограничения. Например, нейросеть пока не умеет запоминать контекст и учитывать предыдущие реплики. Однако YandexGPT постоянно дообучается на новых данных от пользователей и может развить этот навык в будущем. Cравнить качество ответов YandexGPT с другими языковыми моделями пока невозможно, Яндекс не раскрыл эти данные. Также неизвестна точная архитектура модели и параметры ее обучения. Тем временем другая языковая модель GPT-4 научилась работать не только с текстом, но и с картинками.