21:09 20.04.20 2.4 IT

Алгоритм сделал фотографии в Instagram объемными

Григорий Копиев

Недавно американские разработчики представили открытый алгоритм, превращающий фотографии в трехмерные с реалистично дорисованным нейросетью фоном. Французский разработчик Сириль Дианье (Cyril Diagne) использовал код этого алгоритма и создал расширение для браузера Google Chrome, преобразующего посты в Instagram из обычных в трехмерные и анимированные. При этом основные вычисления проводятся на бесплатном публичном сервере для машинного обучения, поэтому использовать расширение можно даже на не очень мощном компьютере.

Вызов: национальная премия в области будущих технологий.

Существуют алгоритмы, позволяющие создавать из двумерных изображений трехмерные, причем если раньше они носили исследовательский характер, то сейчас их можно встретить в обычных приложениях, таких как Facebook. Но в большинстве сайтов и приложений такой функции пока нет, а в тех, где она уже используется, она обычно реализована не очень качественно. Особенно это касается качества дорисовки фона за объектами, а также отделения объектов и фона друг от друга.

В середине апреля группа американских разработчиков из Политехнического университета Виргинии и Facebook создала новый алгоритм, который качественно отделяет объекты на переднем плане от фона, а затем дорисовывает пустые участки заднего плана, используя данные от соседних областей. Более подробно о работе исходного алгоритма можно прочитать в нашей заметке.

Как и в случае со многими алгоритмами машинного обучения, авторы опубликовали не только статью о нем, но и код с документацией. Сириль Дианье из Google Arts использовал этот код для создания браузерного расширения, анимирующего фотографии из Instagram, который сам по себе не имеет такой функции.

Just pushed the code of a chrome extension that turns every Instagram posts into 3d images using #3DPhotoInpainting. No GPU needed thanks to @GoogleColab but a bit of patience to set it up ;-)
Demo: @parrstudio's amazing work
Code: https://t.co/59yJUvRHxE #AIUX #Interaction #ML pic.twitter.com/86mMBWdm7V

Алгоритм работает на основе нейросети, и даже с обученной моделью на обработку сразу нескольких фотографий из постов на экране необходимы довольно большие вычислительные ресурсы. Дианье использовал гибридную структуру программы: пользовательская часть работает как расширение для браузера, а непосредственно обработка изображений проходит в облаке на Google Colab. В нем пользователь получает бесплатный доступ к одному мощному графическому ускорителю и возможность запуска произвольного кода на Python.

Разработчик опубликовал код и инструкцию на GitHub, но признал, что ее необходимо доработать, чтобы с ней справились обычные пользователи, и заявил, что планирует это сделать. Кроме этого у программы есть и другие ограничения: Google Colab сбрасывает конфигурацию каждые 12 часов, поэтому ее необходимо настраивать заново, а кроме того, неизвестно, как расширение соотносится с правилами использования Instagram.

Это далеко не первый нейросетевой алгоритм, работающий прямо в браузере. Ранее мы рассказывали о браузерном алгоритме для подмены лиц и превращения набросков в фотографии, а также наборе алгоритмов от Google для отслеживания лиц и автоматического кадрирования.

Григорий Копиев

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.

20:00 23.08.23 3.4 IT Биология

Нейроинтерфейсы научились переводить сигналы мозга в текст в четыре раза быстрее

Одна парализованная пациентка смогла «произносить» 62 слова в минуту, а другая — 78

Катерина Петрова

Две команды ученых из США научили декодеры превращать сигналы мозга парализованных пациентов в текст в три-четыре раза быстрее, чем удавалось прежде. Статьи об этом [1, 2] опубликованы в Nature. Одни исследователи создали декодер, который переводил в текст беззвучную речь пациентки в текст со скоростью 62 слова в минуту, а вторая группа разработала немного другой интерфейс и перевела сигналы мозга не только в текст, но и в устную речь цифрового аватара и в его мимику. Их декодер генерировал текст со скоростью 78 слов в минуту. Предыдущий рекорд для подобных интерфейсов — 18 слов в минуту.