Нейросеть научили делать «профессиональные фотографии» из пейзажей Google Street View

Загрузка галереи

Разработчики Google создали Creatism — нейросеть, умеющую создавать из снимков Google Street View эстетичные фотографии пейзажей, которые настоящие фотографы посчитали работами профессионалов. Статья доступна для прочтения на сайте arXiv, а с работами «фотографа» можно ознакомиться в галерее.

Современные технологии позволяют делать снимки отличного качества с помощью камеры смартфона и сопутствующих приложений для обработки. Однако, настоящее качество фотоснимка определяется его эстетикой, которая заключается в правильной композиции и хорошо подобранном освещении — параметрах, определение которых автоматически является сложной задачей. Исследования по визуальному анализу эстетики фотографий с целью выявления ее объективных характеристик проводились ранее, однако автоматическое создание снимков с учетом всех аспектов красоты композиции и технических параметров все еще является нерешенной задачей.

Авторы новой работы представили Creatism — нейросеть, которая умеет делать профессиональные в плане эстетики фотографии пейзажей. Эта система была создана при помощи методов глубокого обучения и обучена каждому отдельному параметру эстетики (насыщенности цвета, композиции, четкости и освещению) на примере работ профессиональных фотографов. Обученная нейросеть обрезает панорамные фотографии Google Street View и настраивает параметры обработки фотографий в приложении Snapseed.

Загрузка галереи

Авторы также представили новый параметр автоматической настройки эффектного света снимка («dramatic mask»), который решает проблему недостатков естественного освещения местности. Этот параметр работает благодаря обучению на негативах (распределению яркостей фотоснимка) снимков пейзажей, сделанных профессиональными фотографами.

Загрузка галереи

Во время генерирования каждой фотографии из полученной выборки был присвоен автоматический «прогнозированный» балл по шкале эстетики от 1 (уровень «начинающего фотографа») до 4 (уровень «профессионального фотографа»).

Загрузка галереи

На полученных фотографиях исследователи провели вариацию «теста Тьюринга»: снимок считался сделанным на профессиональном уровне, если профессиональные фотографы не могли отличить его от работ реальных людей. Для эксперимента с оценкой реальных фотографов исследователи взяли 400 фотографий, получивших балл от 2,5 до 3 и показали их в случайном порядке вместе с фотографиями, сделанными реальными людьми. Тест показал, что реальными работами профессиональных фотографов среди 173 фотографий с наивысшим «прогнозируемым» рейтингом (2,9 и более) 41,4 процента получили оценку 3 (снимок уровня «полупрофессионального фотографа»).

Creatism — не первая разработка, которая научила искусственный интеллект креативить. Недавно мы писали о нейросети, которая умеет создавать оригинальные произведения искусства.

Елизавета Ивтушок

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.

10:2018.05.23 2.1 IT

Яндекс встроил в Алису нейросеть YandexGPT

Она поможет написать письмо, план тренировки или сочинит историю

Виктория Земляк

Яндекс обучил большую русскоязычную языковую модель YandexGPT и внедрил ее в своего виртуального помощника Алису. Сейчас нейросеть тестируют пользователи продуктов Яндекса, новость об этом вышла на сайте компании. Языковая модель — это нейросеть, которая умеет генерировать тексты, по очереди предсказывая каждое слово в предложении. Языковая модель YandexGPT основана на архитектуре Transformer, которую создали исследователи из Google в 2017 году. Когда в такую нейросеть загружают текст, она умеет выделять в нем важные слова и фокусировать на них внимание. Главный навык модели — хорошо понимать и запоминать тексты, и генерировать новые. Когда нейросеть осваивает этот навык, она одновременно естественным образом учится выполнять самые разные задачи, связанные с анализом текстов. Большие языковые модели основаны на архитектуре Transformer и обучены на огромном количестве данных, обычно из интернета. Они умеют создавать текст, почти не отличимый от человеческой речи. Первой успешной моделью такого типа стала нейросеть GPT от компании OpenAI. В 2022 вышла улучшенная версия модели ChatGPT. Ее не просто натренировали на большом количестве данных, но и дообучили с помощью обучения с подкреплением. Люди-эксперты работали с нейросетью в режиме диалога, показывая ей как правильно отвечать на вопросы. В надежде повторить успех ChatGPT, многие компании обучают свои языковые модели-аналоги (например, Bard от Google или Poe от Quora). Яндекс первым внедрил такую модель в виртуального помощника. 17 мая Яндекс выпустил большую языковую модель YandexGPT в открытый доступ. С ней можно пообщаться через Алису в приложении Яндекс, браузере, умной колонке или телевизоре. Чтобы активировать YandexGPT, нужно сказать: «Алиса, давай придумаем!» Языковая модель пока находится в режиме тестирования, но уже умеет выполнять разные задачи пользователей: выбрать подарок, составить план тренировки или написать деловое письмо. Модель умеет составлять грамотные содержательные тексты, но может ошибаться в фактах. Посмотрите, как пользователи общаются с YandexGPT: Нейросеть обучали на суперкомпьютерах Яндекса в два этапа. Сначала разработчики отобрали для обучения много книг, статей и страниц сайтов с помощью поисковых инструментов Яндекса — по утверждению компании, в выборку попадали только содержательные и хорошо написанные тексты. На втором этапе модель дообучили, чтобы она лучше вела диалог. Для этого Яндекс воспользовался методом, который придумали исследователи из OpenAI. Эксперты-разметчики составили сотни тысяч пар вопрос-ответ и показывали их YandexGPT на втором этапе обучения. Но у YandexGPT есть свои ограничения. Например, нейросеть пока не умеет запоминать контекст и учитывать предыдущие реплики. Однако YandexGPT постоянно дообучается на новых данных от пользователей и может развить этот навык в будущем. Cравнить качество ответов YandexGPT с другими языковыми моделями пока невозможно, Яндекс не раскрыл эти данные. Также неизвестна точная архитектура модели и параметры ее обучения. Тем временем другая языковая модель GPT-4 научилась работать не только с текстом, но и с картинками.