Исследователи из Google при помощи нейросети научили алгоритм определять наиболее подходящий кадр для создания миниатюры ролика на Youtube. Об этом сообщается в блоге разработчиков.
Алгоритм при загрузке видеофайла из каждой секунды ролика берет один кадр, после чего их сравнивает и определяет несколько подходящих, следуя общим закономерностям: основной объект съемки должен располагаться в центре кадра и быть в фокусе. После этого система выбирает наилучший кадр, корректирует цвет изображения и генерирует миниатюры нескольких размеров.
Чтобы алгоритм мог выделять кадр, наиболее подходящий именно с точки зрения человека, исследователи натренировали нейросеть на уже имеющихся примерах. Для обучения разработчики использовали в качестве негативного примера случайные кадры из видео, в качестве позитивного — миниатюры, которые пользователи YouTube самостоятельно загрузили взамен автоматически сгенерированного системой превью.
Как отмечают исследователи, новый алгоритм генерирования превью по сравнению со старым выбирает гораздо более приятные человеческому глазу кадры для создания миниатюр.
Ранее специалисты из Google при помощи нейросетей смогли научить приложение Google Translate переводить надписи на 27 языков без подключения к интернету. Также в Google была разработана система DeepStereo, способная синтезировать трехмерное пространство на основе имеющихся в ее распоряжении фотографий.