Разработчики из Массачусетского технологического института создали программу, превращающую фотографию в короткое видео, которое показывает, как будут развиваться события на снимке в ближайшую секунду. Для этого они использовали нейросети и глубинное обучение. Работа исследователей будет представлена 5 декабря на конференции в Барселоне.
Современные нейросети хорошо справляются с задачей распознавания изображений. Например, для них не составляет труда узнать человека, если его лицо размыто или закрашено, а также угадать, что именно хотел изобразить пользователь, даже если его рисунки напоминают каракули. Однако когда речь заходит о том, чтобы по фотографии определить что может произойти в ближайшем будущем, у искусственного интеллекта возникают сложности. Например, человек легко догадается, что если на снимке показан мужчина, который кладет в свою тарелку салат, то скорее всего в дальнейшем он будет его есть, однако нейросети сделать такое простое предположение будет трудно. В то же время, искусственному интеллекту необходимо уметь «предвидеть» будущее для того, чтобы лучше понимать настоящее: например, это поможет системам управления беспилотных автомобилей оценивать вероятность возникновения аварии. Поэтому авторы новой работы создали программу, которая по фотографии может предположить, что произойдет в следующий момент, и сделать на основе этого видео.
Исследователи использовали порождающую состязательную модель (generative adversarial network), в которой две нейросети — генеративная и различающая — «воюют» друг с другом. Принцип ее работы довольно прост: генеративная нейросеть старается обмануть различающую нейросеть, создавая такие образцы (в данном случае видео), которые ее «соперница» не сможет отличить от некоторых настоящих, эталонных образцов (реальных видео). В результате получается нечто вроде соревнования между двумя системами: одна учится делать качественные «подделки», а другая — их находить, что позволяет добиться хорошего конечного результата.
В качестве исходного материала для обучения нейросети разработчики использовали два миллиона видео с Flickr. На них были показаны четыре типа сцен — прибытие поезда на вокзал, занятия по гольфу, пляж и младенцы в больничной палате. Все видеозаписи не содержали меток, то есть в них не было подсказок, которые помогли бы искусственному интеллекту понять, что именно он видит. С помощью этих видео искусственный интеллект учился понимать, какие события типичны для разных категорий сцен. После этого исследователи давали системе статичный кадр и заставляли превращать его в видео на основе проанализированных данных. И вот здесь как раз и возникало соревнование между генеративной и различающей нейросетью.
В результате искусственный интеллект научился создавать секундные ролики с разрешением 64 на 64 пикселя, которые напоминают «ожившие фотографии» — например, на коротких видео поезда движутся вперед, а дети хмурят лица. Тем не менее, несмотря на то, что на видео угадывается общий характер происходящего, они все еще имеют множество недостатков. Например, нейросеть превращает людей на пляжах и на занятиях по гольфу в размытые фигуры, по форме напоминающие капли, а также иногда подменяет цвета, перекрашивая красный поезд в желтый.
В будущем исследователи продолжат обучение своей программы. Продолжительность двух миллионов видео составляет пять тысяч часов, что, по словам одного из авторов работы, несравнимо с тем количеством информации, которое известно ребенку к десяти годам. Ученые надеются, что в перспективе искусственный интеллект научится ограничивать выбор возможных вариантов развития событий с учетом законов физики и свойств объектов.
Недавно исследователи создали программу, которая умеет определять характеристики объектов в виртуальном мире — в частности, их вес и количество. Чтобы понять, чем отличаются одни предметы от других, компьютеру пришлось вступить в непосредственное взаимодействие с ними. Кроме того, нейросеть недавно смогла научиться реалистично изменять форму и цвет объектов на уже существующей фотографии.
Кристина Уласович
EHang скоро станет первой компанией, которая получит сертификат типа на аэротакси
Китайская компания EHang объявила, что аэротакси EH216-S прошло все необходимые испытания и готовится к получению сертификата типа от Администрации гражданской авиации Китая в ближайшее время. Когда это произойдет, компания EHang станет первой в мире, получившей сертификат типа на электрическое аэротакси, сообщает New Atlas. При поддержке Angie — первого российского веб-сервера Под аэротакси сегодня понимают полностью электрические или гибридные летательные аппараты с вертикальным взлетом и посадкой, способные перевозить несколько пассажиров на небольшие дистанции. Ожидается, что уже в недалеком будущем сервисы аэротакси станут важной частью городских транспортных сетей, что позволит снизить нагрузку на существующий общественный транспорт и уменьшит пробки на дорогах. Многие из разрабатываемых сегодня прототипов аэротакси находятся на завершающих стадиях летных испытаний, а создающие их компании соревнуются за первенство прохождения сертификации, которая откроет им дорогу к полноценному серийному производству и выходу на рынок. Китайская компания EHang объявила о завершении летных испытаний своего двухместного беспилотного аэротакси EH216-S в рамках программы сертификации, которая длилась 30 месяцев с января 2021 года. Компания ожидает получения сертификата типа, подтверждающего соответствие конструкции летательного аппарата стандартам безопасности, от Администрации гражданской авиации Китая в самое ближайшее время. Кроме того, китайским регулятором была одобрена к использованию облачная система, разработанная компанией для управления парком беспилотных воздушных такси. Разработка модели аэротакси EH216-S ведется с 2018 года. Это двухместный полностью электрический летательный аппарат, выполненный по схеме мультикоптера с 16 винтами, установленными парами на восьми лучах рамы. Аппарат способен перевозить до 220 килограммов груза на расстояние до 30 километров с максимальной скоростью 130 километров в час. Модель полностью автоматическая и в кабине, рассчитанной на двух пассажиров, отсутствуют органы управления (за исключением сенсорного экрана, через который происходит взаимодействие пассажиров с аппаратом, например, выбор маршрута). Тем не менее в целях безопасности аэротакси может управляться дистанционно оператором компании. За прошедшие несколько лет предсерийные прототипы EH216 уже налетали около 10000 часов, выполняя небольшие экскурсионные полеты в туристических местах. Также 17 августа в докладе о финансовых отчетах за второй квартал EHang подтвердила, что начала предварительные поставки аэротакси в Китае. Например, как минимум 16 двухместных аэротакси уже были поставлены заказчикам в первой половине 2023 года. Китайский регулятор разрешил использовать эти транспортные средства в некоторых определенных местах для тестирования, обучения и демонстрационных полетов. https://www.youtube.com/watch?v=xHPTtXIVxj4 За пределами Китая одним из наиболее близких к получению сертификата типа стал прототип аэротакси от компании Joby Aviation. Недавно Федеральное управление гражданской авиации США разрешило начать летные испытания серийного прототипа этого аэротакси. Если все пройдет успешно, то компания планирует пройти сертификацию и начать поставки заказчикам в 2025 году.