Она пригодится для прогноза погоды и поиска загрязнений в океане
Инженеры из MIT придумали модель, которая предсказывает океанические течения с помощью машинного обучения. Она хорошо отражает физические свойства течений, поэтому работает точнее других методов. Препринт исследования доступен на arXiv.org.
Ученые исследуют течения, чтобы получать информацию о состоянии океана: искать нефтяные и пластиковые загрязнения, отслеживать передвижение рыб и водорослей. Если знать направление течений, можно точнее предсказывать погоду или даже нейтрализовать последствия аварий, таких как пожар на буровой станции Deepwater Horizon в Мексиканском заливе в 2013 году. Данные о направлении течений помогут оценивать масштабы катастроф, чтобы защищать ближайшие воды и побережья.
Чтобы изучать течения, в океан запускают буи с GPS. По скорости движения буев определяют скорость и направление океанических течений, а также их закрученность и дивергенцию. Закрученность — это вращательное движение течения вокруг воображаемой оси, похожее на спираль. А дивергенция описывает, как вода опускается или поднимается в процессе движения. Иногда несколько течений объединяются и опускаются ближе ко дну, а иногда — поднимаются к поверхности и растекаются в разные стороны.
В 2019 году ученые начали моделировать океанические течения с помощью Гауссовского процесса. Это метод машинного обучения, который основан на вычислении вероятностей. Но первые Гауссовские модели течений оказались неточными с физической точки зрения. Дело в том, что в модель Гауссовского процесса можно добавить информацию о распределении данных. В старую модель добавлялась информация о распределении одной величины — скорости буев. Поскольку величина только одна, закрученность и дивергенция в модели считаются распределенными одинаково и действуют в одном масштабе. Но с физической точки зрения это неверно. В реальности радиусы спиралей, которые образуют закрученные структуры воды, на порядок больше, чем масштабы схождений и расхождений течений при дивергенции.
Группа ученых из Массачусетского технологического института (MIT) под руководством Тамары Бродерик (Tamara Broderick) придумала новую модель Гауссовского процесса, которая лучше отражает физические свойства океанических течений. Модель основана на теореме Гельмгольца о разложении векторного поля. Океан здесь выступает в роли векторного поля, каждая точка которого представляет скорость и направление движения воды.
По теореме Гельмгольца, одно векторное поле можно представить как сумму двух других векторных полей. В случае с океаном, первое поле определяет закрученность течений, при нулевой дивергенции. А второе — дивергенцию течений, но без закрученности. Это позволило ученым добавить в Гауссовский процесс информацию о том, как распределены данные в каждом поле по отдельности.
Такая модель более правильная с точки зрения физики и работает лучше. Качество проверяли на реальных и искусственных данных. Реальные данные получили от более чем 1000 буев в Мексиканском заливе Атлантического океана. Их записывала другая исследовательская группа в течение 2 месяцев в 2016 году, и собрала больше 10 миллионов примеров для обучения.
Новую модель сравнили со старым алгоритмом, основанном на Гауссовском процессе без теоремы Гельмгольца. Модели оценивали на трех группах заданий: по предсказанию скорости, закрученности и дивергенции течений. Новая модель Гельмгольца обошла конкурентов в 20 из 24 экспериментов. Средняя ошибка модели Гельмгольца в экспериментах по предсказанию скорости составила 0,42, старой модели — 0,7. Средняя ошибка в предсказании дивергенции оказалась 0,53 для модели Гельмгольца и 0,54 для старой модели. Наконец, средняя ошибка модели Гельмгольца в экспериментах по предсказанию закрученности составила 0,47, а старой модели — 0,77.
Ученые утверждают, что новая модель требует ненамного больше вычислительных ресурсов, хотя работает эффективней. Дальше авторы планируют научить ее предсказывать, как океанические течения меняются с течением времени. Другая задача, которую еще предстоит решить — как сделать модель более устойчивой к шуму в обучающих данных.
Помимо неустойчивости к шуму, модель страдает от разрозненности данных. Буев, которые собирают данные, ограниченное количество. Все они находятся на разном расстоянии от друг друга, то есть распределены неравномерно. Это ограничивает эффективность модели.
Модель научилась предсказывать течения в Атлантическом океане и сможет помочь следить за его загрязнением, но другие океаны тоже страдают от мусора. Недавно команда экологов исследовала загрязнения в Тихом океане и описала целую экосистему, которая образовалась в Большом тихоокеанском мусорном пятне. Там на плавающих кусках мусора активно живут и размножаются разные виды беспозвоночных.
Он напоминает редактор внешности в видеоиграх
Ученые из США и Германии создали инструмент для редактирования объектов на изображении DragGAN. Он основан на нейросети, которая на лету генерирует новые изображения. Пользователь может отмечать мышкой разные элементы на фотографии, и они реалистично перемещаются, поворачиваются, растягиваются и уменьшаются — похожий подход нередко используют в видеоиграх для редактирования внешности персонажа. Препринт доступен на arXiv.org. В последние пару лет случился бум диффузионных нейросетей для генерации изображений по текстовым запросам — например, Stable Diffusion, DALL-E и Midjourney. Диффузионная модель умеет генерировать реалистичные изображения из случайного шума, а текстовое описание подсказывает модели, что именно должно быть на изображении. Но есть проблема: диффузионные нейросети недостаточно точны и не подходят, если нужно выполнить очень конкретную задачу при редактировании: сдвинуть объект на несколько пикселей в определенную сторону или повернуть его на определенное количество градусов. Задачу точного редактирования изображений можно решить с помощью других нейросетевых архитектур. Например, до появления диффузионных нейросетей часто использовали GAN — генеративно-состязательные сети. Такая модель состоит из двух нейросетей: генеративной и состязательной. По сути две нейросети соревнуются друг с другом: состязательная сеть учится отличать реальные изображения от сгенерированных, а генеративная, в свою очередь, пытается сгенерировать максимально реалистичные изображения из случайного шума (на этой идее основаны и диффузионные модели). Состязательная сеть посылает сигнал генеративной модели — сообщает ей, насколько реалистичное получилось изображение. И так до тех пор, пока генеративная сеть не научится обманывать состязательную. Группа ученых под руководством Кристиана Теобальта (Christian Theobalt) из Института информатики Общества Макса Планка придумала, как научить модель GAN делать сложные точечные изменения в изображении. Новый алгоритм называется DragGAN. Если пользователь хочет отредактировать какой-то объект на изображении, ему нужно отметить точками, где некоторые части объекта находятся до изменений и куда они должны переместиться после изменений. Например, чтобы повернуть мордочку кота на фотографии, нужно указать где сейчас находится нос и в какой точке он должен оказаться после поворота. Также можно отмечать область изображения, которая будет меняться. Главная задача DragGAN — реалистично трансформировать объект на изображении, опираясь на отмеченные пользователем точки до и после изменений. Она решается алгоритмом как задача оптимизации. Путь от каждой точки «до» к точке «после» разбивается на множество маленьких шагов. На каждом шаге генерируется новое изображение, которое совсем немного отличается от предыдущего. После каждого шага алгоритм определяет новые позиции точек «до», которые понемногу меняются в ходе оптимизации. Когда они совпадут с позициями «после», алгоритм завершит работу и пользователь получит последнее сгенерированное изображение. Обычно для одной операции редактирования требуется от 30 до 200 маленьких шагов, которые в сумме занимают несколько секунд. Модель обучали на нескольких датасетах с людьми (FFHQ, SHHQ), животными (AFHQCat), автомобилями (LSUN Car), пейзажами (LSUN, Landscapes HQ) и объектами под микроскопом (microscrope). Ее качество сравнили с похожей нейросетью UserControllableLT, которую авторы считают одной из лучших моделей для редактирования изображений с перемещением точек. На примерах видно, что DragGAN лучше определяет новое положение объектов и не делает лишних изменений. Также DragGAN сравнили с UserControllableLT на классической задаче по генерации изображений — трансформации ключевых точек лица. На изображении лица всегда можно выделить координаты точек, которые определяют его строение, мимику и положение на фото, в том числе контуры глаз, носа, губ. Модели получили изображения двух разных лиц и должны были изменить первое изображение так, чтобы ключевые точки на нем совпали или хотя бы максимально приблизились к ключевым точкам на втором изображении. Чем лучше совпадали два набора ключевых точек, тем точнее модели удавалось повторить мимику и положение второго лица, сохранив черты первого. Разница в координатах ключевых точек у DragGAN оказалась в 3 раза меньше, чем у UserControllableLT. Авторы утверждают, что DragGAN лучше своих предшественников справляется с изображениями, не похожими на тренировочную выборку, хотя иногда все равно допускает ошибки. Также она менее точно редактирует изображения, если выбранные начальные точки находятся в участках изображения, где мало текстур. Авторы обещали скоро выложить код DragGAN в открытый доступ, поэтому пользователи смогут сами протестировать, насколько хорошо она редактирует разные изображения. Раньше мы рассказывали, как другая нашумевшая нейросеть GPT-4 научилась работать с изображениями. Модель от компании OpenAI может понимать и изображения, и текст, хотя ответы по-прежнему выдает только в текстовом виде.