Американские исследователи создали алгоритм, который автоматически разбивает объекты на изображении по типам, а затем заменяет объекты, к примеру, фон, на другие. При этом алгоритм учитывает, что некоторые пиксели изображения могут одновременно принадлежать двум разным объектам, и создает плавные переходы между объектами на новом изображении. Статья была представлена на конференции SIGGRAPH 2018.
Как правило, выделение на изображении определенных объектов происходит вручную. Для этого можно применять полностью ручное выделение или инструменты типа «магическое лассо», которые в полуавтоматическом режиме определяют границы между разными объектами, основываясь на различиях в цветах граничащих областей. Кроме того, существуют алгоритмы машинного обучения, которые автоматически проводят семантическую сегментацию — разделяют изображение на области, соответствующие объектам разных типов и самостоятельно определяют эти типы. Во многом именно на таких алгоритмах основана работа систем управления беспилотными автомобилями.
Группа исследователей из Массачусетского технологического института и Швейцарской высшей технической школы Цюриха под руководством Войцеха Матусика (Wojciech Matusik) создали улученную реализацию алгоритма семантической сегментации, способную качественно обрабатывать края объектов при наложении фона или других объектов. Разработчики не ставили задачей классификацию областей по типам, поэтому алгоритм получился классонезависимым и выделяющим объекты, основываясь на границах между ними. Исследователи учли, что в близких к границе объектов областях изображения пиксели могут принадлежать одновременно двум объектам. Именно из-за этого классические методы разграничивания объектов плохо справляются с волосами, полупрозрачными тканями и другими подобными объектами.
Алгоритм на основе сверточной нейросети разбивает изображение на слои с объектами, причем с учетом их прозрачности в граничных регионах. Во время анализа изображения алгоритм учитывает как семантическую близость пикселей на изображении, так и цвет и текстуру. В результате алгоритм научился работать с фотографиями, на которых изображены объекты разных типов, и качественно заменять часть слоев на другие. К примеру, он может автоматически распознать человека на фоне моря и заменить только море, оставив человека и землю под ним. Исследователи отмечают, что потенциально метод можно применять и для видеороликов, но эта задача не входила в цели работы.
Недавно видеосервис YouTube добавил в свое приложение фильтры, которые могут в реальном времени заменять фон на видеозаписях. Алгоритм также работает благодаря семантической сегмантации, которая в данном случае сведена к выделению одного объекта и фона. При этом на демонстрационном видео можно видеть, что алгоритм довольно хорошо определяет фон, но испытывает проблемы с граничными регионами, особенно волосами.
Григорий Копиев
Она пригодится для прогноза погоды и поиска загрязнений в океане
Инженеры из MIT придумали модель, которая предсказывает океанические течения с помощью машинного обучения. Она хорошо отражает физические свойства течений, поэтому работает точнее других методов. Препринт исследования доступен на arXiv.org. Ученые исследуют течения, чтобы получать информацию о состоянии океана: искать нефтяные и пластиковые загрязнения, отслеживать передвижение рыб и водорослей. Если знать направление течений, можно точнее предсказывать погоду или даже нейтрализовать последствия аварий, таких как пожар на буровой станции Deepwater Horizon в Мексиканском заливе в 2013 году. Данные о направлении течений помогут оценивать масштабы катастроф, чтобы защищать ближайшие воды и побережья. Чтобы изучать течения, в океан запускают буи с GPS. По скорости движения буев определяют скорость и направление океанических течений, а также их закрученность и дивергенцию. Закрученность — это вращательное движение течения вокруг воображаемой оси, похожее на спираль. А дивергенция описывает, как вода опускается или поднимается в процессе движения. Иногда несколько течений объединяются и опускаются ближе ко дну, а иногда — поднимаются к поверхности и растекаются в разные стороны. В 2019 году ученые начали моделировать океанические течения с помощью Гауссовского процесса. Это метод машинного обучения, который основан на вычислении вероятностей. Но первые Гауссовские модели течений оказались неточными с физической точки зрения. Дело в том, что в модель Гауссовского процесса можно добавить информацию о распределении данных. В старую модель добавлялась информация о распределении одной величины — скорости буев. Поскольку величина только одна, закрученность и дивергенция в модели считаются распределенными одинаково и действуют в одном масштабе. Но с физической точки зрения это неверно. В реальности радиусы спиралей, которые образуют закрученные структуры воды, на порядок больше, чем масштабы схождений и расхождений течений при дивергенции. Группа ученых из Массачусетского технологического института (MIT) под руководством Тамары Бродерик (Tamara Broderick) придумала новую модель Гауссовского процесса, которая лучше отражает физические свойства океанических течений. Модель основана на теореме Гельмгольца о разложении векторного поля. Океан здесь выступает в роли векторного поля, каждая точка которого представляет скорость и направление движения воды. По теореме Гельмгольца, одно векторное поле можно представить как сумму двух других векторных полей. В случае с океаном, первое поле определяет закрученность течений, при нулевой дивергенции. А второе — дивергенцию течений, но без закрученности. Это позволило ученым добавить в Гауссовский процесс информацию о том, как распределены данные в каждом поле по отдельности. Такая модель более правильная с точки зрения физики и работает лучше. Качество проверяли на реальных и искусственных данных. Реальные данные получили от более чем 1000 буев в Мексиканском заливе Атлантического океана. Их записывала другая исследовательская группа в течение 2 месяцев в 2016 году, и собрала больше 10 миллионов примеров для обучения. Новую модель сравнили со старым алгоритмом, основанном на Гауссовском процессе без теоремы Гельмгольца. Модели оценивали на трех группах заданий: по предсказанию скорости, закрученности и дивергенции течений. Новая модель Гельмгольца обошла конкурентов в 20 из 24 экспериментов. Средняя ошибка модели Гельмгольца в экспериментах по предсказанию скорости составила 0,42, старой модели — 0,7. Средняя ошибка в предсказании дивергенции оказалась 0,53 для модели Гельмгольца и 0,54 для старой модели. Наконец, средняя ошибка модели Гельмгольца в экспериментах по предсказанию закрученности составила 0,47, а старой модели — 0,77. Ученые утверждают, что новая модель требует ненамного больше вычислительных ресурсов, хотя работает эффективней. Дальше авторы планируют научить ее предсказывать, как океанические течения меняются с течением времени. Другая задача, которую еще предстоит решить — как сделать модель более устойчивой к шуму в обучающих данных. Помимо неустойчивости к шуму, модель страдает от разрозненности данных. Буев, которые собирают данные, ограниченное количество. Все они находятся на разном расстоянии от друг друга, то есть распределены неравномерно. Это ограничивает эффективность модели. Модель научилась предсказывать течения в Атлантическом океане и сможет помочь следить за его загрязнением, но другие океаны тоже страдают от мусора. Недавно команда экологов исследовала загрязнения в Тихом океане и описала целую экосистему, которая образовалась в Большом тихоокеанском мусорном пятне. Там на плавающих кусках мусора активно живут и размножаются разные виды беспозвоночных.