Разработчик из Стэнфордского университета представил алгоритм, который автоматически определяет на видео целующихся людей. Система состоит из двух частей: бинарного классификатора, который выносит решение о наличии поцелуя по секундному отрывку видео, и сегментатора, который выдает все сцены поцелуев из необходимого видео. Препринт статьи с описанием работы алгоритма опубликован на arXiv.
Одна из самых популярных и важных задач в области компьютерного зрения — распознавание объектов. Задача эта, пусть и уже вполне решенная, однако, не ограничивается определением и последующим называнием объектов на статичных изображениях. Чуть сложнее работать с динамичными изображениями (например, видео): в этом случае число задач, для которых используются алгоритмы компьютерного зрения, дополняется, к примеру, распознаванием действий.
Разработчик Амир Зиай (Amir Ziai) из Стэнфордского университета решил создать алгоритм, который умеет определять на видео поцелуй. Система состоит из двух частей: бинарного классификатора и сегментатора. Первая система анализирует отрывки длиной в одну секунду по видео и аудио: за первую часть отвечает сверточная нейросеть ResNet, которая используется для распознавания и классификации изображений, а за вторую — сверточная нейросеть VGG, которая, помимо прочего, используется для анализа акустических характеристик. Вторая часть алгоритма использует данные о вероятности наличия поцелуя на каждом секундном отрывке видео и выдает каждый из них таким образом, чтобы отрывки не повторялись.
В итоге работа такого алгоритма заключается в следующем. Система получает на вход видефрагмент, а на выход выдает отдельные отрывки разных сцен с поцелуями. Точность распознавания созданной системы составляет 95 процентов. Датасет для обучения и тестирования собрали из более сотни голивудских фильмов: Зиай использовал 263 сцены с поцелуями и 363 сцены без поцелуев длительностью от 10 секунд до двух минут.
Как сообщает портал IEEE Spectrum, в настоящий момент Зиай работает в Netflix, но сервис не имеет отношения к разработке исследователя. При этом одно из вероятных применений такой технологии — как раз стриминговые сервисы: например, для озвучивая видео для слабовидящих людей.
Аннотированные видеоролики используются и для других задач машинного обучения. В прошлом году разработчики из Массачусетского технологического института на парах видео-аннотация обучили семантический парсер.
Елизавета Ивтушок
Как анализ городского трафика помогает улучшить жизнь в городе
Города умнеют. Все больше устройств собирают данные о перемещении пассажиров общественного транспорта, пешеходов, автомобилей. Речь идет не только о камерах наблюдения. Мы оставляем цифровые следы, и эти данные приносят пользу. Вместе с Tele2 рассказываем, как можно собирать данные об абонентах, обрабатывать их с помощью алгоритмов и улучшать город. Простые человеческие данные Информацию о пользователях не собирает только ленивый. Это делается и для таргетирования рекламы, и для перестроения маршрутов городского транспорта, и даже для контроля перемещений сотрудников крупных корпораций. Когда вы открываете на смартфоне карты, чтобы проверить, как далеко от остановки ближайший автобус, приложение использует систему автоматического определения местоположения транспортных средств (Auto Vehicle Location, AVL). Она запрашивает информацию о местоположении у автобуса и передает ее в центральную базу данных. Анализируя данные AVL, городские службы могут, например, перестроить или отменить какие-то маршруты. В автобусе вы оплачиваете проезд через валидатор. Данные об оплате попадают в систему, которая отслеживает количество пассажиров на маршруте и рейсе, категории пассажиров, форму оплаты и тому подобное. Затем эта информация используется транспортным агентством, чтобы определить популярные маршруты и, например, запустить дополнительные рейсы. Во время поездки вы проверяете почту и социальные сети. Приложения используют данные о местоположении для показа геотаргетированной рекламы. Например, местный ресторан может использовать рекламу с геотаргетингом для продвижения нового пункта меню среди людей в окрестностях. Все это будет сочетаться с другими вашими вкусами и предпочтениями. Если вы решили куда-то поехать не на общественном транспорте, а на собственном автомобиле, то, скорее всего, включаете навигатор и строите маршрут. Смартфон передает геоданные, направление и скорость движения автомобиля в систему. Координаты попадают на электронную схему города, где точно отображаются все здания, парки, улицы и другие объекты. И эта же информация используется для оценки загруженности дорог, перестроения маршрутов. Приехав на место, вы находите свободное парковочное место и оплачиваете его — тоже через смартфон. Приложение использует данные о местоположении, чтобы определить, где находится парковка. Данные хранятся в системе, и аналитики могут использовать их для самых разных целей. Например, высокий спрос на парковку может влиять на статистику угонов, привлекательность места для бизнеса и другие факторы. Сбором данных занимаются и сотовые операторы — информация о миллионах абонентов по всей стране и за ее пределами поступает к ним в агрегированном виде. Разумеется, для нужд города и бизнеса она используется в обезличенном виде, сегментированная на различные группы абонентов, представляющих интерес для заказчика. Так, например, город получает информацию о загруженности дорог по часам, а спортивные магазины — о маршрутах приверженцев здорового образа жизни. Магия базовых станций Информация о вашем приблизительном местоположении всегда поступает к оператору — без этого невозможно оказывать услуги связи. Ваш гаджет подключается к ближайшей базовой станции, если она одна, или к нескольким, если их много (впрочем, это происходит, даже когда вы спите и не пользуетесь смартфоном). Зная местоположение базовой станции, оператор может с точностью до нескольких сотен метров определить, где вы находитесь. Дальше больше. Ваш смартфон обладает MAC-адресом. Это уникальный набор символов — латинских букв и цифр, который используется при подключении аппарата к интернету. По первым трем группам символов MAC-адреса можно узнать информацию о производителе смартфона и сотового модуля в нем. Эти данные тоже получает оператор. Когда со смартфона вы заходите в браузер и вбиваете что-то в поисковую строку, оператор получает новую порцию информации. По поисковому запросу можно определить предпочтения абонента: любит ли он рыбалку, путешествия или автомобили и даже что хочет заказать на ужин. Приложения на смартфоне также в фоновом режиме передают данные об абоненте: музыкальные предпочтения, виды игр и другую похожую информацию. Все данные, которые вы оставляете в интернете, называются цифровым следом. Эту информацию можно объединить с партнерскими данными от других сервисов, а затем сопоставить с имеющимися у оператора данными абонентов, которые были получены на этапе заключения договора на оказание услуг связи. Персональные данные, как они определены соответствующим законом, не используются. Только самые общие: возраст, регион, пол человека. И вот уже оператор собрал колоссальный объем информации, который надо как-то «переварить». В Tele2 для решения этих задач используются алгоритмы искусственного интеллекта, которые работают с этой информацией в захешированном и полностью обезличенном виде. Но есть нюанс: информации настолько много, что существующие алгоритмы просто не способны ее адекватно обрабатывать. Это и понятно: цифровой след и геоданные у каждого абонента — это огромный массив информации. А таких абонентов миллионы. Это означает, что нужно все упрощать. На работу и обратно Скажем, для решения бизнес-задачи надо знать, где находятся участки дорог с максимальным потоком семей с маленькими детьми. Для решения задачи сперва нужно ее упростить. В этом случае специалисты Tele2 решили учитывать только абонентов, которые ездят на автомобилях из дома на работу и с работы домой. В общем случае это пиковые часы с 8 до 10 утра и с 17 до 19 вечера. Именно информация об этих людях представляет наибольший интерес для города и бизнеса. Администрация города понимает, в каких местах чаще всего образуются пробки, и пытается оптимизировать дорожную сеть. А бизнес получает информацию, которую можно использовать для перенаправления трафика. Например, после работы человека можно попробовать «заманить» в магазин или ресторан. Алгоритм, разработанный Tele2, сегментирует абонентов по возрасту, полу, интересам, районам проживания и работы, а также доходу. Когда человек едет на машине на работу или возвращается домой, его смартфон через определенные промежутки времени переподключается от одной базовой станции к другой. Информация накапливается, и благодаря этому возникает возможность выстроить приблизительный трек — упрощенный путь от одной базовой станции к другой. В данном случае значение имеют только регистрации на множестве базовых станций. Если абонент живет не в крупном городе, а в области, где покрытие сотового оператора не такое плотное, и находится в перекрытии базовых станций, его смартфон может переключаться между ними время от времени. При этом физически абонент никуда не перемещается, но со стороны может показаться, что он движется. Такая информация в расчет не берется. Кроме того, не учитываются также и данные об абонентах, которые пользуются метро. Допустим, оператор получил трек абонента — регистрации его смартфона на базовых станциях в районе Большой Полянки, Якиманки и Ленинского проспекта в Москве. Дальше возникает новая задача — соотнести его с картой города. Для этого операторы используют открытые данные Open Street Map — графы дорог. Проблема Open Street Map заключается в неполноте и относительно небольшой точности. Поэтому масштабные открытые графы дорог Tele2 дополняет коммерческими, таким образом повышая точность цифрового картографического покрытия. В результате оператор получает треки абонентов в утренние и вечерние часы в будние дни и графы автодорог. Эти две сущности в целом не совпадают: трек может показывать, что смартфон абонента в определенное время был зарегистрирован на базовой станции на Ленинском проспекте в Москве, а на самом деле человек ехал по улице Шаболовка. Поэтому в Tele2 создали алгоритм, способный по трекам абонентов и графам автодорог определять маршруты людей. Вот как это выглядит. Берутся графы автодорог в радиусе пяти километров от трека, после чего для каждого ребра графа рассчитывается расстояние, ближайшее к линиям трека с учетом всех вершин и точек. Это так называемое расстояние Фреше, то есть множество, в котором определено расстояние между парами объектов. Проще говоря, сходство между расположенными поблизости кривыми. С помощью вычисления расстояния Фреше — минимального расстояния между вершинами и ребрами графа дорог с линиями и точками трека абонента — можно получить представление о реальном перемещении людей по автодорогам. Однако если брать треки абонентов и графы автодорог, то работа алгоритма будет очень долгой. Графы могут состоять из сотен тысяч вершин и ребер, для каждого из которых нужно рассчитать расстояние Фреше с треком абонентов. Для решения этой задачи специалисты Tele2 разбили графы на небольшие взаимосвязанные компоненты (проще говоря, короткие участки дороги), но так, чтобы алгоритм не начинал рассчитывать неоптимальные или ложные маршруты. Так удалось построить тепловую карту перемещений абонентов в Москве из дома на работу и с работы домой. Польза для всех А дальше начинается самое интересное. Tele2 получил не просто карту маршрутов абонентов, а подробную карту маршрутов абонентов: какие их сегменты в какое именно время и по каким именно дорогам перемещаются. Допустим, оператор знает, что в конкретном микрорайоне живет много любителей рыбалки. Там можно поставить рекламное сообщение, например, магазина рыболовных принадлежностей. Или же бизнес может запросить данные о том, по каким дорогам ездят клиенты его конкурентов, и разместить на них билборды с собственной рекламой. Применений с точки зрения бизнеса множество. Так, предприниматели могут оценивать потенциал территорий для открытия новых точек продаж или использовать для построения собственных карт клиентских путей (Client Journey Map, CJM) и оптимизировать взаимодействие с покупателями. Банки получают информацию о сегментах потенциальных клиентов и сотрудников, которая позволяет развивать сети банковских отделений или таргетировать финансовые приложения. Компании, занимающиеся грузоперевозками, могут применять данные оператора для построения оптимальных маршрутов, определения районов, где их услуги наиболее востребованы, и создания в них дополнительных складов и сортировочных центров. Такие данные могут быть полезны не только бизнесу, но и государству. Они могут показать, какую локацию стоит развивать в первую очередь, если бюджет региона ограничен. Например, распределять социально важные объекты, чтобы не скапливались очереди. Кроме того, на основе данных об абонентах можно предсказывать, в каком районе будут востребованы велодорожки или площадки для воркаута. Tele2 может составить и портрет туриста, предоставить информацию о сегменте путешествующих абонентов. Это позволит эффективнее развивать туристическую инфраструктуру. Алгоритмы искусственного интеллекта и большие данные фактически упростили решение маркетинговых задач бизнеса и градостроительных проблем администраций городов. Если раньше требовалось проводить опросы с большими выборками, интервью, расставлять устройства-шпионы для выискивания смартфонов в карманах людей, то теперь люди сами дают информацию о себе, причем зачастую даже не задумываясь об этом. Но в конечном счете все остаются в выигрыше: автомобильные дороги медленно, но верно становятся удобнее, бизнес получает новых клиентов и увеличивает заработки, а люди находят то, что им хочется здесь и сейчас. Реклама: ООО Т2 МОБАЙЛ, ИНН 7743895280