Американский разработчик представил классификатор на основе сверточной нейросети: он умеет оценивать качество научных работ по компьютерным наукам на основе внешнего вида статей. Классификтор, описание работы которого доступно в препринте на arXiv, может правильно определить 50 процентов плохих научных работ и неправильно «забраковать» хорошие — лишь в 0,4 проценте случаев. Интересно, что статью о самом себе классификатор посчитал некачественной.
Важная часть публикации статьи в научном журнале — процесс рецензирования. Обычно на должность рецензентов выбираются эксперты по теме, способные объективно оценить ее качество. Некоторые научные области сравнительно молоды, поэтому найти соответствующих людей бывает непросто. Более того, рецензирование требуется и на конференциях, для чего к этому процессу (из-за обилия заявок) могут быть привлечены даже студенты.
Цзя-Бинь Хуан (Jia-Bin Huang) из Политехнического университета Виргинии решил автоматизировать процесс рецензирования, а именно — научить нейросеть автоматически определять качество статьи по ее внешнему виду. Мотивацией Хуану послужил быстрый рост количества статей, которые подают на конференции по компьютерному зрению — и именно на них он решил сосредоточиться: в таких работах обычно много визуального материала, благодаря чему объективно оценить качество легче.
Хуан взял датасет из 5618 принятых и 1503 отвергнутых статей по компьютерному зрению и обучил на них классификатор на основе сверточной нейросети ResNet-18. Обученной системе затем дали оценить реальные статьи, прошедшие и не прошедшие на конференцию: ей удалось правильно отвергнуть 50 процентов работ, при это количество ошибок первого рода (ошибочно отвергнутых работ, которые на самом деле были приняты людьми) — всего 0,4 процента. Интересно, что саму работу с описанием этой работы классификатор определил как плохую с вероятностью 97 процентов.
Затем автор работы также использовал датасет, чтобы натренировать генеративно-состязательную сеть создавать примеры хороших и плохих статей по компьютерному зрению. Несмотря на то, что в тексте сгенерированных статей, в основном, бессвязные предложения, полученные примеры дают понять, как должны выглядеть хорошие и плохие работы. В частности, Хуан отметил, что хорошую работу определяют яркие иллюстрации, графики и наличие математических расчетов.
Некачественное рецензирование может привести к тому, что хорошей статье, которая готовилась долгое время, может быть отказано в публикации (или авторам — в выступлении на конференции). Новая нейросеть может не только ускорить и облегчить процесс рецензирования, но также и сделать его более объективным. Стоит учитывать, что нейросеть опирается только на внешний вид статьи, а не на ее содержание, из-за чего использовать ее как единственный метод рецензирования нельзя, хотя существуют и методы для автоматической оценки текста.
В 2016 году сотрудники Высшей школы экономики собрали средства на памятник анонимному рецензенту, а в 2017 — открыли его во дворе одного из своих корпусов.
Как анализ городского трафика помогает улучшить жизнь в городе
Города умнеют. Все больше устройств собирают данные о перемещении пассажиров общественного транспорта, пешеходов, автомобилей. Речь идет не только о камерах наблюдения. Мы оставляем цифровые следы, и эти данные приносят пользу. Вместе с Tele2 рассказываем, как можно собирать данные об абонентах, обрабатывать их с помощью алгоритмов и улучшать город. Простые человеческие данные Информацию о пользователях не собирает только ленивый. Это делается и для таргетирования рекламы, и для перестроения маршрутов городского транспорта, и даже для контроля перемещений сотрудников крупных корпораций. Когда вы открываете на смартфоне карты, чтобы проверить, как далеко от остановки ближайший автобус, приложение использует систему автоматического определения местоположения транспортных средств (Auto Vehicle Location, AVL). Она запрашивает информацию о местоположении у автобуса и передает ее в центральную базу данных. Анализируя данные AVL, городские службы могут, например, перестроить или отменить какие-то маршруты. В автобусе вы оплачиваете проезд через валидатор. Данные об оплате попадают в систему, которая отслеживает количество пассажиров на маршруте и рейсе, категории пассажиров, форму оплаты и тому подобное. Затем эта информация используется транспортным агентством, чтобы определить популярные маршруты и, например, запустить дополнительные рейсы. Во время поездки вы проверяете почту и социальные сети. Приложения используют данные о местоположении для показа геотаргетированной рекламы. Например, местный ресторан может использовать рекламу с геотаргетингом для продвижения нового пункта меню среди людей в окрестностях. Все это будет сочетаться с другими вашими вкусами и предпочтениями. Если вы решили куда-то поехать не на общественном транспорте, а на собственном автомобиле, то, скорее всего, включаете навигатор и строите маршрут. Смартфон передает геоданные, направление и скорость движения автомобиля в систему. Координаты попадают на электронную схему города, где точно отображаются все здания, парки, улицы и другие объекты. И эта же информация используется для оценки загруженности дорог, перестроения маршрутов. Приехав на место, вы находите свободное парковочное место и оплачиваете его — тоже через смартфон. Приложение использует данные о местоположении, чтобы определить, где находится парковка. Данные хранятся в системе, и аналитики могут использовать их для самых разных целей. Например, высокий спрос на парковку может влиять на статистику угонов, привлекательность места для бизнеса и другие факторы. Сбором данных занимаются и сотовые операторы — информация о миллионах абонентов по всей стране и за ее пределами поступает к ним в агрегированном виде. Разумеется, для нужд города и бизнеса она используется в обезличенном виде, сегментированная на различные группы абонентов, представляющих интерес для заказчика. Так, например, город получает информацию о загруженности дорог по часам, а спортивные магазины — о маршрутах приверженцев здорового образа жизни. Магия базовых станций Информация о вашем приблизительном местоположении всегда поступает к оператору — без этого невозможно оказывать услуги связи. Ваш гаджет подключается к ближайшей базовой станции, если она одна, или к нескольким, если их много (впрочем, это происходит, даже когда вы спите и не пользуетесь смартфоном). Зная местоположение базовой станции, оператор может с точностью до нескольких сотен метров определить, где вы находитесь. Дальше больше. Ваш смартфон обладает MAC-адресом. Это уникальный набор символов — латинских букв и цифр, который используется при подключении аппарата к интернету. По первым трем группам символов MAC-адреса можно узнать информацию о производителе смартфона и сотового модуля в нем. Эти данные тоже получает оператор. Когда со смартфона вы заходите в браузер и вбиваете что-то в поисковую строку, оператор получает новую порцию информации. По поисковому запросу можно определить предпочтения абонента: любит ли он рыбалку, путешествия или автомобили и даже что хочет заказать на ужин. Приложения на смартфоне также в фоновом режиме передают данные об абоненте: музыкальные предпочтения, виды игр и другую похожую информацию. Все данные, которые вы оставляете в интернете, называются цифровым следом. Эту информацию можно объединить с партнерскими данными от других сервисов, а затем сопоставить с имеющимися у оператора данными абонентов, которые были получены на этапе заключения договора на оказание услуг связи. Персональные данные, как они определены соответствующим законом, не используются. Только самые общие: возраст, регион, пол человека. И вот уже оператор собрал колоссальный объем информации, который надо как-то «переварить». В Tele2 для решения этих задач используются алгоритмы искусственного интеллекта, которые работают с этой информацией в захешированном и полностью обезличенном виде. Но есть нюанс: информации настолько много, что существующие алгоритмы просто не способны ее адекватно обрабатывать. Это и понятно: цифровой след и геоданные у каждого абонента — это огромный массив информации. А таких абонентов миллионы. Это означает, что нужно все упрощать. На работу и обратно Скажем, для решения бизнес-задачи надо знать, где находятся участки дорог с максимальным потоком семей с маленькими детьми. Для решения задачи сперва нужно ее упростить. В этом случае специалисты Tele2 решили учитывать только абонентов, которые ездят на автомобилях из дома на работу и с работы домой. В общем случае это пиковые часы с 8 до 10 утра и с 17 до 19 вечера. Именно информация об этих людях представляет наибольший интерес для города и бизнеса. Администрация города понимает, в каких местах чаще всего образуются пробки, и пытается оптимизировать дорожную сеть. А бизнес получает информацию, которую можно использовать для перенаправления трафика. Например, после работы человека можно попробовать «заманить» в магазин или ресторан. Алгоритм, разработанный Tele2, сегментирует абонентов по возрасту, полу, интересам, районам проживания и работы, а также доходу. Когда человек едет на машине на работу или возвращается домой, его смартфон через определенные промежутки времени переподключается от одной базовой станции к другой. Информация накапливается, и благодаря этому возникает возможность выстроить приблизительный трек — упрощенный путь от одной базовой станции к другой. В данном случае значение имеют только регистрации на множестве базовых станций. Если абонент живет не в крупном городе, а в области, где покрытие сотового оператора не такое плотное, и находится в перекрытии базовых станций, его смартфон может переключаться между ними время от времени. При этом физически абонент никуда не перемещается, но со стороны может показаться, что он движется. Такая информация в расчет не берется. Кроме того, не учитываются также и данные об абонентах, которые пользуются метро. Допустим, оператор получил трек абонента — регистрации его смартфона на базовых станциях в районе Большой Полянки, Якиманки и Ленинского проспекта в Москве. Дальше возникает новая задача — соотнести его с картой города. Для этого операторы используют открытые данные Open Street Map — графы дорог. Проблема Open Street Map заключается в неполноте и относительно небольшой точности. Поэтому масштабные открытые графы дорог Tele2 дополняет коммерческими, таким образом повышая точность цифрового картографического покрытия. В результате оператор получает треки абонентов в утренние и вечерние часы в будние дни и графы автодорог. Эти две сущности в целом не совпадают: трек может показывать, что смартфон абонента в определенное время был зарегистрирован на базовой станции на Ленинском проспекте в Москве, а на самом деле человек ехал по улице Шаболовка. Поэтому в Tele2 создали алгоритм, способный по трекам абонентов и графам автодорог определять маршруты людей. Вот как это выглядит. Берутся графы автодорог в радиусе пяти километров от трека, после чего для каждого ребра графа рассчитывается расстояние, ближайшее к линиям трека с учетом всех вершин и точек. Это так называемое расстояние Фреше, то есть множество, в котором определено расстояние между парами объектов. Проще говоря, сходство между расположенными поблизости кривыми. С помощью вычисления расстояния Фреше — минимального расстояния между вершинами и ребрами графа дорог с линиями и точками трека абонента — можно получить представление о реальном перемещении людей по автодорогам. Однако если брать треки абонентов и графы автодорог, то работа алгоритма будет очень долгой. Графы могут состоять из сотен тысяч вершин и ребер, для каждого из которых нужно рассчитать расстояние Фреше с треком абонентов. Для решения этой задачи специалисты Tele2 разбили графы на небольшие взаимосвязанные компоненты (проще говоря, короткие участки дороги), но так, чтобы алгоритм не начинал рассчитывать неоптимальные или ложные маршруты. Так удалось построить тепловую карту перемещений абонентов в Москве из дома на работу и с работы домой. Польза для всех А дальше начинается самое интересное. Tele2 получил не просто карту маршрутов абонентов, а подробную карту маршрутов абонентов: какие их сегменты в какое именно время и по каким именно дорогам перемещаются. Допустим, оператор знает, что в конкретном микрорайоне живет много любителей рыбалки. Там можно поставить рекламное сообщение, например, магазина рыболовных принадлежностей. Или же бизнес может запросить данные о том, по каким дорогам ездят клиенты его конкурентов, и разместить на них билборды с собственной рекламой. Применений с точки зрения бизнеса множество. Так, предприниматели могут оценивать потенциал территорий для открытия новых точек продаж или использовать для построения собственных карт клиентских путей (Client Journey Map, CJM) и оптимизировать взаимодействие с покупателями. Банки получают информацию о сегментах потенциальных клиентов и сотрудников, которая позволяет развивать сети банковских отделений или таргетировать финансовые приложения. Компании, занимающиеся грузоперевозками, могут применять данные оператора для построения оптимальных маршрутов, определения районов, где их услуги наиболее востребованы, и создания в них дополнительных складов и сортировочных центров. Такие данные могут быть полезны не только бизнесу, но и государству. Они могут показать, какую локацию стоит развивать в первую очередь, если бюджет региона ограничен. Например, распределять социально важные объекты, чтобы не скапливались очереди. Кроме того, на основе данных об абонентах можно предсказывать, в каком районе будут востребованы велодорожки или площадки для воркаута. Tele2 может составить и портрет туриста, предоставить информацию о сегменте путешествующих абонентов. Это позволит эффективнее развивать туристическую инфраструктуру. Алгоритмы искусственного интеллекта и большие данные фактически упростили решение маркетинговых задач бизнеса и градостроительных проблем администраций городов. Если раньше требовалось проводить опросы с большими выборками, интервью, расставлять устройства-шпионы для выискивания смартфонов в карманах людей, то теперь люди сами дают информацию о себе, причем зачастую даже не задумываясь об этом. Но в конечном счете все остаются в выигрыше: автомобильные дороги медленно, но верно становятся удобнее, бизнес получает новых клиентов и увеличивает заработки, а люди находят то, что им хочется здесь и сейчас. Реклама: ООО Т2 МОБАЙЛ, ИНН 7743895280