Наука о данных. Модуль 1

Какие задачи решает наука о данных и машинное обучение

Дмитрий Левин

Добро пожаловать на курс «Наука о данных».
В этом модуле вы:
• разберетесь с основными терминами из области работы с данными, которые входят в обиход в эпоху цифровой экономики;
• узнаете, как разные компании уже применяют машинное обучение и какие бизнес-задачи можно решать с его помощью;
• сформулируете свою первую гипотезу для дата-сайентиста и получите советы экспертов о том, как формулировать требования к проекту при внедрении машинного обучения в бизнес.

В этом курсе мы поговорим о дата-сайенс с точки зрения интересов бизнеса. Вместе с экспертами мы расскажем, как данные работают на улучшение показателей бизнеса и сервисов для клиентов — настоящих и будущих, поэтапно рассмотрим процесс работы с данными и обсудим нюансы сотрудничества компаний и дата-сайентистов.

Оглавление

Модуль 1. Какие задачи решают наука о данных и машинное обучение
Математический тест для подготовки ко второму модулю

Модуль 2. Переводим задачу машинного обучения на язык, понятный дата-сайентисту и «машине»
Проверочный тест

Модуль 3. Как обучаются алгоритмы и от чего это зависит
Проверочный тест

Модуль 4. Как алгоритмы решают вашу задачу
Проверочный тест

Модуль 5. Как готовят данные для задач машинного обучения
Проверочный тест

Модуль 6. Как проверить качество модели с помощью метрик

Модуль 7. Как понять, что модель готова к настоящей работе
Проверочный тест

Модуль 8. Как проверить модель «в бою»
Проверочный тест

Модуль 9. Как выглядит документация для ML-проекта

Промежуточный тест курса «Наука о данных»

Модуль 10. Заглянем в будущее

Финальное тестирование

Что такое наука о данных и зачем она нужна компаниям

2010-е годы стали временем новых прорывов в прикладном применении технологий искусственного интеллекта, и это породило волну ажиотажа вокруг темы. Кажется, слова «большие данные» и «дата-сайенс» слышали уже все, но не все до конца понимают, что они означают и чем современные подходы к работе с разнообразной информацией отличаются от уже принятой во многих компаниях аналитики.

Разобраться в том, что такое наука о данных, и других вопросах вам помогут эксперты курса — Элен Теванян, специалист по анализу данных и преподаватель факультета компьютерных наук НИУ ВШЭ, и Сергей Носов, директор по управлению данными, «Ростелеком».

10 терминов для всех, кто интересуется ИИ и большими данными

Наука о данных (data science)

Сфера, которая занимается вопросами обработки, хранения и интеллектуального анализа данных, созданием алгоритмов машинного обучения (и не только).

Специалист по работе с данными (дата-сайентист, data scientist)

Исследователь, который умеет работать с данными и решать с их помощью задачи бизнеса. Одновременно владеет сложным математическим аппаратом и навыками программирования, умеет подобрать и настроить алгоритмы машинного обучения под конкретную задачу.

Модель

Это алгоритм или набор алгоритмов, которые настраивает и обучает дата-сайентист.

Искусственная нейронная сеть (нейросеть)

Популярная модель машинного обучения. Она пытается копировать принципы, по которым обрабатывают информацию нервные клетки живого организма.

Глубокое обучение (глубинное обучение, deep learning)

Так называют один из видов машинного обучения с использованием нейросетей, который сегодня часто применяют для задач распознавания речи, визуальных образов, машинного перевода.

Большие данные (big data)

Так называют:

всю ту цифровую информацию, которая накапливается или генерируется в процессе нашей работы, общения и т. д.;
подходы к работе с массивами таких неструктурированных данных.

Культура управления корпоративными данными (data governance)

Это стратегия работы с данными на уровне организации. Она позволяет всем заинтересованным лицам быстро понимать, какие данные есть в организации и как они могут быть использованы в интересах бизнеса.

Процесс сбора и подготовки данных (data engineering)

Это набор конкретных подходов и технологий, на которых строится процесс хранения и обработки данных в компании: из каких источников они собираются, как обогащаются, очищаются от «шумов» и дублей, как хранятся, как и с помощью чего превращаются в готовые автоматические отчеты и так далее.

Как появилось и зачем нужно машинное обучение

Машинное обучение и работа с данными — это следующий этап развития информационных технологий.

В 1980-х годах человечество начало цифровую революцию: компьютеры и программы стали активно внедряться во все сферы нашей жизни. Они кардинально поменяли подход к тому, как мы стали хранить и использовать данные, а также оказались идеальными помощниками в тысяче вещей: программы делают расчеты в таблицах на работе, считают уровень физической активности в приложении на нашем смартфоне.

Однако со временем люди столкнулись с двумя проблемами. Во-первых, данных стало слишком много, чтобы мы могли их охватить и проанализировать самостоятельно. Во-вторых, обычные программы, работающие по заранее написанным четким инструкциям, не всегда подходили для анализа информации или внедрения в новую сферу.

1. Многие вещи нельзя формализовать. Но есть пара моментов, о них ниже. Как-то раз древнегреческого философа Платона попросили дать определение, кто такой человек. Тот ответил: «Двуногое животное без перьев». На что Диоген, его оппонент, принес ему ощипанную курицу — животное с двумя ногами и без перьев.

Спустя почти 2500 лет проблема осталась. Поставьте эксперимент: попросите коллег или родных рассказать, чем слон отличается от кита, затем — чем кит отличается от кота, а кот от слона. Вы услышите массу разных и по-своему правильных ответов. Однако вывести из них четкие и всегда верные правила сравнения не получится.

2. Раз нет четких правил — нет инструкции для компьютера. С этой проблемой люди долго сталкивались при попытках создать беспилотный автомобиль. Системы круиз-контроля существовали давно, но были очень ограничены в возможностях. Ведь чтобы программа взяла управление авто полностью на себя, требовалось заложить в нее знание обо всех ситуациях на дороге. Это невозможно: мы не можем заранее предсказать, как поведут себя все автомобили на дорогах, как будут выглядеть все пешеходы и так далее.

Мы не знаем, в какой момент и с какой скоростью пешеход начнет перебегать дорогу в неположенном месте. Не знаем, как лучше реагировать на начавшее резко перестраиваться такси — это будет зависеть от скорости машин, расстояний, числа полос в конкретном месте. Мы не можем прописать четкие сценарии поведения для любых ситуаций на дороге. Но если вы или ваши знакомые учились в автошколе, то знаете, что водителей-людей готовят самих принимать решения на дороге, опираясь на целый набор информации: правила дорожного движения, дополнительные факторы, которые есть на дороге, и свой прошлый, накопленный в поездках уникальный опыт.

3. Мы можем научить программу саму выводить правила и закономерности. Если какие-то проблемы нельзя решить, можно научиться их обходить. Математики, инженеры, программисты и другие специалисты долго работали над тем, чтобы программы стали самостоятельно искать и запоминать подходящие решения, опираясь на данные, знания и опыт из прошлого. Это достижение и стали называть машинным обучением, а зачастую — и искусственным интеллектом (хотя теперь вы знаете, что это не одно и то же).

Программы уже научились:

Видеть и действовать с учетом того, что видят

Распознавать изменение ситуации на дороге, чтобы уверенно вести автомобиль
Распознавать лицо владельца телефона, чтобы разблокировать устройство
Распознавать картинку и описывать ее словами, чтобы слепые люди могли прикоснуться к искусству, как и мы с вами

Предсказывать, что мы хотим узнать или увидеть, и подстраиваться под нас

Результаты поисковой выдачи
Посты в лентах соцсетей
Рекомендованные видео на YouTube

Слышать нас, говорить с нами, читать и переводить для нас

Так работают голосовые помощники и «умные колонки» — результат машинного обучения
Так работают синхронный переводчик голоса в скайпе и текстовые переводчики в браузере
И даже качественные спам-фильтры в вашей почте — результат машинного обучения

Строить прогнозы и предсказывать результаты разных событий

Стоимость и длительность поездки в такси
Качество стали при следующей выплавке на заводе
И даже помочь врачам в постановке диагноза

Чтобы решать эти задачи, программам нужно на чем-то учиться. Они делают это на данных из прошлого. Процессом этого обучения и занимается специалист по данным — дата-сайентист.

Как машинное обучение помогает решать задачи бизнеса

Все, что люди делают при взаимодействии с компанией онлайн и офлайн, так или иначе можно записать в цифровом виде и превратить в данные. Правильно подобранные и настроенные специалистами компьютерные алгоритмы могут найти в этих данных закономерности, которые принесут ощутимую пользу бизнесу: помогут увеличить выручку и средний чек, предотвратить уход ценных клиентов и сотрудников и многое другое.

Менторы курса коротко расскажут об основных выгодах для бизнеса и вызовах при использовании данных, а затем мы чуть-чуть подробнее разберем несколько ярких примеров из российского и международного опыта.

Увеличить выручку и подстегнуть повторные заказы

Онлайн-магазины часто рекомендуют купить дополнительные товары: вспомните фразы «еще вам может понравится», «с этим товаром часто берут». Такие рекомендации, если они правильно подобраны, помогают увеличивать сумму заказов, частоту покупок и общую выручку. Изначально правила таких рекомендаций задавались вручную, что делало их слишком обобщенными и не всегда соответствующими интересам покупателей. Сегодня, чтобы улучшить качество рекомендаций, магазины собирают обезличенные данные о посетителях, а алгоритмы машинного обучения стараются найти что-то общее в их поведении, объединить клиентов в группы по интересам и подобрать наиболее удачную рекомендацию для каждой группы. Например, так давно делает Amazon — самый крупный по выручке продавец товаров и услуг в мире.

Чем больше удачных рекомендаций дает алгоритм, тем больше товаров оказывается в корзине — магазин в плюсе, а покупатель все больше привязывается к определенному поставщику, который его «так хорошо знает и понимает».

Схожим образом действуют онлайн-кинотеатры, соцсети, статейные проекты, видеохостинги, так они решают задачу удержания посетителя. Это позволяет им показать ему больше рекламы либо мотивировать человека продлить месячную подписку — и заработать на этом.

Удержать лучшие кадры

Уход ценного сотрудника — всегда потеря для бизнеса. При этом, если человек пришел к вам с заявлением, скорее всего, проблему уже не решить. Зато можно заранее предсказать, что человек стал терять интерес к работе. Эту задачу решает проект с российскими корнями — Yva.ai.

Сначала сервис подключают ко всем каналам корпоративного общения: чатам, почте, системе управления задачами и так далее. Он анализирует, насколько эффективно каждый сотрудник закрывает задачи, в каком тоне, с кем и как часто общается по проектам и так далее. Если затем человек без видимых причин (отпуск, больничный и пр.) станет реже отвечать коллегам, медленнее и хуже закрывать задачи, изменит тон общения в переписке — это признаки выгорания, которые Yva отследит и о которых предупредит руководителя. Тот сможет поговорить с сотрудником и попытаться решить возможные проблемы, не доводя дело до ухода из компании: дать человеку внеплановый отгул, позволить сменить задачи или проект целиком. В худшем случае компания получит время, чтобы найти достойного кандидата на замену.

Анализ тональности сообщений сегодня также часто использует проекты, помогающие отслеживать отзывы о брендах в соцсетях и на различных интернет-площадках. Он помогает маркетологам понимать, когда меняется отношение потребителей к их продуктам и компании, и быстрее реагировать на волны негатива.

Автоматизировать обработку заявок и не тратиться на лишних сотрудников

Возможно, вы уже сталкивались со скорингом — предложением банков получить предварительное одобрение кредита онлайн, за минуту, в любое время дня и ночи. Вы предоставляете минимум данных о себе, а система почти моментально выносит вердикт. Чтобы оценить вашу кредитоспособность, алгоритм сравнивает вас с историей других заемщиков примерно того же возраста, статуса, уровня достатка и так далее.

С одной стороны, это удобно людям: не нужно заполнять кучу анкет и идти в отделение для предварительного одобрения. С другой — это выгодно банку: можно избежать очередей заявок, не обучать и не содержать целую армию линейных сотрудников для круглосуточной обработки данных вручную, наконец, можно попросту расширить маркетинговую воронку, собрав больше контактных данных для последующих СМС и почтовых рассылок.

Кредитный скоринг сегодня используется не только для предварительной оценки отдельных частных заемщиков. Предварительное решение об увеличении кредитной линии для компании, рекомендация дополнительных банковских продуктов — все это также могут делать алгоритмы.

Спрогнозировать и сократить отток клиентов

Если мы можем предсказать грядущее увольнение сотрудника, мы также можем заранее понять, что клиент хочет уйти к конкуренту. Так мы выкроим дополнительное время, чтобы предложить ему спецусловия обслуживания, скидку или иной бонус. Часто на уход людей влияют разные факторы: появление предложений от других компаний, сбои оборудования и так далее. Нужно выявить максимум причин, понять, какие из них влияют на решение сильнее, а затем научиться как можно раньше отслеживать изменение поведения клиента, сигнализирующее о проблемах.

Работая с клиентской базой в миллионы человек, наладить постоянный мониторинг всех факторов, чтобы сократить отток клиентов, вручную просто не получится. Поэтому на помощь аналитикам и маркетологам приходят алгоритмы: они регулярно сравнивают новые данные о поведении клиентов с известной историей тех, кто в итоге отказался от услуг компании, и если выявляют совпадение — сигнализируют о проблеме.

Есть задачи, которые машинное обучение решить не сможет. Это не панацея. Например, при запросе на перенос номера операторы обмениваются данным напрямую: у текущего оператора есть время, чтобы удержать клиента, и в этот момент его специалист звонит вам и предлагает скидку 50 процентов на тариф. Скидка стандартна, как и все правила и процессы в этой ситуации. О том, как решать, нужно ли вам машинное обучение, и поговорим дальше.

Есть ли место умным алгоритмам в вашей работе?

Ниже мы составили список задач, которые разные компании решают с помощью машинного обучения. Отметьте те из них, которые актуальны и для вас. А если у вас уже есть идея, которой нет в списке, — допишите ее. Она еще пригодится вам по ходу курса.

Придумав идею, как использовать машинное обучение в работе, вы станете лучше воспринимать информацию курса и будете знать, что и когда можно применить.

Автоматически прогнозировать цены на товары и услуги в зависимости от сезонности спроса, появления новинок на рынке и результатов продаж в аналогичные периоды предыдущих лет.

Рекомендовать клиентам дополнительные релевантные продукты, опираясь на историю их выбора, а также поведение других клиентов.

Оптимизировать закупки и дозаказ оборудования, чтобы оно всегда было на складе, но не залеживалось на нем. Учитывать сезонность, исторические данные продаж, новые контракты и другие факторы.

Создавать персонализированные предложения для пользователей текущих продуктов, опираясь на историю взаимодействия с ними, и при этом максимизировать выручку бизнеса с каждого предложения.

Уточнить профиль клиента: лучше понять его интересы и изменение поведения в зависимости от разных факторов, опираясь на имеющийся у нас массив сырых данных.

Найти новую целевую аудиторию для продукта или услуги, опираясь на обезличенную информацию о массе текущих клиентов.

Научиться лучше понимать причины оттока пользователей по истории их поведения и взаимодействия с ними: например, выявлять аномальные события, которые могут серьезно сказываться на их лояльности, но не лежать на поверхности.

Научить программу распознавать голос и лицо человека для его идентификации без документов, пропусков и так далее.

Как запустить проект с использованием машинного обучения

Вводный модуль близок к окончанию — в следующих мы будем разбирать конкретные шаги и важные технические аспекты для каждого этапа. А пока бегло взглянем на ключевые вехи: если вы уже запускали проекты, то наверняка найдете много общего с предыдущим опытом.

В целом такой проект обычно требует нескольких месяцев (конкретные сроки будут зависеть от множества факторов конкретного проекта) и наличия у вас ресурсов: полномочий, данных или доступа к ним, а часто — и людей, которые затем будут внедрять и поддерживать модель.

Шаг 1. Формулирование задачи и требований

На этом этапе вы и дата-сайентист активно работаете вместе.

Вы: формулируете исходную гипотезу — какую проблему хотите решить, что и зачем хотите узнать, на какие показатели бизнеса хотите повлиять.

Вместе c дата-сайентистом: обсуждаете, применимо и эффективно ли здесь будет машинное обучение.

Если машинное обучение нужно, вы и дата-сайентист:

уточняете гипотезу и бизнес-цель;
определяете, откуда возьмете данные для обучения;
договариваетесь, по каким критериям (метрикам) будете на различных этапах тестирования определять, решила ли модель поставленную задачу эффективно.

Если машинное обучение не нужно, вам хватит базовой продуктовой и управленческой аналитики.

Шаг 2. Сбор и подготовка данных

Дата-сайентист начинает сбор сырых данных. Вы при необходимости включаетесь и помогаете ему с доступами к нужным ресурсам.

Сегодня в «Ростелекоме» принята новая культура управления данными: все данные из разных источников собираются в единые хранилища, очищаются от дублей и другого мусора, профили клиентов и домохозяйств сводятся воедино. Хранилища регулярно пополняются, к ним подключаются новые источники. А дата-инженеры по запросу помогают понять, какие данные по тематике вашего проекта можно вытащить из хранилища, и помогают достать их.

Шаг 3. Выбор, обучение, тестирование моделей

На этом этапе дата-сайентист работает один. Он:

формирует выборки из данных, при необходимости — дополнительно очищает или генерирует данные;
выбирает подходящие для решения задачи алгоритмы и начинает обучать их;
обучает и комбинирует алгоритмы, пока не добьется лучшего результата по метрикам, которые вы выбрали;
тестирует лучшие модели на контрольных выборках данных.

Шаг 4. Оценка результатов

На этом этапе вы вновь подключаетесь к проекту как заказчик. Вы:

можете провести дополнительное тестирование на реальных данных и задаче, чтобы проверить модель;
оцениваете результаты тестов и принимаете решение, будете ли использовать модель дальше.

Шаг 5. Внедрение и поддержка проекта

Если модель принята, часто требуются дополнительные ресурсы, чтобы превратить ее в отдельный сервис, с которым и будут взаимодействовать ваши пользователи или клиенты.

Мы не будем подробно рассматривать этот этап в нашем курсе, так как он прямо не связан с наукой о данных, но вам стоит помнить и о нем.

Как сформулировать гипотезу для дата-сайентиста

От того, насколько качественно вы как заказчик сформулируете запрос и свое видение результата, во многом зависит общий успех проекта. В этом разделе эксперты курса расскажут, как максимально подготовиться к встрече с дата-сайентистом, чего ждать и не ждать от общения с ним, предложат вам алгоритм для составления запроса к специалисту.

В предыдущих частях модуля мы говорили, что бизнес использует машинное обучение, «чтобы увеличить выручку», «чтобы удержать клиентов» и так далее. Это эффект, который хотел получить заказчик проекта. Его также стоит обозначить на старте проекта, но одного видения результата специалисту будет недостаточно. Чтобы дата-сайентист мог приступить к работе, запрос требует уточнения. Какого именно — Элен расскажет в видео.

Чтобы вы могли сформулировать четкий запрос, давайте пройдем пошаговый алгоритм для постановки задачи специалисту:

Шаг 1. Постарайтесь как можно четче сформулировать, что вы хотите выяснить или какого результат хотите достичь.

Что именно это может быть и зачем это нужно:

изменение конкретного бизнес-показателя (снижение % квартального оттока клиентов, повышение среднего чека, рост LTV пользователя);
ожидание — например, если вы хотите понять, существует ли зависимость между отдельными событиями и поведением клиентов либо хотите четче понять их профиль, то выразить это в цифрах не получится, но можно сформулировать в простую и конкретную гипотезу.

Четкое понимание результата поможет вам определить метрику, а специалисту — направить свои размышления в сторону конкретных алгоритмов.

Шаг 2. Подумайте, какие шаги можно предпринять, чтобы достичь поставленной цели

Дата-сайентист не погружен в ваш проект, поэтому именно вы лучше знаете, что именно готовы сделать для достижения результата. Например, чтобы снизить отток клиентов, можно поставить кол-центру задачу звонить им и предлагать скидку — и для этого нужно получать прогноз, кто именно из клиентов начал вести себя «подозрительно».

Конкретные шаги, которые вы назовете, позволят специалисту понять, насколько задача ложится на возможности машинного обучения: построение рекомендательных и предиктивных систем.

Шаг 3. Подумайте, какие данные уже могут собираться под эту задачу, или попробуйте это выяснить

Понимание, какими данными вы обладаете, — сильная сторона любого современного бизнеса. Вы уже можете логировать действия пользователей на сайте, в приложении, личном кабинете, вести статистику того, как клиенты открывают письма, как часто обращаются в техподдержку, можете проводить регулярные опросы и так далее.

Возможно, на этом этапе вы поймете, что можно решить задачу быстрее и проще (например, реактивировать базу клиентов обычным письмом), либо дата-инженер поймет, что может выудить из имеющихся данных нужную информацию без применения сложных математических моделей. Попробуйте!

Основную работу по сбору и оценке качества и объема данных проделает специалист, но вам следует понимать, что идти к нему без данных — плохая идея. Если у вас еще не отстроены процессы data governance (стратегии работы с данными) и data engineering, лучше сперва заняться ими.

Шаг 4. Подумайте, что важно знать и понимать о вашем проекте

У каждого дела есть десятки нюансов: будучи погруженными в них каждый день, мы часто забываем об этом. А между тем на товары, услуги и цифровые продукты может существовать сезонный спрос, недавно могло произойти какое-то событие (например, появление конкурента в регионе), которое существенно сказалось на работе вашего подразделения и поведении части клиентов.

Дата-сайентист не знает того, что знаете о своем продукте вы. Максимально посвятить его в детали — ваша задача. Чтобы это прошло по-настоящему успешно, вы можете:

выписать как можно больше деталей о том, как менялся ваш бизнес, какие факторы и события могут влиять на вашу бизнес-цель;
описать все ключевые бизнес-процессы и то, как, по-вашему, повлияет на них внедрение машинного обучения.

Эти детали помогут специалисту уточнить задачу: лучше понять, что может влиять на качество работы модели, как распределить «веса» между этими факторами при обучении, что учесть для того, чтобы готовая модель максимально удачно вписалась в работу продукта и помогла вам достичь бизнес-результата.

Чтобы вам было проще сформулировать запрос в виде текста, мы попросили наших экспертов дать свои варианты.

Версия запроса от Элен Теванян: «До конца года мы хотим попробовать увеличить среднюю сумму заказа клиентов, и для этого готовы рекомендовать покупателю товары, которые будут максимально дополнять тот товар, страницу которого он сейчас просматривает. Нам хочется учитывать разные параметры для улучшения рекомендаций: тематику, интересы посетителя, маржинальность и цену рекомендованных товаров и так далее. У нас более 50 000 позиций в 30 категориях, ассортимент меняется регулярно, поэтому сделать это вручную не получится. У нас есть статистика продаж по десяткам тысяч позиций за три года, а также профили 540 тысяч покупателей».

Версия запроса от Сергея Носова: «Три месяца назад в регионе появился конкурент, который стал демпинговать, а два месяца назад с разницей в неделю у нас случились два заметных сбоя оборудования — проблемы наблюдались в течение 6 и 11 часов. За время аварии мы получили несколько тысяч жалоб и обращений на линию техподдержки, о нас также много писали в СМИ и в соцсетях. В этом месяце выручка по региону оказалась ниже плановой — не все постоянные клиенты продлили подписки. Тогда мы провели короткий опрос и узнали, что часть на фоне сбоев решила уйти к конкуренту. Теперь мы хотим поднять данные по всем регионам, чтобы понять зависимость между нашими поломками и недоработками, активностью маркетинга конкурентов и поведением клиентов. Нужно понять, был ли тот случай единичным, либо это тенденция. Если тенденция — научиться ее предсказывать, чтобы наш маркетинг выделял больше времени на отработку ЧП и негатива. Возможно, есть еще другие типы аномалий и событий, которые мы не замечаем и не научились отслеживать, но которые также стоит выявлять автоматически и учитывать».

Прежде чем продолжить изучение курса, советуем пройти несложный математический тест и освежить знания.

Или пропустите его, если полностью уверены в своих силах. Перейти к следующему модулю.

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.

Тушите свет

Почему уличные фонари стали угрозой всему живому

Даниил Гурбанов

На протяжении миллиардов лет свет и тьма задавали ритм жизни. День сменялся ночью, солнце — луной. Но полтора столетия назад техническая революция подарила миру лампочку, а вместе с ней — обилие искусственного света. Рассказываем, почему с неба пропали звезды, как лампочки могут довести до рака и зачем инженеры делают светильники немного умнее.