Наука о данных. Модуль 9

Как выглядит документация для ML-проекта

Дмитрий Левин

В этом модуле вы узнаете:
• что войдет в отчет специалиста по итогам работы с вами, а чего не стоит от него ожидать;
• и пройдете короткое тестирование, которое подготовит вас к финальному тесту.

Оглавление

Модуль 1. Какие задачи решают наука о данных и машинное обучение

Математический тест для подготовки ко второму модулю

Модуль 2. Переводим задачу машинного обучения на язык, понятный дата-сайентисту и «машине»

Проверочный тест

Модуль 3. Как обучаются алгоритмы и от чего это зависит

Проверочный тест

Модуль 4. Как алгоритмы решают вашу задачу

Проверочный тест

Модуль 5. Как готовят данные для задач машинного обучения

Проверочный тест

Модуль 6. Как проверить качество модели с помощью метрик

Модуль 7. Как понять, что модель готова к настоящей работе

Проверочный тест

Модуль 8. Как проверить модель «в бою»

Проверочный тест

Промежуточный тест курса «Наука о данных»

Модуль 10. Заглянем в будущее

Финальное тестирование

Что войдет в документацию

Итак, вы провели A/B-тестирование и проверили, влияет ли модель на ваши процессы и показатели. По сути, основной этап работ с участием дата-сайентиста окончен. Дальше вы должны решить, применять ли модель на практике, а специалист (независимо от вашего решения) передаст вам документацию с основной информацией о ходе и результатах проекта.

Вот пример краткого оглавления и содержания такой документации — для удобства разберем ее на примере уже известной вам из видео задачи предсказания LTV — прибыли, которую компания получит за все время работы с конкретным клиентом.

1. Заключение

Это краткий вывод о результатах проекта. Например, он может звучать так:

«В ходе первичного исследования возможностей прогнозирования Life Time Value (LTV) получена предсказательная модель, дающая прогноз со средним абсолютным процентным отклонением от факта (MAPE), равным 9% процентным пунктам фактического значения. То есть в среднем прогноз от настоящего LTV для клиента отличается на девять пунктов».

Заметьте, что заключение, как и вся остальная документация, не содержит выводов об экономической целесообразности проекта — ее определяете вы.

2. Описание задачи заказчика (менеджера проекта)

В этом разделе задача описывается с точки зрения бизнеса: зачем нужно прогнозировать LTV, почему это важно для компании и к каким бизнес-результатам может привести.

3. Постановка задачи машинного обучения

Задача описывается в терминах машинного обучения: например, мы указываем, что прогнозирование LTV — это задача регрессии.

4. Описание данных

Это отчет о данных, которые были получены от заказчика или собраны самостоятельно: их объеме, источниках, качестве, разделении на выборки и так далее.

5. Исследование предсказательной силы и выбор наиболее значимых переменных

Это отчет о том, как обучались разные алгоритмы, как хорошо каждая модель работала на обучающей выборке и какие признаки оказали самое сильное влияние на прогноз.

6. Выбор модели и исследование качества прогноза

Это отчет о проверке моделей кросс-валидацией — обычно результаты собираются в одну таблицу.

7. Возможности для улучшения качества прогноза

Набор предложений о том, как можно улучшить модель: например, это могут быть рекомендации по изменению процесса сбора данных.

Как читать отчет о качестве прогноза

Вы уже видели часть этого отчета, когда мы говорили о метриках. Сейчас мы посмотрим на более полную версию и постараемся вспомнить, как анализировать качество моделей.

Итак, ниже представлена сравнительная таблица результатов для задачи предсказания LTV клиентов: дата-сайентист натренировал 5 моделей на базе алгоритмов машинного обучения.

Линейная регрессия и ридж-регрессия — модели с лучшим результатом. Помните, чем меньше показатели RMSE, MAE и MAPE и чем больше R^2 — тем лучше. При этом из двух моделей с лучшими показателями дата-сайентист будет рекомендовать использовать линейную регрессию — она проще в применении.

Для закрепления мы приготовили два примера, которые демонстрируют правильное чтение отчетов.

Пример 1. За последнюю неделю в базе появились данные о 1500 клиентов, но система дала сбой и не записала их пол. Вы хотите сделать рассылку с поздравлением к 8 Марта, поэтому вам нужно предсказать корректный пол для каждого клиента. Для этого тренируются модели, которые показывают следующие результаты:

В такой ситуации разметку графы «пол» стоит доверить моделям решающее дерево или случайный лес, так как обе показывают одинаковое качество.

Пример 2. Вы готовите финансовый план компании на ближайшие несколько лет и хотите понять, сколько действующих клиентов сделают заказы в следующем году. Для этого вы строите несколько моделей, обучая их на исторических данных о продажах. Вот их результаты:

Наиболее точной оказалась модель случайный лес для регрессии, которая допустила наименьший процент ошибок.

Курс подходит к концу. Впереди — промежуточное тестирование. Узнайте, насколько хорошо вы усвоили материал:

ПРОВЕРИТЬ СЕБЯ

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.

Грамота 2.0

Почему IT-компетенции стали универсальными

Зинаида Чибисова

IT больше не удел программистов. Это универсально востребованная сфера, в том числе для гуманитариев и естественников. В этом материале рассмотрим, как историки, агрономы, биологи и лингвисты добиваются своих целей благодаря IT.