Функционирует при финансовой поддержке Федерального агентства по печати и массовым коммуникациям (Роспечать)

Наука о данных. Модуль 9

Как выглядит документация для ML-проекта

В этом модуле вы узнаете:

• что войдет в отчет специалиста по итогам работы с вами, а чего не стоит от него ожидать;
• и пройдете короткое тестирование, которое подготовит вас к финальному тесту.



Что войдет в документацию

Итак, вы провели A/B-тестирование и проверили, влияет ли модель на ваши процессы и показатели. По сути, основной этап работ с участием дата-сайентиста окончен. Дальше вы должны решить, применять ли модель на практике, а специалист (независимо от вашего решения) передаст вам документацию с основной информацией о ходе и результатах проекта.

Вот пример краткого оглавления и содержания такой документации — для удобства разберем ее на примере уже известной вам из видео задачи предсказания LTV — прибыли, которую компания получит за все время работы с конкретным клиентом.

1. Заключение

Это краткий вывод о результатах проекта. Например, он может звучать так:

«В ходе первичного исследования возможностей прогнозирования Life Time Value (LTV) получена предсказательная модель, дающая прогноз со средним абсолютным процентным отклонением от факта (MAPE), равным 9% процентным пунктам фактического значения. То есть в среднем прогноз от настоящего LTV для клиента отличается на девять пунктов».

Заметьте, что заключение, как и вся остальная документация, не содержит выводов об экономической целесообразности проекта — ее определяете вы.

2. Описание задачи заказчика (менеджера проекта)

В этом разделе задача описывается с точки зрения бизнеса: зачем нужно прогнозировать LTV, почему это важно для компании и к каким бизнес-результатам может привести.

3. Постановка задачи машинного обучения

Задача описывается в терминах машинного обучения: например, мы указываем, что прогнозирование LTV — это задача регрессии.

4. Описание данных

Это отчет о данных, которые были получены от заказчика или собраны самостоятельно: их объеме, источниках, качестве, разделении на выборки и так далее.

5. Исследование предсказательной силы и выбор наиболее значимых переменных

Это отчет о том, как обучались разные алгоритмы, как хорошо каждая модель работала на обучающей выборке и какие признаки оказали самое сильное влияние на прогноз.

6. Выбор модели и исследование качества прогноза

Это отчет о проверке моделей кросс-валидацией — обычно результаты собираются в одну таблицу.

7. Возможности для улучшения качества прогноза

Набор предложений о том, как можно улучшить модель: например, это могут быть рекомендации по изменению процесса сбора данных.


Как читать отчет о качестве прогноза

Вы уже видели часть этого отчета, когда мы говорили о метриках. Сейчас мы посмотрим на более полную версию и постараемся вспомнить, как анализировать качество моделей.

Итак, ниже представлена сравнительная таблица результатов для задачи предсказания LTV клиентов: дата-сайентист натренировал 5 моделей на базе алгоритмов машинного обучения.

Линейная регрессия и ридж-регрессия — модели с лучшим результатом. Помните, чем меньше показатели RMSE, MAE и MAPE и чем больше R^2 — тем лучше. При этом из двух моделей с лучшими показателями дата-сайентист будет рекомендовать использовать линейную регрессию — она проще в применении.

Для закрепления мы приготовили два примера, которые демонстрируют правильное чтение отчетов.

Пример 1. За последнюю неделю в базе появились данные о 1500 клиентов, но система дала сбой и не записала их пол. Вы хотите сделать рассылку с поздравлением к 8 Марта, поэтому вам нужно предсказать корректный пол для каждого клиента. Для этого тренируются модели, которые показывают следующие результаты:

В такой ситуации разметку графы «пол» стоит доверить моделям решающее дерево или случайный лес, так как обе показывают одинаковое качество.

Пример 2. Вы готовите финансовый план компании на ближайшие несколько лет и хотите понять, сколько действующих клиентов сделают заказы в следующем году. Для этого вы строите несколько моделей, обучая их на исторических данных о продажах. Вот их результаты:

Наиболее точной оказалась модель случайный лес для регрессии, которая допустила наименьший процент ошибок.


Курс подходит к концу. Впереди — промежуточное тестирование. Узнайте, насколько хорошо вы усвоили материал:

ПРОВЕРИТЬ СЕБЯ

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.