Как выглядит документация для ML-проекта
В этом модуле вы узнаете:
• что войдет в отчет специалиста по итогам работы с вами, а чего не стоит от него ожидать;
• и пройдете короткое тестирование, которое подготовит вас к финальному тесту.
Оглавление
Итак, вы провели A/B-тестирование и проверили, влияет ли модель на ваши процессы и показатели. По сути, основной этап работ с участием дата-сайентиста окончен. Дальше вы должны решить, применять ли модель на практике, а специалист (независимо от вашего решения) передаст вам документацию с основной информацией о ходе и результатах проекта.
Вот пример краткого оглавления и содержания такой документации — для удобства разберем ее на примере уже известной вам из видео задачи предсказания LTV — прибыли, которую компания получит за все время работы с конкретным клиентом.
1. Заключение
Это краткий вывод о результатах проекта. Например, он может звучать так:
«В ходе первичного исследования возможностей прогнозирования Life Time Value (LTV) получена предсказательная модель, дающая прогноз со средним абсолютным процентным отклонением от факта (MAPE), равным 9% процентным пунктам фактического значения. То есть в среднем прогноз от настоящего LTV для клиента отличается на девять пунктов».
Заметьте, что заключение, как и вся остальная документация, не содержит выводов об экономической целесообразности проекта — ее определяете вы.
2. Описание задачи заказчика (менеджера проекта)
В этом разделе задача описывается с точки зрения бизнеса: зачем нужно прогнозировать LTV, почему это важно для компании и к каким бизнес-результатам может привести.
3. Постановка задачи машинного обучения
Задача описывается в терминах машинного обучения: например, мы указываем, что прогнозирование LTV — это задача регрессии.
4. Описание данных
Это отчет о данных, которые были получены от заказчика или собраны самостоятельно: их объеме, источниках, качестве, разделении на выборки и так далее.
5. Исследование предсказательной силы и выбор наиболее значимых переменных
Это отчет о том, как обучались разные алгоритмы, как хорошо каждая модель работала на обучающей выборке и какие признаки оказали самое сильное влияние на прогноз.
6. Выбор модели и исследование качества прогноза
Это отчет о проверке моделей кросс-валидацией — обычно результаты собираются в одну таблицу.
7. Возможности для улучшения качества прогноза
Набор предложений о том, как можно улучшить модель: например, это могут быть рекомендации по изменению процесса сбора данных.
Вы уже видели часть этого отчета, когда мы говорили о метриках. Сейчас мы посмотрим на более полную версию и постараемся вспомнить, как анализировать качество моделей.
Итак, ниже представлена сравнительная таблица результатов для задачи предсказания LTV клиентов: дата-сайентист натренировал 5 моделей на базе алгоритмов машинного обучения.
Линейная регрессия и ридж-регрессия — модели с лучшим результатом. Помните, чем меньше показатели RMSE, MAE и MAPE и чем больше R^2 — тем лучше. При этом из двух моделей с лучшими показателями дата-сайентист будет рекомендовать использовать линейную регрессию — она проще в применении.
Для закрепления мы приготовили два примера, которые демонстрируют правильное чтение отчетов.
Пример 1. За последнюю неделю в базе появились данные о 1500 клиентов, но система дала сбой и не записала их пол. Вы хотите сделать рассылку с поздравлением к 8 Марта, поэтому вам нужно предсказать корректный пол для каждого клиента. Для этого тренируются модели, которые показывают следующие результаты:
В такой ситуации разметку графы «пол» стоит доверить моделям решающее дерево или случайный лес, так как обе показывают одинаковое качество.
Пример 2. Вы готовите финансовый план компании на ближайшие несколько лет и хотите понять, сколько действующих клиентов сделают заказы в следующем году. Для этого вы строите несколько моделей, обучая их на исторических данных о продажах. Вот их результаты:
Наиболее точной оказалась модель случайный лес для регрессии, которая допустила наименьший процент ошибок.
Курс подходит к концу. Впереди — промежуточное тестирование. Узнайте, насколько хорошо вы усвоили материал: