Наука о данных. Модуль 6

Как проверить качество модели с помощью метрик

Дмитрий Левин

В предыдущих модулях мы прошли все основные шаги от постановки цели до создания обучающей выборки и тренировки алгоритмов.
В этом модуле вы узнаете:
• как с помощью метрик понять, насколько хорошо работает модель;
• какие метрики подходят для задач регрессии и классификации и в чем основные плюсы и минусы каждой;
• как выбрать метрику для проекта.

Оглавление

Модуль 1. Какие задачи решают наука о данных и машинное обучение

Математический тест для подготовки ко второму модулю

Модуль 2. Переводим задачу машинного обучения на язык, понятный дата-сайентисту и «машине»

Проверочный тест

Модуль 3. Как обучаются алгоритмы и от чего это зависит

Проверочный тест

Модуль 4. Как алгоритмы решают вашу задачу

Проверочный тест

Модуль 5. Как готовят данные для задач машинного обучения

Проверочный тест

Модуль 7. Как понять, что модель готова к настоящей работе

Проверочный тест

Модуль 8. Как проверить модель «в бою»

Проверочный тест

Модуль 9. Как выглядит документация для ML-проекта

Промежуточный тест курса «Наука о данных»

Модуль 10. Заглянем в будущее

Финальное тестирование

Почему мы выбираем метрику на самом старте проекта

Ваше сотрудничество с дата-сайентистом — это вариант отношений «заказчик — подрядчик», а о ключевых вещах и показателях в этом случае принято договариваться «на берегу». Метрика — один из таких ключевых показателей: с ее помощью вы будете оценивать результат работы алгоритма. Поэтому в процессе первоначального обсуждения проекта вопрос о метрике всплывет обязательно.

Давайте вспомним общую схему, по которой можно вести диалог и формулировать запрос к специалисту, и уточним ее, добавив в конец еще один шаг — выбор метрики. Чтобы вам было проще, разберем все на примере:

1. Определите бизнес-задачу

Вы: Компании нужно поднять выручку на 5% до конца года и…

2. Расскажите о конкретных шагах по ее достижению

Вы: … и для достижения этой цели мы хотим допродавать существующим клиентам цифровые продукты, которые будут удачно сочетаться с теми, что они уже у нас покупают. Но чтобы вероятность дополнительной покупки была высокой, рекомендации продуктов должны быть по-настоящему релевантными и качественными (по прикидкам отдела маркетинга, чтобы достичь показателей, мы должны убедить каждого десятого клиента).

3. Определите, можно ли решить задачу с помощью машинного обучения

Дата-сайентист: Можно проанализировать текущую базу клиентов, выявить их поведенческие паттерны и объединить клиентов со схожими паттернами в отдельные сегменты. Затем для каждого сегмента подобрать наиболее релевантные услуги или товары.

4. Определите, что у вас с данными, целевой переменной, объектами и прочим

Вы: У нас есть CRM (англ. Customer Relationship Management, система управления взаимоотношений с клиентами) и другие источники данных о клиентах — мы знаем, что и с какой частотой они покупали ранее, откуда они, какими еще услугами и продуктами компании пользовались или пользуются в их домохозяйстве.

Дата-сайентист: По идее, мы можем набрать достаточно признаков, а модель сама определит их веса и сгруппирует клиентов. Здесь угадывается задача кластеризации.

5. Определите метрику качества

Дата-сайентист: Итак, решено: мы строим рекомендательную систему. Остается понять, как мы определим, что алгоритм подсказывает именно то, что нужно людям? По какой метрике будем оценивать качество?

Чтобы вы могли ответить на этот вопрос, в модуле мы изучим основные метрики машинного обучения.

Метрики для задач регрессии: какие бывают, плюсы и минусы

Любой прогноз может быть не на 100% точен, а вот какое отклонение допустимо, решаете вы, исходя из задач и целей бизнеса. В этом видео Элен расскажет о пяти популярных метриках для работы с числовыми прогнозами и о том, как они помогают выявлять расхождения между оценкой модели и реальностью и «штрафовать» алгоритм за слишком неточные предсказания. Как всегда — с примерами.

Как считаются метрики регрессии

MAE (средняя абсолютная ошибка) — необходимо посчитать модуль разницы между прогнозом и реальным значением для всех объектов, а затем поделить разницу на число объектов.

MSE (среднеквадратическая ошибка) — необходимо посчитать разницу между прогнозом и реальным значением для каждого объекта, а затем возвести каждую в квадрат, сложить результаты и разделить на число объектов.

RMSE (корень из среднеквадратической ошибки) — необходимо посчитать разницу между прогнозом и реальным значением для каждого объекта, возвести каждую в квадрат, сложить результаты, поделить на число объектов, а затем взять корень из получившегося среднего значения.

MAPE (средняя процентная ошибка) — необходимо посчитать разницу между прогнозом и реальным значением, а затем поделить ее на реальное значение, получив среднее в виде %.

Метрики для задач классификации: как найти их все из одной таблицы

Модель предполагает, а человек располагает — в этом видео Элен разберет, как устроена матрица ошибок для классификатора на примере оттока клиентов. Вы познакомитесь с основными терминами, которые используют для описания качества работы алгоритмов, и столкнетесь с двумя на первый взгляд похожими, но очень разными по смыслу метриками — точностью и полнотой.

Как считаются метрики классификации

Серия примеров ниже даст возможность лучше понять, как разобраться в реальном отчете дата-сайентиста и принять взвешенное решение о том, поможет ли модель в достижении бизнес-цели.

1. Давайте вспомним, как устроена матрица ошибок. Перед вами матрица для модели кредитного скоринга: класс 1 — это клиенты, честно вернувшие кредит в срок, класс 0 — недобросовестные заемщики.

Например:

Модель предсказала, что заемщик вернет кредит, и он его вернул. Это называется английским термином True Positive, TP
Модель предсказала, что заемщик не вернет кредит, а он его вернул. Это называется английским термином False Negative, FP
Модель предсказала, что заемщик вернет кредит, а он не вернул его. Это называется английским термином False Positive, FP
Модель предсказала, что заемщик не вернет кредит, и он не вернул. Это называется английским термином True Negative, TN

2. Теперь перед вами результат работы модели, которая предсказывала уход клиентов. y=1 — клиент ушел, y=0 клиент не ушел.

Из таблицы мы узнаем, что:

Всего от компании ушло 1000 клиентов. Если сложить данные из столбца y = 1 (все ушедшие клиенты), выйдет как раз тысяча.
Модель спрогнозировала, что от компании уйдут 1300 человек. Если сложить данные из строки y＾ = 1 (все, кого модель отнесла к классу «ушедшие клиенты»), выйдет как раз одна тысяча триста человек.
Модель не смогла предсказать уход (проигнорировала) 200 человек. Именно этот факт отражен в строке y＾ = 0 (false negative) — модель считала, что эти люди останутся с компанией, а по факту те планировали отказаться от ее услуг.

3. Долю правильных ответов можно посчитать по формуле, изображенной на картинке. Сокращениями даны термины True Positive (TP), True Negative (TN), False Positive (FP) и False Negative (FN).

Откройте калькулятор, возьмите данные из таблицы ниже и посчитайте, для какого процента из выборки модель дала точный прогноз.

Правильный ответ

94% (0,94/ 0,93/ 0,939 / 93%/ 94%/ 93,9%)

4. А вот по этой формуле считают метрику точности.

Откройте калькулятор, возьмите данные из таблицы ниже и прикиньте, насколько мы можем доверять предсказаниям модели о том, что клиент уйдет (класс 1).

Правильный ответ

61% (61,5% / 61% / 0,615 / 0,62 / 62%)

5. Наверняка вы уже догадались: по этой формуле считают метрику полноты.

Откройте калькулятор, возьмите данные из таблицы ниже и посчитайте, какую долю от всех ушедших клиентов смог идентифицировать алгоритм.

Правильный ответ

80% (0,8)

Как выбрать правильную метрику классификации

Плохая новость: далеко не всегда алгоритмы будут выдавать высокие результаты по всем метрикам сразу. Хорошая новость: далеко не всегда вам на самом деле нужно ориентироваться более чем на 1 показатель. Для решения разных задач классификации хорошими могут считаться высокие или низкие значения того или иного показателя. Именно вы как представитель бизнеса должны сказать, на какой показатель стоит ориентироваться в первую очередь.

Например, в случае с алгоритмом, который предсказывал уход клиентов, компании важно было не упустить клиентов, которые на самом деле уйдут, то есть свести к минимуму процент False Negative и ориентироваться на метрику полноты.

А вот еще две задачи классификации:

1. Операторы кол-центра получают базу для обзвона и могут столкнуться с двумя типами потенциальных клиентов:

«холодными» — такие ничего не знают о продукте и с меньшей вероятностью будут общаться, на таких время часто тратится безрезультатно,
и «теплыми» — они уже почти готовы купить, конверсия среди них выше.

Руководство кол-центра хочет обучить модель предсказывать, какой клиент поднимет трубку. Вам нужно научить алгоритм определять, «теплый» (y = 1) или «холодный» (y = 0) клиент, чтобы до последнего избегать звонков «холодным» клиентам.

В такой ситуации правильным решением будет максимизировать метрику точности. Чем она выше, тем меньше «холодных» клиентов модель записала в «теплые».

2. Алгоритм кредитного скоринга должен определять надежность заемщиков. Банку хочется давать кредиты только тем, кто их вернет, и такие надежные заемщики отмечены в таблице как y = 1.

При оценке работы такого алгоритма внимание стоит обращать на метрику точности. Она покажет, в ком ошибся алгоритм. Именно таких людей, недобросовестных заемщиков, которые обманули модель, банк не хочет видеть среди клиентов. Значит, их число и надо снижать, повышая точность.

Наука о данных. Модуль 6

Почему мы выбираем метрику на самом старте проекта

Метрики для задач регрессии: какие бывают, плюсы и минусы

Как считаются метрики регрессии

Метрики для задач классификации: как найти их все из одной таблицы

Как считаются метрики классификации

Правильный ответ

Правильный ответ

Правильный ответ

Как выбрать правильную метрику классификации

Перейти к следующему модулю