Как проверить качество модели с помощью метрик
В предыдущих модулях мы прошли все основные шаги от постановки цели до создания обучающей выборки и тренировки алгоритмов.
В этом модуле вы узнаете:
• как с помощью метрик понять, насколько хорошо работает модель;
• какие метрики подходят для задач регрессии и классификации и в чем основные плюсы и минусы каждой;
• как выбрать метрику для проекта.
Оглавление
Ваше сотрудничество с дата-сайентистом — это вариант отношений «заказчик — подрядчик», а о ключевых вещах и показателях в этом случае принято договариваться «на берегу». Метрика — один из таких ключевых показателей: с ее помощью вы будете оценивать результат работы алгоритма. Поэтому в процессе первоначального обсуждения проекта вопрос о метрике всплывет обязательно.
Давайте вспомним общую схему, по которой можно вести диалог и формулировать запрос к специалисту, и уточним ее, добавив в конец еще один шаг — выбор метрики. Чтобы вам было проще, разберем все на примере:
1. Определите бизнес-задачу
Вы: Компании нужно поднять выручку на 5% до конца года и…
2. Расскажите о конкретных шагах по ее достижению
Вы: … и для достижения этой цели мы хотим допродавать существующим клиентам цифровые продукты, которые будут удачно сочетаться с теми, что они уже у нас покупают. Но чтобы вероятность дополнительной покупки была высокой, рекомендации продуктов должны быть по-настоящему релевантными и качественными (по прикидкам отдела маркетинга, чтобы достичь показателей, мы должны убедить каждого десятого клиента).
3. Определите, можно ли решить задачу с помощью машинного обучения
Дата-сайентист: Можно проанализировать текущую базу клиентов, выявить их поведенческие паттерны и объединить клиентов со схожими паттернами в отдельные сегменты. Затем для каждого сегмента подобрать наиболее релевантные услуги или товары.
4. Определите, что у вас с данными, целевой переменной, объектами и прочим
Вы: У нас есть CRM (англ. Customer Relationship Management, система управления взаимоотношений с клиентами) и другие источники данных о клиентах — мы знаем, что и с какой частотой они покупали ранее, откуда они, какими еще услугами и продуктами компании пользовались или пользуются в их домохозяйстве.
Дата-сайентист: По идее, мы можем набрать достаточно признаков, а модель сама определит их веса и сгруппирует клиентов. Здесь угадывается задача кластеризации.
5. Определите метрику качества
Дата-сайентист: Итак, решено: мы строим рекомендательную систему. Остается понять, как мы определим, что алгоритм подсказывает именно то, что нужно людям? По какой метрике будем оценивать качество?
Чтобы вы могли ответить на этот вопрос, в модуле мы изучим основные метрики машинного обучения.
Любой прогноз может быть не на 100% точен, а вот какое отклонение допустимо, решаете вы, исходя из задач и целей бизнеса. В этом видео Элен расскажет о пяти популярных метриках для работы с числовыми прогнозами и о том, как они помогают выявлять расхождения между оценкой модели и реальностью и «штрафовать» алгоритм за слишком неточные предсказания. Как всегда — с примерами.
Модель предполагает, а человек располагает — в этом видео Элен разберет, как устроена матрица ошибок для классификатора на примере оттока клиентов. Вы познакомитесь с основными терминами, которые используют для описания качества работы алгоритмов, и столкнетесь с двумя на первый взгляд похожими, но очень разными по смыслу метриками — точностью и полнотой.
Серия примеров ниже даст возможность лучше понять, как разобраться в реальном отчете дата-сайентиста и принять взвешенное решение о том, поможет ли модель в достижении бизнес-цели.
1. Давайте вспомним, как устроена матрица ошибок. Перед вами матрица для модели кредитного скоринга: класс 1 — это клиенты, честно вернувшие кредит в срок, класс 0 — недобросовестные заемщики.
Например:
2. Теперь перед вами результат работы модели, которая предсказывала уход клиентов. y=1 — клиент ушел, y=0 клиент не ушел.
Из таблицы мы узнаем, что:
3. Долю правильных ответов можно посчитать по формуле, изображенной на картинке. Сокращениями даны термины True Positive (TP), True Negative (TN), False Positive (FP) и False Negative (FN).
Откройте калькулятор, возьмите данные из таблицы ниже и посчитайте, для какого процента из выборки модель дала точный прогноз.
94% (0,94/ 0,93/ 0,939 / 93%/ 94%/ 93,9%)
4. А вот по этой формуле считают метрику точности.
Откройте калькулятор, возьмите данные из таблицы ниже и прикиньте, насколько мы можем доверять предсказаниям модели о том, что клиент уйдет (класс 1).
61% (61,5% / 61% / 0,615 / 0,62 / 62%)
5. Наверняка вы уже догадались: по этой формуле считают метрику полноты.
Откройте калькулятор, возьмите данные из таблицы ниже и посчитайте, какую долю от всех ушедших клиентов смог идентифицировать алгоритм.
80% (0,8)
Плохая новость: далеко не всегда алгоритмы будут выдавать высокие результаты по всем метрикам сразу. Хорошая новость: далеко не всегда вам на самом деле нужно ориентироваться более чем на 1 показатель. Для решения разных задач классификации хорошими могут считаться высокие или низкие значения того или иного показателя. Именно вы как представитель бизнеса должны сказать, на какой показатель стоит ориентироваться в первую очередь.
Например, в случае с алгоритмом, который предсказывал уход клиентов, компании важно было не упустить клиентов, которые на самом деле уйдут, то есть свести к минимуму процент False Negative и ориентироваться на метрику полноты.
А вот еще две задачи классификации:
1. Операторы кол-центра получают базу для обзвона и могут столкнуться с двумя типами потенциальных клиентов:
Руководство кол-центра хочет обучить модель предсказывать, какой клиент поднимет трубку. Вам нужно научить алгоритм определять, «теплый» (y = 1) или «холодный» (y = 0) клиент, чтобы до последнего избегать звонков «холодным» клиентам.
В такой ситуации правильным решением будет максимизировать метрику точности. Чем она выше, тем меньше «холодных» клиентов модель записала в «теплые».
2. Алгоритм кредитного скоринга должен определять надежность заемщиков. Банку хочется давать кредиты только тем, кто их вернет, и такие надежные заемщики отмечены в таблице как y = 1.
При оценке работы такого алгоритма внимание стоит обращать на метрику точности. Она покажет, в ком ошибся алгоритм. Именно таких людей, недобросовестных заемщиков, которые обманули модель, банк не хочет видеть среди клиентов. Значит, их число и надо снижать, повышая точность.