Функционирует при финансовой поддержке Федерального агентства по печати и массовым коммуникациям (Роспечать)

Наука о данных. Модуль 7

Как понять, что модель готова к настоящей работе

В этом модуле вы узнаете:

• почему не стоит гнаться за сверхточностью и уводить метрики «в ноль» во время обучения, чтобы не испортить алгоритм;
• почему модель может начать ошибаться на новых данных и какие факторы влияют на это;
• как можно бороться с такими ошибками и стабилизировать качество прогноза дообучением;
• сколько дополнительных проверок стоит устроить, чтобы убедиться, что модель можно внедрять.



Почему ошибаются обученные модели и как с этим бороться

Хороший алгоритм, как хороший человек, должен учиться регулярно и регулярно же подтверждать свою квалификацию. То, что модель отлично проявила себя на данных из обучающей выборки, еще не значит, что качество ее прогнозов не упадет при первом столкновении с реальностью. Чтобы избежать этого, обычно дата-сайентист делит исходные данные на 5–10 «порций», а затем сравнивает качество работы модели на них, чтобы стабилизировать метрики.

Тестирование модели на отложенных выборках и k-блоках — это важный этап, который позволит гарантировать итоговую надежность прогнозов на любых новых данных. Какими терминами и знаниями стоит овладеть, чтобы понять, что модель ведет себя подозрительно и нужны дополнительные проверки? Об этом Элен расскажет вам в видео.



Узнайте, насколько хорошо вы усвоили материал модуля:

ПРОВЕРИТЬ СЕБЯ

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.