В этом модуле вы узнаете:
• почему не стоит гнаться за сверхточностью и уводить метрики «в ноль» во время обучения, чтобы не испортить алгоритм;
• почему модель может начать ошибаться на новых данных и какие факторы влияют на это;
• как можно бороться с такими ошибками и стабилизировать качество прогноза дообучением;
• сколько дополнительных проверок стоит устроить, чтобы убедиться, что модель можно внедрять.
Оглавление
Математический тест для подготовки ко второму модулю
Модуль 2. Переводим задачу машинного обучения на язык, понятный дата-сайентисту и «машине»
Проверочный тест
Модуль 3. Как обучаются алгоритмы и от чего это зависит
Проверочный тест
Модуль 4. Как алгоритмы решают вашу задачу
Проверочный тест
Модуль 5. Как готовят данные для задач машинного обучения
Проверочный тест
Модуль 6. Как проверить качество модели с помощью метрик
Модуль 7. Как понять, что модель готова к настоящей работе
Проверочный тест
Модуль 8. Как проверить модель «в бою»
Проверочный тест
Модуль 9. Как выглядит документация для ML-проекта
Промежуточный тест курса «Наука о данных»
Модуль 10. Заглянем в будущее
Финальное тестирование
Почему ошибаются обученные модели и как с этим бороться
Хороший алгоритм, как хороший человек, должен учиться регулярно и регулярно же подтверждать свою квалификацию. То, что модель отлично проявила себя на данных из обучающей выборки, еще не значит, что качество ее прогнозов не упадет при первом столкновении с реальностью. Чтобы избежать этого, обычно дата-сайентист делит исходные данные на 5–10 «порций», а затем сравнивает качество работы модели на них, чтобы стабилизировать метрики.
Тестирование модели на отложенных выборках и k-блоках — это важный этап, который позволит гарантировать итоговую надежность прогнозов на любых новых данных. Какими терминами и знаниями стоит овладеть, чтобы понять, что модель ведет себя подозрительно и нужны дополнительные проверки? Об этом Элен расскажет вам в видео.
Узнайте, насколько хорошо вы усвоили материал модуля: