В этом модуле:
• вы познакомитесь с четырьмя популярными алгоритмами для решения задач регрессии и классификации;
• узнаете, что происходит, когда алгоритм начинает учиться на данных, а также как он их обрабатывает;
• поймете, как использовать комбинации алгоритмов, чтобы повысить итоговую точность и качество прогнозов.
Эта информация пригодится, если вы будете анализировать результаты обучения моделей. Скорее всего, дата-сайентист протестирует несколько алгоритмов, после чего покажет вам отчет с результатами их работы. Он будет выглядеть как-то так:
Пока не очень понятно, правда? А ведь именно менеджер проекта решает, какой алгоритм или комбинацию алгоритмов он будет использовать дальше. Чтобы уверенно сделать это, нужно разобраться, как работают математика и логика, на которых построены основные модели машинного обучения. Для этого вам хватит знаний, которые вы почерпнули в предыдущих модулях курса.
Оглавление
Математический тест для подготовки ко второму модулю
Модуль 2. Переводим задачу машинного обучения на язык, понятный дата-сайентисту и «машине»
Проверочный тест
Модуль 3. Как обучаются алгоритмы и от чего это зависит
Проверочный тест
Модуль 4. Как алгоритмы решают вашу задачу
Проверочный тест
Модуль 5. Как готовят данные для задач машинного обучения
Проверочный тест
Модуль 6. Как проверить качество модели с помощью метрик
Модуль 7. Как понять, что модель готова к настоящей работе
Проверочный тест
Модуль 8. Как проверить модель «в бою»
Проверочный тест
Модуль 9. Как выглядит документация для ML-проекта
Промежуточный тест курса «Наука о данных»
Модуль 10. Заглянем в будущее
Финальное тестирование
Простые алгоритмы для задач регрессии и классификации
Это нельзя объяснить, это можно только запомнить: алгоритмы линейной и логистической регрессии решают разные классы задач. Линейная модель проводит прямую черту на графике числовых прогнозов так, чтобы эта линия и стала оптимальным прогнозом. Логистическая модель тоже проводит разграничение, но уже между классами, и применяется там, где недостаточно простого линейного классификатора (например, при оценке вероятности).
В теории это кажется немного сложным, поэтому Элен и Сергей записали видео с примерами того, как, где и с какими данными может работать каждый из алгоритмов.
Алгоритм, который «думает, как человек»: деревья принятия решений
Когда нам нужно сделать сложный выбор, основываясь на массе факторов, есть простой метод — выписать все признаки и сравнить предметы выбора по ним: если признак у объекта есть — пишем «да», если признак отсутствует — пишем «нет». У нас получится логическая цепочка, а выбор станет более очевидным. Похожим образом устроен алгоритм деревьев принятия решений — он используется как для решения задач регрессии, так и для классификации.
Классификаторы на деревьях принятия решений используются банками в кредитном скоринге — алгоритм учится подбирать вопросы, на которые можно дать однозначные ответы «да» и «нет», чтобы с каждым шагом сравнения все точнее определять принадлежность заемщика к одному из классов («надежный», «ненадежный»). А еще такой алгоритм мог бы узнать, выжили бы вы на «Титанике», окажись там во время кораблекрушения в 1912 году (подробнее об этом эксперименте и самих деревьях расскажет в видео Элен Теванян).
Мощный алгоритм для задач регрессии и классификации: случайный лес
Часто можно встретить модели, построенные не на одном, а на сотнях небольших решающих деревьев — такую композицию алгоритмов называют «случайный лес». Вы уже могли сталкиваться с результатами его работы. Например, если получали СМС-предложение от банка «вам предварительно одобрен кредит на сумму 714 000 рублей» (набор алгоритмов присвоил вам класс достаточно лояльного клиента и определил размер займа, именно поэтому точность сумм иногда выглядит странной для человека). А о том, как применение случайного леса помогает повышать качество моделей и где еще используется, Элен расскажет в видео.
Узнайте, насколько хорошо вы усвоили материал модуля: