Наука о данных. Модуль 4

Как алгоритмы решают вашу задачу

В этом модуле:
• вы познакомитесь с четырьмя популярными алгоритмами для решения задач регрессии и классификации;
• узнаете, что происходит, когда алгоритм начинает учиться на данных, а также как он их обрабатывает;
• поймете, как использовать комбинации алгоритмов, чтобы повысить итоговую точность и качество прогнозов.

Эта информация пригодится, если вы будете анализировать результаты обучения моделей. Скорее всего, дата-сайентист протестирует несколько алгоритмов, после чего покажет вам отчет с результатами их работы. Он будет выглядеть как-то так:

Пока не очень понятно, правда? А ведь именно менеджер проекта решает, какой алгоритм или комбинацию алгоритмов он будет использовать дальше. Чтобы уверенно сделать это, нужно разобраться, как работают математика и логика, на которых построены основные модели машинного обучения. Для этого вам хватит знаний, которые вы почерпнули в предыдущих модулях курса.

Простые алгоритмы для задач регрессии и классификации

Это нельзя объяснить, это можно только запомнить: алгоритмы линейной и логистической регрессии решают разные классы задач. Линейная модель проводит прямую черту на графике числовых прогнозов так, чтобы эта линия и стала оптимальным прогнозом. Логистическая модель тоже проводит разграничение, но уже между классами, и применяется там, где недостаточно простого линейного классификатора (например, при оценке вероятности).

В теории это кажется немного сложным, поэтому Элен и Сергей записали видео с примерами того, как, где и с какими данными может работать каждый из алгоритмов.

 

Алгоритм, который «думает, как человек»: деревья принятия решений

Когда нам нужно сделать сложный выбор, основываясь на массе факторов, есть простой метод — выписать все признаки и сравнить предметы выбора по ним: если признак у объекта есть — пишем «да», если признак отсутствует — пишем «нет». У нас получится логическая цепочка, а выбор станет более очевидным. Похожим образом устроен алгоритм деревьев принятия решений — он используется как для решения задач регрессии, так и для классификации.

Классификаторы на деревьях принятия решений используются банками в кредитном скоринге — алгоритм учится подбирать вопросы, на которые можно дать однозначные ответы «да» и «нет», чтобы с каждым шагом сравнения все точнее определять принадлежность заемщика к одному из классов («надежный», «ненадежный»). А еще такой алгоритм мог бы узнать, выжили бы вы на «Титанике», окажись там во время кораблекрушения в 1912 году (подробнее об этом эксперименте и самих деревьях расскажет в видео Элен Теванян).

 

Мощный алгоритм для задач регрессии и классификации: случайный лес

Часто можно встретить модели, построенные не на одном, а на сотнях небольших решающих деревьев — такую композицию алгоритмов называют «случайный лес». Вы уже могли сталкиваться с результатами его работы. Например, если получали СМС-предложение от банка «вам предварительно одобрен кредит на сумму 714 000 рублей» (набор алгоритмов присвоил вам класс достаточно лояльного клиента и определил размер займа, именно поэтому точность сумм иногда выглядит странной для человека). А о том, как применение случайного леса помогает повышать качество моделей и где еще используется, Элен расскажет в видео.


Узнайте, насколько хорошо вы усвоили материал модуля: