Наука о данных. Модуль 4

Как алгоритмы решают вашу задачу

Дмитрий Левин

В этом модуле:
• вы познакомитесь с четырьмя популярными алгоритмами для решения задач регрессии и классификации;
• узнаете, что происходит, когда алгоритм начинает учиться на данных, а также как он их обрабатывает;
• поймете, как использовать комбинации алгоритмов, чтобы повысить итоговую точность и качество прогнозов.

Эта информация пригодится, если вы будете анализировать результаты обучения моделей. Скорее всего, дата-сайентист протестирует несколько алгоритмов, после чего покажет вам отчет с результатами их работы. Он будет выглядеть как-то так:

Пока не очень понятно, правда? А ведь именно менеджер проекта решает, какой алгоритм или комбинацию алгоритмов он будет использовать дальше. Чтобы уверенно сделать это, нужно разобраться, как работают математика и логика, на которых построены основные модели машинного обучения. Для этого вам хватит знаний, которые вы почерпнули в предыдущих модулях курса.

Оглавление

Модуль 1. Какие задачи решают наука о данных и машинное обучение

Математический тест для подготовки ко второму модулю

Модуль 2. Переводим задачу машинного обучения на язык, понятный дата-сайентисту и «машине»

Проверочный тест

Модуль 3. Как обучаются алгоритмы и от чего это зависит

Проверочный тест

Модуль 5. Как готовят данные для задач машинного обучения

Проверочный тест

Модуль 6. Как проверить качество модели с помощью метрик

Модуль 7. Как понять, что модель готова к настоящей работе

Проверочный тест

Модуль 8. Как проверить модель «в бою»

Проверочный тест

Модуль 9. Как выглядит документация для ML-проекта

Промежуточный тест курса «Наука о данных»

Модуль 10. Заглянем в будущее

Финальное тестирование

Простые алгоритмы для задач регрессии и классификации

Это нельзя объяснить, это можно только запомнить: алгоритмы линейной и логистической регрессии решают разные классы задач. Линейная модель проводит прямую черту на графике числовых прогнозов так, чтобы эта линия и стала оптимальным прогнозом. Логистическая модель тоже проводит разграничение, но уже между классами, и применяется там, где недостаточно простого линейного классификатора (например, при оценке вероятности).

В теории это кажется немного сложным, поэтому Элен и Сергей записали видео с примерами того, как, где и с какими данными может работать каждый из алгоритмов.

Алгоритм, который «думает, как человек»: деревья принятия решений

Когда нам нужно сделать сложный выбор, основываясь на массе факторов, есть простой метод — выписать все признаки и сравнить предметы выбора по ним: если признак у объекта есть — пишем «да», если признак отсутствует — пишем «нет». У нас получится логическая цепочка, а выбор станет более очевидным. Похожим образом устроен алгоритм деревьев принятия решений — он используется как для решения задач регрессии, так и для классификации.

Классификаторы на деревьях принятия решений используются банками в кредитном скоринге — алгоритм учится подбирать вопросы, на которые можно дать однозначные ответы «да» и «нет», чтобы с каждым шагом сравнения все точнее определять принадлежность заемщика к одному из классов («надежный», «ненадежный»). А еще такой алгоритм мог бы узнать, выжили бы вы на «Титанике», окажись там во время кораблекрушения в 1912 году (подробнее об этом эксперименте и самих деревьях расскажет в видео Элен Теванян).

Мощный алгоритм для задач регрессии и классификации: случайный лес

Часто можно встретить модели, построенные не на одном, а на сотнях небольших решающих деревьев — такую композицию алгоритмов называют «случайный лес». Вы уже могли сталкиваться с результатами его работы. Например, если получали СМС-предложение от банка «вам предварительно одобрен кредит на сумму 714 000 рублей» (набор алгоритмов присвоил вам класс достаточно лояльного клиента и определил размер займа, именно поэтому точность сумм иногда выглядит странной для человека). А о том, как применение случайного леса помогает повышать качество моделей и где еще используется, Элен расскажет в видео.

Узнайте, насколько хорошо вы усвоили материал модуля:

ПРОВЕРИТЬ СЕБЯ

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.

Не время вымирать

Как хорошо вы разбираетесь в редких животных?

Сергей Коленов

Тысячи видов животных находятся под угрозой исчезновения. Одни из них пострадали от браконьеров, другие — от вырубки лесов и распашки степей, третьи — от распространения чужеродных видов, а кому-то портят жизнь пожары. Впрочем, несмотря на множество проблем, с которыми сталкиваются редкие животные, их все еще можно сохранить. Но для этого людям нужно узнать о них как можно больше. Ведь знание — первый шаг к решению.