Как алгоритмы решают вашу задачу
В этом модуле:
• вы познакомитесь с четырьмя популярными алгоритмами для решения задач регрессии и классификации;
• узнаете, что происходит, когда алгоритм начинает учиться на данных, а также как он их обрабатывает;
• поймете, как использовать комбинации алгоритмов, чтобы повысить итоговую точность и качество прогнозов.
Эта информация пригодится, если вы будете анализировать результаты обучения моделей. Скорее всего, дата-сайентист протестирует несколько алгоритмов, после чего покажет вам отчет с результатами их работы. Он будет выглядеть как-то так:
Пока не очень понятно, правда? А ведь именно менеджер проекта решает, какой алгоритм или комбинацию алгоритмов он будет использовать дальше. Чтобы уверенно сделать это, нужно разобраться, как работают математика и логика, на которых построены основные модели машинного обучения. Для этого вам хватит знаний, которые вы почерпнули в предыдущих модулях курса.
Оглавление
Это нельзя объяснить, это можно только запомнить: алгоритмы линейной и логистической регрессии решают разные классы задач. Линейная модель проводит прямую черту на графике числовых прогнозов так, чтобы эта линия и стала оптимальным прогнозом. Логистическая модель тоже проводит разграничение, но уже между классами, и применяется там, где недостаточно простого линейного классификатора (например, при оценке вероятности).
В теории это кажется немного сложным, поэтому Элен и Сергей записали видео с примерами того, как, где и с какими данными может работать каждый из алгоритмов.
Когда нам нужно сделать сложный выбор, основываясь на массе факторов, есть простой метод — выписать все признаки и сравнить предметы выбора по ним: если признак у объекта есть — пишем «да», если признак отсутствует — пишем «нет». У нас получится логическая цепочка, а выбор станет более очевидным. Похожим образом устроен алгоритм деревьев принятия решений — он используется как для решения задач регрессии, так и для классификации.
Классификаторы на деревьях принятия решений используются банками в кредитном скоринге — алгоритм учится подбирать вопросы, на которые можно дать однозначные ответы «да» и «нет», чтобы с каждым шагом сравнения все точнее определять принадлежность заемщика к одному из классов («надежный», «ненадежный»). А еще такой алгоритм мог бы узнать, выжили бы вы на «Титанике», окажись там во время кораблекрушения в 1912 году (подробнее об этом эксперименте и самих деревьях расскажет в видео Элен Теванян).
Часто можно встретить модели, построенные не на одном, а на сотнях небольших решающих деревьев — такую композицию алгоритмов называют «случайный лес». Вы уже могли сталкиваться с результатами его работы. Например, если получали СМС-предложение от банка «вам предварительно одобрен кредит на сумму 714 000 рублей» (набор алгоритмов присвоил вам класс достаточно лояльного клиента и определил размер займа, именно поэтому точность сумм иногда выглядит странной для человека). А о том, как применение случайного леса помогает повышать качество моделей и где еще используется, Элен расскажет в видео.
Узнайте, насколько хорошо вы усвоили материал модуля:
Как заменители сахара помогают сделать питание более здоровым
Тяга к сладкому возникла задолго до того, как появились шоколадные эклеры, клубничное варенье, газировка, да и, если на то пошло, сами люди. Для наших далеких предков сладость была признаком того, что еда, скорее всего, неядовита и является хорошим источником энергии. В большинстве случаев за приятный вкус отвечал тот же самый сахар, который мы позже научились производить из сахарного тростника, свеклы и других растений. В наши дни богатая углеводами пища часто ассоциируется с праздником или наградой. С раннего детства мы привыкаем к тому, что на день рождения будет торт, а за хорошую оценку можно получить шоколадку. Но все эти плюсы оборачиваются минусами, когда сахара вокруг становится слишком много.