Как алгоритмы решают вашу задачу
В этом модуле:
• вы познакомитесь с четырьмя популярными алгоритмами для решения задач регрессии и классификации;
• узнаете, что происходит, когда алгоритм начинает учиться на данных, а также как он их обрабатывает;
• поймете, как использовать комбинации алгоритмов, чтобы повысить итоговую точность и качество прогнозов.
Эта информация пригодится, если вы будете анализировать результаты обучения моделей. Скорее всего, дата-сайентист протестирует несколько алгоритмов, после чего покажет вам отчет с результатами их работы. Он будет выглядеть как-то так:
Пока не очень понятно, правда? А ведь именно менеджер проекта решает, какой алгоритм или комбинацию алгоритмов он будет использовать дальше. Чтобы уверенно сделать это, нужно разобраться, как работают математика и логика, на которых построены основные модели машинного обучения. Для этого вам хватит знаний, которые вы почерпнули в предыдущих модулях курса.
Оглавление
Это нельзя объяснить, это можно только запомнить: алгоритмы линейной и логистической регрессии решают разные классы задач. Линейная модель проводит прямую черту на графике числовых прогнозов так, чтобы эта линия и стала оптимальным прогнозом. Логистическая модель тоже проводит разграничение, но уже между классами, и применяется там, где недостаточно простого линейного классификатора (например, при оценке вероятности).
В теории это кажется немного сложным, поэтому Элен и Сергей записали видео с примерами того, как, где и с какими данными может работать каждый из алгоритмов.
Когда нам нужно сделать сложный выбор, основываясь на массе факторов, есть простой метод — выписать все признаки и сравнить предметы выбора по ним: если признак у объекта есть — пишем «да», если признак отсутствует — пишем «нет». У нас получится логическая цепочка, а выбор станет более очевидным. Похожим образом устроен алгоритм деревьев принятия решений — он используется как для решения задач регрессии, так и для классификации.
Классификаторы на деревьях принятия решений используются банками в кредитном скоринге — алгоритм учится подбирать вопросы, на которые можно дать однозначные ответы «да» и «нет», чтобы с каждым шагом сравнения все точнее определять принадлежность заемщика к одному из классов («надежный», «ненадежный»). А еще такой алгоритм мог бы узнать, выжили бы вы на «Титанике», окажись там во время кораблекрушения в 1912 году (подробнее об этом эксперименте и самих деревьях расскажет в видео Элен Теванян).
Часто можно встретить модели, построенные не на одном, а на сотнях небольших решающих деревьев — такую композицию алгоритмов называют «случайный лес». Вы уже могли сталкиваться с результатами его работы. Например, если получали СМС-предложение от банка «вам предварительно одобрен кредит на сумму 714 000 рублей» (набор алгоритмов присвоил вам класс достаточно лояльного клиента и определил размер займа, именно поэтому точность сумм иногда выглядит странной для человека). А о том, как применение случайного леса помогает повышать качество моделей и где еще используется, Элен расскажет в видео.
Узнайте, насколько хорошо вы усвоили материал модуля:
Гамлет Ходжибагиян — о сверхпроводящих магнитах на коллайдере в Дубне
В 2024 году в Дубне закончат строительство коллайдера NICA. Это циклический ускоритель для столкновения протонов и тяжелых ионов. Один из главных элементов коллайдера — сверхпроводящие магниты для удержания и фокусировки частиц. Для создания этих магнитов на российском ускорителе будут использованы высокотемпературные купратные сверхпроводники. Заместитель директора по научной работе Лаборатории физики высоких энергий ОИЯИ, лауреат премии «ВЫЗОВ» 2023 года Гамлет Ходжибагиян объяснил N + 1, почему выбрали именно такие материалы и в чем основные сложности работы с ними.