Функционирует при финансовой поддержке Федерального агентства по печати и массовым коммуникациям (Роспечать)

Наука о данных. Финальный тест

Проверьте, хорошо ли вы усвоили материал

Это был большой и насыщенный курс. Впереди вас ждет последнее испытание — 17 вопросов, которые охватят темы всех модулей. Большая часть заданий поможет вам понять, насколько вы готовы говорить на одном языке с дата-сайентистом, четко описывать свою цель, ожидаемый эффект от внедрения машинного обучения и анализировать результаты тестирования и работы моделей.

1. Какие из этих задач типичны для машинного обучения с учителем?
  1. Группировка сообщений от пользователей;
  2. Оценка тона комментария: положительный или отрицательный;
  3. Группировка изображений по визуальным признакам на неразмеченных данных;
  4. Оценка вероятности, кликнет ли человек на рекламный баннер.
2. Выберите все задачи, которые характерны для обучения без учителя.
  1. Прогноз стоимости недвижимости;
  2. Предсказание пола автора комментария;
  3. Рекомендация друзей, контента и пабликов в социальных сетях;
  4. Сегментация пользователей интернет-магазина по неявным интересам.
3. Вы хотите предсказать суммы, которые клиенты потратят на оплату трафика в разные месяцы, исходя из истории их предыдущего потребления. Это задача:
4. В базе данных есть следующие записи: длительность звонков, общее число звонков, общее число переданных сообщений, количество потраченных гигабайтов трафика. Вы хотите предсказывать объем трафика, который потратят клиенты. Что будет объектом модели в этой задаче?
5. Вы хотите выявлять клиентов, которые, вероятно, перестанут пользоваться услугами компании в ближайшую неделю. Это задача:
6. Что будет объектом в задаче поиска уходящих от компании клиентов?
7. Что будет целевой переменной (y) в задаче поиска уходящих от компании клиентов?
8. Какие метрики можно использовать, чтобы оценить, насколько качественно модель решает задачу поиска уходящих клиентов?
9. Какой алгоритм не подходит для решения задачи, объекты в которой нужно разделить на классы?
10. Оцените метрики и решите, какую модель стоит выбрать для пилотного внедрения.
11. Компания запускает пилотный проект, чтобы проверить, помогают ли прогнозы модели лучше находить клиентов, которых можно удержать. Какой способ проверки подойдет:
12. Компания отобрала клиентов, которых модель посчитала уходящими, в тестовую группу, а тех, кого уходящими посчитали маркетологи, — в контрольную. Тестовая группа получила предложение о скидке 15% в четверг вечером, а контрольная — в субботу. Будете ли вы доверять результатам такого эксперимента?
13. Как можно бороться с переобучением модели?
  1. С помощью кросс-валидации;
  2. С помощью отложенных выборок;
  3. С помощью A/B-тестирований;
  4. С помощью композиции алгоритмов.
14. Ваши клиенты активно пишут в онлайн-чаты техподдержки по любому поводу. Вы хотите в первую очередь работать с негативом, а значит, вам нужно научиться по тону сообщения отделять жалобы от стандартных вопросов, чтобы жалобы автоматически получали приоритет. Вы решаете делить сообщения на два класса. Дата-сайентист спрашивает, какая метрика будет ключевой?

Какую метрику вы выберете с учетом того, что вам важно научиться точно находить жалобы?
15. Если вы хотите, чтобы каждый объект попал в обучающую выборку и алгоритм стал учитывать его особенности, надо выбрать:
16. К персональным данным относится:
17. Какая информация о пациентах, находящаяся в распоряжении медицинской организации, относится к персональным данным?
  1. Диагнозы конкретных пациентов
  2. Количество пациентов медицинской организации
  3. Данные из электронной медицинской карты без Ф.И.О.: дата рождения, адрес регистрации и пр.
  4. Динамика роста случаев конкретного заболевания.

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.