Чеклист на вход в профессию дата-сайентиста
За последние три года человечество произвело столько информации, сколько не набралось за всю историю его существования. На этой проблеме (названной «информационным взрывом») зарабатывают дата-сайентисты. Они исследуют данные и находят в них ценные закономерности, позволяющие принимать математически верные решения. Большая часть подходов, которые они применяют, основаны на математике, статистике и программировании. Дата-сайентисты необходимы везде, начиная от финансов и консалтинга, заканчивая маркетингом и логистикой. А умеете ли оперировать данными вы? SkillFactory и N + 1 подготовили чеклист, который поможет это выяснить.
Основой всего анализа данных является статистический подход. Дата-сайентист постоянно формулирует статистические гипотезы, разрабатывает и придумает новые подходы к анализу данных, извлекая из них информацию статистическими методами. Одним из таких методов является оценка p-value: вероятности получить такое же или более экстремальное распределение случайной величины, при условии того, что нулевая гипотеза верна.
Научное обоснование анализа данных — теория вероятностей. Она позволяет оценить качество подобранной модели и полученных данных, а также математически строго доказать корректность выводов. В анализе данных применяются гораздо более сложные вероятностные модели, чем подбрасывание монетки или игральной кости. Поэтому, если вы не знаете разницы между априорной и апостериорной вероятностью и до сих пор уверены, что, если монетка уже три раза упала орлом, вероятность того, что в следующий раз будет решка — выше, добро пожаловать на курс от SkillFactory.
Машинное обучение — один из ключевых способов анализа данных. Его частный случай — методы unsupervised learning, или «обучения без учителя». В рамках этого класса методов вы подаете на вход алгоритму только анализируемый датасет, после чего алгоритм должен самостоятельно выдать осмысленный результат. Таким способом производится, например, кластеризация — разбиение данных на подгруппы, внутри которых содержатся наиболее похожие друг на друга элементы.
Другим ответвлением машинного обучения являются методы «обучения с учителем и обучения с подкреплением» — supervised и reinforcement learning. Принципиальное отличие от обучения без учителя заключается в наличии дополнительной информации — трейнинг-сетов или некоторой среды (например, другого алгоритма), проверяющих правильность алгоритма обучения. Дата-сайентист, владеющий этими методами на хорошем уровне, способен работать практически с любыми данными и доставать из них осмысленный результат.
Придуманные алгоритмы необходимо уметь реализовывать на практике. Самым популярным языком программирования в современном data science является Python. Его простота и гибкость позволяет быстро реализовать сложные алгоритмы машинного обучения. Основные библиотеки Python для data science — numpy и pandas. Для построения моделей машинного обучения используют keras и pytorch, а для визуализации — seaborn и matplotlib. Если все это для вас просто наборы символов, вы, наверное, уже догадываетесь, что делать.
Данные необходимо где-то хранить. Если вы хотите заниматься data science, — забудьте про Microsoft Excel с подсказками и дружелюбным интерфейсом, и начните изучать системы хранения данных. Главным языком, используемым для хранения данных, является SQL — декларативный язык программирования, позволяющий реализовывать реляционные базы данных.
Основная задача любого продукта — принести ценность для пользователя. Поэтому, при разработке необходимо следовать общей методологии продуктового мышления: мыслить не конкретной функцией, а конечным продуктом. Прежде чем приступать к проекту, нужно понять, для чего он делается данный продукт, кто им будет пользоваться и какую уникальную проблему пользователя он будет решать.
В менеджменте все большую и большую популярность приобретает data-driven подход. По нему, все ключевые решения должны быть основаны на данных и их математически строгой интерпретации. Дата-сайентисты должны быть чуткими и объективными по отношению к анализируемым данным, понимать их и руководствоваться в первую очередь строгим языком цифр. А не интуицией или личным опытом.
Один из самых недооцененных факторов в работе — наличие у работника soft skills, или межпрофессиональных навыков, отражающихся в поведении человека. Работодатели заинтересованы в эмоционально зрелых, стрессоустойчивых и креативных сотрудниках, способных коммуницировать с командой, правильно делегировать задачи и соблюдать дедлайны. Важны эти навыки и в области data science — при работе над большими проектами умение распределять нагрузку и снижать эмоциональную напряженность в команде становится критически важным.
Правильно спланированный менеджмент задач — необходимое умение для дата-сайентиста. Вне зависимости от того, работает человек один или имеет в подчинении команду, структура задач должна быть предельно конкретной и понятной. В этом могут помочь методологии управления задачами — способы организации задач, ориентированные на предоставление результата вовремя с адекватной рабочей нагрузкой и грамотно выстроенными коммуникациями. Поэтому, если вы не отличаете Scrum от Kanban, а Agile от Waterfall — самое время задуматься о том, насколько продуктивно вы работаете.
Знать пункты этого чеклиста — необходимо, но недостаточно для того, чтобы стать специалистом в области Data Science. Поэтому мы рекомендуем курс «Профессия Data Scientist». В нем собраны все нужные знания о том, как выжить маленькому дата-сайентисту в мире больших данных.
Microsoft подтвердила, что уже некоторое время использует алгоритм в Bing
Компания OpenAI представила генеративную языковую модель GPT-4. Новая версия модели получила более высокие результаты в бенчмарках, причем не только на английском языке. Также алгоритм научился принимать не только текст, но и изображения (но генерирует он по-прежнему лишь текстовые ответы). Наконец, GPT-4 лучше определяет опасные и дискриминирующие запросы, например, просьбу написать инструкцию по сборке бомбы. OpenAI открыла ограниченный доступ к GPT-4 подписчикам ChatGPT Plus, а также открыла прием заявок на доступ к API, но в обоих случаях речь идет о версии модели без поддержки изображений. Описание GPT-4 опубликовано на сайте OpenAI, а также доступно в виде научной статьи.