Практическое измерение

Что про реальное применение ML рассказали на конференции Яндекса

Машинное обучение значительно ускорило и упростило обработку больших объемов информации. С его помощью специалисты успешно решают различные прикладные задачи: от оптимизации поисковой выдачи и совершенствования рекомендаций до распознавания документов и постановки медицинских диагнозов. В этом материале вместе с Яндексом коротко рассказываем о докладах с конференции Practical ML Conf, которые посвящены трем стремительно развивающимся направлениям искусственного интеллекта.

Большие языковые модели

Большие языковые модели (Large language models, LLM) позволяют генерировать текст, который имитирует естественный по стилю и содержанию. К ним относятся, например, GPT от Open AI, Claude от Antropic или LLama от Meta*. Собственные модели разрабатываются и в России — например, YandexGPT от Яндекса или T-lite от Т-Банка. LLM обрабатывают запросы, извлекая из больших массивов информации актуальные данные, и тем самым освобождают человека от необходимости сортировать и анализировать информацию.

Большие языковые модели могут кратко изложить содержание юридического документа или написать за вас письмо, но этим их возможности не ограничиваются. Благодаря LLM общение с чат-ботами и виртуальными ассистентами становится более естественным и эффективным не только в письменном, но и в аудиоформате. Поэтому в службах поддержки большие языковые модели могут взять на себя обработку обращений пользователей. Кроме того, LLM активно внедряют в поисковые системы. Например, недавно Яндекс представил новую версию Поиска с Нейро, в которую внедрил LLM.

Нейро — это синтез поисковых технологий, которыми мы занимались долгое время, и генеративных, над которыми работаем относительно недавно. Вы можете обратиться к нему с текстовым запросом или запросом с текстом и картинкой. Он ответит коротким текстом, не выдумывая ответ, а подтверждая его источниками, которые найдет в поиске.

Екатерина Серажим, руководитель управления машинного интеллекта и исследований, Яндекс

От традиционных поисковых систем Нейро отличается подходом к обработке запросов. Сперва текст вопроса проходит предварительную обработку. На этом этапе выполняется и , удаление стоп-слов и некоторые другие операции, которые обеспечивают необходимое качество входных данных и результатов на выходе. Получив запрос на естественном языке, Нейро преобразует запрос в формат, который понимает поисковая система, — числовые векторы. Каждый из них содержит информацию о семантических характеристиках слов. Эти числовые представления являются основой для всех дальнейших вычислений.

Повсеместное распространение больших языковых моделей стало возможно во многом благодаря появлению трансформеров — нейросетевым архитектурам, которые параллельно обрабатывают последовательности слов. Одна из их важнейших особенностей — механизм внимания: словам или фразам в тексте придается больший или меньший вес, а нейросеть благодаря этому «обращает внимание» на более значимые фрагменты и улавливает нюансы.

Трансформер состоит из двух частей:

  • энкодер преобразует текст в набор скрытых представлений (векторов). Каждый энкодер состоит из нескольких слоев, обрабатывающих данные с помощью слоя внимания и обычного нейронного слоя;
  • декодер принимает векторы и генерирует последовательность выходного текста, основываясь на ранее сгенерированных словах (токенах) и контекстуальном представлении входного текста, которое получил от энкодера. В отличие от энкодеров, декодеры также применяют механизм самовнимания. Это позволяет им учитывать контекст уже сгенерированного текста.

Мы заметили, что биархитектура (энкодер + декодер) показывает лучшее качество, особенно когда речь идет о достоверности информации. Нейросеть не просто генерирует текст, а формирует ответ, используя данные из инфоконтекста, она не выдумывает ничего из головы.

Екатерина Серажим, руководитель управления машинного интеллекта и исследований, Яндекс

Для обучения генеративной модели в основе Нейро потребовалось собрать не менее 10 000 написанных ответов, что заняло 400 часов чистого времени. При этом редакторы, которые работали над текстами для датасета, не писали ответы с нуля, а модифицировали заранее составленные примеры. После результаты их работы проходили рецензирование — такой подход обеспечил однородность и качество материалов для обучения LLM.

Подробнее — в выступлении Екатерины Серажим на Practical ML 2024.

Рекомендательные системы

Каждый день человечество производит столько контента, сколько мы не сможем употребить за всю жизнь. Ориентироваться в море информации непросто, но было бы куда сложнее без рекомендательных систем. Они анализируют данные о нашем поведении и предпочтениях, чтобы помочь найти то, что действительно нужно или важно.

Типы рекомендательных систем

Как правило, современные рекомендательные системы работают в связке с машинным обучением и нейросетевыми алгоритмами. На конференции Yandex PML Петр Чуйков, руководитель команды Data Science в сервисе HeadHunter, рассказал, с какими главными проблемами сталкиваются разработчики рекомендательных систем и как эти проблемы решали в HeadHunter, чтобы сделать максимально эффективным взаимодействие пользователя с сайтом.

Наша модель рекомендации навыков должна упростить процесс заполнения резюме, что в конечном итоге позволит увеличить . Такая модель должна решать несколько бизнес-задач: рост качества навыков в базе, рост метрик эффективности и масштаба. Все три параметра будут важны для оценки успешности нашей модели.

Петр Чуйков, руководитель команды Data Science, HeadHunter

Одной из главных трудностей, по словам Петра Чуйкова, является несогласованность между метриками машинного обучения и бизнес-метриками — часто они не коррелируют друг с другом. Для решения проблемы оценки связи между ML-метриками и бизнес-метриками в HeadHunter используют фреймворк для оценки качества прокси-метрик. Они применяются, когда целевую метрику невозможно измерить напрямую. Это позволяет более объективно оценить связь между ML- и бизнес-метриками.

Еще одна проблема, с которой сталкиваются разработчики рекомендательных систем, — это так называемый пузырь рекомендаций. Например, система может предлагать пользователю ограниченный набор контента, сфокусированный на одной области или типе предпочтений. Это называется узким фокусом рекомендаций. Для решения этой проблемы в HeadHunter используется таксономия, построенная на основе разметки профессий и навыков. Качественная разметка стала основой для диверсификации рекомендаций, а значит, и для решения проблемы узкого фокуса.

Наша рекомендательная система не только предлагает релевантные навыки, но и учитывает их принадлежность к различным категориям внутри одной профессии. Это позволяет смешивать навыки из различных категорий и увеличивать разнообразие рекомендаций. Благодаря этому пользователи получают максимально полное и разнообразное представление о возможных путях развития в рамках выбранной профессии, принимая во внимание все ее аспекты.

Петр Чуйков, руководитель команды Data Science, HeadHunter

ИИ в обработке медицинских снимков

Искусственный интеллект попытались использовать в медицинских целях еще в 1970-х. К сегодняшнему дню он прочно вошел в клиническую практику и врачи регулярно используют ИИ для самых разных задач, будь то ведение документации или диагностика заболеваний. В частности, в сфере диагностики по медицинским изображениям искусственный интеллект (ИИ) позволяет избежать врачебных ошибок, ускоряет постановку диагноза и снижает нагрузку на врача.

Исследование, проведенное среди рентгенологов в рамках большого Эксперимента по использованию инновационных технологий в области компьютерного зрения для анализа медицинских изображений и дальнейшего применения в системе здравоохранения столицы, показало, что применение системы на основе ИИ для анализа компьютерной томографии (КТ) легких повышает чувствительность детекции 12 заболеваний на 60 процентов и независимо от врача работает в 3 раза быстрее.

В рамках того же эксперимента специалисты Центра диагностики и телемедицины Москвы агрегируют и валидируют ИИ-сервисы на миллионах снимков. Благодаря этому постепенно системы с использованием ИИ появляются во всех регионах России, а результаты исследований, которые покрывает полис обязательного медицинского страхования (ОМС), все чаще обрабатываются с помощью ИИ. Эксперимент распространяется даже на отдаленные регионы страны, например Чукотку. При этом воспользоваться ИИ-инструментами бесплатно может любая государственная поликлиника.

Все это стало возможно благодаря развитию компьютерного зрения (Computer Vision, CV). Системы на основе этой технологии применяются в медицинских учреждениях для диагностики различных заболеваний по рентгенограммам, УЗИ, МРТ и КТ-сканированиям. В основе CV лежит глубокое обучение — более сложный уровень машинного обучения, основанный на многослойных нейронных сетях, которые самостоятельно извлекают признаки и идентифицируют объекты на изображениях.

Прежде чем работать с реальными задачами, модели глубокого обучения нужно пройти подготовку на датасете. Трудность заключается в том, что аннотирование (разметка) медицинских изображений требует глубоких медицинских знаний. И поскольку некоторые снимки настолько сложны, что только опытный врач способен интерпретировать их правильно, специалисты по компьютерному зрению могут столкнуться с недостатком размеченных данных при обучении.

Однако недавно разметка медицинских снимков стала доступнее. В 2023 году компания Meta* выпустила SAM (Segment Anything Model) — универсальную модель, разработанную для сегментации объектов на любых изображениях, и по точности не уступающую . Позже в том же году появилась версия, натренированная на датасете из более 1 миллиона пар медицинских изображений и предназначенная, например, для сегментации органов и тканей, — medSAM.

Раньше сегментировать с автоматическими разметчиками медицинские снимки можно было только за большие деньги, а разметка данных была сложным и трудозатратным процессом. Полгода назад создатели MedSAM выпустили плагин 3D Slicer, который позволяет самостоятельно размечать данные без специальной подготовки. Сейчас, если вы рентгенолог, если вы просто энтузиаст, можно его скачать, чтобы разметить свой снимок КТ и любой орган.

Екатерина Кондратьева, руководитель команды по компьютерному зрению LiteBc Ltd.

SAM и medSAM относятся к категории базисных моделей (foundation models). И несмотря на то, что появились недавно, хорошо зарекомендовали себя в задачах обработки медицинских снимков. Однако уже в обозримом будущем конкуренцию им наверняка составят LLM и . Они уже используются в медицине для распознавания голосовых записей врачей и автоматического заполнения электронной карты пациента, но пока не подходят для анализа медицинских снимков.

Подробнее — в выступлении Екатерины Кондратьевой на Practical ML 2024.

*Деятельность компании Meta запрещена в России.

Реклама: ООО «Яндекс», ИНН 7736207543, erid: LjN8KBSCn

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.
Ни минуты простоя

Как устроены дата-центры и почему им стоит доверить сохранность ИТ-инфраструктуры на примере ЦОДа «Санкт-Петербург»