Компания «Яндекс» представила новую версию поиcка на основе алгоритма «Королёв», который с помощью нейросетей сопоставляет смысл запроса и страниц сайтов. Презентация прошла в Московском планетарии.
Для обработки поисковых запросов в современном мире нередко используются технологии машинного обучения — дело в том, что значительную часть запросов (до 40 процентов) могут составлять уникальные запросы, которые также называют «длинным хвостом». Для оптимизации работы поисковика с такими запросами «Яндекс» еще в прошлом году запустил алгоритм «Палех», в основе которого лежит использование нейронных сетей. «Палех» стал лучше находить страницы, которые соответствали не только ключевым словам, но совпадали по смыслу заголовка страницы со смыслом запроса.
Новый алгоритм получил название «Королёв» в честь Сергея Павловича Королёва. По словам представителей «Яндекса», такое название выбрано из-за технологической значимости внедрения нового алгоритма для поисковика компании.
Ключевые отличия нового алгоритма «Королёв» заключаются в следующем. Во-первых, алгоритм теперь оценивает всю страницу целиком, а не только заголовок, как раньше. Во-вторых, условный «поисковый документ» теперь состоит не только из пары запрос-страница, но и включает в себя информацию о предыдущих поисковых запросах, которые ранее привели пользователей на эту страницу. В-третьих, «Палех» на финальном (самом точном) этапе ранжирования мог выдавать 150 документов по одному запросу, в то время как «Королёв» теперь выдает 200 тысяч.
Чтобы оценить совпадение по смыслу запроса и страницы требовалась большая обучающая выборка, которую специалисты «Яндекса» составили из обезличенных данных о поисковых запросах пользователей. Если пользователь после запроса и перехода на страницу из поиска проводил там какое-то время, а не закрывал ее сразу, то такая страница считалась подходящей по смыслу к запросу и пример попадал в обучающую выборку. В качестве негативных примеров для выборки использовались пары случайно сопоставленных текстов.
Благодаря такому подходу в обучении алгоритм научился понимать сложные запросы. Например, при запросе «ленивая кошка из монголии» поисковик понимает, что речь идет о мануле. Для оценки эффективности и улучшения нового поискового алгоритма компания использует уже не собственных специалистов-асессоров, а пользователей краудсорсинговой платформы Яндекс.Толока, о развитии которой представители «Яндекса» рассказали отдельно.
Также в рамках презентации «Яндекс» организовал телемост с Международной космической станцией, в рамках которого космонавты рассказали об экспериментах на орбите, пошутили, что «скорость интернета не космическая» и рассказали, что плакать в космосе не очень удобно - дело в том, что слезы соберутся большими пузырями в глазах.
Кроме поиска «Яндекс» работает над технологиями машинного обучения и в других сферах. Этим летом, например, компания представила открытый алгоритм машинного обучения с учителем CatBoost.
Доля ложноположительных оценок зависела от пола, этноса и типа жилья
Марта Маслей (Marta Maslej) из Университета Торонто с коллегами создала алгоритм машинного обучения для предсказания агрессии пациентов при оказании острой психиатрической помощи по структурированным электронным медицинским картам. Тестирование показало, что полученная модель проявляет пристрастность при прогнозировании. В работе использовали медкарты 17703 пациентов крупного канадского психиатрического стационара с января 2016 по май 2022 года (всего 42719 дня наблюдений, 1272 из них с проявлениями агрессии пациентов). Наиболее частой причиной госпитализации были психотические расстройства. 12398 пациентов и 29879 дней наблюдений использовали для обучения модели, 5305 пациентов и 12840 дней — для ее тестирования. Результаты опубликованы в журнале npj Mental Health Research.