Компания «Яндекс» представила новую версию поиcка на основе алгоритма «Королёв», который с помощью нейросетей сопоставляет смысл запроса и страниц сайтов. Презентация прошла в Московском планетарии.
Для обработки поисковых запросов в современном мире нередко используются технологии машинного обучения — дело в том, что значительную часть запросов (до 40 процентов) могут составлять уникальные запросы, которые также называют «длинным хвостом». Для оптимизации работы поисковика с такими запросами «Яндекс» еще в прошлом году запустил алгоритм «Палех», в основе которого лежит использование нейронных сетей. «Палех» стал лучше находить страницы, которые соответствали не только ключевым словам, но совпадали по смыслу заголовка страницы со смыслом запроса.
Новый алгоритм получил название «Королёв» в честь Сергея Павловича Королёва. По словам представителей «Яндекса», такое название выбрано из-за технологической значимости внедрения нового алгоритма для поисковика компании.
Ключевые отличия нового алгоритма «Королёв» заключаются в следующем. Во-первых, алгоритм теперь оценивает всю страницу целиком, а не только заголовок, как раньше. Во-вторых, условный «поисковый документ» теперь состоит не только из пары запрос-страница, но и включает в себя информацию о предыдущих поисковых запросах, которые ранее привели пользователей на эту страницу. В-третьих, «Палех» на финальном (самом точном) этапе ранжирования мог выдавать 150 документов по одному запросу, в то время как «Королёв» теперь выдает 200 тысяч.
Чтобы оценить совпадение по смыслу запроса и страницы требовалась большая обучающая выборка, которую специалисты «Яндекса» составили из обезличенных данных о поисковых запросах пользователей. Если пользователь после запроса и перехода на страницу из поиска проводил там какое-то время, а не закрывал ее сразу, то такая страница считалась подходящей по смыслу к запросу и пример попадал в обучающую выборку. В качестве негативных примеров для выборки использовались пары случайно сопоставленных текстов.
Благодаря такому подходу в обучении алгоритм научился понимать сложные запросы. Например, при запросе «ленивая кошка из монголии» поисковик понимает, что речь идет о мануле. Для оценки эффективности и улучшения нового поискового алгоритма компания использует уже не собственных специалистов-асессоров, а пользователей краудсорсинговой платформы Яндекс.Толока, о развитии которой представители «Яндекса» рассказали отдельно.
Также в рамках презентации «Яндекс» организовал телемост с Международной космической станцией, в рамках которого космонавты рассказали об экспериментах на орбите, пошутили, что «скорость интернета не космическая» и рассказали, что плакать в космосе не очень удобно - дело в том, что слезы соберутся большими пузырями в глазах.
Кроме поиска «Яндекс» работает над технологиями машинного обучения и в других сферах. Этим летом, например, компания представила открытый алгоритм машинного обучения с учителем CatBoost.