Яндекс сравнил поисковые запросы со словарем Даля

Карта, на которой показаны наиболее характерные для регионов слова из словаря Даля
Yandex
Аналитики из компании «Яндекс» сравнили слова из поисковых запросов пользователей за последний год со словами из словаря Даля. Это позволило проследить, как изменилась лексика русского языка с середины XIX века. Исследование показало, что почти полтора тома из четырех томов словаря Даля полностью вышли из употребления. Об этом рассказывается в блоге компании.
Около 150 лет назад был впервые полностью опубликован «Толковый словарь живого великорусского языка» Даля. Он представляет собой справочник повседневного языка, на котором говорили в России в середине XIX века. Словарь Даля, как и поисковые запросы пользователей, содержит разговорную лексику, поэтому аналитики «Яндекса» решили сравнить слова из словаря и запросов, чтобы понять, как изменился русский язык за полтора века.
Исследователи использовали электронную републикацию словаря на основе 2-го издания. Из всех слов (их примерно 200 тысяч) они выбрали те, которые были записаны целиком (например, возвратные глаголы, которые обозначаются только частицей -ся, не включались в анализ) и для которых дано толкование. Кроме того, аналитики собрали все запросы пользователей к Яндексу за последний год и разделили их на словоформы. Cреди них часто встречались «ненастоящие» слова, например с ошибками в написании (отзовы), бессмысленные последовательности букв (аааааааааааааау) или слова, введенные при неверной раскладке (нщгегиу — youtube). Чтобы сделать выборку «чище», аналитики сравнили слова из запросов со словами из Национального корпуса русского языка. Пересечений оказалось около 750 тысяч.
Примерно 38 процентов слов упоминались в запросах, но отсутствовали в корпусе русского языка. В пересечение поиска и корпуса попали 44 процентов слов. Слова из этих двух групп исследователи разделили на «уходящие» и «живые». Для этого аналитики выделили омонимы, которые могли попасть в корпус из-за того, что они пишутся одинаково, но имеют разное значение: например, у Даля встречаются такие популярные в интернете слова, как порно, двач, прикол, клубняк, но значат они совсем другое. Кроме того, в «Яндексе» посчитали, сколько слов люди искали с целью узнать, что они значат.
Кроме того, в «Яндексе» составили карту, которая показывает наиболее характерные слова из словаря Даля для каждого региона, — те, которые здесь ищут значительно чаще, чем в среднем по России. На карте можно посмотреть их старое значение и примеры поисковых запросов.
Недавно исследователи показали, что в литературе существуют 14-ти летние циклы популярности существительных. Такую закономерность ученые обнаружили в русском, английском, французском, немецком, итальянском и испанском языках. Кроме того, британские лингвисты пришли к выводу, что лексическая семантика имеет универсальную структуру, актуальную для всех языков и практически не зависящую от окружающей среды.
Кристина Уласович