Яндекс сравнил поисковые запросы со словарем Даля

Аналитики из компании «Яндекс» сравнили слова из поисковых запросов пользователей за последний год со словами из словаря Даля. Это позволило проследить, как изменилась лексика русского языка с середины XIX века. Исследование показало, что почти полтора тома из четырех томов словаря Даля полностью вышли из употребления. Об этом рассказывается в блоге компании.

Около 150 лет назад был впервые полностью опубликован «Толковый словарь живого великорусского языка» Даля. Он представляет собой справочник повседневного языка, на котором говорили в России в середине XIX века. Словарь Даля, как и поисковые запросы пользователей, содержит разговорную лексику, поэтому аналитики «Яндекса» решили сравнить слова из словаря и запросов, чтобы понять, как изменился русский язык за полтора века.

Исследователи использовали электронную републикацию словаря на основе 2-го издания. Из всех слов (их примерно 200 тысяч) они выбрали те, которые были записаны целиком (например, возвратные глаголы, которые обозначаются только частицей -ся, не включались в анализ) и для которых дано толкование. Кроме того, аналитики собрали все запросы пользователей к Яндексу за последний год и разделили их на словоформы. Cреди них часто встречались «ненастоящие» слова, например с ошибками в написании (отзовы), бессмысленные последовательности букв (аааааааааааааау) или слова, введенные при неверной раскладке (нщгегиу — youtube). Чтобы сделать выборку «чище», аналитики сравнили слова из запросов со словами из Национального корпуса русского языка. Пересечений оказалось около 750 тысяч.

Анализ показал, что почти пятая часть слов из словаря Даля (18 процентов) за год ни разу не встретилась в поисковых запросах к Яндексу — по мнению аналитиков, входящие в эту группу слова можно считать полностью вышедшими из употребления. Доля глаголов среди них заметно больше, чем в словаре в целом, а доля существительных — меньше. Таким образом, исследователи сделали вывод, что глаголы из словаря Даля устаревают быстрее, чем существительные. Около 85 процентов «ушедших» глаголов содержат приставки — самая популярная, по-, встречается в каждом пятом случае: понасудачить, попринаряжать, повзопреть. Почти треть существительных оканчивается на -ье или -ие и означает действие по соответствующему им глаголу: вывороченье, избоданье, ловничанье.

Примерно 38 процентов слов упоминались в запросах, но отсутствовали в корпусе русского языка. В пересечение поиска и корпуса попали 44 процентов слов. Слова из этих двух групп исследователи разделили на «уходящие» и «живые». Для этого аналитики выделили омонимы, которые могли попасть в корпус из-за того, что они пишутся одинаково, но имеют разное значение: например, у Даля встречаются такие популярные в интернете слова, как порно, двач, прикол, клубняк, но значат они совсем другое. Кроме того, в «Яндексе» посчитали, сколько слов люди искали с целью узнать, что они значат.

«Порно» по Далю — крепко, надёжно, дюже, прочно, споро; «двач» — предмет, состоящий как бы из срослых двойней, близнят; «прикол» — действие по глаголу «прикалывать»; «клубняк» — вообще все клубоватое, образующее клубки.

Омонимами оказалась почти треть изученных слов. Из них почти 60 процентов встретились в поисковых запросах более тысячи раз в течение года, но при этом отсутствовали в текстах из корпуса. Около 8,5 процента слов из словаря Даля заинтересовали пользователей в первую очередь в контексте поиска значения. Из них самые популярные: инсинуация, демагогия, утрировать, моногамия и импонировать.

Анализ показал, что в наше время продолжают использоваться 60 процентов слов из словаря, то есть примерно 2,5 тома. Около половины из них — живые слова: к ним постоянно прибегают при поиске. Вторая половина — «уходящие»; они либо появляются в запросах крайне редко, либо люди ищут их в основном для того, чтобы узнать значение: [хлудец это], [что такое прокоробить]. Оставшиеся слова, по мнению «Яндекса», можно признать ушедшими. Их почти не употребляют: пользователи в течение года ничего не искали с их помощью и даже не спрашивали, что они означают. В эту группу также попали некоторые слова, которые оказались в запросах и в корпусе только из-за омонимии или по ошибке.

Кроме того, в «Яндексе» составили карту, которая показывает наиболее характерные слова из словаря Даля для каждого региона, — те, которые здесь ищут значительно чаще, чем в среднем по России. На карте можно посмотреть их старое значение и примеры поисковых запросов.

Недавно исследователи показали, что в литературе существуют 14-ти летние циклы популярности существительных. Такую закономерность ученые обнаружили в русском, английском, французском, немецком, итальянском и испанском языках. Кроме того, британские лингвисты пришли к выводу, что лексическая семантика имеет универсальную структуру, актуальную для всех языков и практически не зависящую от окружающей среды.

Кристина Уласович

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.
Метаболит кишечной палочки обеспечил животным здоровую старость