Новые метрики помогут найти смысл в «hahaha» и «yaaay»

giphy.com
Американские лингвисты разработали метрики для количественного анализа удлиненных слов, употребляемых при общении в социальных сетях, — таких как «hahaha», «goooaaaallll» или «yaaay». Статистику употребления таких слов ученые количественно описали с помощью двух независимых показателей: растяжимости и сбалансированности слова. Этот подход можно использовать для анализа языка общения в различных приложениях и влияния ограничений и сервисов, пишут ученые в PLoS ONE.
Чтобы придать своему высказыванию эмоциональную окраску, в устной речи можно повысить или понизить голос, или добавить ему подходящую интонацию. В письменной литературной речи на помощь придут знаки препинания и словесное описание эмоций, но при общении в интернете работают немного другие законы. Кроме знаков препинания (которые не всегда работают так же, как при других способах общения), для выражения эмоций люди используют эмодзи или стикеры, но и в рамках вербальной коммуникации есть свои приемы: например, можно писать только прописные буквы или растянуть слово, повторив в нем одну или несколько букв.
При общении в социальных сетях употребление растянутых форм слова уже давно не редкость — в них могут повторяться как гласные, так и согласные, при этом отличается и эмоциональная окраска, которая придается реплике: повторение букв может демонстрировать радость, злость, иронию или сострадание. Поэтому лингвисты давно пытаются найти связь между длиной растянутых слов и их эмоциональной окраской и понять, насколько быстро теряется связь с изначальной имитацией растягивания слогов в разговорной речи. Ограничение всех этих исследований в том, что стандартные инструменты математической лингвистики (в частности методы обработки естественного языка) с большим трудом переносятся на язык общения в интернете, а специальных универсальных метрик для его анализа практически нет.
Американские лингвисты из Вермонтского университета под руководством Питера Шеридана Доддса (Peter Sheridan Dodds) предложили такие метрики для анализа удлиненных слов. Для этого ученые проанализировали случайную выборку англоязычных твитов с 2008 по 2016 годы. Всего ученые проанализировали примерно 100 миллиардов англоязычных твитов, в которых употреблялись растянутые формы слов.
Для каждого растянутого слова лингвисты выделили ядро — то есть начальную форму, в которой повторений символов нет. По словам авторов работы, это ядро может удлиняться несколькими способами: если повторяется каждый из символов (то есть «goal» превращается в «ggggoooaaaaaalllll»), повторяются только некоторые буквы слова (например гласные: «goal» → «goooooaaaaal»), повторяются элементы, состоящие из нескольких символов («ha» → «hahahhahaa») или смешанный тип, сочетающий несколько принципов.
По словам авторов работы, предложенный ими метод можно использовать для сравнения языка, используемого при общении на различных платформах, или для оценки влияния на язык функции автоисправления или ограничений на длину твитов.
Твиты — огромный массив данных, который можно использовать не только для исследования языка интернет-общения, но и, например, для анализа особенностей распространения информации. Так, в 2018 году американские ученые показали, что фальшивая информация и слухи распространяются в твиттере быстрее реальных новостей.
Александр Дубов