Специалист по обработке данных, автор блога Degenerate State, опубликовал список слов, наиболее характерных для музыкальных произведений в стиле heavy metal. Ученый проанализировал свыше 200 тысяч текстов песен и выяснил, что самыми «металичными» можно назвать слова burn («сжигать», «ожог»), cries («крики», «вопить»), veins («вены»), eternity («вечность») и breathe («дышать»). Кроме того, автор указал на возможность сгруппировать группы по близости текстов. Исследование было опубликовано в блоге 20 апреля, но СМИ обратили на него внимание только сейчас.
На первом этапе автор блога выяснил частоту, с которой встречаются различные слова в выборке из 222 623 песен 7634 исполнителей. Как отмечает исследователь, исключив стоп-слова (артикли, предлоги, вспомогательные глаголы), среди часто встречающихся слов оказались time («время»), life («жизнь»). Близкими по частоте оказались и более выразительные для heavy metal слова blood («кровь»), pain («боль») и night («ночь»).
Исследователь попытался выделить наиболее «металичные» слова — характерные для heavy metal и менее характерные для повседневного использования. Для этого необходимо было ввести коэффициент «металичности». Автор сравнил частотное распределение слов в песнях и в Brown Corpus, собрании из 500 текстов (около миллиона слов), датированных 1960 годом. Для каждого слова вычислялась величина того, во сколько раз чаще (реже) оно встречается в лирике heavy metal, а сам коэффициент представлял собой логарифм этой величины.
Наименее «металичными» оказались слова particularly («особенно»), indicated («указали»), secretary («секретарь»), committee («комитет»), university («университет») и relatively («относительно»). Кроме того автор отметил, что больше всего сквернословия в песнях Five Finger Death Punch, а самые сложные для прочтения тексты у Pig Destroyer.
Следующим шагом в исследовании был анализ слов, типичных для конкретных heavy metal групп. Блогер выбрал в качестве примера произведения групп Motorhead, Machinehead и Diamondhead. Типичность слова для группы определялась следующим образом. Исследователь определял частоту использования данного слова в текстах всех трех групп и в текстах каждой из групп по отдельности. Затем к логарифму отношения этих величин добавлялась еще одна переменная, характерная для данной группы (основанная на частоте использования других слов, кроме выбранного). Так автор определил, что в произведениях Motorhead часто встречаются слова ain't, gonna и know, Machinehead — pain, inside и strength, Diamondhead — oh, yeah, baby.
С помощью новой метрики исследователь построил иерархическую кластеризацию групп. Для этого сначала автор предположил, что все группы независимы между собой. Затем, на основе частоты использования различных слов, ученый вычислил «расстояния» между группами. На следующем этапе группы, «расстояния» между которыми невелики, объединялись в кластер. Потом те же расчеты повторялись для кластеров — возник иерархический граф по типу филогенетического дерева.
Как отмечает автор, в некотором случае объединение в кластеры оказывается довольно разумным. Так, в одном кластере оказываются Оззи Осборн и Black Sabbath, Rainbow и Dio, ожидаемо группируется power metal. Полный интерактивный граф доступен по ссылке.
Анализ текстов позволяет делать интересные выводы как об авторах произведений, так и о языке. К примеру, коллектив ученых из Германии и Испании проанализировал скорость изменения английского языка и выяснил, что наибольший вклад в изменения вносят малоупотребимые слова. Использование машинного обучения и нейросетей при анализе текстов помогает компьютерам понимать эмоции в них и даже отвечать на вопросы по книгам. Так удалось определить, что в литературе существует шесть основных сюжетов с точки зрения изменения эмоциональной окраски.
Владимир Королёв
Американские археологи обнаружили почти целый детский череп древнейшей человекообразной обезьяны возрастом в 13 миллионов лет. Череп был найден в Кении в окрестностях озера Туркана еще три года назад, но статья в Nature с детальным описанием находки вышла только сейчас. Кратко об открытии сообщает Science.