Ученые из Венесуэлы разделили музыкальные произведения по стилям, проанализировав содержимое соответствующих MIDI-файлов так, как если бы они были осмысленным текстом. Используя понятие информационной энтропии и методы лингвистического анализа, в работе удалось разделить несколько сотен композиций по автору и времени написания. Препринт исследования выложен на arXiv.org.
Авторы рассматривали цифровую запись каждого из 453 исследуемых произведений в формате MIDI, который представляет собой линейную последовательность чисел. Она кодирует общие характеристики произведения (темп, тональность), а также какие ноты должны звучать в каждый момент времени, и каким тембром и громкостью они должны обладать.
Рассматривая каждый MIDI-файл как текст, авторы подбирали к нему свой «язык». В качестве «слов» выступали различные комбинации из нескольких чисел. «Словарь» составляли так, чтобы у получившегося «языка» была минимально возможная информационная энтропия — мера неопределенности языка. Ее можно рассчитать следующим образом: для каждого из D «слов» рассчитать частоту p, с которой оно встречается в «тексте», а затем просуммировать произведения p logD(p).
Чтобы повысить точность классификации, ученые также рассчитывали энтропию более высокого порядка. Для этого в случае каждого MIDI-файла строили распределение частоты для данного «слова» от его ранга (порядкового номера в отсортированном списке), а затем вычитали из полученной зависимости
, которая описывает подобные распределения в реальных языках. Для разностей вновь рассчитывали энтропию и также использовали ее в классификации.
Оказалось, что если построить трехмерную диаграмму в координатах (энтропия 1-го порядка, 2-го порядка, относительный размер «словаря»), то на ней все музыкальные произведения группируются в кластеры, соответствующие какому-либо жанру или автору. Кроме того, ученые описали некоторые временные тренды. Например, разброс энтропии второго порядка для произведений XIX-XX веков в несколько раз превышает таковой для музыки XIII-XV столетий, что, вероятно, говорит о возрастающем разнообразии в музыке.
Авторы замечают, что в работе не было использовано никакой информации о структуре формата MIDI или значении отдельных текстовых блоков. Из файлов даже не удаляли текстовые комментарии. Чаще задачу о классификации музыкальных произведений решают при помощи искусственных нейронных сетей. В этом случае программа автоматически собирает набор «признаков» данной композиции и группирует треки с похожими распределениями этих признаков. Используя такой подход, например,
описать наиболее значимые «революции» в музыке XX века.