Ученые из Венесуэлы разделили музыкальные произведения по стилям, проанализировав содержимое соответствующих MIDI-файлов так, как если бы они были осмысленным текстом. Используя понятие информационной энтропии и методы лингвистического анализа, в работе удалось разделить несколько сотен композиций по автору и времени написания. Препринт исследования выложен на arXiv.org.
Авторы рассматривали цифровую запись каждого из 453 исследуемых произведений в формате MIDI, который представляет собой линейную последовательность чисел. Она кодирует общие характеристики произведения (темп, тональность), а также какие ноты должны звучать в каждый момент времени, и каким тембром и громкостью они должны обладать.
Рассматривая каждый MIDI-файл как текст, авторы подбирали к нему свой «язык». В качестве «слов» выступали различные комбинации из нескольких чисел. «Словарь» составляли так, чтобы у получившегося «языка» была минимально возможная информационная энтропия — мера неопределенности языка. Ее можно рассчитать следующим образом: для каждого из D «слов» рассчитать частоту p, с которой оно встречается в «тексте», а затем просуммировать произведения p logD(p).
Чтобы повысить точность классификации, ученые также рассчитывали энтропию более высокого порядка. Для этого в случае каждого MIDI-файла строили распределение частоты для данного «слова» от его ранга (порядкового номера в отсортированном списке), а затем вычитали из полученной зависимости
, которая описывает подобные распределения в реальных языках. Для разностей вновь рассчитывали энтропию и также использовали ее в классификации.
Оказалось, что если построить трехмерную диаграмму в координатах (энтропия 1-го порядка, 2-го порядка, относительный размер «словаря»), то на ней все музыкальные произведения группируются в кластеры, соответствующие какому-либо жанру или автору. Кроме того, ученые описали некоторые временные тренды. Например, разброс энтропии второго порядка для произведений XIX-XX веков в несколько раз превышает таковой для музыки XIII-XV столетий, что, вероятно, говорит о возрастающем разнообразии в музыке.
Авторы замечают, что в работе не было использовано никакой информации о структуре формата MIDI или значении отдельных текстовых блоков. Из файлов даже не удаляли текстовые комментарии. Чаще задачу о классификации музыкальных произведений решают при помощи искусственных нейронных сетей. В этом случае программа автоматически собирает набор «признаков» данной композиции и группирует треки с похожими распределениями этих признаков. Используя такой подход, например,
описать наиболее значимые «революции» в музыке XX века.
Основываясь на уточненных спектроскопических данных, американские астрофизики составили первые количественные карты содержания воды на поверхности Луны. Полученные данные показали, что основным источником воды на поверхности Луны является солнечный ветер. А составленные карты могут потом быть использованы для уточнения теоретических моделей поведения летучих веществ на безвоздушных космических объектах. Работа опубликована в Science Advances.