Математики изучили, как в течение последней тысячи лет на картинах менялись детализация и упорядоченность изображений. С помощью такого метода ученым удалось формализовать основные переходы, которые произошли в истории живописи, а также классифицировать основные направления. В будущем этот подход поможет количественно изучать историю изобразительного искусства, а также предсказывать основные тенденции его дальнейшего развития, пишут ученые в Proceedings of the National Academy of Sciences.
Часто математические модели, которые изначально создавались для описания физических процессов, находят потом свое применение в совершенно других областях: например спорте, искусстве или социологии. Так, с помощью использования моделей из термодинамики или физики твердого тела ученым удалось объяснить стремление людей собираться в сложно организованные группы и описать структуру колоний, которые создают пингвины во время высиживания яиц.
Кроме того, для формального описания тех или иных явлений в искусстве или спорте нередко разрабатываются и новые математические модели, с помощью которых можно количественно изучить какие-то на первый взгляд исключительно качественные процессы. Например, в 1933 году американский математик Бирхофф предложил для описания картин использовать два параметра, которые описывают структуру изображений, — сложность (complexity) и энтропию (entropy). Первая из этих величин фактически характеризует количество деталей на картине, а вторая — упорядоченность их расположения.
Однако на практике этот подход начали использовать сравнительно недавно, когда стали позволять технические возможности. Сейчас подобные методы, основанные на изучение фрактальной структуры в картинах, применяют, например, для определения авторства картин или для изучения эволюции манеры отдельных художников в течение жизни. На этот раз ученые из Бразилии, Словении и Австрии под руководством Арольдо Рибейро (Haroldo V. Ribeiro) из Государственного университета Маринги предложили использовать этот же подход для исследования истории живописи.
Для этого ученые воспользовались базой данных WikiArt, в которой собрано около 140 тысяч работ, относящихся к разным стилям и написанных в течение примерно тысячи лет более чем 2 тысячами разных художников. Изображения всех этих картин приводились к матричному представлению в шкале серого цвета, из которого затем для каждой из них рассчитывались два параметра — сложность и энтропия. После этого ученые смотрели, как меняются значения этих параметров с течением времени и в зависимости от стиля.
Оказалось, что предложенный подход позволяет отчетливо выделить два перехода в истории живописи: от классического периода к новому искусству, а затем от нового искусства — к новейшему. К первой группе относятся представители средневековой живописи, эпохи Возрождения, неоклассицизма и романтизма. Второй группа направлений — это импрессионизм и авангардные жанры первой половины XX века (такие как кубизм, экспрессионизм и сюрреализм). Третья группа — искусство постмодерна, которое начинается с развития поп-арта в 1960-е годы.
Ученые показали, что охарактеризовать достаточно очевидные переходы между этими группами можно не только в качественных терминах искусствоведения, но и в рамках формальной модели, которая описывается всего двумя параметрами. Все классические стили легли в диапазон промежуточных значений сложности и энтропии. Переход к новому искусству привел к увеличению хаотичности изображения и уменьшению детализации, а переход к искусству второй половины XX века — наоборот, к резкому увеличению сложности и упорядоченности изображения.
Кроме того, с помощью предложенного подхода ученым удалось выделить и характеристики отдельных стилей. Оказалось, что 92 различные направления живописи, для которых в базе данных было не менее ста изображений, можно кластеризовать и выделить среди них 14 основных групп. Авторы работы отмечают, что эти данные им также удалось использовать для точного определения стиля той или иной картины с помощью методов машинного обучения.
Ученые отмечают, что предложенная ими классификация хорошо описывает тенденции развития живописи и в будущем может использоваться в качестве эффективного метода для классификации произведений искусства. Тем не менее предложенный метод основан только на анализе локальной структуры изображений, поэтому некоторые аспекты, связанные с композицией картин, остаются при таком подходе неучетнными. По мнению авторов работы, в будущем с помощью такого подхода можно не только исследовать уже написанные картины, но и предсказывать появление новых стилей — по крайней мере с точки зрения локальной структуры изображений.
Исследование изображений с помощью анализа их структуры используются не только при изучении произведений искусства. Например, недавно ученые применили фрактальный анализ к пятнам Роршаха. В результате исследователям удалось найти прямую взаимосвязь между фрактальной размерностью изображения и количеством ассоциаций, которые оно вызывает.
Александр Дубов
Она обучалась на библейских текстах
Компания Meta* выпустила языковую модель, которая понимает устную речь. Она распознает более 4000 языков и может разговаривать на 1107 из них. Meta считает, что модель поможет сохранить языковое разнообразие в мире. Статья опубликована на сайте компании, код модели доступен на гитхабе. Обычно модели распознавания речи обучаются на больших объемах данных: им требуются тысячи часов аудиозаписей. При этом каждой записи должен соответствовать текст, чтобы модель научилась сопоставлять звучащую и письменную речь. Такие большие датасеты можно собрать только для популярных языков, на которых говорит много людей. Всего в мире существует около 7000 языков, но современные системы распознавания речи поддерживают не более 200 из них. Команда инженеров из компании Meta под руководством Майкла Аули (Michael Auli) обучила большую модель для распознавания речи Massively Multilingual Speech (MMS), которая может общаться на 1107 языках и распознавать 4017. Нейросеть обучалась на религиозных записях. Исследователи собрали два датасета: один с аудиозаписями и соответствующими текстами и второй только с аудиозаписями. Первый датасет состоит из 55 тысяч аудиозаписей, на которых люди зачитывают вслух тексты из Нового Завета. Всего в Новом Завете 27 книг и 260 глав. Данные собирали из трех источников: Faith Comes By Hearing, GoTo.Bible и YouVersion. Во второй датасет попали 7,7 тысяч часов аудиозаписей с сайта Global Recordings Network: это религиозные песни, записи отрывков из Библии и других религиозных текстов. Для обучения использовали нейросеть архитектуры wav2vec 2.0. Сначала ее предобучили, чтобы она могла превращать аудиозаписи в векторные представления. Дело в том, что нейросети работают не с сырыми записями, а с векторами — наборами чисел. Поэтому нужен механизм для превращения аудиозаписей в вектора из чисел, причем похожие аудиозаписи должны быть представлены геометрически близкими векторами. Для получения векторных представлений можно использовать любые аудиозаписи, главное чтобы их было много. Поэтому ученые объединили второй религиозный датасет с другими большими аудиодатасетами, в том числе Multilingual Librispech, CommonVoice, VoxLingua-107, BABEL и VoxPopuli. Всего в выборку попала 491 тысяча часов аудиозаписей без текстов. После предобучения получилась готовая модель MMS. Затем авторы натренировали MMS превращать речь в текст, дообучив ее на первом религиозном датасете с аудиозаписями и текстами. В разных частях света распространены разные типы языков, поэтому авторы определили точность модели для языков с разных континентов. Она научилась распознавать речь на 1107 языках со средней точностью по континенту 97 процентов. Авторы также проверили качество распознавания речи на нерелигиозных аудиозаписях. MMS сравнили с лучшими моделями для распознавания речи Whisper от OpenAI и USM от Google на датасете FLEURS. MMS ошибалась в два раза меньше, чем Whisper и на 6 процентов меньше, чем USM. В задаче определения языка MMS оценивали на датасетах FLEURS, VoxLingua-107, BABEL и VoxPopuli, в которые входит до 107 языков. К предобученной модели приделали простой линейный слой-классификатор, который натренировали определять язык на аудиозаписи. Модель показала такое же качество, как и конкурентные модели. При увеличении числа распознаваемых языков до 4000 с помощью дообучения на религиозных датасетах, качество модели падает совсем немного, с 94 до 93 и с 84 до 80 процентов на разных датасетах. Также авторы оценили, насколько хорошо MMS генерирует речь на 1107 языках, которые она умеет превращать в текст. Для этого модель обучили на архитектуре VITS — на момент создания MMS эта нейросеть показывала лучшие результаты по генерации звучащей речи на трех языках: английском, португальском и французском. Авторы масштабировали ее до 1107 языков, но в отличие от других задач, обучали нейросеть для каждого языка по отдельности. Качество модели оценили на языках по континентам. Средняя точность генерации речи по континенту составила 98 процентов. Лучше всего модель говорит на европейских и южноамериканских языках, хуже всего — на африканских. Наконец, ученые проверили, не повлиял ли характер религиозных датасетов на качество модели. Для этого нейросеть обучили отдельно на религиозных текстах и на повседневной речи из датасета FLEURS. Затем каждая модель должна была преобразовать звучащую повседневную речь из датасета FLEURS в текст. Хотя в обучающей выборке MMS было много религиозных терминов, в текстах она использовала их ненамного (менее чем на процент) чаще, чем модель, обучения на нерелигиозном датасете. На графике показана частота религиозных терминов в обучающей выборке и при превращении речи в текст. Разница между двумя моделями почти не заметна, хотя и немного отличается для некоторых языков. Качество модели оценивали в трех экспериментах, но задач по пониманию и генерации звучащей речи существует гораздо больше. В работе не указано, насколько хорошо большая мультиязычная модель проявила бы себя в более сложных задачах, таких как перевод, определение темы высказывания или поиск ключевых слов. Хотя MMS работает с большим числом языков, чем конкурентные модели, она пока не понимает все 7000 языков мира. Ученые планируют добавить в модель более редкие языки с малым количеством носителей. Они считают, что это может помочь спасти исчезающие языки от вымирания. Кроме того, в данных недостаточно представлены диалекты разных языков. В даркнете тоже говорят на своем языке, вернее на сленге. Обычные языковые модели плохо его понимают. Южнокорейские ученые обучили нейросеть DarkBERT читать тексты из даркнета и выполнять по ним задачи, связанные с кибербезопасностью. *Деятельность компании Meta запрещена в России.