Ученые Бристольcкого и Кардифского университетов применили методы больших данных к оцифрованным текстам английской периодики за 150 лет и отследили культурные и социальные тенденции, включая женскую дискриминацию, распространение технологий и политические предпочтения на основе текстового анализа. В частности, результаты показали рост популярности артистов и певцов и спад интереса к политикам и общественным деятелям. Описание результатов опубликовано в журнале Proceedings of the National Academy of Sciences.
Работа развивает область т.н. культуромики — метода гуманитарного исследования культурных тенденций с помощью количественного анализа оцифрованного текста. По сути, метод выступает альтернативой классическому подходу изучения исторических документов, обеспечивая ученых новыми средствами для выявления культурных тенденций в больших объемах текстовых данных. Культуромика как термин впервые была использована в статье «Количественный анализ культуры. Использование оцифрованных книг», соавторами которой являются исследователи Гарвардского университета Жан-Батист-Мишель и Эрез Либерман Эйден. Для своего новаторского исследования они использовали корпус Google Books: на его основе создан проект Google Ngram Viewer, который позволяет отслеживать динамику частоты употребления отдельных слов и словосочетаний c течением времени в литературе.
В новой работе ученые решили обратиться к периодическим изданиям: в основу исследования легли тексты английской периодики, вышедшей с 1800 по 1950 годы. Сбор, анализ и оцифровка газет и других периодических изданий осуществляется в рамках масштабного проекта британской библиотеки. Работа по оцифровке уже заняла около десяти лет, и сейчас в доступе по подписке лежат около двенадцати миллионов страниц 535 наименований газет, вышедших с 1800 до 1959 годы; всего британская библиотека хранит порядка 40 миллионов газетных страниц. Для своего исследования ученые отобрали 120 наименований газет (около 14 процентов оцифрованных текстов), представляющих всю географию Великобритании.
Тексты перевели в формат JSON и провели анализ частоты употребления слов и словосочетаний (n-грамм) длиной до трех слов. Исследование не ограничилось подсчетом частоты использования слов: ученые провели семантический анализ географических наименований, организаций и персоналий, которые в текстах могут быть представлены разными словосочетаниями.
Одной из первоначальных целей исследования стало сравнение результатов анализа книг корпуса Google Books и периодики. Как и ожидалось, периодика оказалась гораздо более точной в отражении исторических событий, таких как коронации, конклавы, эпидемии и войны — пики частоты использования соответствующих слов и словосочетаний точно указывают на даты и географию событий, в то время как литература дает более смазанную во времени картину.
Затем ученые рассмотрели измерения более общих и менее устоявшихся тенденций в следующих сферах: ценности и убеждения, политика, технологии, экономика, социальные изменения и популярная культура в Великобритании.
В отношении ценностей и убеждений авторы проверили гипотезу Фредерика Гиббса и Дэниела Коэна о постепенном снижении влияния викторианских ценностей. Оказалось, что такие понятия, как «мужество», «долг», «выносливость» действительно употребляются все реже с течением времени, за исключением всплесков во время военных действий. Зато такие понятия как «бережливость» и «терпение» не проявили тенденцию к снижению.
Ученые также исследовали вопрос национальной самоидентификации в Великобритании и выявили четкий тренд смены «английскости» (Englishness) на «британскость» (Britishness) в начале XX века. Особенно яркими всплесками термин «британский» отличается в время мировых войн, в то время как употребление слова «английский» снижается и оказывается даже ниже частоты использования слова «шотландский».
Английская периодика четко отражает технологические и экономические прорывы и изменения: так, на границе XIX и XX веков пар сменяется на электричество, поезда заменяют конный транспорт, растет индустрия коммуникаций, а термин «политическая экономика» сменяется на просто «экономику», отражая выделение экономики в отдельный институт со своими правилами и ритмами, независимыми от законов политики.
В общественной жизни исследования показывают периоды движения суфражисток, а также периоды социальных волнений, связанных с отделением колоний и анархического движения, совпавшего с ростом большевизма и фашизма в восточной и центральной Европе. В исследуемый период заметен большой гендерный разрыв — слова «он», «мужчина» гораздо более частотны по сравнению с «она» и «женщина» — интересно, что в современной периодике такого разрыва не наблюдается (пропорции сравнимы). Также отмечается рост популярной культуры: популярность политиков и общественных деятелей уступает популярности актеров и певцов.
Семантический анализ текстов, связывающий имена и персоналии в периодике с данными Wikipedia и DBPedia, позволил выявить тренды популярности знаменитостей в зависимости от их профессий — в частности, выяснилось, что слава ученых более долговечна, чем у политиков, и снижается медленнее после смерти.
Ученые отмечают, что основная цель исследования состояла в демонстрации подхода к поиску исторических тенденций и изменений, который основан на анализе больших корпусов текстовых данных. Такой подход является дополнением к традиционному изучению исторических текстов.
При таком подходе, историки могут исследовать сложные отношения между общественным дискурсом и жизненным опытом путем выявления тенденций в области статистических сигналов, извлеченных из крупномасштабных текстовых корпусов. Метод предназначен для использования в сочетании с традиционными подходами, которые необходимы как для проектирования исследования, так и для интерпретации результатов. Тем не менее, он предоставляет информацию, которую было бы очень трудно найти, используя только классическое изучение текстов.
Надежда Бессонова
Элементный состав современной Земли сформировался, скорее всего, в результате аккреции из окружающего космического пространства газа, который образовался при столкновении двух астероидов. Сразу две статьи, подтверждающие такую гипотезу, вышли в новом номере Nature. Одна из научных групп сделала такой вывод, исследовав изотопный состава магния, а другая предложила подобный механизм на основе содержания на Земле летучих элементов.