Доцент Школы лингвистики НИУ ВШЭ Борис Орехов — о целях и задачах Digital Humanities
В последние годы все больше исследователей, занимающихся традиционными гуманитарными науками, начинают смотреть на предмет своих трудов по-другому, применяя к нему методы анализа данных. Эта сравнительная новая область называется «цифровые гуманитарные науки», или Digital Humanities. О том, на какие вопросы позволяет ответить новый подход к традиционным знаниям, а также о том, меняет ли он взгляд на гуманитарные науки в целом, мы побеседовали с доцентом Школы лингвистики и сотрудником Центра цифровых гуманитарных исследований НИУ ВШЭ Борисом Ореховым.
N + 1: Сегодня всем более или менее известно, что такое компьютерная лингвистика, появившаяся еще в середине прошлого века, на заре становления искусственного интеллекта. Мы знаем, что ее главная задача — описание и использование естественных языков при помощи компьютерных и математических методов. Гораздо меньше известно, что такое цифровые гуманитарные науки (здесь и далее — DH). Связаны ли они как-то с компьютерной лингвистикой?
Борис Орехов: Если пытаться оценить существующее положение вещей, то научная составляющая компьютерной лингвистики, о которой вы говорите, не единственная и — по факту — не главная. Главное для современных компьютерных лингвистов — это деятельность, которую можно назвать инженерной, это создание технологий (например, для автоматического извлечения фактов или отношений из текста), которые можно было бы встроить в коммерческие продукты. То есть собственно описания языка там не так уж и много, а насколько вообще технологии опираются на научные описания, это вопрос философский.
Что касается DH, то эта область гораздо шире компьютерной лингвистики. В этой сфере ученые и разработчики имеют дело не только с текстами, но и с изображениями, 3D-моделями, реконструкциями в формате виртуальной реальности. Компьютерная лингвистика в числе прочих источников может только предоставить ученому-гуманитарию интересный материал для осмысления.
Чем занимаются специалисты в области DH? Какие у них главные цели и задачи?
Если говорить о DH вообще, то какое-то единство в плане предмета исследований увидеть в нем трудно. DH — во многом так называемый «зонтичный» термин: на посвященных ему конференциях встречаются люди, применяющие разные методы к очень разным вещам. Объединяются они, скорее, не целями и задачами, а материалом: кино, музыка, литература, живопись, исторические документы, культурно значимые тексты (например, труды философов).
Иногда специалисты по DH выходят за рамки и этого круга и погружаются в вопросы, близкие социологам и антропологам. Скажем, в одной статье исследователь пытается понять, насколько сходно критики оценивают фильмы. Это не совсем про кино, но и не в чистом виде социология, а компьютерной лингвистики там нет совсем. Вот такие «странные» исследования, как бы сделанные вне формата традиционной научной рубрикации, и оказываются «под зонтиком» DH.
Расскажите о методах, которые чаще всего применяются в DH-исследованиях помимо методов обработки естественного языка.
В DH чаще всего применяют не столько методы обработки естественного языка, сколько то, что называется анализом данных. Это широкий спектр инструментов, разработанных внутри математической статистики для поиска закономерностей внутри больших массивов формализованной информации. Это то, что помогает увидеть тенденцию, или «тренд». Это разного рода регрессии, расчет корреляций, кластерный, ковариационный анализ. Но это и визуализция данных, графики, которые делают статьи и доклады о DH — помимо собственно содержательной составляющей — привлекательными визуально:
Это, например, наиболее эффектная разновидность визуализации — граф. Она представляет результаты исследования стилометрии и показывает, насколько стилистически романы, драмы и нехудожественные произведения далеки друг от друга.
Каждая вершина графа — отдельное произведение, а каждое ребро показывает степень близости одного произведения другому (то есть чем тоньше ребро между двумя точками, тем меньше произведения похожи между собой стилистически). В качестве основного стилистического показателя была использована частотность слов, встречающихся в каждом произведении. В самом общем виде граф демонстрирует, насколько словарный состав одного произведения соответствует словарному составу остальных произведений. Цвет — от зеленого к красному — обозначает дату выхода рукописи (в работе были использованы 333 текста на английском языке, созданные в 1700–1930 годах).
Такие исследования делаются не только для оценки стиля текста, это работает также, когда надо определить авторство. То есть тексты, написанные одним человеком, окажутся более схожи между собой, чем тексты, написанные разными людьми, — и это будет математически выверено.
Какие еще методы компьютерной лингвистики были позаимствованы для DH?
Почти все, что разработала «инженерная» компьютерная лингвистика (кроме, пожалуй, машинного перевода), пригодилось специалистам по DH: извлечение фактов, отношений, дистрибутивная семантика, тематическое моделирование, определение авторства. Например, важной технологией стал так называемый «анализ тональности», то есть определение эмоционального «фона» текста: насколько он положительный или отрицательный. Если упростить, то это способность компьютера определить, говорят сейчас о чем-то хорошем или о чем-то плохом.
Если, например, применить этот инструмент к тексту «Ромео и Джульетты», то получится занятная диаграмма, довольно неплохо описывающая сюжет трагедии в терминах эмоций, той самой «тональности»:
А зачем трагедию визуализировать в одном графике? Не упрощаем ли мы таким образом произведение искусства, не отстраняемся ли от него?
Надо сказать, что наука вообще не работает с объектом целиком: она упрощает его и представляет модель. Самый простой пример — это карта. У нас есть определенная местность, и у нас есть карта этой местности. Является ли карта идеальным образом местности? Не совсем: местность слишком сложна, многообразна и велика, чтобы с ней работать и пытаться описать ее до мелочей.
Такие графики — один из способов построить модель произведения. Когда мы строим модель, мы включаем в нее все то, что кажется нам важным, — и отбрасываем все остальное. В этой конкретной модели важна эмоциональная составляющая; мы выяснили, что эмоция очень сильно коррелирует с движением сюжета. Эмоции, в свою очередь, очень сильно влияют на механизм восприятия: поэтому мы, например, не всегда можем удовлетвориться краткими пересказами содержания произведений.
Делают ли такие модели предмет исследования отстраненным? В какой-то мере да: это некая научная модель, которая отдаляет нас от нашего объекта исследования. Но это не всегда плохо. Кстати, есть и такое мнение: если представить произведение в виде, например, модели, то получится совершенно новое произведение — некий арт-объект, произведение современного искусства, которое можно повесить в рамочке на стену. Хотя оно вряд ли будет так же прекрасно, как оригинал.
Какие существенные достижения есть у DH-исследований, которых нельзя было бы добиться без применения численных и компьютерных методов?
Это не такой простой вопрос. В принципе, большинство хороших исследований в DH сейчас, скорее, подтверждает уже известные выводы традиционных гуманитариев. Это необходимый этап развития науки: если мы применяем новый метод, то должны сначала доказать, что он работает. А доказать это можно только с помощью «банальных» выводов: если результаты, полученные с помощью нового подхода, согласуются с тем, что было известно науке до этого, значит, мы сможем доверять и принципиально новым результатам, которые нам предоставит тот же метод в будущем.
Но кое-какие достижения все-таки есть. Среди них очень интересное исследование заглавий романов на протяжении длительного периода эволюции английской литературы. Выяснилось, что готические романы объединяет структура названия: они все устроены по модели «The X of Y». При этом замки, вампиры, кладбища и все остальное, что обычно ассоциируется с этим жанром, оказалось на втором месте.
Вы занимаетесь, в основном, DH-проектами, связанными с языком и
литературой. Удалось ли вам добиться каких-то важных результатов?
Мой учитель академик В. А. Плунгян как-то сказал, что все теоретические построения будут когда-нибудь оспорены или вовсе опровергнуты, век их недолог, а по-настоящему остается в науке то, что практически помогает другим исследователям. В лингвистике — это словари и грамматики, в компьютерной лингвистике — корпуса и анализаторы. В филологии — издания текстов.
В DH тоже есть такие полезные инструменты. В свой актив я могу занести параллельный корпус переводов «Слова о полку Игореве», Башкирский поэтический корпус, ну и проекты масштабом поменьше. Например, сравнительно недавно я сделал интерактивную карту, с помощью которой можно искать в русском поэтическом корпусе стихотворения, написанные в одной географической локации.
А что можно сказать про специалистов в других гуманитарных науках, например, про историков или философов? Есть ли у них свои DH-проекты?
Историки вообще занялись DH чуть ли не раньше всех остальных гуманитариев. В 1992 году, когда вся эта электронная тема была более чем далека от того, чтобы быть мейнстримом, в России появилась ассоциация «История и компьютер». Там происходят совершенно прекрасные вещи, связанные с электронной картографией исторических данных, созданием объемных цифровых моделей археологических объектов, реконструкцией исторического облика пространства и многое другое.
Философам в силу специфики их предмета цифровые методы дают меньше. Их цифровая деятельность в основном локализуется в области истории философии, цифрового представления классических текстов вроде трудов Канта или «Логико-философского трактата» Л. Витгенштейна. Изредка можно увидеть попытки визуализации представления истории идей: например, как проект изображения истории философии.
Расскажите поподробнее про проект Tolstoy Digital? В чем его основные цели и задачи, чего уже удалось достичь и что в планах? К какому конечному продукту вы собираетесь прийти?
Tolstoy Digital — это попытка радикально нового представления текста, которое мы называем семантическим изданием. В таком издании выявлены и оформлены в машиночитаемом виде многие связи и отношения исходного произведения. Как выглядит будущее, к которому мы стремимся, можно посмотреть на примере сделанного моими коллегами по Центру цифровых гуманитарных исследований в ВШЭ мобильного приложения «Живые страницы». Там не только текст, но и географические карты, визуализация сюжета, а на специальной странице в интернете — отношения героев и многое другое. Еще у нас получилось из довольно скучной части книг Толстого, указателя имен, сделать современный и удобный ресурс, со специальным ботом для Телеграма.
Толстой выбран не случайно: он великий писатель, от него осталось много разнообразных текстов и документов, потому что он так или иначе соотносится (прямо или косвенно) со всей классической русской культурой. Кроме того, у него есть очень много преданных фанатов. Тем не менее, Tolstoy Digital — хоть и главный, но не единственный наш проект. Например, мои коллеги в ВШЭ много занимаются еще одним популярным DH-направлением, которое никак не связано с компьютерной лингвистикой. Это сетевой анализ, то есть представление информации (в их случае это персонажи русских пьес) в виде сети, или графа.
Лично мне интересна история русской поэзии, которая еще задолго до наступления компьютерной эры исследовалась количественными методами. Еще я занимаюсь цифровой текстологией — разработкой способов электронного представления рукописей и черновиков писателей.
А есть какой-нибудь DH-проект, осуществить который вам пока мешает недостаток ресурсов? И сможете ли вы осуществить его в будущем?
Давно и очевидно напрашивается масштабное исследование русской прозы от первых опытов XVIII века до современных лауреатов Букеровской премии и премии Андрея Белого. Именно так мы сможем понять, откуда и как появился великий русский роман XIX века и что с ним стало потом. Все эти тексты, если включать сюда забытых авторов (то, что не проходят в школе), получаются совокупно огромного объема, его не под силу прочесть одному человеку. А компьютеру под силу. Но много пока не оцифровано, не собран исходный материал.
Приходилось ли вам сталкиваться с критикой со стороны людей, предпочитающих традиционные методы гуманитарных исследований?
Да, разумеется. Собственно критика обычно не очень убедительная, скорее, это просто недоверие, неготовность принять новые подходы, то есть эмоциональная реакция. Но вхождение новых методов в исследовательскую практику неизбежно, это рано или поздно произойдет.
Считаете ли вы, что применение численных и компьютерных методов может кардинально изменить наш сегодняшний взгляд на гуманитарные науки? И если да, то как?
Я в этом не уверен. Наука остается наукой. Самые удачные исследования в DH как раз такие, в которых очень аккуратно учитываются традиционные гуманитарные вопросы, подходы и постулаты. Но тут действуют разные околонаучные соображения. Так, подсчеты как бы легитимизируют гуманитарную науку в собственно научном поле. То есть совершившие рейдерский захват понятия научности физики могут присмотреться и признать, что в гуманитарной науке есть что-то сходное с тем, что они сами делают со своим материалом.
Беседовала Елизавета Ивтушок
51 рассказ лингвистов и носителей о 50 языках, на которых говорят в России
Проект «Языки России — языки в России», посвященный 50 самым распространенным в стране языкам, шел в наших социальных сетях с 21 августа по 23 ноября 2020 года. За это время мы опубликовали 51 (!) рассказ лингвистов и носителей об этих языках. И решили собрать их в одном месте.