Береста на хостинге

Как и зачем оцифровывать архивы и древние артефакты

Цифровые технологии, такие как 3D-моделирование и интеллектуальный анализ текста, позволяют специалистам гуманитарных отраслей по-новому изучать древние тексты — и делать их доступными для всех. Вместе с Уральским федеральным университетом (УрФУ) рассказываем, как это происходит.

В электронном виде

С середины 90-х документы, которые хранятся в российских архивах, начали переводить «в цифру». Изначально никаких правил не было: специалисты просто старались в первую очередь оцифровать самые хрупкие, плохо сохранившиеся или ценные артефакты. 

В 2004 году был принят закон «Об архивном деле в РФ». Он установил правила оценки архивных документов и порядок ведения электронных библиотек. После этого РАН, Российская государственная библиотека и другие организации, в чьем ведении находились архивы, объединились в Ассоциацию электронных библиотек. За восемь лет общими усилиями ученым удалось оцифровать более 1,6 млн страниц.

Сейчас работы по оцифровке идут практически во всех крупных архивах (подробнее об этом читайте в нашем материале «Бэкап культурного наследия»). Если говорить про российские библиотеки, то наиболее полный цифровой архив представлен в президентской библиотеке (www.prlib.ru). Другой проект — gramoty.ru — занимается оцифровкой древнерусских берестяных грамот XI–XV вв.

Но работы еще предстоит много. По оценкам экспертов, в российских библиотеках хранятся более 8 миллионов документов, которые можно считать книжными памятниками. Оцифровать их — дело не одного года и даже не одного десятилетия, потому что процесс до сих пор не автоматизирован до конца.

Отсканировать и распознать

Сначала оператор оценивает документ: его повреждения, как он сшит и насколько сильно обветшала бумага. Если состояние неудовлетворительное, документ могут отправить на реставрацию или отсканировать, но делать это придется через стекло или бесконтактно с помощью планетарного сканера: даже аккуратное прикосновение к памятнику может его повредить.

В идеале цифровая версия документа содержит не только графическую информацию, но и текст документа. Распознать текст — задача куда более сложная, чем сканирование. «Есть программы, которые позволяют распознать рукописный текст, но проблема заключается в том, что тексты были записаны разными людьми и разными почерками. Программисты ищут решение: как с помощью технологий машинного обучения научить компьютер “читать” различные почерки», — рассказывает куратор проекта в лаборатории цифровых технологий в историко-культурных исследованиях УрФУ Сергей Соколов (подробнее о распознавании рукописного текста читайте в нашем материале «Как в прописи»).

В этом году сотрудники лаборатории ведут несколько цифровых проектов. Историки переводят в цифру архивные документы по истории Екатеринбурга, составляют на их основе базы данных и разрабатывают сайт, где документы будут доступны для исследователей. Ученые-топонимисты на основе материалов 60-х годов создают базу наименований населенных пунктов Свердловской области, чтобы сохранить утраченные названия. Фольклористы Уральского университета занимаются цифровизацией фольклорного архива. С середины прошлого века они ходят в экспедиции по Среднему Уралу и собирают народное творчество. Вплоть до недавнего времени все записи делались от руки, и сейчас собрание — это больше 500 папок с текстами.

Сотрудники лаборатории сканируют рукописные тексты и создают на их основе базу данных. Искать в ней документы можно будет по жанрам (например, заговоры или песни), тематическим группам и даже отдельным словам. Работать с базой онлайн смогут все желающие.

Прочесть нечитаемое

Цифровые версии объектов культурного наследия дают возможность применять к этим объектам методы исследования, традиционные для естественных и точных наук. Эти методы (они, а также исследования, которые проводят с их использованием, называются digital humanities) расширяют для исследователей пространство доступного, как, например, нейросеть «Итака», реконструирующая стертые, нечитаемые записи. «Итаку» обучили на базе 78 608 древнегреческих надписей, уже расшифрованных и классифицированных по месту и времени создания. Нейросеть дала 70-процентную точность в соотнесении надписей с географическим регионом и датировала их с погрешностью около 30 лет.

Часто технологии распознавания образов и лингвистического анализа используют вместе с физическими аналитическими методами. Так исследователи получают доступ к текстам, которые без подобных технологий остались бы непрочитанными. Пример — прочтение свитка из оазиса Эйн-Геди в Израиле. Найденный в 1970 году в синагогальном ковчеге (хранилище священных текстов), свиток был сильно обуглен, развернуть его, не повредив, не представлялось возможным. В 2015 году исследователи из США и Израиля с помощью рентгеновской томографии получили трехмерную модель свитка, виртуально «развернули» его и прочитали — оказалось, что свиток содержал первую главу книги Левит, третьей книги Пятикнижия.

Другой пример цифрового инструмента для гуманитарных исследований — нейросеть Яндекса для распознавания рукописного текста на русском языке в дореформенной орфографии. Разработчики обучали нейросеть на материалах Главархива Москвы. «Для расшифровки одной страницы архивного рукописного текста профессионалу может потребоваться до получаса. Наш сервис справляется с этим за несколько секунд», — комментировали разработку в Яндексе. Сейчас с помощью нейросети оцифрованы архивы Оренбургской и Новгородской областей, представители компании планируют расширять каталог. В тестовом режиме поиск по рукописным документам доступен всем желающим через онлайн-сервис «Поиск по архивам».

Экскурсия в кресле

Оцифровка архивов упрощает работу профильных специалистов, а для широкой аудитории в электронный вид переводятся целые музейные фонды. Настоящий бум таких проектов случился в пандемию: музеи начали создавать виртуальные копии основных экспозиций — и временных выставок, часть которых вовсе не имеет физического воплощения.

Крупнейший проект по оцифровке мирового культурного наследия Google Arts & Culture был запущен в 2011 году и на сегодняшний день включает цифровые версии предметов из коллекций 2000 музеев по всему миру. Кроме того, проект поддерживает и предоставляет хостинг для отдельных веб-сайтов с виртуальными коллекциями музеев и архивов.

Для создания виртуальных музеев используются технологии интерактивной панорамы (Google Street View или аналогичные), онлайн-галереи (лидер на рынке — Picasa). Отдельную технологическую проблему представляет качество изображений; получение снимков музейных предметов в высоком разрешении иногда требует оригинальных решений, как в случае с картиной No Woman No Cry Криса Офили из лондонской галереи Тейт: чтобы создать ее гигапиксельную виртуальную версию для проекта Google Arts & Culture, полотно снимали в двух вариантах освещения — дневном и вечернем. Только так можно было передать легкое свечение картины, которого художник добился с помощью фосфоресцирующих красок. 

Большой работы потребовала и съемка самого крупного на сегодняшний день объекта Google Arts & Culture — картины Александра Иванова «Явление Христа народу». Сорокаметровое полотно снимали целый день. Его онлайн-версия — это 12-гигапиксельное изображение, которое позволяет рассмотреть даже маленькие кракелюры и мазки так же, как можно рассмотреть их, подойдя вплотную к картине. Для демонстрации изображений такого размера онлайн используются специальные алгоритмы компрессии.

Виртуальные версии коллекций используют как образовательный инструмент и как материал для исследований. Некоторые музеи — научные, музеи естественной истории — предоставляют возможность не только рассматривать 2D- и 3D-изображения предметов из своих коллекций, но и скачивать файлы изображений для работы с ними и делятся с широкой публикой сырыми и обработанными данными, собранными в ходе научной работы сотрудников музея, — так, например, поступают музеи Смитсоновского института в США.

Споры о том, следует ли переводить музейные коллекции в цифру, кажется, стихают. Кроме очевидной пользы для образования виртуальные музеи оказались не конкурентами реальным, а, наоборот, отличным маркетинговым инструментом для последних. Пандемийный всплеск посещаемости онлайн-выставок и виртуальных музеев пошел на спад с отменой карантина, но успел заметно повлиять на культуру посещения музеев и галерей в целом. Присутствие онлайн, как отмечают кураторы и сотрудники музеев, повышает узнаваемость отдельных художников и целых музеев, галерей и выставочных пространств и работает на вовлечение посетителей, не снижая посещаемость реальных учреждений культуры.

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.
Кому это нужно?

Попробуйте разобраться в оборудовании атомной отрасли