Для чего необходима оцифровка книг и как она организована
Рукописи горят. И не только рукописи — целые библиотеки. С ними вместе гибнут, портятся от копоти или сырости залитые при тушении книги, печатные издания, архивные документы, старинные манускрипты. По данным библиотековеда Юрия Столярова, ежегодно в российских библиотеках происходит около 85 пожаров. Помимо огня фондам угрожают стихийные бедствия, социальные и техногенные катастрофы. Чтобы сохранить уникальные издания и сделать их доступными для читателей, во всем мире идут проекты по оцифровке. N + 1 при поддержке компании «Акронис-Инфозащита» рассказывает об этом подробнее.
Есть два возможных ответа на этот вопрос. В первую очередь, для сохранения культурного наследия. Оцифровка позволяет создать электронные копии редких экземпляров или книжных памятников, которые могут исчезнуть навсегда в случае, например, пожара или стихийного бедствия.
Есть также особая категория изданий, обязанная быть «утраченной», — так называемое «вывезенное наследие», которое государство должно вернуть другим странам. Помимо этого, электронные копии дают возможность снизить износ редких (и не только) оригиналов и воссоздать их в случае утраты.
Для читателей оцифровка открывает возможности удаленного пользования каталогами, фондами, в том числе ранее недоступными редкими изданиями или изданиями, чье состояние неудовлетворительно.
Кроме того, снимаются ограничения по количеству и срокам выдачи книг «на руки» — электронную копию одновременно могут использовать несколько человек. Удобный поиск и «навигация» по текстам облегчают и значительно ускоряют работу исследователей.
Если говорить о крупных проектах по массовой оцифровке изданий, то в первую очередь стоит упомянуть корпорацию Google и ее сервис Google Books. Запущенный в октябре 2004 года сервис полнотекстового поиска по книгам направлен на то, чтобы упростить поиск информации, доступной на бумажных носителях.
«Работая вместе с библиотеками над созданием электронных копий книг из их собраний, мы стремимся сформировать в Интернете каталог общемирового книжного фонда с возможностью поиска», — говорится в описании проекта. Электронная библиотека позволяет искать миллионы книг на разных языках. Среди них редкие издания, сочинения, которые больше не издаются, и труды, доступные лишь в некоторых библиотеках.
Если книга является общественным достоянием, ее можно прочитать в Google Books целиком. Если нет — можно выполнить поиск по тексту, но при этом пользователю будут видны только фрагменты, содержащие поисковый запрос, и контекст. На странице издания также можно узнать, в каких библиотеках есть эта книга или в каких магазинах ее можно приобрести.
Библиотеки-партнеры получают электронные копии каждой отсканированной книги из своих фондов. Файлы хранятся в библиотеках и, если это разрешено законом об авторском праве, предоставляются постоянным посетителям. Среди партнеров проекта — библиотека Мичиганского университета, библиотека Калифорнийского университета, библиотека Висконсинского университета в Мадисоне и библиотека Техасского университета в Остине.
По состоянию на октябрь 2019 года, в коллекции сервиса находится около 40 миллионов книг более чем на 400 языках. В честь 15-летия проекта Google открыл новые возможности: Google Arts & Culture представляет культовые и редкие книги в онлайн-проекте.
Запущен также «интерактивный эксперимент», позволяющий просматривать коллекцию Google Books с использованием рисунков из Google Arts & Culture. Можно нажать на изображение и получить рекомендации по книгам, написанным на смежные темы.
Альтернативой проекту Google Books выступает консорциум организаций и компаний Open Content Alliance и Open Library. Консорциум был создан в 2005 году на базе Yahoo некоммерческой организации Internet Archive, при участии Университета Калифорнии, Университета Торонто и других.
Сканирование осуществлялось Internet Archive, который также предоставил постоянное хранилище для цифровых изданий и доступ к ним через свой сайт. В отличие от Google в проекте использовались произведения, не защищенные авторским правом, а также защищенные, в отношении которых было получено согласие правообладателей на оцифровку.
В 2008 году специалистами было переведено в электронный формат более миллиона книг, 300 тысяч из которых вошли в проект Open Library. Последний, кстати, предоставляет услугу по бесплатному переводу в цифру любой книги из списка фонда Бостонской общественной библиотеки в течение 5-8 рабочих дней.
В 2005 году к этому проекту присоединилась компания Microsoft, однако позднее (в 2008 году) объявила о создании собственного проекта онлайн-поиска книг и организовала сканирование около 100 тысяч книг, не защищенных авторским правом, для Британской библиотеки.
Еще один крупномасштабный проект по оцифровке книг — Million Book Университета Carnegie Mellon. Он начался в 2001 году и фокусируется на оцифровке книг в Китае, Индии и Египте. Заявленная цель очень похожа на цель проекта Google: «Охватить все книги в цифровом формате». Барьер в 1,5 миллиона отсканированных книг был преодолен в 2007 году.
В июне 2005 года директор Библиотеки Конгресса США Джеймс Х. Биллингтон в речи, обращенной к Национальной комиссии США по делам ЮНЕСКО, предложил создать Mировую цифровую библиотеку.
Его основная идея заключалась в том, чтобы в сети Интернет появился ресурс, открывающий легкий доступ к коллекции сокровищ мировой культуры, которые «рассказывают и подчеркивают достижения всех стран и культур, способствуя, таким образом, укреплению межкультурных связей и взаимопониманию».
ЮНЕСКО поддержала инициативу, и в декабре 2006 года совместно с Библиотекой Конгресса было созвано Совещание экспертов для обсуждения деталей проекта. Специалисты отметили, что во многих странах лишь малая часть культурного наследия переводится в цифровой формат и что развивающиеся страны не располагают достаточными возможностями для оцифровки своих культурных ценностей.
Помимо Библиотеки Конгресса и ЮНЕСКО, в проекте приняли участие Национальная библиотека Бразилии, Александрийская библиотека, Национальная библиотека и архивы Египта, Российская национальная библиотека и Российская государственная библиотека.
В апреле 2009 года Mировая цифровая библиотека стала доступной для международной общественности. В настоящее время в ее хранилище насчитывается более 19 тысяч объектов, представлены 193 страны и 145 языков.
Не только книги, но и журналы становятся объектами для оцифровки. Один из наиболее крупных проектов в этой сфере — JSTOR. На сегодняшний день он включает более 12 миллионов оцифрованных научных журнальных статей, книг и первоисточников по 75 дисциплинам.
Существуют менее массовые, но не менее ценные проекты по оцифровке. Среди них можно упомянуть eText Университета Вирджиния, опубликовавший, в частности, Первое фолио Уильяма Шекспира — собрание его комедий, исторических хроник и трагедий, изданное в Лондоне в 1623 году.
Майкл Харт, создатель другого онлайн-архива — проекта Gutenberg — еще в 1971 году был уверен, что появление электронных книг внесет такой же вклад в развитие науки и человеческого познания, как изобретение книгопечатания Иоганном Гуттенбергом в середине XV века.
Один из примеров красочного представления оцифрованного наследия — David Rumsey Map Collection. Коллекция карт Дэвида Рамси была начата более 30 лет назад и на сегодняшний день насчитывает более 150 тысяч единиц хранения.
В нее входят редкие карты Северной и Южной Америки, атласы, настенные карты, глобусы, карманные карты, книги, морские карты и различные картографические материалы. Самые старинные предметы датируются серединой XVI века, но есть и современные экспонаты. Оцифровка коллекции началась в 1996 году, и сейчас в сети насчитывается более 94 тысяч предметов.
Сайт открывает доступ не только к изображениям карт в высоком разрешении, но и к различным онлайн-инструментам, позволяющим сравнивать, анализировать и просматривать отдельные единицы хранения. Благодаря этому пользователи могут сравнивать несколько карт одной и той же местности, относящихся к разным периодам времени, или создавать свою собственную коллекцию карт.
В целом на сегодняшний день во всем мире можно выделить более 100 различных крупных проектов, связанных с оцифровкой литературного наследия.
Работа по оцифровке книг и документов ведется в нашей стране не первый год. Российская государственная библиотека (по данным на 2019 год) оцифровала 1,2 миллиона изданий (из 45,5 миллиона книг), 150 тысяч из которых — это редкие книги и рукописи.
Фонд Президентской библиотеки имени Бориса Ельцина полностью оцифрован, он включает около 380 тысяч изданий (150 тысяч выставлены для общего доступа). Из 37 миллионов книг Российской национальной библиотеки имеют электронную копию 530 тысяч, из двух миллионов Российской государственной библиотеки искусств — 17,5 тысячи. Постепенно оцифровывают свои фонды Государственная публичная историческая библиотека, Всероссийская государственная библиотека иностранной литературы имени Рудомино, городские библиотеки по всей стране.
Оцифровка библиотечного фонда ведется также в рамках федерального проекта «Цифровая культура». По официальным планам, с 2019-го по 2024 годы в электронный формат будет переведено 48 тысяч книжных памятников (по 8 тысяч ежегодно). Доступ к ним для пользователей будет открыт через виртуальный сервис Национальной электронной библиотеки (НЭБ). На сегодняшний день она насчитывает 1,7 миллиона книг и объединяет ресурсы шести федеральных и 27 региональных библиотек.
К концу 2019 года НЭБ планирует запустить мобильное приложение, где будут доступны около 400 изданий российской и зарубежной художественной литературы.
Российский проект «Остромирово Евангелие» открывает доступ к уникальному рукописному памятнику, входящему в золотой фонд мирового культурно-исторического наследия.
Проект реализован на основе разработанной специалистами Российской национальной библиотеки информационно-поисковой системы «Депозитарий». Этот инструмент позволяет соединить цифровую копию рукописи с аналитическим описанием, транслитерацией текста источника и необходимыми комментариями, а также обеспечить материал поисковым аппаратом.
Технология оцифровки зависит от издания и его состояния. Например, отсканировать одну страницу вновь поступившей диссертации можно быстро и дешево; а оцифровка книги, которую сперва необходимо реставрировать, будет стоить до 50 тысяч рублей за страницу.
Сканеры отличаются по сложности. Так, в районных библиотеках используют планшетные, а крупные библиотеки вынуждены приобретать планетарные сканеры, которые сводят к минимуму воздействие на книгу, не раскрывая ее на 180 градусов. Некоторые библиотеки при необходимости прибегают к роботизированным сканерам, способным обрабатывать до трех тысяч страниц в час на протяжении суток.
При оцифровке изданий очень важно обеспечить сохранность оригинала, особенно когда речь идет о редких и уникальных изданиях. Для этого используется техника, обеспечивающая бесконтактную технологию сканирования, оберегающая книжные переплеты и исключающая вредное излучение и тепловое воздействие на оригинал.
При оцифровке раритетов часто используется индивидуальный подход: оценивается состояние оригинала, его габарит и вес, фактурность бумаги или другого носителя и так далее. Все эти требования подробно прописаны в рекомендациях по оцифровке материалов из фонда библиотек.
После сканирования начинается второй этап оцифровки книги — распознавание текста. Даже дорогостоящие программы по распознаванию пока не обеспечивают безошибочную точность передачи текста, поэтому необходимо вмешательство человека.
Количество погрешностей особенно увеличивается в тех случаях, когда речь идет о древних и рукописных текстах, где встречается много слов, неизвестных программе по распознаванию текстов. Если же речь идет об изданиях на редких языках, то для их оцифровки нужен не просто редактор, но и носитель языка, переводчик или эксперт.
Цифровые копии бывают трех типов — они различаются между собой по объему информации в зависимости от назначения и особенностей использования.
Мастер-копия содержит максимально возможное количество информации, к ней не применяются алгоритмы сжатия. Она используется для восстановления объекта в случае его утраты, для некоторых видов исследований, для полиграфических целей, а также для изготовления других типов цифровых копий. Для защиты авторских прав доступ к мастер-копиям ограничен, и пользователям они предоставляются только в особых случаях.
Пользовательская копия — это электронное издание высокого или среднего разрешения, не допускающая полиграфическое воспроизведение объекта. Читатели могут работать с ним в электронной библиотеке или в базе данных. В отношении этого типа копий возможно применение алгоритмов сжатия, но текст должен остаться читаемым, а детали графических элементов — различимыми.
Наконец, служебная копия — это издание в низком разрешении, предназначенное для предварительного просмотра при поиске в Интернете, в базах данных и в электронных библиотеках. Служебные копии могут быть сжаты с потерями вплоть до уменьшения разрешения графического образа, кроме того, в документ могут быть внедрены дополнительные данные (например, водяные знаки, метаданные и проч).
Отдельная задача — хранение цифровых копий. По данным компании IDC, рынок программного обеспечения для хранения данных завершил 2018 год сильным ростом, увеличившись на 4,5 процента в годовом исчислении. Сам рынок хранения данных вырос на 6 процентов по сравнению с 2018-м. Наиболее активно в этой сфере развивается направление облачного хранения данных.
Облачное хранилище — это комплекс решений, предлагаемый поставщиками облачных хранилищ (среди мировых лидеров — Amazon Web Service, IBM, VMware и другие) для обслуживания, управления и хранения всех видов информации в центре обработки данных, который доступен через Интернет.
Согласно отчету, опубликованному Allied Market Research, в 2015 году мировой рынок облачных хранилищ оценивался в 21,17 миллиарда долларов. По прогнозам, к 2022 году он достигнет 97,41 миллиарда долларов.
Росту этого рынка способствуют сравнительно невысокая плата за пользование программным обеспечением; удобство доступа к удаленным серверам, в том числе возможность работы с данными с любого устройства, имеющего выход в Интернет; более высокая безопасность данных (по сравнению с хранением на собственных серверах); возможность управлять огромными объемами административной информации и организовать совместную работу с данными, результаты которой сохранятся даже в случае локальных технических сбоев.
Критики облачных технологий в первую очередь говорят о рисках, связанных с безопасностью хранения данных.
По данным исследования iKS-Consulting, российская индустрия облачных услуг будет расти примерно на 23 процента в год в течение ближайших лет и может достичь 155 миллиардов рублей к концу 2022 года.
С точки зрения библиотечного дела, в России пока нет окончательного решения. Однако появление облачных хранилищ вошло в число приоритетных направлений деятельности российских библиотек наравне с развитием новых средств хранения и обработки данных и глобальной информатизацией.
Александра Литвинова