Платформа Google Cloud вместе с The New York Times оцифруют более пяти миллионов изображений, хранящихся в архивах газеты. Вручную отсканированное фотография, а также информация, записанная на ее обратной стороне, будут отправляться в облачный сервис для дальнейшей оцифровки и распознавания текста и изображения. На основании этого разработчики планируют создать целую библиотеку снимков. Подробно о проекте сообщается в блоге Google.
В архивах The New York Times (газета называет их «моргом») хранятся, по разным оценкам, от пяти до семи миллионов снимков, использованных изданием в своих номерах почти за все время своего существования (то есть с середины XIX века). Снимки организованы в виде библиотеки: в архиве есть каталог, с помощью которого можно найти нужную фотографию. На обратной стороне некоторых снимков также содержится информация о сделанной фотографии и даже данные о том, в каком номере газеты она появилась.
Несмотря на то, что каталог позволяет достаточно быстро найти нужный снимок, это не очень удобно, в особенности — для тех, у кого нет прямого доступа к архивам газеты. Специально для этого издание решило оцифровать архивные изображения с привлечением облачного сервиса Google Cloud: помимо сканирования самих фотографий система также распознает дополнительную информацию, которая может быть записана на обратной стороне снимка.
Открытые технологии Google Cloud позволят The New York Times облегчить процесс оцифровки снимков: для этого будут использоваться открытые алгоритмы вроде Cloud Vision API, который используется для распознавания изображений.
Недавно Гарвардский университет закончил работу над Caselow Access Project, в ходе которого были отсканированы и оцифрованы более 40 миллионов страниц юридических документов начиная с XVII века. Всего в базу данных попали примерно 6,4 миллиона судебных дел.
Елизавета Ивтушок