15:41 12.11.18 1.8 IT

Google поможет The New York Times оцифровать пять миллионов архивных фотографий

Елизавета Ивтушок

Платформа Google Cloud вместе с The New York Times оцифруют более пяти миллионов изображений, хранящихся в архивах газеты. Вручную отсканированное фотография, а также информация, записанная на ее обратной стороне, будут отправляться в облачный сервис для дальнейшей оцифровки и распознавания текста и изображения. На основании этого разработчики планируют создать целую библиотеку снимков. Подробно о проекте сообщается в блоге Google.

В архивах The New York Times (газета называет их «моргом») хранятся, по разным оценкам, от пяти до семи миллионов снимков, использованных изданием в своих номерах почти за все время своего существования (то есть с середины XIX века). Снимки организованы в виде библиотеки: в архиве есть каталог, с помощью которого можно найти нужную фотографию. На обратной стороне некоторых снимков также содержится информация о сделанной фотографии и даже данные о том, в каком номере газеты она появилась.

Несмотря на то, что каталог позволяет достаточно быстро найти нужный снимок, это не очень удобно, в особенности — для тех, у кого нет прямого доступа к архивам газеты. Специально для этого издание решило оцифровать архивные изображения с привлечением облачного сервиса Google Cloud: помимо сканирования самих фотографий система также распознает дополнительную информацию, которая может быть записана на обратной стороне снимка.

Открытые технологии Google Cloud позволят The New York Times облегчить процесс оцифровки снимков: для этого будут использоваться открытые алгоритмы вроде Cloud Vision API, который используется для распознавания изображений.

Недавно Гарвардский университет закончил работу над Caselow Access Project, в ходе которого были отсканированы и оцифрованы более 40 миллионов страниц юридических документов начиная с XVII века. Всего в базу данных попали примерно 6,4 миллиона судебных дел.

Елизавета Ивтушок

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.

12:59 04.09.25 6.2 Зоология IT

Нейросеть для орнитологов Perch 2.0 помогла распознать морских животных

И сделала это лучше специализированных моделей

Елизавета Чистякова

Google Deepmind выпустила обновленную версию нейросети для биоакустики Perch 2.0. В отличие от предыдущей версии, Perch 2.0 может распознавать не только птиц, но и других животных. Представленная модель обходит все биоакустические модели на бенчмарках BirdSet и BEANS, а при трансферном обучении превосходит даже специализированные модели для классификации звуков подводных жителей, хотя обучалась почти исключительно на наземных животных. Модель опубликована в открытом доступе, препринт статьи доступен на arXiv.org.