Как надежно и безопасно хранить данные в облаках
Год за годом растет объем информации, которую человечество производит, передает и хранит. Чем больше данных, тем сложнее с ними управляться: быстро пересылать, надежно архивировать, защищать от хакеров. Многие проблемы решаются с помощью облачных сервисов для хранения файлов и работы с документами. N+1 при поддержке «Акронис-Инфозащита» рассказывает, как дата-центры гарантируют безопасность размещения и скорость получения данных.
Объем порождаемых человечеством данных растет с устрашающей скоростью. По прогнозу компании IDC, общий объем информации в мире вырастет с 33 зеттабайтов в 2018 году до 175 зеттабайтов в 2025 году (один зеттабайт — это 1021 байтов).
За последние 20 лет скорость производства данных возросла уже на два порядка, так что в середине нынешнего десятилетия человечество умудрилось за два года сгенерировать больше информации, чем за всю предшествующую историю. К концу столетия объем информации в мире составит более четырех йоттабайт (один йоттабайт — это 1024 зеттабайта).
Пользователи хранят на своих устройствах тексты, фотографии и видео, пишут деловые письма и постят в соцсетях. По данным Hootsuite, в 2019 году в мире насчитывалось более пяти миллиардов уникальных мобильных пользователей, и их число продолжает расти.
За прошедший год на 9 процентов увеличилось и количество пользователей соцсетей — почти до 3,5 миллиарда человек. В одном только Facebook сегодня их более 2 миллиардов, ежедневно в среднем более 800 миллионов из них что-нибудь лайкают.
Каждую минуту люди смотрят более четырех миллионов видеороликов на YouTube и публикуют более 45 тысяч снимков в Instagram. А ведь существует еще много других соцсетей и мессенджеров, в том числе китайских.
Каждый поисковый запрос сохраняется и добавляет новую порцию данных к датасфере, один только Google обрабатывает их более 40 000 в секунду. Немалый вклад вносят цифровые платформы и сервисы — такси, музыка, погода, билеты и гостиницы, пицца и банковские услуги.
Отдельная статья — научные исследования. Ученые — от лингвистов и биологов до археологов и астрофизиков — пишут научные статьи и оцифровывают книги, но главное, собирают данные измерений и экспериментов. Одни только генетические исследования чего стоят: на один геном может приходиться до 350 гигабайт.
Наконец, сравнительно новый источник данных — «интернет вещей». Производители оснащают датчиками все мыслимые устройства — электроника становится все дешевле, миниатюрнее и энергоэффективнее.
И если раньше данные хранились на всякий случай, то с развитием искусственного интеллекта (ИИ) и с распространением приложений на основе нейронных сетей любая информация становится потенциально ценной: чем больше данных используется для обучения нейросетей, тем точнее и лучше работают эти алгоритмы. Так что любые накопленные данные теперь стоят денег и продаются как новое сырье.
Люди накапливают данные в разных форматах и на разных устройствах, из-за чего возникают «трудности переноса». Теперь уже нет дисководов, ноутбуки избавились от CD, к новым телефонам не подходят старые сим-карты. Поэтому любители регулярного обновления техники сталкиваются с трудностями, когда переносят фотографии и рабочие документы.
IDC прогнозирует, что к 2025 году 60 процентов всей информации в мире будут генерировать коммерческие предприятия. Они собирают сведения о клиентах, банковские данные, бухгалтерские документы. Все это должно сохраняться при переходе на новую информационную систему, при изменении бухгалтерских инструкций и реорганизации порядка учета.
Файлы должны быть доступны сотрудникам из других филиалов и работающим вне офиса. Нужно обеспечить актуальность версий, когда коллеги редактируют документы совместно, и синхронизировать данные, которые перемещаются физически — путешествуют в виде распечатанных бумаг и на электронных носителях.
У предприятий образуется больше документов, чем у обычного пользователя, а с ростом количества данных возникают новые риски, потому что большой объем данных хранится на множестве отдельных носителей. Пусть каждый элемент достаточно надежен, вероятность его выхода из строя все-таки есть.
Когда таких элементов становится достаточно много — тысячи и десятки тысяч, а запись на них ведется довольно долго — скажем, год, эти маловероятные ошибки становятся заметными. Нужна система диагностики, которая следит за работоспособностью отдельных элементов хранилища и сообщает о поломке заранее, а не в момент, когда хозяину данных понадобится их прочитать.
И корпоративным, и индивидуальным пользователям иногда приходится передавать данные большого объема — медиафайлы, архив документов, модели машинного обучения. И сделать это не всегда бывает легко.
Например, в проекте по созданию «фотографии» черной дыры данных было накоплено так много, что оказалось проще и быстрее перевезти их на жестких дисках, чем пересылать по сети.
Иногда временные и финансовые затраты перекачки и перевозки сопоставимы. Еще одна реальная история: нужно было передать из Китая в США 1,5 терабайта данных. Из-за Great Firewall of China соединение было медленным и неустойчивым, так что данные оказалось проще перевезти в виде файлов на жестком диске. Оба варианта, как говорится, были хуже, потому что стоимость перекачки такого объема информации достигала стоимости жесткого диска, однако носитель еще нужно было доставить до адресата.
Как гласит шутка еще 1980-х годов, не стоит недооценивать пропускную способность пикапа, перевозящего компьютерные ленты по шоссе: тогда к интернету подключались через телефонные модемы со скоростью 1200/2400 бит в секунду. С тех пор скорости соединений выросли в сотни миллионов раз (обычная скорость сейчас — порядка 100 мегабит в секунду), но вопрос быстрой передачи данных все так же актуален.
Основная проблема с данными интернета вещей — определить, что нужно сохранять и передавать. Чем их больше, тем важнее сжатие и семантическая обработка, причем как можно ближе к самим датчикам. К примеру, в Китае устанавливаются миллионы камер наблюдения, каждая из которых генерирует огромный объем данных, но возможность передать и обработать их ограничена пропускной способностью сетей.
Теперь даже в самой простой камере есть функция фильтрования движения. Но что именно считать статическим изображением, которое не нужно передавать? Когда пиксели не меняются (перед камерой ничто не движется)? Или нужно отличать уличных животных от людей, а поток машин от разогнавшегося лихача? Тогда для настройки камеры придется привлекать искусственный интеллект, чтобы он оценивал значимость картинки. Правда, в сегодняшних реалиях зачастую это вопрос политический.
Многие проблемы накопления и передачи больших данных уже решаются сегодня с помощью сервисов облачного хранения. На коммерческие сервера по всему миру отправляется все больше данных, независимо от их происхождения. Компании-поставщики, в частности компания Acronis, предлагают разнообразные услуги архивации, восстановления и защиты файлов, а также для совместной работы с ними.
Облачное хранение обеспечивает общий доступ многих пользователей к файлам и позволяет им не зависеть от работоспособности накопителей. Клиент передает файлы в хранилище через интернет-соединение и при необходимости может скачать их на свой компьютер. За то, как и где физически они размещаются, отвечает поставщик услуг.
Облачное программное обеспечение позволяет редактировать документы и файлы онлайн. Так документы всегда остаются синхронизированными между разными пользователями.
Чтобы гарантировать надежное хранения большого объема информации, используется функция резервного копирования. Это значит, что данные особым образом дублируются и в случае утери могут быть восстановлены на основе этой резервной копии.
Данные, которые пользователь отправляет в облако, попадают в дата-центры. Это специально спроектированные строения, наполненные компьютерами и запоминающими устройствами, а также оборудованием для поддержания всего этого в рабочем состоянии.
Выбор технологии и типа носителя зависит от задач и стоимости. Флеш-память — быстрая, но дорогая. Следующее поколение твердотельных технологий, Intel Optane и Phase-change memory, еще быстрее и еще дороже. Такие типы памяти подходят для высокопроизводительных систем.
Большая часть данных в крупных дата-центрах сегодня хранится на магнитных дисках (HDD). Сейчас это настоящие «технологические шедевры» — точность зазоров там сопоставима с длиной световой волны, на производительность влияет даже выбор среды между считывающими головками — воздуха или гелия. Но при всей сложности сегодня такая память в несколько раз дешевле, чем флеш.
Встречаются системы хранения на оптических дисках, например для архивации данных. Однако DVD-диски имеют свойство вдруг становиться нечитаемыми. И если просмотру фильма пропажа одного кадра не помешает, то при хранении ценных данных ошибки чтения должны быть исключены. Поэтому разрабатываются специальные алгоритмы и системы коррекции ошибок.
Сохранность информации обеспечивается и самой архитектурой дата-центров. Данные записываются не на один диск, а копируются в несколько разных хранилищ. Резервное копирование может делаться как внутри одного дата-центра, так и между разными, находящимися в разных географических регионах.
Такое копирование делается автоматически с помощью специальных программ. По словам представителя Acronis, с этим связана масса интересных проблем и задач: создать софт, который дублирует данные много-много раз, довольно просто, сложнее сделать так, чтобы они записывались нужное количество раз, без избыточных затрат и не слишком медленно.
Разные типы резервирования защищают данные от определенных угроз: одно дело, когда выходит из строя один диск, другое — когда на стойке с серверами пропадает питание, и третье — когда наводнение угрожает всему дата-центру. Принцип таков: чтобы оригинальные данные и их резервная копия не пострадали одновременно, нужно гарантировать, что реплики данных не окажутся слишком близко друг к другу (в определенной метрике).
Как рассказали в Acronis, доверенные им данные защищены от всех уровней сбоев, в том числе географической репликацией данных, к примеру, между дата-центрами в Аризоне и Франкфурте. Но подобные полные гарантии, естественно, стоят недешево. Это серьезная инженерная работа, сравнимая со строительством современного авиалайнера, с большим количеством инженерных задач, чтобы все сохранялось быстро, надежно, в пределах заданной стоимости.
В самых современных системах хранения данных задействована и нашумевшая технология блокчейн — технология распределенных реестров. Блокчейн будет играть роль контролера целостности и неизменности данных, которые когда-либо существовали, объясняет Евгений Асеев, специалист компании «Акронис-Инфозащита», партнера Acronis в России. Технология не используется для непосредственно хранения большого объема информации, но прекрасно подходит для распределенного хранения метаинформации о данных.
«Например, разумно использовать блокчейн для так называемого trusted timestamping — процесса отслеживания создания и модификации важных файлов или документов. Технология уже применяется в различных системах для наблюдения и регистрации, где целостность данных критична, а их подмена чревата серьезными последствиями», — говорит эксперт.
Отдавая данные в чужие руки, разумно спросить: а как в дата-центрах гарантируется защита данных от хакерских атак? Специфической защиты от подобных угроз для дата-центров не существует: большинство успешных хакерских атак связано с поведением людей, которые открывают фишинг-мэйлы, кликают на поддельные ссылки и оставляют там свои пароли.
Дата-центры не видны в интернете, как обычные сайты, поэтому их киберзащита зависит от внутренней архитектуры, и стандарты безопасности все время повышаются. Например, раньше связь внутри и между дата-центрами считалась приватной и не защищалась, но когда Эдвард Сноуден показал в своих документах, что такое соединение тоже прослушивается, такие гиганты, как Google и Facebook, стали шифровать все внутренние соединения своих хранилищ.
Любая компания, которая занимается хранением данных, — объект хакерских атак, поэтому туда нанимают лучших специалистов по кибербезопасности. В Acronis есть целая служба, отслеживающая все инциденты кибератак по всему миру: как они произошли, какие уязвимости в программах использовали, какие патчи уже были выпущены. Они оперативно оповещают администраторов, чтобы те установили соответствующие обновления. Такая проактивная работа — профилактика хакерских атак на дата-центры.
Данные защищены и в момент их отправки в облачное хранилище. Сегодня шифруется любая пересылка данных между компонентами современных систем. В новых поколениях процессоров зашифрованы даже данные, лежащие в оперативной памяти (технология востребована у военных и спецслужб), wi-fi соединения шифруются по умолчанию. Поэтому даже если кто-то «подслушает» сигналы, идущие по какому-нибудь проводу в дата-центр, — при этом получить физический доступ к таким каналам в обход владельца непросто само по себе, — он увидит лишь зашифрованные данные.
Насколько надежно современное шифрование? Можно сказать так: настолько, насколько надежно хранятся ключи шифрования. И это снова тема для противостояния властей и индустрии: в то время как спецслужбы хотят получить доступ ко всему, разработчики настаивают, что любое внешнее хранение ключей уменьшает надежность системы.
Так что если отбросить человеческий и политический факторы, то с технологической точки зрения данные практически не могут быть перехвачены при пересылке в облако.
Остается важный вопрос, как гарантировать необходимую скорость обмена данными: чем больше информации, тем медленнее доступ к ней. Зачастую файлы накапливаются в дата-центре постепенно, а получить их клиент хочет мгновенно. Это не всегда возможно: если нужно срочно запустить резервную копию, то для восстановления данных, загруженных в течение года, может понадобиться время – от нескольких минут до часов и даже дней.
Сервис хранения данных — всегда некий компромисс: на одном полюсе — дорогая система со стопроцентным резервированием и гарантиями по всем параметрам, включая размер канала связи, а на противоположном — дешевая, но медленная и не слишком надежная. Объем хранилища, уровень надежности и время восстановления из резервной копии — эти параметры определяются в соглашении между поставщиком дата-сервисов и клиентом, соответственно проектируются аппаратные ресурсы и подбираются программные средства, и от этого зависит цена услуг.
Это развитая экономика с огромным количеством факторов и параметров. А поскольку рост датасферы в ближайшее время и не подумает останавливаться, все мы рано или поздно окажемся участниками этого рынка, что подтверждают аналитики: по прогнозу IDC, уже в 2025 году почти половина (49 процентов) всех данных мира будет храниться в общедоступных облачных средах.