Когда данные с устройств Интернета вещей захлестнут дата-центры
Любой объект с чипом для сбора и передачи информации, от фитнес-браслета до промышленного оборудования, — часть огромного Интернета вещей, Internet of Things. Эти вещи не только измеряют пульс, они еще собирают данные. И этих данных слишком много: 220 зеттабайт данных в одном только 2016 году. N + 1 совместно с компанией «Акронис-инфозащита» рассказывает, как Интернет вещей требует перестроить всю существующую инфраструктуру передачи, хранения и анализа данных.
Городские проекты интернета вещей, например умные контроллеры светофоров в Лос-Анджелесе, регулирующие движение с учетом данных о текущем трафике, облегчают жизнь обитателям крупных городов. Потребительский интернет вещей — конечному пользователю. Промышленный IoT — бизнесу. Так, датчики в станках сообщают об износе узлов оборудования, чтобы его заблаговременно отремонтировали. Производитель избегает простоев.
Компании анализируют данные, собираемые с датчиков в режиме реального времени, чтобы выявить закономерности и улучшить бизнес-процессы и конечный продукт. Прекрасный пример — компания GE Aviation, производитель реактивных двигателей семьи Ge90 для Boeing-777. В лаборатории она воссоздает условия полета, проверяя покрытия для деталей. Несколько датчиков отдают данные раз в секунду, а длится тестирование несколько месяцев. Итог — десятки миллионов однородных данных. Компания анализирует их и даже прогнозирует потенциальные проблемы, сообразуясь со своими выводами. Команда лаборатории экономит время, а продукт быстрее выходит на рынок.
Огромный рынок интернета вещей не прекращает расти: по прогнозам, к концу 2021 года в интернет вещей будут входить 25 миллиардов устройств. PwC выделяет ключевые факторы роста индустрии: совершенствуется обработка big data искусственным интеллектом, снижаются цены на сенсоры и аппаратное обеспечение, а также на услуги связи, развиваются облачные и краевые вычисления… Правда, последнее — не столько фактор роста, сколько попытка предотвратить проблему.
К 2020 году устройства интернета вещей предположительно сгенерируют 850 зеттабайт данных. Да, один зеттабайт — это более 11 миллиардов копий всех сезонов «Игры престолов» в среднем разрешении. По полторы копии для каждого из живущих сегодня на свете.
Полезной и, следовательно, сохраненной из этих 850 зеттабайт будущего окажется только десятая часть. Но даже она в четыре раза превышает современные возможности трафика дата-центров — они способны обработать всего 21 зеттабайт в год. Традиционная сетевая архитектура — централизованная — не выдержит такого напора. 74 зеттабайта данных, которые потребуется где-то собирать, хранить и обрабатывать, возьмут на себя периферийные дата-центры.
Централизованная архитектура сети подразумевает, что всю информацию обрабатывает и хранит центр. Хоть в станке, хоть в микроволновке устройства подключены к интернету по Wi-Fi, Bluetooth, NFC... Они отдают всю информацию шлюзу, который по одному из протоколов перекидывает их дата-центру. Тот производит вычисления и возвращает информацию конечному устройству через шлюз. Когда центр соберет крупный массив данных, он исследует его, чтобы составить статистику или вычислить закономерности.
Например, в дешевый фитнес-трекер встроен трехмерный акселерометр. По Bluetooth он отдает информацию приложению на смартфоне или компьютере, которое анализирует и преобразовывает ее. Вы видите, что опять плохо спали и не прошли проклятые десять тысяч шагов, а приложение тем временем сообщает, как у вас дела, разработчику трекера и приложения. Он может анализировать данные, передать их партнерам или даже продать кому-то — читайте пользовательское соглашение.
Иногда хранит и обрабатывает информацию, что нашептал счетчик, «облачный» дата-центр. Но принцип тот же. И проблемы те же: централизованная архитектура интернета вещей требует большой пропускной способности, — большого объема информации, которую можно передать за раз, — быстрого соединения и высокой скорости обработки поступающих данных, тем более что поток маленьких сообщений требует больше мощности, чем сопоставимое по количеству бит, но одно огромное сообщение. Есть еще проблема приоритизации — какие сообщения важнее и требуют внимания в первую очередь — скажем, от датчика температуры или от анализатора воздуха? А ведь все чаще данные еще и зашифровываются.
Добавим сюда проблему «последней мили» — скорости соединения, по которому конечное устройство отдает информацию шлюзу и получает от него. Чем больше устройств интернета вещей, а значит, и данных, тем острее проблема с их передачей.
В общем, без наращивания мощности — и перестройки архитектуры — задержки и, что еще важнее, нарастание задержек, неминуемы.
Чтобы холодильник не зависал, а заказывал сыр вовремя, крупный вычислительный центр лучше разделить на несколько поменьше, но поближе к пользователю — пусть часть расчетов происходят не в центре, а на периферии. В принципе, это происходит уже сейчас. Посмотрим, какие есть варианты.
Часть работы по анализу информации возьмут на себя конечные устройства IoT. Сейчас индустрия условно делит датчики на «простые», «интеллектуальные» и «умные». «Простой» только фиксирует и передает информацию. Его легко контролировать, и он недорого обходится. Граница между «интеллектуальными» и «умными» датчиками размыта. По идее, «интеллектуальный» датчик способен преобразовать данные для передачи и отреагировать на них одним из заданных способов, а «умный» — обработать, принять решение и реализовать его на локальном уровне, не советуясь с центром. Первое название указывает скорее на функциональные возможности, второе — на конструкцию. В любом случае, гаджеты, способные «думать» сами, уменьшат количество данных, требующих передачи центру.
Следующий шаг распределенной архитектуры — передать основные вычисления из центра шлюзам, небольшим дата-центрам. Апогей такого подхода — грид-вычисления, с помощью высокоскоростной связи объединяющие обычные компьютеры в разных точках в единый «суперкомпьютер». Грид-вычисления используют в научных волонтерских проектах, например в проекте Asteroids @ home. Чтобы присоединиться к сети грид-вычислений, доброволец скачивает специальное приложение. Оно работает в фоновом режиме, а вместе сеть из тысяч компьютеров ведет свои вычисления ради общей цели.
Распределенная архитектура вычислений подразумевает, что дата-центры на периферии сортируют данные, принимают неотложные решения и возвращают их обратно конечному устройству. А заодно берут на себя ответственность за то, какие данные передавать дальше, дата-центру.
Периферийные дата-центры могут быть физическими или небольшими «облаками», которые выполняют ту же функцию. Такая архитектура сети называется «туманной», а периферийные шлюзы — «узлами тумана».
Распределенная архитектура обладает рядом специфических преимуществ перед традиционной — централизованной. Так, задержка передачи данных в распределенной архитектуре меньше, а пропускная способность выше. Периферийные дата-центры можно располагать ближе к конечным пользователям, экономя время на передачу данных. Чем больше вычислений возьмут на себя конечное устройство и периферийный «узел тумана», тем меньше информации придется передавать дата-центру.
Периферийные вычисления полезны там, где решения нужно принимать очень быстро или пропускная способность сети не очень высока. Например, морские нефтяные вышки могут собирать данные с датчиков и анализировать на периферии. Если расположить периферийный центр обработки данных в сельском районе с плохой связью, он проанализирует данные с носимых медицинских устройств пациентов, чтобы оперативно поставить диагноз и назначить лечение, а в центр отдаст целый мешок информации, когда соединение улучшится.
Еще комплекс из умных гаджетов и «узлов» позволяет быстрее масштабировать систему. Компании достаточно добавить новые ресурсы в распределенную сеть, не увеличивая основной дата-центр.
Кроме того, распределенные системы бизнесу проще защищать. Компьютерная безопасность — пока что крупная проблема IoT. Потенциальных угроз слишком много: DDos-атаки (переизбыток входящего трафика, который парализует систему), PDoS-атаки (программа-злоумышленник, из-за которой устройство перестает работать), перехваты устройств.
Защита данных особенно актуальна, когда вспоминаешь, что в будущем устройства интернета вещей сменят способ подключения к интернету. Операторы беспроводной связи уже разворачивают сети 5G. Они обеспечат большую скорость передачи данных, но, например, домашние IoT-устройства будут подключаться не через маршрутизатор Wi-Fi, а напрямую.
Сейчас маршрутизатор — первая линия защиты конечных устройств: около 75 процентов атак на IoT приходится на роутеры. Так, брандмауэр защищает систему от несанкционированного доступа, анализируя входящий и исходящий трафик. Нет роутера — нет первого барьера. Вдобавок всякая новая технология — это и новые уязвимые места.
Чтобы обеспечить безопасность периферийной архитектуры вычислений, придется приложить усилия: важные данные рассредоточены по всей сети, а не стремятся в центр, значит, компания должна выстроить систему защиты целой сети. С другой стороны, чем меньше путь проходит информация, тем сложнее успеть ее перехватить. Чем разветвленнее сеть передачи данных, тем проще отключить только проблемный отрезок, не отрубая «центр». Злоумышленники не смогут полностью отключить систему. А о конечных устройствах позаботятся сами пользователи.
Прощай, огромный дата-центр, вычисления перемещаются ближе к нам, чтобы микроволновка быстрее соображала.
Валентина Петрова