Можно ли уместить жизненный опыт на жестком диске
Человека определяет не только набор генов, доставшийся ему от родителей. Никто из нас не был бы самим собой, если бы не наш жизненный опыт — то, с кем мы росли, что видели, какие книги читали. Фантасты давно мечтают о переносе человеческого сознания в другое тело или на машинный носитель. Но мало кто из них всерьез пытался подсчитать, какой объем информации при этом нужно скопировать. В совместном проекте с компанией Western Digital мы постарались оценить, сколько жестких дисков смогут вместить все ваши воспоминания. В конце статьи вы найдете калькулятор, который поможет выполнить такой расчет.
Самую разную информацию можно представить в цифровой форме. Для этого ее нужно дискретизировать, то есть разбить на конечный набор фрагментов, и поставить каждому фрагменту в соответствие некое числовое значение. Чем больше этих значений, тем с большей точностью можно восстановить исходную информацию.
В фильме «Джонни-мнемоник» главный герой записывает себе в мозг 320 гигабайт информации — по сюжету это запредельный объем, который представляет угрозу для жизни. Возможно, в 1995 году, когда вышел фильм, такое число и казалось впечатляющим, однако сегодня оно вызывает лишь снисходительную улыбку. Но насколько корректно в принципе сравнивать возможности запоминающих устройств компьютера и человеческого мозга?
Вероятно, иллюзию их сходства создает то, что в обоих случаях мы используем слово «память». Оно вошло в обиход еще на заре вычислительной техники, когда его предложил Джон фон Нейман — венгеро-американский физик и математик, соавтор общепринятой сегодня архитектуры компьютеров с совместным хранением программ и данных в памяти. Вторая половина 1940-х годов была временем больших ожиданий. Многие ученые надеялись, что успехи в создании первых ЭВМ позволят быстро разобраться и в тонкостях устройства человеческого разума. В знаменитой «Кибернетике» Норберта Винера можно встретить утверждения, что синапсы мозга в точности подобны устройствам вычислительных машин, а идеальным средством для воссоздания нейронных сетей являются вакуумные лампы.
Даже если заменить архаичные лампы на современные транзисторы, едва ли нынешние нейрофизиологи согласятся с этими оптимистическими, но довольно наивными предположениями. По прошествии семидесяти лет, имея компьютеры, в миллиард раз более мощные, чем во времена Винера и фон Неймана, мы все равно не можем воспроизвести в «железе» сколько-нибудь существенную часть человеческого мозга.
Довольно быстро выяснилось, что сходство между компьютером и мозгом — очень поверхностное. Они слишком разные, чтобы эффективно заменять друг друга: в одних задачах компьютеры давно превзошли умнейших из людей, в других — пасуют там, где справится и ребенок. Но в чем компьютеры точно опередили нас, так это во всем, что связано с запоминанием. Они способны сохранять немыслимые для человека объемы информации, многократно воспроизводить и передавать ее без малейших искажений, осуществлять по ней эффективный поиск.
Память вычислительной машины — это максимально конкретизированная система, про которую в каждый момент времени можно сказать, что и где в ней записано. Ваш компьютер точно знает, в каких именно из миллиардов его запоминающих ячеек хранятся биты информации, определяющие цвет пикселя, на который сейчас указывает курсор вашей мыши, — впрочем, как и любого другого.
Человеческая память в сравнении с компьютерной кажется царством хаоса и распада. Мы с трудом удерживаем в уме телефонный номер, который только что прочитали, и забываем имена гостей, которых нам представили пять минут назад. Долговременные воспоминания с годами теряют детали, искажаются или вовсе пропадают. И даже если где-то в глубинах памяти они и сохранились, как же трудно порой бывает их оттуда извлечь!
Способов локализовать конкретные воспоминания в памяти сегодня просто не существует. Ни один нейрофизиолог, даже вооруженный самым совершенным томографом, не сможет вам сказать, что вон в том нейроне вашего мозга записана первая нота «Оды к радости», а вот в этом (и никак не в соседнем!) — последняя буква фамилии вашей бабушки.
Все это крайне осложняет решение стоящей перед нами задачи — количественно оценить жизненный опыт человека. В случае с компьютером мы можем измерить, с какой скоростью он получает и записывает новую информацию. Но нет такого прибора, который бы измерил, сколько информации в единицу времени получает человек, и тем более — какую ее часть он запоминает. Нужно ли считать, что люди с хорошим зрением видят больше, чем близорукие или дальнозоркие? Верно ли, что обладатели музыкального слуха извлекают из звука нечто недоступное тем, кому на ухо наступил медведь? Да и каково вообще «разрешение» органов чувств, которыми нас наделила природа?
Если попытаться поставить знак равенства между сетчаткой глаза и КМОП-матрицей с определенным количеством мегапикселей, можно прийти к неожиданным выводам. Субъективно нам кажется, что мы видим мир куда яснее, чем это способен передать даже самый лучший фотоаппарат. Но в действительности сетчатка нашего глаза имеет высокую разрешающую способность лишь на небольшом центральном участке, а вне его границ мы видим размытые контуры и приблизительные цвета. Чтобы как следует разглядеть все, что попадает в поле зрения, нам приходится совершать множество движений глазами, как бы «сканируя» объекты. Мозг запоминает увиденное и «дорисовывает» картинку в тех местах, которые мы видим недостаточно четко. В этом смысле фотоаппараты и видеокамеры, которые могут с одинаковой детализацией фиксировать все поле изображения, давно оставили человеческий глаз позади.
Попробуем подойти к проблеме с другой стороны. Ученые-когнитивисты сегодня говорят об экстернализации автобиографических воспоминаний, то есть о делегировании функций нашей памяти гаджетам, которые могут хранить за нас тексты, фотографии, видеозаписи и т. п. Существуют исследования, показывающие, что мы запоминаем меньше, если фотографируем то, на что смотрим.
Переформулируем вопрос, который мы поставили в начале текста: сколько получилось бы информации, если бы мы фиксировали все происходящее вокруг с помощью встроенного видеорегистратора?
Здесь можно возразить, что человек получает не только аудиовизуальную информацию. Есть еще обоняние, осязание, анализ положений частей тела, температурные, вестибулярные сигналы. Мы сознательно исключаем их из рассмотрения, поскольку у нас пока нет устройств, которые бы позволяли их хорошо записывать и воспроизводить. К тому же еще со времен Аристотеля именно зрение и слух считаются важнейшими из чувств.
Чтобы подсчитать, сколько данных сохранил бы воображаемый видеорегистратор за время вашей жизни, сначала необходимо договориться о качестве записи.
Полагаем, что в 2021 году большинство людей устроит разрешение видео 4K (3840 × 2160 пикселей). Для плавности движений выберем частоту 60 кадров в секунду. Звук будем писать двухканальный, с частотой дискретизации 48 кГц. Это обеспечит точное воспроизведение сигналов, имеющих частоту до 24 кГц — достаточный запас, учитывая, что большинство людей не слышит звуки выше 18 кГц. Разрядность можно также выбрать избыточную — 24 бита. Это почти 17 миллионов возможных уровней громкости (хотя эксперименты показывают, что люди не различают на слух записи с разрядностью 16 и 24 бита).
Как и в реальной технике, информацию мы будем записывать с использованием алгоритмов сжатия. Современный кодек VP9 способен сжать поток видео 4K 60 fps до 20-80 Мбит/с в зависимости от качества. Выберем 50 Мбит/с как значение, при котором потери практически незаметны на глаз. Это означает, что 1 секунда видео будет занимать на диске 6,25 МБ.
Информация о звуке потребует намного меньше места. Его можно было бы писать и в «сыром» виде (в формате WAV), но предположим, что мы используем кодек сжатия без потерь типа FLAC, который уменьшает объем звуковой дорожки примерно вдвое. Это тоже оценка сверху: в реальности значительную часть времени нас окружают тихие и монотонные звуки, которые в записи сжимаются гораздо эффективнее.
Итого получаем, что каждая секунда жизни в нашем мысленном эксперименте эквивалентна 6,4 МБ аудиовизуальной информации. Такой поток данных может передавать даже не самый современный 100-мегабитный сетевой канал.
Каждый час на воображаемом диске сохраняется 22,5 ГБ информации (на всякий случай уточним, что мы считаем в «двоичных» величинах: 1 ГБ — это 1024 МБ). Если принять время бодрствования за 16 часов, получим, что за год накапливается 128 с небольшим терабайт. Среднему россиянину, по данным статистики, чуть больше 40 лет. Итого получаем величину порядка 5100 ТБ.
Представить ее себе довольно сложно: в повседневной жизни мы не сталкиваемся с такими объемами информации. Нужен какой-то понятный эквивалент для сравнения. Возьмем самый вместительный жесткий диск, который сегодня имеется в продаже, — WD Gold 18TB с перпендикулярной магнитной записью (CMR). В нем 9 пластин емкостью 2 ТБ каждая — это значит, что в среднем воспоминания нашего соотечественника, сохраненные в качестве 4K, займут около 290 таких дисков.
Недавно Western Digital сообщила, что начинает поставки еще более емких дисков — WD Gold 20TB. Внутри — передовые технологии: блок флеш-памяти для хранения расширенных метаданных (OptiNAND), трехступенчатый привод (TSA), энергосберегающая магнитная запись (EAMR) и заполнение внутреннего объема гелием (HelioSeal®). Все это обеспечивает непревзойденную емкость при низком энергопотреблении.
Мы написали калькулятор, который выполнит такой расчет персонально для вас — с учетом возраста и некоторых индивидуальных особенностей. Не относитесь к результатам слишком серьезно: разумеется, ни жизненный опыт, ни тем более личность человека не сводится к набору байтов на жестком диске. Однако это повод задуматься о том, что каждый из нас может оставить после себя — и как сделать так, чтобы наши воспоминания хотелось пересматривать раз за разом, словно хороший фильм.
Как анализ городского трафика помогает улучшить жизнь в городе
Города умнеют. Все больше устройств собирают данные о перемещении пассажиров общественного транспорта, пешеходов, автомобилей. Речь идет не только о камерах наблюдения. Мы оставляем цифровые следы, и эти данные приносят пользу. Вместе с Tele2 рассказываем, как можно собирать данные об абонентах, обрабатывать их с помощью алгоритмов и улучшать город. Простые человеческие данные Информацию о пользователях не собирает только ленивый. Это делается и для таргетирования рекламы, и для перестроения маршрутов городского транспорта, и даже для контроля перемещений сотрудников крупных корпораций. Когда вы открываете на смартфоне карты, чтобы проверить, как далеко от остановки ближайший автобус, приложение использует систему автоматического определения местоположения транспортных средств (Auto Vehicle Location, AVL). Она запрашивает информацию о местоположении у автобуса и передает ее в центральную базу данных. Анализируя данные AVL, городские службы могут, например, перестроить или отменить какие-то маршруты. В автобусе вы оплачиваете проезд через валидатор. Данные об оплате попадают в систему, которая отслеживает количество пассажиров на маршруте и рейсе, категории пассажиров, форму оплаты и тому подобное. Затем эта информация используется транспортным агентством, чтобы определить популярные маршруты и, например, запустить дополнительные рейсы. Во время поездки вы проверяете почту и социальные сети. Приложения используют данные о местоположении для показа геотаргетированной рекламы. Например, местный ресторан может использовать рекламу с геотаргетингом для продвижения нового пункта меню среди людей в окрестностях. Все это будет сочетаться с другими вашими вкусами и предпочтениями. Если вы решили куда-то поехать не на общественном транспорте, а на собственном автомобиле, то, скорее всего, включаете навигатор и строите маршрут. Смартфон передает геоданные, направление и скорость движения автомобиля в систему. Координаты попадают на электронную схему города, где точно отображаются все здания, парки, улицы и другие объекты. И эта же информация используется для оценки загруженности дорог, перестроения маршрутов. Приехав на место, вы находите свободное парковочное место и оплачиваете его — тоже через смартфон. Приложение использует данные о местоположении, чтобы определить, где находится парковка. Данные хранятся в системе, и аналитики могут использовать их для самых разных целей. Например, высокий спрос на парковку может влиять на статистику угонов, привлекательность места для бизнеса и другие факторы. Сбором данных занимаются и сотовые операторы — информация о миллионах абонентов по всей стране и за ее пределами поступает к ним в агрегированном виде. Разумеется, для нужд города и бизнеса она используется в обезличенном виде, сегментированная на различные группы абонентов, представляющих интерес для заказчика. Так, например, город получает информацию о загруженности дорог по часам, а спортивные магазины — о маршрутах приверженцев здорового образа жизни. Магия базовых станций Информация о вашем приблизительном местоположении всегда поступает к оператору — без этого невозможно оказывать услуги связи. Ваш гаджет подключается к ближайшей базовой станции, если она одна, или к нескольким, если их много (впрочем, это происходит, даже когда вы спите и не пользуетесь смартфоном). Зная местоположение базовой станции, оператор может с точностью до нескольких сотен метров определить, где вы находитесь. Дальше больше. Ваш смартфон обладает MAC-адресом. Это уникальный набор символов — латинских букв и цифр, который используется при подключении аппарата к интернету. По первым трем группам символов MAC-адреса можно узнать информацию о производителе смартфона и сотового модуля в нем. Эти данные тоже получает оператор. Когда со смартфона вы заходите в браузер и вбиваете что-то в поисковую строку, оператор получает новую порцию информации. По поисковому запросу можно определить предпочтения абонента: любит ли он рыбалку, путешествия или автомобили и даже что хочет заказать на ужин. Приложения на смартфоне также в фоновом режиме передают данные об абоненте: музыкальные предпочтения, виды игр и другую похожую информацию. Все данные, которые вы оставляете в интернете, называются цифровым следом. Эту информацию можно объединить с партнерскими данными от других сервисов, а затем сопоставить с имеющимися у оператора данными абонентов, которые были получены на этапе заключения договора на оказание услуг связи. Персональные данные, как они определены соответствующим законом, не используются. Только самые общие: возраст, регион, пол человека. И вот уже оператор собрал колоссальный объем информации, который надо как-то «переварить». В Tele2 для решения этих задач используются алгоритмы искусственного интеллекта, которые работают с этой информацией в захешированном и полностью обезличенном виде. Но есть нюанс: информации настолько много, что существующие алгоритмы просто не способны ее адекватно обрабатывать. Это и понятно: цифровой след и геоданные у каждого абонента — это огромный массив информации. А таких абонентов миллионы. Это означает, что нужно все упрощать. На работу и обратно Скажем, для решения бизнес-задачи надо знать, где находятся участки дорог с максимальным потоком семей с маленькими детьми. Для решения задачи сперва нужно ее упростить. В этом случае специалисты Tele2 решили учитывать только абонентов, которые ездят на автомобилях из дома на работу и с работы домой. В общем случае это пиковые часы с 8 до 10 утра и с 17 до 19 вечера. Именно информация об этих людях представляет наибольший интерес для города и бизнеса. Администрация города понимает, в каких местах чаще всего образуются пробки, и пытается оптимизировать дорожную сеть. А бизнес получает информацию, которую можно использовать для перенаправления трафика. Например, после работы человека можно попробовать «заманить» в магазин или ресторан. Алгоритм, разработанный Tele2, сегментирует абонентов по возрасту, полу, интересам, районам проживания и работы, а также доходу. Когда человек едет на машине на работу или возвращается домой, его смартфон через определенные промежутки времени переподключается от одной базовой станции к другой. Информация накапливается, и благодаря этому возникает возможность выстроить приблизительный трек — упрощенный путь от одной базовой станции к другой. В данном случае значение имеют только регистрации на множестве базовых станций. Если абонент живет не в крупном городе, а в области, где покрытие сотового оператора не такое плотное, и находится в перекрытии базовых станций, его смартфон может переключаться между ними время от времени. При этом физически абонент никуда не перемещается, но со стороны может показаться, что он движется. Такая информация в расчет не берется. Кроме того, не учитываются также и данные об абонентах, которые пользуются метро. Допустим, оператор получил трек абонента — регистрации его смартфона на базовых станциях в районе Большой Полянки, Якиманки и Ленинского проспекта в Москве. Дальше возникает новая задача — соотнести его с картой города. Для этого операторы используют открытые данные Open Street Map — графы дорог. Проблема Open Street Map заключается в неполноте и относительно небольшой точности. Поэтому масштабные открытые графы дорог Tele2 дополняет коммерческими, таким образом повышая точность цифрового картографического покрытия. В результате оператор получает треки абонентов в утренние и вечерние часы в будние дни и графы автодорог. Эти две сущности в целом не совпадают: трек может показывать, что смартфон абонента в определенное время был зарегистрирован на базовой станции на Ленинском проспекте в Москве, а на самом деле человек ехал по улице Шаболовка. Поэтому в Tele2 создали алгоритм, способный по трекам абонентов и графам автодорог определять маршруты людей. Вот как это выглядит. Берутся графы автодорог в радиусе пяти километров от трека, после чего для каждого ребра графа рассчитывается расстояние, ближайшее к линиям трека с учетом всех вершин и точек. Это так называемое расстояние Фреше, то есть множество, в котором определено расстояние между парами объектов. Проще говоря, сходство между расположенными поблизости кривыми. С помощью вычисления расстояния Фреше — минимального расстояния между вершинами и ребрами графа дорог с линиями и точками трека абонента — можно получить представление о реальном перемещении людей по автодорогам. Однако если брать треки абонентов и графы автодорог, то работа алгоритма будет очень долгой. Графы могут состоять из сотен тысяч вершин и ребер, для каждого из которых нужно рассчитать расстояние Фреше с треком абонентов. Для решения этой задачи специалисты Tele2 разбили графы на небольшие взаимосвязанные компоненты (проще говоря, короткие участки дороги), но так, чтобы алгоритм не начинал рассчитывать неоптимальные или ложные маршруты. Так удалось построить тепловую карту перемещений абонентов в Москве из дома на работу и с работы домой. Польза для всех А дальше начинается самое интересное. Tele2 получил не просто карту маршрутов абонентов, а подробную карту маршрутов абонентов: какие их сегменты в какое именно время и по каким именно дорогам перемещаются. Допустим, оператор знает, что в конкретном микрорайоне живет много любителей рыбалки. Там можно поставить рекламное сообщение, например, магазина рыболовных принадлежностей. Или же бизнес может запросить данные о том, по каким дорогам ездят клиенты его конкурентов, и разместить на них билборды с собственной рекламой. Применений с точки зрения бизнеса множество. Так, предприниматели могут оценивать потенциал территорий для открытия новых точек продаж или использовать для построения собственных карт клиентских путей (Client Journey Map, CJM) и оптимизировать взаимодействие с покупателями. Банки получают информацию о сегментах потенциальных клиентов и сотрудников, которая позволяет развивать сети банковских отделений или таргетировать финансовые приложения. Компании, занимающиеся грузоперевозками, могут применять данные оператора для построения оптимальных маршрутов, определения районов, где их услуги наиболее востребованы, и создания в них дополнительных складов и сортировочных центров. Такие данные могут быть полезны не только бизнесу, но и государству. Они могут показать, какую локацию стоит развивать в первую очередь, если бюджет региона ограничен. Например, распределять социально важные объекты, чтобы не скапливались очереди. Кроме того, на основе данных об абонентах можно предсказывать, в каком районе будут востребованы велодорожки или площадки для воркаута. Tele2 может составить и портрет туриста, предоставить информацию о сегменте путешествующих абонентов. Это позволит эффективнее развивать туристическую инфраструктуру. Алгоритмы искусственного интеллекта и большие данные фактически упростили решение маркетинговых задач бизнеса и градостроительных проблем администраций городов. Если раньше требовалось проводить опросы с большими выборками, интервью, расставлять устройства-шпионы для выискивания смартфонов в карманах людей, то теперь люди сами дают информацию о себе, причем зачастую даже не задумываясь об этом. Но в конечном счете все остаются в выигрыше: автомобильные дороги медленно, но верно становятся удобнее, бизнес получает новых клиентов и увеличивает заработки, а люди находят то, что им хочется здесь и сейчас. Реклама: ООО Т2 МОБАЙЛ, ИНН 7743895280