Ученым удалось сохранить в ДНК 151 килобайт картинок

Сотрудники исследовательского подразделения Microsoft и Вашингтонского университета усовершенствовали методику хранения данных в молекулах ДНК. В эксперименте им удалось сохранить и впоследствии прочитать четыре графических файла размером от пяти до 24 килобайт. Результаты работы опубликованы в ASPLOS.

Хранение цифровой информации в ДНК привлекает ученых из-за высокой плотности (по примерным расчетам — до эксабайта, или миллиарда гигабайт, на кубический миллиметр) и надежности (период полужизни более 500 лет). Обращение к хранилищу производится существующими методиками синтеза ДНК (запись), ПЦР-амплификации и секвенирования (считывание). Пока эти технологии слишком дороги, но их стоимость быстро снижается.

Физической единицей хранения данных является последовательность из 100—200 нуклеотидов, содержащих 50—100 бит. Соответственно, для хранения объекта данных (например, файла) понадобится множество таких фрагментов, собранных в пул. Исследовали выбрали простую архитектуру ключ-значение (имя файла — содержимое файла). Ключом служит пара праймеров ПЦР, указывающих, какие именно фрагменты ДНК подлежат считыванию, то есть позволяющих проводить адресацию с произвольным доступом.

Еще одна проблема, стоявшая перед учеными, заключается в том, что существующие технологии синтеза и секвенирования ДНК не защищены от ошибок, которые составляют до одного процента нуклеотидной последовательности. Чтобы преодолеть ее использовали модифицированное кодирование Голдмэна. Каждый олигонуклеотид с праймерами сохраняли в трех копиях. Доступ к ним производили с помощью логического оператора XOR, который позволяет по двум любым фрагментам ДНК восстановить третий. Исследователи отмечают, что уровень такой избыточности хранения поддается настройке для достижения необходимой точности воспроизведения данных.

В ходе эксперимента ученым удалось записать в ДНК четыре графических файла. Каждый файл сохранили в двух копиях — кодированием Голдмэна и XOR-кодированием. В сумме восемь операций записи произвели 45 652 последовательности из 120 нуклеотидов общей емкостью 151 килобайт. После этого файлы успешно восстановили.

«Кремниевые технологии, разработанные компьютерной индустрией, внесли значительный вклад в развитие биотехнологий. Возможно, сейчас приходит время отдать долг», — пишут исследователи.

Олег Лищук