DNA的另一种新用途——存储数据
编者按
伴随着大数据时代的来临,其中一个重要问题是如何存储数据?很可能就在不远的将来,需要存储的数据量甚至会大于存储设备的总容量。那么,有没有新的存储介质呢?
专家预测,到2020年数字信息量将达到40,000EB,如果把这些数据全部存到蓝光光碟中,碟片的重量将与424艘尼米兹航母相当。目前几乎所有的数字数据存储技术都只能持续有限的时间,内存卡和芯片可持续约5年,标准硬盘会因为高温、湿气、磁场或机械故障而损坏,比硬盘更好的固态硬盘如果长期不接入电源也可能丢失信息。因此,人们一直在寻找高容量、高密度并能够承受极端环境条件的数据存储介质。
脱氧核糖核酸(DNA)给了人们启发,DNA有高密度的信息编码容量,在普通条件下有很长的寿命,而且自然界已经利用DNA携带遗传信息了,科学家开始关注利用DNA作为存储介质的可行性。
1. DNA数据存储的原理
学过计算机的人都知道,任何数字信息都是由0和1构成的二进制编码。而DNA由A、C、G、T四个基本碱基单元组成。因此,将数据保存在DNA之中需要将0和1数据通过一定的编码方法转换为4种核苷酸,即碱基组成的序列。随后通过合成包含这些序列的DNA便可将数字信息保存了。
利用DNA分子进行信息存取的想法早在60年代就已出现,但由于DNA信息的读写较为困难,直到1988年才开始出现利用DNA保存少量信息的实验性工作,不能大规模应用。随着二代测序技术的发展,出现了真正具有突破性进展的DNA存储工作。2012年,哈佛大学和麻省理工学院的著名遗传学家乔治·丘奇(George Church),即CRISPR基因编辑技术发明人之一,采用一种新型编码方案,用DNA来存储任意数字信息,并将研究成果发表在了《科学》杂志上。这项工作中存储的数据是丘奇自己写的一本书,数据读出则利用PCR先扩增序列再用二代测序仪测序,最后成功恢复了原始数据文件,整本书籍5.27M位中仅有10位错误。
图1 技术George Church采用的DNA数据存取方案示意图
2016年,微软公司曾与Twist Bioscience签订协议订购了约1000万条DNA产品,用于测试DNA数据存储能力。同年七月份微软和华盛顿大学的研究人员宣布自己成功利用这些DNA完成了约200MB数据的保存工作,这也是数字数据一次性写入DNA的最大数据量。其中包括《战争与和平》以及99部经典文学作品,摇滚乐队的高清音乐视频、《世界人权宣言》、数字图书馆“古腾堡工程”排名前100位的电子书、以及全球作物多样性信托基金的种子数据库等。今年四月份,微软公司再一次购买了1000万条DNA序列,以对DNA存储进行进一步研究。
2. DNA数据存储的优点
相比传统的存储介质,DNA存储有存储密度高、保存时间长、能耗低等特点。DNA进行数据存储的密度与现时的硬盘、U盘、记忆卡相比是非常惊人的,目前已经实际达到的数据密度为每克DNA可存储215 PB的信息。
DNA也有着很好的耐久性。硬盘或U盘会在几年内失去作用,磁带能存在几十年,DVD和其他光盘可以持续存在约一个世纪,DNA数据存储可以持续2000年且不会变质。2015年苏黎世联邦理工学院研究人员测试了DNA储存信息的持久性,将数据信息采用一种错误校正编码保存到DNA中后,在70°C条件下放置一周仍可无错恢复数据,相当于10°C 条件下存储2000年,估计在-18°C条件下经二百万年仍可恢复数据。保存DNA也非常容易,可以在没有电的干冷阴暗条件下长期保存,几乎不需要维护,也不会破坏生态环境。
DNA存储非常适合于一些不常用却需要长期保存的信息,譬如政府文件、病人的临床信息、研究项目数据、历史档案、个人视频等。
3.DNA数据存储的短板
不过,跟所有新兴技术发展早期一样,DNA存储目前也存在不少亟需克服的短板。
其一,DNA存储写入速度慢,费用高。微软和华盛顿大学的科学家们需要两周时间存储200MB的数据,而普通的U盘或硬盘几秒钟即可搞定。负责合成这些DNA的Twist Bioscience公司通常每碱基价格为10美分,商用合成技术的成本最低可以达到每碱基0.04美分,但碱基都是以百万计的,因而总价不菲。
其二,DNA数据的随机存取仍是个问题。要读取一个字节数据,通常需要将整个DNA库中的序列进行测序解码。微软研究人员测试了一种随机读取数据的方案,伊利诺伊大学的亚兹迪(Yazdi)也开发了一种可重写的DNA文本数据随机访问存储系统。要完全解决DNA数据的随机存取问题仍需进一步研究。
总而言之,尽管DNA数据存储的概念非常新颖,但是该技术从实验室研究阶段走向日常应用还需要数年、甚至数十年的研究和发展。目前DNA合成和测序的花费每年仍以指数形式下降,预计随着DNA读写成本的大幅降低,DNA存储或许会成为长期存储数据的一种选择,DNA存储技术也有望进入寻常百姓家。
作者简介
蔡晓辉,生物信息学博士,副研究员,上海生物信息技术研究中心生命科学数据中心主任。
责任编辑:刘小玲