知识就是力量,并在21 日世纪那些谁控制数据控制世界。我们每天创建463艾字节的数据。您知道那些书大小的10 TB硬盘驱动器吗?一个Exa的数据量与包含460万本书大小的硬盘的库一样多(请查看Raconteur上的此便捷信息图)stylechina.com。令人难以置信的是,我们正在制作的数据超出了我们合理存储的数量。这为数据和生物技术提出了一个长期的存储和归档问题。
DNA就是数据
在我们每个单元格中都包含着使整个人类成长的指令。这些指令被编码到我们的DNA分子中,即由字母A,T,G和C代表的一长串化学核苷酸碱基。当DNA测序使我们能够在1970年代阅读这些字母时,一个日本人小组建议高级种族可能会留下一个常见病毒(例如phi X147噬菌体)的基因组中传达给人类的信息。对该病毒进行测序时未发现此类信息,但是DNA编码的想法被卡住了。DNA可以成为未来的数据存储吗?
计算机和有机电池有很多共同点。在计算机中,信息以称为位,1和0的数字字符串编码,读取时执行程序。在细胞中,信息存储在四个核碱基字母中,这些字母在读取时会产生蛋白质。计算机数据以字节为单位。一个字节有8位,千字节有1000位,依此类推。还记得一个EB基本上是一个装满书的房间吗?现在想象一下,DNA的每个字母代表两位信息,其中A = 00,T = 01,C = 10和G =11。在一个DNA分子中,艾字节的DNA数据可以存储在一个立方毫米中。
将核苷酸转换为位
哈佛大学的乔治·丘奇教授将DNA数据存储的想法推向前进。2012年,他的团队将一本52,000字的书转换成了DNA字符串。他们证明了DNA可以存储数据的原理,但是他们发现该方法限制了DNA可以存储的信息量。由于DNA会断裂和降解,因此单个核苷酸的理论极限是存储1.8位数据。教会的团队用他们的早期方法实现的能力不足一半。
2017年,纽约基因组中心的Yaniv Erlich博士和Dina Zielinski博士取得了突破。认识到DNA合成的局限性,他们将六个文件转换为二进制代码串,并开发了一种称为DNA Fountain的算法来处理DNA编码信息。DNA喷泉将这些字符串随机分成200个碱基对的DNA字符串的“液滴”,这对于无错误的DNA合成来说是一个合理的长度,在此长度之后可能会产生错误。DNA字符串的两侧还带有标签,以帮助重组片段。然后将总共72,000条的数字DNA链发送出去进行合成。
领先的大型DNA合成公司Twist Bioscience合成了DNA,并在两周后将片段送回。Erlich和Zielinski发送了DNA进行测序,并通过计算机程序将这些代码重新编码为二进制代码,并使用这些标签作为重新组装的指南。结果是完美的。Erlich估计他们的方法每个核苷酸编码1.6位信息。
行业方法
将DNA转换为数据需要大量的DNA,传统上合成这些DNA既不容易也不便宜。Twist Bioscience开发了一种用于DNA合成的放大方法,该方法更适合满足DNA数据存储的需求。Microsoft和Twist合作,在2016年创下了200 MB的DNA数据存储记录。最近,Microsoft和华盛顿大学展示了一个完全自动化的系统来存储和检索DNA数据-在这种情况下为“ hello”一词-使技术更接近其在数据中心中的应用。
这些方法使用DNA碱基将信息存储在字符串中,例如计算机中的位字符串。但是,这种方法在目前的DNA合成成本方面仍然非常昂贵。DNA也不是绝对可靠的。在组装或读取DNA链时缺少碱基,数据可能会损坏。如果要开发该技术来像计算机一样轻松地读取和写入信息,则需要解决这些问题。幸运的是,由于DNA是我们遗传蓝图的天然数据存储系统,因此自然界已经开发出了一系列保护措施,以使我们的DNA保持秩序,这激发了一种新的DNA数据存储方法。
今年早些时候,DNA数据存储公司Catalog通过将英语的所有Wikipedia编码为DNA,打破了Microsoft在DNA数据存储方面的记录。那是16 GB的数据。他们通过对DNA如何存储数据的看法完全不同来做到这一点。目录不是将每个字母编码为两位数据的组合,而是以不同的位组合对几个DNA字母进行编码,它们称为“标识符”。它们被稳定地存储并可以重新排列,就像可移动字体一样,而不是简单地编码长数据字符串。研究人员可以按照编码数据的顺序来组合这些标识符,从而使它们能够以每秒4兆比特的速率写入DNA数据。
我们现在还没有基于DNA的计算机。改进技术的关键是降低DNA合成的成本并通过自动化读取信息。当前这是一个缓慢的过程,但是对于存档数据和进行持久备份可能仍然有用。鉴于DNA 的半衰期为521年,它在结构上适合于长时间存储信息。也许我们可以构建一个包含人类所有当前知识(包括猫图片)的DNA时间囊,然后将其爆炸到太空中或埋在火星上,以供后代发现。