丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
國際 正文
發(fā)私信給章敏
發(fā)送

1

Nature:如何用一公斤的DNA滿足全球的信息儲(chǔ)存需求?

本文作者: 章敏 2016-09-05 18:11
導(dǎo)語:現(xiàn)代的歸檔技術(shù)無法跟上日益增長的信息海嘯。但大自然可能早就有了該問題的答案。

導(dǎo)讀:現(xiàn)代的歸檔技術(shù)已無法跟上日益增長的信息海嘯。但大自然可能早就有了該問題的答案。

Nature:如何用一公斤的DNA滿足全球的信息儲(chǔ)存需求?

DNA如何存儲(chǔ)下整個(gè)世界的數(shù)據(jù)

對(duì)于英國欣克斯頓歐洲生物信息研究所(EBI)組長Nick Goldman來說,在DNA中編碼數(shù)據(jù)的想法是從一個(gè)玩笑開始的。

2011年2月16號(hào)星期三,Goldman正在德國漢堡的一家酒店中,與他的一些生物信息學(xué)家同事談?wù)撊绾螌⒋罅楷F(xiàn)有的基因組序列和其他被世界遺棄的數(shù)據(jù)儲(chǔ)存到DNA中。他記得,當(dāng)時(shí)科學(xué)家們對(duì)傳統(tǒng)計(jì)算技術(shù)的成本和局限性感到非常沮喪,他們開始用科幻的替代品開玩笑。“我們思考,是什么阻礙了我們使用DNA來存儲(chǔ)信息?”

隨后玩笑終止了。Goldman回憶道:“這是醍醐灌頂?shù)臅r(shí)刻”。

的確,在硅存儲(chǔ)器芯片中讀取或?qū)懭霐?shù)據(jù)方面,DNA存儲(chǔ)與硅存儲(chǔ)的微秒級(jí)時(shí)間尺度相比慢的可憐。人工合成特定模式的DNA字符串需要幾個(gè)小時(shí)來編碼數(shù)據(jù),還要更多的時(shí)間去使用測序機(jī)恢復(fù)信息。但DNA將整個(gè)人類的基因組納入到了一個(gè)肉眼看不見的細(xì)胞中。對(duì)于信息存儲(chǔ)的純粹密度,DNA可能超越了硅幾個(gè)數(shù)量級(jí)—對(duì)于長期歸檔來說趨于完美。

Goldman回憶,當(dāng)時(shí)他們拿著餐巾紙和圓珠筆坐在酒吧里,開始梳理想法:“想要實(shí)現(xiàn)該想法,你需要做些什么?”研究員最大的顧慮是往往每100個(gè)核苷酸就有一個(gè)1個(gè)DNA合成和測序錯(cuò)誤。這將使大規(guī)模的數(shù)據(jù)存儲(chǔ)變得完全不可靠——除非他們可以找到一個(gè)有效的錯(cuò)誤糾正方案。他們能否以允許它們檢測并糾正錯(cuò)誤的方式,將信息編碼到一個(gè)堿基對(duì)?在整個(gè)夜晚的討論結(jié)束后,Goldman覺得他們找到了方向。

他和他的EBI同事Ewan Birney將該想法帶入了實(shí)驗(yàn)室,且兩年后宣布到他們已經(jīng)成功的使用DNA編碼了五個(gè)文檔,包括莎士比亞的十四行詩和馬丁·路德·金“我有一個(gè)夢想”演講中的一部分。隨后,生物學(xué)家George Church和他在馬薩諸塞州,劍橋,哈佛大學(xué)的團(tuán)隊(duì),推出了一個(gè)獨(dú)立的DNA編碼演示。但739千字節(jié)(KB)是EBI曾制造出的最大DNA檔案文件——直到2016年7月,微軟和華盛頓大學(xué)的研究人員宣稱研究飛躍到了200兆字節(jié)(MB)。

傳統(tǒng)的存儲(chǔ)介質(zhì)并非長遠(yuǎn)之計(jì)

最新的實(shí)驗(yàn)表明,使用DNA作為存儲(chǔ)介質(zhì)的興趣遠(yuǎn)遠(yuǎn)出了基因組:整個(gè)世界正面臨著一個(gè)數(shù)據(jù)壓縮挑戰(zhàn)。統(tǒng)計(jì)所有的天文圖片和YouTube視頻的期刊文章,到2020年,全球數(shù)字檔案館將達(dá)到大約44兆千兆字節(jié)(GB),相比于2013增長超過了十倍。2040,如果一切的東西都以即時(shí)訪問的方式存儲(chǔ),如,用于記憶棒中的閃存芯片,存檔將會(huì)比預(yù)期多消耗10–100倍的微芯片級(jí)硅。

這也是為什么很少被訪問數(shù)據(jù)的永久檔案,目前依賴于老式磁帶的原因之一。這個(gè)媒介打包的信息可以比硅更密集,但閱讀速度要慢得多。然而,在華盛頓DC的美國情報(bào)高級(jí)研究項(xiàng)目活動(dòng)(IARPA)的計(jì)算神經(jīng)科學(xué)家David Markowitz指出:‘’這種方法并非長久之計(jì)‘’。他說:‘'可以想象出磁帶驅(qū)動(dòng)器上有一個(gè)擁有艾字節(jié)(十億字節(jié))的數(shù)據(jù)中心會(huì)是什么樣子。‘’但這樣的一個(gè)中心將需要10億美元資的金,以及10年以上的時(shí)間來建設(shè)和維護(hù),還需要數(shù)百兆瓦的電力。Markowitz說道“分子數(shù)據(jù)存儲(chǔ)有潛力將這些所有的要求減少三個(gè)數(shù)量級(jí)”如果信息可以被密集包裝至存入到大腸桿菌的基因中,那么只要約一公斤的DNA就可以滿足世界的存儲(chǔ)需求。

 Nature:如何用一公斤的DNA滿足全球的信息儲(chǔ)存需求?

要實(shí)現(xiàn)這種潛力并不簡單。在DNA可以成為傳統(tǒng)存儲(chǔ)技術(shù)的競爭對(duì)手之前,研究人員將不得不克服許多挑戰(zhàn),從在DNA中可靠的編碼信息和只檢索用戶需要的信息,到使核苷酸字符串足夠便宜且迅速。

但是,迎接這些挑戰(zhàn)的努力正在加快。半導(dǎo)體研究公司(SRC),在Durham,北卡羅萊納的一個(gè)基金會(huì)——由芯片制造企業(yè)聯(lián)盟支持,正重返DNA存儲(chǔ)研究工作。Goldman 和Birney有英國政府撥款研究下一代DNA存儲(chǔ)方法,并計(jì)劃成立一個(gè)公司來進(jìn)行他們的研究。在4月份,IARPA和SRC舉辦了一場針對(duì)學(xué)術(shù)界和產(chǎn)業(yè)界研究人員的研討會(huì),包括來自如IBM公司,和直接研究該領(lǐng)域的研究人員。

SRC主任和首席科學(xué)家Victor Zhirnov說道:

“十年來,我們一直在尋找超越硅的數(shù)據(jù)歸檔。”


“這是很難替代的。但是,DNA,是最強(qiáng)的候選人之一,看起來可能會(huì)發(fā)生?!?/p>

長期記憶

第一個(gè)詳細(xì)規(guī)劃數(shù)字?jǐn)?shù)據(jù)1和0到四個(gè)DNA堿基對(duì)的人是藝術(shù)家Joe Davis,在1988年與來自哈佛大學(xué)的研究人員合作,它們插入到大腸桿菌中的DNA序列僅編碼35位。當(dāng)組成一個(gè)5×7矩陣時(shí),1對(duì)應(yīng)于暗像素而0對(duì)應(yīng)亮像素,他們形成了一幅古日耳曼符文代表著生命和女性地球的畫面。

如今,Davis隸屬于 Church實(shí)驗(yàn)室,它在2011開始探索DNA數(shù)據(jù)存儲(chǔ)。哈佛大學(xué)的研究小組希望應(yīng)用程序可以有助于降低合成DNA的成本,因?yàn)榛蚪M學(xué)降低了測序的成本。Church在2011年11月與Sri Kosuri(現(xiàn)在在加利福尼亞大學(xué),洛杉磯)和基因組學(xué)專家Yuan Gao(現(xiàn)在在巴爾的摩馬里蘭州的約翰霍普金斯大學(xué))進(jìn)行了概念證明實(shí)驗(yàn)。研究小組使用許多短DNA序列編碼一個(gè)659 kb版本的書(由Church共同撰寫)。每個(gè)字符串的一部分都是一個(gè)地址,該地址指定了測序后碎片應(yīng)該如何安排,還有其余包含的數(shù)據(jù)。二進(jìn)制0可以通過堿基腺嘌呤或胞嘧啶進(jìn)行編碼,而二進(jìn)制編碼1可由鳥嘌呤胸腺嘧啶表示。這種靈活性有助于團(tuán)隊(duì)進(jìn)行序列設(shè)計(jì)時(shí)避免讀取問題,它可在含有大量鳥嘌呤和胞嘧啶的區(qū)域發(fā)生,部分地區(qū)重復(fù)發(fā)生,或連接到另一個(gè)使字符串折疊延伸。他們沒有嚴(yán)格意義上的錯(cuò)誤修正,而是依賴于由每個(gè)個(gè)體字符串的多個(gè)復(fù)制品提供的冗余。因此,測序后的字符串中,Kosuri,Church和Gao發(fā)現(xiàn)了22個(gè)錯(cuò)誤——離可靠的數(shù)據(jù)存儲(chǔ)還差很遠(yuǎn)。

在EBI,與此同時(shí),Goldman,Birney和他們的同事也用了許多DNA字符串編碼他們的739 KB數(shù)據(jù)存儲(chǔ),其中包括一個(gè)圖像,ASCII文本,音頻文件和Watson和Crick PDF版的標(biāo)志性論文——DNA的雙螺旋結(jié)構(gòu)。為了避免重復(fù)堿基和其它的誤差源,EBI領(lǐng)導(dǎo)的團(tuán)隊(duì)使用了一個(gè)更復(fù)雜的方案。一方面涉及到不像二進(jìn)制編碼數(shù)據(jù)1和0,而是三個(gè)堿基——相當(dāng)于0,1和2。然后,他們不斷旋轉(zhuǎn),其中的DNA堿基代表每一個(gè)數(shù)字,以避免在讀取過程中可能導(dǎo)致問題的序列。通過重疊。100-堿基-長度字符串由25個(gè)堿基逐步轉(zhuǎn)移,EBI科學(xué)家也保證會(huì)有四個(gè)版本——每個(gè)有25-堿基的部分,用于錯(cuò)誤檢查和彼此對(duì)照。

 Nature:如何用一公斤的DNA滿足全球的信息儲(chǔ)存需求?


但最終的結(jié)果是,他們還是失去了25個(gè)堿基序列中的2個(gè)——湊巧的是,這兩個(gè)文件正好是Watson和Crick的部分文件。然而,這些結(jié)果說服了Goldman,DNA有潛力作為一個(gè)便宜的、長期的數(shù)據(jù)存儲(chǔ)庫——只需要很少的能量存儲(chǔ)。為了衡量什么是長期,他指出了2013公布的馬基因組——從一個(gè)被困在凍土700000多年的骨頭中解碼出。他說:

“在數(shù)據(jù)中心,三年后沒有人會(huì)相信一個(gè)硬盤”。


“在最多十年后,沒有人會(huì)相信磁帶。你想要一個(gè)比這更安全的復(fù)雜品 ,一旦我們可以得到那些DNA上寫的東西,你就可以把它放在一個(gè)洞穴,而且在到你想讀它之前都可以不用管它?!?/p>

一個(gè)新興的領(lǐng)域

這種可能性已經(jīng)吸引了計(jì)算機(jī)科學(xué)家Luis Ceze(來自華盛頓大學(xué))和Karin Strauss(在華盛頓,雷德蒙德微軟研究院),自從他們?cè)?013參觀英國時(shí)聽到Goldman討論EBI工作后。Strauss說到:

“DNA的密度,穩(wěn)定性和成熟度使我們很興奮”

在他們返回華盛頓后,Strauss和Ceze與華盛頓大學(xué)的合作者Georg Seelig開始了研究。他們的主要關(guān)注點(diǎn)之一是另一個(gè)主要的缺點(diǎn)——遠(yuǎn)遠(yuǎn)超越了DNA對(duì)于錯(cuò)誤的脆弱性。使用標(biāo)準(zhǔn)的排序方法,在不檢索所有的數(shù)據(jù)情況下,根本沒有辦法可以檢索其中任何一塊的數(shù)據(jù):每一個(gè)DNA鏈都要被讀取。這比傳統(tǒng)的計(jì)算機(jī)內(nèi)存更加麻煩,傳統(tǒng)的計(jì)算機(jī)內(nèi)存允許隨機(jī)存?。河心芰χ蛔x取一個(gè)用戶需要的數(shù)據(jù)。

四月初,團(tuán)隊(duì)在佐治亞州亞特蘭大召開的會(huì)議上概述了其解決方案。研究人員開始從他們的DNA檔案中提取微小樣本。然后,他們使用聚合酶鏈反應(yīng)(PCR),以確定和作出更多的字符串復(fù)制品以編碼他們想提取的數(shù)據(jù)。復(fù)制品的擴(kuò)散使得測序比以前的方法更快,更便宜,更準(zhǔn)確。該小組還設(shè)計(jì)了一個(gè)替代的糾錯(cuò)方案,組織表示允許數(shù)據(jù)編碼為EBI的兩倍重,但但一樣可靠。

微軟–華盛頓大學(xué)研究人員示范存儲(chǔ)了151 KB的圖像,在一個(gè)單一的字符串池中,一些使用EBI的方法編碼而一些使用他們的新方法編碼。他們采用類似EBI的方法提取了三個(gè)東西,—只貓、悉尼歌劇院和卡通猴,得到一個(gè)他們需要手動(dòng)糾正的讀取錯(cuò)誤。他們也使用了他們的新方法讀取悉尼歌劇院的圖片,沒有發(fā)現(xiàn)任何錯(cuò)誤。

經(jīng)濟(jì)學(xué)與化學(xué)

在伊利諾伊大學(xué)香檳分校的計(jì)算機(jī)科學(xué)家Olgica Milenkovic和她的同事們已經(jīng)開發(fā)了一個(gè)隨機(jī)訪問方法,同樣確保了他們可以重新寫入編碼數(shù)據(jù)。他們的方法將存儲(chǔ)數(shù)據(jù)為長的DNA字符串,在其兩端都有地址序列。研究人員用這些地址進(jìn)行選擇、放大并使用PCR或基因編輯技術(shù)CRISPR–Cas9重寫字符串。

地址必須避免妨礙閱讀的序列,同時(shí)彼此也要有足夠的不同,以防止他們?cè)诔霈F(xiàn)錯(cuò)誤的時(shí)候被混淆,并避免如由于他們的序列包含延伸識(shí)別和綁定到對(duì)方(采取了加強(qiáng)計(jì)算)導(dǎo)致的分子折疊問題。Milenkovic說道“開始時(shí),我們使用計(jì)算機(jī)搜索,因?yàn)檎娴暮茈y想出擁有所有這些屬性的東西” 她的團(tuán)隊(duì)現(xiàn)在已經(jīng)用數(shù)學(xué)公式取代了這個(gè)勞動(dòng)—密集的過程,使他們能夠更快速地設(shè)計(jì)一種編碼方案。

 Nature:如何用一公斤的DNA滿足全球的信息儲(chǔ)存需求?

Kosuri說:“DNA數(shù)據(jù)存儲(chǔ)的其他挑戰(zhàn)是合成分子的規(guī)模和速度”他承認(rèn)由于這個(gè)理由,他對(duì)該想法并不樂觀。在哈佛大學(xué)的早期實(shí)驗(yàn)中,他回憶道“我們有700kb。即使是增加1000倍也才700兆,這是一個(gè)CD”真正在全球數(shù)據(jù)歸檔問題發(fā)揮作用意味著至少存儲(chǔ)PB級(jí)的信息?!斑@并不是不可能的,”Kosuri說,“但人們必須意識(shí)到改進(jìn)的規(guī)模是上百萬倍?!?/span>

Markowitz同意這不是一件容易的事?!罢贾鲗?dǎo)地位的生產(chǎn)方法是一個(gè)將近30歲的化學(xué)過程,添加到每個(gè)堿基它需要400秒以上的時(shí)間。”如果這是仍然使用的方法,他補(bǔ)充說:“數(shù)十億的不同字符串必須以并行方式編寫,速度才足夠快。同時(shí)生產(chǎn)的電流最大值是數(shù)以萬計(jì)的字符串。

另一個(gè)重要因素是合成DNA的成本。它占了EBI實(shí)驗(yàn)費(fèi)用12660美元的98%,測序只占了2%——由于人類基因組計(jì)劃在2003年完成,成本降低了二百萬倍。盡管這是先例,Kosuri不相信經(jīng)濟(jì)也可以同樣帶動(dòng)合成DNA的進(jìn)展。他說道“你可以很容易地想象出安排70億人的市場,但不可能建立70億人的基因組”。他承認(rèn),成本方面的一些改善可能是由于人類基因組計(jì)劃(HGP—write在六月由Church和其他人提出的一個(gè)項(xiàng)目)造成的。如果有資助的話,該計(jì)劃將旨于合成一個(gè)完整的人類基因組:23個(gè)含有32億個(gè)核苷酸的染色體對(duì)。但即使HGP—write成功了,Kosuri說,“人類基因組只包含0.75 GB的信息,在面臨合成實(shí)際數(shù)據(jù)存儲(chǔ)的挑戰(zhàn)方面就會(huì)顯得相形見絀。”

Zhirnov說道:

“綜合成本可以低于如今的水平數(shù)量級(jí)是件好事”


“為什么成本高,這并沒有根本的原因?!?/p>

今年四月,微軟的研究做出了一個(gè)早期的舉措,它可能有助于創(chuàng)造必要的需求,即從Twist Biosciences(加州,舊金山的一家DNA合成啟動(dòng)公司)訂貨了1000萬字符串。Strauss和她的同事們說,他們一直在使用的字符串推動(dòng)他們的隨機(jī)存取存儲(chǔ)方法到0.2GB。細(xì)節(jié)還未公布,但據(jù)報(bào)道,該檔案包括了100多種語言中的人權(quán)宣言,100大古滕貝格項(xiàng)目圖書和種子數(shù)據(jù)庫。雖然該合成挑戰(zhàn)相比于HGP-write所面臨要小, 但Strauss 強(qiáng)調(diào)了在存儲(chǔ)容量跳躍250倍的意義。

她說:

“是時(shí)候鍛煉一下我們處理大量DNA的肌肉,將DNA其推到更大的范圍,并看看這個(gè)過程會(huì)在哪里被打斷,”


“實(shí)際上它在很多個(gè)地方都中斷了——而我們正在學(xué)習(xí)一個(gè)偉大的想法解決它?!?/p>

Goldman很有信心,這是一件令人享受的事情。

“我們的估計(jì)是,我們需要100000倍的改進(jìn)使這項(xiàng)技術(shù)成型,我們認(rèn)為這是非??尚诺?,”


“雖然過去的表現(xiàn)并不能保證,但每一年或每兩年就有新的讀取技術(shù)將投入生產(chǎn)。在基因組學(xué)中六個(gè)數(shù)量級(jí)不是什么大問題。你只是需要稍等一下?!?/p>

Via:Nature


雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說