在如今這個(gè)經(jīng)受著大數(shù)據(jù)洗禮的時(shí)代下,弄清楚如何以低成本方式存儲(chǔ)數(shù)據(jù)已經(jīng)成為愈發(fā)重要的核心議題。其中最奇特的方案也許就是最佳答案所在:在DNA分子中存儲(chǔ)信息。
目前流行的長效冷存儲(chǔ)方法可以追溯到上世紀(jì)五十年代,當(dāng)時(shí)人們會(huì)把數(shù)據(jù)寫入至披薩餅大小的磁帶卷上。相比之下,DNA存儲(chǔ)可能成本更低、能效更高、持久性更強(qiáng)。研究表明,用鹽封存的DNA在室溫環(huán)境下可以穩(wěn)定保存幾十年,如果在數(shù)據(jù)中心的受控環(huán)境內(nèi)應(yīng)該可以存放更長時(shí)間。另外,DNA本身不需要維護(hù)、存儲(chǔ)DNA內(nèi)的文件易于復(fù)制,而且存儲(chǔ)成本幾乎可以忽略不計(jì)。
更妙的是,DNA能夠在幾乎不可思議的袖珍空間內(nèi)存儲(chǔ)驚人的信息量。我們先來展望這樣的未來:到2025年,人類估計(jì)將掌握33澤字節(jié)數(shù)據(jù)——即33后面加上21個(gè)0。DNA存儲(chǔ)能夠在一個(gè)乒乓球的體積下存儲(chǔ)全部這些信息,甚至還有不少富余空間。美國國會(huì)圖書館中一共7400萬字節(jié)的信息完全可以塞進(jìn)一粒小小的芝麻中,即乒乓球體積的六千分之一。而只需要半顆芝麻,就能存儲(chǔ)Facebook上的所有數(shù)據(jù)。
聽起來很科幻?并不會(huì)。DNA存儲(chǔ)技術(shù)當(dāng)下已經(jīng)存在,但要真正全面推行,研究人員還需要克服技術(shù)整合中的種種艱難阻礙。要完成這項(xiàng)意義重大的工作,洛斯阿拉莫斯國家實(shí)驗(yàn)室的團(tuán)隊(duì)開發(fā)出一種用于分子存儲(chǔ)的關(guān)鍵技術(shù),配套軟件能夠使用自適應(yīng)DNA存儲(chǔ)規(guī)范(ADS Codex)將數(shù)據(jù)文件由計(jì)算機(jī)中的二進(jìn)制形式轉(zhuǎn)譯為具有生物學(xué)意義的四字母代碼。
ADS Codex也是情報(bào)高級(jí)研究計(jì)劃署(IARPA)分子信息存儲(chǔ)(MIST)項(xiàng)目的關(guān)鍵組成部分。MIST希望為政府及各私營部門的大數(shù)據(jù)操作提供成本更低、規(guī)模更大、持久性更強(qiáng)的存儲(chǔ)解決方案,目前的短期發(fā)展目標(biāo)是在24小時(shí)內(nèi)實(shí)現(xiàn)寫入1 TB(1萬億字節(jié))、讀取10 TB數(shù)據(jù)的性能,并且將成本控制在1000美元。
從計(jì)算機(jī)代碼到因素代碼
提起DNA,大多數(shù)人想到的首先是生命的藍(lán)圖——跟計(jì)算機(jī)扯不上半點(diǎn)關(guān)系。但DNA本身其實(shí)就是一條四字母編碼,用于傳遞關(guān)于生物體的各項(xiàng)信息。DNA分子由四種堿基或者核苷酸組成,每一種用一個(gè)字母標(biāo)記,分別為:腺嘌呤(A)、胸腺嘧啶(T)、鳥嘌呤(G)與胞嘧啶(C)。這些是所有DNA編碼的基礎(chǔ),指引著地球上一切生物的繁衍生長。
DNA合成已經(jīng)是一項(xiàng)相當(dāng)成熟的技術(shù),目前被廣泛應(yīng)用于醫(yī)學(xué)、制藥、生物燃料開發(fā)等領(lǐng)域。這項(xiàng)技術(shù)的實(shí)質(zhì),就是將堿基組織為由A、C、G、T的特定序列所指示的不同排列。這些堿基以相互纏繞的扭曲鏈(即雙螺旋)結(jié)構(gòu)形成分子。而字母本身的序列也由此建立起編碼系統(tǒng),可用于指導(dǎo)生物體的生長發(fā)育。
完整的DNA分子集將構(gòu)成基因組,也就是肌體生長的藍(lán)圖。而通過從零開始合成DNA分子,研究人員發(fā)現(xiàn)他們可以指定編寫出由字母A、C、G、T組成的長串,并隨時(shí)讀取序列信息。整個(gè)流程類似于計(jì)算機(jī)中的二進(jìn)制信息存儲(chǔ)方式,只是這一次我們需要將二進(jìn)制計(jì)算機(jī)文件編碼為四字母生物分子的形式。
這種方法已經(jīng)被證實(shí)有效,但目前對(duì)DNA編碼文件的讀取與寫入都需要很長時(shí)間。向DNA中添加單一堿基大約需要一秒鐘,以這樣的速度編寫歸檔文件可能需要幾十年時(shí)間。但研究人員正在開發(fā)速度更快的方法,包括一次性寫入多個(gè)分子并進(jìn)行大規(guī)模并發(fā)操作。
轉(zhuǎn)譯過程沒有任何數(shù)據(jù)損失
ADS Codex準(zhǔn)確說明了如何將0和1轉(zhuǎn)錄為A、C、G、T四個(gè)字母的組合序列。Codex還能將此序列解碼回二進(jìn)制形式。DNA可以通過多種方法合成,而ADS Codex則將這些合成方法進(jìn)行了規(guī)范整理。
遺憾的是,與傳統(tǒng)數(shù)字系統(tǒng)相比,使用DNA合成進(jìn)行分子寫入時(shí)的錯(cuò)誤率非常高。這些錯(cuò)誤的來源與數(shù)字寫入完全不同,因此更難以糾正。在數(shù)字硬盤上,將0誤寫為1即代表錯(cuò)誤,反之亦然。但對(duì)于DNA,問題主要來自插入與刪除錯(cuò)誤。例如,我們可能希望寫入A-C-G-T,但實(shí)際上A沒能正常寫入,于是整個(gè)字母序列向左移動(dòng),變成了C-G-T。當(dāng)然,也有可能一次寫入,直接形成了A-A-A。
常規(guī)的糾錯(cuò)碼無法很好地解決這類問題,因此ADS Codex添加了驗(yàn)證數(shù)據(jù)的錯(cuò)誤檢測(cè)碼。當(dāng)軟件將數(shù)據(jù)轉(zhuǎn)換回十進(jìn)制時(shí),會(huì)同時(shí)進(jìn)行測(cè)試以查看代碼是否匹配。如果不匹配,則會(huì)刪除或添加堿基(字母)直到驗(yàn)證成功。
前景可期
目前已經(jīng)完成了ADS Codex的1.0版本,今年年底計(jì)劃用它來評(píng)估其他MIST團(tuán)隊(duì)開發(fā)的存儲(chǔ)與檢索系統(tǒng)。這項(xiàng)工作也高度契合洛斯阿拉莫斯國家實(shí)驗(yàn)室在計(jì)算領(lǐng)域不斷開拓的歷史使命與探索精神。自上世紀(jì)四十年代以來,我們一直鉆研計(jì)算技術(shù)并積累下一批歷史最悠久、規(guī)模最龐大的純數(shù)字?jǐn)?shù)據(jù)資產(chǎn)。時(shí)至今日,這些資產(chǎn)仍然具有可觀的價(jià)值。我們將永遠(yuǎn)保存這些數(shù)據(jù),希望為其找到最理想的冷存儲(chǔ)解決方案。
最終,每位用戶的數(shù)碼照片與推文,全球金融部門的所有記錄,關(guān)于農(nóng)業(yè)、設(shè)施、冰川融化等的衛(wèi)星圖像,現(xiàn)代科學(xué)背后的一切模擬體系等數(shù)據(jù)終將有所歸處。如今大家所熟悉的“云”并非高懸天外,而是一座座巨大的數(shù)據(jù)中心,需要消耗大量電力才能存儲(chǔ)這數(shù)以萬億計(jì)的字節(jié)。這些數(shù)據(jù)中心的建設(shè)、供電與運(yùn)行成本高達(dá)數(shù)十億美元,而隨著對(duì)數(shù)據(jù)存儲(chǔ)需求量的指數(shù)級(jí)增長,我們恐怕很難無限制地支撐這樣的基礎(chǔ)設(shè)施規(guī)模。
DNA也許正是數(shù)據(jù)存儲(chǔ)的終極解決方案。誠然,這項(xiàng)技術(shù)需要新的工具與新的使用方法,但如果真有一天全球最具價(jià)值的信息已經(jīng)能夠存儲(chǔ)在小小一顆“芝麻”當(dāng)中,也請(qǐng)大家千萬不要過分驚訝。
好文章,需要你的鼓勵(lì)
新加坡國立大學(xué)研究團(tuán)隊(duì)開發(fā)了SPIRAL框架,通過讓AI與自己對(duì)弈零和游戲來提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡(jiǎn)單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。