這項(xiàng)由中科院自動(dòng)化研究所的王亮團(tuán)隊(duì)領(lǐng)導(dǎo)的研究發(fā)表于2025年7月的arXiv預(yù)印本平臺(論文編號:2507.06853v1),研究團(tuán)隊(duì)包括來自中科院、新加坡國立大學(xué)、阿里巴巴達(dá)摩院等多個(gè)機(jī)構(gòu)的研究人員。有興趣深入了解的讀者可以通過arXiv:2507.06853v1訪問完整論文。
想象你是一位偵探,面前擺著一把神秘的鑰匙,你需要根據(jù)這把鑰匙的重量、顏色和材質(zhì)來推斷它能打開哪扇門。在化學(xué)世界里,科學(xué)家們每天都在做類似的工作——他們手中握著的"鑰匙"叫做分子光譜,而他們要找的"門"就是分子的完整結(jié)構(gòu)。
分子光譜就像分子的"指紋",當(dāng)光線照射到分子上時(shí),不同的分子會(huì)吸收不同頻率的光,形成獨(dú)特的光譜圖案。就像每個(gè)人的指紋都不一樣,每種分子的光譜也是獨(dú)一無二的。但問題在于,從指紋倒推出一個(gè)人的完整面貌是極其困難的——這正是化學(xué)家們面臨的核心挑戰(zhàn)。
傳統(tǒng)上,科學(xué)家們解決這個(gè)問題就像在圖書館里查字典一樣。他們有一個(gè)巨大的"分子圖書館",里面存儲(chǔ)著已知分子的結(jié)構(gòu)和對應(yīng)的光譜。當(dāng)遇到新的光譜時(shí),他們就在這個(gè)圖書館里尋找最相似的光譜,然后說:"哦,這個(gè)新分子可能就是這個(gè)樣子。"但這種方法有個(gè)致命缺陷——如果這個(gè)分子是全新的,圖書館里根本沒有,那就束手無策了。
中科院的研究團(tuán)隊(duì)提出了一個(gè)革命性的解決方案,他們開發(fā)了一個(gè)名為"DiffSpectra"的AI系統(tǒng)。這個(gè)系統(tǒng)不再依賴于傳統(tǒng)的"查字典"方法,而是像一位經(jīng)驗(yàn)豐富的老偵探,能夠直接從光譜這些"線索"中重構(gòu)出分子的完整三維結(jié)構(gòu)。
一、突破傳統(tǒng)思維的技術(shù)創(chuàng)新
傳統(tǒng)的分子結(jié)構(gòu)推斷方法就像盲人摸象,每種光譜技術(shù)只能"摸到"分子的一個(gè)部分。紅外光譜能告訴我們分子中有哪些化學(xué)鍵,就像摸到了大象的腿;拉曼光譜能揭示分子的對稱性,就像摸到了大象的背;紫外-可見光譜能顯示分子的電子結(jié)構(gòu),就像摸到了大象的耳朵。以往的AI方法大多只能處理其中一種光譜,就像只讓盲人摸大象的一個(gè)部位,然后要求他們描述整頭大象。
DiffSpectra的創(chuàng)新之處在于它同時(shí)"看"所有的光譜信息,就像一個(gè)有著多重視角的超級偵探。更重要的是,它不僅能推斷出分子的二維結(jié)構(gòu)(原子之間如何連接),還能同時(shí)確定三維結(jié)構(gòu)(原子在空間中的具體位置)。這就像不僅能知道一棟房子有幾個(gè)房間、房間之間如何連通,還能知道每個(gè)房間的確切位置和朝向。
這個(gè)AI系統(tǒng)的核心是一種叫做"擴(kuò)散模型"的技術(shù)。如果把傳統(tǒng)方法比作拼圖,那么擴(kuò)散模型更像是雕塑。傳統(tǒng)方法需要在現(xiàn)有的拼圖塊中尋找合適的片段,而擴(kuò)散模型則是從一塊"噪聲石頭"開始,逐步雕刻出最終的分子結(jié)構(gòu)。這個(gè)過程就像米開朗基羅雕刻大衛(wèi)像一樣,從一塊大理石開始,一刀一刀地去除多余的部分,最終呈現(xiàn)出完美的作品。
二、多模態(tài)光譜融合的智慧
研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)叫做"SpecFormer"的光譜編碼器,這個(gè)組件就像一位精通多國語言的翻譯官。在分子世界里,紅外光譜、拉曼光譜和紫外-可見光譜就像三種不同的"語言",每種語言都在講述著分子的不同故事。
紅外光譜主要關(guān)注分子內(nèi)部化學(xué)鍵的振動(dòng),就像聽音樂時(shí)關(guān)注低音部分,能告訴我們分子的"骨架"是什么樣的。拉曼光譜則更關(guān)注分子的對稱性和極化性,就像關(guān)注音樂的中音部分,能揭示分子的"形狀"特征。紫外-可見光譜關(guān)注的是電子躍遷,就像關(guān)注音樂的高音部分,能告訴我們分子的"電子云"分布。
SpecFormer的巧妙之處在于它不是簡單地把三種光譜拼接在一起,而是真正理解它們之間的"對話"。就像一個(gè)優(yōu)秀的指揮家不僅要聽懂每個(gè)樂器的聲音,還要理解它們之間的和諧關(guān)系,SpecFormer能夠捕捉不同光譜之間的相關(guān)性和互補(bǔ)性。
為了讓SpecFormer更好地理解光譜語言,研究團(tuán)隊(duì)還設(shè)計(jì)了一套特殊的"預(yù)訓(xùn)練"方法。這就像讓翻譯官在正式工作前先接受大量的語言訓(xùn)練。他們使用了兩種訓(xùn)練策略:一種叫做"掩碼重建",就像給翻譯官一段有部分詞匯被遮蓋的文本,讓他猜測被遮蓋的內(nèi)容;另一種叫做"對比學(xué)習(xí)",就像給翻譯官看配對的文本和圖片,讓他學(xué)會(huì)如何在不同形式的信息之間建立聯(lián)系。
三、擴(kuò)散模型的分子結(jié)構(gòu)生成
DiffSpectra的核心引擎是一個(gè)叫做"擴(kuò)散分子變換器"(DMT)的組件,這個(gè)名字聽起來很復(fù)雜,但它的工作原理其實(shí)很像一個(gè)技藝精湛的雕塑家。
擴(kuò)散過程可以想象成這樣一個(gè)場景:你有一張清晰的分子結(jié)構(gòu)圖,然后逐漸向這張圖添加噪聲,就像在一幅畫上撒沙子,直到原本清晰的圖像變成一片模糊的噪聲。這是"前向過程",就像把一塊精美的雕塑重新變成一塊粗糙的石頭。
而AI的任務(wù)是學(xué)會(huì)"反向過程"——從這片噪聲中重新恢復(fù)出原始的分子結(jié)構(gòu)。這就像雕塑家看著一塊石頭,能夠在腦海中想象出最終的作品,然后一步步地雕刻,直到作品完成。但與傳統(tǒng)雕塑不同的是,AI雕塑家有一個(gè)特殊的指導(dǎo)——光譜信息,就像有人在旁邊不斷地提示:"這里應(yīng)該有一個(gè)苯環(huán)"、"那里應(yīng)該有一個(gè)羥基"。
DMT在處理分子結(jié)構(gòu)時(shí)特別聰明,它同時(shí)關(guān)注三個(gè)方面:原子的類型(就像雕塑的材質(zhì))、原子之間的連接關(guān)系(就像雕塑的結(jié)構(gòu))、以及原子在三維空間中的位置(就像雕塑的姿態(tài))。這三個(gè)方面必須協(xié)調(diào)一致,就像一個(gè)舞蹈演員必須同時(shí)控制身體的各個(gè)部位來完成一個(gè)完美的動(dòng)作。
更重要的是,DMT遵循一些重要的物理規(guī)律,比如"SE(3)等變性"——這個(gè)專業(yè)術(shù)語的意思是,無論你如何旋轉(zhuǎn)或移動(dòng)整個(gè)分子,AI得出的結(jié)果都應(yīng)該是一致的。就像無論你從哪個(gè)角度看一個(gè)蘋果,它都還是同一個(gè)蘋果。
四、實(shí)驗(yàn)結(jié)果的突破性表現(xiàn)
研究團(tuán)隊(duì)在一個(gè)叫做QM9S的數(shù)據(jù)集上測試了DiffSpectra,這個(gè)數(shù)據(jù)集包含了超過13萬個(gè)分子及其對應(yīng)的光譜數(shù)據(jù)。測試結(jié)果令人印象深刻,就像一個(gè)從未見過的學(xué)生在期末考試中取得了優(yōu)異成績。
在最嚴(yán)格的測試——完全準(zhǔn)確地重建分子結(jié)構(gòu)方面,DiffSpectra達(dá)到了16.01%的準(zhǔn)確率。這個(gè)數(shù)字聽起來可能不高,但要知道這是在完全沒有任何提示的情況下,僅憑光譜就重建出與真實(shí)分子完全一致的結(jié)構(gòu)。這就像給你一個(gè)人的聲音錄音,要求你畫出這個(gè)人的精確肖像,能夠做到16%的完全準(zhǔn)確已經(jīng)是相當(dāng)了不起的成就了。
更令人鼓舞的是,如果允許AI給出20個(gè)候選答案,準(zhǔn)確率飆升到了96.86%。這意味著在絕大多數(shù)情況下,正確的分子結(jié)構(gòu)都在AI的前20個(gè)猜測之中。這就像一個(gè)醫(yī)生診斷疑難雜癥,雖然不能每次都一擊即中,但幾乎總能在最可能的幾種診斷中包含正確答案。
在分子相似性方面,DiffSpectra的表現(xiàn)更加出色。即使不能完全準(zhǔn)確重建分子結(jié)構(gòu),它生成的分子與真實(shí)分子在化學(xué)特征上的相似度也達(dá)到了78.37%(基于Morgan指紋的Tanimoto相似性)。這就像畫家即使不能畫出完全一樣的肖像,但畫出的人物在關(guān)鍵特征上與真人高度相似。
研究團(tuán)隊(duì)還發(fā)現(xiàn)了一些有趣的規(guī)律。當(dāng)同時(shí)使用三種光譜(紅外、拉曼、紫外-可見)時(shí),效果遠(yuǎn)好于只使用單一光譜。這驗(yàn)證了"三個(gè)臭皮匠頂個(gè)諸葛亮"的道理——多種信息源的組合能夠提供更全面、更準(zhǔn)確的判斷。
特別值得一提的是,預(yù)訓(xùn)練的SpecFormer顯著提升了整體性能。這就像一個(gè)醫(yī)生在行醫(yī)前接受了充分的醫(yī)學(xué)教育,比沒有受過訓(xùn)練的人能做出更準(zhǔn)確的診斷。預(yù)訓(xùn)練讓AI更好地理解了光譜與分子結(jié)構(gòu)之間的關(guān)系。
五、技術(shù)細(xì)節(jié)的精妙設(shè)計(jì)
DiffSpectra在技術(shù)實(shí)現(xiàn)上有許多精妙的設(shè)計(jì)。研究團(tuán)隊(duì)特別關(guān)注了一個(gè)叫做"SE(3)等變性"的特性,這聽起來很抽象,但其實(shí)就是確保AI對分子的理解不會(huì)因?yàn)橛^察角度的改變而改變。
想象你在看一個(gè)旋轉(zhuǎn)的地球儀,無論地球儀如何旋轉(zhuǎn),你對各個(gè)大洲形狀和位置關(guān)系的理解都應(yīng)該保持一致。DiffSpectra也是如此,無論分子在空間中如何擺放,AI對其結(jié)構(gòu)的判斷都應(yīng)該保持一致。這種特性對于三維分子結(jié)構(gòu)的準(zhǔn)確預(yù)測至關(guān)重要。
研究團(tuán)隊(duì)比較了兩種實(shí)現(xiàn)SE(3)等變性的方法:一種是在模型架構(gòu)中直接嵌入這種幾何對稱性(模型基礎(chǔ)方法),另一種是通過數(shù)據(jù)增強(qiáng)來讓AI學(xué)會(huì)這種對稱性(數(shù)據(jù)基礎(chǔ)方法)。結(jié)果顯示,直接在模型中嵌入幾何對稱性的方法效果更好,這就像用專門的工具做專門的事情,比臨時(shí)拼湊的方案更可靠。
在采樣過程中,研究團(tuán)隊(duì)還引入了"溫度"參數(shù)來控制生成結(jié)果的多樣性。這個(gè)概念借鑒自物理學(xué)中的熱力學(xué),就像調(diào)節(jié)爐火的溫度來控制烹飪效果。低溫度會(huì)產(chǎn)生更確定、更保守的結(jié)果,就像小火慢燉能夠產(chǎn)生更穩(wěn)定的口感;高溫度會(huì)產(chǎn)生更多樣、更具探索性的結(jié)果,就像大火爆炒能夠產(chǎn)生更豐富的變化。研究發(fā)現(xiàn),中等溫度(τ=0.8)能夠在準(zhǔn)確性和多樣性之間取得最佳平衡。
六、深遠(yuǎn)的科學(xué)意義和應(yīng)用前景
DiffSpectra的成功不僅僅是技術(shù)上的突破,更代表了化學(xué)研究方法的根本性變革。傳統(tǒng)的分子結(jié)構(gòu)解析就像考古學(xué)家根據(jù)文物碎片推測古代文明,需要大量的經(jīng)驗(yàn)積累和專業(yè)知識。而DiffSpectra則像一個(gè)擁有超能力的考古學(xué)家,能夠直接從碎片中"看到"完整的古代建筑。
這項(xiàng)技術(shù)對新藥研發(fā)具有重要意義。在藥物發(fā)現(xiàn)過程中,科學(xué)家們經(jīng)常需要分析從天然產(chǎn)物中提取的未知化合物。傳統(tǒng)方法可能需要幾天甚至幾周才能確定一個(gè)化合物的結(jié)構(gòu),而DiffSpectra可能將這個(gè)過程縮短到幾分鐘。這就像從馬車時(shí)代跨越到了高鐵時(shí)代,不僅速度大幅提升,準(zhǔn)確性也得到了保證。
在材料科學(xué)領(lǐng)域,DiffSpectra同樣具有廣闊的應(yīng)用前景。新材料的開發(fā)往往需要精確了解分子在材料中的排列和相互作用,傳統(tǒng)方法在處理復(fù)雜的材料體系時(shí)常常力不從心。DiffSpectra提供了一種全新的分析手段,可能會(huì)加速新型功能材料的發(fā)現(xiàn)和設(shè)計(jì)。
對于環(huán)境科學(xué)而言,這項(xiàng)技術(shù)可以幫助快速識別環(huán)境中的污染物分子。當(dāng)環(huán)境監(jiān)測設(shè)備檢測到未知的化學(xué)信號時(shí),DiffSpectra可以快速推斷出可能的污染源,為環(huán)境保護(hù)和治理提供及時(shí)的信息支持。
更重要的是,DiffSpectra開創(chuàng)了多模態(tài)AI在科學(xué)研究中應(yīng)用的新范式。它不是簡單地將不同類型的數(shù)據(jù)拼湊在一起,而是真正理解了不同信息源之間的內(nèi)在聯(lián)系。這種思路可以推廣到其他科學(xué)領(lǐng)域,比如在天文學(xué)中結(jié)合不同波段的觀測數(shù)據(jù)來理解天體結(jié)構(gòu),或者在生物學(xué)中結(jié)合基因組、蛋白質(zhì)組和代謝組數(shù)據(jù)來理解生命過程。
七、技術(shù)挑戰(zhàn)與未來展望
盡管DiffSpectra取得了令人矚目的成果,但研究團(tuán)隊(duì)也坦誠地指出了當(dāng)前的局限性和未來的改進(jìn)方向。目前的系統(tǒng)主要針對相對簡單的小分子化合物進(jìn)行訓(xùn)練和測試,對于大分子生物化合物或復(fù)雜的材料體系,效果可能會(huì)有所下降。這就像一個(gè)專門修理小汽車的技師,雖然技藝精湛,但面對大型卡車或飛機(jī)時(shí)可能需要額外的訓(xùn)練。
數(shù)據(jù)質(zhì)量和數(shù)量仍然是制約因素。雖然QM9S數(shù)據(jù)集已經(jīng)包含了超過13萬個(gè)分子,但相對于化學(xué)空間的巨大多樣性來說,這仍然只是冰山一角?;瘜W(xué)家們估計(jì)可能存在的有機(jī)小分子數(shù)量達(dá)到10^60這個(gè)天文數(shù)字,這意味著還有無窮無盡的化學(xué)世界等待探索。
光譜數(shù)據(jù)的質(zhì)量和標(biāo)準(zhǔn)化也是一個(gè)重要挑戰(zhàn)。在實(shí)際應(yīng)用中,不同實(shí)驗(yàn)室、不同儀器產(chǎn)生的光譜數(shù)據(jù)可能存在系統(tǒng)性差異,就像不同相機(jī)拍攝的照片在色彩和清晰度上會(huì)有差別。如何讓AI系統(tǒng)適應(yīng)這些變化,在真實(shí)世界的"嘈雜"數(shù)據(jù)上保持良好性能,是一個(gè)需要持續(xù)關(guān)注的問題。
研究團(tuán)隊(duì)已經(jīng)規(guī)劃了幾個(gè)重要的發(fā)展方向。首先是擴(kuò)展到更多的光譜類型,比如核磁共振(NMR)光譜和質(zhì)譜。這些光譜技術(shù)能夠提供額外的結(jié)構(gòu)信息,就像為偵探提供更多的破案線索。其次是處理更大更復(fù)雜的分子體系,包括蛋白質(zhì)、多糖和其他生物大分子。最后是提高系統(tǒng)的實(shí)時(shí)性能,使其能夠在實(shí)驗(yàn)室環(huán)境中實(shí)現(xiàn)即時(shí)的結(jié)構(gòu)解析。
從更廣闊的視角來看,DiffSpectra代表了AI與傳統(tǒng)科學(xué)深度融合的一個(gè)重要里程碑。它不是簡單地用AI來自動(dòng)化現(xiàn)有的科學(xué)流程,而是真正改變了科學(xué)家思考和解決問題的方式。這種變革可能會(huì)引發(fā)整個(gè)化學(xué)領(lǐng)域研究范式的轉(zhuǎn)變,從基于經(jīng)驗(yàn)和直覺的定性分析,向基于大數(shù)據(jù)和AI的定量預(yù)測轉(zhuǎn)變。
說到底,DiffSpectra的出現(xiàn)標(biāo)志著我們正在進(jìn)入一個(gè)全新的科學(xué)發(fā)現(xiàn)時(shí)代。在這個(gè)時(shí)代里,AI不再是科學(xué)家的簡單工具,而是真正的合作伙伴,能夠處理人類無法處理的復(fù)雜問題,發(fā)現(xiàn)人類可能錯(cuò)過的微妙模式。這種人機(jī)協(xié)作的科學(xué)研究模式,可能會(huì)帶來我們目前難以想象的科學(xué)突破。
對于普通人來說,這項(xiàng)技術(shù)的意義可能會(huì)在未來幾年逐漸顯現(xiàn)。更快的藥物開發(fā)意味著治療疾病的新藥能夠更快地到達(dá)患者手中;更準(zhǔn)確的材料分析意味著我們的電子設(shè)備可能會(huì)變得更高效、更耐用;更精確的環(huán)境監(jiān)測意味著我們能夠更好地保護(hù)我們共同的地球家園。
這就是科學(xué)的魅力所在——看似抽象的技術(shù)突破,最終都會(huì)以各種方式改變我們的生活,讓世界變得更美好。DiffSpectra只是這個(gè)偉大征程中的一個(gè)重要節(jié)點(diǎn),但它向我們展示了AI與科學(xué)結(jié)合的無限可能性。有興趣了解更多技術(shù)細(xì)節(jié)的讀者,可以通過arXiv:2507.06853v1訪問完整的研究論文。
Q&A
Q1:DiffSpectra是什么?它能做什么? A:DiffSpectra是中科院團(tuán)隊(duì)開發(fā)的AI系統(tǒng),它的核心能力是僅通過分子的光譜數(shù)據(jù)(如紅外、拉曼、紫外光譜)就能推斷出分子的完整三維結(jié)構(gòu)。這就像通過聲音來識別一個(gè)人的樣貌一樣困難,但DiffSpectra做到了。它在測試中能夠16.01%的概率完全準(zhǔn)確重建分子結(jié)構(gòu),在前20個(gè)候選中找到正確答案的概率高達(dá)96.86%。
Q2:這項(xiàng)技術(shù)會(huì)不會(huì)取代傳統(tǒng)的化學(xué)分析方法? A:不會(huì)完全取代,但會(huì)大大改變化學(xué)分析方式。傳統(tǒng)方法就像查字典,只能在已知分子庫中尋找匹配,而DiffSpectra能夠處理全新的、未知的分子。它更像是給化學(xué)家配備了一個(gè)超級助手,能夠快速提供準(zhǔn)確的結(jié)構(gòu)建議,讓原本需要幾天甚至幾周的分析工作縮短到幾分鐘。
Q3:普通人能用到這項(xiàng)技術(shù)嗎?有什么實(shí)際應(yīng)用? A:雖然普通人不會(huì)直接使用這項(xiàng)技術(shù),但它會(huì)通過多種方式影響我們的生活。比如加速新藥研發(fā),讓治療疾病的新藥更快上市;改進(jìn)材料分析,讓我們的電子產(chǎn)品更高效耐用;提升環(huán)境監(jiān)測,更好地保護(hù)環(huán)境。目前這項(xiàng)技術(shù)主要在科研機(jī)構(gòu)使用,但未來可能會(huì)集成到各種化學(xué)分析設(shè)備中。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。