這項由騰訊AI西雅圖實(shí)驗(yàn)室的黃承松(華盛頓大學(xué)圣路易斯分校)、于文豪等研究團(tuán)隊完成的突破性工作發(fā)表于2025年1月,論文代碼已在GitHub開源(https://github.com/Chengsong-Huang/R-Zero)。有興趣深入了解技術(shù)細(xì)節(jié)的讀者可以通過arXiv:2508.05004v1獲取完整論文。
在人工智能的發(fā)展歷程中,我們一直面臨著一個根本性的矛盾:如何讓AI系統(tǒng)超越人類智能水平,卻又依賴人類標(biāo)注的數(shù)據(jù)來訓(xùn)練?就像一個學(xué)生想要超越老師,卻只能從老師那里學(xué)習(xí)知識一樣。這個問題在大語言模型(LLM)的推理能力訓(xùn)練中尤為突出。
傳統(tǒng)的AI訓(xùn)練方式就像一個嚴(yán)格的家教制度。人類專家需要精心設(shè)計大量的題目,然后為每道題目提供標(biāo)準(zhǔn)答案,再讓AI系統(tǒng)反復(fù)練習(xí)這些題目。這種方式不僅成本高昂,還存在一個根本局限:AI永遠(yuǎn)無法學(xué)到超出人類知識范圍的內(nèi)容。更重要的是,隨著AI系統(tǒng)能力的不斷提升,人類專家已經(jīng)越來越難以為最前沿的問題提供高質(zhì)量的標(biāo)注數(shù)據(jù)。
正是為了解決這個核心難題,騰訊AI西雅圖實(shí)驗(yàn)室的研究團(tuán)隊提出了R-Zero框架。這個名字中的"Zero"并非指"零性能",而是指"零外部數(shù)據(jù)"——整個系統(tǒng)能夠在完全不依賴任何人類標(biāo)注數(shù)據(jù)的情況下,通過自我進(jìn)化實(shí)現(xiàn)推理能力的顯著提升。
R-Zero的創(chuàng)新之處在于構(gòu)建了一個雙角色的自進(jìn)化生態(tài)系統(tǒng)。系統(tǒng)內(nèi)部存在兩個相互促進(jìn)的角色:挑戰(zhàn)者(Challenger)和求解者(Solver)。挑戰(zhàn)者的任務(wù)是不斷生成難度適中的問題,而求解者則負(fù)責(zé)解決這些問題。兩者通過持續(xù)的相互作用,形成一個自我強(qiáng)化的學(xué)習(xí)循環(huán)。
這種設(shè)計的精妙之處在于,挑戰(zhàn)者并不是隨意出題,而是會根據(jù)當(dāng)前求解者的能力水平來調(diào)整題目難度。如果題目太簡單,求解者很容易就能解決,這樣的訓(xùn)練效果有限;如果題目太難,求解者完全無法解決,同樣沒有學(xué)習(xí)價值。挑戰(zhàn)者的目標(biāo)是找到那個"甜蜜點(diǎn)"——讓求解者在大約50%的時間里能夠正確解答的題目難度。這樣的難度既不會讓求解者感到無聊,也不會讓它完全絕望,而是處在最佳的學(xué)習(xí)狀態(tài)。
在實(shí)際實(shí)驗(yàn)中,R-Zero框架表現(xiàn)出了令人印象深刻的效果。以Qwen3-4B-Base模型為例,經(jīng)過三次迭代后,其在數(shù)學(xué)推理基準(zhǔn)測試上的平均分?jǐn)?shù)提升了6.49分,在通用領(lǐng)域推理基準(zhǔn)測試上提升了7.54分。更令人驚喜的是,這些通過數(shù)學(xué)問題訓(xùn)練獲得的推理能力還能夠遷移到其他領(lǐng)域,幫助模型在多種不同類型的推理任務(wù)中都表現(xiàn)得更好。
一、挑戰(zhàn)者與求解者的巧妙平衡
要理解R-Zero的工作原理,可以把它想象成一個動態(tài)的師生關(guān)系,但這里的"老師"和"學(xué)生"都在不斷成長。在這個系統(tǒng)中,挑戰(zhàn)者扮演著出題老師的角色,而求解者則是努力學(xué)習(xí)的學(xué)生。但與傳統(tǒng)教學(xué)不同的是,這個老師會根據(jù)學(xué)生的實(shí)際能力來調(diào)整題目難度,而學(xué)生的進(jìn)步又會促使老師出更有挑戰(zhàn)性的題目。
挑戰(zhàn)者的工作原理建立在一個深刻的教育學(xué)原理之上:最有效的學(xué)習(xí)發(fā)生在學(xué)習(xí)者的"最近發(fā)展區(qū)"內(nèi)。這個概念來自教育心理學(xué),指的是學(xué)習(xí)者在有適當(dāng)指導(dǎo)的情況下能夠達(dá)到的水平,與他們獨(dú)立完成任務(wù)的實(shí)際水平之間的區(qū)域。在R-Zero中,挑戰(zhàn)者通過一個精心設(shè)計的獎勵機(jī)制來實(shí)現(xiàn)這一點(diǎn)。
具體而言,當(dāng)挑戰(zhàn)者生成一個問題后,求解者會嘗試多次解答這個問題。如果求解者每次都給出相同的答案,說明這個問題要么太簡單(求解者很有信心),要么太難(求解者完全不知道怎么做)。而如果求解者的答案在不同嘗試中出現(xiàn)分歧,大約有一半時間能給出正確答案,這就表明這個問題的難度恰到好處。
挑戰(zhàn)者還被設(shè)計成要避免重復(fù)出題。就像一個好老師不會讓學(xué)生反復(fù)做完全相同的練習(xí)題一樣,挑戰(zhàn)者會通過一個"重復(fù)懲罰"機(jī)制來確保生成的問題具有多樣性。這個機(jī)制通過計算問題之間的相似度,對那些過于相似的問題進(jìn)行懲罰,從而鼓勵挑戰(zhàn)者探索更廣泛的問題空間。
二、求解者的持續(xù)改進(jìn)循環(huán)
求解者的訓(xùn)練過程就像一個認(rèn)真的學(xué)生在準(zhǔn)備考試。當(dāng)挑戰(zhàn)者生成了一批問題后,求解者并不是盲目地嘗試解答所有問題,而是會經(jīng)歷一個篩選和學(xué)習(xí)的過程。
首先,系統(tǒng)會對挑戰(zhàn)者生成的問題進(jìn)行質(zhì)量篩選。這個過程類似于老師從題庫中選擇最適合當(dāng)前教學(xué)進(jìn)度的題目。求解者會對每個問題嘗試多次解答,然后通過"少數(shù)服從多數(shù)"的方式確定最可能的正確答案。只有那些求解者表現(xiàn)出適度不確定性的問題才會被保留下來用于訓(xùn)練。
這種篩選機(jī)制的智慧在于它同時解決了兩個問題:難度控制和質(zhì)量保證。一方面,那些求解者答對率過高或過低的問題會被過濾掉,確保訓(xùn)練材料的難度適中。另一方面,那些求解者給出的答案完全混亂的問題(可能是因?yàn)閱栴}本身描述不清或存在錯誤)也會被排除,這樣就避免了求解者從低質(zhì)量的數(shù)據(jù)中學(xué)習(xí)。
經(jīng)過篩選的問題會成為求解者的新訓(xùn)練材料。在這個階段,求解者使用一種叫做"群體相對策略優(yōu)化"(GRPO)的強(qiáng)化學(xué)習(xí)方法進(jìn)行訓(xùn)練。這種方法的核心思想是讓求解者通過比較自己的不同嘗試來學(xué)習(xí)。當(dāng)求解者對同一個問題給出多個答案時,那些與"標(biāo)準(zhǔn)答案"(通過投票確定)一致的回答會得到正面反饋,而偏離標(biāo)準(zhǔn)答案的回答則會得到負(fù)面反饋。
三、理論基礎(chǔ)與科學(xué)支撐
R-Zero框架的設(shè)計并非憑空想象,而是建立在扎實(shí)的理論基礎(chǔ)之上。研究團(tuán)隊從信息論和學(xué)習(xí)理論的角度為他們的方法提供了數(shù)學(xué)證明。
從信息論的角度來看,學(xué)習(xí)的效率與學(xué)習(xí)材料的信息含量直接相關(guān)。當(dāng)求解者面對一個問題時,如果它總是能夠給出正確答案,那么這個問題就不包含新信息;相反,如果它完全無法理解問題,那么這個問題包含的信息過多,超出了當(dāng)前的處理能力。最理想的情況是求解者對問題的答案保持適度的不確定性,這表明問題包含了適量的新信息,既不會造成信息浪費(fèi),也不會導(dǎo)致信息過載。
具體而言,當(dāng)求解者對一個問題的成功率接近50%時,其回報的方差達(dá)到最大值。根據(jù)學(xué)習(xí)理論,這種情況下的學(xué)習(xí)效率最高。研究團(tuán)隊通過數(shù)學(xué)推導(dǎo)證明了這一點(diǎn),并將其作為設(shè)計挑戰(zhàn)者獎勵函數(shù)的理論依據(jù)。
這種理論指導(dǎo)下的實(shí)踐效果確實(shí)非常顯著。在實(shí)驗(yàn)中,研究團(tuán)隊發(fā)現(xiàn)那些被挑戰(zhàn)者認(rèn)為"有價值"的問題(即獎勵分?jǐn)?shù)高的問題)確實(shí)能夠更有效地提升求解者的能力。而且,隨著訓(xùn)練的進(jìn)行,挑戰(zhàn)者生成的問題難度會逐漸增加,這表明整個系統(tǒng)確實(shí)在持續(xù)進(jìn)化。
四、實(shí)驗(yàn)驗(yàn)證與性能表現(xiàn)
為了驗(yàn)證R-Zero框架的有效性,研究團(tuán)隊進(jìn)行了大規(guī)模的實(shí)驗(yàn)驗(yàn)證。他們選擇了多個不同規(guī)模和架構(gòu)的基礎(chǔ)模型,包括Qwen3系列(4B和8B參數(shù))以及OctoThinker系列(3B和8B參數(shù)),以確保結(jié)果的普適性。
實(shí)驗(yàn)的設(shè)計非常全面,涵蓋了兩大類評估任務(wù)。第一類是數(shù)學(xué)推理任務(wù),包括AMC、MATH-500、GSM8K等七個具有挑戰(zhàn)性的數(shù)學(xué)基準(zhǔn)測試。選擇數(shù)學(xué)領(lǐng)域作為主要測試場景有其深刻考慮:數(shù)學(xué)問題具有明確的對錯標(biāo)準(zhǔn),這使得系統(tǒng)能夠通過"投票"機(jī)制可靠地確定正確答案,而無需依賴外部標(biāo)注。
第二類是通用領(lǐng)域推理任務(wù),包括MMLU-Pro、SuperGPQA和BBEH等基準(zhǔn)測試。這類測試的目的是驗(yàn)證通過數(shù)學(xué)訓(xùn)練獲得的推理能力是否能夠遷移到其他領(lǐng)域。結(jié)果表明,這種遷移確實(shí)存在且效果顯著。
實(shí)驗(yàn)結(jié)果展現(xiàn)出了清晰的進(jìn)步軌跡。以Qwen3-4B-Base模型為例,在第一次迭代后,其數(shù)學(xué)推理能力從基線的42.58分提升到48.06分,增幅達(dá)到5.48分。隨著迭代次數(shù)的增加,這種提升持續(xù)進(jìn)行:第二次迭代提升到48.44分,第三次迭代達(dá)到49.07分。雖然后續(xù)迭代的提升幅度逐漸減小,但整體趨勢明確顯示了系統(tǒng)的持續(xù)改進(jìn)能力。
更令人興奮的是,這種改進(jìn)并不局限于數(shù)學(xué)領(lǐng)域。在通用領(lǐng)域推理任務(wù)中,同樣的Qwen3-4B-Base模型從基線的27.10分提升到了最終的34.64分,增幅超過7分。這種跨領(lǐng)域的能力遷移證明了R-Zero訓(xùn)練的不僅僅是特定領(lǐng)域的知識,而是更根本的推理能力。
五、深入分析與機(jī)制解讀
為了更好地理解R-Zero的工作機(jī)制,研究團(tuán)隊進(jìn)行了詳細(xì)的分析實(shí)驗(yàn)。他們特別關(guān)注了系統(tǒng)在迭代過程中的動態(tài)變化,以及各個組件對最終性能的貢獻(xiàn)。
通過追蹤不同迭代階段生成的問題,研究團(tuán)隊發(fā)現(xiàn)了一個有趣的現(xiàn)象:隨著訓(xùn)練的進(jìn)行,挑戰(zhàn)者生成的問題確實(shí)變得越來越難。他們使用外部評判系統(tǒng)(GPT-4o)作為"金標(biāo)準(zhǔn)"來評估問題難度,發(fā)現(xiàn)第一輪迭代生成的問題,一個固定能力的求解者能夠答對59%,而到了第三輪迭代,同樣的求解者面對新生成的問題時正確率下降到了47%。這清楚地表明挑戰(zhàn)者在不斷提高出題難度。
然而,這種難度提升也帶來了一個挑戰(zhàn):隨著問題變難,通過投票機(jī)制產(chǎn)生的"偽標(biāo)簽"的準(zhǔn)確性開始下降。在第一輪迭代中,這些偽標(biāo)簽的準(zhǔn)確性達(dá)到79%,但到了第三輪迭代,準(zhǔn)確性下降到了63%。這種現(xiàn)象反映了自監(jiān)督學(xué)習(xí)的一個根本限制:當(dāng)任務(wù)難度超過系統(tǒng)當(dāng)前能力太多時,自我生成的監(jiān)督信號質(zhì)量會下降。
盡管如此,系統(tǒng)仍然保持了有效的學(xué)習(xí)能力。關(guān)鍵在于挑戰(zhàn)者的獎勵機(jī)制確實(shí)成功地將問題難度控制在了合適的范圍內(nèi)。數(shù)據(jù)顯示,每輪迭代中求解者對同輪問題的平均正確率都維持在50%左右,這與理論設(shè)計目標(biāo)完全一致。
為了驗(yàn)證各個組件的重要性,研究團(tuán)隊還進(jìn)行了消融實(shí)驗(yàn)。結(jié)果顯示,如果移除挑戰(zhàn)者的強(qiáng)化學(xué)習(xí)訓(xùn)練,性能會顯著下降3.7分;如果移除重復(fù)懲罰機(jī)制,性能下降2.3分;如果移除問題篩選機(jī)制,性能下降超過6分。這些結(jié)果證實(shí)了框架中每個組件都是必要的,它們共同構(gòu)成了一個協(xié)調(diào)運(yùn)作的系統(tǒng)。
六、與傳統(tǒng)方法的協(xié)同效應(yīng)
R-Zero的一個重要優(yōu)勢是它并不排斥傳統(tǒng)的監(jiān)督學(xué)習(xí)方法,相反,兩者可以形成良好的協(xié)同效應(yīng)。研究團(tuán)隊專門設(shè)計了實(shí)驗(yàn)來驗(yàn)證這種協(xié)同作用。
他們首先建立了一個基準(zhǔn):直接使用人類標(biāo)注的數(shù)學(xué)數(shù)據(jù)對基礎(chǔ)模型進(jìn)行監(jiān)督微調(diào)。然后,他們測試了先用R-Zero進(jìn)行預(yù)訓(xùn)練,再進(jìn)行監(jiān)督微調(diào)的效果。結(jié)果顯示,這種組合方式比單純的監(jiān)督微調(diào)效果更好,額外獲得了2.35分的提升。
這個結(jié)果具有重要的實(shí)際意義。它表明R-Zero不僅可以作為一個獨(dú)立的訓(xùn)練方法,還可以作為傳統(tǒng)監(jiān)督學(xué)習(xí)的"預(yù)熱"階段。在缺乏高質(zhì)量標(biāo)注數(shù)據(jù)的情況下,R-Zero可以先幫助模型建立基礎(chǔ)的推理能力,然后再通過有限的標(biāo)注數(shù)據(jù)進(jìn)行精細(xì)調(diào)整。這種方式特別適合那些標(biāo)注數(shù)據(jù)稀缺或成本高昂的應(yīng)用場景。
七、技術(shù)實(shí)現(xiàn)的精巧設(shè)計
R-Zero的技術(shù)實(shí)現(xiàn)充滿了精巧的設(shè)計細(xì)節(jié)。在挑戰(zhàn)者的訓(xùn)練過程中,系統(tǒng)使用了多層次的獎勵機(jī)制。除了核心的不確定性獎勵和重復(fù)懲罰外,還包括格式檢查獎勵,確保生成的問題符合規(guī)范格式。
不確定性獎勵的計算采用了一個巧妙的數(shù)學(xué)公式:r = 1 - 2|p - 0.5|,其中p是求解者的正確率。這個公式確保了當(dāng)p接近0.5時獎勵最大,當(dāng)p接近0或1時獎勵最小。這種設(shè)計直接體現(xiàn)了"適度挑戰(zhàn)"的教育理念。
重復(fù)懲罰的實(shí)現(xiàn)則使用了聚類算法。系統(tǒng)會計算批次內(nèi)所有問題之間的BLEU分?jǐn)?shù)相似度,然后使用層次聚類將相似的問題歸為一組。每個問題的重復(fù)懲罰與其所在聚類的大小成正比,從而鼓勵問題的多樣性。
在求解者的訓(xùn)練階段,系統(tǒng)使用了群體相對策略優(yōu)化(GRPO)算法。這種算法的優(yōu)勢在于它不需要單獨(dú)訓(xùn)練一個價值函數(shù),而是通過比較同一批次內(nèi)不同回答的相對質(zhì)量來進(jìn)行學(xué)習(xí)。這不僅簡化了訓(xùn)練過程,還提高了訓(xùn)練的穩(wěn)定性。
八、局限性與未來展望
盡管R-Zero展現(xiàn)出了強(qiáng)大的能力,研究團(tuán)隊也誠實(shí)地指出了當(dāng)前方法的局限性。最主要的限制在于,這種方法目前只適用于具有客觀正確答案的任務(wù)領(lǐng)域。在數(shù)學(xué)、邏輯推理等領(lǐng)域,我們可以通過投票機(jī)制相對可靠地確定正確答案,但在創(chuàng)意寫作、主觀評價等開放性任務(wù)中,這種方法就面臨挑戰(zhàn)。
另一個局限性是偽標(biāo)簽質(zhì)量隨訓(xùn)練進(jìn)行而下降的問題。當(dāng)挑戰(zhàn)者生成的問題變得越來越難時,求解者通過投票產(chǎn)生的答案準(zhǔn)確性會逐漸降低。雖然這個問題在實(shí)驗(yàn)中沒有阻止系統(tǒng)的持續(xù)改進(jìn),但它確實(shí)可能成為長期訓(xùn)練的瓶頸。
此外,當(dāng)前的實(shí)現(xiàn)主要集中在數(shù)學(xué)推理領(lǐng)域,雖然實(shí)驗(yàn)顯示了向其他領(lǐng)域的遷移能力,但這種遷移的機(jī)制和邊界還需要更深入的研究。
面向未來,研究團(tuán)隊提出了幾個可能的改進(jìn)方向。首先是開發(fā)更好的質(zhì)量評估機(jī)制,可能通過引入外部評判模型或更復(fù)雜的一致性檢查來提高偽標(biāo)簽的質(zhì)量。其次是探索將這種方法擴(kuò)展到更多領(lǐng)域的可能性,特別是那些具有部分客觀標(biāo)準(zhǔn)的任務(wù)。
長遠(yuǎn)來看,R-Zero代表了一種新的AI訓(xùn)練范式:從依賴外部數(shù)據(jù)向自我進(jìn)化的轉(zhuǎn)變。這種轉(zhuǎn)變不僅有助于解決數(shù)據(jù)稀缺的問題,更重要的是為AI系統(tǒng)超越人類知識邊界提供了可能的路徑。當(dāng)AI系統(tǒng)能夠通過自我對話和自我挑戰(zhàn)來不斷提升能力時,我們就真正邁向了自主智能的時代。
說到底,R-Zero為我們展示了一種全新的可能性:AI系統(tǒng)不必永遠(yuǎn)困在人類標(biāo)注數(shù)據(jù)的牢籠里,而是可以通過巧妙的自我對話機(jī)制實(shí)現(xiàn)真正的自主學(xué)習(xí)。雖然當(dāng)前的方法還有局限性,但它開辟的道路具有深遠(yuǎn)意義。對于普通人來說,這意味著未來的AI助手可能會擁有更強(qiáng)的推理能力,能夠處理更復(fù)雜的問題,而這些能力的獲得并不需要人類提供更多的訓(xùn)練數(shù)據(jù)。對于AI研究領(lǐng)域來說,R-Zero提供了一個重要的啟示:有時候最好的老師就是自己,關(guān)鍵是要設(shè)計出合適的學(xué)習(xí)機(jī)制。隨著這類方法的不斷完善,我們或許真的能夠看到AI系統(tǒng)實(shí)現(xiàn)從量變到質(zhì)變的躍遷,最終達(dá)到甚至超越人類智能的水平。這樣的未來雖然仍然充滿不確定性,但至少現(xiàn)在我們有了一條可行的路徑。
Q&A
Q1:R-Zero框架是什么?它與傳統(tǒng)的AI訓(xùn)練方法有什么區(qū)別?
A:R-Zero是騰訊AI西雅圖實(shí)驗(yàn)室開發(fā)的自進(jìn)化AI訓(xùn)練框架,最大特點(diǎn)是完全不需要人類標(biāo)注的數(shù)據(jù)。傳統(tǒng)方法需要人類專家設(shè)計題目和提供標(biāo)準(zhǔn)答案,而R-Zero通過內(nèi)置的挑戰(zhàn)者和求解者兩個角色相互促進(jìn),自動生成訓(xùn)練材料并持續(xù)改進(jìn)能力。
Q2:為什么R-Zero能讓AI系統(tǒng)的推理能力提升這么多?
A:關(guān)鍵在于挑戰(zhàn)者會根據(jù)求解者的實(shí)際能力水平出題,確保題目難度剛好讓求解者有50%左右的正確率。這個難度恰好處在最佳學(xué)習(xí)區(qū)間,既不會太簡單導(dǎo)致學(xué)習(xí)效果有限,也不會太難讓系統(tǒng)無法理解,從而實(shí)現(xiàn)最高效的學(xué)習(xí)。
Q3:R-Zero框架能應(yīng)用到哪些領(lǐng)域?有什么限制嗎?
A:目前R-Zero主要在數(shù)學(xué)推理領(lǐng)域表現(xiàn)出色,但實(shí)驗(yàn)顯示訓(xùn)練效果能遷移到其他需要邏輯推理的任務(wù)。主要限制是只能應(yīng)用于有客觀正確答案的任務(wù),對于創(chuàng)意寫作等主觀性強(qiáng)的任務(wù)還不適用。不過研究團(tuán)隊正在探索擴(kuò)展到更多領(lǐng)域的可能性。
好文章,需要你的鼓勵
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學(xué)習(xí)外觀和運(yùn)動信息,顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運(yùn)動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報,準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。