這項(xiàng)由阿里云計(jì)算團(tuán)隊(duì)的馮文峰、趙鵬弘等研究人員完成的研究發(fā)表于2025年8月,論文題為《PVPO: Pre-estimated Value-based Policy Optimization for Agentic Reasoning》。感興趣的讀者可以通過arXiv:2508.21104v1訪問完整論文。
在人工智能的世界里,讓機(jī)器學(xué)會(huì)像人類一樣思考和推理一直是個(gè)巨大挑戰(zhàn)。就像教一個(gè)孩子解數(shù)學(xué)題一樣,機(jī)器需要經(jīng)過大量練習(xí)才能掌握復(fù)雜的推理技巧。但傳統(tǒng)的訓(xùn)練方法就像讓孩子盲目地做題,沒有標(biāo)準(zhǔn)答案參考,效率極其低下。阿里云的研究團(tuán)隊(duì)提出了一種全新的訓(xùn)練方法PVPO,就像給機(jī)器安排了一位經(jīng)驗(yàn)豐富的"導(dǎo)師",通過預(yù)先估算的參考標(biāo)準(zhǔn)來指導(dǎo)學(xué)習(xí),讓AI的推理能力獲得了顯著提升。
這項(xiàng)研究的核心創(chuàng)新在于引入了一個(gè)"靜態(tài)價(jià)值估計(jì)"的概念,可以理解為給機(jī)器學(xué)習(xí)過程提供了一個(gè)穩(wěn)定的評(píng)判標(biāo)準(zhǔn)。傳統(tǒng)方法就像讓學(xué)生在沒有參考答案的情況下互相批改作業(yè),容易產(chǎn)生偏差和不穩(wěn)定性。而PVPO方法則預(yù)先建立了一套可靠的評(píng)判體系,就像有了標(biāo)準(zhǔn)答案一樣,讓機(jī)器能夠更準(zhǔn)確地判斷自己的表現(xiàn)好壞。
**一、傳統(tǒng)方法的困境:盲人摸象式的學(xué)習(xí)**
要理解PVPO的價(jià)值,我們首先需要了解傳統(tǒng)方法面臨的問題。當(dāng)前主流的強(qiáng)化學(xué)習(xí)方法,特別是無評(píng)價(jià)器的群組策略方法,就像讓一群盲人摸象然后互相討論象的樣子。每個(gè)"盲人"(機(jī)器的一次嘗試)都有自己的感受,然后大家聚在一起比較誰摸得更準(zhǔn)確。
這種方法的核心問題在于缺乏客觀標(biāo)準(zhǔn)。機(jī)器需要通過大量的嘗試來估算優(yōu)勢(shì),就像學(xué)生做題時(shí)沒有標(biāo)準(zhǔn)答案,只能通過同學(xué)之間的討論來判斷對(duì)錯(cuò)。這不僅需要大量的計(jì)算資源,就像學(xué)生需要做很多遍同樣的題目,而且容易陷入局部最優(yōu)解,就像學(xué)生可能在錯(cuò)誤的解題思路上越走越遠(yuǎn)。
具體來說,傳統(tǒng)的GRPO(群組相對(duì)策略優(yōu)化)方法需要為每個(gè)問題生成多個(gè)答案,然后通過比較這些答案的質(zhì)量來判斷哪種解題思路更好。這就像讓學(xué)生做同一道題五次,然后通過比較五個(gè)答案來判斷哪種方法最有效。問題在于,如果這五次嘗試都不夠好,機(jī)器就無法獲得有效的學(xué)習(xí)信號(hào),就像五個(gè)錯(cuò)誤答案無法幫助學(xué)生找到正確解法一樣。
更糟糕的是,這種方法嚴(yán)重依賴于樣本數(shù)量。為了獲得穩(wěn)定的比較結(jié)果,機(jī)器需要進(jìn)行大量的嘗試,這極大地增加了計(jì)算成本。研究團(tuán)隊(duì)發(fā)現(xiàn),傳統(tǒng)方法通常需要消耗11.7倍的計(jì)算資源才能達(dá)到理想的效果,這對(duì)于實(shí)際應(yīng)用來說是一個(gè)巨大的負(fù)擔(dān)。
**二、PVPO的核心創(chuàng)新:引入智慧導(dǎo)師**
PVPO方法的核心思想可以用一個(gè)生動(dòng)的比喻來理解:為機(jī)器學(xué)習(xí)過程引入了一位經(jīng)驗(yàn)豐富的"導(dǎo)師"。這位導(dǎo)師就是"參考模型",它提前對(duì)各種問題進(jìn)行了嘗試和分析,建立了一套相對(duì)穩(wěn)定的評(píng)判標(biāo)準(zhǔn)。
這個(gè)參考模型的工作原理就像一位有經(jīng)驗(yàn)的老師。在學(xué)生開始學(xué)習(xí)新知識(shí)之前,老師已經(jīng)對(duì)這些內(nèi)容有了充分的了解和準(zhǔn)備。當(dāng)學(xué)生在解題過程中遇到困難時(shí),老師不需要重新學(xué)習(xí),而是可以立即提供指導(dǎo)和反饋。
PVPO方法將傳統(tǒng)的優(yōu)勢(shì)計(jì)算公式進(jìn)行了巧妙的分解。傳統(tǒng)方法計(jì)算優(yōu)勢(shì)時(shí),既要考慮當(dāng)前表現(xiàn)(Q值),也要考慮平均水平(V值),而且這兩個(gè)值都來自同一批不穩(wěn)定的嘗試。PVPO則將這兩部分分離開來:Q值仍然來自機(jī)器的當(dāng)前嘗試,反映其即時(shí)表現(xiàn);而V值則來自預(yù)先訓(xùn)練好的參考模型,提供了一個(gè)穩(wěn)定的基準(zhǔn)。
這種分離的好處就像考試時(shí)有了標(biāo)準(zhǔn)答案。學(xué)生的表現(xiàn)(Q值)可以通過與標(biāo)準(zhǔn)答案的對(duì)比得到準(zhǔn)確評(píng)估,而不需要依賴其他同學(xué)的表現(xiàn)進(jìn)行相對(duì)比較。這樣不僅提高了評(píng)估的準(zhǔn)確性,也大大減少了所需的樣本數(shù)量。
研究團(tuán)隊(duì)還引入了一個(gè)創(chuàng)新的"群組采樣"策略。這個(gè)策略就像一位經(jīng)驗(yàn)豐富的老師在課前篩選練習(xí)題一樣。老師會(huì)預(yù)先評(píng)估哪些題目過于簡單(準(zhǔn)確率為1),哪些題目過于困難(準(zhǔn)確率為0),哪些題目難度適中(準(zhǔn)確率在0和1之間)。過于簡單的題目會(huì)被排除,因?yàn)樗鼈儫o法提供有效的學(xué)習(xí)價(jià)值;過于困難的題目會(huì)由更強(qiáng)大的模型提供標(biāo)準(zhǔn)解答作為參考;而難度適中的題目則是主要的訓(xùn)練內(nèi)容。
**三、技術(shù)實(shí)現(xiàn)的巧妙設(shè)計(jì)**
PVPO的技術(shù)實(shí)現(xiàn)體現(xiàn)了研究團(tuán)隊(duì)的巧妙設(shè)計(jì)思路。整個(gè)系統(tǒng)包含幾個(gè)關(guān)鍵組件,它們像一個(gè)精密的機(jī)械裝置一樣協(xié)調(diào)工作。
參考模型充當(dāng)了系統(tǒng)的"記憶銀行"角色。它定期(每500步)更新自己的知識(shí)庫,就像銀行定期更新利率一樣。這個(gè)模型不需要在每次訓(xùn)練時(shí)都重新學(xué)習(xí),而是在訓(xùn)練開始前就建立好了一套相對(duì)穩(wěn)定的評(píng)判標(biāo)準(zhǔn)。這種設(shè)計(jì)大大減少了計(jì)算開銷,同時(shí)保證了評(píng)判標(biāo)準(zhǔn)的一致性。
獎(jiǎng)勵(lì)管理器則負(fù)責(zé)處理不同類型的樣本。對(duì)于格式正確的答案,它會(huì)根據(jù)內(nèi)容質(zhì)量給出相應(yīng)的獎(jiǎng)勵(lì)分?jǐn)?shù)。這就像老師批改作業(yè)時(shí),不僅要看答案是否正確,還要考慮解題過程是否合理。對(duì)于格式錯(cuò)誤的答案,系統(tǒng)會(huì)給出零分,這樣可以引導(dǎo)模型學(xué)會(huì)正確的輸出格式。
群組采樣策略的實(shí)現(xiàn)特別值得關(guān)注。系統(tǒng)會(huì)預(yù)先對(duì)每個(gè)樣本進(jìn)行多次嘗試(通常是5次或16次),然后根據(jù)平均準(zhǔn)確率進(jìn)行分類。準(zhǔn)確率為1的樣本被認(rèn)為過于簡單,會(huì)從訓(xùn)練集中剔除;準(zhǔn)確率在0和1之間的樣本被保留作為主要訓(xùn)練內(nèi)容;準(zhǔn)確率為0的樣本則會(huì)觸發(fā)特殊處理流程。
對(duì)于準(zhǔn)確率為0的困難樣本,系統(tǒng)會(huì)調(diào)用更強(qiáng)大的大型語言模型(如72B參數(shù)的模型)來生成標(biāo)準(zhǔn)答案軌跡。這些標(biāo)準(zhǔn)軌跡會(huì)被緩存起來,在訓(xùn)練過程中適時(shí)插入,為模型提供正確的解題示范。這就像老師在學(xué)生完全不會(huì)做的難題上提供詳細(xì)的解題步驟一樣。
**四、實(shí)驗(yàn)驗(yàn)證:從理論到實(shí)踐的飛躍**
研究團(tuán)隊(duì)進(jìn)行了大規(guī)模的實(shí)驗(yàn)驗(yàn)證,涵蓋了兩個(gè)主要領(lǐng)域:多跳問答和數(shù)學(xué)推理。這些實(shí)驗(yàn)就像對(duì)新藥進(jìn)行臨床試驗(yàn)一樣,需要在不同的環(huán)境和條件下驗(yàn)證方法的有效性。
在多跳問答任務(wù)中,實(shí)驗(yàn)涉及了四個(gè)不同的數(shù)據(jù)集:Musique、2WikiMultiHopQA、HotpotQA和Bamboogle。這些數(shù)據(jù)集就像不同類型的考試,測(cè)試機(jī)器在不同場(chǎng)景下的推理能力。結(jié)果顯示,使用PVPO訓(xùn)練的7B參數(shù)模型在準(zhǔn)確率上比原始模型提高了3.6倍,從17.05%提升到61.00%。這樣的提升幅度就像學(xué)生從不及格直接跳到了優(yōu)秀。
更令人印象深刻的是,PVPO訓(xùn)練的小模型甚至能夠超越一些大型商業(yè)模型的表現(xiàn)。在平均準(zhǔn)確率上,PVPO達(dá)到了61.00%,而GPT-4.1-global只有46.18%,DeepSeek-R1為49.73%。這就像一個(gè)經(jīng)過專門訓(xùn)練的中學(xué)生在數(shù)學(xué)競(jìng)賽中擊敗了普通的大學(xué)生。
在數(shù)學(xué)推理任務(wù)中,研究團(tuán)隊(duì)使用了五個(gè)不同的測(cè)試集,包括AIME-2024、AIME-2025、MATH500、AMC23和Olympiad。這些測(cè)試集涵蓋了從基礎(chǔ)數(shù)學(xué)到奧林匹克競(jìng)賽級(jí)別的各種難度。實(shí)驗(yàn)結(jié)果顯示,PVPO在7B模型上比傳統(tǒng)的GRPO方法提高了1.89個(gè)百分點(diǎn),在14B模型上也保持了領(lǐng)先優(yōu)勢(shì)。
特別值得注意的是訓(xùn)練效率的提升。實(shí)驗(yàn)數(shù)據(jù)顯示,PVPO只需要大約500步訓(xùn)練就能達(dá)到傳統(tǒng)方法1000步訓(xùn)練的效果。這意味著訓(xùn)練時(shí)間減少了一半,就像學(xué)生用一半的時(shí)間就能掌握同樣的知識(shí)。
在低采樣預(yù)算的實(shí)驗(yàn)中,PVPO展現(xiàn)出了驚人的效率。當(dāng)采樣數(shù)量從5減少到2時(shí),PVPO仍能達(dá)到傳統(tǒng)方法97%的性能(55.0% vs 56.8%),但計(jì)算成本卻只有40%(4.3 vs 11.7)。這就像用更少的練習(xí)題達(dá)到了同樣的學(xué)習(xí)效果。
**五、方法的穩(wěn)定性和可擴(kuò)展性**
PVPO方法不僅在性能上表現(xiàn)出色,在穩(wěn)定性方面也有顯著優(yōu)勢(shì)。傳統(tǒng)方法在訓(xùn)練過程中經(jīng)常出現(xiàn)波動(dòng),就像學(xué)生的成績忽高忽低,難以保持穩(wěn)定的進(jìn)步。而PVPO由于有了穩(wěn)定的參考基準(zhǔn),訓(xùn)練過程更加平滑和可預(yù)測(cè)。
實(shí)驗(yàn)數(shù)據(jù)顯示,PVPO在訓(xùn)練過程中的優(yōu)勢(shì)方差明顯低于傳統(tǒng)方法。優(yōu)勢(shì)方差就像學(xué)習(xí)過程中的"噪音",方差越小意味著學(xué)習(xí)信號(hào)越清晰。同時(shí),PVPO在保持低方差的情況下還能維持較高的策略熵值,這意味著模型保持了良好的探索能力,不會(huì)過早地陷入局部最優(yōu)解。
在可擴(kuò)展性方面,PVPO展現(xiàn)出了良好的適應(yīng)性。無論是在7B還是14B參數(shù)的模型上,PVPO都能保持一致的性能提升。這種一致性就像一個(gè)好的教學(xué)方法,無論學(xué)生基礎(chǔ)如何都能產(chǎn)生良好的效果。
研究團(tuán)隊(duì)還測(cè)試了PVPO在不同領(lǐng)域間的泛化能力。從多跳問答到數(shù)學(xué)推理的跨領(lǐng)域?qū)嶒?yàn)顯示,PVPO的改進(jìn)是普適性的,而不是針對(duì)特定任務(wù)的優(yōu)化。這種泛化能力對(duì)于實(shí)際應(yīng)用來說極其重要,因?yàn)樗馕吨惶追椒梢詰?yīng)用于多種不同的問題場(chǎng)景。
**六、深層原理和影響意義**
PVPO方法的成功源于其對(duì)人類學(xué)習(xí)過程的深刻洞察。人類在學(xué)習(xí)新技能時(shí),往往需要一個(gè)相對(duì)穩(wěn)定的參考標(biāo)準(zhǔn)。這個(gè)標(biāo)準(zhǔn)不一定是完美的,但必須是一致的和可靠的。就像學(xué)習(xí)彈鋼琴時(shí)需要有音準(zhǔn)的基準(zhǔn),學(xué)習(xí)數(shù)學(xué)時(shí)需要有邏輯的準(zhǔn)則。
從技術(shù)角度看,PVPO解決了強(qiáng)化學(xué)習(xí)中的一個(gè)根本問題:如何在稀疏獎(jiǎng)勵(lì)環(huán)境中提供穩(wěn)定的學(xué)習(xí)信號(hào)。傳統(tǒng)方法依賴于同批次樣本之間的比較,這在樣本質(zhì)量普遍較低時(shí)會(huì)導(dǎo)致"盲人領(lǐng)盲人"的問題。PVPO通過引入外部參考標(biāo)準(zhǔn),打破了這種相對(duì)比較的局限性。
這種方法對(duì)于大語言模型的訓(xùn)練具有重要意義。當(dāng)前的大模型訓(xùn)練面臨著計(jì)算資源限制和效率要求的雙重壓力。PVPO提供了一種在保持性能的同時(shí)大幅減少計(jì)算成本的解決方案。這就像找到了一種更有效的學(xué)習(xí)方法,讓學(xué)生用更少的時(shí)間和精力達(dá)到更好的學(xué)習(xí)效果。
更廣泛地說,PVPO體現(xiàn)了AI系統(tǒng)設(shè)計(jì)中的一個(gè)重要原則:穩(wěn)定性與適應(yīng)性的平衡。系統(tǒng)既需要有穩(wěn)定的基準(zhǔn)來保證學(xué)習(xí)的方向性,也需要有足夠的靈活性來適應(yīng)新的情況和挑戰(zhàn)。這種平衡在許多AI應(yīng)用場(chǎng)景中都至關(guān)重要。
**七、實(shí)際應(yīng)用前景**
PVPO方法的實(shí)際應(yīng)用前景廣闊,特別是在需要復(fù)雜推理的AI應(yīng)用領(lǐng)域。在智能客服系統(tǒng)中,PVPO可以幫助機(jī)器更好地理解用戶的復(fù)雜查詢,提供更準(zhǔn)確的多步驟解答。在教育輔助系統(tǒng)中,經(jīng)過PVPO訓(xùn)練的AI可以更好地解決數(shù)學(xué)問題,為學(xué)生提供step-by-step的解題指導(dǎo)。
在科研輔助領(lǐng)域,PVPO訓(xùn)練的模型可以幫助研究人員進(jìn)行文獻(xiàn)綜述和信息檢索,通過多跳推理將分散在不同文獻(xiàn)中的信息聯(lián)系起來,提供更全面的研究視角。這種能力對(duì)于加速科學(xué)發(fā)現(xiàn)過程具有重要價(jià)值。
企業(yè)決策支持是另一個(gè)重要的應(yīng)用方向。復(fù)雜的商業(yè)決策往往需要整合多方面的信息和考慮多個(gè)因素。PVPO訓(xùn)練的AI助手可以幫助決策者進(jìn)行更全面的分析,提供基于多層次推理的建議和預(yù)測(cè)。
在內(nèi)容創(chuàng)作和編輯領(lǐng)域,PVPO可以幫助AI更好地理解復(fù)雜的主題和邏輯關(guān)系,生成更連貫、更有深度的內(nèi)容。這對(duì)于新聞報(bào)道、技術(shù)文檔撰寫、創(chuàng)意寫作等場(chǎng)景都有重要價(jià)值。
**八、技術(shù)挑戰(zhàn)與未來發(fā)展**
盡管PVPO展現(xiàn)出了顯著的優(yōu)勢(shì),但在實(shí)際部署中仍然面臨一些技術(shù)挑戰(zhàn)。參考模型的選擇和更新策略需要根據(jù)具體應(yīng)用場(chǎng)景進(jìn)行調(diào)優(yōu)。就像選擇合適的老師和教學(xué)方法一樣,不同的任務(wù)可能需要不同類型的參考標(biāo)準(zhǔn)。
計(jì)算資源的優(yōu)化配置也是一個(gè)重要考慮因素。雖然PVPO顯著減少了訓(xùn)練過程中的計(jì)算成本,但參考模型的維護(hù)和更新仍然需要一定的資源投入。如何在性能和成本之間找到最佳平衡點(diǎn),需要根據(jù)具體的應(yīng)用需求進(jìn)行權(quán)衡。
模型的泛化能力雖然得到了初步驗(yàn)證,但在更廣泛的任務(wù)類型和領(lǐng)域中的表現(xiàn)還需要進(jìn)一步測(cè)試。就像一個(gè)好的教學(xué)方法需要在不同類型的學(xué)生和不同的學(xué)科中驗(yàn)證其有效性一樣。
未來的發(fā)展方向可能包括自適應(yīng)參考模型的設(shè)計(jì),讓系統(tǒng)能夠根據(jù)學(xué)習(xí)進(jìn)展自動(dòng)調(diào)整參考標(biāo)準(zhǔn)。另外,多層次參考體系的構(gòu)建也是一個(gè)有前景的方向,就像建立從基礎(chǔ)到高級(jí)的分層教學(xué)體系一樣。
說到底,PVPO為AI系統(tǒng)的訓(xùn)練提供了一種更加智能和高效的方法。通過引入穩(wěn)定的參考標(biāo)準(zhǔn),這種方法不僅提高了訓(xùn)練效率,也改善了模型的性能和穩(wěn)定性。雖然仍有一些技術(shù)細(xì)節(jié)需要完善,但其核心思想和方法論已經(jīng)展現(xiàn)出了巨大的應(yīng)用潛力。對(duì)于推動(dòng)AI技術(shù)的實(shí)用化進(jìn)程,特別是在需要復(fù)雜推理能力的應(yīng)用場(chǎng)景中,PVPO提供了一條非常有前景的技術(shù)路徑。這項(xiàng)研究不僅在學(xué)術(shù)層面具有重要意義,更為AI技術(shù)的產(chǎn)業(yè)化應(yīng)用開辟了新的可能性。
Q&A
Q1:PVPO算法相比傳統(tǒng)的GRPO方法有什么優(yōu)勢(shì)?
A:PVPO最大的優(yōu)勢(shì)是引入了"靜態(tài)價(jià)值估計(jì)"作為穩(wěn)定的參考標(biāo)準(zhǔn),就像給機(jī)器學(xué)習(xí)配了一位經(jīng)驗(yàn)豐富的導(dǎo)師。相比傳統(tǒng)GRPO方法需要通過同批次樣本互相比較來學(xué)習(xí),PVPO能提供更穩(wěn)定的評(píng)判基準(zhǔn),訓(xùn)練效率提高一倍,同時(shí)在7B模型上性能提升3.6倍,計(jì)算成本卻只有傳統(tǒng)方法的40%。
Q2:阿里云團(tuán)隊(duì)的群組采樣策略是如何工作的?
A:群組采樣策略就像一位老師在課前篩選練習(xí)題。系統(tǒng)會(huì)預(yù)先評(píng)估每個(gè)樣本的難度:準(zhǔn)確率為1的題目太簡單會(huì)被排除;準(zhǔn)確率在0-1之間的題目作為主要訓(xùn)練內(nèi)容;準(zhǔn)確率為0的困難題目會(huì)調(diào)用72B大模型生成標(biāo)準(zhǔn)答案作為參考。這樣可以過濾掉40%-60%的低價(jià)值數(shù)據(jù),讓訓(xùn)練更加高效。
Q3:PVPO算法在實(shí)際應(yīng)用中有什么局限性?
A:雖然PVPO表現(xiàn)優(yōu)秀,但仍有一些挑戰(zhàn)需要考慮。參考模型的選擇和更新策略需要根據(jù)具體任務(wù)調(diào)優(yōu),就像不同學(xué)科需要不同類型的老師。另外,參考模型的維護(hù)需要額外計(jì)算資源,雖然總體上仍比傳統(tǒng)方法更節(jié)省成本。目前的驗(yàn)證主要集中在問答和數(shù)學(xué)推理領(lǐng)域,在其他應(yīng)用場(chǎng)景的泛化能力還需要進(jìn)一步測(cè)試。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對(duì)話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。