這項由索邦大學(xué)的Mustafa Shukor與蘋果公司的Louis Bethune、Dan Busbridge、David Grangier、Enrico Fini、Alaaeldin El-Nouby、Pierre Ablin共同完成的研究發(fā)表于2025年7月,論文標題為"Scaling Laws for Optimal Data Mixtures"。有興趣深入了解的讀者可以通過論文編號arXiv:2507.09404v1訪問完整論文。
訓(xùn)練人工智能模型就像調(diào)制一杯完美的雞尾酒。調(diào)酒師知道,威士忌、檸檬汁、糖漿的比例稍有不同,整杯酒的味道就會截然不同。同樣,AI模型訓(xùn)練時,不同類型數(shù)據(jù)的混合比例也會決定模型的最終表現(xiàn)。過去,AI研究者們就像沒有配方的調(diào)酒師,只能憑經(jīng)驗反復(fù)嘗試,耗費大量時間和資源。這次研究終于為這個過程提供了科學(xué)的"配方公式"。
這項研究的核心貢獻在于建立了一套數(shù)學(xué)公式,能夠精確預(yù)測在給定模型規(guī)模和訓(xùn)練數(shù)據(jù)量的情況下,不同數(shù)據(jù)混合比例對模型性能的影響。研究團隊驗證了這套公式在三種不同類型的AI模型上都能準確工作:處理純文本的大語言模型、同時處理圖像和文本的多模態(tài)模型,以及專門處理視覺任務(wù)的大型視覺模型。這意味著,未來的AI開發(fā)者可以通過小規(guī)模實驗確定最佳數(shù)據(jù)配方,然后直接用于大規(guī)模模型訓(xùn)練,避免了大量的試錯成本。
一、數(shù)據(jù)混合的重要性:為什么配方如此關(guān)鍵
當(dāng)我們思考現(xiàn)代AI模型的訓(xùn)練過程時,可以把它比作培養(yǎng)一個博學(xué)多才的學(xué)者。這個學(xué)者需要閱讀各種不同類型的書籍:科學(xué)論文、文學(xué)作品、歷史記錄、代碼教程等等。每種書籍的閱讀比例都會影響這個學(xué)者最終的知識結(jié)構(gòu)和能力表現(xiàn)。
傳統(tǒng)的AI訓(xùn)練方法就像讓這個學(xué)者隨機閱讀,或者按照現(xiàn)有書籍的數(shù)量比例來分配閱讀時間。研究團隊發(fā)現(xiàn),這種方法往往并不能獲得最佳效果。真正的挑戰(zhàn)在于:對于不同的目標任務(wù),應(yīng)該如何精確調(diào)配各種數(shù)據(jù)類型的比例?
考慮一個具體例子:如果我們要訓(xùn)練一個既能編程又能寫文章的AI助手,那么代碼數(shù)據(jù)和文本數(shù)據(jù)的比例應(yīng)該是多少?是50%對50%,還是70%對30%?這個比例在小模型和大模型之間是否相同?當(dāng)訓(xùn)練數(shù)據(jù)總量增加時,這個比例是否需要調(diào)整?
研究團隊指出,這些問題的答案并不直觀。他們發(fā)現(xiàn),最優(yōu)的數(shù)據(jù)混合比例不僅取決于目標任務(wù),還與模型的規(guī)模、訓(xùn)練數(shù)據(jù)的總量密切相關(guān)。這就像調(diào)制雞尾酒時,不同容量的杯子需要不同的配方比例,而且隨著客人口味的不同,配方也需要相應(yīng)調(diào)整。
更令人驚訝的是,針對某個特定目標任務(wù)的最優(yōu)訓(xùn)練數(shù)據(jù)配方,通常與該任務(wù)本身數(shù)據(jù)的比例并不一致。比如,要讓AI在數(shù)學(xué)任務(wù)上表現(xiàn)最佳,最優(yōu)的訓(xùn)練配方可能不是純數(shù)學(xué)數(shù)據(jù),而是數(shù)學(xué)數(shù)據(jù)與其他類型數(shù)據(jù)的特定混合。這種現(xiàn)象被研究團隊稱為"訓(xùn)練-目標不匹配"現(xiàn)象。
二、建立科學(xué)的配方公式:從經(jīng)驗到理論
為了解決數(shù)據(jù)混合的難題,研究團隊建立了一套數(shù)學(xué)框架,就像為調(diào)酒師提供了精確的配方計算器。這個框架的核心思想是:模型在特定任務(wù)上的性能可以表示為模型規(guī)模、訓(xùn)練數(shù)據(jù)量和數(shù)據(jù)混合比例的函數(shù)。
研究團隊提出了兩種主要的公式類型。第一種被稱為"加性定律",它假設(shè)數(shù)據(jù)混合比例對模型性能的影響是相對獨立的,不受模型規(guī)模和訓(xùn)練數(shù)據(jù)量的影響。用烹飪來類比,這就像認為調(diào)料的搭配效果在小鍋和大鍋中是一樣的。
第二種被稱為"聯(lián)合定律",它考慮了數(shù)據(jù)混合比例與模型規(guī)模、訓(xùn)練數(shù)據(jù)量之間的相互作用。這種公式更加復(fù)雜,但也更加現(xiàn)實。它認為在不同的模型規(guī)模下,同樣的數(shù)據(jù)混合比例可能產(chǎn)生不同的效果,就像同樣的調(diào)料配方在不同火候下會產(chǎn)生不同的味道。
這兩種公式都基于經(jīng)典的"冪律"關(guān)系,這是AI領(lǐng)域一個重要的數(shù)學(xué)工具。冪律關(guān)系就像自然界中的許多現(xiàn)象一樣,呈現(xiàn)出特定的數(shù)學(xué)規(guī)律。比如,城市的人口分布、語言中詞匯的使用頻率、甚至股市的波動都遵循冪律關(guān)系。
為了驗證這些公式的準確性,研究團隊設(shè)計了大量的實驗。他們訓(xùn)練了數(shù)百個不同規(guī)模的模型,使用了不同的數(shù)據(jù)混合比例,然后比較實際性能與公式預(yù)測的差異。結(jié)果顯示,他們的公式能夠以非常高的精度預(yù)測模型性能,平均誤差通常在1-5%之間。
三、三大驗證實驗:從理論到實踐
研究團隊在三個不同的AI領(lǐng)域進行了廣泛的驗證實驗,每個領(lǐng)域都有其獨特的挑戰(zhàn)和特點。
在大語言模型的實驗中,研究團隊使用了SlimPajama數(shù)據(jù)集,這是一個包含了7個不同文本領(lǐng)域的大規(guī)模數(shù)據(jù)集。這些領(lǐng)域包括學(xué)術(shù)論文、書籍、網(wǎng)頁內(nèi)容、編程代碼、常識知識、問答內(nèi)容和百科全書條目。研究團隊訓(xùn)練了從1.86億參數(shù)到70億參數(shù)的各種規(guī)模模型,使用了多達1500億個訓(xùn)練樣本。
實驗過程就像一個巨大的烹飪實驗室,研究團隊嘗試了60種不同的"配方"(數(shù)據(jù)混合比例),每種配方都在不同規(guī)模的"鍋子"(模型)中進行測試。他們發(fā)現(xiàn),當(dāng)使用小規(guī)模模型確定的最優(yōu)配方來訓(xùn)練大規(guī)模模型時,性能預(yù)測的準確度令人驚訝地高。
在多模態(tài)模型的實驗中,情況變得更加復(fù)雜。這類模型需要同時處理文本、圖像和兩者的組合,就像培養(yǎng)一個既會讀書又會看圖的學(xué)生。研究團隊使用了三種不同類型的數(shù)據(jù):純文本數(shù)據(jù)、圖像-文本配對數(shù)據(jù),以及包含多個圖像和文本交替出現(xiàn)的交錯數(shù)據(jù)。
這個實驗的挑戰(zhàn)在于,不同模態(tài)的數(shù)據(jù)之間存在復(fù)雜的相互作用。文本數(shù)據(jù)可能幫助模型理解圖像內(nèi)容,而圖像數(shù)據(jù)也可能增強模型對文本的理解能力。研究團隊發(fā)現(xiàn),即使在這種復(fù)雜的多模態(tài)環(huán)境中,他們的公式依然能夠準確預(yù)測最優(yōu)的數(shù)據(jù)混合比例。
在大型視覺模型的實驗中,研究團隊面臨的是另一種挑戰(zhàn)。這些模型主要處理圖像和相關(guān)的文本描述,但數(shù)據(jù)質(zhì)量存在很大差異。有些是從互聯(lián)網(wǎng)自動抓取的噪聲數(shù)據(jù),有些是精心標注的高質(zhì)量數(shù)據(jù),還有些是通過AI生成的合成數(shù)據(jù)。
通過這三個領(lǐng)域的實驗,研究團隊證明了他們的公式具有很強的普適性。無論是處理純文本、多模態(tài)內(nèi)容,還是視覺任務(wù),這套公式都能夠準確預(yù)測最優(yōu)的數(shù)據(jù)混合比例。
四、從小規(guī)模到大規(guī)模:預(yù)測的魔力
這項研究最令人印象深刻的發(fā)現(xiàn)之一是,通過小規(guī)模實驗得出的公式可以準確預(yù)測大規(guī)模模型的性能。這就像通過觀察一小鍋湯的調(diào)味效果,就能精確預(yù)測大鍋湯應(yīng)該如何調(diào)味。
研究團隊的實驗顯示,他們可以使用參數(shù)量在10億以下的小模型進行實驗,然后將得出的公式應(yīng)用到參數(shù)量達到80億的大模型上,預(yù)測準確度依然保持在很高的水平。這種"縮放"能力對于實際應(yīng)用意義重大,因為大模型的訓(xùn)練成本極其昂貴。
以一個具體例子來說明這種預(yù)測能力的價值:假設(shè)一家公司想要訓(xùn)練一個擁有100億參數(shù)的大型AI模型,按照傳統(tǒng)方法,他們需要嘗試多種不同的數(shù)據(jù)混合比例,每次嘗試都可能花費數(shù)百萬美元的計算成本。而使用這套公式,他們只需要在參數(shù)量為10億的小模型上進行少量實驗,就能準確預(yù)測出大模型的最優(yōu)數(shù)據(jù)配方。
研究團隊還發(fā)現(xiàn)了一個有趣的現(xiàn)象:最優(yōu)的數(shù)據(jù)混合比例會隨著模型規(guī)模的變化而變化。在小模型中表現(xiàn)最好的配方,在大模型中可能不再是最優(yōu)的。這就像烹飪中的現(xiàn)象:適合小火慢燉的調(diào)料比例,在大火快炒時可能需要調(diào)整。
聯(lián)合定律比加性定律更能捕捉這種變化。研究團隊發(fā)現(xiàn),當(dāng)模型規(guī)模增大時,某些類型的數(shù)據(jù)變得更加重要,而另一些類型的數(shù)據(jù)的重要性可能相對下降。這種動態(tài)變化的理解對于設(shè)計真正高效的AI訓(xùn)練策略至關(guān)重要。
五、尋找最優(yōu)配方:從理論到實踐指南
有了準確的預(yù)測公式,下一步就是尋找最優(yōu)的數(shù)據(jù)混合配方。這個過程就像解決一個復(fù)雜的優(yōu)化問題:在所有可能的配方中,找到那個能讓模型在目標任務(wù)上表現(xiàn)最佳的組合。
研究團隊使用了一種稱為"鏡像梯度下降"的數(shù)學(xué)方法來解決這個優(yōu)化問題。這個方法的工作原理類似于一個智能的配方調(diào)整系統(tǒng):它會根據(jù)當(dāng)前配方的效果,智能地調(diào)整各種數(shù)據(jù)類型的比例,逐步逼近最優(yōu)配方。
在語言模型的實驗中,研究團隊發(fā)現(xiàn)了一個令人意外的結(jié)果:針對平均性能優(yōu)化的配方與針對特定任務(wù)優(yōu)化的配方存在顯著差異。他們訓(xùn)練了四個不同的70億參數(shù)模型,分別使用了四種不同的數(shù)據(jù)配方:傳統(tǒng)的均勻分布、基于數(shù)據(jù)量的自然分布、針對平均性能優(yōu)化的配方,以及針對特定高質(zhì)量任務(wù)優(yōu)化的配方。
結(jié)果顯示,使用針對特定任務(wù)優(yōu)化配方的模型在該任務(wù)上的表現(xiàn)明顯優(yōu)于其他模型。這就像為特定客人的口味專門調(diào)制的雞尾酒,總是比通用配方更受歡迎。更重要的是,這種定制化的配方并沒有顯著犧牲模型在其他任務(wù)上的性能。
在多模態(tài)模型的實驗中,研究團隊觀察到了數(shù)據(jù)混合比例隨著模型規(guī)模變化的有趣模式。他們發(fā)現(xiàn),隨著模型規(guī)模的增大,文本數(shù)據(jù)的重要性相對增加,而交錯多模態(tài)數(shù)據(jù)的重要性相對下降。這個發(fā)現(xiàn)對于設(shè)計大規(guī)模多模態(tài)系統(tǒng)具有重要的指導(dǎo)意義。
六、深入分析:配方背后的科學(xué)原理
為了更深入地理解數(shù)據(jù)混合的機制,研究團隊進行了一系列細致的分析實驗。他們發(fā)現(xiàn),只需要相對較少的實驗就能獲得準確的配方預(yù)測。在大多數(shù)情況下,使用10-20個不同的數(shù)據(jù)混合比例進行實驗,就足以擬合出可靠的預(yù)測公式。
這個發(fā)現(xiàn)具有重要的實踐意義。它意味著研究人員不需要進行大量的試錯實驗,就能找到最優(yōu)的數(shù)據(jù)配方。這大大降低了AI模型開發(fā)的成本和時間。
研究團隊還探索了不同學(xué)習(xí)率調(diào)度策略對結(jié)果的影響。他們發(fā)現(xiàn),無論是使用恒定學(xué)習(xí)率還是余弦學(xué)習(xí)率調(diào)度,他們的公式都能保持很高的預(yù)測準確度。這進一步證明了公式的魯棒性和普適性。
另一個重要發(fā)現(xiàn)是關(guān)于數(shù)據(jù)混合比例的"固定點"現(xiàn)象。研究團隊發(fā)現(xiàn),在大多數(shù)情況下,最優(yōu)的訓(xùn)練數(shù)據(jù)配方與目標任務(wù)的數(shù)據(jù)分布并不一致。這意味著,如果你想讓AI在某個特定任務(wù)上表現(xiàn)最佳,最好的策略不是只用該任務(wù)的數(shù)據(jù)進行訓(xùn)練,而是使用一個經(jīng)過優(yōu)化的混合配方。
這個現(xiàn)象可以用一個簡單的類比來理解:如果你想成為一個優(yōu)秀的網(wǎng)球運動員,最好的訓(xùn)練方法不是只練習(xí)網(wǎng)球,而是結(jié)合其他運動項目的訓(xùn)練,比如跑步、舉重、游泳等。這些看似無關(guān)的訓(xùn)練能夠提高你的整體身體素質(zhì),從而在網(wǎng)球比賽中發(fā)揮更好的表現(xiàn)。
七、理論基礎(chǔ):從信息論角度的解釋
研究團隊還從信息論的角度為他們的發(fā)現(xiàn)提供了理論解釋。他們將模型的損失函數(shù)分解為兩個部分:一個是目標數(shù)據(jù)分布的內(nèi)在復(fù)雜性,另一個是訓(xùn)練數(shù)據(jù)分布與目標數(shù)據(jù)分布之間的差異。
這種分解就像分析一個翻譯系統(tǒng)的準確性:一部分取決于源語言本身的復(fù)雜性,另一部分取決于翻譯系統(tǒng)對源語言的理解程度。通過這種分析,研究團隊能夠更好地理解為什么某些數(shù)據(jù)混合比例比其他比例更有效。
他們發(fā)現(xiàn),最優(yōu)的數(shù)據(jù)混合比例實際上是在平衡兩個相互競爭的目標:一方面要最大化模型對目標任務(wù)的適應(yīng)性,另一方面要保持模型的泛化能力。這種平衡就像調(diào)節(jié)相機的焦距:過度聚焦會失去背景信息,過度發(fā)散則會失去主體清晰度。
這個理論框架還解釋了為什么在不同的模型規(guī)模下,最優(yōu)的數(shù)據(jù)混合比例會發(fā)生變化。隨著模型規(guī)模的增大,模型的表達能力增強,能夠從更復(fù)雜的數(shù)據(jù)混合中提取有用信息。這就像一個經(jīng)驗豐富的廚師能夠處理更復(fù)雜的食材組合,而新手廚師則需要更簡單的配方。
八、實際應(yīng)用:從實驗室到產(chǎn)業(yè)界
這項研究的實際應(yīng)用價值已經(jīng)在多個場景中得到驗證。研究團隊展示了如何使用他們的公式來指導(dǎo)實際的AI模型開發(fā)過程。
在語言模型的應(yīng)用中,他們成功地為一個70億參數(shù)的模型找到了最優(yōu)的數(shù)據(jù)配方。這個模型在多個標準測試中都表現(xiàn)出色,特別是在需要高質(zhì)量推理的任務(wù)上。更重要的是,整個優(yōu)化過程只需要傳統(tǒng)試錯方法十分之一的計算成本。
在多模態(tài)模型的應(yīng)用中,研究團隊發(fā)現(xiàn)他們的公式能夠幫助開發(fā)者在文本理解、圖像識別和多模態(tài)推理之間找到最佳平衡點。這對于開發(fā)通用的AI助手特別有價值,因為這類系統(tǒng)需要在多種不同類型的任務(wù)上都表現(xiàn)良好。
研究團隊還探索了他們的方法在持續(xù)學(xué)習(xí)場景中的應(yīng)用。當(dāng)需要為已有的模型添加新的能力時,如何調(diào)整數(shù)據(jù)混合比例以避免"災(zāi)難性遺忘"是一個重要挑戰(zhàn)。初步實驗顯示,他們的公式能夠為這種場景提供有價值的指導(dǎo)。
九、未來展望:更廣闊的應(yīng)用前景
這項研究開辟了AI模型訓(xùn)練優(yōu)化的新方向,但研究團隊也指出了當(dāng)前方法的一些局限性和未來的發(fā)展方向。
當(dāng)前的公式主要適用于預(yù)訓(xùn)練階段,對于微調(diào)和持續(xù)學(xué)習(xí)階段的數(shù)據(jù)混合優(yōu)化還需要進一步研究。研究團隊認為,將這套方法擴展到整個AI模型的生命周期是一個重要的研究方向。
另一個重要的發(fā)展方向是考慮數(shù)據(jù)質(zhì)量的動態(tài)變化。當(dāng)前的公式假設(shè)訓(xùn)練過程中數(shù)據(jù)混合比例保持恒定,但在實際應(yīng)用中,可能需要根據(jù)訓(xùn)練進度動態(tài)調(diào)整數(shù)據(jù)配方。這就像烹飪過程中需要根據(jù)火候的變化調(diào)整調(diào)料的添加時機。
研究團隊還計劃將他們的方法擴展到更多類型的AI模型和更多樣化的數(shù)據(jù)類型。隨著AI技術(shù)的不斷發(fā)展,新的模型架構(gòu)和新的數(shù)據(jù)模態(tài)不斷涌現(xiàn),如何為這些新技術(shù)找到最優(yōu)的數(shù)據(jù)配方將是一個持續(xù)的挑戰(zhàn)。
此外,研究團隊認為,將這種數(shù)據(jù)優(yōu)化方法與其他AI訓(xùn)練技術(shù)(如元學(xué)習(xí)、強化學(xué)習(xí)等)結(jié)合起來,可能會產(chǎn)生更大的效果。這種跨領(lǐng)域的融合可能會為AI模型訓(xùn)練帶來革命性的改進。
從產(chǎn)業(yè)應(yīng)用的角度來看,這項研究的成果有望顯著降低AI模型開發(fā)的成本和時間。對于資源有限的研究團隊和初創(chuàng)公司來說,這種基于科學(xué)公式的數(shù)據(jù)配方優(yōu)化方法可能成為他們與大型科技公司競爭的重要工具。
說到底,這項研究就像為AI訓(xùn)練領(lǐng)域提供了一本精確的"烹飪指南"。以前,訓(xùn)練AI模型更像是藝術(shù),需要經(jīng)驗、直覺和大量的試錯?,F(xiàn)在,它更像是科學(xué),有了可靠的理論基礎(chǔ)和實用的工具。雖然經(jīng)驗和直覺仍然重要,但科學(xué)的方法讓整個過程變得更加高效和可預(yù)測。
這個突破不僅僅是技術(shù)上的進步,更是思維方式的轉(zhuǎn)變。它告訴我們,即使在快速發(fā)展的AI領(lǐng)域,系統(tǒng)性的科學(xué)研究仍然能夠產(chǎn)生深遠的影響。這種從經(jīng)驗到理論、從試錯到預(yù)測的轉(zhuǎn)變,可能會啟發(fā)更多類似的研究,推動整個AI領(lǐng)域向更加成熟的方向發(fā)展。
對于普通人來說,這項研究的意義在于,未來的AI系統(tǒng)可能會變得更加高效、更加準確,同時開發(fā)成本也會降低。這意味著更多的創(chuàng)新應(yīng)用會涌現(xiàn)出來,AI技術(shù)也會更快地普及到各個領(lǐng)域。從這個角度來看,這項看似技術(shù)性的研究,實際上可能會影響到每個人的生活。
有興趣深入了解這項研究的讀者,可以通過論文編號arXiv:2507.09404v1獲取完整的研究報告,其中包含了更詳細的技術(shù)細節(jié)和實驗數(shù)據(jù)。
Q&A
Q1:這個數(shù)據(jù)混合公式是否適用于所有類型的AI模型? A:研究團隊在三種不同類型的AI模型上驗證了公式的有效性:大語言模型、多模態(tài)模型和視覺模型。雖然顯示出良好的普適性,但對于其他新興的模型架構(gòu),可能需要進一步的驗證和調(diào)整。研究團隊也在論文中提到了將方法擴展到更多模型類型的計劃。
Q2:使用這個公式能節(jié)省多少訓(xùn)練成本? A:根據(jù)研究團隊的實驗結(jié)果,使用這個公式可以將尋找最優(yōu)數(shù)據(jù)配方的成本降低到傳統(tǒng)試錯方法的十分之一。因為只需要用小規(guī)模模型進行少量實驗就能預(yù)測大規(guī)模模型的最優(yōu)配方,大大減少了昂貴的大規(guī)模訓(xùn)練實驗次數(shù)。
Q3:普通開發(fā)者如何使用這個研究成果? A:雖然研究團隊提供了數(shù)學(xué)公式和理論框架,但目前還沒有發(fā)布現(xiàn)成的工具軟件。開發(fā)者需要根據(jù)論文中的方法,結(jié)合自己的具體應(yīng)用場景來實現(xiàn)相應(yīng)的優(yōu)化流程。不過,這項研究為AI訓(xùn)練社區(qū)提供了明確的方向,預(yù)計未來會有更多易用的工具出現(xiàn)。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機制和漸進式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學(xué)習(xí)外觀和運動信息,顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準,通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報,準確性超越傳統(tǒng)方法90%的指標。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。