在數(shù)字圖像處理的世界里,AI已經(jīng)能夠完成許多令人驚嘆的任務(wù)——給照片中缺失的部分補上內(nèi)容、擴展圖片邊界、移除不需要的物體,甚至在圖片上渲染漂亮的文字。然而,就像一個多才多藝卻缺乏藝術(shù)細胞的工匠,現(xiàn)有的AI圖像編輯工具雖然技術(shù)嫻熟,卻往往難以理解什么叫"好看"。這項由ByteDance公司的袁恭、王雄輝、吳杰等研究人員開展的研究,發(fā)表于2025年8月的arXiv預(yù)印本平臺(論文編號:arXiv:2508.21066v1),提出了一個名為OneReward的創(chuàng)新性解決方案,旨在教會AI圖像編輯模型如何理解和滿足人類的審美偏好。感興趣的讀者可以通過https://one-reward.github.io訪問完整的研究資料和開源代碼。
想象一下這樣的情景:你雇傭了一位畫師來修復(fù)你的老照片,但這位畫師雖然技法精湛,卻完全不懂得什么是美觀。他可能會在需要自然過渡的地方畫得生硬突兀,或者在需要保持原有風(fēng)格的地方添加格格不入的元素?,F(xiàn)有的AI圖像編輯模型正面臨著類似的困境——它們在技術(shù)層面表現(xiàn)出色,但在理解人類審美偏好方面還有很大提升空間。
研究團隊發(fā)現(xiàn),當前的AI圖像編輯工具普遍存在一個根本性問題:它們往往針對特定任務(wù)進行專門訓(xùn)練,就像培養(yǎng)只會做一道菜的廚師一樣。這種方法不僅效率低下,而且難以在不同類型的編輯任務(wù)之間保持一致的質(zhì)量水平。更重要的是,這些模型缺乏一個統(tǒng)一的"品味"標準,無法判斷什么樣的編輯結(jié)果更符合人類的期望。
為了解決這個問題,研究團隊開發(fā)了OneReward——一個革命性的統(tǒng)一獎勵模型框架。這就像為AI編輯工具配備了一位經(jīng)驗豐富的藝術(shù)指導(dǎo),能夠在各種不同的編輯場景中提供一致的審美指導(dǎo)。OneReward的核心創(chuàng)新在于使用單一的視覺語言模型作為"萬能評委",能夠在多種編輯任務(wù)和評價標準下判斷哪種編輯結(jié)果更好。
這種方法的巧妙之處在于,它將任務(wù)類型和評價標準直接融入到查詢指令中,讓同一個模型能夠根據(jù)不同的上下文做出相應(yīng)的判斷。這就像訓(xùn)練一位全能的藝術(shù)評論家,既能評價油畫的色彩搭配,又能評判雕塑的線條美感,還能鑒賞攝影作品的構(gòu)圖布局。
基于OneReward框架,研究團隊開發(fā)了Seedream 3.0 Fill——一個能夠統(tǒng)一處理圖像填充、圖像擴展、物體移除和文字渲染四大核心任務(wù)的先進模型。這個模型的訓(xùn)練過程完全跳過了傳統(tǒng)的任務(wù)特定微調(diào)步驟,直接通過強化學(xué)習(xí)從預(yù)訓(xùn)練模型出發(fā),就像讓一位天賦異稟的學(xué)徒直接跟著大師學(xué)習(xí)各種技藝,而不是先在各個小作坊里分別練習(xí)。
一、人類偏好數(shù)據(jù)的精心收集
要教會AI什么是"好看",首先需要收集大量的人類審美偏好數(shù)據(jù),這個過程就像建立一個龐大的"美丑對比"數(shù)據(jù)庫。研究團隊設(shè)計了一套精妙的數(shù)據(jù)收集流程,覆蓋了四個主要的圖像編輯任務(wù)場景。
在圖像填充和圖像擴展任務(wù)中,AI需要根據(jù)用戶的文字描述在指定區(qū)域生成新的內(nèi)容。這就像在一幅未完成的畫作中添加缺失的部分,既要符合描述要求,又要與周圍環(huán)境和諧統(tǒng)一。而在物體移除任務(wù)中,AI的目標是將不需要的元素從圖像中"無痕"清除,就像用魔法橡皮擦一樣,讓人完全看不出曾經(jīng)有東西被移除過。文字渲染任務(wù)則要求AI能夠在圖像上生成各種樣式的文字,這需要考慮字體選擇、顏色搭配以及與背景的協(xié)調(diào)性。
研究團隊采用了一種聰明的數(shù)據(jù)生成策略。他們使用預(yù)訓(xùn)練的擴散模型為每個樣本生成多個候選結(jié)果,通過隨機調(diào)整推理步數(shù)、負面提示詞和分類器自由引導(dǎo)尺度等參數(shù)來增加輸出的多樣性。這就像讓不同風(fēng)格的畫家為同一個主題創(chuàng)作,產(chǎn)生風(fēng)格迥異的作品供人們比較選擇。
在標注環(huán)節(jié),研究團隊設(shè)計了一套多維度評價體系。對于圖像填充和擴展任務(wù),標注者需要從結(jié)構(gòu)一致性、紋理協(xié)調(diào)性、文字對齊程度和整體美觀度四個維度進行評價。結(jié)構(gòu)一致性考察生成內(nèi)容是否保持了原有的空間幾何關(guān)系,就像建筑師確保新加的房間與整體建筑風(fēng)格協(xié)調(diào)一樣。紋理協(xié)調(diào)性關(guān)注新生成區(qū)域是否與周圍環(huán)境在顏色、質(zhì)感和光照方面保持一致。文字對齊程度評估生成內(nèi)容是否準確反映了用戶的文字描述要求。整體美觀度則從藝術(shù)角度評判最終結(jié)果的視覺效果。
對于物體移除任務(wù),評價標準相對簡單,主要看移除質(zhì)量——目標物體是否被完全清除,填補區(qū)域是否自然無痕。這個過程中,標注者會采用"最佳-最差"選擇法,從多個候選結(jié)果中分別挑選出每個評價維度上表現(xiàn)最好和最差的樣本,形成對比數(shù)據(jù)對。
這種標注方式的精妙之處在于,它允許同一個樣本在不同維度上有不同的表現(xiàn)。比如某個編輯結(jié)果可能在文字對齊方面表現(xiàn)優(yōu)秀,但在美觀度方面略遜一籌。這種細致入微的區(qū)分為后續(xù)的模型訓(xùn)練提供了豐富的監(jiān)督信號,就像為AI老師準備了一本詳細的評分手冊,告訴它在什么情況下應(yīng)該給出怎樣的評價。
二、OneReward統(tǒng)一獎勵模型的設(shè)計理念
傳統(tǒng)的AI圖像編輯模型訓(xùn)練就像培養(yǎng)??漆t(yī)生——每個模型只精通一種任務(wù),需要不同的評價標準和訓(xùn)練流程。這種方法不僅資源消耗巨大,而且難以保證各個模型之間的一致性。OneReward的出現(xiàn)就像引入了一位全科醫(yī)生的概念,用一個統(tǒng)一的框架來處理所有類型的圖像編輯任務(wù)。
OneReward的核心是一個精心設(shè)計的視覺語言模型,它能夠理解圖像內(nèi)容并根據(jù)文字指令進行判斷。這個模型的工作方式很像一位經(jīng)驗豐富的藝術(shù)評論家,能夠根據(jù)不同的評價標準對作品進行專業(yè)點評。當需要評價一個圖像編輯結(jié)果時,OneReward會接收兩張候選圖像以及一個包含任務(wù)類型和評價維度信息的查詢指令。
查詢指令的設(shè)計體現(xiàn)了研究團隊的巧思。指令模板會根據(jù)具體任務(wù)和評價維度動態(tài)生成相應(yīng)的問題。比如在評價圖像填充任務(wù)的美觀度時,指令可能會問:"從美學(xué)角度看,第一張圖像是否比第二張圖像更好看?"而在評價物體移除任務(wù)時,指令則會問:"從移除質(zhì)量來看,第一張圖像的目標物體是否比第二張圖像移除得更干凈?"
這種設(shè)計讓同一個模型能夠在不同的上下文中發(fā)揮作用,就像一個多面的評判專家,既可以是美術(shù)老師評價學(xué)生作品的構(gòu)圖,也可以是技術(shù)專家檢查產(chǎn)品的質(zhì)量缺陷。模型的輸出是簡單的"是"或"否"判斷,通過分析模型生成這兩個詞的概率分布,研究團隊可以得到一個連續(xù)的評分信號用于后續(xù)訓(xùn)練。
為了訓(xùn)練這個統(tǒng)一的獎勵模型,研究團隊采用了對比學(xué)習(xí)的方法。每個訓(xùn)練樣本包含一對圖像(winner和loser)以及對應(yīng)的查詢指令。模型需要學(xué)會在給定特定評價標準的情況下,正確識別出哪張圖像更符合人類偏好。這個過程就像訓(xùn)練一位鑒寶專家,通過大量的正品贗品對比練習(xí),最終能夠準確判斷物品的真?zhèn)蝺r值。
訓(xùn)練完成后的OneReward模型在各個任務(wù)和維度上都表現(xiàn)出了令人滿意的準確率。在文字對齊維度上,模型的判斷準確率超過了80%,這得益于底層視覺語言模型在多模態(tài)理解方面的天然優(yōu)勢。在其他維度如一致性、結(jié)構(gòu)和美觀度上,準確率也達到了70%以上的水平。特別是在物體移除任務(wù)上,模型達到了84.93%的移除質(zhì)量判斷準確率,顯示出強大的細節(jié)識別能力。
三、多任務(wù)強化學(xué)習(xí)的訓(xùn)練策略
有了能夠準確評判編輯質(zhì)量的OneReward模型,下一步就是將這種評判能力轉(zhuǎn)化為改進圖像編輯模型的動力。這個過程采用了強化學(xué)習(xí)的方法,就像讓一位學(xué)徒在師傅的指導(dǎo)下不斷練習(xí),通過反復(fù)的試錯和改進來提升技藝水平。
整個訓(xùn)練流程設(shè)計得非常巧妙。系統(tǒng)維護著三個版本的模型:一個負責(zé)學(xué)習(xí)改進的策略模型、一個提供對比基準的參考模型,以及一個通過指數(shù)移動平均得到的穩(wěn)定版本模型。這種設(shè)置就像在藝術(shù)學(xué)校里設(shè)立了三個不同角色:努力學(xué)習(xí)的學(xué)生、經(jīng)驗豐富的教師,以及代表歷史最佳水平的大師作品。
在每次訓(xùn)練迭代中,系統(tǒng)會從多個任務(wù)數(shù)據(jù)集中隨機選擇訓(xùn)練樣本,并為不同任務(wù)分配不同的采樣概率。研究團隊發(fā)現(xiàn),那些相對困難的任務(wù)需要更多的訓(xùn)練關(guān)注,因此會獲得更高的采樣權(quán)重。這種動態(tài)調(diào)整策略確保了模型能夠在各個任務(wù)上都達到較高的水準,而不是只擅長某一種特定編輯類型。
訓(xùn)練過程中的獎勵信號來源于OneReward模型的判斷結(jié)果。對于每個編輯樣本,策略模型生成的結(jié)果會與參考模型的輸出進行比較,OneReward會根據(jù)具體的任務(wù)類型和評價維度給出偏好判斷。這個判斷結(jié)果被轉(zhuǎn)化為數(shù)值化的獎勵信號,用于指導(dǎo)策略模型的參數(shù)更新。
為了避免模型在訓(xùn)練過程中出現(xiàn)"投機取巧"的行為,研究團隊設(shè)置了獎勵上界限制。這就像在考試中設(shè)定防作弊措施,確保模型真正學(xué)到了編輯技能,而不是找到了某種欺騙評判系統(tǒng)的方法。同時,多維度的同步優(yōu)化策略確保模型在追求某一方面改進的同時不會犧牲其他方面的表現(xiàn)。
訓(xùn)練過程中的獎勵曲線顯示出了清晰的上升趨勢,表明模型在各個維度上都在持續(xù)改進。雖然多任務(wù)學(xué)習(xí)會帶來一定的不穩(wěn)定性,但總體趨勢表明這種統(tǒng)一訓(xùn)練方法是有效的。特別值得注意的是,不同任務(wù)之間的獎勵提升速度存在差異,這反映了任務(wù)本身的難易程度和數(shù)據(jù)分布特點。
四、動態(tài)強化學(xué)習(xí)的創(chuàng)新優(yōu)化
在實際應(yīng)用OneReward框架的過程中,研究團隊發(fā)現(xiàn)傳統(tǒng)的三模型并行訓(xùn)練方式雖然有效,但也帶來了一些實際問題。維護三個大型模型需要占用大量內(nèi)存資源,而且如果參考模型的質(zhì)量不夠高,可能會導(dǎo)致訓(xùn)練效果不佳,就像讓學(xué)徒跟著一位技藝一般的師傅學(xué)習(xí),進步空間自然有限。
為了解決這些問題,研究團隊提出了動態(tài)強化學(xué)習(xí)策略。這種方法的核心思想是讓參考模型隨著訓(xùn)練的進行而不斷改進,而不是保持固定不變。具體來說,他們直接使用指數(shù)移動平均模型作為參考基準,這樣參考模型的質(zhì)量會隨著策略模型的改進而同步提升。
這種設(shè)計就像讓學(xué)徒的對手也在不斷進步,確保每次比較都有足夠的挑戰(zhàn)性。隨著訓(xùn)練的深入,參考模型逐漸從"入門水平"提升到"高手水準",這意味著策略模型需要不斷超越越來越高的標準才能獲得正面的獎勵信號。這種自適應(yīng)的難度調(diào)節(jié)機制有效避免了模型在簡單任務(wù)上的"躺平"行為,促使其持續(xù)追求更高的編輯質(zhì)量。
動態(tài)框架的另一個優(yōu)勢是簡化了整體的訓(xùn)練架構(gòu)。通過復(fù)用指數(shù)移動平均模型作為參考基準,系統(tǒng)的內(nèi)存占用顯著降低,工程實現(xiàn)也變得更加簡潔。這種優(yōu)化對于資源受限的研究環(huán)境特別有價值,讓更多團隊能夠復(fù)現(xiàn)和改進這一方法。
實驗結(jié)果表明,動態(tài)強化學(xué)習(xí)方法不僅保持了原有框架的性能優(yōu)勢,在某些場景下甚至表現(xiàn)得更好。這驗證了研究團隊的設(shè)計理念:讓AI模型在不斷變化的挑戰(zhàn)中成長,往往比在固定標準下反復(fù)練習(xí)更有效果。
五、全面的實驗評估和性能對比
為了驗證OneReward框架和Seedream 3.0 Fill模型的實際效果,研究團隊設(shè)計了一套全面的評估體系,將其與多個業(yè)界領(lǐng)先的商業(yè)產(chǎn)品和開源模型進行對比。這些對比對象包括Ideogram、Adobe Photoshop、Midjourney和FLUX Fill等知名工具,基本代表了當前圖像編輯領(lǐng)域的最高水準。
評估數(shù)據(jù)集經(jīng)過精心構(gòu)建,涵蓋了130張圖像填充樣本、100張物體移除樣本,以及200張圖像擴展樣本(其中一半有文字提示,一半沒有文字提示)。這些樣本涵蓋了人像、風(fēng)景、寵物、排版等多種場景,以及寫實、動漫、水彩、AI生成等不同藝術(shù)風(fēng)格,確保評估結(jié)果的全面性和代表性。
在人工評估環(huán)節(jié),研究團隊邀請了40位參與者對生成結(jié)果進行多維度打分。評估指標包括整體可用性、文字對齊度、紋理一致性、風(fēng)格一致性、結(jié)構(gòu)合理性、美觀度、文字渲染質(zhì)量和移除質(zhì)量等。其中,可用性、文字渲染和移除質(zhì)量采用二元判斷方式,其他維度則使用1-5分的李克特量表評分。
實驗結(jié)果令人印象深刻。在圖像填充任務(wù)中,Seedream 3.0 Fill達到了69.04%的整體可用性,比排名第二的競爭對手高出16.93個百分點。在大多數(shù)評價維度上,包括文字對齊、紋理一致性、結(jié)構(gòu)合理性、美觀度和文字渲染方面,Seedream 3.0 Fill都取得了最高分數(shù)。唯一的例外是風(fēng)格一致性,在這個維度上Ideogram略有優(yōu)勢。
在圖像擴展任務(wù)中,無論是有文字提示還是無文字提示的場景,Seedream 3.0 Fill都表現(xiàn)出色。特別是在無提示的圖像擴展任務(wù)中,該模型達到了87.54%的可用性率,在所有評價維度上都顯著超越競爭對手。這個結(jié)果特別有意義,因為無提示擴展需要模型完全依靠對原圖內(nèi)容的理解來生成合適的擴展內(nèi)容,是對模型綜合能力的嚴峻考驗。
物體移除任務(wù)的結(jié)果同樣令人滿意。Seedream 3.0 Fill獲得了82.22%的整體可用性和86.33%的移除質(zhì)量評分,明顯優(yōu)于其他競爭對手。移除質(zhì)量的高分特別值得關(guān)注,因為這表明模型能夠生成很少包含意外物體的結(jié)果,而這種行為在其他生成任務(wù)(如圖像填充或擴展)中通常是不被期望的。這種看似矛盾的要求能夠在同一個模型中得到很好的平衡,充分證明了多任務(wù)強化學(xué)習(xí)策略的有效性。
為了進一步驗證OneReward框架的貢獻,研究團隊還進行了消融實驗,比較了使用和不使用獎勵指導(dǎo)的Seedream 3.0 Fill模型。采用好-一般-差三級評判標準的對比結(jié)果顯示,在所有任務(wù)類型中,使用OneReward訓(xùn)練的模型都獲得了更高比例的"好"評價,這直接證明了統(tǒng)一獎勵模型在提升編輯質(zhì)量方面的作用。
六、開源貢獻和技術(shù)擴展
除了在自有的Seedream 3.0基礎(chǔ)上開發(fā)統(tǒng)一編輯模型,研究團隊還將OneReward框架應(yīng)用到了開源的FLUX Fill模型上,開發(fā)出FLUX Fill [dev][OneReward]版本。這個擴展實驗不僅驗證了方法的通用性,也為開源社區(qū)提供了寶貴的資源。
FLUX Fill是目前開源社區(qū)中表現(xiàn)優(yōu)秀的圖像編輯模型之一,在填充和擴展任務(wù)上都有不錯的基礎(chǔ)性能。通過應(yīng)用OneReward框架進行強化學(xué)習(xí)優(yōu)化,研究團隊成功地提升了其在多個任務(wù)上的表現(xiàn)。實驗對比顯示,優(yōu)化后的模型在視覺質(zhì)量和用戶滿意度方面都有明顯改進,特別是在需要精確控制和高質(zhì)量輸出的場景中表現(xiàn)更加穩(wěn)定。
這種跨模型的成功應(yīng)用證明了OneReward框架具有良好的可移植性。不同的基礎(chǔ)模型雖然在架構(gòu)細節(jié)上存在差異,但都能從統(tǒng)一的人類偏好學(xué)習(xí)框架中受益。這為整個圖像編輯領(lǐng)域提供了一個通用的改進方案,讓各種不同的模型都能通過相似的方法獲得性能提升。
研究團隊承諾將完整的訓(xùn)練代碼、模型權(quán)重和數(shù)據(jù)集向公眾開放,這對于推動整個領(lǐng)域的發(fā)展具有重要意義。開源的模型和工具可以讓更多研究者和開發(fā)者在此基礎(chǔ)上進行創(chuàng)新,加速相關(guān)技術(shù)的普及和應(yīng)用。同時,公開的數(shù)據(jù)集也為其他團隊開展類似研究提供了寶貴的起點,避免了重復(fù)的數(shù)據(jù)收集工作。
從技術(shù)擴展的角度看,OneReward框架的設(shè)計理念可以應(yīng)用到更廣泛的多模態(tài)生成任務(wù)中。視頻編輯、3D內(nèi)容生成、音頻處理等領(lǐng)域都面臨著類似的多任務(wù)統(tǒng)一優(yōu)化挑戰(zhàn),OneReward提供的統(tǒng)一獎勵建模思路具有重要的參考價值。隨著多模態(tài)AI技術(shù)的不斷發(fā)展,這種統(tǒng)一的人類偏好學(xué)習(xí)方法很可能成為未來AI系統(tǒng)訓(xùn)練的標準范式。
歸根結(jié)底,這項研究解決了AI圖像編輯領(lǐng)域的一個根本性問題:如何讓機器真正理解人類的審美偏好,并在此基礎(chǔ)上生成令人滿意的編輯結(jié)果。通過巧妙的統(tǒng)一獎勵建模和多任務(wù)強化學(xué)習(xí),研究團隊不僅開發(fā)出了性能優(yōu)秀的實用模型,更重要的是提供了一個可復(fù)制、可擴展的方法框架。
這種技術(shù)進步對普通用戶的意義是顯而易見的。未來的圖像編輯工具將能夠更好地理解用戶意圖,生成更符合審美期望的結(jié)果,讓每個人都能輕松創(chuàng)造出專業(yè)水準的視覺內(nèi)容。對于內(nèi)容創(chuàng)作者、設(shè)計師和普通的社交媒體用戶來說,這意味著更高效的創(chuàng)作流程和更滿意的最終結(jié)果。從更宏觀的角度看,這項研究推動了AI系統(tǒng)與人類價值觀對齊的探索,為構(gòu)建更加智能、更加人性化的AI工具奠定了重要基礎(chǔ)。有興趣深入了解技術(shù)細節(jié)的讀者可以訪問https://one-reward.github.io獲取完整的論文資料和開源代碼。
Q&A
Q1:OneReward和傳統(tǒng)的AI圖像編輯模型訓(xùn)練方法有什么區(qū)別?
A:傳統(tǒng)方法像培養(yǎng)??漆t(yī)生,每個模型只精通一種任務(wù),需要針對不同任務(wù)分別訓(xùn)練不同的模型。OneReward則像培養(yǎng)全科醫(yī)生,用一個統(tǒng)一的獎勵模型來評判所有類型的圖像編輯任務(wù),通過強化學(xué)習(xí)讓模型同時掌握圖像填充、擴展、物體移除和文字渲染等多種技能。
Q2:Seedream 3.0 Fill在實際應(yīng)用中表現(xiàn)如何?
A:在與Ideogram、Adobe Photoshop、FLUX Fill等業(yè)界領(lǐng)先工具的對比中,Seedream 3.0 Fill在多數(shù)評價維度上都取得了最佳成績。比如在圖像填充任務(wù)中達到69.04%的整體可用性,比第二名高出近17個百分點,在圖像擴展無提示場景中更是達到了87.54%的可用性率。
Q3:普通用戶能否使用這項技術(shù)?研究成果是否開源?
A:研究團隊承諾將完整的訓(xùn)練代碼、模型權(quán)重和數(shù)據(jù)集向公眾開放,用戶可以通過https://one-reward.github.io訪問相關(guān)資源。他們還基于開源的FLUX Fill模型開發(fā)了優(yōu)化版本,讓更多開發(fā)者和研究者能夠在此基礎(chǔ)上進行創(chuàng)新和應(yīng)用開發(fā)。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機制和漸進式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學(xué)習(xí)外觀和運動信息,顯著解決了當前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準,通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報,準確性超越傳統(tǒng)方法90%的指標。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。