當(dāng)你打開(kāi)手機(jī)里的AI繪圖應(yīng)用,輸入一句"陽(yáng)光下奔跑的貓咪",幾秒鐘后就能看到一張精美的圖片時(shí),你是否想過(guò),如果這個(gè)AI不僅能畫(huà)出靜態(tài)圖片,還能生成動(dòng)態(tài)視頻會(huì)是什么樣?來(lái)自香港大學(xué)和字節(jié)跳動(dòng)的研究團(tuán)隊(duì)剛剛實(shí)現(xiàn)了這個(gè)聽(tīng)起來(lái)像科幻小說(shuō)的想法。他們開(kāi)發(fā)出了一個(gè)名為Goku的AI系統(tǒng),這項(xiàng)突破性研究于2025年2月10日發(fā)表在arXiv預(yù)印本平臺(tái)上(論文編號(hào):arXiv:2502.04896v2),由香港大學(xué)的陳守發(fā)、葛重建等學(xué)者與字節(jié)跳動(dòng)的研究團(tuán)隊(duì)共同完成。
把Goku比作一位多才多藝的藝術(shù)家最為貼切。傳統(tǒng)的AI藝術(shù)家要么專(zhuān)精畫(huà)畫(huà),要么專(zhuān)精拍視頻,很少有人能同時(shí)掌握這兩種技能。而Goku就像一位既能畫(huà)出精美插畫(huà),又能制作流暢動(dòng)畫(huà)的全能創(chuàng)作者。更令人驚嘆的是,這位"藝術(shù)家"使用的創(chuàng)作方法也與眾不同——它采用了一種叫做"修正流"的技術(shù),這就像是在創(chuàng)作過(guò)程中使用了一條筆直的創(chuàng)意之河,而非傳統(tǒng)AI常用的彎彎繞繞的創(chuàng)作路徑。
研究團(tuán)隊(duì)面臨的挑戰(zhàn)就像要教會(huì)一個(gè)人同時(shí)學(xué)會(huì)兩門(mén)截然不同的藝術(shù)形式。靜態(tài)圖片創(chuàng)作注重細(xì)節(jié)和構(gòu)圖的精準(zhǔn),而視頻制作則需要掌握時(shí)間流動(dòng)和動(dòng)作連貫性。傳統(tǒng)做法通常是分別訓(xùn)練兩個(gè)專(zhuān)門(mén)的AI系統(tǒng),就像培養(yǎng)兩個(gè)專(zhuān)業(yè)藝術(shù)家,一個(gè)專(zhuān)門(mén)畫(huà)畫(huà),另一個(gè)專(zhuān)門(mén)做動(dòng)畫(huà)。但Goku采用了革命性的"統(tǒng)一訓(xùn)練"方法,讓同一個(gè)AI系統(tǒng)學(xué)會(huì)處理圖片和視頻兩種完全不同的創(chuàng)作任務(wù)。
更為重要的是,這不僅僅是一個(gè)實(shí)驗(yàn)室里的技術(shù)演示。研究團(tuán)隊(duì)精心準(zhǔn)備了海量的訓(xùn)練材料——約1.6億張圖片和3600萬(wàn)段視頻,這些素材經(jīng)過(guò)精心篩選和標(biāo)注,就像為這位AI藝術(shù)家準(zhǔn)備了世界上最豐富的創(chuàng)作參考資料庫(kù)。在多項(xiàng)嚴(yán)格的測(cè)試中,Goku都表現(xiàn)出了業(yè)界領(lǐng)先的水平,特別是在VBench視頻生成測(cè)試中獲得了84.85分的優(yōu)異成績(jī),在GenEval圖片生成測(cè)試中達(dá)到了0.76分,都位列當(dāng)前最先進(jìn)系統(tǒng)的前茅。
### 一、統(tǒng)一的創(chuàng)意工廠:圖片視頻一體化訓(xùn)練的革命
Goku最核心的創(chuàng)新就像建立了一座能夠同時(shí)生產(chǎn)靜態(tài)海報(bào)和動(dòng)態(tài)廣告的智能工廠。在傳統(tǒng)的AI創(chuàng)作世界里,制作圖片和視頻通常需要兩套完全不同的生產(chǎn)線,就像一家公司需要分別設(shè)立攝影部門(mén)和電影制作部門(mén)。但Goku打破了這種界限,創(chuàng)造了一條能夠靈活切換的統(tǒng)一生產(chǎn)線。
這種統(tǒng)一的創(chuàng)作方法建立在一個(gè)巧妙的基礎(chǔ)上:將圖片和視頻都轉(zhuǎn)換成相同的"創(chuàng)作語(yǔ)言"。研究團(tuán)隊(duì)使用了一種叫做"3D聯(lián)合變分自編碼器"的技術(shù),這個(gè)名字聽(tīng)起來(lái)復(fù)雜,但可以理解為一個(gè)智能的格式轉(zhuǎn)換器。它能將不同類(lèi)型的視覺(jué)內(nèi)容——無(wú)論是靜態(tài)圖片還是動(dòng)態(tài)視頻——都轉(zhuǎn)換成計(jì)算機(jī)更容易理解和處理的統(tǒng)一格式。這就像有一臺(tái)神奇的翻譯機(jī),能把中文、英文、法文都翻譯成同一種通用語(yǔ)言,讓后續(xù)的創(chuàng)作過(guò)程變得更加順暢。
在這個(gè)統(tǒng)一的創(chuàng)作環(huán)境中,Goku采用了"全注意力機(jī)制",這可以理解為給AI配備了一雙能夠同時(shí)關(guān)注畫(huà)面所有細(xì)節(jié)的眼睛。無(wú)論是處理一張風(fēng)景照片中的每一棵樹(shù),還是追蹤視頻中人物動(dòng)作的每一個(gè)細(xì)微變化,這套機(jī)制都能確保AI不會(huì)遺漏任何重要信息。傳統(tǒng)的視頻AI系統(tǒng)往往需要分別處理時(shí)間維度和空間維度的信息,就像需要兩只眼睛分別負(fù)責(zé)看左右,而Goku的全注意力機(jī)制讓AI能夠用一雙眼睛同時(shí)看清整個(gè)畫(huà)面的所有內(nèi)容。
為了讓這種統(tǒng)一訓(xùn)練真正發(fā)揮效果,研究團(tuán)隊(duì)還開(kāi)發(fā)了一種稱(chēng)為"Patch n' Pack"的智能調(diào)度系統(tǒng)。這個(gè)系統(tǒng)就像一個(gè)聰明的工廠調(diào)度員,能夠?qū)⒉煌叽绲膱D片和不同長(zhǎng)度的視頻巧妙地組合在一起進(jìn)行批量處理。傳統(tǒng)做法需要將所有材料裁剪成相同尺寸,這會(huì)造成大量信息損失,而Goku的調(diào)度系統(tǒng)能夠像俄羅斯方塊一樣,將各種形狀的內(nèi)容完美拼接在一起,既提高了處理效率,又保持了原始內(nèi)容的完整性。
這種統(tǒng)一訓(xùn)練方法帶來(lái)了一個(gè)意外的好處:圖片和視頻之間的相互促進(jìn)。高質(zhì)量的圖片訓(xùn)練數(shù)據(jù)幫助AI更好地理解視覺(jué)細(xì)節(jié)和美學(xué)標(biāo)準(zhǔn),而視頻數(shù)據(jù)則教會(huì)了AI如何處理動(dòng)態(tài)變化和時(shí)間連續(xù)性。這就像讓一個(gè)藝術(shù)學(xué)生同時(shí)學(xué)習(xí)素描和動(dòng)畫(huà)制作,兩種技能相互促進(jìn),最終達(dá)到1+1大于2的效果。
### 二、修正流技術(shù):創(chuàng)作過(guò)程的直線加速器
如果說(shuō)傳統(tǒng)的AI創(chuàng)作過(guò)程像在山路上蜿蜒前行,那么Goku采用的修正流技術(shù)就像開(kāi)通了一條從起點(diǎn)到終點(diǎn)的高速直線公路。這種技術(shù)的革命性在于它徹底簡(jiǎn)化了AI從隨機(jī)噪聲到精美作品的創(chuàng)作路徑。
傳統(tǒng)的擴(kuò)散模型創(chuàng)作過(guò)程就像一個(gè)反復(fù)修改的創(chuàng)作過(guò)程。AI從一張充滿(mǎn)噪點(diǎn)的模糊圖像開(kāi)始,需要經(jīng)過(guò)成千上萬(wàn)次微小的調(diào)整和修改,每次都要判斷"這樣改對(duì)不對(duì)"、"還需要怎么調(diào)整",整個(gè)過(guò)程既耗時(shí)又復(fù)雜,就像一個(gè)畫(huà)家需要在畫(huà)布上反復(fù)涂抹修改數(shù)千次才能完成一幅作品。
修正流技術(shù)完全改變了這種創(chuàng)作方式。它在隨機(jī)噪聲(起點(diǎn))和目標(biāo)作品(終點(diǎn))之間建立了一條直線路徑,AI只需要沿著這條直線前進(jìn)就能到達(dá)目的地。具體來(lái)說(shuō),修正流通過(guò)線性插值的方式,將噪聲和真實(shí)數(shù)據(jù)連接起來(lái),創(chuàng)建訓(xùn)練樣本的公式是:x_t = t·x_1 + (1-t)·x_0,其中t代表創(chuàng)作進(jìn)度,x_1是目標(biāo)圖片或視頻,x_0是初始噪聲。
這種方法的優(yōu)勢(shì)就像從復(fù)雜的迷宮導(dǎo)航變成了簡(jiǎn)單的直線行走。研究團(tuán)隊(duì)通過(guò)實(shí)驗(yàn)驗(yàn)證了這種優(yōu)勢(shì):在相同的計(jì)算資源下,使用修正流的Goku-1B模型在40萬(wàn)步訓(xùn)練后就能達(dá)到傳統(tǒng)擴(kuò)散模型需要100萬(wàn)步才能達(dá)到的效果。這意味著修正流技術(shù)不僅讓創(chuàng)作過(guò)程更快,還讓訓(xùn)練過(guò)程更高效。
為了驗(yàn)證這種技術(shù)的有效性,研究團(tuán)隊(duì)進(jìn)行了詳細(xì)的對(duì)比實(shí)驗(yàn)。他們使用同樣的模型架構(gòu),分別測(cè)試了傳統(tǒng)的DDPM擴(kuò)散方法和新的修正流方法。結(jié)果顯示,在ImageNet-1K數(shù)據(jù)集上,修正流方法在各個(gè)訓(xùn)練階段都表現(xiàn)出更快的收斂速度和更好的生成質(zhì)量。特別是在FID分?jǐn)?shù)(用來(lái)衡量生成圖片質(zhì)量的重要指標(biāo))上,修正流方法始終保持領(lǐng)先。
修正流技術(shù)還帶來(lái)了理論上的優(yōu)勢(shì)。傳統(tǒng)擴(kuò)散模型的訓(xùn)練目標(biāo)相對(duì)復(fù)雜,需要預(yù)測(cè)每個(gè)時(shí)間步的噪聲,而修正流只需要學(xué)習(xí)從起點(diǎn)到終點(diǎn)的速度向量,這個(gè)目標(biāo)更加直接和明確。這就像從學(xué)習(xí)復(fù)雜的舞蹈動(dòng)作組合,簡(jiǎn)化為學(xué)習(xí)如何朝著正確方向直線前進(jìn),學(xué)習(xí)難度大大降低。
### 三、數(shù)據(jù)管理的藝術(shù):從海量素材到精品訓(xùn)練集
創(chuàng)建一個(gè)能夠同時(shí)處理圖片和視頻的AI系統(tǒng),就像籌備一場(chǎng)世界級(jí)的藝術(shù)展覽,需要從全球收集最優(yōu)質(zhì)的作品,并且要確保每件展品都符合最高標(biāo)準(zhǔn)。Goku項(xiàng)目的數(shù)據(jù)處理過(guò)程可以說(shuō)是一場(chǎng)精密的篩選和整理工程,最終從海量的網(wǎng)絡(luò)內(nèi)容中提煉出了約1.6億張圖片和3600萬(wàn)段視頻的精品訓(xùn)練集。
這個(gè)篩選過(guò)程就像建立了一條嚴(yán)格的質(zhì)量檢驗(yàn)流水線。原始視頻首先需要通過(guò)基礎(chǔ)的技術(shù)檢測(cè),包括持續(xù)時(shí)間至少4秒、分辨率不低于480像素、比特率不低于500kbps、幀率不低于24fps等基本要求。這些標(biāo)準(zhǔn)確保了訓(xùn)練素材的基本質(zhì)量,就像藝術(shù)展覽需要確保每件作品都有基本的展示價(jià)值。
接下來(lái)是更加精細(xì)的內(nèi)容篩選環(huán)節(jié)。研究團(tuán)隊(duì)開(kāi)發(fā)了多層次的評(píng)估系統(tǒng),其中美學(xué)評(píng)分系統(tǒng)特別值得關(guān)注。這個(gè)系統(tǒng)能夠自動(dòng)評(píng)估視頻每一幀的視覺(jué)質(zhì)量,只有平均美學(xué)評(píng)分達(dá)到標(biāo)準(zhǔn)的視頻才能入選。對(duì)于不同分辨率的內(nèi)容,標(biāo)準(zhǔn)也有所不同:480×864分辨率的內(nèi)容需要達(dá)到4.3分以上,而720×1280以上的高分辨率內(nèi)容則需要達(dá)到4.5分的更高標(biāo)準(zhǔn)。
文字識(shí)別過(guò)濾是另一個(gè)關(guān)鍵環(huán)節(jié)。研究團(tuán)隊(duì)使用OCR技術(shù)檢測(cè)視頻中的文字內(nèi)容占比,將文字覆蓋率過(guò)高的視頻剔除出去。這樣做的原因是帶有大量文字的視頻往往是新聞、廣告或教學(xué)內(nèi)容,這些內(nèi)容的視覺(jué)風(fēng)格相對(duì)單一,不利于訓(xùn)練AI的創(chuàng)作多樣性。不同分辨率的內(nèi)容有不同的文字占比限制:480×864分辨率內(nèi)容的文字占比不能超過(guò)2%,而720×1280以上的高分辨率內(nèi)容文字占比則不能超過(guò)1%。
動(dòng)態(tài)評(píng)估是視頻獨(dú)有的篩選環(huán)節(jié)。研究團(tuán)隊(duì)使用RAFT光流算法計(jì)算視頻的運(yùn)動(dòng)強(qiáng)度,既要避免過(guò)于靜態(tài)的內(nèi)容,也要排除運(yùn)動(dòng)過(guò)于劇烈的內(nèi)容。對(duì)于480×864分辨率的視頻,運(yùn)動(dòng)分?jǐn)?shù)需要控制在0.3到20.0之間,而720×1280以上分辨率的視頻運(yùn)動(dòng)分?jǐn)?shù)則控制在0.5到15.0之間。這種精確的動(dòng)態(tài)控制確保了訓(xùn)練數(shù)據(jù)既有豐富的動(dòng)態(tài)變化,又不會(huì)因?yàn)檫\(yùn)動(dòng)過(guò)于復(fù)雜而影響AI的學(xué)習(xí)效果。
在視頻切片處理方面,研究團(tuán)隊(duì)采用了智能的場(chǎng)景檢測(cè)技術(shù)。他們首先使用PySceneDetect進(jìn)行粗粒度的場(chǎng)景分割,然后使用DINOv2特征提取技術(shù)進(jìn)行精細(xì)化處理。通過(guò)計(jì)算相鄰幀之間的相似度,當(dāng)相似度低于設(shè)定閾值時(shí)就進(jìn)行切片分割,確保每個(gè)片段都有相對(duì)統(tǒng)一的視覺(jué)內(nèi)容。為了保證數(shù)據(jù)的多樣性,來(lái)自同一原始視頻的不同片段還需要通過(guò)感知哈希值比較,避免過(guò)于相似的內(nèi)容重復(fù)入選。
字幕生成是整個(gè)數(shù)據(jù)處理流程的點(diǎn)睛之筆。對(duì)于圖片內(nèi)容,研究團(tuán)隊(duì)使用InternVL2.0模型生成詳細(xì)的描述文字。對(duì)于視頻內(nèi)容,處理過(guò)程更加復(fù)雜:首先使用InternVL2.0為關(guān)鍵幀生成描述,然后使用Tarsier2模型為整個(gè)視頻生成動(dòng)態(tài)描述,最后使用Qwen2大語(yǔ)言模型將這些描述整合成連貫完整的視頻說(shuō)明文字。特別值得一提的是,研究團(tuán)隊(duì)還將前面計(jì)算得出的運(yùn)動(dòng)分?jǐn)?shù)加入到視頻描述中,這樣用戶(hù)就能通過(guò)調(diào)整提示詞中的運(yùn)動(dòng)參數(shù)來(lái)控制生成視頻的動(dòng)態(tài)程度。
為了確保訓(xùn)練數(shù)據(jù)的均衡性,研究團(tuán)隊(duì)還建立了內(nèi)容分類(lèi)和平衡系統(tǒng)。他們使用視頻分類(lèi)模型將所有內(nèi)容歸類(lèi)到9個(gè)主要類(lèi)別和86個(gè)子類(lèi)別中,包括人物、風(fēng)景、動(dòng)物、食物、城市生活等。在發(fā)現(xiàn)人物相關(guān)內(nèi)容訓(xùn)練難度較高但使用需求較大后,研究團(tuán)隊(duì)有意增加了這類(lèi)內(nèi)容的比重,同時(shí)通過(guò)數(shù)據(jù)增強(qiáng)和重采樣技術(shù)確保各個(gè)子類(lèi)別都有足夠的代表性。
### 四、模型架構(gòu)的精妙設(shè)計(jì):Transformer的視頻化改造
Goku的核心架構(gòu)就像一座經(jīng)過(guò)精心改造的智能工廠,在保持原有高效生產(chǎn)能力的基礎(chǔ)上,新增了處理動(dòng)態(tài)內(nèi)容的專(zhuān)門(mén)車(chē)間。這個(gè)改造過(guò)程的精妙之處在于,它不是簡(jiǎn)單地將兩套不同的生產(chǎn)線拼接在一起,而是創(chuàng)造了一個(gè)能夠無(wú)縫切換處理靜態(tài)和動(dòng)態(tài)內(nèi)容的統(tǒng)一系統(tǒng)。
整個(gè)系統(tǒng)的基礎(chǔ)架構(gòu)采用了Transformer技術(shù),但進(jìn)行了針對(duì)視覺(jué)生成任務(wù)的專(zhuān)門(mén)優(yōu)化。研究團(tuán)隊(duì)設(shè)計(jì)了三種不同規(guī)模的模型:輕量級(jí)的Goku-1B用于概念驗(yàn)證,平衡型的Goku-2B具有28層結(jié)構(gòu)和1792維度,以及功能強(qiáng)大的Goku-8B包含40層結(jié)構(gòu)和3072維度。這種多規(guī)模設(shè)計(jì)就像提供了小型工作坊、中型工廠和大型生產(chǎn)基地三種選擇,用戶(hù)可以根據(jù)實(shí)際需求和計(jì)算資源來(lái)選擇合適的版本。
位置編碼系統(tǒng)的創(chuàng)新是這個(gè)架構(gòu)的一個(gè)重要亮點(diǎn)。傳統(tǒng)的Transformer模型主要處理一維的文字序列,而Goku需要同時(shí)處理二維的圖片空間信息和三維的視頻時(shí)空信息。研究團(tuán)隊(duì)采用了3D RoPE(旋轉(zhuǎn)位置編碼)技術(shù),這個(gè)技術(shù)就像給AI配備了一套三維坐標(biāo)系統(tǒng),讓它能夠準(zhǔn)確理解每個(gè)像素在畫(huà)面中的位置以及在時(shí)間軸上的位置。這種編碼方式的優(yōu)勢(shì)在于它具有良好的擴(kuò)展性,能夠處理不同分辨率和不同長(zhǎng)度的內(nèi)容,而不需要重新訓(xùn)練模型。
全注意力機(jī)制的實(shí)現(xiàn)是另一個(gè)技術(shù)難點(diǎn)。傳統(tǒng)的視頻處理模型往往采用分離的時(shí)間注意力和空間注意力,就像需要兩個(gè)不同的觀察員分別負(fù)責(zé)監(jiān)控時(shí)間變化和空間細(xì)節(jié)。而Goku采用的全注意力機(jī)制讓AI能夠同時(shí)關(guān)注所有的時(shí)空信息,這就像配備了一個(gè)能夠全方位觀察的智能監(jiān)控系統(tǒng)。為了解決全注意力計(jì)算量巨大的問(wèn)題,研究團(tuán)隊(duì)使用了FlashAttention技術(shù)和序列并行技術(shù),這些優(yōu)化就像為這個(gè)智能監(jiān)控系統(tǒng)配備了高速處理器和并行計(jì)算能力。
"Patch n' Pack"技術(shù)的實(shí)現(xiàn)展現(xiàn)了工程設(shè)計(jì)的巧思。這個(gè)技術(shù)允許不同尺寸的圖片和不同長(zhǎng)度的視頻在同一個(gè)訓(xùn)練批次中混合處理,就像一個(gè)智能的物流系統(tǒng)能夠?qū)⒏鞣N規(guī)格的包裹高效地裝載到同一輛運(yùn)輸車(chē)上。這種設(shè)計(jì)不僅提高了計(jì)算資源的利用率,還讓模型能夠更好地學(xué)習(xí)處理多樣化的輸入內(nèi)容。
查詢(xún)-鍵標(biāo)準(zhǔn)化技術(shù)的引入解決了大規(guī)模訓(xùn)練中的穩(wěn)定性問(wèn)題。在訓(xùn)練超大規(guī)模模型時(shí),偶爾會(huì)出現(xiàn)損失函數(shù)突然飆升的情況,這就像工廠生產(chǎn)線偶爾出現(xiàn)的質(zhì)量事故。查詢(xún)-鍵標(biāo)準(zhǔn)化技術(shù)通過(guò)在注意力計(jì)算過(guò)程中加入RMSNorm標(biāo)準(zhǔn)化操作,就像在生產(chǎn)線的關(guān)鍵節(jié)點(diǎn)安裝了質(zhì)量監(jiān)控器,能夠及時(shí)發(fā)現(xiàn)和糾正異常情況,確保整個(gè)訓(xùn)練過(guò)程的穩(wěn)定進(jìn)行。
模型的訓(xùn)練策略采用了分階段的方法,這就像培養(yǎng)一個(gè)全能藝術(shù)家的過(guò)程。第一階段專(zhuān)注于文本-語(yǔ)義匹配,讓AI學(xué)會(huì)理解文字描述與視覺(jué)內(nèi)容之間的對(duì)應(yīng)關(guān)系。第二階段進(jìn)行圖片-視頻聯(lián)合訓(xùn)練,讓AI同時(shí)掌握靜態(tài)和動(dòng)態(tài)內(nèi)容的生成能力。第三階段是針對(duì)特定任務(wù)的精調(diào),分別優(yōu)化文本到圖片和文本到視頻的生成效果。這種漸進(jìn)式的訓(xùn)練方法確保了AI能夠穩(wěn)步提升各項(xiàng)能力,而不會(huì)因?yàn)槿蝿?wù)過(guò)于復(fù)雜而出現(xiàn)學(xué)習(xí)困難。
級(jí)聯(lián)分辨率訓(xùn)練是另一個(gè)重要的設(shè)計(jì)考慮。訓(xùn)練過(guò)程從低分辨率(288×512)開(kāi)始,逐步提升到中分辨率(480×864)和高分辨率(720×1280)。這種方法就像學(xué)畫(huà)畫(huà)時(shí)先從簡(jiǎn)單的素描開(kāi)始,逐步學(xué)習(xí)復(fù)雜的色彩和細(xì)節(jié)處理。低分辨率訓(xùn)練讓AI快速掌握基本的構(gòu)圖和內(nèi)容生成能力,然后在此基礎(chǔ)上學(xué)習(xí)處理更精細(xì)的視覺(jué)細(xì)節(jié)。
### 五、基礎(chǔ)設(shè)施的工程奇跡:超大規(guī)模訓(xùn)練的技術(shù)保障
要訓(xùn)練像Goku這樣的超大規(guī)模AI系統(tǒng),就像要建設(shè)一座能夠容納數(shù)萬(wàn)工人同時(shí)作業(yè)的超級(jí)工廠,不僅需要精密的生產(chǎn)流程設(shè)計(jì),更需要強(qiáng)大的基礎(chǔ)設(shè)施支撐。研究團(tuán)隊(duì)在這方面的工程實(shí)踐可以說(shuō)是現(xiàn)代AI訓(xùn)練技術(shù)的一個(gè)典型范例。
并行計(jì)算策略的設(shè)計(jì)是整個(gè)基礎(chǔ)設(shè)施的核心。面對(duì)Goku訓(xùn)練過(guò)程中產(chǎn)生的超過(guò)22萬(wàn)個(gè)令牌的超長(zhǎng)序列(這相當(dāng)于處理一篇幾十萬(wàn)字的超長(zhǎng)文章),傳統(tǒng)的訓(xùn)練方法完全無(wú)法應(yīng)對(duì)。研究團(tuán)隊(duì)采用了3D并行策略,這就像在工廠里同時(shí)開(kāi)設(shè)三條不同維度的生產(chǎn)線:序列并行負(fù)責(zé)處理超長(zhǎng)的內(nèi)容序列,數(shù)據(jù)并行負(fù)責(zé)同時(shí)處理多個(gè)訓(xùn)練樣本,模型并行則將巨大的模型參數(shù)分散到不同的計(jì)算設(shè)備上。
序列并行技術(shù)的實(shí)現(xiàn)特別值得關(guān)注。研究團(tuán)隊(duì)采用了Ulysses算法,這個(gè)算法的工作原理就像一個(gè)智能的任務(wù)分配系統(tǒng)。當(dāng)需要處理一個(gè)超長(zhǎng)序列時(shí),系統(tǒng)首先將序列按照長(zhǎng)度維度切分給不同的計(jì)算設(shè)備,然后在注意力計(jì)算時(shí)通過(guò)all-to-all通信讓每個(gè)設(shè)備都能獲得完整的查詢(xún)、鍵、值信息。計(jì)算完成后,再次通過(guò)all-to-all通信將結(jié)果匯總。這種方法既保證了計(jì)算的準(zhǔn)確性,又有效分散了內(nèi)存壓力。
FSDP(完全分片數(shù)據(jù)并行)技術(shù)的應(yīng)用解決了超大模型的存儲(chǔ)問(wèn)題。傳統(tǒng)的數(shù)據(jù)并行方法需要在每個(gè)計(jì)算設(shè)備上保存完整的模型副本,這對(duì)于有數(shù)十億參數(shù)的大模型來(lái)說(shuō)是不現(xiàn)實(shí)的。FSDP技術(shù)就像建立了一個(gè)智能的共享存儲(chǔ)系統(tǒng),將模型參數(shù)、梯度信息和優(yōu)化器狀態(tài)分片存儲(chǔ)在不同的設(shè)備上,需要時(shí)再通過(guò)高速網(wǎng)絡(luò)進(jìn)行數(shù)據(jù)交換。研究團(tuán)隊(duì)采用了HYBRID_SHARD策略,這種策略在保持高效通信的同時(shí)最大程度地減少了存儲(chǔ)需求。
激活檢查點(diǎn)技術(shù)是另一個(gè)重要的內(nèi)存優(yōu)化方案。在深度學(xué)習(xí)訓(xùn)練過(guò)程中,系統(tǒng)需要保存大量的中間計(jì)算結(jié)果用于反向傳播計(jì)算梯度,這就像工廠需要在每個(gè)生產(chǎn)環(huán)節(jié)保存半成品以便質(zhì)量追溯。但對(duì)于超大規(guī)模模型,保存所有中間結(jié)果需要巨大的內(nèi)存空間。激活檢查點(diǎn)技術(shù)通過(guò)選擇性地保存關(guān)鍵節(jié)點(diǎn)的中間結(jié)果,需要時(shí)再重新計(jì)算其他結(jié)果,這就像在關(guān)鍵工序設(shè)置檢查點(diǎn),既保證了質(zhì)量追溯能力,又大大節(jié)省了存儲(chǔ)空間。
容錯(cuò)機(jī)制的設(shè)計(jì)體現(xiàn)了工程實(shí)踐的成熟度。在使用數(shù)千個(gè)GPU進(jìn)行訓(xùn)練時(shí),硬件故障是不可避免的。研究團(tuán)隊(duì)集成了MegaScale的容錯(cuò)技術(shù),建立了多層次的監(jiān)控和恢復(fù)系統(tǒng)。這個(gè)系統(tǒng)包括硬件自檢、多級(jí)監(jiān)控和快速重啟機(jī)制,就像為超級(jí)工廠配備了完整的安全監(jiān)控和應(yīng)急響應(yīng)系統(tǒng)。當(dāng)檢測(cè)到某個(gè)設(shè)備出現(xiàn)問(wèn)題時(shí),系統(tǒng)能夠快速隔離故障設(shè)備并重新分配任務(wù),最大程度地減少訓(xùn)練中斷時(shí)間。
ByteCheckpoint檢查點(diǎn)系統(tǒng)是訓(xùn)練穩(wěn)定性的重要保障。這個(gè)系統(tǒng)就像為整個(gè)訓(xùn)練過(guò)程建立了一套完整的進(jìn)度保存和恢復(fù)機(jī)制。它不僅能夠高效地保存模型參數(shù)、EMA參數(shù)、優(yōu)化器狀態(tài)和隨機(jī)種子等關(guān)鍵信息,還支持并行保存和動(dòng)態(tài)重新分片。特別值得一提的是,這個(gè)系統(tǒng)支持在不同規(guī)模的計(jì)算集群之間無(wú)縫切換,這意味著可以在一個(gè)規(guī)模的集群上開(kāi)始訓(xùn)練,然后在另一個(gè)規(guī)模的集群上繼續(xù)訓(xùn)練,大大提高了資源利用的靈活性。
在實(shí)際應(yīng)用中,這套基礎(chǔ)設(shè)施展現(xiàn)出了卓越的性能表現(xiàn)。對(duì)于8B參數(shù)的Goku模型,使用數(shù)千個(gè)GPU進(jìn)行訓(xùn)練時(shí),完整的檢查點(diǎn)保存過(guò)程僅需要不到4秒鐘,這個(gè)時(shí)間相對(duì)于單次訓(xùn)練迭代的總時(shí)間來(lái)說(shuō)幾乎可以忽略不計(jì)。這種高效率使得系統(tǒng)能夠頻繁地保存訓(xùn)練進(jìn)度,即使遇到意外中斷也能快速恢復(fù),大大提高了訓(xùn)練的可靠性和效率。
### 六、實(shí)驗(yàn)驗(yàn)證:全方位的性能測(cè)試與行業(yè)對(duì)比
要驗(yàn)證Goku這樣的復(fù)合型AI系統(tǒng)的實(shí)際能力,就像要為一個(gè)聲稱(chēng)既會(huì)畫(huà)畫(huà)又會(huì)拍電影的藝術(shù)家安排一系列專(zhuān)業(yè)考試。研究團(tuán)隊(duì)設(shè)計(jì)了全方位的測(cè)試方案,涵蓋了圖片生成、視頻生成和圖片到視頻轉(zhuǎn)換三個(gè)主要方向,每個(gè)方向都包含了多個(gè)具有代表性的評(píng)測(cè)基準(zhǔn)。
在圖片生成能力的測(cè)試中,Goku接受了三個(gè)重要考試的檢驗(yàn)。GenEval測(cè)試專(zhuān)門(mén)評(píng)估AI理解和執(zhí)行復(fù)雜文本描述的能力,這就像考驗(yàn)藝術(shù)家能否根據(jù)詳細(xì)的文字說(shuō)明創(chuàng)作出準(zhǔn)確的作品。在這個(gè)測(cè)試中,Goku獲得了0.70分的基礎(chǔ)成績(jī),當(dāng)使用經(jīng)過(guò)改寫(xiě)和擴(kuò)展的詳細(xì)提示詞時(shí),成績(jī)提升到了0.76分,達(dá)到了當(dāng)前業(yè)界的最高水平。這個(gè)結(jié)果特別有意義,因?yàn)樗砻鱃oku不僅能處理簡(jiǎn)單的創(chuàng)作指令,更擅長(zhǎng)理解和執(zhí)行復(fù)雜、詳細(xì)的創(chuàng)作要求。
T2I-CompBench測(cè)試則重點(diǎn)考察AI對(duì)物體屬性的理解和表現(xiàn)能力,包括顏色、形狀和紋理三個(gè)方面。在這個(gè)測(cè)試中,Goku在顏色理解方面得分0.7521,形狀理解得分0.4832,紋理表現(xiàn)得分0.6691。雖然在形狀理解方面還有提升空間,但總體表現(xiàn)已經(jīng)超過(guò)了包括PixArt-α、SDXL等在內(nèi)的多個(gè)知名系統(tǒng)。這個(gè)測(cè)試結(jié)果表明,Goku在細(xì)節(jié)表現(xiàn)方面具有較強(qiáng)的能力,特別是在色彩還原和紋理細(xì)節(jié)方面表現(xiàn)突出。
DPG-Bench是專(zhuān)門(mén)測(cè)試AI處理復(fù)雜長(zhǎng)文本提示能力的高難度考試,包含1000個(gè)詳細(xì)的創(chuàng)作描述,平均每個(gè)描述都包含豐富的場(chǎng)景信息和具體要求。Goku在這個(gè)測(cè)試中獲得了83.65分的優(yōu)異成績(jī),不僅超過(guò)了DALL-E 3的83.50分,也明顯高于其他競(jìng)爭(zhēng)對(duì)手。這個(gè)成績(jī)特別能說(shuō)明問(wèn)題,因?yàn)樗砻鱃oku具備了理解和執(zhí)行復(fù)雜創(chuàng)作任務(wù)的能力,這正是實(shí)際應(yīng)用中最重要的需求。
視頻生成能力的驗(yàn)證同樣全面而嚴(yán)格。在UCF-101數(shù)據(jù)集的零樣本測(cè)試中,研究團(tuán)隊(duì)讓Goku在完全沒(méi)有見(jiàn)過(guò)這些視頻類(lèi)別的情況下,僅根據(jù)文字描述生成對(duì)應(yīng)的視頻內(nèi)容。結(jié)果表明,Goku生成的視頻在多個(gè)分辨率下都表現(xiàn)出了優(yōu)秀的質(zhì)量。特別是在128×128分辨率下,F(xiàn)VD分?jǐn)?shù)達(dá)到了217.24,這是一個(gè)非常出色的成績(jī),表明生成的視頻與真實(shí)視頻在質(zhì)量和風(fēng)格上非常接近。
VBench測(cè)試是視頻生成領(lǐng)域最全面的評(píng)估體系,包含16個(gè)不同的評(píng)價(jià)維度,從基本的圖像質(zhì)量到復(fù)雜的動(dòng)作連貫性都有涉及。Goku在這個(gè)綜合性測(cè)試中獲得了84.85分的總成績(jī),在所有參與測(cè)試的系統(tǒng)中排名第一。更值得關(guān)注的是各個(gè)細(xì)分項(xiàng)目的表現(xiàn):在人物動(dòng)作表現(xiàn)方面得分97.60,動(dòng)態(tài)程度控制方面得分76.11,多對(duì)象處理能力得分79.48。這些分?jǐn)?shù)表明Goku不僅在整體質(zhì)量上表現(xiàn)優(yōu)異,在處理復(fù)雜場(chǎng)景和動(dòng)態(tài)內(nèi)容方面也具有明顯優(yōu)勢(shì)。
為了驗(yàn)證圖片到視頻轉(zhuǎn)換功能,研究團(tuán)隊(duì)使用了450萬(wàn)個(gè)圖片-文本-視頻三元組進(jìn)行專(zhuān)門(mén)訓(xùn)練。盡管訓(xùn)練步數(shù)相對(duì)較少(僅1萬(wàn)步),但Goku展現(xiàn)出了快速學(xué)習(xí)和適應(yīng)的能力。在測(cè)試中,系統(tǒng)能夠根據(jù)參考圖片和文字描述生成高質(zhì)量的動(dòng)畫(huà)效果,既保持了原圖片的視覺(jué)特征,又根據(jù)文字描述添加了合適的動(dòng)態(tài)效果。
定性比較的結(jié)果更加直觀地展現(xiàn)了Goku的優(yōu)勢(shì)。在與包括CogVideoX、DreamMachine、Pika、Vidu、Kling等多個(gè)商業(yè)系統(tǒng)的對(duì)比中,Goku在處理復(fù)雜場(chǎng)景描述時(shí)表現(xiàn)出了明顯的優(yōu)勢(shì)。例如,在"無(wú)人機(jī)掠過(guò)珊瑚礁"的測(cè)試案例中,其他系統(tǒng)要么無(wú)法生成無(wú)人機(jī)元素,要么生成的畫(huà)面靜態(tài)化嚴(yán)重,而Goku能夠準(zhǔn)確地生成包含所有描述元素的流暢動(dòng)畫(huà)。
消融實(shí)驗(yàn)的結(jié)果進(jìn)一步驗(yàn)證了設(shè)計(jì)方案的合理性。通過(guò)對(duì)比2B和8B兩個(gè)不同規(guī)模的模型,研究團(tuán)隊(duì)發(fā)現(xiàn)規(guī)模擴(kuò)大確實(shí)能夠減少生成內(nèi)容中的結(jié)構(gòu)性錯(cuò)誤,比如人物肢體畸形或物體形狀扭曲等問(wèn)題。聯(lián)合訓(xùn)練實(shí)驗(yàn)的結(jié)果更加明顯:僅使用視頻數(shù)據(jù)訓(xùn)練的模型容易生成質(zhì)量較低的畫(huà)面,而采用圖片-視頻聯(lián)合訓(xùn)練的模型生成的內(nèi)容在視覺(jué)質(zhì)量上有顯著提升,這證實(shí)了統(tǒng)一訓(xùn)練策略的有效性。
### 七、技術(shù)創(chuàng)新的深層價(jià)值與未來(lái)展望
Goku項(xiàng)目的技術(shù)創(chuàng)新意義遠(yuǎn)遠(yuǎn)超出了單純的性能提升,它代表了AI視覺(jué)生成領(lǐng)域的一次范式轉(zhuǎn)變。這種轉(zhuǎn)變就像從傳統(tǒng)的專(zhuān)業(yè)化分工轉(zhuǎn)向全能型人才培養(yǎng),不僅提高了效率,更重要的是開(kāi)辟了新的可能性空間。
修正流技術(shù)的應(yīng)用價(jià)值在于它為生成式AI提供了一種更加直觀和高效的訓(xùn)練范式。傳統(tǒng)的擴(kuò)散模型需要學(xué)習(xí)復(fù)雜的噪聲預(yù)測(cè)過(guò)程,就像學(xué)習(xí)一門(mén)需要反復(fù)試錯(cuò)的復(fù)雜技藝。而修正流技術(shù)將這個(gè)過(guò)程簡(jiǎn)化為學(xué)習(xí)從起點(diǎn)到終點(diǎn)的直線路徑,不僅降低了學(xué)習(xí)難度,還提高了收斂速度。這種簡(jiǎn)化不是功能的削減,而是方法的優(yōu)化,它為后續(xù)的模型改進(jìn)和擴(kuò)展提供了更加堅(jiān)實(shí)的基礎(chǔ)。
統(tǒng)一架構(gòu)設(shè)計(jì)的價(jià)值體現(xiàn)在資源利用效率的顯著提升上。在實(shí)際應(yīng)用中,許多創(chuàng)作場(chǎng)景都需要同時(shí)使用圖片和視頻功能,傳統(tǒng)做法需要部署兩套不同的系統(tǒng),不僅增加了硬件成本,還帶來(lái)了維護(hù)復(fù)雜性。Goku的統(tǒng)一架構(gòu)讓用戶(hù)可以用一套系統(tǒng)滿(mǎn)足多種需求,這就像用一臺(tái)多功能設(shè)備替代了多臺(tái)專(zhuān)用設(shè)備,既節(jié)省了成本又提高了便利性。
數(shù)據(jù)處理流程的創(chuàng)新建立了行業(yè)新的質(zhì)量標(biāo)準(zhǔn)。從海量網(wǎng)絡(luò)內(nèi)容中篩選出高質(zhì)量訓(xùn)練數(shù)據(jù)的過(guò)程,不僅需要技術(shù)手段,更需要對(duì)視覺(jué)質(zhì)量和內(nèi)容價(jià)值的深刻理解。Goku項(xiàng)目建立的多維度評(píng)估體系,包括美學(xué)評(píng)分、動(dòng)態(tài)評(píng)估、文字過(guò)濾等各個(gè)環(huán)節(jié),為行業(yè)提供了一套可參考的數(shù)據(jù)質(zhì)量管理方案。這套方案的價(jià)值不僅在于提高了訓(xùn)練數(shù)據(jù)質(zhì)量,更在于為整個(gè)行業(yè)建立了數(shù)據(jù)處理的標(biāo)準(zhǔn)化流程。
基礎(chǔ)設(shè)施技術(shù)的突破為超大規(guī)模AI訓(xùn)練提供了實(shí)用的解決方案。面對(duì)數(shù)千GPU規(guī)模的訓(xùn)練集群,如何保證訓(xùn)練的穩(wěn)定性和效率是一個(gè)世界性難題。Goku項(xiàng)目在并行計(jì)算、容錯(cuò)機(jī)制、檢查點(diǎn)管理等方面的技術(shù)實(shí)踐,為行業(yè)提供了寶貴的經(jīng)驗(yàn)參考。特別是ByteCheckpoint系統(tǒng)的4秒快速保存能力,以及支持跨不同規(guī)模集群的靈活部署,這些創(chuàng)新為大規(guī)模AI訓(xùn)練的產(chǎn)業(yè)化應(yīng)用奠定了基礎(chǔ)。
從應(yīng)用前景來(lái)看,Goku技術(shù)的影響將是深遠(yuǎn)的。在內(nèi)容創(chuàng)作領(lǐng)域,它能夠顯著降低視頻制作的門(mén)檻和成本,讓普通用戶(hù)也能創(chuàng)作出專(zhuān)業(yè)水準(zhǔn)的視頻內(nèi)容。在教育培訓(xùn)領(lǐng)域,它可以快速生成各種教學(xué)場(chǎng)景的視覺(jué)材料,提高教育內(nèi)容的豐富性和吸引力。在游戲娛樂(lè)行業(yè),它能夠?yàn)橛螒蜷_(kāi)發(fā)提供大量的場(chǎng)景素材和角色動(dòng)畫(huà),加速游戲制作流程。
更重要的是,Goku展示了AI系統(tǒng)向通用化方向發(fā)展的可能性。傳統(tǒng)AI系統(tǒng)往往專(zhuān)注于解決特定問(wèn)題,而Goku這樣的統(tǒng)一系統(tǒng)表明,未來(lái)的AI可能會(huì)更加通用化,能夠同時(shí)處理多種不同類(lèi)型的任務(wù)。這種發(fā)展趨勢(shì)對(duì)整個(gè)AI行業(yè)都有重要啟示意義。
當(dāng)然,這項(xiàng)技術(shù)也面臨著一些挑戰(zhàn)和限制。計(jì)算資源需求仍然很高,限制了技術(shù)的普及速度。生成內(nèi)容的版權(quán)和倫理問(wèn)題需要進(jìn)一步完善相關(guān)規(guī)范。模型的可解釋性還有待提高,特別是在處理復(fù)雜創(chuàng)作任務(wù)時(shí)的決策過(guò)程需要更加透明。
展望未來(lái),Goku技術(shù)有望在多個(gè)方向上繼續(xù)發(fā)展。模型規(guī)模的進(jìn)一步擴(kuò)大可能帶來(lái)質(zhì)量的顯著提升。多模態(tài)能力的增強(qiáng)可能讓系統(tǒng)同時(shí)處理文字、圖片、視頻和音頻。個(gè)性化定制功能的加入可能讓用戶(hù)能夠訓(xùn)練出符合特定風(fēng)格要求的專(zhuān)屬模型。這些發(fā)展方向都預(yù)示著視覺(jué)生成AI技術(shù)將迎來(lái)更加廣闊的應(yīng)用空間。
說(shuō)到底,Goku項(xiàng)目不僅是一個(gè)技術(shù)創(chuàng)新,更是對(duì)AI發(fā)展方向的一次重要探索。它證明了通過(guò)精心的設(shè)計(jì)和工程實(shí)踐,AI系統(tǒng)可以在保持高質(zhì)量的同時(shí)實(shí)現(xiàn)多功能化,這為構(gòu)建更加強(qiáng)大和實(shí)用的AI系統(tǒng)提供了寶貴的經(jīng)驗(yàn)。對(duì)于普通用戶(hù)而言,這意味著未來(lái)將有更多強(qiáng)大而易用的AI工具幫助實(shí)現(xiàn)各種創(chuàng)意想法。對(duì)于整個(gè)行業(yè)來(lái)說(shuō),這代表了技術(shù)發(fā)展的一個(gè)新的里程碑,預(yù)示著AI技術(shù)正在向更加成熟和實(shí)用的方向發(fā)展。
如果你對(duì)這項(xiàng)研究感興趣,想要了解更多技術(shù)細(xì)節(jié),可以通過(guò)論文編號(hào)arXiv:2502.04896v2在arXiv平臺(tái)上查閱完整的研究報(bào)告,那里有更加詳盡的技術(shù)說(shuō)明和實(shí)驗(yàn)數(shù)據(jù)。
Q&A
Q1:Goku模型能同時(shí)生成圖片和視頻是怎么做到的?
A:Goku使用了統(tǒng)一的訓(xùn)練架構(gòu),就像培養(yǎng)一個(gè)既會(huì)畫(huà)畫(huà)又會(huì)拍電影的全能藝術(shù)家。它通過(guò)3D聯(lián)合變分自編碼器將圖片和視頻轉(zhuǎn)換成相同的處理格式,然后使用全注意力機(jī)制讓AI同時(shí)學(xué)習(xí)靜態(tài)和動(dòng)態(tài)內(nèi)容的創(chuàng)作規(guī)律。這種方法讓一個(gè)模型就能掌握兩種不同的創(chuàng)作技能。
Q2:修正流技術(shù)相比傳統(tǒng)擴(kuò)散模型有什么優(yōu)勢(shì)?
A:修正流技術(shù)就像從彎曲山路改成直線高速公路。傳統(tǒng)擴(kuò)散模型需要經(jīng)過(guò)數(shù)千次反復(fù)修改才能從噪聲生成清晰圖像,而修正流技術(shù)建立了從起點(diǎn)到終點(diǎn)的直線路徑,大大提高了生成效率。實(shí)驗(yàn)顯示,修正流方法40萬(wàn)步就能達(dá)到傳統(tǒng)方法100萬(wàn)步的效果。
Q3:普通用戶(hù)現(xiàn)在能使用Goku技術(shù)嗎?
A:目前Goku主要還是研究階段的技術(shù),普通用戶(hù)無(wú)法直接使用。不過(guò)這項(xiàng)技術(shù)由字節(jié)跳動(dòng)參與開(kāi)發(fā),未來(lái)可能會(huì)集成到相關(guān)的商業(yè)產(chǎn)品中。感興趣的開(kāi)發(fā)者可以關(guān)注項(xiàng)目網(wǎng)站https://saiyan-world.github.io/goku/獲取最新進(jìn)展,研究人員也可以通過(guò)arXiv:2502.04896v2查閱完整論文。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語(yǔ)言模型的敘事推理能力與音頻生成技術(shù),通過(guò)交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開(kāi)辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過(guò)讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問(wèn)題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語(yǔ)言模型人性化對(duì)話問(wèn)題。該研究創(chuàng)建了包含20萬(wàn)高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過(guò)創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開(kāi)發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過(guò)學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來(lái)了效率和精度的雙重突破。