這項(xiàng)由ByteDance Seed團(tuán)隊(duì)開發(fā)的研究成果于2025年3月2日發(fā)布,展示了如何用相對(duì)較少的計(jì)算資源訓(xùn)練出高質(zhì)量的視頻生成模型。研究團(tuán)隊(duì)將成果發(fā)布在了arXiv預(yù)印本服務(wù)器上,項(xiàng)目主頁為https://seaweed.video/,感興趣的讀者可以通過這些渠道了解更多技術(shù)細(xì)節(jié)。
當(dāng)我們談到人工智能視頻生成時(shí),大多數(shù)人腦海中浮現(xiàn)的可能是需要數(shù)千臺(tái)高端顯卡、耗費(fèi)數(shù)百萬美元才能訓(xùn)練出來的超級(jí)模型。就像建造摩天大樓需要?jiǎng)佑谜麄€(gè)城市的資源一樣,目前的視頻生成AI似乎只有科技巨頭才能負(fù)擔(dān)得起。然而,ByteDance的研究團(tuán)隊(duì)卻提出了一個(gè)截然不同的思路:能否用更經(jīng)濟(jì)的方式,訓(xùn)練出同樣優(yōu)秀的視頻生成模型?
這就像是在問:能否用一間精心設(shè)計(jì)的小廚房,做出米其林三星餐廳水準(zhǔn)的料理?Seaweed-7B(Seed Video的簡稱)正是這樣一個(gè)令人驚喜的答案。這個(gè)擁有70億參數(shù)的模型,僅用了665,000小時(shí)的H100 GPU訓(xùn)練時(shí)間——相當(dāng)于用1000臺(tái)頂級(jí)顯卡連續(xù)工作27.7天。相比之下,其他同類模型往往需要數(shù)倍甚至數(shù)十倍的計(jì)算資源。
更令人印象深刻的是,這個(gè)"經(jīng)濟(jì)適用型"的模型在實(shí)際表現(xiàn)上絲毫不遜色于那些"燒錢"的大模型。在人類評(píng)估者的盲測中,Seaweed-7B在圖像轉(zhuǎn)視頻任務(wù)中排名第二,在文本轉(zhuǎn)視頻任務(wù)中也名列前茅,甚至超越了一些參數(shù)量更大、訓(xùn)練成本更高的競爭對(duì)手。這就好比一輛精心調(diào)校的小排量跑車,在賽道上跑出了超跑的成績。
研究團(tuán)隊(duì)的核心洞察在于:與其盲目追求模型規(guī)模,不如在每個(gè)設(shè)計(jì)環(huán)節(jié)都做到精益求精。他們重新審視了視頻生成的整個(gè)技術(shù)棧,從數(shù)據(jù)處理、模型架構(gòu)到訓(xùn)練策略,每一個(gè)細(xì)節(jié)都經(jīng)過了精心優(yōu)化。這種方法論不僅降低了技術(shù)門檻,也為整個(gè)行業(yè)提供了新的發(fā)展思路。
一、數(shù)據(jù)質(zhì)量勝過數(shù)據(jù)數(shù)量的精準(zhǔn)策略
在資源有限的情況下,研究團(tuán)隊(duì)面臨的第一個(gè)關(guān)鍵問題是:如何用相對(duì)較少的數(shù)據(jù)訓(xùn)練出高質(zhì)量的模型?他們的答案是建立一套極其精密的數(shù)據(jù)篩選和處理系統(tǒng),就像建立了一個(gè)專業(yè)的食材采購和處理中心。
這個(gè)數(shù)據(jù)處理系統(tǒng)的第一步是智能分割。原始視頻往往包含多個(gè)場景,就像一部電影包含多個(gè)鏡頭一樣。研究團(tuán)隊(duì)開發(fā)了一套基于HSV顏色直方圖的場景檢測算法,能夠自動(dòng)識(shí)別視頻中的鏡頭切換點(diǎn),將長視頻分割成單一場景的短片段。這種方法不僅輕量高效,在處理淡入淡出等復(fù)雜轉(zhuǎn)場效果時(shí)也表現(xiàn)出色。
接下來是空間裁剪環(huán)節(jié)。許多視頻都存在黑邊、水印、文字覆蓋等不必要的元素,就像食材上需要去除的雜質(zhì)。研究團(tuán)隊(duì)使用FFmpeg工具自動(dòng)檢測這些干擾元素,并開發(fā)了邊界框聚合算法,能夠準(zhǔn)確定位這些不需要的區(qū)域并進(jìn)行精確裁剪。如果視頻中的干擾元素過多或位置不當(dāng),系統(tǒng)會(huì)直接丟棄這些片段,確保進(jìn)入訓(xùn)練的都是"優(yōu)質(zhì)食材"。
質(zhì)量篩選是整個(gè)流程中最關(guān)鍵的環(huán)節(jié)。研究團(tuán)隊(duì)設(shè)計(jì)了一套五重篩選機(jī)制,就像五道質(zhì)檢關(guān)卡。首先是基礎(chǔ)屬性篩選,保留時(shí)長在5-60秒、短邊不少于256像素的視頻。然后是視覺質(zhì)量評(píng)估,使用專門訓(xùn)練的美學(xué)和清晰度評(píng)分模型,為每個(gè)視頻片段打分。第三關(guān)是運(yùn)動(dòng)質(zhì)量檢測,通過改進(jìn)的運(yùn)動(dòng)向量分析算法,剔除靜止畫面或運(yùn)動(dòng)異常的片段。第四關(guān)檢測相機(jī)抖動(dòng)和播放速度異常,第五關(guān)則進(jìn)行安全內(nèi)容審核,過濾有害內(nèi)容。
經(jīng)過這套嚴(yán)格的篩選流程,原本42%的無效片段率降低到了2.9%,相當(dāng)于把一堆混雜的原料精選成了頂級(jí)食材。最終,研究團(tuán)隊(duì)收集到了約1億個(gè)平均時(shí)長8秒的高質(zhì)量視頻片段。
為了進(jìn)一步優(yōu)化數(shù)據(jù)分布,研究團(tuán)隊(duì)還實(shí)施了多維度數(shù)據(jù)平衡策略。他們將視頻按照視覺特征和語義特征聚類成超過10,000個(gè)群組,就像把不同類型的食材分門別類存放。視覺特征通過類似CLIP的模型提取,語義特征則基于視頻字幕的大語言模型分析獲得。通過這種聚類方式,系統(tǒng)能夠有效識(shí)別和去除重復(fù)內(nèi)容,同時(shí)對(duì)過度集中的類別進(jìn)行降采樣,確保訓(xùn)練數(shù)據(jù)的多樣性和平衡性。
特別值得一提的是,研究團(tuán)隊(duì)還引入了合成數(shù)據(jù)來補(bǔ)充現(xiàn)實(shí)數(shù)據(jù)的不足。他們開發(fā)了一套基于圖形引擎的合成視頻生成流水線,專門生成具有精確3D幾何一致性和復(fù)雜人體動(dòng)作的視頻。這些合成視頻在相機(jī)運(yùn)動(dòng)的3D一致性和復(fù)雜人體動(dòng)作的身體完整性方面表現(xiàn)出色,有效彌補(bǔ)了真實(shí)數(shù)據(jù)在這些方面的不足。最終,數(shù)百萬個(gè)合成視頻與真實(shí)視頻混合訓(xùn)練,顯著提升了模型的整體表現(xiàn)。
在視頻字幕生成方面,研究團(tuán)隊(duì)也采用了創(chuàng)新的雙層字幕策略。他們?yōu)槊總€(gè)視頻生成兩種類型的字幕:簡短字幕提供以動(dòng)作為中心的視頻概要,詳細(xì)字幕則包含豐富的場景、物體、屬性描述。這種設(shè)計(jì)就像為每道菜準(zhǔn)備了簡要介紹和詳細(xì)食譜,讓模型能夠在不同粒度上理解視頻內(nèi)容。
為了提高字幕準(zhǔn)確性,研究團(tuán)隊(duì)從每個(gè)視頻中均勻采樣32幀作為輸入,其中8幀使用AnyRes技術(shù)進(jìn)行高分辨率處理,其余24幀進(jìn)行中心裁剪。這種混合處理方式在保證效率的同時(shí)減少了字幕幻覺現(xiàn)象。他們還采用了師生蒸餾的方法,用72B的大模型作為教師指導(dǎo)7B的學(xué)生模型,在保持字幕質(zhì)量的同時(shí)大幅降低了推理成本。
除了字幕之外,研究團(tuán)隊(duì)還為每個(gè)視頻生成了系統(tǒng)提示詞,包括視頻類型、相機(jī)位置、相機(jī)角度、相機(jī)運(yùn)動(dòng)和視覺風(fēng)格等維度的標(biāo)簽。這些標(biāo)簽在訓(xùn)練時(shí)隨機(jī)添加到視頻字幕中,讓模型學(xué)會(huì)理解和控制這些視頻屬性,就像給廚師提供了詳細(xì)的烹飪參數(shù)指導(dǎo)。
二、VAE壓縮技術(shù):平衡效率與質(zhì)量的藝術(shù)
在視頻生成的技術(shù)架構(gòu)中,變分自編碼器(VAE)扮演著至關(guān)重要的角色,就像是連接現(xiàn)實(shí)世界和數(shù)字世界的橋梁。它的任務(wù)是將原始的像素級(jí)視頻壓縮成緊湊的潛在表示,然后再將這些抽象表示還原回高質(zhì)量的視頻畫面。這個(gè)過程類似于將一部厚重的百科全書壓縮成精煉的摘要,既要保持核心信息不丟失,又要大幅減少存儲(chǔ)和處理的負(fù)擔(dān)。
Seaweed-7B采用了時(shí)序因果卷積架構(gòu),這種設(shè)計(jì)有兩個(gè)顯著優(yōu)勢。首先,它統(tǒng)一了圖像和視頻的編碼方式,使得從單張圖片生成視頻變得自然而直接,就像用同一套工具既能處理照片又能處理影片。其次,這種因果設(shè)計(jì)消除了視頻片段之間的邊界閃爍問題,支持任意長度視頻的無縫編碼和解碼,避免了人工拼接的痕跡。
在壓縮比例的設(shè)計(jì)上,研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)重要規(guī)律:重建質(zhì)量主要取決于總體壓縮比,而不同的降采樣比例雖然最終收斂到相似的結(jié)果,但收斂速度卻有明顯差異。較小的降采樣比例通常能夠?qū)崿F(xiàn)更快的收斂?;谶@一發(fā)現(xiàn),他們設(shè)計(jì)了兩個(gè)版本:48倍壓縮的Seaweed VAE和64倍壓縮的版本,在效率和質(zhì)量之間找到了最佳平衡點(diǎn)。
一個(gè)特別有趣的發(fā)現(xiàn)是,在VAE內(nèi)部進(jìn)行序列壓縮的效果遠(yuǎn)遠(yuǎn)優(yōu)于在后續(xù)的擴(kuò)散變換器中進(jìn)行分塊化處理。研究團(tuán)隊(duì)比較了兩種等效的處理方案:一種是使用64倍VAE配合1×1×1的分塊大小,另一種是使用48倍VAE配合1×2×2的分塊大小。盡管兩種方案的計(jì)算成本相同,但前者的表現(xiàn)明顯更優(yōu)。這說明了早期壓縮的重要性,就像在烹飪過程中,食材的前期處理往往比后期調(diào)味更為關(guān)鍵。
為了解決VAE在高分辨率內(nèi)容上的泛化問題,研究團(tuán)隊(duì)采用了混合分辨率訓(xùn)練策略。傳統(tǒng)上,VAE往往在較低分辨率上訓(xùn)練以加快收斂,但這會(huì)導(dǎo)致在解碼高分辨率內(nèi)容時(shí)性能下降。研究團(tuán)隊(duì)的解決方案是在訓(xùn)練過程中同時(shí)使用多種分辨率的圖像和視頻,從低分辨率的256×256像素到高分辨率的720×720像素都有涵蓋。這種訓(xùn)練方式顯著提升了模型對(duì)高分辨率內(nèi)容的重建能力。
在訓(xùn)練穩(wěn)定性方面,研究團(tuán)隊(duì)分享了幾個(gè)關(guān)鍵的技術(shù)要點(diǎn)。他們發(fā)現(xiàn)同時(shí)使用圖像判別器和視頻判別器比單獨(dú)使用任何一種都更有效。在判別器的選擇上,PatchGAN架構(gòu)比StyleGAN和UNet判別器更適合這個(gè)任務(wù)。然而,傳統(tǒng)PatchGAN中的BatchNorm對(duì)于高壓縮比的VAE來說過于強(qiáng)勢,容易導(dǎo)致訓(xùn)練不穩(wěn)定。
為了解決這個(gè)問題,研究團(tuán)隊(duì)采用了SpectralNorm替代BatchNorm,并將其應(yīng)用到判別器的所有卷積層。雖然SpectralNorm在訓(xùn)練初期的量化重建指標(biāo)上略遜于BatchNorm,但它能夠提供更穩(wěn)定的訓(xùn)練過程,最終實(shí)現(xiàn)更好的重建性能。這就像在建筑施工中,穩(wěn)固的地基雖然前期進(jìn)展較慢,但能確保整體結(jié)構(gòu)的長期穩(wěn)定。
通過這些精心設(shè)計(jì)的技術(shù)選擇,Seaweed VAE在多個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集上都實(shí)現(xiàn)了最先進(jìn)的重建性能。在UCF-101數(shù)據(jù)集上,它在重建FVD、LPIPS、PSNR和SSIM等多項(xiàng)指標(biāo)上都達(dá)到了領(lǐng)先水平。特別是在MCL-JCV這個(gè)包含高分辨率長視頻的真實(shí)世界數(shù)據(jù)集上,即使在更高的壓縮比下,Seaweed VAE仍然實(shí)現(xiàn)了最低的LPIPS分?jǐn)?shù),展現(xiàn)了其在處理復(fù)雜真實(shí)內(nèi)容方面的優(yōu)越性能。
三、擴(kuò)散變換器模型:效率與性能的巧妙平衡
在VAE將視頻壓縮成緊湊表示之后,擴(kuò)散變換器模型就要在這個(gè)抽象空間中進(jìn)行創(chuàng)作了,就像藝術(shù)家在畫布上作畫一樣。這個(gè)過程從隨機(jī)噪聲開始,逐步去除噪聲直到形成完整的視頻內(nèi)容。Seaweed-7B在這個(gè)環(huán)節(jié)采用了多項(xiàng)創(chuàng)新設(shè)計(jì),在保持70億參數(shù)規(guī)模的同時(shí)實(shí)現(xiàn)了卓越的性能。
研究團(tuán)隊(duì)采用了混合流架構(gòu),這是對(duì)傳統(tǒng)雙流架構(gòu)的重要改進(jìn)。在雙流架構(gòu)中,視頻token和文本token分別通過獨(dú)立的自注意力和前饋網(wǎng)絡(luò)處理,每種模態(tài)都發(fā)展自己的表示。而混合流架構(gòu)在保持這種設(shè)計(jì)的基礎(chǔ)上,在深層網(wǎng)絡(luò)中共享三分之二的前饋網(wǎng)絡(luò)參數(shù),并使用AdaSingle進(jìn)行時(shí)間步調(diào)制。這種設(shè)計(jì)不僅提高了參數(shù)效率,降低了內(nèi)存消耗,還實(shí)現(xiàn)了更快的收斂速度。實(shí)驗(yàn)結(jié)果顯示,在相同的參數(shù)量和計(jì)算預(yù)算下,混合流架構(gòu)始終能夠達(dá)到更低的訓(xùn)練損失。
在注意力機(jī)制的選擇上,研究團(tuán)隊(duì)進(jìn)行了深入的對(duì)比研究。他們考慮了三種注意力類型:全注意力、空間全注意力(每隔一層交替使用全注意力和僅空間注意力),以及稀疏窗口注意力。通過縮放定律的分析,他們發(fā)現(xiàn)在充足的計(jì)算預(yù)算下,全注意力能夠產(chǎn)生更低的損失,展現(xiàn)出更好的訓(xùn)練可擴(kuò)展性。
然而,全注意力的優(yōu)勢主要體現(xiàn)在圖像轉(zhuǎn)視頻任務(wù)中,能夠生成更一致、更自然的動(dòng)作。在文本轉(zhuǎn)視頻任務(wù)中,人類評(píng)估者感知到的改進(jìn)相對(duì)有限。考慮到高分辨率視頻訓(xùn)練時(shí)全注意力帶來的巨大計(jì)算負(fù)擔(dān),研究團(tuán)隊(duì)提出了一個(gè)實(shí)用的解決方案:先使用全注意力進(jìn)行預(yù)訓(xùn)練,然后微調(diào)到窗口注意力。這種策略能夠在減少注意力冗余的同時(shí)保持推理效率,如果設(shè)計(jì)得當(dāng),質(zhì)量損失可以忽略不計(jì)。
對(duì)于稀疏窗口注意力,研究團(tuán)隊(duì)采用了簡單而有效的3D窗口設(shè)計(jì)。他們將輸入劃分為wt×wh×ww的窗口,并采用交替的注意力模式:偶數(shù)層使用1×2×2的窗口,奇數(shù)層使用4×1×1的窗口。在計(jì)算預(yù)算有限的情況下,這種稀疏窗口注意力能夠?qū)崿F(xiàn)比全注意力更低的損失。但隨著訓(xùn)練步數(shù)增加,全注意力最終會(huì)超越窗口注意力,再次證明了其更好的可擴(kuò)展性。
為了增強(qiáng)位置信息的處理,特別是處理不同寬高比和時(shí)長的視頻,研究團(tuán)隊(duì)引入了3D多模態(tài)旋轉(zhuǎn)位置編碼(MM-RoPE)。這種編碼方式為視頻token提供時(shí)間、寬度和高度三個(gè)維度的位置信息,同時(shí)為文本token添加兼容的1D位置編碼,三個(gè)維度共享相同的位置ID。這種設(shè)計(jì)有效促進(jìn)了文本和視頻之間位置信息的融合,在雙流多模態(tài)擴(kuò)散變換器架構(gòu)中帶來了更低的訓(xùn)練損失。
基于這些設(shè)計(jì)選擇,研究團(tuán)隊(duì)構(gòu)建了擁有70億參數(shù)的混合流模型,隱藏維度為3584,總共32層。這個(gè)模型在保持相對(duì)緊湊規(guī)模的同時(shí),通過精心的架構(gòu)設(shè)計(jì)實(shí)現(xiàn)了與更大模型相競爭的性能。
四、多階段多任務(wù)訓(xùn)練:從基礎(chǔ)到精通的漸進(jìn)式學(xué)習(xí)
Seaweed-7B的訓(xùn)練過程就像培養(yǎng)一位全能藝術(shù)家,需要從基礎(chǔ)技能開始,逐步掌握更復(fù)雜的創(chuàng)作技巧。研究團(tuán)隊(duì)設(shè)計(jì)了一套精心安排的多階段訓(xùn)練策略,確保模型能夠在有限的計(jì)算資源下達(dá)到最佳性能。
預(yù)訓(xùn)練階段分為四個(gè)遞進(jìn)的步驟,就像學(xué)習(xí)繪畫要從素描基礎(chǔ)開始,再逐步掌握色彩和構(gòu)圖。第一階段(Stage 0)專門用于圖像訓(xùn)練,使用256×256和512×512分辨率的圖像,占總訓(xùn)練步數(shù)的37.5%。這個(gè)階段的重要性在于建立文本提示與常見視覺概念之間的對(duì)齊關(guān)系,為后續(xù)的視頻生成奠定堅(jiān)實(shí)基礎(chǔ)。研究團(tuán)隊(duì)發(fā)現(xiàn),與直接進(jìn)行圖像視頻混合訓(xùn)練相比,這種純圖像預(yù)訓(xùn)練的策略對(duì)于強(qiáng)化提示跟隨能力至關(guān)重要。
第二階段(Stage 1)開始引入視頻訓(xùn)練,同時(shí)繼續(xù)使用相同分辨率的圖像,占總訓(xùn)練步數(shù)的25%。在這個(gè)階段,圖像和視頻token被展平并按固定比例混合在每個(gè)批次中。研究團(tuán)隊(duì)的一個(gè)重要發(fā)現(xiàn)是,即使在低分辨率訓(xùn)練期間加入少量高分辨率圖像,模型也能夠以零樣本的方式生成更高分辨率的視頻,這表明模型具有跨模態(tài)和跨分辨率的泛化能力。
第三階段(Stage 2)將分辨率提升到480p,使用640×480和1280×720的圖像以及640×480的視頻,同樣占25%的訓(xùn)練步數(shù)。最后的第四階段(Stage 3)達(dá)到720p分辨率,使用1280×720和1920×1024的圖像以及1280×720的視頻,占12.5%的訓(xùn)練步數(shù)。這種從低到高的分辨率遞進(jìn)策略,就像學(xué)習(xí)樂器時(shí)從簡單曲目開始逐步挑戰(zhàn)復(fù)雜作品,確保模型能夠穩(wěn)步提升處理復(fù)雜內(nèi)容的能力。
在多任務(wù)訓(xùn)練方面,研究團(tuán)隊(duì)同時(shí)進(jìn)行文本轉(zhuǎn)視頻、圖像轉(zhuǎn)視頻和視頻擴(kuò)展三種任務(wù)的訓(xùn)練。輸入特征和條件特征(如首幀潛在表示)通過通道維度連接,配合二進(jìn)制掩碼指示每個(gè)去噪幀是否包含條件信息。這種設(shè)計(jì)使得單一模型能夠處理多種不同的生成任務(wù)。
文本轉(zhuǎn)視頻被證明是模型收斂最具成本效益的任務(wù)。研究團(tuán)隊(duì)發(fā)現(xiàn),在預(yù)訓(xùn)練期間引入少量圖像轉(zhuǎn)視頻任務(wù)(比例設(shè)為20%)對(duì)學(xué)習(xí)文本轉(zhuǎn)視頻和圖像轉(zhuǎn)視頻都有益處。然而,過度增加這個(gè)比例會(huì)產(chǎn)生有害影響,并不能改善圖像轉(zhuǎn)視頻的性能。為了進(jìn)一步提升圖像轉(zhuǎn)視頻的表現(xiàn),在預(yù)訓(xùn)練完成后,研究團(tuán)隊(duì)會(huì)分出一個(gè)專門的圖像轉(zhuǎn)視頻模型分支,將圖像轉(zhuǎn)視頻任務(wù)比例提高到50-75%。
后訓(xùn)練階段包括監(jiān)督微調(diào)(SFT)和基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)兩個(gè)步驟,目的是進(jìn)一步提升美學(xué)質(zhì)量、動(dòng)作一致性和結(jié)構(gòu)連貫性。這個(gè)階段就像藝術(shù)家在掌握基本技法后,需要通過大量實(shí)踐來完善自己的藝術(shù)風(fēng)格。
在SFT階段,研究團(tuán)隊(duì)精心策劃了一個(gè)包含70萬個(gè)極高美學(xué)質(zhì)量和視覺質(zhì)量視頻的數(shù)據(jù)集,通過人工標(biāo)注確保分布平衡。其中約5萬個(gè)被識(shí)別為最高質(zhì)量的視頻在訓(xùn)練中獲得更大權(quán)重。SFT訓(xùn)練在256個(gè)GPU上進(jìn)行,使用與預(yù)訓(xùn)練最終學(xué)習(xí)率相同的恒定學(xué)習(xí)率。實(shí)驗(yàn)結(jié)果顯示,SFT顯著改善了生成視頻的美學(xué)和色彩質(zhì)量。
然而,過長的SFT訓(xùn)練可能導(dǎo)致快速過擬合,損害提示跟隨能力和降低動(dòng)作質(zhì)量。為了解決這個(gè)問題,研究團(tuán)隊(duì)引入了直接偏好優(yōu)化(DPO)方法。他們發(fā)現(xiàn)DPO在解決SFT后常見的動(dòng)作和結(jié)構(gòu)問題方面極其有效。
DPO的實(shí)現(xiàn)采用了極小的學(xué)習(xí)率(1e-7,比SFT小50-100倍)和較大的β值(β=100)。研究團(tuán)隊(duì)從預(yù)訓(xùn)練和SFT數(shù)據(jù)集中收集視頻文本對(duì),通過文本和視覺聚類確保平衡。對(duì)于每個(gè)視頻文本對(duì),他們生成4個(gè)視頻,讓標(biāo)注者選擇其中最好和最差的樣本。實(shí)驗(yàn)證明,DPO在改善結(jié)構(gòu)和動(dòng)作質(zhì)量方面非常有效。
針對(duì)圖像轉(zhuǎn)視頻任務(wù),研究團(tuán)隊(duì)還開發(fā)了特殊的DPO策略。在圖像轉(zhuǎn)視頻中,生成視頻的第一幀應(yīng)該與給定的條件圖像保持一致。傳統(tǒng)DPO會(huì)最大化正負(fù)樣本首幀潛在表示之間的距離,但這些幀實(shí)際上應(yīng)該是相同的。研究團(tuán)隊(duì)觀察到使用傳統(tǒng)DPO會(huì)導(dǎo)致首幀過飽和。為了解決這個(gè)問題,他們將首幀潛在表示的擴(kuò)散損失計(jì)算分離出來,只對(duì)后續(xù)幀的潛在表示應(yīng)用DPO損失。
五、基礎(chǔ)設(shè)施優(yōu)化:支撐高效訓(xùn)練的技術(shù)支柱
要在有限的計(jì)算資源下訓(xùn)練出高質(zhì)量的視頻生成模型,就像用有限的材料建造一座堅(jiān)固的大廈,需要在基礎(chǔ)設(shè)施的每個(gè)環(huán)節(jié)都進(jìn)行精心優(yōu)化。Seaweed-7B團(tuán)隊(duì)在訓(xùn)練基礎(chǔ)設(shè)施方面實(shí)現(xiàn)了多項(xiàng)創(chuàng)新,最終達(dá)到了38%的模型FLOPs利用率,這在大規(guī)模分布式訓(xùn)練中是相當(dāng)出色的表現(xiàn)。
在并行化策略方面,研究團(tuán)隊(duì)采用了三維并行架構(gòu),包括數(shù)據(jù)并行、上下文并行和模型分片。他們使用FSDP技術(shù)將模型參數(shù)、優(yōu)化器狀態(tài)和梯度分片到多個(gè)GPU上,并啟用計(jì)算與通信重疊以減少通信開銷,提高分布式訓(xùn)練效率。對(duì)于長上下文樣本,他們采用Ulysses作為上下文并行策略,這種方法在序列維度和token相關(guān)/無關(guān)層的頭維度上迭代分片樣本,通過全對(duì)全通信實(shí)現(xiàn)高效處理。
運(yùn)行時(shí)平衡是解決圖像視頻混合訓(xùn)練負(fù)載不均衡的關(guān)鍵創(chuàng)新。傳統(tǒng)的基于序列長度和FLOPs的負(fù)載均衡方法由于算子效率變化導(dǎo)致的非線性關(guān)系而效果不佳。研究團(tuán)隊(duì)提出了運(yùn)行時(shí)平衡方法,構(gòu)建了一個(gè)將序列長度映射到實(shí)際運(yùn)行時(shí)間的離線查找表。在訓(xùn)練過程中,通過表查詢獲得運(yùn)行時(shí)估計(jì),確保最優(yōu)的工作負(fù)載分布。為了最小化開銷,下一批次的負(fù)載均衡在子進(jìn)程中異步執(zhí)行,避免延遲主訓(xùn)練流程。
多級(jí)激活檢查點(diǎn)(MLAC)是另一項(xiàng)重要的內(nèi)存優(yōu)化技術(shù)。傳統(tǒng)的激活檢查點(diǎn)在反向傳播期間會(huì)引入顯著的重計(jì)算開銷,在長上下文場景中仍可能遇到GPU內(nèi)存不足問題。MLAC允許在前向傳播過程中選擇性地將任何中間激活保存到多級(jí)存儲(chǔ)(GPU、CPU、磁盤內(nèi)存)中。這種方法通過優(yōu)先緩存計(jì)算密集型操作的輸出張量來最小化重計(jì)算開銷,同時(shí)支持將梯度檢查點(diǎn)模塊的輸入張量卸載到CPU和磁盤,實(shí)現(xiàn)GPU內(nèi)存的零激活占用,支持更大模型和更長上下文的訓(xùn)練。MLAC還集成了高效的異步緩存和預(yù)取機(jī)制,優(yōu)化內(nèi)存?zhèn)鬏斉c前向/后向計(jì)算的重疊。
融合內(nèi)核優(yōu)化針對(duì)內(nèi)存密集型操作進(jìn)行了專門設(shè)計(jì)。像歸一化和旋轉(zhuǎn)位置編碼這樣的IO密集型操作頻繁訪問內(nèi)存,導(dǎo)致張量/CUDA核心無法充分利用。研究團(tuán)隊(duì)引入了內(nèi)核融合技術(shù),利用寄存器和共享內(nèi)存存儲(chǔ)連續(xù)內(nèi)存訪問密集型算子的中間結(jié)果,將它們?nèi)诤系絾蝹€(gè)CUDA內(nèi)核中。這些融合內(nèi)核將全局內(nèi)存訪問減少到基線的十分之一,顯著提高了內(nèi)核的計(jì)算強(qiáng)度。具體來說,他們?nèi)诤狭薗K-Norm、RoPE和所有注意力預(yù)處理操作,并實(shí)現(xiàn)了相應(yīng)的前向和后向融合內(nèi)核。
六、推理優(yōu)化:從研究到應(yīng)用的關(guān)鍵橋梁
將一個(gè)訓(xùn)練好的視頻生成模型轉(zhuǎn)化為實(shí)用的應(yīng)用工具,就像將概念車改造成量產(chǎn)汽車,需要在保持性能的同時(shí)大幅提升效率和實(shí)用性。Seaweed-7B團(tuán)隊(duì)在推理優(yōu)化方面進(jìn)行了全面的技術(shù)改進(jìn),使模型能夠真正走向?qū)嶋H應(yīng)用。
推理加速的核心是擴(kuò)散蒸餾技術(shù),這個(gè)過程分為三個(gè)階段,就像逐步精簡復(fù)雜的工藝流程。第一階段采用軌跡分段一致性蒸餾方法,使模型能夠在大約24步函數(shù)評(píng)估下表現(xiàn)良好。這相當(dāng)于將原本需要50步的復(fù)雜過程壓縮到24步,大幅提升了生成速度。
第二階段設(shè)計(jì)了無分類器引導(dǎo)嵌入模塊,進(jìn)行CFG蒸餾以消除傳統(tǒng)無分類器引導(dǎo)中每步需要兩次網(wǎng)絡(luò)評(píng)估的低效性,同時(shí)保持引導(dǎo)比例的參數(shù)化控制。這個(gè)嵌入模塊支持CFG比例和負(fù)面提示的輸入,讓用戶能夠更精確地控制生成過程。
第三階段通過對(duì)抗訓(xùn)練來緩解少步推理帶來的模糊問題,將模型固定在8步函數(shù)評(píng)估?;谶@個(gè)三階段蒸餾方案,8步模型在文本對(duì)齊和動(dòng)作質(zhì)量方面達(dá)到了與原始模型相當(dāng)?shù)男阅埽谝曈X保真度方面甚至表現(xiàn)更優(yōu)。在代表性評(píng)估中,8步模型保持了56%的競爭勝率,而原始模型為58%,性能差距微乎其微。
VAE優(yōu)化方面,因果分塊技術(shù)顯著降低了內(nèi)存消耗。這種方法支持在單個(gè)40GB以上內(nèi)存的GPU上編碼和解碼任意長度的1280×720分辨率視頻。對(duì)于需要更高分辨率的任務(wù),系統(tǒng)將特征圖分割成更小的部分進(jìn)行卷積和歸一化層處理,從而減少峰值GPU內(nèi)存使用。
為了進(jìn)一步加速處理,VAE采用了多GPU流水線技術(shù)。系統(tǒng)沿時(shí)間維度分割視頻,將片段分布到多個(gè)GPU上,實(shí)現(xiàn)序列并行化。每個(gè)GPU處理連續(xù)的塊,每個(gè)因果卷積層將切片填充緩存發(fā)送到下一個(gè)GPU,這種流水線設(shè)計(jì)大大提升了長視頻的處理效率。
提示詞重寫是提升生成質(zhì)量的另一個(gè)重要環(huán)節(jié)。研究團(tuán)隊(duì)發(fā)現(xiàn),使用專業(yè)訓(xùn)練視頻的字幕作為DiT推理的輸入能夠改善視覺美學(xué)和動(dòng)作穩(wěn)定性。因此,他們訓(xùn)練了一個(gè)專門的模型,將用戶輸入的提示詞重寫成高質(zhì)量視頻字幕的風(fēng)格。
這個(gè)重寫過程首先通過配對(duì)模擬輸入提示詞和詳細(xì)視頻字幕來構(gòu)建平行語料庫,然后對(duì)7B大語言模型進(jìn)行微調(diào),使其能夠?qū)⑤斎胩崾驹~轉(zhuǎn)換為詳細(xì)字幕。為了減輕語義漂移,模型在監(jiān)督微調(diào)后為每個(gè)提示詞生成8個(gè)變體,選擇語義準(zhǔn)確的變體作為正樣本,語義不一致的作為負(fù)樣本,然后應(yīng)用直接偏好優(yōu)化來強(qiáng)化準(zhǔn)確性和質(zhì)量平衡的輸出。
最終的重寫模型顯著增強(qiáng)了視頻生成效果,特別是在視覺美學(xué)和風(fēng)格方面。然而,對(duì)于超過12個(gè)詞的較長輸入提示詞,重寫過程中保持確切語義含義變得更加困難,可能會(huì)影響提示跟隨效果。
通過這些全方位的優(yōu)化,Seaweed-7B不僅在訓(xùn)練效率上實(shí)現(xiàn)了突破,在推理性能上也達(dá)到了實(shí)用化的標(biāo)準(zhǔn),為視頻生成技術(shù)的普及應(yīng)用奠定了堅(jiān)實(shí)基礎(chǔ)。
七、性能評(píng)估:小模型展現(xiàn)大實(shí)力
當(dāng)Seaweed-7B與當(dāng)前最先進(jìn)的視頻生成模型同臺(tái)競技時(shí),就像一位年輕的挑戰(zhàn)者面對(duì)經(jīng)驗(yàn)豐富的冠軍選手。令人驚喜的是,這個(gè)"小個(gè)子"選手不僅沒有被淘汰,反而在多個(gè)項(xiàng)目中表現(xiàn)出色,甚至超越了一些體量更大的對(duì)手。
評(píng)估過程采用了MagicArena的Elo評(píng)分系統(tǒng),這是一個(gè)類似圍棋或國際象棋排名的公平競技平臺(tái)。在這個(gè)系統(tǒng)中,來自不同模型的視頻會(huì)被隨機(jī)配對(duì),由人類評(píng)估者在不知道模型身份的情況下進(jìn)行盲評(píng)。超過500名評(píng)估者參與了這項(xiàng)測試,每個(gè)模型都接受了至少7000次配對(duì)比較,確保了結(jié)果的可靠性。
在圖像轉(zhuǎn)視頻任務(wù)中,Seaweed-7B獲得了1047分的Elo評(píng)分,排名第二,勝率達(dá)到58%。排在第一位的是Kling 1.6 HD,評(píng)分1065,勝率61%。值得注意的是,Seaweed-7B超越了許多知名的大型模型,包括參數(shù)量14B的Wan 2.1(評(píng)分1015,勝率53%)、HunyuanVideo的13B模型(評(píng)分944,勝率43%),以及備受關(guān)注的Sora(評(píng)分903,勝率36%)。
這個(gè)結(jié)果特別令人印象深刻,因?yàn)镾eaweed-7B僅用相當(dāng)于1000臺(tái)H100 GPU工作27.7天的計(jì)算資源就達(dá)到了這樣的性能,而許多競爭對(duì)手使用了數(shù)倍甚至數(shù)十倍的計(jì)算資源。這就像一輛經(jīng)濟(jì)型轎車在性能測試中跑贏了多款豪華跑車。
為了更深入地了解模型的表現(xiàn),研究團(tuán)隊(duì)還進(jìn)行了細(xì)分維度的比較評(píng)估。在與領(lǐng)先模型的詳細(xì)對(duì)比中,評(píng)估者需要在視覺質(zhì)量、動(dòng)作質(zhì)量、提示跟隨和參考圖像一致性四個(gè)維度上進(jìn)行評(píng)分。結(jié)果顯示,Seaweed-7B在動(dòng)作質(zhì)量和提示跟隨方面與Kling 1.6相當(dāng),但在視覺質(zhì)量方面存在差距。這種差距部分歸因于輸出分辨率的不同——研究中使用的Seaweed-7B輸出為480p或720p,而Kling的輸出為1080p,分辨率優(yōu)勢給了后者明顯的視覺保真度加分。
在文本轉(zhuǎn)視頻任務(wù)中,Seaweed-7B同樣表現(xiàn)出色,在Elo排名中位列前茅,緊跟排名第一的Veo 2.0,并超越了Wan 2.1-14B和Kling 1.6等強(qiáng)勁對(duì)手。與兩個(gè)領(lǐng)先模型的詳細(xì)比較顯示,Seaweed-7B在各個(gè)維度上都保持了競爭力,證明了這個(gè)經(jīng)過665,000 H100 GPU小時(shí)訓(xùn)練的模型能夠與使用更多計(jì)算資源訓(xùn)練的大型模型相競爭。
在推理效率方面,Seaweed-7B展現(xiàn)出了顯著優(yōu)勢。與Wan-2.1的對(duì)比測試顯示,在單個(gè)H100 GPU上,Wan-2.1使用默認(rèn)配置需要50步推理加上無分類器引導(dǎo),總計(jì)100次神經(jīng)網(wǎng)絡(luò)函數(shù)評(píng)估,耗時(shí)1837.9秒。而Seaweed-7B經(jīng)過蒸餾后只需12次函數(shù)評(píng)估,僅用時(shí)29.6秒,速度快了62倍。這種巨大的效率優(yōu)勢意味著Seaweed-7B不僅生成質(zhì)量更優(yōu),還能以更低的成本和更快的速度為用戶提供服務(wù)。
在VAE重建質(zhì)量的評(píng)估中,Seaweed VAE在多個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集上都實(shí)現(xiàn)了最先進(jìn)的性能。在UCF-101數(shù)據(jù)集上,它在重建FVD、LPIPS、PSNR和SSIM等多項(xiàng)指標(biāo)上都達(dá)到了領(lǐng)先水平。特別是在MCL-JCV這個(gè)包含高分辨率長視頻的真實(shí)世界數(shù)據(jù)集上,即使在更高的壓縮比下,Seaweed VAE仍然實(shí)現(xiàn)了最低的LPIPS分?jǐn)?shù),展現(xiàn)了其在處理復(fù)雜真實(shí)內(nèi)容方面的優(yōu)越性能。
這些評(píng)估結(jié)果共同證明了一個(gè)重要觀點(diǎn):在視頻生成領(lǐng)域,模型的大小并不是決定性能的唯一因素。通過精心的設(shè)計(jì)選擇、高質(zhì)量的數(shù)據(jù)處理和優(yōu)化的訓(xùn)練策略,中等規(guī)模的模型完全可以達(dá)到甚至超越大型模型的性能,同時(shí)在效率和成本方面具有顯著優(yōu)勢。
八、應(yīng)用拓展:從基礎(chǔ)模型到專業(yè)工具
Seaweed-7B的真正價(jià)值不僅在于其作為基礎(chǔ)模型的出色性能,更在于其作為技術(shù)平臺(tái)可以衍生出的豐富應(yīng)用生態(tài)。就像一個(gè)多才多藝的演員可以在不同類型的影片中發(fā)揮作用一樣,這個(gè)基礎(chǔ)模型通過輕量級(jí)微調(diào)或繼續(xù)訓(xùn)練,能夠適應(yīng)各種專業(yè)化的視頻生成任務(wù)。
在圖像轉(zhuǎn)視頻生成方面,模型天然支持從靜態(tài)圖像生成動(dòng)態(tài)視頻的能力。通過同時(shí)使用文本到視頻和圖像到視頻的訓(xùn)練目標(biāo),它能夠基于輸入圖像和文本提示生成相應(yīng)的視頻內(nèi)容。更進(jìn)一步,通過對(duì)首幀和末幀進(jìn)行條件控制,模型還可以實(shí)現(xiàn)兩張圖片之間的視頻過渡效果,創(chuàng)造出流暢的場景變換。
人體視頻生成是一個(gè)特別重要的應(yīng)用領(lǐng)域??紤]到人體動(dòng)畫在內(nèi)容創(chuàng)作中的重要地位,研究團(tuán)隊(duì)基于Seaweed開發(fā)了OmniHuman-1系統(tǒng)。這個(gè)專門的人體動(dòng)畫模型通過架構(gòu)修改、定制訓(xùn)練策略和專門的數(shù)據(jù)處理,充分利用了Seaweed的生成保真度和美學(xué)質(zhì)量,實(shí)現(xiàn)了最先進(jìn)的人體動(dòng)畫效果。
主體一致性視頻生成解決了用戶內(nèi)容創(chuàng)作中的一個(gè)核心需求:如何讓生成的視頻包含特定的人物、物體或概念。通過微調(diào),模型可以學(xué)會(huì)生成包含單個(gè)或多個(gè)特定主體的視頻,例如特定人物的面部身份、特定物品、服裝、動(dòng)物或虛擬角色。這種能力支持多主體之間的真實(shí)互動(dòng),比如群體活動(dòng)、產(chǎn)品演示或虛擬試穿等場景。
視頻音頻聯(lián)合生成代表了多模態(tài)內(nèi)容創(chuàng)作的前沿。研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)專門的音頻生成模型,不依賴文本提示,而是以視頻輸入為條件來產(chǎn)生高質(zhì)量的視聽內(nèi)容。這個(gè)系統(tǒng)的核心是對(duì)比音視覺預(yù)訓(xùn)練模型(CAVP),它采用雙分支架構(gòu)提取用于音頻生成的視頻嵌入。一個(gè)分支使用高幀率的3D CNN提取細(xì)粒度視頻嵌入,另一個(gè)分支在低幀率關(guān)鍵幀上使用預(yù)訓(xùn)練的SigLIP模型。通過對(duì)比訓(xùn)練,視頻編碼器能夠有效捕捉細(xì)粒度動(dòng)作語義和時(shí)間對(duì)齊關(guān)系。
音頻生成部分采用條件潛在擴(kuò)散模型和流匹配目標(biāo)。視頻嵌入經(jīng)過時(shí)間上采樣以匹配音頻幀率,與全局音樂嵌入和幀級(jí)語音嵌入連接,作為音頻生成過程的條件輸入。這種設(shè)計(jì)確保了生成的音頻與視頻內(nèi)容在時(shí)間和語義上的精確對(duì)齊。
長視頻生成和故事敘述通過長上下文調(diào)優(yōu)(LCT)技術(shù)得以實(shí)現(xiàn)。由于當(dāng)前的視頻生成器通常只能產(chǎn)生5-10秒的單鏡頭視頻,LCT技術(shù)被提出來將單鏡頭的Seaweed適配為場景級(jí)生成模型。這種技術(shù)支持自回歸展開,并展現(xiàn)出可組合生成和鏡頭擴(kuò)展等新興能力。在故事腳本生成方面,研究團(tuán)隊(duì)還探索了在視頻敘事創(chuàng)作背景下的交錯(cuò)視頻文本生成。
實(shí)時(shí)生成是視頻應(yīng)用的一個(gè)重要發(fā)展方向。擴(kuò)散模型通常需要多步去噪過程,這在時(shí)間上是昂貴的,限制了各種應(yīng)用。Seaweed-APT提出了對(duì)抗后訓(xùn)練方法來實(shí)現(xiàn)一步生成,這是第一個(gè)在1280×720分辨率和24fps下展示實(shí)時(shí)視頻合成的方法,為廣泛的實(shí)時(shí)應(yīng)用開啟了可能性。
超分辨率生成展示了模型的另一種應(yīng)用方式。Seaweed不僅能夠直接產(chǎn)生高分辨率視頻,還可以作為任意長度和分辨率視頻修復(fù)的起點(diǎn),在公共基準(zhǔn)測試和AI生成視頻上都達(dá)到了最先進(jìn)的性能。
相機(jī)控制生成滿足了專業(yè)視頻制作的需求。相機(jī)在視頻生成中扮演重要角色,模型通過合成數(shù)據(jù)支持各種相機(jī)類別(如推拉鏡頭、左搖、旋轉(zhuǎn)鏡頭)。研究團(tuán)隊(duì)還引入了CameraCtrl II系統(tǒng)以實(shí)現(xiàn)精確的可控性,結(jié)合圖像轉(zhuǎn)視頻、長視頻和實(shí)時(shí)生成能力,讓用戶能夠探索生成的虛擬世界。
這些應(yīng)用展示了Seaweed-7B作為視頻生成基礎(chǔ)模型的強(qiáng)大適應(yīng)性和擴(kuò)展?jié)摿?。通過相對(duì)簡單的適配和微調(diào),一個(gè)基礎(chǔ)模型就能夠衍生出如此豐富的專業(yè)應(yīng)用,這正是基礎(chǔ)模型技術(shù)路線的核心價(jià)值所在。
說到底,Seaweed-7B的研究成果向我們展示了一個(gè)重要的技術(shù)發(fā)展趨勢:在人工智能的發(fā)展中,"大"并不總是意味著"更好"。通過精心的工程設(shè)計(jì)、巧妙的技術(shù)選擇和高效的資源利用,中等規(guī)模的模型完全可以達(dá)到甚至超越大型模型的性能。這種思路不僅降低了技術(shù)門檻,讓更多研究團(tuán)隊(duì)和公司能夠參與到視頻生成技術(shù)的發(fā)展中來,也為整個(gè)行業(yè)提供了更加可持續(xù)和實(shí)用的發(fā)展路徑。
從某種意義上說,Seaweed-7B就像是視頻生成領(lǐng)域的"特斯拉Model 3"——它證明了高性能的技術(shù)產(chǎn)品不一定需要天價(jià)的成本,通過聰明的設(shè)計(jì)和工程優(yōu)化,普通消費(fèi)者也能享受到前沿技術(shù)帶來的便利。這種技術(shù)民主化的趨勢,可能會(huì)推動(dòng)整個(gè)視頻生成行業(yè)進(jìn)入一個(gè)更加普及和繁榮的新階段。
當(dāng)然,這項(xiàng)研究也并非完美無缺。研究團(tuán)隊(duì)誠實(shí)地指出了模型的一些局限性,比如在生成精細(xì)細(xì)節(jié)(如小faces或精致圖案)方面仍有改進(jìn)空間,在長提示詞的語義保持方面也存在挑戰(zhàn)。但正是這種實(shí)事求是的態(tài)度和對(duì)技術(shù)邊界的清晰認(rèn)知,讓這項(xiàng)研究顯得更加可信和有價(jià)值。
對(duì)于關(guān)心視頻生成技術(shù)發(fā)展的讀者來說,Seaweed-7B的研究提供了一個(gè)重要的參考樣本:如何在資源約束下做出優(yōu)秀的技術(shù)產(chǎn)品。無論是數(shù)據(jù)處理的精細(xì)化策略、模型架構(gòu)的巧妙設(shè)計(jì),還是訓(xùn)練過程的漸進(jìn)式優(yōu)化,都為后續(xù)的研究工作提供了寶貴的經(jīng)驗(yàn)和啟發(fā)。
Q&A
Q1:Seaweed-7B為什么能用更少資源達(dá)到更好效果? A:關(guān)鍵在于精細(xì)化的設(shè)計(jì)選擇。研究團(tuán)隊(duì)在數(shù)據(jù)質(zhì)量控制、模型架構(gòu)優(yōu)化、訓(xùn)練策略安排等每個(gè)環(huán)節(jié)都進(jìn)行了精心設(shè)計(jì),比如建立五重質(zhì)量篩選機(jī)制、采用混合流架構(gòu)、實(shí)施漸進(jìn)式多階段訓(xùn)練等。這就像用精密的工藝制作手表,雖然體積小但性能卓越。
Q2:這個(gè)7B參數(shù)的模型真的能比14B的大模型表現(xiàn)更好嗎? A:在特定任務(wù)上確實(shí)如此。在圖像轉(zhuǎn)視頻的Elo評(píng)分中,Seaweed-7B(1047分)超越了14B的Wan 2.1(1015分)和13B的HunyuanVideo(944分)。這說明模型性能不完全取決于參數(shù)數(shù)量,精心的設(shè)計(jì)和優(yōu)化策略同樣重要,就像一輛調(diào)校精良的小排量賽車可以跑贏大排量的普通汽車。
Q3:普通用戶什么時(shí)候能使用到這種技術(shù)? A:雖然論文沒有明確提及商業(yè)化時(shí)間表,但從技術(shù)成熟度來看,Seaweed-7B已經(jīng)實(shí)現(xiàn)了實(shí)時(shí)生成能力(1280×720分辨率24fps),推理效率比競爭對(duì)手快62倍??紤]到ByteDance的技術(shù)實(shí)力和產(chǎn)品化經(jīng)驗(yàn),這種技術(shù)很可能會(huì)逐步集成到相關(guān)產(chǎn)品中,讓普通用戶能夠體驗(yàn)到高質(zhì)量、低成本的AI視頻生成服務(wù)。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對(duì)話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。