這項引人注目的研究來自上海交通大學(xué)計算機(jī)科學(xué)與工程系、人工智能學(xué)院以及人工智能教育部重點實驗室的研究團(tuán)隊,由張向東、廖佳琦、張少峰、孟繁青、萬向鵬、嚴(yán)駿馳和香港中文大學(xué)的程禹共同完成。這篇題為《VideoREPA: Learning Physics for Video Generation through Relational Alignment with Foundation Models》(VideoREPA:通過與基礎(chǔ)模型的關(guān)系對齊學(xué)習(xí)視頻生成的物理知識)的論文于2025年5月29日發(fā)表在arXiv預(yù)印本平臺(arXiv:2505.23656v1),展示了一種提升AI生成視頻物理合理性的全新方法。
想象一下,你正在使用一個AI工具生成一段關(guān)于"棒球手套接住一個硬棒球"的視頻。在傳統(tǒng)的文本到視頻(T2V)模型中,你可能會得到一個看似真實但物理上不合理的結(jié)果——比如手套碰到棒球后,棒球卻詭異地穿過手套繼續(xù)飛行,或者棒球觸碰手套時沒有任何動量變化。這種不符合物理常識的現(xiàn)象在當(dāng)前最先進(jìn)的文本到視頻生成模型中相當(dāng)普遍。
上海交大團(tuán)隊的研究人員發(fā)現(xiàn)了一個有趣的現(xiàn)象:雖然視頻生成模型對物理規(guī)律的理解有限,但自監(jiān)督學(xué)習(xí)的視頻理解模型(如VideoMAEv2)卻對物理現(xiàn)象有著更深入的理解。這就像一個會講故事的人(生成模型)和一個觀察細(xì)致的人(理解模型)之間的差距——后者能更好地理解物體如何在現(xiàn)實世界中運動和交互。
基于這一發(fā)現(xiàn),研究團(tuán)隊提出了一個巧妙的想法:能否讓"會講故事"的模型向"觀察細(xì)致"的模型學(xué)習(xí),從而生成更符合物理常識的視頻?這就是VideoREPA(Video Representation Alignment through Physics Awareness)的核心思想。
一、什么是VideoREPA?為何物理常識對視頻生成如此重要?
在我們的日常生活中,當(dāng)我們看到一個球從高處落下,我們自然而然地期待它會因重力而加速下落,而不是懸浮在空中或以勻速降落。我們對物理世界的這種直觀理解來自于長期的生活經(jīng)驗,這種理解讓我們能夠預(yù)測物體的運動和交互方式。然而,當(dāng)前的AI視頻生成模型并沒有這種與生俱來的物理常識。
上海交大團(tuán)隊首先通過對比實驗證實了一個重要差距:盡管CogVideoX(一個擁有20億參數(shù)的視頻生成模型)能夠生成高質(zhì)量的視頻內(nèi)容,但它在物理理解方面遠(yuǎn)遠(yuǎn)落后于VideoMAEv2(一個僅有8600萬參數(shù)的自監(jiān)督視頻理解模型)。在Physion基準(zhǔn)測試中(這是一個專門用于評估物理理解能力的測試集),這種差距尤為明顯。
傳統(tǒng)上,提升視頻生成模型物理合理性的方法主要有兩類:基于模擬的方法和非模擬方法?;谀M的方法通常需要引入外部物理模擬器來指導(dǎo)生成過程,但這些方法受限于模擬器的復(fù)雜性和難以模擬多樣化的開放域現(xiàn)象。非模擬方法則相對較少被探索,其中的WISA方法通過將文本描述分解為物理現(xiàn)象并使用"物理專家混合注意力"機(jī)制來提高生成質(zhì)量,但它在開放域數(shù)據(jù)上的泛化能力有限。
二、VideoREPA如何工作?從理解到生成的知識橋梁
想象一下,你正在教一個講故事的朋友如何更準(zhǔn)確地描述物理現(xiàn)象。你不會直接告訴他"重力加速度是9.8米每秒平方"這樣的專業(yè)知識,而是會指導(dǎo)他注意物體之間的關(guān)系和變化——"當(dāng)球落下時,它會越來越快","當(dāng)手接住球時,球會停止移動"等。這正是VideoREPA的工作方式。
VideoREPA的核心創(chuàng)新在于提出了一種稱為"令牌關(guān)系蒸餾"(Token Relation Distillation,TRD)的損失函數(shù)。這個特殊的損失函數(shù)不是簡單地讓視頻生成模型直接模仿視頻理解模型的特征表示(這樣做會破壞預(yù)訓(xùn)練模型已有的知識結(jié)構(gòu)),而是讓生成模型學(xué)習(xí)令牌之間的關(guān)系模式。
具體來說,TRD損失函數(shù)關(guān)注兩個層面的關(guān)系:
首先是空間關(guān)系,也就是同一幀內(nèi)不同位置的令牌之間的關(guān)系。這有助于模型理解物體的形狀、結(jié)構(gòu)和空間位置,確保生成的物體形狀合理而不會扭曲或變形。
其次是時間關(guān)系,即不同幀之間令牌的關(guān)系。這幫助模型理解物體如何隨時間變化,如何運動,以及如何與其他物體交互,確保生成的動作符合物理規(guī)律。
研究團(tuán)隊將這種方法應(yīng)用于預(yù)訓(xùn)練的CogVideoX模型,創(chuàng)建了VideoREPA。與直接使用表示對齊(REPA)方法相比,VideoREPA解決了幾個關(guān)鍵挑戰(zhàn):
第一,它不僅關(guān)注空間特征,還特別重視時間動態(tài),這對于視頻中的物理合理性至關(guān)重要。
第二,它專為微調(diào)預(yù)訓(xùn)練模型設(shè)計,而不是像REPA那樣用于加速從頭訓(xùn)練。
第三,它采用了更為溫和的對齊機(jī)制,避免了硬對齊可能導(dǎo)致的預(yù)訓(xùn)練模型內(nèi)部表示破壞。
第四,它巧妙處理了視頻擴(kuò)散模型中的時間壓縮問題,確保不同時間粒度的特征可以有效對齊。
三、實驗結(jié)果:VideoREPA如何改善視頻的物理合理性?
為了驗證VideoREPA的有效性,研究團(tuán)隊在多個基準(zhǔn)測試上進(jìn)行了全面的評估。他們主要使用了兩個專門用于評估視頻物理合理性的基準(zhǔn):VideoPhy和VideoPhy2。
在VideoPhy基準(zhǔn)測試中,VideoREPA-5B(基于CogVideoX-5B的增強版本)在物理常識(PC)評分上取得了40.1分,相比基線CogVideoX-5B的32.3分提高了24.1%。更值得注意的是,在不同類型的物理交互中,VideoREPA均展現(xiàn)出顯著提升:固體-固體交互提升了42.9%,固體-流體交互提升了16.7%,流體-流體交互提升了20.6%。
與專門設(shè)計用于增強視頻生成物理常識的WISA方法相比,VideoREPA也展現(xiàn)出明顯優(yōu)勢。特別是,雖然WISA在專門的物理數(shù)據(jù)集(WISA-32K)上訓(xùn)練時表現(xiàn)良好,但它在開放域數(shù)據(jù)集(如Koala-36M)上的泛化能力有限。相比之下,VideoREPA在開放域數(shù)據(jù)集上的表現(xiàn)明顯優(yōu)于WISA(PC評分40.1 vs. WISA的33)。
在更具挑戰(zhàn)性的VideoPhy2基準(zhǔn)測試中,VideoREPA同樣展現(xiàn)出強大性能,PC評分達(dá)到72.54,相比基線CogVideoX的67.97提高了4.57分。
視覺對比結(jié)果更加直觀地展示了VideoREPA的優(yōu)勢。例如,在"鉛筆在桌面上滾動"的場景中,HunyuanVideo和CogVideoX生成的視頻中鉛筆的運動往往不符合剛體運動規(guī)律,而VideoREPA生成的視頻則展示了物理上一致且穩(wěn)定的運動。同樣,在"起重機(jī)吊起磚塊"的例子中,VideoREPA準(zhǔn)確表現(xiàn)了起重機(jī)在吊起托盤時保持物理連接的過程,而其他方法往往生成磚塊不符合物理規(guī)律地懸浮在空中而沒有任何可見的支撐。
四、技術(shù)細(xì)節(jié)與實現(xiàn)挑戰(zhàn)
VideoREPA的實現(xiàn)面臨著幾個技術(shù)挑戰(zhàn),研究團(tuán)隊通過一系列巧妙的設(shè)計解決了這些問題。
首先是特征維度不匹配問題。視頻生成模型和視頻理解模型在編碼過程后的時間和空間維度往往不同。高級視頻生成模型(如CogVideoX)通常使用具有高時間壓縮率的3D VAE(例如4倍或8倍壓縮),而視頻理解模型(如VideoMAEv2)則使用較低的壓縮率(例如2倍)。這導(dǎo)致視頻理解模型的特征圖在時間上有更大的尺寸,空間尺寸也可能不同。
為了解決這個問題,研究團(tuán)隊采用了將視頻生成模型的潛在維度插值到匹配視頻理解模型特征的策略。通過實驗,他們發(fā)現(xiàn)這種方法比其他策略更為有效。
另一個挑戰(zhàn)來自計算資源限制,特別是當(dāng)處理視頻理解模型的輸入時。視頻理解模型通常使用3D全注意力機(jī)制,直接輸入高分辨率視頻(如480x720)或大量幀(如49幀)會消耗巨大的內(nèi)存資源。為了平衡質(zhì)量和計算效率,團(tuán)隊探索了三種策略:以統(tǒng)一降低的分辨率處理所有視頻幀,以高分辨率處理時間分組的幀子集,以及以高分辨率處理帶有空間裁剪的所有幀。經(jīng)過評估,他們選擇了第一種策略,因為它能夠以最低的計算資源需求最好地保持視頻理解模型預(yù)訓(xùn)練表示的整體性質(zhì)。
五、VideoREPA的意義與未來展望
VideoREPA的成功不僅僅是在技術(shù)層面的突破,它代表了一種新的思維方式:通過將理解能力注入生成模型,我們可以顯著提高生成內(nèi)容的質(zhì)量和真實性。這種方法可能在更廣泛的領(lǐng)域產(chǎn)生影響,從視頻生成擴(kuò)展到其他需要特定領(lǐng)域知識的生成任務(wù)。
對于普通用戶來說,這意味著未來的AI視頻生成工具將能夠創(chuàng)建更加逼真、符合物理常識的視頻內(nèi)容。例如,當(dāng)你要求AI生成一個"倒水入杯"的視頻時,水流會正確地從高處流向低處,形成符合流體力學(xué)的水花和漣漪,而不是像現(xiàn)在一些模型那樣生成違反物理規(guī)律的奇怪行為。
然而,VideoREPA也有其局限性。盡管它通過微調(diào)視頻生成模型取得了顯著改進(jìn),但研究團(tuán)隊尚未驗證其在視頻生成模型預(yù)訓(xùn)練階段的潛力,主要是由于計算資源限制。未來的研究方向可能包括將VideoREPA納入視頻生成模型的預(yù)訓(xùn)練過程,以及開發(fā)針對性創(chuàng)新,在這一階段更有效地注入物理知識。
總的來說,VideoREPA代表了一種有前途的方向,通過橋接視頻理解和生成之間的鴻溝,為創(chuàng)建更加真實、符合物理常識的AI生成視頻鋪平了道路。隨著這類研究的深入,我們可以期待未來的AI生成內(nèi)容將越來越難以與真實世界區(qū)分,為創(chuàng)作者和內(nèi)容消費者帶來全新的可能性。
好文章,需要你的鼓勵
新加坡國立大學(xué)研究團(tuán)隊開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實驗顯示,僅訓(xùn)練AI玩簡單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實現(xiàn)37.9%的精度提升,并在真實設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊通過對比實驗發(fā)現(xiàn),經(jīng)過強化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時刻"現(xiàn)象,但這些自我糾錯行為并不能實際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗證差距",即生成答案的能力強于驗證答案質(zhì)量的能力,且模型在自我驗證時無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動態(tài)稀疏性實現(xiàn)大語言模型訓(xùn)練加速1.6倍,計算成本降低2.2倍。該方法使用SVD稀疏性估計器智能選擇重要計算部分,在保持模型性能的同時顯著提升訓(xùn)練效率,已在多個任務(wù)上驗證有效性。