在當今科技迅猛發(fā)展的時代,視頻生成模型取得了令人矚目的進步,但對于如何使這些模型能夠響應更自然的物理交互,比如推動或風吹等真實世界的力量,一直是一個未被深入探索的領(lǐng)域。近日,布朗大學的Nate Gillman、谷歌DeepMind的Charles Herrmann與Deqing Sun,以及布朗大學的Michael Freeman、Daksh Aggarwal、Evan Luo和Chen Sun共同發(fā)表了一篇題為《力量提示:視頻生成模型可以學習并泛化物理力控制信號》的研究論文。這項研究發(fā)表于2025年5月26日的arXiv預印本平臺(arXiv:2505.19386v1),為我們展示了一種全新的方式,讓視頻生成模型能夠理解并響應物理力控制。
想象一下,你可以對著屏幕上的一朵花輕輕一戳,它就會像真實世界中那樣搖晃;或者你可以對著一面旗幟吹一口氣,它就會隨風飄動。這正是這項研究要實現(xiàn)的愿景。研究團隊提出了一種名為"力量提示"(Force Prompting)的方法,使視頻生成模型能夠接受兩種物理力控制信號:局部點力(比如戳一下植物)和全局風力(比如風吹過布料)。
這項研究的最驚人之處在于,盡管只使用了有限的合成訓練數(shù)據(jù)(僅約15,000個訓練示例),視頻生成模型卻展現(xiàn)出了令人驚訝的泛化能力,能夠?qū)Ω鞣N不同的物體、材料和環(huán)境做出物理上合理的反應。更令人印象深刻的是,整個訓練過程僅需在四臺A100 GPU上運行一天時間,就能達到這樣的效果。
一、研究背景與動機
從小時候起,人類就開始發(fā)展對物理力的直覺理解:輕輕戳一下植物會使它搖晃,微風會使織物形成波紋狀。研究團隊提出了一個有趣的問題:通過互聯(lián)網(wǎng)規(guī)模的預訓練編碼了強大視覺和運動先驗知識的視頻生成模型,是否也具有類似的直覺物理理解能力?如果有,我們?nèi)绾尾拍芗ぐl(fā)它們對力量輸入做出反應的能力?
這些問題的答案將為視頻內(nèi)容創(chuàng)作提供更靈活、更具表現(xiàn)力的界面,使用戶能夠通過物理力控制進行交互式視頻生成(比如生成一個視頻游戲),并最終為智能代理提供一個直觀的世界模型,用于規(guī)劃和決策。
二、力量提示的核心原理
力量提示本質(zhì)上是將物理力作為控制信號引入視頻生成模型。研究團隊探索了兩種截然不同的力量提示類型:
第一種是局部力提示,如瞬時的戳或拉,應用于特定區(qū)域。想象你用手指輕輕推動屏幕上的一個物體,比如一朵花或一個玩具車,模型就會生成這個物體受到推力后的運動視頻。
第二種是全局力提示,如作用于整個場景的持續(xù)定向風力。比如你想象一陣風從左向右吹過,畫面中的所有可移動物體——頭發(fā)、旗幟、樹葉等——都會相應地向右擺動。
研究的關(guān)鍵挑戰(zhàn)在于獲取高質(zhì)量的力-視頻配對訓練數(shù)據(jù)非常困難。在真實世界中,記錄力信號本身就很復雜;而在合成數(shù)據(jù)方面,物理模擬器在視覺質(zhì)量和領(lǐng)域多樣性上都存在局限。
為了解決這個問題,研究團隊利用物理模擬器(如Blender)手工制作了完美標注的訓練數(shù)據(jù)。他們指定一系列物體及力條件,然后模擬產(chǎn)生的動態(tài)以獲得配對的訓練視頻。研究團隊假設(shè),這種從模擬到真實的泛化是可行的,因為最先進的視頻生成模型已經(jīng)編碼了關(guān)于視覺動態(tài)的強大先驗知識,而配對的力-視頻數(shù)據(jù)只是起到引導它們理解物理力控制信號的作用。
三、數(shù)據(jù)集構(gòu)建與模型訓練
研究團隊構(gòu)建了兩個獨特的數(shù)據(jù)集,分別用于訓練全局力模型和局部力模型。
對于全局風力數(shù)據(jù)集,他們使用Blender構(gòu)建了一個旗幟在不同風力條件下飄動的數(shù)據(jù)集。為了生成多樣化的數(shù)據(jù),他們隨機化了多個參數(shù):旗幟數(shù)量(從1到64不等)、旗幟顏色(從100種選擇中)、旗幟位置、相機放置、HDRI背景圖像(從50個選項中選擇)、風向(0到360度)和風速(從0到1,0表示無風,1表示非常強的風)。每個視頻捕捉旗幟從靜止到受風影響狀態(tài)的過渡。他們的訓練數(shù)據(jù)集包含15,000個視頻。
對于局部力數(shù)據(jù)集,他們創(chuàng)建了兩種場景。第一種場景包含12,000個球體視頻,其中一個球被看不見的點力推動而滾動,而其他球保持靜止。他們通過Blender生成這些視頻,隨機化了球的數(shù)量(2到4個)、球的紋理(足球或保齡球)、球的顏色、位置、相機位置、地面紋理、目標球選擇、力的角度和力的大小。保齡球被設(shè)定為足球質(zhì)量的四倍,目的是教導模型基于質(zhì)量的動態(tài)。第二種場景(11,000個視頻)利用PhysDreamer(一種生成-模擬器混合模型)生成被推動后前后搖擺的康乃馨視頻。研究團隊生成這些視頻時隨機化了相機位置、接觸點、力角度和力大小。
在兩個數(shù)據(jù)集中,研究團隊都使用相機參數(shù)將3D空間中的力投影到2D像素平面上。這種轉(zhuǎn)換將力向量和物體位置從物理世界坐標系映射到屏幕坐標,使他們能夠在圖像幀內(nèi)建模力。他們還使用GPT-4o API為每個HDRI背景和地面紋理生成詳細的文本提示,并為所有PhysDreamer康乃馨視頻創(chuàng)建了一個共享提示。
四、技術(shù)實現(xiàn)與力量編碼
由于風力是全局應用的,而點力是局部應用的,研究團隊提出了兩種不同的力編碼策略。
對于全局風力,控制信號由力F∈[0,1]和角度θ∈[0,360)參數(shù)化。他們將物理提示表示為一個張量,其中第一通道編碼力的大小,第二和第三通道分別編碼角度的余弦和正弦值。這定義了一個平滑映射,編碼了風力場的角度和大小。
對于局部點力,控制信號不僅包括力的大小F∈[0,1]和角度θ∈[0,360),還包括應用力的像素坐標(x,y)。他們將控制信號表示為一系列幀,其中一個高斯斑點從像素位置(x,y)開始,然后以恒定速度向θ方向移動,總距離與力F成比例。當力最?。‵=0)時,總位移是較小的,而當力最大(F=1)時,位移更大。
值得注意的是,這些力提示模型與基于軌跡的視頻生成模型(如Zhang等人和Geng等人的工作)有根本區(qū)別。在力提示中,高斯斑點作為局部力模型的力指示器通常遠離它影響的像素,正如搖擺花朵的復雜振蕩運動所示。同樣,風力控制信號也不指定哪些點必須移動到哪些位置,因為該控制信號是全局的和因果的。
五、架構(gòu)與訓練
研究團隊基于CogVideoX-5B-I2V(Yang等人,2024)構(gòu)建了力提示模型,這是一個接受文本和初始幀作為條件輸入的視頻生成模型。該模型以8fps的速度生成49幀視頻。為了整合力提示條件,他們添加了一個ControlNet(Zhang等人,2023),該網(wǎng)絡(luò)輸入物理控制提示,通過下采樣、編碼和時間壓縮處理后,通過零卷積與隱藏狀態(tài)結(jié)合。
ControlNet克隆了前六個Transformer層并對它們進行微調(diào),同時保持基礎(chǔ)模型的Transformer層凍結(jié)。他們在四個80GB A100 GPU集群上訓練模型5000步,大約需要一天時間。訓練使用每設(shè)備1的即時批量大小,兩個梯度累積步驟,產(chǎn)生8的有效批量大小。
六、驚人的泛化能力
研究的最關(guān)鍵發(fā)現(xiàn)是,盡管訓練數(shù)據(jù)有限且視覺外觀合成,視頻生成模型確實能夠?qū)W習執(zhí)行精細的力提示,并表現(xiàn)出驚人的泛化行為。
局部點力模型僅在球體滾動(線性運動)和植物戳動(復雜運動)場景上訓練,但能夠泛化到各種不同的運動類別:
1. 線性運動:模型能夠?qū)ν婢哕嚒⒅避壣系耐婢呋疖?、熱氣球等施加力,使它們按照預期方向移動。
2. 振蕩運動:風車、鐘擺、裝飾品和秋千等物體在受到力后能夠進行自然的振蕩運動。
3. 復雜運動:環(huán)形軌道上的玩具火車、各種植物(包括常春藤、蘋果樹和花卉)等,能夠根據(jù)力的應用展現(xiàn)復雜的運動模式。
全局風力模型僅在旗幟飄動(系繩運動)數(shù)據(jù)上訓練,但能夠泛化到不同類型的物理屬性:
1. 系繩運動:頭發(fā)、布料、人身上的衣物、掛在鉤子上的紙燈籠等能夠隨風擺動。
2. 空氣動力學運動:氣泡、落葉、游泳池中的充氣管、漂浮的垃圾、五彩紙屑等在風力下表現(xiàn)出自然的運動。
3. 流體動態(tài):霧、煙、雪、蒸汽等流體現(xiàn)象也能夠受到風力影響,展現(xiàn)出逼真的流動模式。
通過人類評估,研究團隊證明力提示在遵循物理指令的同時保持了逼真的運動和視覺質(zhì)量,相比于基于文本的基線模型表現(xiàn)更好。這驗證了他們的假設(shè):合成數(shù)據(jù)可以教導視頻生成模型直觀物理學和控制,而不損害它們的視頻先驗知識。
七、質(zhì)量理解的初步證據(jù)
研究團隊還發(fā)現(xiàn),他們的力條件模型展示了對質(zhì)量的某種程度理解,即相同的力會導致較輕的物體比較重的物體移動得更遠。
他們設(shè)計了一項實驗,測量足球和保齡球在受到相同力時的滾動距離。結(jié)果證實了兩個關(guān)鍵物理原理:對于兩種球類型,行進距離都與施加的力線性增加;而且,足球在所有力大小下都比保齡球行進得更遠,這表明模型對質(zhì)量依賴的物理學有直觀理解。
他們還對四個具有不同隱含質(zhì)量的幾何相同物體的基準任務(wù)進行了質(zhì)量理解評估:木制與鑄鐵裝飾品、空與裝滿衣物的洗衣籃、一本、兩本或三本書的堆疊,以及單個與雙重立方體。結(jié)果表明,較輕的物體在受到相同力時確實一致地移動得更遠。這種模式在四個隨機種子上保持穩(wěn)健,表明力提示模型中出現(xiàn)了對質(zhì)量依賴物理學的初步理解。
八、數(shù)據(jù)設(shè)計選擇對泛化的影響
研究團隊還探索了合成數(shù)據(jù)集設(shè)計選擇如何影響模型泛化。他們發(fā)現(xiàn),對于局部點力任務(wù),移除場景中的"干擾球"(即保留只有一個受點力影響的球)會顯著降低力的定位能力。沒有干擾球,模型會表現(xiàn)出不良行為:戳一個熱氣球時,所有氣球都會輕微移動;戳玻璃花瓶中的玫瑰花時,玫瑰和花瓶會一起移動,無法隔離力的施加。
對于全局風力任務(wù),他們評估了兩個多樣性因素:旗幟數(shù)量和背景多樣性。他們發(fā)現(xiàn),使用單一背景訓練會導致模型遵循力物理學,但經(jīng)常無法區(qū)分前景和背景,降低視覺質(zhì)量。同樣,當場景僅限于包含一面旗幟而不是可變數(shù)量(1到64面)時,模型成功建模了布料力學,但無法泛化到其他材料。在這些情況下,篝火的煙霧不受風影響,五彩紙屑要么不響應要么不自然地懸浮,氣泡不響應風,而人體四肢不正確地像布料一樣飄動。
九、文本提示特異性的重要性
研究團隊還調(diào)查了文本提示中的特異性如何影響模型輸出。他們進行了一項2×2網(wǎng)格搜索消融研究,訓練和測試他們的風模型時使用或不使用風相關(guān)關(guān)鍵詞(風/微風/吹)。結(jié)果表明,在訓練過程中省略這些關(guān)鍵詞會顯著增加基準數(shù)據(jù)集中的失敗案例——霧保持靜止,燈籠意外倒塌,蒸汽無故出現(xiàn)。相比之下,使用特定于風的術(shù)語訓練的模型展示了對多樣化風場景的更好泛化能力。
有趣的是,這些關(guān)鍵詞在推理過程中的存在比在訓練過程中的影響要小,盡管使用風術(shù)語通常會產(chǎn)生更穩(wěn)健的結(jié)果。
十、研究的局限性與失敗案例
盡管成功,研究也存在一些局限性。力提示模型展示了相關(guān)性問題——例如,在頭發(fā)吹動場景中,面部有時會根據(jù)風向重新定向,這可能反映了訓練數(shù)據(jù)中的模式,即頭發(fā)通常向后吹動。該方法受到底層視頻先驗的物理理解能力的根本限制;研究團隊專注于控制現(xiàn)有物理能力,而非改進模型的物理理解。
研究還發(fā)現(xiàn)了一些失敗案例,比如當基礎(chǔ)模型的物理學超出領(lǐng)域時(如嘗試滾動非球形物體),或當視頻先驗與力提示的意圖沖突時(如搖椅移動方向正確,但基礎(chǔ)視頻模型難以區(qū)分前景和背景物體)。
十一、結(jié)論與未來方向
這項研究介紹了力提示,使用戶能夠通過物理上有意義的控制與生成視頻模型交互,包括局部點力和全局風力效果。研究表明,視頻生成模型可以成功學習響應基于力的條件,從有限的合成訓練數(shù)據(jù)中進行廣泛泛化,而在推理時不需要物理模擬器。
這些結(jié)果表明了一個有希望的方向,可以開發(fā)響應自然物理交互的直觀世界模型,潛在應用于創(chuàng)意內(nèi)容生成和具身AI規(guī)劃。研究團隊已在項目頁面https://force-prompting.github.io/上發(fā)布了所有數(shù)據(jù)集、代碼和模型。
這項工作不僅展示了視頻生成模型的潛力,也為我們提供了一種新的交互方式,使數(shù)字內(nèi)容創(chuàng)作更接近真實世界的物理交互體驗。通過簡單的物理力輸入,我們可以讓虛擬物體以自然、直觀的方式響應,就像它們在現(xiàn)實世界中那樣,這為增強現(xiàn)實、虛擬現(xiàn)實和交互式媒體創(chuàng)造了新的可能性。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機制和漸進式訓練,能夠?qū)碗s指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學習外觀和運動信息,顯著解決了當前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實用化應用奠定了重要基礎(chǔ)。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓練數(shù)據(jù)集和MM-AlignBench評測基準,通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預報,準確性超越傳統(tǒng)方法90%的指標。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學習40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學領(lǐng)域帶來了效率和精度的雙重突破。