在當(dāng)今科技迅猛發(fā)展的時(shí)代,視頻生成模型取得了令人矚目的進(jìn)步,但對(duì)于如何使這些模型能夠響應(yīng)更自然的物理交互,比如推動(dòng)或風(fēng)吹等真實(shí)世界的力量,一直是一個(gè)未被深入探索的領(lǐng)域。近日,布朗大學(xué)的Nate Gillman、谷歌DeepMind的Charles Herrmann與Deqing Sun,以及布朗大學(xué)的Michael Freeman、Daksh Aggarwal、Evan Luo和Chen Sun共同發(fā)表了一篇題為《力量提示:視頻生成模型可以學(xué)習(xí)并泛化物理力控制信號(hào)》的研究論文。這項(xiàng)研究發(fā)表于2025年5月26日的arXiv預(yù)印本平臺(tái)(arXiv:2505.19386v1),為我們展示了一種全新的方式,讓視頻生成模型能夠理解并響應(yīng)物理力控制。
想象一下,你可以對(duì)著屏幕上的一朵花輕輕一戳,它就會(huì)像真實(shí)世界中那樣搖晃;或者你可以對(duì)著一面旗幟吹一口氣,它就會(huì)隨風(fēng)飄動(dòng)。這正是這項(xiàng)研究要實(shí)現(xiàn)的愿景。研究團(tuán)隊(duì)提出了一種名為"力量提示"(Force Prompting)的方法,使視頻生成模型能夠接受兩種物理力控制信號(hào):局部點(diǎn)力(比如戳一下植物)和全局風(fēng)力(比如風(fēng)吹過布料)。
這項(xiàng)研究的最驚人之處在于,盡管只使用了有限的合成訓(xùn)練數(shù)據(jù)(僅約15,000個(gè)訓(xùn)練示例),視頻生成模型卻展現(xiàn)出了令人驚訝的泛化能力,能夠?qū)Ω鞣N不同的物體、材料和環(huán)境做出物理上合理的反應(yīng)。更令人印象深刻的是,整個(gè)訓(xùn)練過程僅需在四臺(tái)A100 GPU上運(yùn)行一天時(shí)間,就能達(dá)到這樣的效果。
一、研究背景與動(dòng)機(jī)
從小時(shí)候起,人類就開始發(fā)展對(duì)物理力的直覺理解:輕輕戳一下植物會(huì)使它搖晃,微風(fēng)會(huì)使織物形成波紋狀。研究團(tuán)隊(duì)提出了一個(gè)有趣的問題:通過互聯(lián)網(wǎng)規(guī)模的預(yù)訓(xùn)練編碼了強(qiáng)大視覺和運(yùn)動(dòng)先驗(yàn)知識(shí)的視頻生成模型,是否也具有類似的直覺物理理解能力?如果有,我們?nèi)绾尾拍芗ぐl(fā)它們對(duì)力量輸入做出反應(yīng)的能力?
這些問題的答案將為視頻內(nèi)容創(chuàng)作提供更靈活、更具表現(xiàn)力的界面,使用戶能夠通過物理力控制進(jìn)行交互式視頻生成(比如生成一個(gè)視頻游戲),并最終為智能代理提供一個(gè)直觀的世界模型,用于規(guī)劃和決策。
二、力量提示的核心原理
力量提示本質(zhì)上是將物理力作為控制信號(hào)引入視頻生成模型。研究團(tuán)隊(duì)探索了兩種截然不同的力量提示類型:
第一種是局部力提示,如瞬時(shí)的戳或拉,應(yīng)用于特定區(qū)域。想象你用手指輕輕推動(dòng)屏幕上的一個(gè)物體,比如一朵花或一個(gè)玩具車,模型就會(huì)生成這個(gè)物體受到推力后的運(yùn)動(dòng)視頻。
第二種是全局力提示,如作用于整個(gè)場(chǎng)景的持續(xù)定向風(fēng)力。比如你想象一陣風(fēng)從左向右吹過,畫面中的所有可移動(dòng)物體——頭發(fā)、旗幟、樹葉等——都會(huì)相應(yīng)地向右擺動(dòng)。
研究的關(guān)鍵挑戰(zhàn)在于獲取高質(zhì)量的力-視頻配對(duì)訓(xùn)練數(shù)據(jù)非常困難。在真實(shí)世界中,記錄力信號(hào)本身就很復(fù)雜;而在合成數(shù)據(jù)方面,物理模擬器在視覺質(zhì)量和領(lǐng)域多樣性上都存在局限。
為了解決這個(gè)問題,研究團(tuán)隊(duì)利用物理模擬器(如Blender)手工制作了完美標(biāo)注的訓(xùn)練數(shù)據(jù)。他們指定一系列物體及力條件,然后模擬產(chǎn)生的動(dòng)態(tài)以獲得配對(duì)的訓(xùn)練視頻。研究團(tuán)隊(duì)假設(shè),這種從模擬到真實(shí)的泛化是可行的,因?yàn)樽钕冗M(jìn)的視頻生成模型已經(jīng)編碼了關(guān)于視覺動(dòng)態(tài)的強(qiáng)大先驗(yàn)知識(shí),而配對(duì)的力-視頻數(shù)據(jù)只是起到引導(dǎo)它們理解物理力控制信號(hào)的作用。
三、數(shù)據(jù)集構(gòu)建與模型訓(xùn)練
研究團(tuán)隊(duì)構(gòu)建了兩個(gè)獨(dú)特的數(shù)據(jù)集,分別用于訓(xùn)練全局力模型和局部力模型。
對(duì)于全局風(fēng)力數(shù)據(jù)集,他們使用Blender構(gòu)建了一個(gè)旗幟在不同風(fēng)力條件下飄動(dòng)的數(shù)據(jù)集。為了生成多樣化的數(shù)據(jù),他們隨機(jī)化了多個(gè)參數(shù):旗幟數(shù)量(從1到64不等)、旗幟顏色(從100種選擇中)、旗幟位置、相機(jī)放置、HDRI背景圖像(從50個(gè)選項(xiàng)中選擇)、風(fēng)向(0到360度)和風(fēng)速(從0到1,0表示無風(fēng),1表示非常強(qiáng)的風(fēng))。每個(gè)視頻捕捉旗幟從靜止到受風(fēng)影響狀態(tài)的過渡。他們的訓(xùn)練數(shù)據(jù)集包含15,000個(gè)視頻。
對(duì)于局部力數(shù)據(jù)集,他們創(chuàng)建了兩種場(chǎng)景。第一種場(chǎng)景包含12,000個(gè)球體視頻,其中一個(gè)球被看不見的點(diǎn)力推動(dòng)而滾動(dòng),而其他球保持靜止。他們通過Blender生成這些視頻,隨機(jī)化了球的數(shù)量(2到4個(gè))、球的紋理(足球或保齡球)、球的顏色、位置、相機(jī)位置、地面紋理、目標(biāo)球選擇、力的角度和力的大小。保齡球被設(shè)定為足球質(zhì)量的四倍,目的是教導(dǎo)模型基于質(zhì)量的動(dòng)態(tài)。第二種場(chǎng)景(11,000個(gè)視頻)利用PhysDreamer(一種生成-模擬器混合模型)生成被推動(dòng)后前后搖擺的康乃馨視頻。研究團(tuán)隊(duì)生成這些視頻時(shí)隨機(jī)化了相機(jī)位置、接觸點(diǎn)、力角度和力大小。
在兩個(gè)數(shù)據(jù)集中,研究團(tuán)隊(duì)都使用相機(jī)參數(shù)將3D空間中的力投影到2D像素平面上。這種轉(zhuǎn)換將力向量和物體位置從物理世界坐標(biāo)系映射到屏幕坐標(biāo),使他們能夠在圖像幀內(nèi)建模力。他們還使用GPT-4o API為每個(gè)HDRI背景和地面紋理生成詳細(xì)的文本提示,并為所有PhysDreamer康乃馨視頻創(chuàng)建了一個(gè)共享提示。
四、技術(shù)實(shí)現(xiàn)與力量編碼
由于風(fēng)力是全局應(yīng)用的,而點(diǎn)力是局部應(yīng)用的,研究團(tuán)隊(duì)提出了兩種不同的力編碼策略。
對(duì)于全局風(fēng)力,控制信號(hào)由力F∈[0,1]和角度θ∈[0,360)參數(shù)化。他們將物理提示表示為一個(gè)張量,其中第一通道編碼力的大小,第二和第三通道分別編碼角度的余弦和正弦值。這定義了一個(gè)平滑映射,編碼了風(fēng)力場(chǎng)的角度和大小。
對(duì)于局部點(diǎn)力,控制信號(hào)不僅包括力的大小F∈[0,1]和角度θ∈[0,360),還包括應(yīng)用力的像素坐標(biāo)(x,y)。他們將控制信號(hào)表示為一系列幀,其中一個(gè)高斯斑點(diǎn)從像素位置(x,y)開始,然后以恒定速度向θ方向移動(dòng),總距離與力F成比例。當(dāng)力最?。‵=0)時(shí),總位移是較小的,而當(dāng)力最大(F=1)時(shí),位移更大。
值得注意的是,這些力提示模型與基于軌跡的視頻生成模型(如Zhang等人和Geng等人的工作)有根本區(qū)別。在力提示中,高斯斑點(diǎn)作為局部力模型的力指示器通常遠(yuǎn)離它影響的像素,正如搖擺花朵的復(fù)雜振蕩運(yùn)動(dòng)所示。同樣,風(fēng)力控制信號(hào)也不指定哪些點(diǎn)必須移動(dòng)到哪些位置,因?yàn)樵摽刂菩盘?hào)是全局的和因果的。
五、架構(gòu)與訓(xùn)練
研究團(tuán)隊(duì)基于CogVideoX-5B-I2V(Yang等人,2024)構(gòu)建了力提示模型,這是一個(gè)接受文本和初始幀作為條件輸入的視頻生成模型。該模型以8fps的速度生成49幀視頻。為了整合力提示條件,他們添加了一個(gè)ControlNet(Zhang等人,2023),該網(wǎng)絡(luò)輸入物理控制提示,通過下采樣、編碼和時(shí)間壓縮處理后,通過零卷積與隱藏狀態(tài)結(jié)合。
ControlNet克隆了前六個(gè)Transformer層并對(duì)它們進(jìn)行微調(diào),同時(shí)保持基礎(chǔ)模型的Transformer層凍結(jié)。他們?cè)谒膫€(gè)80GB A100 GPU集群上訓(xùn)練模型5000步,大約需要一天時(shí)間。訓(xùn)練使用每設(shè)備1的即時(shí)批量大小,兩個(gè)梯度累積步驟,產(chǎn)生8的有效批量大小。
六、驚人的泛化能力
研究的最關(guān)鍵發(fā)現(xiàn)是,盡管訓(xùn)練數(shù)據(jù)有限且視覺外觀合成,視頻生成模型確實(shí)能夠?qū)W習(xí)執(zhí)行精細(xì)的力提示,并表現(xiàn)出驚人的泛化行為。
局部點(diǎn)力模型僅在球體滾動(dòng)(線性運(yùn)動(dòng))和植物戳動(dòng)(復(fù)雜運(yùn)動(dòng))場(chǎng)景上訓(xùn)練,但能夠泛化到各種不同的運(yùn)動(dòng)類別:
1. 線性運(yùn)動(dòng):模型能夠?qū)ν婢哕嚒⒅避壣系耐婢呋疖?、熱氣球等施加力,使它們按照預(yù)期方向移動(dòng)。
2. 振蕩運(yùn)動(dòng):風(fēng)車、鐘擺、裝飾品和秋千等物體在受到力后能夠進(jìn)行自然的振蕩運(yùn)動(dòng)。
3. 復(fù)雜運(yùn)動(dòng):環(huán)形軌道上的玩具火車、各種植物(包括常春藤、蘋果樹和花卉)等,能夠根據(jù)力的應(yīng)用展現(xiàn)復(fù)雜的運(yùn)動(dòng)模式。
全局風(fēng)力模型僅在旗幟飄動(dòng)(系繩運(yùn)動(dòng))數(shù)據(jù)上訓(xùn)練,但能夠泛化到不同類型的物理屬性:
1. 系繩運(yùn)動(dòng):頭發(fā)、布料、人身上的衣物、掛在鉤子上的紙燈籠等能夠隨風(fēng)擺動(dòng)。
2. 空氣動(dòng)力學(xué)運(yùn)動(dòng):氣泡、落葉、游泳池中的充氣管、漂浮的垃圾、五彩紙屑等在風(fēng)力下表現(xiàn)出自然的運(yùn)動(dòng)。
3. 流體動(dòng)態(tài):霧、煙、雪、蒸汽等流體現(xiàn)象也能夠受到風(fēng)力影響,展現(xiàn)出逼真的流動(dòng)模式。
通過人類評(píng)估,研究團(tuán)隊(duì)證明力提示在遵循物理指令的同時(shí)保持了逼真的運(yùn)動(dòng)和視覺質(zhì)量,相比于基于文本的基線模型表現(xiàn)更好。這驗(yàn)證了他們的假設(shè):合成數(shù)據(jù)可以教導(dǎo)視頻生成模型直觀物理學(xué)和控制,而不損害它們的視頻先驗(yàn)知識(shí)。
七、質(zhì)量理解的初步證據(jù)
研究團(tuán)隊(duì)還發(fā)現(xiàn),他們的力條件模型展示了對(duì)質(zhì)量的某種程度理解,即相同的力會(huì)導(dǎo)致較輕的物體比較重的物體移動(dòng)得更遠(yuǎn)。
他們?cè)O(shè)計(jì)了一項(xiàng)實(shí)驗(yàn),測(cè)量足球和保齡球在受到相同力時(shí)的滾動(dòng)距離。結(jié)果證實(shí)了兩個(gè)關(guān)鍵物理原理:對(duì)于兩種球類型,行進(jìn)距離都與施加的力線性增加;而且,足球在所有力大小下都比保齡球行進(jìn)得更遠(yuǎn),這表明模型對(duì)質(zhì)量依賴的物理學(xué)有直觀理解。
他們還對(duì)四個(gè)具有不同隱含質(zhì)量的幾何相同物體的基準(zhǔn)任務(wù)進(jìn)行了質(zhì)量理解評(píng)估:木制與鑄鐵裝飾品、空與裝滿衣物的洗衣籃、一本、兩本或三本書的堆疊,以及單個(gè)與雙重立方體。結(jié)果表明,較輕的物體在受到相同力時(shí)確實(shí)一致地移動(dòng)得更遠(yuǎn)。這種模式在四個(gè)隨機(jī)種子上保持穩(wěn)健,表明力提示模型中出現(xiàn)了對(duì)質(zhì)量依賴物理學(xué)的初步理解。
八、數(shù)據(jù)設(shè)計(jì)選擇對(duì)泛化的影響
研究團(tuán)隊(duì)還探索了合成數(shù)據(jù)集設(shè)計(jì)選擇如何影響模型泛化。他們發(fā)現(xiàn),對(duì)于局部點(diǎn)力任務(wù),移除場(chǎng)景中的"干擾球"(即保留只有一個(gè)受點(diǎn)力影響的球)會(huì)顯著降低力的定位能力。沒有干擾球,模型會(huì)表現(xiàn)出不良行為:戳一個(gè)熱氣球時(shí),所有氣球都會(huì)輕微移動(dòng);戳玻璃花瓶中的玫瑰花時(shí),玫瑰和花瓶會(huì)一起移動(dòng),無法隔離力的施加。
對(duì)于全局風(fēng)力任務(wù),他們?cè)u(píng)估了兩個(gè)多樣性因素:旗幟數(shù)量和背景多樣性。他們發(fā)現(xiàn),使用單一背景訓(xùn)練會(huì)導(dǎo)致模型遵循力物理學(xué),但經(jīng)常無法區(qū)分前景和背景,降低視覺質(zhì)量。同樣,當(dāng)場(chǎng)景僅限于包含一面旗幟而不是可變數(shù)量(1到64面)時(shí),模型成功建模了布料力學(xué),但無法泛化到其他材料。在這些情況下,篝火的煙霧不受風(fēng)影響,五彩紙屑要么不響應(yīng)要么不自然地懸浮,氣泡不響應(yīng)風(fēng),而人體四肢不正確地像布料一樣飄動(dòng)。
九、文本提示特異性的重要性
研究團(tuán)隊(duì)還調(diào)查了文本提示中的特異性如何影響模型輸出。他們進(jìn)行了一項(xiàng)2×2網(wǎng)格搜索消融研究,訓(xùn)練和測(cè)試他們的風(fēng)模型時(shí)使用或不使用風(fēng)相關(guān)關(guān)鍵詞(風(fēng)/微風(fēng)/吹)。結(jié)果表明,在訓(xùn)練過程中省略這些關(guān)鍵詞會(huì)顯著增加基準(zhǔn)數(shù)據(jù)集中的失敗案例——霧保持靜止,燈籠意外倒塌,蒸汽無故出現(xiàn)。相比之下,使用特定于風(fēng)的術(shù)語訓(xùn)練的模型展示了對(duì)多樣化風(fēng)場(chǎng)景的更好泛化能力。
有趣的是,這些關(guān)鍵詞在推理過程中的存在比在訓(xùn)練過程中的影響要小,盡管使用風(fēng)術(shù)語通常會(huì)產(chǎn)生更穩(wěn)健的結(jié)果。
十、研究的局限性與失敗案例
盡管成功,研究也存在一些局限性。力提示模型展示了相關(guān)性問題——例如,在頭發(fā)吹動(dòng)場(chǎng)景中,面部有時(shí)會(huì)根據(jù)風(fēng)向重新定向,這可能反映了訓(xùn)練數(shù)據(jù)中的模式,即頭發(fā)通常向后吹動(dòng)。該方法受到底層視頻先驗(yàn)的物理理解能力的根本限制;研究團(tuán)隊(duì)專注于控制現(xiàn)有物理能力,而非改進(jìn)模型的物理理解。
研究還發(fā)現(xiàn)了一些失敗案例,比如當(dāng)基礎(chǔ)模型的物理學(xué)超出領(lǐng)域時(shí)(如嘗試滾動(dòng)非球形物體),或當(dāng)視頻先驗(yàn)與力提示的意圖沖突時(shí)(如搖椅移動(dòng)方向正確,但基礎(chǔ)視頻模型難以區(qū)分前景和背景物體)。
十一、結(jié)論與未來方向
這項(xiàng)研究介紹了力提示,使用戶能夠通過物理上有意義的控制與生成視頻模型交互,包括局部點(diǎn)力和全局風(fēng)力效果。研究表明,視頻生成模型可以成功學(xué)習(xí)響應(yīng)基于力的條件,從有限的合成訓(xùn)練數(shù)據(jù)中進(jìn)行廣泛泛化,而在推理時(shí)不需要物理模擬器。
這些結(jié)果表明了一個(gè)有希望的方向,可以開發(fā)響應(yīng)自然物理交互的直觀世界模型,潛在應(yīng)用于創(chuàng)意內(nèi)容生成和具身AI規(guī)劃。研究團(tuán)隊(duì)已在項(xiàng)目頁面https://force-prompting.github.io/上發(fā)布了所有數(shù)據(jù)集、代碼和模型。
這項(xiàng)工作不僅展示了視頻生成模型的潛力,也為我們提供了一種新的交互方式,使數(shù)字內(nèi)容創(chuàng)作更接近真實(shí)世界的物理交互體驗(yàn)。通過簡單的物理力輸入,我們可以讓虛擬物體以自然、直觀的方式響應(yīng),就像它們?cè)诂F(xiàn)實(shí)世界中那樣,這為增強(qiáng)現(xiàn)實(shí)、虛擬現(xiàn)實(shí)和交互式媒體創(chuàng)造了新的可能性。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對(duì)話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。