在當(dāng)今科技迅猛發(fā)展的時代,視頻生成模型取得了令人矚目的進(jìn)步,但對于如何使這些模型能夠響應(yīng)更自然的物理交互,比如推動或風(fēng)吹等真實(shí)世界的力量,一直是一個未被深入探索的領(lǐng)域。近日,布朗大學(xué)的Nate Gillman、谷歌DeepMind的Charles Herrmann與Deqing Sun,以及布朗大學(xué)的Michael Freeman、Daksh Aggarwal、Evan Luo和Chen Sun共同發(fā)表了一篇題為《力量提示:視頻生成模型可以學(xué)習(xí)并泛化物理力控制信號》的研究論文。這項(xiàng)研究發(fā)表于2025年5月26日的arXiv預(yù)印本平臺(arXiv:2505.19386v1),為我們展示了一種全新的方式,讓視頻生成模型能夠理解并響應(yīng)物理力控制。
想象一下,你可以對著屏幕上的一朵花輕輕一戳,它就會像真實(shí)世界中那樣搖晃;或者你可以對著一面旗幟吹一口氣,它就會隨風(fēng)飄動。這正是這項(xiàng)研究要實(shí)現(xiàn)的愿景。研究團(tuán)隊(duì)提出了一種名為"力量提示"(Force Prompting)的方法,使視頻生成模型能夠接受兩種物理力控制信號:局部點(diǎn)力(比如戳一下植物)和全局風(fēng)力(比如風(fēng)吹過布料)。
這項(xiàng)研究的最驚人之處在于,盡管只使用了有限的合成訓(xùn)練數(shù)據(jù)(僅約15,000個訓(xùn)練示例),視頻生成模型卻展現(xiàn)出了令人驚訝的泛化能力,能夠?qū)Ω鞣N不同的物體、材料和環(huán)境做出物理上合理的反應(yīng)。更令人印象深刻的是,整個訓(xùn)練過程僅需在四臺A100 GPU上運(yùn)行一天時間,就能達(dá)到這樣的效果。
一、研究背景與動機(jī)
從小時候起,人類就開始發(fā)展對物理力的直覺理解:輕輕戳一下植物會使它搖晃,微風(fēng)會使織物形成波紋狀。研究團(tuán)隊(duì)提出了一個有趣的問題:通過互聯(lián)網(wǎng)規(guī)模的預(yù)訓(xùn)練編碼了強(qiáng)大視覺和運(yùn)動先驗(yàn)知識的視頻生成模型,是否也具有類似的直覺物理理解能力?如果有,我們?nèi)绾尾拍芗ぐl(fā)它們對力量輸入做出反應(yīng)的能力?
這些問題的答案將為視頻內(nèi)容創(chuàng)作提供更靈活、更具表現(xiàn)力的界面,使用戶能夠通過物理力控制進(jìn)行交互式視頻生成(比如生成一個視頻游戲),并最終為智能代理提供一個直觀的世界模型,用于規(guī)劃和決策。
二、力量提示的核心原理
力量提示本質(zhì)上是將物理力作為控制信號引入視頻生成模型。研究團(tuán)隊(duì)探索了兩種截然不同的力量提示類型:
第一種是局部力提示,如瞬時的戳或拉,應(yīng)用于特定區(qū)域。想象你用手指輕輕推動屏幕上的一個物體,比如一朵花或一個玩具車,模型就會生成這個物體受到推力后的運(yùn)動視頻。
第二種是全局力提示,如作用于整個場景的持續(xù)定向風(fēng)力。比如你想象一陣風(fēng)從左向右吹過,畫面中的所有可移動物體——頭發(fā)、旗幟、樹葉等——都會相應(yīng)地向右擺動。
研究的關(guān)鍵挑戰(zhàn)在于獲取高質(zhì)量的力-視頻配對訓(xùn)練數(shù)據(jù)非常困難。在真實(shí)世界中,記錄力信號本身就很復(fù)雜;而在合成數(shù)據(jù)方面,物理模擬器在視覺質(zhì)量和領(lǐng)域多樣性上都存在局限。
為了解決這個問題,研究團(tuán)隊(duì)利用物理模擬器(如Blender)手工制作了完美標(biāo)注的訓(xùn)練數(shù)據(jù)。他們指定一系列物體及力條件,然后模擬產(chǎn)生的動態(tài)以獲得配對的訓(xùn)練視頻。研究團(tuán)隊(duì)假設(shè),這種從模擬到真實(shí)的泛化是可行的,因?yàn)樽钕冗M(jìn)的視頻生成模型已經(jīng)編碼了關(guān)于視覺動態(tài)的強(qiáng)大先驗(yàn)知識,而配對的力-視頻數(shù)據(jù)只是起到引導(dǎo)它們理解物理力控制信號的作用。
三、數(shù)據(jù)集構(gòu)建與模型訓(xùn)練
研究團(tuán)隊(duì)構(gòu)建了兩個獨(dú)特的數(shù)據(jù)集,分別用于訓(xùn)練全局力模型和局部力模型。
對于全局風(fēng)力數(shù)據(jù)集,他們使用Blender構(gòu)建了一個旗幟在不同風(fēng)力條件下飄動的數(shù)據(jù)集。為了生成多樣化的數(shù)據(jù),他們隨機(jī)化了多個參數(shù):旗幟數(shù)量(從1到64不等)、旗幟顏色(從100種選擇中)、旗幟位置、相機(jī)放置、HDRI背景圖像(從50個選項(xiàng)中選擇)、風(fēng)向(0到360度)和風(fēng)速(從0到1,0表示無風(fēng),1表示非常強(qiáng)的風(fēng))。每個視頻捕捉旗幟從靜止到受風(fēng)影響狀態(tài)的過渡。他們的訓(xùn)練數(shù)據(jù)集包含15,000個視頻。
對于局部力數(shù)據(jù)集,他們創(chuàng)建了兩種場景。第一種場景包含12,000個球體視頻,其中一個球被看不見的點(diǎn)力推動而滾動,而其他球保持靜止。他們通過Blender生成這些視頻,隨機(jī)化了球的數(shù)量(2到4個)、球的紋理(足球或保齡球)、球的顏色、位置、相機(jī)位置、地面紋理、目標(biāo)球選擇、力的角度和力的大小。保齡球被設(shè)定為足球質(zhì)量的四倍,目的是教導(dǎo)模型基于質(zhì)量的動態(tài)。第二種場景(11,000個視頻)利用PhysDreamer(一種生成-模擬器混合模型)生成被推動后前后搖擺的康乃馨視頻。研究團(tuán)隊(duì)生成這些視頻時隨機(jī)化了相機(jī)位置、接觸點(diǎn)、力角度和力大小。
在兩個數(shù)據(jù)集中,研究團(tuán)隊(duì)都使用相機(jī)參數(shù)將3D空間中的力投影到2D像素平面上。這種轉(zhuǎn)換將力向量和物體位置從物理世界坐標(biāo)系映射到屏幕坐標(biāo),使他們能夠在圖像幀內(nèi)建模力。他們還使用GPT-4o API為每個HDRI背景和地面紋理生成詳細(xì)的文本提示,并為所有PhysDreamer康乃馨視頻創(chuàng)建了一個共享提示。
四、技術(shù)實(shí)現(xiàn)與力量編碼
由于風(fēng)力是全局應(yīng)用的,而點(diǎn)力是局部應(yīng)用的,研究團(tuán)隊(duì)提出了兩種不同的力編碼策略。
對于全局風(fēng)力,控制信號由力F∈[0,1]和角度θ∈[0,360)參數(shù)化。他們將物理提示表示為一個張量,其中第一通道編碼力的大小,第二和第三通道分別編碼角度的余弦和正弦值。這定義了一個平滑映射,編碼了風(fēng)力場的角度和大小。
對于局部點(diǎn)力,控制信號不僅包括力的大小F∈[0,1]和角度θ∈[0,360),還包括應(yīng)用力的像素坐標(biāo)(x,y)。他們將控制信號表示為一系列幀,其中一個高斯斑點(diǎn)從像素位置(x,y)開始,然后以恒定速度向θ方向移動,總距離與力F成比例。當(dāng)力最?。‵=0)時,總位移是較小的,而當(dāng)力最大(F=1)時,位移更大。
值得注意的是,這些力提示模型與基于軌跡的視頻生成模型(如Zhang等人和Geng等人的工作)有根本區(qū)別。在力提示中,高斯斑點(diǎn)作為局部力模型的力指示器通常遠(yuǎn)離它影響的像素,正如搖擺花朵的復(fù)雜振蕩運(yùn)動所示。同樣,風(fēng)力控制信號也不指定哪些點(diǎn)必須移動到哪些位置,因?yàn)樵摽刂菩盘柺侨值暮鸵蚬摹?/p>
五、架構(gòu)與訓(xùn)練
研究團(tuán)隊(duì)基于CogVideoX-5B-I2V(Yang等人,2024)構(gòu)建了力提示模型,這是一個接受文本和初始幀作為條件輸入的視頻生成模型。該模型以8fps的速度生成49幀視頻。為了整合力提示條件,他們添加了一個ControlNet(Zhang等人,2023),該網(wǎng)絡(luò)輸入物理控制提示,通過下采樣、編碼和時間壓縮處理后,通過零卷積與隱藏狀態(tài)結(jié)合。
ControlNet克隆了前六個Transformer層并對它們進(jìn)行微調(diào),同時保持基礎(chǔ)模型的Transformer層凍結(jié)。他們在四個80GB A100 GPU集群上訓(xùn)練模型5000步,大約需要一天時間。訓(xùn)練使用每設(shè)備1的即時批量大小,兩個梯度累積步驟,產(chǎn)生8的有效批量大小。
六、驚人的泛化能力
研究的最關(guān)鍵發(fā)現(xiàn)是,盡管訓(xùn)練數(shù)據(jù)有限且視覺外觀合成,視頻生成模型確實(shí)能夠?qū)W習(xí)執(zhí)行精細(xì)的力提示,并表現(xiàn)出驚人的泛化行為。
局部點(diǎn)力模型僅在球體滾動(線性運(yùn)動)和植物戳動(復(fù)雜運(yùn)動)場景上訓(xùn)練,但能夠泛化到各種不同的運(yùn)動類別:
1. 線性運(yùn)動:模型能夠?qū)ν婢哕?、直軌上的玩具火車、熱氣球等施加力,使它們按照預(yù)期方向移動。
2. 振蕩運(yùn)動:風(fēng)車、鐘擺、裝飾品和秋千等物體在受到力后能夠進(jìn)行自然的振蕩運(yùn)動。
3. 復(fù)雜運(yùn)動:環(huán)形軌道上的玩具火車、各種植物(包括常春藤、蘋果樹和花卉)等,能夠根據(jù)力的應(yīng)用展現(xiàn)復(fù)雜的運(yùn)動模式。
全局風(fēng)力模型僅在旗幟飄動(系繩運(yùn)動)數(shù)據(jù)上訓(xùn)練,但能夠泛化到不同類型的物理屬性:
1. 系繩運(yùn)動:頭發(fā)、布料、人身上的衣物、掛在鉤子上的紙燈籠等能夠隨風(fēng)擺動。
2. 空氣動力學(xué)運(yùn)動:氣泡、落葉、游泳池中的充氣管、漂浮的垃圾、五彩紙屑等在風(fēng)力下表現(xiàn)出自然的運(yùn)動。
3. 流體動態(tài):霧、煙、雪、蒸汽等流體現(xiàn)象也能夠受到風(fēng)力影響,展現(xiàn)出逼真的流動模式。
通過人類評估,研究團(tuán)隊(duì)證明力提示在遵循物理指令的同時保持了逼真的運(yùn)動和視覺質(zhì)量,相比于基于文本的基線模型表現(xiàn)更好。這驗(yàn)證了他們的假設(shè):合成數(shù)據(jù)可以教導(dǎo)視頻生成模型直觀物理學(xué)和控制,而不損害它們的視頻先驗(yàn)知識。
七、質(zhì)量理解的初步證據(jù)
研究團(tuán)隊(duì)還發(fā)現(xiàn),他們的力條件模型展示了對質(zhì)量的某種程度理解,即相同的力會導(dǎo)致較輕的物體比較重的物體移動得更遠(yuǎn)。
他們設(shè)計(jì)了一項(xiàng)實(shí)驗(yàn),測量足球和保齡球在受到相同力時的滾動距離。結(jié)果證實(shí)了兩個關(guān)鍵物理原理:對于兩種球類型,行進(jìn)距離都與施加的力線性增加;而且,足球在所有力大小下都比保齡球行進(jìn)得更遠(yuǎn),這表明模型對質(zhì)量依賴的物理學(xué)有直觀理解。
他們還對四個具有不同隱含質(zhì)量的幾何相同物體的基準(zhǔn)任務(wù)進(jìn)行了質(zhì)量理解評估:木制與鑄鐵裝飾品、空與裝滿衣物的洗衣籃、一本、兩本或三本書的堆疊,以及單個與雙重立方體。結(jié)果表明,較輕的物體在受到相同力時確實(shí)一致地移動得更遠(yuǎn)。這種模式在四個隨機(jī)種子上保持穩(wěn)健,表明力提示模型中出現(xiàn)了對質(zhì)量依賴物理學(xué)的初步理解。
八、數(shù)據(jù)設(shè)計(jì)選擇對泛化的影響
研究團(tuán)隊(duì)還探索了合成數(shù)據(jù)集設(shè)計(jì)選擇如何影響模型泛化。他們發(fā)現(xiàn),對于局部點(diǎn)力任務(wù),移除場景中的"干擾球"(即保留只有一個受點(diǎn)力影響的球)會顯著降低力的定位能力。沒有干擾球,模型會表現(xiàn)出不良行為:戳一個熱氣球時,所有氣球都會輕微移動;戳玻璃花瓶中的玫瑰花時,玫瑰和花瓶會一起移動,無法隔離力的施加。
對于全局風(fēng)力任務(wù),他們評估了兩個多樣性因素:旗幟數(shù)量和背景多樣性。他們發(fā)現(xiàn),使用單一背景訓(xùn)練會導(dǎo)致模型遵循力物理學(xué),但經(jīng)常無法區(qū)分前景和背景,降低視覺質(zhì)量。同樣,當(dāng)場景僅限于包含一面旗幟而不是可變數(shù)量(1到64面)時,模型成功建模了布料力學(xué),但無法泛化到其他材料。在這些情況下,篝火的煙霧不受風(fēng)影響,五彩紙屑要么不響應(yīng)要么不自然地懸浮,氣泡不響應(yīng)風(fēng),而人體四肢不正確地像布料一樣飄動。
九、文本提示特異性的重要性
研究團(tuán)隊(duì)還調(diào)查了文本提示中的特異性如何影響模型輸出。他們進(jìn)行了一項(xiàng)2×2網(wǎng)格搜索消融研究,訓(xùn)練和測試他們的風(fēng)模型時使用或不使用風(fēng)相關(guān)關(guān)鍵詞(風(fēng)/微風(fēng)/吹)。結(jié)果表明,在訓(xùn)練過程中省略這些關(guān)鍵詞會顯著增加基準(zhǔn)數(shù)據(jù)集中的失敗案例——霧保持靜止,燈籠意外倒塌,蒸汽無故出現(xiàn)。相比之下,使用特定于風(fēng)的術(shù)語訓(xùn)練的模型展示了對多樣化風(fēng)場景的更好泛化能力。
有趣的是,這些關(guān)鍵詞在推理過程中的存在比在訓(xùn)練過程中的影響要小,盡管使用風(fēng)術(shù)語通常會產(chǎn)生更穩(wěn)健的結(jié)果。
十、研究的局限性與失敗案例
盡管成功,研究也存在一些局限性。力提示模型展示了相關(guān)性問題——例如,在頭發(fā)吹動場景中,面部有時會根據(jù)風(fēng)向重新定向,這可能反映了訓(xùn)練數(shù)據(jù)中的模式,即頭發(fā)通常向后吹動。該方法受到底層視頻先驗(yàn)的物理理解能力的根本限制;研究團(tuán)隊(duì)專注于控制現(xiàn)有物理能力,而非改進(jìn)模型的物理理解。
研究還發(fā)現(xiàn)了一些失敗案例,比如當(dāng)基礎(chǔ)模型的物理學(xué)超出領(lǐng)域時(如嘗試滾動非球形物體),或當(dāng)視頻先驗(yàn)與力提示的意圖沖突時(如搖椅移動方向正確,但基礎(chǔ)視頻模型難以區(qū)分前景和背景物體)。
十一、結(jié)論與未來方向
這項(xiàng)研究介紹了力提示,使用戶能夠通過物理上有意義的控制與生成視頻模型交互,包括局部點(diǎn)力和全局風(fēng)力效果。研究表明,視頻生成模型可以成功學(xué)習(xí)響應(yīng)基于力的條件,從有限的合成訓(xùn)練數(shù)據(jù)中進(jìn)行廣泛泛化,而在推理時不需要物理模擬器。
這些結(jié)果表明了一個有希望的方向,可以開發(fā)響應(yīng)自然物理交互的直觀世界模型,潛在應(yīng)用于創(chuàng)意內(nèi)容生成和具身AI規(guī)劃。研究團(tuán)隊(duì)已在項(xiàng)目頁面https://force-prompting.github.io/上發(fā)布了所有數(shù)據(jù)集、代碼和模型。
這項(xiàng)工作不僅展示了視頻生成模型的潛力,也為我們提供了一種新的交互方式,使數(shù)字內(nèi)容創(chuàng)作更接近真實(shí)世界的物理交互體驗(yàn)。通過簡單的物理力輸入,我們可以讓虛擬物體以自然、直觀的方式響應(yīng),就像它們在現(xiàn)實(shí)世界中那樣,這為增強(qiáng)現(xiàn)實(shí)、虛擬現(xiàn)實(shí)和交互式媒體創(chuàng)造了新的可能性。
好文章,需要你的鼓勵
新加坡國立大學(xué)研究團(tuán)隊(duì)開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過對比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時刻"現(xiàn)象,但這些自我糾錯行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動態(tài)稀疏性實(shí)現(xiàn)大語言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時顯著提升訓(xùn)練效率,已在多個任務(wù)上驗(yàn)證有效性。