在人工智能研究的前沿,一項(xiàng)令人興奮的新進(jìn)展正在改變我們對虛擬世界模擬的理解。清華大學(xué)的黃思喬、吳佳隆、苗尚陳和龍明盛,以及重慶大學(xué)的周啟星,在2024年5月發(fā)布的研究論文《Vid2World: Crafting Video Diffusion Models to Interactive World Models》中,提出了一種將現(xiàn)有視頻生成模型轉(zhuǎn)變?yōu)榻换ナ绞澜缒P偷娜路椒ā_@項(xiàng)研究可通過項(xiàng)目網(wǎng)站http://knightnemo.github.io/vid2world/獲取更多信息。
想象一下,如果我們能夠擁有一個(gè)虛擬助手,它不僅能理解當(dāng)前的情況,還能準(zhǔn)確預(yù)測未來可能發(fā)生的事件。這正是世界模型(World Models)的核心功能——它們能夠根據(jù)過去的觀察和動(dòng)作序列預(yù)測未來的狀態(tài),就像一個(gè)能夠"預(yù)見"未來的數(shù)字化水晶球。這種技術(shù)在游戲模擬、自動(dòng)駕駛和機(jī)器人控制等領(lǐng)域有著廣泛的應(yīng)用前景。
然而,傳統(tǒng)的世界模型面臨兩大挑戰(zhàn):它們需要大量特定領(lǐng)域的訓(xùn)練數(shù)據(jù),而且生成的預(yù)測往往粗糙且真實(shí)度不高。想象一下,如果你試圖教一個(gè)機(jī)器人如何移動(dòng)物體,你可能需要讓它嘗試成千上萬次才能學(xué)會這項(xiàng)技能,而且即使這樣,它的"想象力"也可能非常有限,無法很好地預(yù)測物體的物理行為。
與此同時(shí),另一類人工智能技術(shù)——視頻擴(kuò)散模型(Video Diffusion Models)——在生成高質(zhì)量視頻方面取得了驚人的進(jìn)展。通過學(xué)習(xí)互聯(lián)網(wǎng)上海量的視頻數(shù)據(jù),像Sora、Veo-2和Stable Video Diffusion這樣的模型能夠創(chuàng)建逼真的視頻內(nèi)容,并在一定程度上遵循物理規(guī)律和現(xiàn)實(shí)世界的約束。
研究團(tuán)隊(duì)敏銳地意識到,如果能夠?qū)⑦@兩種技術(shù)結(jié)合起來——利用視頻擴(kuò)散模型中已經(jīng)學(xué)到的豐富世界知識,來改進(jìn)世界模型的預(yù)測能力——將會是一個(gè)巨大的突破。但這并非易事。想象一下,這就像是要將一位擅長講述完整故事的作家(視頻擴(kuò)散模型)轉(zhuǎn)變?yōu)橐晃荒軌蚋鶕?jù)讀者反饋即興創(chuàng)作的即興表演者(交互式世界模型)。
一、從視頻擴(kuò)散到交互世界:兩大關(guān)鍵挑戰(zhàn)
研究團(tuán)隊(duì)面臨的第一個(gè)挑戰(zhàn)是使模型能夠進(jìn)行"因果生成"。標(biāo)準(zhǔn)的視頻擴(kuò)散模型設(shè)計(jì)用于同時(shí)處理整個(gè)視頻序列,它們會利用整個(gè)時(shí)間線上的信息來生成視頻。這就像是一個(gè)故事家已經(jīng)知道故事的開頭、中間和結(jié)尾,然后一次性創(chuàng)作出完整的故事。但在交互式世界模型中,我們需要的是能夠一步一步生成內(nèi)容的能力,就像我們在現(xiàn)實(shí)生活中無法預(yù)知未來一樣。
第二個(gè)挑戰(zhàn)是實(shí)現(xiàn)"動(dòng)作條件控制"。世界模型必須能夠進(jìn)行反事實(shí)推理——也就是預(yù)測不同動(dòng)作如何影響未來狀態(tài)。這需要在生成過程中注入幀級別的動(dòng)作信號。想象一下,我們不僅要讓AI預(yù)測"如果我推動(dòng)這個(gè)盒子會發(fā)生什么",還要讓它能夠根據(jù)推動(dòng)的力度、方向和持續(xù)時(shí)間來調(diào)整其預(yù)測。
為了解決這些挑戰(zhàn),研究團(tuán)隊(duì)提出了Vid2World,一種能夠有效地將預(yù)訓(xùn)練的視頻擴(kuò)散模型轉(zhuǎn)變?yōu)榻换ナ绞澜缒P偷耐ㄓ梅椒ā?/p>
二、Vid2World:連接視頻生成與世界模擬的橋梁
Vid2World方法包含兩個(gè)核心創(chuàng)新:視頻擴(kuò)散模型的因果化和因果動(dòng)作引導(dǎo)。
首先,對于視頻擴(kuò)散模型的因果化,研究團(tuán)隊(duì)發(fā)現(xiàn)了更好的權(quán)重轉(zhuǎn)移方案,將時(shí)間注意力層和卷積層調(diào)整為它們的因果對應(yīng)項(xiàng)。
想象一下一個(gè)視頻監(jiān)控系統(tǒng):普通系統(tǒng)可能會基于過去和未來的所有畫面來增強(qiáng)當(dāng)前畫面的清晰度,但這在實(shí)時(shí)預(yù)測中是不可能的。Vid2World通過巧妙的技術(shù)改造,確保模型只使用過去的信息來預(yù)測未來,就像我們?nèi)祟愐粯印?/p>
具體來說,研究團(tuán)隊(duì)將非因果時(shí)間注意力層轉(zhuǎn)換為因果版本時(shí),他們應(yīng)用了因果掩碼,確保每一幀只能關(guān)注它之前的幀。對于時(shí)間卷積層,他們提出了"混合權(quán)重轉(zhuǎn)移"方法,最大限度地保留預(yù)訓(xùn)練權(quán)重,同時(shí)確保因果性。
傳統(tǒng)的"移位權(quán)重轉(zhuǎn)移"方法會簡單地將卷積核向過去移動(dòng),但這會導(dǎo)致時(shí)間錯(cuò)位。想象一下,如果你原本用今天和昨天的天氣來預(yù)測明天的天氣,現(xiàn)在卻變成用前天和大前天的天氣來預(yù)測昨天的天氣,這顯然會造成混亂。
相反,Vid2World的混合權(quán)重轉(zhuǎn)移保留了對應(yīng)位置的權(quán)重,并將未見位置的權(quán)重初始化為沿時(shí)間維度的平均權(quán)重,確保模型在因果設(shè)置中仍能有效工作。
此外,為了支持因果生成,研究團(tuán)隊(duì)采用了"擴(kuò)散強(qiáng)制"(Diffusion Forcing)訓(xùn)練目標(biāo),允許模型在不同幀上使用不同的噪聲級別,這為自回歸生成奠定了基礎(chǔ)。
三、因果動(dòng)作引導(dǎo):賦予模型交互能力
僅僅實(shí)現(xiàn)因果生成還不足以創(chuàng)建交互式世界模型。真正的世界模型需要能夠預(yù)測不同動(dòng)作如何影響未來狀態(tài)。
為此,研究團(tuán)隊(duì)開發(fā)了"因果動(dòng)作引導(dǎo)"機(jī)制。他們通過輕量級嵌入層將動(dòng)作信號注入模型,并設(shè)計(jì)了擴(kuò)展訓(xùn)練目標(biāo),在序列中獨(dú)立地丟棄動(dòng)作。
這聽起來可能有些抽象,讓我們用一個(gè)簡單的比喻來理解:想象你正在教一個(gè)人學(xué)習(xí)烹飪。你不僅要告訴他當(dāng)前的食材狀態(tài),還要告訴他下一步應(yīng)該采取什么動(dòng)作(例如,翻炒、加鹽或調(diào)低火力)。Vid2World正是通過這種方式,將動(dòng)作信息"注入"到模型中,使其能夠理解動(dòng)作與結(jié)果之間的關(guān)系。
在訓(xùn)練過程中,研究團(tuán)隊(duì)會隨機(jī)丟棄一些動(dòng)作信息,迫使模型學(xué)習(xí)理解動(dòng)作如何影響狀態(tài)變化。這就像有時(shí)候你會故意不告訴學(xué)徒下一步該做什么,讓他自己思考和預(yù)測。這種設(shè)計(jì)使模型能夠在推理時(shí)使用"無分類器動(dòng)作引導(dǎo)",平衡模式覆蓋和樣本真實(shí)度。
這一機(jī)制使得模型不僅能預(yù)測環(huán)境的一般發(fā)展趨勢,還能根據(jù)特定的動(dòng)作調(diào)整其預(yù)測,這正是交互式世界模型的核心特性。
四、實(shí)驗(yàn)驗(yàn)證:從機(jī)器人操作到游戲模擬
為了驗(yàn)證Vid2World的有效性,研究團(tuán)隊(duì)選擇了DynamiCrafter作為基礎(chǔ)模型,這是一個(gè)在大量互聯(lián)網(wǎng)級視頻數(shù)據(jù)上預(yù)訓(xùn)練的最先進(jìn)的U-Net潛在視頻擴(kuò)散模型,擁有11億可訓(xùn)練參數(shù)。
他們在兩個(gè)不同領(lǐng)域測試了這一方法:真實(shí)世界的機(jī)器人操作和高動(dòng)態(tài)3D場景的游戲模擬。
首先,在RT-1機(jī)器人數(shù)據(jù)集上,Vid2World與幾種基線方法進(jìn)行了比較,包括動(dòng)作條件微調(diào)、語言條件微調(diào)、ControlNet和分類器引導(dǎo)。結(jié)果表明,Vid2World在非自回歸設(shè)置(Vid2World-NAR)下顯著優(yōu)于所有基線方法,在FVD(Fréchet視頻距離)上達(dá)到18.5,而基線方法最好的也只達(dá)到24.2。在自回歸設(shè)置下,Vid2World也保持了與這些方法相當(dāng)或更優(yōu)的性能。
更令人興奮的是,Vid2World還能夠支持"真實(shí)到模擬"(Real2Sim)策略評估。研究團(tuán)隊(duì)使用Vid2World作為世界模型來評估三種不同策略:RT-1(初始)、RT-1(15%)和RT-1(收斂)。結(jié)果顯示,Vid2World能夠可靠地反映不同策略之間的性能差距,與真實(shí)世界的成功趨勢密切跟蹤。
在游戲模擬領(lǐng)域,研究團(tuán)隊(duì)在《反恐精英:全球攻勢》(CS:GO)游戲上測試了Vid2World,這是一個(gè)具有高度動(dòng)態(tài)和視覺復(fù)雜性的3D環(huán)境。與最先進(jìn)的自回歸世界模型DIAMOND相比,Vid2World在所有評估指標(biāo)上都取得了顯著優(yōu)勢,包括在FVD上實(shí)現(xiàn)了81.8%的相對性能改進(jìn),在FID上實(shí)現(xiàn)了77.2%的性能提升。
五、進(jìn)一步探索與局限性
研究團(tuán)隊(duì)還進(jìn)行了消融研究,以驗(yàn)證Vid2World的兩個(gè)關(guān)鍵組成部分的有效性:混合權(quán)重轉(zhuǎn)移和動(dòng)作引導(dǎo)。結(jié)果表明,這兩種技術(shù)都在Vid2World的卓越性能中發(fā)揮了重要作用。
盡管取得了令人印象深刻的成果,但這項(xiàng)工作仍然存在一些局限性。由于計(jì)算資源的限制,研究團(tuán)隊(duì)僅使用了相對輕量級的視頻擴(kuò)散模型作為基礎(chǔ)模型,未來探索更大規(guī)模的模型可能會帶來更好的性能。此外,訓(xùn)練過程仍然相對耗時(shí),未來可能需要開發(fā)能夠以更少的訓(xùn)練步驟達(dá)到類似或更優(yōu)性能的方法。
總的來說,Vid2World代表了從被動(dòng)視頻擴(kuò)散模型到交互式世界模型的成功過渡,為未來的研究和應(yīng)用開辟了新的可能性。它不僅在視頻預(yù)測任務(wù)中取得了最先進(jìn)的性能,還能有效支持下游決策任務(wù),展示了將互聯(lián)網(wǎng)級預(yù)訓(xùn)練模型轉(zhuǎn)化為交互式世界模型的巨大潛力。
想象一下未來:機(jī)器人能夠在實(shí)際操作前"在心中"模擬其動(dòng)作的結(jié)果;自動(dòng)駕駛車輛能夠預(yù)測各種駕駛場景下的交通流動(dòng);游戲AI能夠理解并預(yù)測玩家行為,創(chuàng)造更加真實(shí)和沉浸式的游戲體驗(yàn)。Vid2World向這些愿景邁出了重要一步,為人工智能在理解和模擬現(xiàn)實(shí)世界方面的能力開辟了新的可能性。
好文章,需要你的鼓勵(lì)
新加坡國立大學(xué)研究團(tuán)隊(duì)開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過對比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。