av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 ORV:4D占用中心機器人視頻生成——北京人工智能研究院打造精準可控的機器人世界

ORV:4D占用中心機器人視頻生成——北京人工智能研究院打造精準可控的機器人世界

2025-06-06 17:31
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-06 17:31 ? 科技行者

在機器人領域,獲取真實世界的模擬數(shù)據(jù)一直是個令人頭疼的問題。由北京人工智能研究院、清華大學、上海交通大學等機構(gòu)的研究團隊共同完成的這項研究,發(fā)表于2025年6月的arXiv預印本平臺(arXiv:2506.03079v1),為這一挑戰(zhàn)提供了創(chuàng)新解決方案。研究團隊包括楊秀禹、李博翰、徐少聰、王楠、葉崇杰、陳兆西、秦明涵、丁以康、金鑫、趙航和趙浩等多位學者,他們共同探索了如何利用4D語義占用(semantic occupancy)作為中間表示,來生成高質(zhì)量、精確可控的機器人操作視頻。

想象一下,如果你想訓練一個機器人學習如何抓取物體,你需要大量的示范數(shù)據(jù)。傳統(tǒng)方式是讓人類操作機器人,記錄下這些操作過程——這不僅耗時耗力,還有安全隱患。近年來,研究人員開始嘗試用生成模型來創(chuàng)建模擬數(shù)據(jù),就像是為機器人創(chuàng)建一個"虛擬訓練場"。但現(xiàn)有方法往往依賴粗粒度的動作序列作為控制信號,導致控制精度有限,難以精確模擬復雜的物理交互場景。

這就好比你想教朋友做一道復雜的菜,但只能給他一個粗略的步驟描述:"先切菜,再炒菜",而沒有詳細說明每種食材的切法和火候控制。結(jié)果可想而知,成品很可能與你期望的相去甚遠。研究團隊提出的ORV(Occupancy-centric Robot Video generation)框架,就像是提供了一份精確到每一步的詳細菜譜,通過4D語義占用表示為每個操作步驟提供了豐富的語義和幾何信息。

這篇文章將帶你深入了解ORV是如何工作的,它為什么能比現(xiàn)有方法產(chǎn)生更精確、更真實的機器人操作視頻,以及它如何幫助解決機器人學習中的關鍵挑戰(zhàn)。

一、為什么4D占用表示如此重要?

傳統(tǒng)的機器人視頻生成方法主要依賴動作序列或文本指令作為控制信號。這就像是告訴一個孩子"把積木堆成塔",但沒有告訴他每塊積木應該放在哪個位置。孩子可能會完成任務,但結(jié)果很難精確預測。類似地,當我們僅使用高級動作指令控制視頻生成時,生成的視頻往往缺乏精確性,特別是在表現(xiàn)物體與機器人之間的物理交互時。

ORV團隊提出的解決方案是使用4D語義占用作為中間表示。那么,什么是"占用"(occupancy)呢?簡單來說,占用表示就是告訴我們?nèi)S空間中的每個位置是否被物體占據(jù),以及被什么類型的物體占據(jù)。"4D"則是指這種表示隨時間變化,形成一個時空連續(xù)的表示。

想象你站在一個房間里,閉上眼睛。如果你能精確知道房間中每個位置是否有物體,以及那是什么物體(桌子、椅子、人等),即使看不見,你也能準確地在房間中移動而不撞到任何東西。這就是占用表示的直觀理解。在ORV中,這種表示不僅包含物體的位置信息,還包含語義信息(物體類別)和隨時間的變化。

研究團隊發(fā)現(xiàn),相比于僅使用動作序列,使用4D語義占用作為指導能顯著提高生成視頻的質(zhì)量和控制精度。因為占用表示提供了像素級別的精確對齊,讓模型能夠更好地理解物體的形狀、位置和運動方式。這就像是從"把積木堆成塔"升級為"把紅色積木放在藍色積木上,然后把綠色積木放在紅色積木的左側(cè)"這樣精確的指令。

二、ORV如何構(gòu)建4D語義占用數(shù)據(jù)?

由于目前沒有現(xiàn)成的高質(zhì)量4D語義占用數(shù)據(jù)集,研究團隊開發(fā)了一套高效的數(shù)據(jù)構(gòu)建流程。這個流程主要包括四個部分:語義空間構(gòu)建、占用構(gòu)建、為占用添加語義信息,以及子彈時間渲染(bullet-time renderings)。

在語義空間構(gòu)建階段,研究團隊首先使用視覺-語言模型(如Qwen-VL-Chat)對數(shù)據(jù)集中的所有場景進行全面標注。具體來說,他們對每個視頻的關鍵幀(在實際操作中是第一幀)進行描述,提取出場景中的關鍵物體。想象你在看一張照片,然后詳細描述:"這張照片中有一個機械臂、一個紅色蘋果、一個藍色盒子和一張木桌。"這就是他們做的事情,只不過是用AI自動完成的。

在處理了近15萬個被標注的物體后,研究團隊對這些物體的詞嵌入(word embeddings)進行K-means聚類,得到了一個包含約50個標簽的數(shù)據(jù)集級語義標簽集。這就像是將成千上萬種不同的食材歸類為"蔬菜"、"肉類"、"調(diào)味料"等幾十個大類,使得后續(xù)處理更加高效。

對于每個單獨的視頻,他們使用Grounding DINO來提取初始物體提示(如邊界框、分割掩碼),然后輸入到SAM2進行實例跟蹤,從第一幀開始追蹤整個視頻中的物體實例。這就像是在電影中給每個角色貼上標簽,然后跟蹤他們在整部電影中的活動。

在占用構(gòu)建階段,研究團隊使用Monst3R從單視角輸入中重建稀疏的4D點云。然而,這些點云往往過于稀疏,難以直接使用。為了解決這個問題,他們采用NKSR進行網(wǎng)格重建,得到更密集的點云,然后進行體素化,將連續(xù)的3D空間離散化為一個個小立方體,得到規(guī)范空間中的4D占用。

為了將語義信息與占用表示結(jié)合,研究團隊將點投影到圖像平面上,從像素中提取語義標簽,然后對每個體素進行多數(shù)投票。這就像是給每個小立方體貼上標簽,標明它屬于"桌子"、"機械臂"還是"蘋果"等類別。

最后,為了從4D語義占用中渲染任何2D圖,研究團隊將每個網(wǎng)格與單個非學習高斯原語關聯(lián)起來,以節(jié)省內(nèi)存和時間成本。這種方法產(chǎn)生了緊湊但信息豐富的2D表示,能夠捕捉真實世界的動態(tài)。為了增強渲染質(zhì)量,他們還基于深度采用了自適應縮放機制,使近處的物體更加清晰,遠處的物體更加模糊,類似于我們?nèi)搜鄣囊曈X感知。

三、ORV如何生成高質(zhì)量機器人視頻?

有了4D語義占用數(shù)據(jù),ORV如何利用它來生成高質(zhì)量的機器人操作視頻呢?研究團隊選擇了預訓練的CogVideox-2b(一種文本到視頻的生成模型)作為基礎模型,并進行了兩種關鍵的條件控制擴展:動作條件和視覺條件。

在動作條件方面,ORV直接采用3D軌跡序列(機械臂末端執(zhí)行器的姿態(tài))或動作以及抓取器狀態(tài)作為高級控制信號。這些3D動作控制信號通過AdaLN(Adaptive Layer Normalization)直接調(diào)制視頻潛在空間中的DiT(Diffusion Transformer)塊。為了更好地對齊高維動作和視頻,ORV采用了塊級集成方案,將動作壓縮為與CogVideoX的3D VAE處理的視頻嚴格對齊的格式。

想象一下,這就像是指揮一個樂團。動作序列就像是指揮的手勢,告訴樂團(模型)應該演奏什么樣的音樂(生成什么樣的視頻)。通過精確的時間對齊,確保每個音符(視頻幀)都與指揮的動作精確匹配。

然而,僅靠動作條件還不夠。正如前面所說,將高維動作信號轉(zhuǎn)換為一致且物理上合理的像素級變換是個巨大挑戰(zhàn)。這主要是因為機器人操作視頻中存在復雜多樣的物體動態(tài),包括視角閃爍、物體變形和關節(jié)運動等,這些往往無法僅通過動作命令完全捕捉。

這就是視覺條件發(fā)揮作用的地方。ORV使用從3D語義占用派生的2D視覺控制信號,這些信號與輸入觀察幀保持相同的空間分辨率,實現(xiàn)了像素級對齊。結(jié)合動作條件的幀級對齊,這顯著提高了控制精度。具體來說,ORV使用額外的淺層MLP(多層感知機)學習視覺控制特征,然后與圖像條件增強,之后另一個零初始化的投影器將視覺控制信號添加到輸入噪聲中。

雖然像ControlNet這樣的方法可能提供更強、更精細的像素級控制,但它會導致模型大小的爆炸式增長。ORV的方法更加平衡,優(yōu)先考慮3D動作的控制,同時引入來自硬渲染過程的軟視覺控制信號作為有效的輔助控制。

四、ORV的多視角視頻生成

完整、高保真的4D場景對機器人策略學習和其他相關任務具有重要價值。一些最近的工作已經(jīng)展示了生成高質(zhì)量4D場景的能力,但它們通常只捕捉場景的單一表面,導致視角變化時出現(xiàn)明顯的偽影和空白區(qū)域。而ORV進一步展示了生成和構(gòu)建多樣化、全面的4D RGB場景的能力,具有真實的視覺保真度。

研究團隊擴展了單視角視頻生成模型,開發(fā)了ORV-MV。受近期多視角內(nèi)容合成成功的啟發(fā),他們在每個DiT塊中集成了額外的視圖注意力模塊,處理跨所有視圖的相同補丁級別的輸入潛在變量,以實現(xiàn)跨視圖交互。原始的幀注意力層(處理視圖獨立的補丁級別潛在變量)在訓練的這個階段被凍結(jié)。

這就像是讓模型學會從不同角度觀察同一個場景。傳統(tǒng)模型只能從一個固定視角看世界,就像戴著眼罩一樣。而ORV-MV則可以同時從多個角度觀察,并確保這些不同角度的視圖是一致的,就像是多個攝像機同時拍攝同一個場景,所有攝像機都能捕捉到相同的動作,只是從不同的角度。

在訓練過程中,模型使用數(shù)據(jù)集中的多視角視頻作為監(jiān)督信號。幀注意力層接收3D時間控制(如動作序列)作為輸入,而多視角圖像也融合了2D條件圖。這樣,模型可以根據(jù)多視角觀察(機械臂或抓取器)推斷視圖姿態(tài),然后聯(lián)合預測與3D控制一致的多視角像素變化。

五、ORV-S2R:通過占用彌合模擬到真實的差距

研究的另一個擴展,ORV-S2R,進一步解決了模擬數(shù)據(jù)和真實世界觀察之間的顯著視覺真實性差距。雖然之前的工作嘗試最小化這種差距,但研究團隊提出了一個更直接的解決方案——將物理模擬器與表達能力強的神經(jīng)模型相結(jié)合。

從模擬器中可重用的幾何資產(chǎn)(如網(wǎng)格),可以輕松轉(zhuǎn)換為3D占用表示,然后渲染為2D條件圖。利用ORV模型,可以合成多樣化的真實感機器人操作視頻,同時保持物理合理性,無需為幾何體進行繁瑣且性能有限的紋理創(chuàng)作。

這種方法之所以有效,部分原因是占用表示有助于彌合模擬環(huán)境和真實世界之間的條件數(shù)據(jù)質(zhì)量差距。與模擬器或真實世界傳感器的深度信號相比,占用提供了更適應性強的表示——這種粗粒度但嚴格幾何對齊的格式使得從傳感器深度和模擬深度到占用數(shù)據(jù)的高效轉(zhuǎn)換成為可能。這在解決兩者之間的顯著差距時特別有價值——例如,模擬器深度受不穩(wěn)定物理引擎的影響,而傳感器派生的深度包含不同程度的噪聲。

六、實驗結(jié)果和分析

研究團隊在三個真實世界數(shù)據(jù)集上訓練和驗證了ORV:BridgeV2、Droid和RT-1。這些數(shù)據(jù)集各有特點,包括不同的機械臂、視角數(shù)量和數(shù)據(jù)量。研究人員從每個數(shù)據(jù)集中采樣了約12萬個訓練樣本,并隨機選擇約2.6千個樣本進行評估。

在可控視頻生成方面,ORV在各種數(shù)據(jù)集上始終優(yōu)于現(xiàn)有基線方法。以BridgeV2數(shù)據(jù)集為例,ORV的PSNR(峰值信噪比)達到28.258,SSIM(結(jié)構(gòu)相似性指數(shù))達到0.899,F(xiàn)ID(Fréchet Inception Distance)為3.418,F(xiàn)VD(Fréchet Video Distance)為16.525,這些指標都優(yōu)于IRASim、HMA、AVID和CogVideoX等基線方法。

研究團隊還進行了消融研究,驗證了物理控制信號的有效性。結(jié)果表明,加入物理約束后,視頻生成質(zhì)量和運動準確性立即顯著提高,PSNR從基礎模型的約25增加到約28。此外,基于渲染的條件與來自重建的條件表現(xiàn)相當,這有效放松了實際應用中對物理約束的嚴格質(zhì)量要求。

在多視角視頻生成方面,ORV-MV能夠生成具有高跨視圖一致性的多視角視頻。例如,在一個布料折疊任務中,輸出在三個不同視角保持了卓越的跨視圖一致性。這種高保真的多視角生成能力使得高效的下游應用成為可能,包括真實感場景重建和機器人模仿學習。

在模擬到真實的轉(zhuǎn)換方面,ORV-S2R能夠?qū)⒛M環(huán)境中的表格操作場景轉(zhuǎn)換為真實世界數(shù)據(jù),視覺質(zhì)量更好,效率也高于原始物理模擬器。

七、ORV的局限性和未來方向

盡管ORV取得了令人鼓舞的結(jié)果,但它仍有一些限制。研究團隊指出,雖然3D占用為場景中所有物體提供幾何表示,但3D動作信號僅描述機械臂末端執(zhí)行器的姿態(tài)。這對于具有更復雜關節(jié)的機械臂(如Droid數(shù)據(jù)集中使用的Google機器人)來說是不夠的。未來的工作可以考慮整合所有關節(jié)的精確運動描述,以獲得機械臂軌跡的更準確表示。

此外,當前的ORV-MV需要多視角的第一幀觀察作為輸入。雖然通過來自3D占用和初始幀中觀察到的機械臂姿態(tài)的幾何約束,ORV-MV能夠生成視圖一致的視頻,但未來的計劃是將多視角第一幀圖像的生成也納入這個框架中——即從單一視角的第一幀輸入生成一致的多視角視頻。這將顯著提高ORV-MV的可用性和實用性。

總的來說,ORV框架通過利用4D語義占用作為中間表示,解決了機器人視頻生成中的關鍵挑戰(zhàn),實現(xiàn)了高質(zhì)量、精確可控的視頻生成。它不僅提高了視頻質(zhì)量和控制精度,還支持多視角視頻生成和模擬到真實的轉(zhuǎn)換,為機器人學習和模擬提供了強大的工具。隨著未來的改進和擴展,ORV有望進一步推動機器人領域的發(fā)展,使機器人訓練和應用更加高效和實用。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-