在機(jī)器人模仿學(xué)習(xí)領(lǐng)域,一項(xiàng)突破性的創(chuàng)新正在改變我們?cè)u(píng)估機(jī)器人能力的方式。來自AgiBot、上海交通大學(xué)和香港中文大學(xué)多媒體實(shí)驗(yàn)室的研究團(tuán)隊(duì)于2025年5月14日在arXiv上發(fā)布了名為"ENERVERSE-AC: Envisioning Embodied Environments with Action Condition"的研究論文,提出了一種全新的動(dòng)作條件世界模型,這一模型能夠根據(jù)機(jī)器人的預(yù)測(cè)動(dòng)作生成未來的視覺觀察結(jié)果,從而使機(jī)器人仿真變得既真實(shí)又可控。
想象一下,如果你想測(cè)試一個(gè)新開發(fā)的機(jī)器人是否能成功抓取一個(gè)物體,傳統(tǒng)方法需要你擁有實(shí)體機(jī)器人或構(gòu)建復(fù)雜的3D模擬環(huán)境,這不僅昂貴,而且耗時(shí)。ENERVERSE-AC(簡(jiǎn)稱EVAC)則提供了一種全新的解決方案:它就像一個(gè)"數(shù)字孿生"環(huán)境,可以在虛擬世界中準(zhǔn)確地模擬機(jī)器人與環(huán)境的交互,讓我們無需實(shí)體設(shè)備就能評(píng)估機(jī)器人的表現(xiàn)。
這項(xiàng)研究的主要貢獻(xiàn)在于,研究團(tuán)隊(duì)不僅開發(fā)了一個(gè)能夠生成視頻的世界模型,更重要的是,這個(gè)模型可以根據(jù)機(jī)器人的動(dòng)作實(shí)時(shí)調(diào)整生成的視頻內(nèi)容。就像玩電子游戲時(shí),游戲會(huì)根據(jù)你按下的按鍵改變畫面一樣,EVAC會(huì)根據(jù)機(jī)器人的動(dòng)作指令改變生成的視覺場(chǎng)景。
論文的主要作者江宇欣、陳勝聰和黃思遠(yuǎn),在資深研究員陳禮良的帶領(lǐng)下,基于前期的EnerVerse架構(gòu),為這一模型增加了多層動(dòng)作條件注入機(jī)制和射線圖編碼,使其能夠生成多視角圖像,同時(shí)還通過收集更多樣化的失敗軌跡來提升模型的泛化能力。
那么,EVAC具體有什么用呢?首先,它可以作為"數(shù)據(jù)引擎",通過對(duì)有限的人類收集軌跡進(jìn)行分割、增強(qiáng)和重新組合,生成豐富多樣的訓(xùn)練數(shù)據(jù)集;其次,它可以作為機(jī)器人策略的"評(píng)估器",生成基于動(dòng)作條件的視頻觀察結(jié)果,讓研究人員無需依賴實(shí)體機(jī)器人就能迭代測(cè)試機(jī)器人策略。這大大降低了開發(fā)成本,同時(shí)保持了高度的評(píng)估保真度。
在本文中,我們將深入淺出地解析EVAC的工作原理、技術(shù)創(chuàng)新和實(shí)際應(yīng)用價(jià)值,讓你在不接觸專業(yè)術(shù)語的情況下,也能理解這項(xiàng)面向未來的機(jī)器人仿真技術(shù)。
一、打造機(jī)器人的"數(shù)字沙盒":研究背景與挑戰(zhàn)
機(jī)器人學(xué)習(xí)就像孩子學(xué)習(xí)一樣,需要不斷嘗試、失敗和改進(jìn)。想象一下,當(dāng)父母教孩子騎自行車時(shí),孩子需要反復(fù)練習(xí)才能掌握平衡。同樣地,機(jī)器人需要通過大量的實(shí)踐來學(xué)習(xí)完成任務(wù)。但與孩子學(xué)習(xí)相比,機(jī)器人學(xué)習(xí)面臨一個(gè)大問題:每次"練習(xí)"都需要使用實(shí)體機(jī)器人或復(fù)雜的仿真環(huán)境,這既昂貴又耗時(shí)。
近年來,機(jī)器人模仿學(xué)習(xí)已經(jīng)從解決靜態(tài)環(huán)境中的簡(jiǎn)單任務(wù),發(fā)展到處理復(fù)雜多變的交互場(chǎng)景。例如,機(jī)器人不再僅僅學(xué)習(xí)如何將物體從A點(diǎn)移動(dòng)到B點(diǎn),而是開始學(xué)習(xí)如何在廚房環(huán)境中烹飪食物、如何整理混亂的桌面,甚至如何與人類協(xié)作完成復(fù)雜任務(wù)。這種進(jìn)步令人振奮,但同時(shí)也帶來了巨大挑戰(zhàn):如何有效評(píng)估這些復(fù)雜任務(wù)中的機(jī)器人表現(xiàn)?
傳統(tǒng)的人工智能領(lǐng)域,如計(jì)算機(jī)視覺或自然語言處理,可以使用靜態(tài)數(shù)據(jù)集進(jìn)行評(píng)估。例如,一個(gè)圖像識(shí)別模型可以在大量圖片上測(cè)試其準(zhǔn)確率,而無需與環(huán)境實(shí)時(shí)交互。但機(jī)器人操作本質(zhì)上是交互性的,機(jī)器人需要根據(jù)環(huán)境變化實(shí)時(shí)調(diào)整行動(dòng)。這就像測(cè)試一個(gè)廚師的烹飪技能,不能只看他的食譜,而是要觀察他如何根據(jù)食材狀態(tài)、火候變化實(shí)時(shí)調(diào)整烹飪手法。
隨著任務(wù)多樣性的增加,直接在實(shí)體機(jī)器人上評(píng)估或創(chuàng)建大規(guī)模3D仿真環(huán)境變得越來越困難。想象你要測(cè)試一個(gè)機(jī)器人在100種不同廚房場(chǎng)景中的表現(xiàn),這意味著你需要構(gòu)建100個(gè)不同的廚房環(huán)境,或者在實(shí)體機(jī)器人上進(jìn)行100次不同的測(cè)試設(shè)置——這在成本和時(shí)間上都是不可行的。
鑒于這些挑戰(zhàn),研究者們開始探索使用視頻生成模型作為世界模擬器的可能性。這些模型能讓機(jī)器人通過學(xué)習(xí)的視覺動(dòng)態(tài)觀察和交互虛擬世界,避免了對(duì)物理仿真的依賴。就像電影特效一樣,這些模型可以創(chuàng)建逼真的視覺場(chǎng)景,讓機(jī)器人"身臨其境"。
然而,現(xiàn)有的世界建模技術(shù)主要集中于從語言指令生成視頻,然后基于生成的視頻預(yù)測(cè)動(dòng)作。這就像給機(jī)器人看一部教學(xué)視頻,然后讓它模仿視頻中的動(dòng)作。但這種方法無法創(chuàng)建真正的世界模擬器,因?yàn)樗鼈內(nèi)鄙賹?duì)機(jī)器人動(dòng)作的反饋——真正的世界模擬器應(yīng)該能夠根據(jù)機(jī)器人的動(dòng)作來模擬環(huán)境動(dòng)態(tài),就像現(xiàn)實(shí)世界會(huì)對(duì)我們的行為做出反應(yīng)一樣。
這正是ENERVERSE-AC(EVAC)試圖解決的核心問題:如何創(chuàng)建一個(gè)能夠根據(jù)機(jī)器人動(dòng)作實(shí)時(shí)生成視覺觀察結(jié)果的模型,使機(jī)器人訓(xùn)練和評(píng)估變得更加高效、經(jīng)濟(jì)且可擴(kuò)展?
二、EVAC的技術(shù)核心:動(dòng)作條件視頻生成
EVAC的核心思想是創(chuàng)建一個(gè)"動(dòng)作條件"的世界模型,就像一個(gè)對(duì)話系統(tǒng)根據(jù)用戶輸入生成回應(yīng)一樣,EVAC根據(jù)機(jī)器人的動(dòng)作生成相應(yīng)的視覺場(chǎng)景。想象一下,如果你告訴朋友"我要拿起桌上的杯子",然后描述你的動(dòng)作,你的朋友能在腦海中想象出你拿杯子的樣子。EVAC就像這樣的朋友,能根據(jù)機(jī)器人描述的動(dòng)作"想象"出相應(yīng)的視覺場(chǎng)景。
從技術(shù)上看,EVAC建立在UNet視頻生成模型的基礎(chǔ)上,這是一種擴(kuò)散模型(Diffusion Model)。如果把視頻畫面比作一幅油畫,擴(kuò)散模型的工作方式就像是先把畫布上的顏料完全攪亂,然后一步步地恢復(fù)出清晰的畫面。EVAC的創(chuàng)新之處在于,它在這個(gè)過程中加入了"動(dòng)作條件",也就是說,畫面的恢復(fù)過程會(huì)受到預(yù)設(shè)動(dòng)作序列的指導(dǎo)。
具體來說,當(dāng)EVAC接收到一組RGB視頻幀和相應(yīng)的機(jī)器人動(dòng)作軌跡時(shí),它首先通過編碼器將視頻轉(zhuǎn)換為潛在表示(latent representation),這就像將復(fù)雜的畫面提煉為簡(jiǎn)化的草圖。然后,使用擴(kuò)散模型來預(yù)測(cè)未來的潛在表示,這個(gè)過程受到機(jī)器人動(dòng)作軌跡的條件引導(dǎo)。最后,將預(yù)測(cè)的潛在表示轉(zhuǎn)換回可視的視頻幀。
為了有效地將動(dòng)作信息融入視頻生成過程,研究團(tuán)隊(duì)設(shè)計(jì)了兩種創(chuàng)新的條件注入機(jī)制:
首先是"空間感知姿態(tài)注入"。想象你在用手機(jī)拍攝視頻時(shí),手機(jī)屏幕上會(huì)疊加顯示一些信息,比如拍攝時(shí)間、位置等。類似地,EVAC將機(jī)器人末端執(zhí)行器(就像機(jī)器人的"手")的6D位姿信息(位置和方向)投影到圖像上,形成"動(dòng)作地圖"。這些動(dòng)作地圖使模型能夠準(zhǔn)確地理解機(jī)器人在空間中的位置和方向,從而生成相應(yīng)的視覺場(chǎng)景。
例如,當(dāng)機(jī)器人的手向左移動(dòng)時(shí),動(dòng)作地圖會(huì)顯示一個(gè)指向左側(cè)的箭頭;當(dāng)機(jī)器人的夾爪閉合時(shí),動(dòng)作地圖會(huì)用顏色深淺來表示夾爪的開閉程度。這些視覺提示讓模型能夠直觀地理解機(jī)器人的動(dòng)作意圖。
其次是"增量動(dòng)作注意力模塊"。如果說空間感知姿態(tài)注入關(guān)注的是"機(jī)器人在哪里",那么增量動(dòng)作注意力模塊則關(guān)注"機(jī)器人如何移動(dòng)"。它計(jì)算連續(xù)幀之間末端執(zhí)行器位置和方向的變化,捕捉動(dòng)作的速度和加速度信息。這些變化通過線性投影器編碼成固定長(zhǎng)度的潛在表示,然后通過交叉注意力機(jī)制注入到UNet階段。
這就像我們觀察舞者的表演,不僅要看舞者站在哪個(gè)位置,還要關(guān)注舞者是急速旋轉(zhuǎn)還是緩慢伸展,這些動(dòng)作的節(jié)奏和力度同樣重要。通過捕捉這些時(shí)間變化,比如速度和加速度,模塊增強(qiáng)了模型對(duì)運(yùn)動(dòng)動(dòng)態(tài)的物理理解,使其能夠生成更真實(shí)、更多樣的視頻輸出。
三、多視角條件注入:立體感知機(jī)器人環(huán)境
在真實(shí)的機(jī)器人操作中,多角度的視覺輸入對(duì)于準(zhǔn)確判斷物體位置和完成任務(wù)至關(guān)重要。想象一下廚師在廚房工作:他不僅需要看到正前方的案板,還需要通過余光察覺周圍的爐灶和食材。同樣,機(jī)器人也需要多角度的視覺輸入來全面感知環(huán)境。
EVAC擴(kuò)展了世界模型,支持多視角視頻生成。想象一個(gè)攝影棚,多個(gè)攝像機(jī)從不同角度拍攝同一個(gè)場(chǎng)景,每個(gè)攝像機(jī)都能捕捉到場(chǎng)景的不同方面。在EVAC中,多視角特征通過空間交叉注意力模塊進(jìn)行交互,就像多個(gè)攝影師相互交流所看到的內(nèi)容,形成對(duì)場(chǎng)景的完整理解。
但EVAC面臨一個(gè)特殊挑戰(zhàn):動(dòng)態(tài)的腕部攝像頭。在機(jī)器人系統(tǒng)中,通常會(huì)有固定的頭部攝像頭和跟隨機(jī)械臂移動(dòng)的腕部攝像頭。固定攝像頭就像餐廳的監(jiān)控?cái)z像頭,始終從一個(gè)固定位置觀察全局;而腕部攝像頭則像廚師戴在頭上的攝像機(jī),隨著廚師的移動(dòng)而變換視角。
當(dāng)使用前面提到的方法將末端執(zhí)行器姿態(tài)投影到腕部攝像頭圖像上時(shí),會(huì)出現(xiàn)一個(gè)問題:投影圓始終保持靜態(tài),無法傳達(dá)手部的移動(dòng)信息。這就像你戴著攝像頭看自己的手時(shí),無論你的手怎么移動(dòng),它在攝像頭畫面中的相對(duì)位置幾乎不變,這無法反映真實(shí)的空間移動(dòng)。
為了解決這個(gè)問題,研究團(tuán)隊(duì)引入了"射線圖"編碼技術(shù)。射線圖記錄了每個(gè)攝像頭相對(duì)于其位置的光線起點(diǎn)和方向。對(duì)于每個(gè)攝像頭,團(tuán)隊(duì)計(jì)算了其在所有時(shí)間點(diǎn)的射線圖。由于腕部攝像頭隨機(jī)械臂移動(dòng),腕部攝像頭的射線圖能隱式編碼末端執(zhí)行器位姿的運(yùn)動(dòng)信息。
這就像給攝像頭增加了一種"空間感知"能力,讓它知道自己在空間中的位置和視角。射線圖被連同軌跡圖一起輸入到模型中,提供豐富的軌跡信息,改善了跨視圖的一致性。
通過這種方式,EVAC能夠處理固定的頭部攝像頭視圖和動(dòng)態(tài)的腕部攝像頭視圖,為機(jī)器人提供全面的環(huán)境表示。這種多視角生成能力使EVAC在處理需要精確空間理解的任務(wù)時(shí)表現(xiàn)出色。
四、數(shù)據(jù)驅(qū)動(dòng)的真實(shí)性:不只成功,也學(xué)習(xí)失敗
在機(jī)器人學(xué)習(xí)中,失敗的經(jīng)驗(yàn)與成功的經(jīng)驗(yàn)同樣重要。想象一個(gè)初學(xué)烹飪的人,不僅需要知道如何正確炒菜,還需要知道火太大會(huì)導(dǎo)致食物燒焦,油放太多會(huì)濺出等失敗情況。同樣,機(jī)器人也需要學(xué)習(xí)各種可能的失敗場(chǎng)景,以便在實(shí)際操作中避免這些錯(cuò)誤。
EVAC世界模型的一個(gè)關(guān)鍵特點(diǎn)是,它被設(shè)計(jì)用來處理成功和失敗場(chǎng)景。研究團(tuán)隊(duì)不僅利用了AgiBot-World數(shù)據(jù)集中的成功軌跡,還精心收集了多樣化的失敗軌跡,顯著擴(kuò)展了訓(xùn)練數(shù)據(jù)的覆蓋范圍。
他們與AgiBot-Data團(tuán)隊(duì)合作,獲取了原始數(shù)據(jù)的完整訪問權(quán)限,從中挖掘了大量失敗案例。例如,當(dāng)機(jī)器人嘗試抓取物體但抓空了,或者物體從夾爪中滑落的情況。此外,研究團(tuán)隊(duì)還開發(fā)了一個(gè)自動(dòng)化數(shù)據(jù)收集管道,在遠(yuǎn)程操作和真實(shí)機(jī)器人推理期間捕捉真實(shí)世界的失敗案例。
這種全面的數(shù)據(jù)收集策略,就像為學(xué)習(xí)駕駛的人提供各種道路和天氣條件下的駕駛經(jīng)驗(yàn),不僅包括順利行駛的情況,還包括如何應(yīng)對(duì)打滑、急剎車等緊急情況。這大大增強(qiáng)了模型在不同場(chǎng)景下的泛化能力,確保它能適應(yīng)各種真實(shí)世界的機(jī)器人任務(wù)。
通過整合這些多樣化的數(shù)據(jù),EVAC能夠更準(zhǔn)確地模擬現(xiàn)實(shí)世界中的各種情況,包括那些不太理想的結(jié)果。這種全面性使得EVAC在作為政策學(xué)習(xí)的數(shù)據(jù)引擎和政策模型的評(píng)估器時(shí),都能提供更可靠的結(jié)果。
五、EVAC的雙重應(yīng)用:數(shù)據(jù)引擎與政策評(píng)估器
EVAC不僅僅是一個(gè)視頻生成模型,它在機(jī)器人學(xué)習(xí)領(lǐng)域有兩個(gè)關(guān)鍵應(yīng)用,解決了機(jī)器人操作中的核心挑戰(zhàn)。
首先,EVAC可以作為"數(shù)據(jù)引擎",為機(jī)器人策略學(xué)習(xí)提供豐富的訓(xùn)練數(shù)據(jù)。想象你需要教機(jī)器人完成一個(gè)新任務(wù),比如從紙箱中取出水瓶放到桌上。傳統(tǒng)方法需要人類操作員收集大量示范數(shù)據(jù),這既耗時(shí)又昂貴。EVAC提供了一種解決方案:只需要少量的人類收集軌跡,就能生成大量多樣化的訓(xùn)練數(shù)據(jù)。
具體來說,對(duì)于每條收集的軌跡,研究人員首先通過分析夾爪開合度的變化來標(biāo)識(shí)物體接觸階段的開始和結(jié)束時(shí)間點(diǎn)。然后,將軌跡分割為三個(gè)不同階段:抓取前的接近(fetching)、抓?。╣rasping)和抓取后的運(yùn)輸(homing)。
以抓取前階段為例,研究人員提取觀察圖像和相應(yīng)的動(dòng)作序列,對(duì)早期動(dòng)作進(jìn)行空間增強(qiáng)以生成新的動(dòng)作起點(diǎn),然后通過插值創(chuàng)建新的動(dòng)作軌跡。隨后,將觀察圖像和反轉(zhuǎn)的動(dòng)作序列輸入EVAC世界模型,生成相應(yīng)的視頻幀。生成的幀經(jīng)過重新排序,創(chuàng)建一個(gè)正確的數(shù)據(jù)集。通過這個(gè)過程,原始的少量軌跡可以被增強(qiáng)成更加多樣化的軌跡集,提高策略學(xué)習(xí)的魯棒性和泛化能力。
其次,EVAC可以作為"政策評(píng)估器",為已訓(xùn)練的機(jī)器人策略模型提供仿真測(cè)試環(huán)境。給定初始視覺觀察和相應(yīng)指令,策略模型生成動(dòng)作序列。這些動(dòng)作序列與初始觀察一起輸入EVAC,生成新的觀察結(jié)果。這個(gè)過程不斷重復(fù),直到策略模型生成的動(dòng)作低于預(yù)定閾值。隨后,人類評(píng)估員觀看EVAC生成的視頻來評(píng)估任務(wù)是否成功完成。
這種評(píng)估方法有兩個(gè)主要優(yōu)勢(shì):首先,它無需創(chuàng)建復(fù)雜的仿真資產(chǎn),因?yàn)镋VAC能夠更好地表現(xiàn)某些物理方面,例如流體動(dòng)力學(xué);其次,視頻回放可以加速以節(jié)省時(shí)間,或者可以與視頻多模態(tài)大語言模型(Video-MLLMs)集成,減少人工評(píng)估的需求。
通過這種方式,EVAC可以在初始開發(fā)階段基本替代真實(shí)機(jī)器人硬件的使用,顯著減少了部署成本。研究實(shí)驗(yàn)表明,通過EVAC獲得的評(píng)估結(jié)果與真實(shí)世界場(chǎng)景中觀察到的結(jié)果高度相關(guān),證明了這種方法的可靠性。
六、實(shí)驗(yàn)驗(yàn)證:EVAC的性能表現(xiàn)
為了驗(yàn)證EVAC的有效性,研究團(tuán)隊(duì)進(jìn)行了一系列全面的實(shí)驗(yàn)。實(shí)驗(yàn)數(shù)據(jù)主要來源于AgiBot World數(shù)據(jù)集,該數(shù)據(jù)集包含超過210種任務(wù)和100萬條軌跡。為確保數(shù)據(jù)全面覆蓋各種情況,研究團(tuán)隊(duì)還精心收集了大量失敗案例,豐富了訓(xùn)練數(shù)據(jù)的多樣性。
在模型實(shí)現(xiàn)上,EVAC基于UNet視頻擴(kuò)散模型構(gòu)建。訓(xùn)練過程中,CLIP視覺編碼器和VAE編碼器被凍結(jié),而其他組件如UNet、重采樣器和線性層則進(jìn)行了微調(diào)。單視圖版本的訓(xùn)練需要約32臺(tái)A100 GPU運(yùn)行2天,而多視圖版本則需要約32臺(tái)A100 GPU運(yùn)行8天。研究團(tuán)隊(duì)通過實(shí)驗(yàn)確定,將內(nèi)存大小設(shè)置為4、分塊大小設(shè)置為16可以在生成質(zhì)量和資源成本之間取得平衡。
實(shí)驗(yàn)結(jié)果展示了EVAC在生成可控制的機(jī)器人操作視頻方面的卓越能力。即使在復(fù)雜場(chǎng)景下,EVAC也能合成真實(shí)的機(jī)器人-物體交互視頻,同時(shí)保持高視覺保真度和準(zhǔn)確地跟隨輸入動(dòng)作軌跡。
EVAC的分塊式自回歸擴(kuò)散架構(gòu)和稀疏內(nèi)存機(jī)制使其能夠在連續(xù)分塊推理過程中保持視覺穩(wěn)定性和場(chǎng)景一致性。實(shí)驗(yàn)結(jié)果表明,在單視圖場(chǎng)景下,生成的視頻最多可保持30個(gè)連續(xù)分塊的清晰度和可靠性;在多視圖設(shè)置下,則可保持10個(gè)分塊的質(zhì)量。然而,在更長(zhǎng)序列中會(huì)開始出現(xiàn)偽影和模糊,這表明在序列長(zhǎng)度和視覺質(zhì)量之間存在權(quán)衡。
作為政策評(píng)估器,EVAC與真實(shí)世界環(huán)境表現(xiàn)出高度一致性。研究團(tuán)隊(duì)選擇了四個(gè)操作任務(wù)進(jìn)行評(píng)估,包括拿起水瓶、拿起吐司、拿起培根和拿起生菜葉。對(duì)于每項(xiàng)任務(wù),首先在真實(shí)世界中進(jìn)行評(píng)估,并將這些測(cè)試的初始幀記錄作為EVAC評(píng)估的圖像條件。三名獨(dú)立評(píng)估員通過觀察真實(shí)世界執(zhí)行或EVAC生成的序列來判斷成功或失敗。
盡管EVAC和真實(shí)世界評(píng)估在絕對(duì)成功率上存在微小差異,但跨任務(wù)的相對(duì)性能趨勢(shì)是一致的。這些發(fā)現(xiàn)證明了EVAC在跨任務(wù)策略性能分析和真實(shí)世界動(dòng)態(tài)復(fù)制方面的可靠性。
為了評(píng)估EVAC作為數(shù)據(jù)引擎的能力,研究團(tuán)隊(duì)進(jìn)行了一項(xiàng)實(shí)驗(yàn),展示EVAC生成的新動(dòng)作軌跡可以增強(qiáng)策略訓(xùn)練數(shù)據(jù),提高任務(wù)性能。實(shí)驗(yàn)任務(wù)是從紙箱中拿起水瓶并放在桌子上,這是一項(xiàng)挑戰(zhàn)性任務(wù),需要精確的力度和操作技巧來從緊packed箱子中提取水瓶。
比較了兩種訓(xùn)練設(shè)置:一種僅使用20個(gè)專家示范作為訓(xùn)練數(shù)據(jù),另一種使用相同的20個(gè)專家示范,并額外增加30%由EVAC世界模型生成的軌跡。結(jié)果顯示,當(dāng)包含增強(qiáng)軌跡時(shí),成功率從0.28顯著提高到0.36,這凸顯了EVAC世界模型通過提供多樣化和有效的訓(xùn)練樣本來增強(qiáng)策略學(xué)習(xí)的能力,即使專家示范數(shù)量有限。
此外,研究團(tuán)隊(duì)還進(jìn)行了失敗數(shù)據(jù)影響的分析。他們訓(xùn)練了兩個(gè)模型:一個(gè)包含失敗軌跡,另一個(gè)不包含。在測(cè)試場(chǎng)景中,機(jī)器人假裝抓取一個(gè)不存在的水瓶。不包含失敗數(shù)據(jù)的模型往往過擬合成功示例,導(dǎo)致它"幻覺"出水瓶被成功抓取,盡管實(shí)際上沒有物理交互。相比之下,包含失敗數(shù)據(jù)的EVAC能夠準(zhǔn)確識(shí)別并區(qū)分失敗的抓取嘗試,展示了它對(duì)過擬合的魯棒性和處理邊緣情況的能力。
七、局限性與未來展望
盡管EVAC在機(jī)器人視頻生成方面取得了顯著成就,但研究團(tuán)隊(duì)也坦誠指出了當(dāng)前工作的幾個(gè)局限性,這些問題也指明了未來研究的方向。
首先,EVAC使用單位圓表示夾爪開合度的方法,雖然對(duì)簡(jiǎn)單的夾爪有效,但可能無法有效推廣到更復(fù)雜的末端執(zhí)行器,例如靈巧手(dexterous hands)。這就像用簡(jiǎn)單的笑臉表情符號(hào)可以表達(dá)基本情緒,但難以傳達(dá)復(fù)雜的情感細(xì)微差別。未來,隨著機(jī)器人硬件配置的多樣化,需要開發(fā)更靈活的表示方法以適應(yīng)不同類型的機(jī)器人手部。
其次,腕部攝像頭經(jīng)常捕捉到無關(guān)的背景噪聲,比如在機(jī)器人工作區(qū)域周圍走動(dòng)的人。這增加了視頻生成的復(fù)雜性,限制了多視圖推理的效率。在實(shí)驗(yàn)中,這一限制將多視圖版本的分塊數(shù)量限制在10個(gè),而單視圖版本則可以達(dá)到30個(gè)。這種情況就像在拍攝電影時(shí),除了主角外還有許多背景人物不斷走動(dòng),使得場(chǎng)景控制變得更加困難。未來的研究可能需要引入更強(qiáng)大的背景抑制或前景強(qiáng)化技術(shù)。
此外,動(dòng)作條件世界模型的多個(gè)潛在應(yīng)用尚未被充分探索,例如與actor-critic方法結(jié)合用于強(qiáng)化學(xué)習(xí)。想象一下,EVAC不僅能模擬機(jī)器人動(dòng)作的視覺結(jié)果,還能預(yù)測(cè)這些動(dòng)作的潛在獎(jiǎng)勵(lì),從而指導(dǎo)機(jī)器人學(xué)習(xí)更優(yōu)的行為策略。未來的研究可以擴(kuò)展EVAC的應(yīng)用范圍,探索這些方向,并從先前的相關(guān)工作中汲取靈感。
研究團(tuán)隊(duì)希望這項(xiàng)工作能為推進(jìn)具身世界模型的發(fā)展奠定基礎(chǔ),并啟發(fā)該領(lǐng)域的進(jìn)一步發(fā)展。就像早期的飛行模擬器為飛行員培訓(xùn)鋪平了道路,EVAC這樣的世界模型可能最終徹底改變機(jī)器人學(xué)習(xí)和評(píng)估的方式,使其更加高效、經(jīng)濟(jì)且可擴(kuò)展。
總結(jié)來說,EVAC為機(jī)器人學(xué)習(xí)領(lǐng)域提供了一個(gè)強(qiáng)大的工具,通過動(dòng)作條件視頻生成,它使得機(jī)器人策略的測(cè)試和訓(xùn)練變得更加高效和經(jīng)濟(jì)。盡管還存在一些局限性,但這項(xiàng)研究無疑向著更加真實(shí)、多樣化的機(jī)器人仿真環(huán)境邁出了重要一步。隨著技術(shù)的不斷完善,我們可以期待在不久的將來,像EVAC這樣的技術(shù)將成為機(jī)器人學(xué)習(xí)過程中不可或缺的組成部分,加速機(jī)器人技術(shù)在各個(gè)領(lǐng)域的應(yīng)用和發(fā)展。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對(duì)話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。