本篇研究來(lái)自中國(guó)香港中文大學(xué)、快手科技和浙江大學(xué)的聯(lián)合團(tuán)隊(duì),由Xiao Fu、Xintao Wang、Xian Liu、Jianhong Bai、Runsen Xu、Pengfei Wan、Di Zhang和Dahua Lin共同完成,發(fā)表于2025年6月的arXiv預(yù)印本平臺(tái)(arXiv:2506.01943v1)。
一、讓機(jī)器人在視頻中表現(xiàn)得更加自然:RoboMaster的誕生背景
想象一下,你正在教一個(gè)機(jī)器人如何拿起桌子上的勺子并把它放在平底鍋的左邊。你希望機(jī)器人的動(dòng)作看起來(lái)自然流暢,就像人類一樣,而不是僵硬機(jī)械的。這正是本研究要解決的核心問題。
近年來(lái),基于視頻生成的技術(shù)取得了顯著進(jìn)步,這些技術(shù)能夠模擬逼真的環(huán)境,為機(jī)器人學(xué)習(xí)提供豐富的訓(xùn)練數(shù)據(jù)。尤其是軌跡控制型的視頻生成方法,更是為精細(xì)控制機(jī)器人規(guī)劃提供了可能。但現(xiàn)有的方法主要關(guān)注單個(gè)物體的運(yùn)動(dòng),難以捕捉機(jī)器人與物體之間的復(fù)雜交互過程,尤其是在抓取和操作物體時(shí),視覺效果往往會(huì)變得不自然。
為什么會(huì)出現(xiàn)這個(gè)問題呢?就像兩個(gè)舞者同時(shí)在同一個(gè)舞臺(tái)上表演不同的舞蹈會(huì)相互干擾一樣,現(xiàn)有方法在處理機(jī)器人手臂與物體重疊區(qū)域時(shí),會(huì)出現(xiàn)特征糾纏的問題,導(dǎo)致生成質(zhì)量下降。研究團(tuán)隊(duì)形象地將這種現(xiàn)象描述為"重疊區(qū)域的特征混淆",就像兩種顏色的顏料混在一起,難以保持各自的特性。
為了解決這個(gè)問題,來(lái)自中國(guó)香港中文大學(xué)和快手科技的研究團(tuán)隊(duì)提出了一個(gè)名為"RoboMaster"的創(chuàng)新框架。與以往將物體分解的方法不同,RoboMaster采用了一種全新的思路:將交互過程分解為三個(gè)階段,并通過"協(xié)作式軌跡"來(lái)建模整個(gè)交互動(dòng)態(tài)。
二、協(xié)作式軌跡:RoboMaster的核心創(chuàng)新
傳統(tǒng)方法像是在指揮兩個(gè)獨(dú)立的演員,一個(gè)是機(jī)器人手臂,一個(gè)是被操作的物體,各自按照自己的劇本(軌跡)演出。這在交互區(qū)域會(huì)造成"表演沖突"——視覺質(zhì)量下降、物體變形甚至消失。而RoboMaster則像一位優(yōu)秀的導(dǎo)演,將整個(gè)表演分為三幕:前奏(交互前)、高潮(交互中)和尾聲(交互后),在每一幕中都明確誰(shuí)是主角,誰(shuí)是配角。
具體來(lái)說,RoboMaster將機(jī)器人操作任務(wù)分解為三個(gè)階段: 1. 交互前階段:機(jī)器人手臂作為主導(dǎo)者向目標(biāo)物體移動(dòng) 2. 交互階段:物體作為主導(dǎo)者被機(jī)器人手臂操作 3. 交互后階段:機(jī)器人手臂再次成為主導(dǎo)者,完成任務(wù)
這種分解方式的靈感來(lái)自于一個(gè)簡(jiǎn)單的觀察:在真實(shí)的抓取過程中,機(jī)器人手臂先主動(dòng)接近物體;當(dāng)接觸發(fā)生時(shí),物體的運(yùn)動(dòng)實(shí)際上反映了對(duì)機(jī)器人手臂操作的物理響應(yīng);最后,手臂完成任務(wù)并可能離開。
通過這種方式,RoboMaster避免了特征糾纏問題,因?yàn)樵诿總€(gè)階段都有一個(gè)明確的"主角"。就像在電影中,導(dǎo)演會(huì)確保重要場(chǎng)景中主角得到適當(dāng)?shù)溺R頭關(guān)注,而其他角色則適當(dāng)?shù)觥?/p>
三、對(duì)象表示:保持物體的一致性
除了創(chuàng)新的軌跡設(shè)計(jì),RoboMaster還解決了另一個(gè)關(guān)鍵問題:如何確保物體在整個(gè)視頻中保持一致的外觀和形狀。想象一下,如果你看到一個(gè)紅色的蘋果突然變成了綠色,或者一個(gè)方形的盒子變成了圓形,那么視頻就會(huì)顯得非常不真實(shí)。
研究團(tuán)隊(duì)采用了一種巧妙的方法來(lái)解決這個(gè)問題。他們使用了基于掩碼的表示方法,將物體的外觀(如顏色、紋理)和形狀信息編碼到一個(gè)統(tǒng)一的表示中。這就像是給每個(gè)物體創(chuàng)建了一個(gè)"身份證",確保它在整個(gè)視頻中保持一致的身份。
具體來(lái)說,他們首先通過VAE(變分自編碼器)將輸入圖像編碼為潛在特征。然后,他們對(duì)物體掩碼進(jìn)行下采樣,使其與潛在特征的空間分辨率匹配。接著,他們使用掩碼從潛在特征中提取物體特征,并應(yīng)用池化操作生成物體的嵌入表示。最后,他們將這些特征表示為以軌跡點(diǎn)為中心的圓形體積,半徑與掩碼區(qū)域成比例。
這種方法就像是給每個(gè)物體配備了一個(gè)"身份保護(hù)罩",即使在復(fù)雜的交互過程中,也能保持其外觀和形狀的一致性。
四、用戶友好的交互設(shè)計(jì)
RoboMaster不僅在技術(shù)上有創(chuàng)新,還特別注重用戶體驗(yàn)。想象一下,如果你要教一個(gè)朋友如何使用一個(gè)新工具,你肯定希望這個(gè)過程盡可能簡(jiǎn)單直觀。同樣,RoboMaster的設(shè)計(jì)也考慮到了用戶的使用便捷性。
傳統(tǒng)方法通常要求用戶為機(jī)器人手臂和物體分別提供完整的軌跡,這就像要求同時(shí)指揮兩個(gè)演員的每一個(gè)動(dòng)作,非常繁瑣。而RoboMaster簡(jiǎn)化了這個(gè)過程,用戶只需要: 1. 提供一個(gè)文本提示,描述要執(zhí)行的任務(wù)(如"拿起勺子放在鍋的左邊") 2. 使用簡(jiǎn)單的刷子工具標(biāo)記要操作的物體 3. 指定交互的起始和結(jié)束時(shí)間點(diǎn) 4. 在一個(gè)統(tǒng)一的運(yùn)動(dòng)路徑中定義分解的子軌跡
這種設(shè)計(jì)大大提高了用戶交互的靈活性和容錯(cuò)性。即使用戶提供的物體掩碼不完整或粗糙,系統(tǒng)也能保持穩(wěn)健的性能。這就像是一個(gè)智能助手,即使你的指令不夠精確,它也能理解你的意圖并正確執(zhí)行。
五、實(shí)驗(yàn)結(jié)果:RoboMaster的優(yōu)越性
研究團(tuán)隊(duì)在Bridge V2數(shù)據(jù)集上進(jìn)行了大量實(shí)驗(yàn),該數(shù)據(jù)集包含各種機(jī)器人操作技能,如移動(dòng)、拿取、打開、關(guān)閉、豎直放置、傾倒、倒出、擦拭和折疊等。他們將RoboMaster與現(xiàn)有的軌跡控制視頻生成方法進(jìn)行了比較,包括Tora、MotionCtrl、DragAnything和IRAsim。
實(shí)驗(yàn)結(jié)果表明,RoboMaster在視覺質(zhì)量和軌跡準(zhǔn)確性方面都優(yōu)于現(xiàn)有方法。具體來(lái)說,RoboMaster的FVD(Frechet視頻距離)為147.31,而最接近的競(jìng)爭(zhēng)對(duì)手Tora為152.28;在PSNR(峰值信噪比)方面,RoboMaster達(dá)到了21.55,而Tora為21.24。軌跡誤差方面,RoboMaster的機(jī)器人軌跡誤差為16.47,物體軌跡誤差為24.16,均低于其他方法。
這些數(shù)字可能看起來(lái)有點(diǎn)抽象,但簡(jiǎn)單來(lái)說,就像是在比賽中,RoboMaster在所有評(píng)分項(xiàng)目上都獲得了第一名。更重要的是,在用戶研究中,47.33%的參與者更喜歡RoboMaster生成的視頻,遠(yuǎn)高于其他方法。
研究團(tuán)隊(duì)還在野外(in-the-wild)場(chǎng)景中測(cè)試了RoboMaster的泛化能力,結(jié)果表明它能夠處理各種不同的物體和環(huán)境,展現(xiàn)出強(qiáng)大的適應(yīng)能力。就像一個(gè)經(jīng)驗(yàn)豐富的廚師不僅能在自己熟悉的廚房工作,還能適應(yīng)各種不同的廚房環(huán)境一樣。
六、技術(shù)細(xì)節(jié):深入了解RoboMaster的工作原理
RoboMaster基于預(yù)訓(xùn)練的CogVideoX-5B架構(gòu)實(shí)現(xiàn),使用480×640分辨率和37幀長(zhǎng)度進(jìn)行訓(xùn)練和推理。訓(xùn)練過程在8臺(tái)NVIDIA A800 GPU上進(jìn)行,使用AdamW優(yōu)化器,DiT塊的學(xué)習(xí)率為2×10^-5,運(yùn)動(dòng)注入器的學(xué)習(xí)率為1×10^-4,總批量大小為16。訓(xùn)練進(jìn)行了30,000步。在推理時(shí),使用50個(gè)DDIM步驟,CFG尺度設(shè)為6.0。
雖然這些技術(shù)細(xì)節(jié)聽起來(lái)可能有點(diǎn)復(fù)雜,但可以將其理解為制作一道精美菜肴的具體步驟:使用什么設(shè)備,火候調(diào)到幾度,烹飪多長(zhǎng)時(shí)間等。這些細(xì)節(jié)確保了最終的"菜肴"——生成的視頻——具有高質(zhì)量和真實(shí)感。
模型注入器是RoboMaster的關(guān)鍵組件之一,它負(fù)責(zé)將協(xié)作軌跡潛在表示融入到基礎(chǔ)模型中。它首先將軌跡潛在表示V進(jìn)行分塊,然后通過2D空間卷積層和1D時(shí)間卷積層進(jìn)行編碼,生成緊湊的表示V。然后,它將前一個(gè)DiT塊的隱藏狀態(tài)h與軌跡潛在表示(V及其組歸一化輸出)結(jié)合,并傳遞給剩余的DiT塊。
這個(gè)過程就像是一位指揮家,將不同樂器(機(jī)器人手臂和物體)的樂譜(軌跡)融合成一個(gè)和諧的交響曲(生成的視頻)。
七、局限性與未來(lái)工作
盡管RoboMaster取得了顯著的進(jìn)步,研究團(tuán)隊(duì)也坦誠(chéng)地指出了一些局限性:
首先,當(dāng)應(yīng)用于領(lǐng)域外輸入時(shí),RoboMaster可能會(huì)產(chǎn)生不完整或變形的物體。這就像是一位廚師,雖然在烹飪意大利面方面經(jīng)驗(yàn)豐富,但在制作壽司時(shí)可能會(huì)遇到困難。解決這個(gè)問題的方法是使用更多樣化的物體類別進(jìn)行訓(xùn)練,豐富語(yǔ)義和幾何變化。
其次,當(dāng)前框架僅在2D像素空間中運(yùn)行,缺乏深度信息。這就像是在一個(gè)平面畫布上作畫,而不是在3D空間中雕刻。未來(lái)的工作可以考慮整合深度線索,實(shí)現(xiàn)更準(zhǔn)確的3D控制。
最后,泛化到各種機(jī)器人實(shí)體仍然是一個(gè)挑戰(zhàn),需要擴(kuò)展訓(xùn)練數(shù)據(jù)以涵蓋更廣泛的機(jī)器人配置。這就像是讓一個(gè)演員能夠扮演各種不同的角色,需要更豐富的培訓(xùn)和經(jīng)驗(yàn)。
八、總結(jié)與展望
RoboMaster通過其創(chuàng)新的協(xié)作軌跡設(shè)計(jì),成功解決了機(jī)器人操作視頻生成中的關(guān)鍵挑戰(zhàn)。它不僅在視覺質(zhì)量和軌跡準(zhǔn)確性方面超越了現(xiàn)有方法,還提供了更直觀的用戶交互體驗(yàn)。
這項(xiàng)研究的意義不僅限于計(jì)算機(jī)視覺或機(jī)器人學(xué)領(lǐng)域。它為創(chuàng)建更真實(shí)、更自然的機(jī)器人模擬環(huán)境鋪平了道路,這可能對(duì)機(jī)器人學(xué)習(xí)、人機(jī)交互、虛擬現(xiàn)實(shí)等多個(gè)領(lǐng)域產(chǎn)生深遠(yuǎn)影響。
就像一位優(yōu)秀的導(dǎo)演能夠指導(dǎo)演員自然流暢地表演,RoboMaster能夠生成自然、逼真的機(jī)器人操作視頻,為未來(lái)的機(jī)器人技術(shù)發(fā)展提供了有力的工具和思路。
有興趣深入了解這項(xiàng)研究的讀者可以訪問論文項(xiàng)目頁(yè)面:https://fuxiao0719.github.io/projects/robomaster/,或查閱原始論文獲取更多技術(shù)細(xì)節(jié)。
好文章,需要你的鼓勵(lì)
新加坡國(guó)立大學(xué)研究團(tuán)隊(duì)開發(fā)了SPIRAL框架,通過讓AI與自己對(duì)弈零和游戲來(lái)提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡(jiǎn)單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無(wú)需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語(yǔ)言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無(wú)法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語(yǔ)言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。