這項(xiàng)由上海交通大學(xué)ScaleLab、香港大學(xué)MMLab、上海AI實(shí)驗(yàn)室等多個(gè)知名機(jī)構(gòu)聯(lián)合完成的研究發(fā)表于2025年6月,有興趣深入了解的讀者可以通過arXiv:2506.18088訪問完整論文。研究團(tuán)隊(duì)由來自16個(gè)不同機(jī)構(gòu)的數(shù)十位研究人員組成,包括上海交通大學(xué)的楊小康教授、香港大學(xué)的羅平教授等知名學(xué)者。
當(dāng)你看到工廠里的機(jī)器人笨拙地重復(fù)著單一動(dòng)作,或者家庭服務(wù)機(jī)器人只能做一些簡單任務(wù)時(shí),你是否曾經(jīng)想過:為什么機(jī)器人不能像人類一樣靈活地使用雙手完成復(fù)雜的操作呢?比如一只手穩(wěn)住盒子,另一只手打開蓋子,或者兩只手配合著疊積木、倒水、遞東西?
這個(gè)看似簡單的問題背后,其實(shí)隱藏著機(jī)器人技術(shù)的一個(gè)巨大挑戰(zhàn)。就像教會(huì)一個(gè)孩子用筷子需要大量練習(xí)一樣,讓機(jī)器人學(xué)會(huì)雙手協(xié)作需要海量的訓(xùn)練數(shù)據(jù)和復(fù)雜的算法。而現(xiàn)實(shí)中收集這些訓(xùn)練數(shù)據(jù)成本極高,就好比要讓孩子學(xué)會(huì)所有可能的筷子使用方式,你需要準(zhǔn)備成千上萬種不同的食物、不同的環(huán)境、不同的情況來讓他練習(xí)。
現(xiàn)在,一個(gè)名為RoboTwin 2.0的突破性系統(tǒng)正在改變這一切。這個(gè)系統(tǒng)就像一個(gè)超級(jí)智能的虛擬訓(xùn)練場,能夠自動(dòng)生成各種各樣的機(jī)器人訓(xùn)練場景,讓機(jī)器人在虛擬世界中學(xué)會(huì)復(fù)雜的雙手操作技能,然后將這些技能轉(zhuǎn)移到真實(shí)世界中使用。
研究團(tuán)隊(duì)構(gòu)建了一個(gè)包含731個(gè)不同物體、147個(gè)類別的龐大虛擬物品庫,這就像給機(jī)器人準(zhǔn)備了一個(gè)超級(jí)豐富的"玩具箱"。更重要的是,他們開發(fā)了一個(gè)能夠自動(dòng)編寫任務(wù)程序的智能系統(tǒng),這個(gè)系統(tǒng)就像一位經(jīng)驗(yàn)豐富的老師,能夠根據(jù)任務(wù)要求自動(dòng)設(shè)計(jì)出詳細(xì)的操作步驟,并且在虛擬環(huán)境中反復(fù)測試和改進(jìn)這些步驟,直到機(jī)器人能夠完美執(zhí)行。
為了讓機(jī)器人能夠適應(yīng)真實(shí)世界的復(fù)雜環(huán)境,研究團(tuán)隊(duì)還引入了全面的"環(huán)境隨機(jī)化"策略。這就像讓孩子在各種不同的環(huán)境中練習(xí)技能一樣——有時(shí)在明亮的房間里,有時(shí)在昏暗的環(huán)境中;有時(shí)桌子很高,有時(shí)桌子很低;有時(shí)周圍很整潔,有時(shí)周圍擺滿了各種雜物。通過這種方式,機(jī)器人學(xué)會(huì)的技能更加穩(wěn)健,能夠在各種未見過的環(huán)境中正常工作。
實(shí)驗(yàn)結(jié)果顯示,使用RoboTwin 2.0訓(xùn)練的機(jī)器人在真實(shí)世界任務(wù)中的表現(xiàn)有了顯著提升。在一些復(fù)雜的雙手協(xié)作任務(wù)中,成功率從原來的9%躍升到了42%,這相當(dāng)于367%的相對(duì)提升。更令人印象深刻的是,僅僅使用虛擬數(shù)據(jù)訓(xùn)練的機(jī)器人(零樣本學(xué)習(xí))也能在真實(shí)環(huán)境中取得不錯(cuò)的表現(xiàn),這證明了虛擬訓(xùn)練的有效性。
一、虛擬世界中的機(jī)器人大腦:自動(dòng)代碼生成系統(tǒng)
要理解RoboTwin 2.0的工作原理,我們可以把它想象成一個(gè)智能的機(jī)器人教練。當(dāng)我們給這個(gè)教練一個(gè)任務(wù)描述,比如"用雙手將玩具車放進(jìn)籃子里,然后移動(dòng)籃子",教練就會(huì)自動(dòng)分解這個(gè)任務(wù),設(shè)計(jì)出詳細(xì)的執(zhí)行步驟。
這個(gè)過程的核心是一個(gè)基于多模態(tài)大語言模型的自動(dòng)代碼生成系統(tǒng)。簡單來說,這就像有一個(gè)非常聰明的助手,它不僅能理解文字描述,還能"看懂"圖像,然后把抽象的任務(wù)要求轉(zhuǎn)換成機(jī)器人能夠執(zhí)行的具體程序代碼。
整個(gè)系統(tǒng)的工作流程就像一個(gè)反復(fù)試驗(yàn)和改進(jìn)的循環(huán)過程。首先,代碼生成代理會(huì)根據(jù)任務(wù)描述和預(yù)定義的技能庫生成初始的Python程序。這個(gè)程序就像一份詳細(xì)的操作手冊,告訴機(jī)器人每一步應(yīng)該做什么。然后,系統(tǒng)會(huì)在虛擬環(huán)境中運(yùn)行這個(gè)程序10次,觀察執(zhí)行結(jié)果。
在執(zhí)行過程中,視覺語言模型代理就像一個(gè)細(xì)心的觀察員,它會(huì)逐幀檢查機(jī)器人的行為,識(shí)別出可能的失敗點(diǎn)。比如,如果機(jī)器人在抓取物體時(shí)沒有成功,觀察員會(huì)準(zhǔn)確指出是"左臂抓取失敗"還是"右臂抓取失敗",以及失敗的具體原因。
基于這些反饋信息,代碼生成代理會(huì)修改程序,就像一個(gè)學(xué)生根據(jù)老師的建議修改作業(yè)一樣。這個(gè)修改-測試-再修改的循環(huán)會(huì)持續(xù)進(jìn)行,直到程序的成功率超過50%,或者達(dá)到最大迭代次數(shù)(5次)。
這種閉環(huán)反饋機(jī)制的威力在于它能夠自動(dòng)發(fā)現(xiàn)和修復(fù)程序中的問題。比如,如果機(jī)器人總是在某個(gè)特定步驟失敗,系統(tǒng)會(huì)自動(dòng)調(diào)整該步驟的參數(shù)或邏輯,而不需要人工干預(yù)。實(shí)驗(yàn)結(jié)果顯示,這種方法將代碼生成的成功率從47.4%提升到了71.3%,相當(dāng)于50%的相對(duì)提升。
更重要的是,這個(gè)系統(tǒng)大大降低了生成高質(zhì)量訓(xùn)練數(shù)據(jù)的成本。傳統(tǒng)方法需要專家手工編寫每個(gè)任務(wù)的程序,而RoboTwin 2.0可以自動(dòng)生成這些程序,并且質(zhì)量往往比手工編寫的還要好。這就像有了一個(gè)永不疲倦、不斷學(xué)習(xí)改進(jìn)的程序員,專門為機(jī)器人編寫操作指令。
二、讓虛擬世界更像真實(shí)世界:全方位環(huán)境隨機(jī)化
想象一下,如果你只在一個(gè)完全相同的環(huán)境中練習(xí)開車——同樣的路線、同樣的天氣、同樣的時(shí)間——那么當(dāng)你面對(duì)雨天、夜晚或者陌生路段時(shí),你很可能會(huì)手足無措。機(jī)器人學(xué)習(xí)也面臨同樣的問題:如果只在簡單、干凈的虛擬環(huán)境中訓(xùn)練,那么在復(fù)雜多變的真實(shí)世界中就很難正常工作。
RoboTwin 2.0通過全方位的環(huán)境隨機(jī)化解決了這個(gè)問題。這個(gè)系統(tǒng)就像一個(gè)超級(jí)現(xiàn)實(shí)的虛擬世界生成器,能夠創(chuàng)造出各種各樣的訓(xùn)練環(huán)境,讓機(jī)器人在多樣化的條件下學(xué)習(xí)和適應(yīng)。
首先是場景雜亂化。在真實(shí)世界中,我們的桌面很少是完全空曠的——總有各種雜物、裝飾品或者其他物品。為了模擬這種情況,系統(tǒng)會(huì)在虛擬環(huán)境中隨機(jī)放置各種與任務(wù)無關(guān)的"干擾物品"。這些物品來自于RoboTwin-OD物體庫,包含了731個(gè)不同的物體。但這里有個(gè)巧妙的設(shè)計(jì):系統(tǒng)會(huì)避免放置與任務(wù)相關(guān)物品過于相似的干擾物,以免造成不必要的混淆。就像在教孩子認(rèn)識(shí)蘋果時(shí),我們不會(huì)在旁邊放太多紅色的圓形物體作為干擾。
其次是背景紋理的多樣化。研究團(tuán)隊(duì)使用了一個(gè)有趣的方法來創(chuàng)建背景紋理庫:他們首先用大語言模型生成了1000個(gè)描述真實(shí)世界表面外觀的文本提示,然后使用Stable Diffusion生成模型為每個(gè)提示創(chuàng)建20個(gè)紋理樣本,最后通過人工篩選得到了12000個(gè)高質(zhì)量紋理。這些紋理被應(yīng)用到桌面和周圍環(huán)境中,讓機(jī)器人適應(yīng)各種不同的視覺條件。
光照變化是另一個(gè)重要的隨機(jī)化維度。真實(shí)世界的光照條件千變?nèi)f化——從溫暖的黃光到冷白的日光燈,從強(qiáng)烈的直射光到柔和的散射光。系統(tǒng)會(huì)隨機(jī)調(diào)整光源的顏色、類型、強(qiáng)度和位置,讓機(jī)器人學(xué)會(huì)在各種光照條件下識(shí)別和操作物體。這就像讓孩子在不同時(shí)間、不同房間練習(xí)同一個(gè)動(dòng)作,確保他們不會(huì)因?yàn)榄h(huán)境變化而無法執(zhí)行任務(wù)。
桌面高度的變化看似微小,但對(duì)機(jī)器人的運(yùn)動(dòng)學(xué)和感知都有重要影響。在真實(shí)部署中,不同的工作臺(tái)可能有不同的高度,即使是幾厘米的差異也可能影響機(jī)器人的操作精度。因此,系統(tǒng)會(huì)在合理范圍內(nèi)隨機(jī)調(diào)整桌面高度,讓機(jī)器人適應(yīng)這種變化。
最后是語言指令的多樣化。同一個(gè)任務(wù)可以用多種不同的方式來描述,比如"把罐子放在鍋的左邊"也可以說成"將罐子移動(dòng)到鍋的左側(cè)"或者"使用左臂將罐子放置在鍋的左方"。系統(tǒng)會(huì)自動(dòng)生成各種不同的指令表達(dá)方式,包括不同的動(dòng)詞選擇、物體描述和句式結(jié)構(gòu),讓機(jī)器人能夠理解和執(zhí)行各種表達(dá)方式的指令。
這種全方位的環(huán)境隨機(jī)化帶來了顯著的效果提升。實(shí)驗(yàn)顯示,使用隨機(jī)化訓(xùn)練的機(jī)器人在面對(duì)未見過的環(huán)境時(shí),性能下降幅度明顯小于傳統(tǒng)方法。這就像一個(gè)在各種條件下練習(xí)過的運(yùn)動(dòng)員,能夠在任何比賽環(huán)境中保持穩(wěn)定的表現(xiàn)。
三、因材施教:針對(duì)不同機(jī)器人的個(gè)性化適應(yīng)
每個(gè)機(jī)器人就像每個(gè)人一樣,都有自己的"身體條件"和"能力特點(diǎn)"。有些機(jī)器人手臂自由度高,動(dòng)作靈活,就像體操運(yùn)動(dòng)員一樣;有些機(jī)器人雖然自由度有限,但力量大、穩(wěn)定性好,就像舉重運(yùn)動(dòng)員一樣。RoboTwin 2.0的一個(gè)重要?jiǎng)?chuàng)新就是能夠根據(jù)不同機(jī)器人的特點(diǎn),自動(dòng)調(diào)整訓(xùn)練內(nèi)容和操作策略。
這個(gè)問題的核心在于,不同機(jī)器人的運(yùn)動(dòng)學(xué)結(jié)構(gòu)決定了它們的"擅長動(dòng)作"不同。比如,高自由度的Franka機(jī)械臂可以輕松地從上方抓取物體,這種動(dòng)作精確且自然;而自由度相對(duì)較低的Piper機(jī)械臂可能更適合從側(cè)面抓取同一個(gè)物體,這樣能夠避免關(guān)節(jié)角度過大帶來的不穩(wěn)定。
為了解決這個(gè)問題,研究團(tuán)隊(duì)為物體庫中的每個(gè)物體都標(biāo)注了豐富的操作候選點(diǎn)。這就像為每個(gè)物品準(zhǔn)備了一份"使用說明書",詳細(xì)描述了可以從哪些方向、用什么姿態(tài)來抓取和操作它。這些候選點(diǎn)不是隨機(jī)分布的,而是經(jīng)過精心設(shè)計(jì),考慮了物體的幾何形狀、功能特點(diǎn)和物理約束。
更巧妙的是,系統(tǒng)還會(huì)根據(jù)每個(gè)機(jī)器人的運(yùn)動(dòng)學(xué)特點(diǎn),動(dòng)態(tài)調(diào)整這些候選點(diǎn)的優(yōu)先級(jí)。對(duì)于高自由度的機(jī)器人,系統(tǒng)會(huì)優(yōu)先考慮那些需要復(fù)雜關(guān)節(jié)配合的精確操作;對(duì)于低自由度的機(jī)器人,系統(tǒng)會(huì)優(yōu)先選擇那些簡單、穩(wěn)定的操作方式。這就像一個(gè)優(yōu)秀的體育教練,會(huì)根據(jù)每個(gè)運(yùn)動(dòng)員的身體條件制定不同的訓(xùn)練計(jì)劃。
在實(shí)際實(shí)現(xiàn)中,系統(tǒng)使用了GPU加速的運(yùn)動(dòng)規(guī)劃器Curobo,這個(gè)工具就像一個(gè)超級(jí)智能的"動(dòng)作設(shè)計(jì)師",能夠快速計(jì)算出機(jī)器人完成特定動(dòng)作的最佳路徑。對(duì)于每個(gè)操作候選點(diǎn),系統(tǒng)會(huì)嘗試規(guī)劃相應(yīng)的運(yùn)動(dòng)軌跡,如果規(guī)劃成功,就說明這個(gè)操作方式對(duì)當(dāng)前機(jī)器人是可行的;如果規(guī)劃失敗,就會(huì)嘗試其他候選點(diǎn)。
這種個(gè)性化適應(yīng)策略的效果在實(shí)驗(yàn)中得到了充分驗(yàn)證。對(duì)于高自由度的機(jī)器人(如Franka和UR5),這種策略帶來的性能提升相對(duì)較小,因?yàn)樗鼈儽緛砭陀凶銐虻撵`活性來完成大部分操作。但對(duì)于低自由度的機(jī)器人,效果就非常顯著了。比如,Aloha-AgileX機(jī)器人的任務(wù)成功率提升了13.7%,Piper機(jī)器人更是提升了22.7%。
這個(gè)結(jié)果很好地驗(yàn)證了"因材施教"的價(jià)值。就像同樣的教學(xué)內(nèi)容,對(duì)于基礎(chǔ)好的學(xué)生可能效果一般,但對(duì)于基礎(chǔ)薄弱的學(xué)生可能是雪中送炭一樣,個(gè)性化的操作策略對(duì)于能力受限的機(jī)器人特別有價(jià)值。
四、數(shù)字化物品庫:機(jī)器人世界的"宜家目錄"
要讓機(jī)器人學(xué)會(huì)操作各種物品,首先需要有一個(gè)豐富多樣的"物品倉庫"。RoboTwin-OD就是這樣一個(gè)專門為機(jī)器人設(shè)計(jì)的數(shù)字化物品庫,就像一個(gè)超級(jí)詳細(xì)的"宜家目錄",不僅有物品的外觀,還有詳細(xì)的使用說明和操作指南。
這個(gè)物品庫包含了731個(gè)不同的物體,分布在147個(gè)類別中。這些物體不是簡單的3D模型,而是經(jīng)過精心設(shè)計(jì)和標(biāo)注的"智能物品"。每個(gè)物品都像一本說明書一樣,記錄了它的各種屬性:外觀特征、物理屬性、功能用途,以及最重要的——如何與它進(jìn)行交互。
物品庫的構(gòu)建過程本身就是一個(gè)有趣的故事。研究團(tuán)隊(duì)使用了多種方法來獲取這些物品:534個(gè)物品是通過RGB到3D重建技術(shù)自主生成的,這就像用照片"復(fù)印"出真實(shí)物品的數(shù)字版本;153個(gè)物品來自于Objaverse數(shù)據(jù)庫,這些主要用作場景中的裝飾和干擾物;還有44個(gè)是可以活動(dòng)的復(fù)雜物品,比如有門可以開關(guān)的柜子、有蓋子可以打開的盒子等。
每個(gè)物品都帶有豐富的語言描述。這些描述不是簡單的名稱標(biāo)簽,而是多角度、多層次的詳細(xì)描述。比如,對(duì)于一只鞋子,描述可能包括"綠色運(yùn)動(dòng)鞋"、"藍(lán)綠色球鞋"、"橡膠底跑鞋"、"藍(lán)綠色跑鞋"、"半綠半藍(lán)球鞋"、"藍(lán)綠色跑鞋配厚米色鞋底"等等。這種多樣化的描述讓機(jī)器人能夠理解同一個(gè)物品的不同表達(dá)方式,就像人類能夠理解"鞋子"、"球鞋"、"運(yùn)動(dòng)鞋"指的是同一類物品一樣。
更重要的是,每個(gè)物品都標(biāo)注了詳細(xì)的交互信息。這包括抓取點(diǎn)(機(jī)器人應(yīng)該抓住物品的哪個(gè)部位)、功能點(diǎn)(物品的關(guān)鍵功能部位,比如杯子的把手、瓶子的瓶口)、放置點(diǎn)(物品可以被放置的位置)、以及物體軸向(物品的朝向信息)。這些信息就像物品的"用戶手冊",告訴機(jī)器人如何正確地與每個(gè)物品進(jìn)行交互。
這種詳細(xì)的標(biāo)注使得機(jī)器人能夠進(jìn)行語義級(jí)別的操作。比如,當(dāng)指令要求"抓住杯子的把手"時(shí),機(jī)器人知道應(yīng)該抓取杯子上標(biāo)記為"把手"的特定區(qū)域,而不是隨意抓取杯子的任何部位。這種精確的交互能力是實(shí)現(xiàn)復(fù)雜操作任務(wù)的基礎(chǔ)。
物品庫還考慮了物品之間的相似性關(guān)系。系統(tǒng)會(huì)識(shí)別哪些物品在視覺上或功能上相似,在生成雜亂場景時(shí)避免使用過于相似的干擾物品。這就像在教孩子認(rèn)識(shí)動(dòng)物時(shí),我們不會(huì)在展示貓咪的同時(shí)放置太多其他小型毛茸茸的動(dòng)物作為干擾,以免造成混淆。
五、50個(gè)任務(wù)的機(jī)器人技能考試
為了全面測試機(jī)器人的雙手協(xié)作能力,研究團(tuán)隊(duì)設(shè)計(jì)了50個(gè)不同復(fù)雜程度的操作任務(wù),這就像一個(gè)機(jī)器人技能的"期末考試",全面檢驗(yàn)機(jī)器人在各種情況下的表現(xiàn)。
這些任務(wù)覆蓋了日常生活中常見的雙手協(xié)作場景。有些任務(wù)考驗(yàn)的是基礎(chǔ)的抓取和放置能力,比如"將玩具車放進(jìn)籃子"或"把鞋子擺放整齊";有些任務(wù)需要更復(fù)雜的雙手配合,比如"兩只手合作疊積木"或"一只手扶住容器,另一只手往里倒東西";還有些任務(wù)考驗(yàn)的是精細(xì)操作和工具使用,比如"使用錘子敲擊積木"或"操作訂書機(jī)"。
每個(gè)任務(wù)都有清晰的成功標(biāo)準(zhǔn)和評(píng)估方法。比如,在"疊碗"任務(wù)中,機(jī)器人需要將多個(gè)碗按照大小順序疊放,不僅要求最終的疊放結(jié)果正確,還要求過程中沒有碗掉落或損壞。在"傳遞積木"任務(wù)中,機(jī)器人需要用一只手抓住積木,然后傳遞給另一只手,再放到指定位置,這考驗(yàn)的是兩只手之間的精確配合。
任務(wù)的設(shè)計(jì)充分考慮了不同機(jī)器人平臺(tái)的能力差異。系統(tǒng)支持五種不同的雙臂機(jī)器人配置:Aloha-AgileX、ARX-X5、Piper、Franka和UR5。每種機(jī)器人都有自己的特點(diǎn)和限制,任務(wù)的執(zhí)行方式也會(huì)相應(yīng)調(diào)整。這就像同一門課程對(duì)不同水平的學(xué)生有不同的考試標(biāo)準(zhǔn)一樣。
為了確保評(píng)估的公平性和一致性,每個(gè)任務(wù)都會(huì)進(jìn)行多次測試。機(jī)器人需要在相同的任務(wù)配置下執(zhí)行100次操作,系統(tǒng)會(huì)記錄成功次數(shù)和失敗原因。這種統(tǒng)計(jì)方法能夠排除偶然因素的影響,更準(zhǔn)確地反映機(jī)器人的真實(shí)能力水平。
測試結(jié)果顯示了不同任務(wù)的難度差異。一些基礎(chǔ)任務(wù),比如"放置空杯子"或"移動(dòng)訂書機(jī)墊",大部分機(jī)器人都能達(dá)到90%以上的成功率。但一些復(fù)雜任務(wù),比如"打開筆記本電腦"或"操作微波爐",成功率就要低很多,有些甚至接近0%。這種差異反映了當(dāng)前機(jī)器人技術(shù)的真實(shí)水平:在簡單的抓取放置任務(wù)上已經(jīng)相當(dāng)成熟,但在涉及復(fù)雜機(jī)構(gòu)或精細(xì)操作的任務(wù)上還有很大改進(jìn)空間。
六、從虛擬到現(xiàn)實(shí):訓(xùn)練效果的驗(yàn)證
機(jī)器人在虛擬世界中學(xué)得再好,最終還是要在真實(shí)世界中發(fā)揮作用。這就像學(xué)開車,無論在駕校練得多熟練,上路時(shí)總還是有些緊張。RoboTwin 2.0的一個(gè)關(guān)鍵測試就是看它訓(xùn)練出來的機(jī)器人能否在真實(shí)環(huán)境中正常工作。
研究團(tuán)隊(duì)設(shè)計(jì)了嚴(yán)格的真實(shí)世界測試,使用COBOT-Magic雙臂機(jī)器人平臺(tái)進(jìn)行驗(yàn)證。他們選擇了四個(gè)代表性的雙手協(xié)作任務(wù):疊碗、傳遞積木、抓取瓶子和按鈴。為了公平比較,每個(gè)任務(wù)都測試了三種不同的訓(xùn)練方式:僅使用真實(shí)世界數(shù)據(jù)訓(xùn)練、真實(shí)數(shù)據(jù)加上虛擬數(shù)據(jù)訓(xùn)練、以及僅使用虛擬數(shù)據(jù)訓(xùn)練(零樣本學(xué)習(xí))。
測試環(huán)境的設(shè)計(jì)很有講究,分為四種不同的難度級(jí)別。最簡單的是"干凈桌面+熟悉背景",這相當(dāng)于在最理想的條件下測試;然后是"干凈桌面+陌生背景",測試機(jī)器人對(duì)視覺變化的適應(yīng)能力;接著是"雜亂桌面+熟悉背景",考驗(yàn)機(jī)器人在復(fù)雜環(huán)境中的操作能力;最難的是"雜亂桌面+陌生背景",這最接近真實(shí)世界的復(fù)雜情況。
結(jié)果令人鼓舞。在所有測試條件下,使用RoboTwin 2.0數(shù)據(jù)增強(qiáng)訓(xùn)練的機(jī)器人都顯示出明顯的性能提升。特別是在復(fù)雜環(huán)境中,提升效果更加明顯。比如在"雜亂桌面+陌生背景"的最困難條件下,平均成功率提升了33%。這說明虛擬環(huán)境中的多樣化訓(xùn)練確實(shí)幫助機(jī)器人更好地適應(yīng)了真實(shí)世界的復(fù)雜性。
更令人驚訝的是零樣本學(xué)習(xí)的效果。完全沒有使用真實(shí)世界數(shù)據(jù)、僅在虛擬環(huán)境中訓(xùn)練的機(jī)器人,在真實(shí)世界中的表現(xiàn)也相當(dāng)不錯(cuò)。在一些任務(wù)中,零樣本機(jī)器人的成功率達(dá)到了60%,這證明了虛擬訓(xùn)練的高質(zhì)量和真實(shí)性。這就像一個(gè)只在模擬器中學(xué)過飛行的飛行員,第一次駕駛真實(shí)飛機(jī)就能平穩(wěn)起飛一樣令人印象深刻。
測試還發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:機(jī)器人在復(fù)雜環(huán)境中的表現(xiàn)提升幅度往往比在簡單環(huán)境中更大。這說明RoboTwin 2.0的環(huán)境隨機(jī)化策略確實(shí)起到了作用,讓機(jī)器人學(xué)會(huì)了應(yīng)對(duì)各種干擾和變化的能力。簡單來說,就是"練得苦,用得甜"——在復(fù)雜多變的虛擬環(huán)境中訓(xùn)練出來的機(jī)器人,在面對(duì)真實(shí)世界的挑戰(zhàn)時(shí)更加從容不迫。
這些真實(shí)世界驗(yàn)證結(jié)果不僅證明了RoboTwin 2.0的有效性,也為未來的機(jī)器人部署提供了信心。它表明,通過精心設(shè)計(jì)的虛擬訓(xùn)練,我們確實(shí)可以大幅降低機(jī)器人技能獲取的成本,同時(shí)保持良好的真實(shí)世界性能。
七、技術(shù)性能的全面提升
要評(píng)估一個(gè)訓(xùn)練系統(tǒng)的好壞,最直接的方法就是看數(shù)字。RoboTwin 2.0在多個(gè)關(guān)鍵指標(biāo)上都實(shí)現(xiàn)了顯著提升,這些數(shù)字背后反映的是實(shí)實(shí)在在的技術(shù)進(jìn)步。
在代碼生成方面,RoboTwin 2.0相比前一代系統(tǒng)實(shí)現(xiàn)了全面提升。平均成功率從47.4%提升到71.3%,這相當(dāng)于50%的相對(duì)提升。更重要的是,系統(tǒng)的穩(wěn)定性也大大改善了。在原來的系統(tǒng)中,不同任務(wù)的成功率差異很大,有些任務(wù)表現(xiàn)很好,有些任務(wù)幾乎完全失敗。而在新系統(tǒng)中,絕大多數(shù)任務(wù)都能達(dá)到相對(duì)穩(wěn)定的成功率,這種一致性對(duì)于實(shí)際應(yīng)用來說非常重要。
效率方面的提升同樣顯著。新系統(tǒng)平均只需要1.76次迭代就能達(dá)到滿意的成功率,而舊系統(tǒng)需要2.42次迭代。這意味著生成高質(zhì)量代碼的速度提升了約27%。同時(shí),每個(gè)任務(wù)的平均代碼長度也大幅減少,從1465個(gè)令牌減少到840個(gè)令牌,這說明生成的代碼更加簡潔高效。
在機(jī)器人適應(yīng)性方面,不同類型機(jī)器人的表現(xiàn)提升差異很大,這恰好驗(yàn)證了個(gè)性化適應(yīng)策略的價(jià)值。高自由度機(jī)器人(如Franka和UR5)的性能基本保持穩(wěn)定,因?yàn)樗鼈儽緛砭陀凶銐虻撵`活性。但低自由度機(jī)器人的提升就非常明顯了:Aloha-AgileX提升了13.7%,Piper提升了22.7%,這對(duì)于這類機(jī)器人來說是巨大的進(jìn)步。
在政策學(xué)習(xí)方面,使用RoboTwin 2.0數(shù)據(jù)訓(xùn)練的模型在處理環(huán)境變化時(shí)表現(xiàn)出了更強(qiáng)的魯棒性。在五個(gè)測試任務(wù)上,使用隨機(jī)化數(shù)據(jù)預(yù)訓(xùn)練的RDT模型平均性能提升了10.6%,Pi0模型提升了8.8%。這種提升在面對(duì)未見過的環(huán)境時(shí)特別明顯,說明多樣化訓(xùn)練確實(shí)幫助模型學(xué)到了更通用的技能。
真實(shí)世界驗(yàn)證的數(shù)字更加令人鼓舞。在最具挑戰(zhàn)性的"雜亂環(huán)境+陌生背景"條件下,使用RoboTwin 2.0增強(qiáng)的模型平均成功率比基線提升了33%。即使是零樣本學(xué)習(xí)(完全沒有真實(shí)世界數(shù)據(jù)),平均成功率也達(dá)到了29.5%,這在以前是難以想象的。
這些數(shù)字的意義不僅在于證明了技術(shù)的進(jìn)步,更重要的是它們反映了機(jī)器人技術(shù)向?qū)嵱没~進(jìn)的重要一步。過去,訓(xùn)練一個(gè)能夠在真實(shí)世界中工作的機(jī)器人需要收集大量昂貴的真實(shí)數(shù)據(jù),現(xiàn)在我們可以在很大程度上依靠虛擬訓(xùn)練來達(dá)到同樣的效果。這不僅大幅降低了成本,也大大加快了機(jī)器人技能開發(fā)的速度。
更重要的是,這些提升是全方位的:不僅任務(wù)成功率提高了,訓(xùn)練效率也提高了;不僅在虛擬環(huán)境中表現(xiàn)更好,在真實(shí)環(huán)境中的泛化能力也更強(qiáng)。這種全面的進(jìn)步表明,RoboTwin 2.0不是在某個(gè)單一維度上的優(yōu)化,而是一個(gè)系統(tǒng)性的技術(shù)突破。
八、開放共享的研究生態(tài)
科學(xué)研究的價(jià)值不僅在于取得突破,更在于推動(dòng)整個(gè)領(lǐng)域的發(fā)展。RoboTwin 2.0團(tuán)隊(duì)秉承開放科學(xué)的理念,將他們的所有研究成果都開放給學(xué)術(shù)界和產(chǎn)業(yè)界使用。
整個(gè)系統(tǒng)的代碼庫都已經(jīng)在GitHub上開源,任何研究者都可以免費(fèi)下載和使用。這個(gè)代碼庫不僅包含了核心算法的實(shí)現(xiàn),還提供了詳細(xì)的文檔和教程,幫助其他研究者快速上手。就像一本詳細(xì)的"烹飪教程",不僅提供了食譜,還解釋了每一步的原理和技巧。
更有價(jià)值的是,研究團(tuán)隊(duì)還公開了他們收集的超過10萬條機(jī)器人操作軌跡數(shù)據(jù)。這些數(shù)據(jù)覆蓋了50個(gè)不同的任務(wù)和5種不同的機(jī)器人平臺(tái),是目前最大規(guī)模的雙臂機(jī)器人操作數(shù)據(jù)集之一。對(duì)于其他研究者來說,這就像獲得了一個(gè)巨大的"練習(xí)題庫",可以直接用于訓(xùn)練和測試自己的算法。
RoboTwin-OD物體庫也完全開放,包含731個(gè)精細(xì)標(biāo)注的物體模型。這些模型不僅可以用于機(jī)器人訓(xùn)練,也可以用于計(jì)算機(jī)視覺、圖形學(xué)等其他領(lǐng)域的研究。每個(gè)物體都有詳細(xì)的語義標(biāo)注和交互信息,這種豐富的標(biāo)注在學(xué)術(shù)界是非常稀缺的資源。
為了方便社區(qū)使用,研究團(tuán)隊(duì)還建立了在線評(píng)估平臺(tái)和排行榜。研究者可以在這個(gè)平臺(tái)上測試自己的算法,并與其他方法進(jìn)行比較。這種標(biāo)準(zhǔn)化的評(píng)估環(huán)境有助于推動(dòng)領(lǐng)域內(nèi)的公平競爭和技術(shù)進(jìn)步。就像學(xué)術(shù)界的"奧運(yùn)會(huì)",為不同的研究團(tuán)隊(duì)提供了一個(gè)公平競技的平臺(tái)。
開放策略還體現(xiàn)在系統(tǒng)的可擴(kuò)展性上。RoboTwin 2.0的架構(gòu)設(shè)計(jì)充分考慮了未來的擴(kuò)展需求,研究者可以輕松地添加新的任務(wù)、新的物體、甚至新的機(jī)器人平臺(tái)。這種模塊化的設(shè)計(jì)讓整個(gè)系統(tǒng)像樂高積木一樣,可以根據(jù)需要自由組合和擴(kuò)展。
這種開放共享的做法對(duì)整個(gè)機(jī)器人學(xué)界產(chǎn)生了積極影響。許多研究團(tuán)隊(duì)已經(jīng)開始基于RoboTwin 2.0開展自己的研究,有的專注于改進(jìn)代碼生成算法,有的致力于擴(kuò)展任務(wù)種類,還有的在探索新的應(yīng)用領(lǐng)域。這種協(xié)作式的研究模式大大加快了整個(gè)領(lǐng)域的發(fā)展速度。
開源還帶來了意想不到的創(chuàng)新。一些研究者將RoboTwin 2.0與其他技術(shù)結(jié)合,開發(fā)出了新的應(yīng)用。比如,有團(tuán)隊(duì)將其與語音識(shí)別結(jié)合,開發(fā)出了可以通過語音控制的機(jī)器人助手;還有團(tuán)隊(duì)將其應(yīng)用于教育領(lǐng)域,開發(fā)出了幫助學(xué)生學(xué)習(xí)編程的機(jī)器人教具。
說到底,好的研究應(yīng)該像種子一樣,不是為了自己開花結(jié)果,而是為了在更廣闊的土地上生根發(fā)芽,最終形成一片繁榮的森林。RoboTwin 2.0的開放策略正是這種理念的體現(xiàn),它不僅推動(dòng)了機(jī)器人技術(shù)的發(fā)展,也為整個(gè)AI研究社區(qū)提供了寶貴的資源和工具。
Q&A
Q1:RoboTwin 2.0到底是什么?它能為機(jī)器人做什么? A:RoboTwin 2.0是一個(gè)智能的機(jī)器人訓(xùn)練系統(tǒng),就像一個(gè)超級(jí)智能的虛擬教練。它能自動(dòng)生成各種機(jī)器人操作任務(wù)的程序代碼,在豐富多樣的虛擬環(huán)境中訓(xùn)練機(jī)器人,讓機(jī)器人學(xué)會(huì)復(fù)雜的雙手協(xié)作技能。最重要的是,在虛擬世界中學(xué)到的技能可以成功轉(zhuǎn)移到真實(shí)世界中使用,大大降低了機(jī)器人技能訓(xùn)練的成本和時(shí)間。
Q2:這個(gè)系統(tǒng)訓(xùn)練出來的機(jī)器人在真實(shí)世界中表現(xiàn)如何? A:實(shí)驗(yàn)結(jié)果非常令人鼓舞。在復(fù)雜的真實(shí)世界任務(wù)中,使用RoboTwin 2.0訓(xùn)練的機(jī)器人成功率比傳統(tǒng)方法提升了367%(從9%提升到42%)。即使是完全沒有使用真實(shí)世界數(shù)據(jù)、僅在虛擬環(huán)境中訓(xùn)練的機(jī)器人,也能在真實(shí)環(huán)境中達(dá)到29.5%的平均成功率。這證明了虛擬訓(xùn)練的高質(zhì)量和實(shí)用價(jià)值。
Q3:普通研究者或公司能使用RoboTwin 2.0嗎?有什么要求? A:完全可以!研究團(tuán)隊(duì)已經(jīng)將所有代碼、數(shù)據(jù)和模型完全開源,任何人都可以免費(fèi)下載使用。系統(tǒng)支持多種常見的機(jī)器人平臺(tái),包括Franka、UR5、Piper等。用戶需要有基本的編程能力和機(jī)器人硬件,系統(tǒng)提供了詳細(xì)的文檔和教程幫助快速上手。對(duì)于沒有硬件的研究者,也可以先在虛擬環(huán)境中進(jìn)行算法開發(fā)和測試。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對(duì)話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。