在機器人研究的前沿領域,紐約大學和加州大學伯克利分校的研究團隊剛剛發(fā)布了一項突破性成果。2025年5月26日發(fā)表于arXiv的論文《EgoZero: Robot Learning from Smart Glasses》,由Vincent Liu、Ademi Adeniji、Haotian Zhan(三位第一作者共同貢獻)、Raunaq Bhirangi、Pieter Abbeel和Lerrel Pinto合作完成,向我們展示了一種全新的機器人學習方法。這項研究的成果可以在項目官方網(wǎng)站https://egozero-robot.github.io上查看,包括代碼實現(xiàn)和演示視頻。
一、現(xiàn)實世界中的機器人學習困境
想象一下,你剛買了一臺智能音箱,只需簡單設置就能識別各種口音和語調的語音指令;或者一款新手機,能夠精準識別照片中的人臉和物體。這些人工智能技術已經(jīng)變得如此普遍和高效,但為什么我們家中的機器人助手仍然顯得如此笨拙和有限呢?
答案就藏在數(shù)據(jù)的獲取方式上。語言模型可以從互聯(lián)網(wǎng)上海量的文本中學習,圖像識別系統(tǒng)可以通過數(shù)以百萬計的照片訓練自己,但機器人卻面臨著一個根本性的瓶頸:它們需要在真實物理世界中收集數(shù)據(jù),而這種數(shù)據(jù)收集過程既昂貴又耗時。
研究團隊指出,這個瓶頸并非源于現(xiàn)實世界中缺乏數(shù)據(jù)——恰恰相反,人類每天都在執(zhí)行各種精細的操作任務,這些都是潛在的寶貴學習資源。真正的挑戰(zhàn)在于如何有效地捕捉和表示這些人類行為,并將其轉化為機器人可以學習的形式。
過去的研究嘗試過使用人類示范作為監(jiān)督信號來訓練機器人,但都面臨各種限制:需要額外的穿戴設備、需要機器人訓練數(shù)據(jù)、需要多相機校準、需要在線微調、只能產(chǎn)生低精度的基于可負擔性的策略,或者需要特殊的數(shù)據(jù)處理技巧來跨越人機形態(tài)差距。其他基于視覺的學習方法則依賴于大規(guī)模的多機器人數(shù)據(jù)集進行預訓練,但尚未展示純粹從人類數(shù)據(jù)實現(xiàn)零樣本遷移的能力。
二、EgoZero:一種全新的機器人學習范式
EgoZero的核心理念可以用一個簡單的問題來概括:機器人能否僅僅通過觀察人類在自然環(huán)境中的行為來學習操作技能,而無需任何機器人自身的訓練數(shù)據(jù)?
這個看似簡單的問題背后隱藏著復雜的技術挑戰(zhàn)。想象一下,你在教一個從未見過西紅柿的孩子如何切西紅柿。你不僅需要展示切的動作,還需要讓孩子理解什么是西紅柿、如何握刀、用多大的力度等等。而對于機器人來說,這個問題更加復雜,因為機器人的"手"和人類的手完全不同,它的"眼睛"(攝像頭)也與人類視角有很大差異。
EgoZero通過一種輕量級的框架解決了這個問題,它允許機器人直接從使用Project Aria智能眼鏡捕獲的第一人稱人類示范中學習操作策略。這種方法完全消除了對機器人遠程操作、校準或額外穿戴設備的需求,讓人類可以自由地與世界互動,同時仍能為機器人提供有效的監(jiān)督信號。
受到之前研究的啟發(fā),EgoZero通過將狀態(tài)和動作表示為緊湊的點集來克服形態(tài)差距。這種基于點的表示同時統(tǒng)一了人類和機器人的分布,提高了策略學習的樣本效率和可解釋性,并能夠泛化到新的視覺場景和形態(tài)。
然而,在野外收集第一人稱數(shù)據(jù)時,研究者無法使用之前研究中的多相機校準設置來精確計算點表示。因此,EgoZero引入了新方法,從原始視覺和測距輸入中精確導出狀態(tài)和動作表示。
三、技術創(chuàng)新:從人類動作到機器人學習的橋梁
要理解EgoZero的技術創(chuàng)新,我們可以將其想象為一種翻譯系統(tǒng),它將"人類語言"(動作、視角和意圖)翻譯成"機器人語言"(可執(zhí)行的機械動作)。這種翻譯過程分為幾個關鍵步驟:
首先,研究團隊使用Project Aria智能眼鏡記錄人類示范。這種眼鏡配備了多種傳感器、SDK和額外的機器感知服務(MPS)。研究中使用了魚眼RGB相機和兩個SLAM相機進行數(shù)據(jù)捕獲,并從MPS獲取準確的在線6DoF手部姿勢、相機內參和相機外參。每次記錄包含RGB圖像、6DoF手掌姿勢和6DoF相機外參。
接下來,研究者定義了與形態(tài)無關的狀態(tài)和動作空間。對于動作空間,他們將其定義為3D端點自我中心坐標和抓取閉合的連接空間。由于Aria只提供手部姿勢而沒有端點信息,他們使用HaMeR模型來計算21關鍵點自我中心手部模型。雖然HaMeR在相機框架中的端點預測不準確,但在手部框架中的預測更可靠。因此,他們將HaMeR的局部手部變形與Aria的自我中心手部信息組合起來。
對于狀態(tài)空間,他們將其定義為自我中心物體點集和機器人端點動作的連接空間。提取物體的點表示需要從多個相機進行三角測量或使用深度進行反投影,但Project Aria眼鏡無法提供這兩種功能。即使最先進的單目度量深度模型在有接地條件的情況下也不一致且不準確。
因此,研究者依靠Aria的精確SLAM外參和CoTracker3來對整個示范軌跡進行2D點三角測量。這假設物體在抓取前是靜止的,相機有足夠的移動,環(huán)境不是隨機的。他們使用Grounding DINO和DIFT將專家標記的UV坐標映射到起始幀上,并使用CoTracker3跟蹤這些點,以獲得相機位姿和UV坐標軌跡。然后通過優(yōu)化最小化每一幀中的像素重投影誤差,同時添加軟深度懲罰以在存在多個解決方案時偏向更近的解決方案。
在獲取了這些形態(tài)無關的狀態(tài)和動作表示后,他們使用行為克隆方法訓練了一個基于Transformer的閉環(huán)策略。該策略被建模為正態(tài)分布的均值,并通過最小化負對數(shù)似然函數(shù)進行訓練。他們還對策略進行了各種增強,包括歷史緩沖區(qū)輸入、時間聚合動作分塊和隨機3D變換,這些對于野外遷移是必要的。
在推理階段,他們使用Grounding DINO和DIFT來裁剪和映射專家標記的UV坐標到起始幀上,并使用iPhone表示靜止的自我中心視圖,因為它允許使用精確的深度將點反投影到3D空間。通過在推理開始時校準iPhone到機器人的變換,策略的3D預測被映射到機器人框架中。
四、實驗驗證:從人類示范到機器人執(zhí)行
EgoZero的有效性通過在Franka Panda抓取機器人上進行的一系列實驗得到了驗證。研究團隊設計了七種不同的操作任務來測試他們的方法:
1. 打開烤箱門:機器人抓住并拉下烤箱門的把手,每次評估時烤箱的位置都會變化。 2. 將面包放在盤子上:機器人從桌子上拿起一片可變形的面包并將其放在盤子上,面包的位置在每次評估時都會變化。 3. 用掃帚清掃板子:機器人從籃子里拿起一把迷你掃帚并清掃木板,掃帚、籃子和板子的位置在每次評估時都會變化。 4. 擦板子:機器人從桌子上拿起白板擦并用它擦白板,擦子和板子的位置在每次評估時都會變化。 5. 將水果分類到碗中:機器人被提示拿起檸檬、酸橙和蜜橘中的一種,并將其放入碗中,水果和碗的位置在每次評估時都會變化。 6. 折毛巾:機器人抬起毛巾的一端(靠近相機的一端)并將其折疊到毛巾的另一端上,毛巾的位置在每次評估時都會變化。 7. 將書插入書架:機器人拿起一本書并將其插入書架,書和書架的位置在每次評估時都會變化。
對于每項任務,研究團隊收集了100個示范,每個示范大約需要12秒,總共大約20分鐘的數(shù)據(jù)收集時間。他們在示范環(huán)境中變化了物體位置,但在推理時環(huán)境中沒有收集任何數(shù)據(jù)。
實驗結果令人印象深刻。EgoZero在七個操作任務上實現(xiàn)了平均70%的零樣本成功率,證明了從野外人類數(shù)據(jù)到真實世界機器人執(zhí)行的有效遷移。更令人驚訝的是,這一成功是在完全沒有機器人訓練數(shù)據(jù)的情況下實現(xiàn)的。
五、與基線方法的比較及消融研究
為了證明EgoZero特定公式的有效性,研究團隊將其與幾種基線方法進行了比較,這些方法是從過去的工作中改編的:
1. 從圖像學習:他們實現(xiàn)了Baku的變體,該變體從圖像輸入預測統(tǒng)一動作空間中的動作。由于人類和機器人之間的視覺分布差異很大,很難從人類視頻中學習閉環(huán)策略并實現(xiàn)零樣本機器人遷移。過去的研究只展示了使用Aria眼鏡的人類視頻作為機器人數(shù)據(jù)的補充,需要仔細重新規(guī)范化人類數(shù)據(jù)分布。此外,Aria的魚眼鏡頭通過在空間和時間上非均勻地扭曲2D-3D對應關系,加劇了這個問題。從類似的機器人和相機分布產(chǎn)生的豐富視覺數(shù)據(jù)中學習3D分布更可靠。
2. 從可負擔性學習:一些研究探索了在沒有機器人數(shù)據(jù)的情況下從第一人稱人類視頻中學習,基于可負擔性的設置。通常,這是通過依賴預訓練的抓取模型生成的開環(huán)軌跡來完成的。他們通過預測類似于之前研究的本體感知標志物來消融他們的閉環(huán)公式——具體來說,是初始和最終抓取,在推理過程中執(zhí)行它們之間的線性軌跡。雖然從可負擔性學習策略在3D表示中很簡單,但它在需要復雜非線性運動的任務上失敗了,比如他們的"將面包放在盤子上"和"擦板子"任務。在機器人上部署時,這些策略表現(xiàn)出不正確的行為:機器人試圖將面包拖到盤子上,并用擦子推板子。在其他部分成功的任務中,策略因生成過于簡單的軌跡而失敗,在執(zhí)行過程中經(jīng)常碰到其他物體。這些失敗表明,閉環(huán)策略對于學習更精確的復雜運動是必要的,即使在不跟蹤物體狀態(tài)的情況下也是如此。
消融研究進一步探索了使野外人類數(shù)據(jù)零樣本遷移成為可能的關鍵設計組件:
1. 3D增強:雖然之前的研究已經(jīng)探索過3D增強,但他們表明這對于野外零樣本遷移確實是必要的。在統(tǒng)一的3D狀態(tài)-動作空間中,策略學習了密集的3D到3D映射。沒有3D增強,策略學習的3D到3D映射體積更小更稀疏。因此,策略在3D位置之間的插值效果不佳,對新位置的魯棒性較差。因此,當給定新的自我中心視圖時,它往往處于分布外狀態(tài)。他們證明,當使用3D增強訓練時,他們的策略可以泛化到遠遠超出其訓練數(shù)據(jù)體積的物體配置。雖然他們的策略學習框架類似于之前的研究,但這些工作不需要3D增強來展示良好的成功率,這表明在自我中心數(shù)據(jù)上學習魯棒策略引入了學習可泛化表示的額外復雜性。
2. 單目深度估計:Aria眼鏡無法提供提取地面真實深度信息的方法:它既不能可靠地三角測量物體(因為所有相機之間的重疊視野有限),也沒有內置的激光雷達或深度傳感器。因此,他們通過相機軌跡上的三角測量來定位物體以獲取其3D信息。為了證明單目度量深度模型不是一個可行的選項,他們用從度量深度模型反投影的方法消融了他們的三角測量方法。他們觀察到,即使在場景中使用多個Aruco標簽進行校準,最好的度量深度模型也會產(chǎn)生>5cm的誤差。這表明深度圖在空間上是不均勻扭曲的,可能是由Aria的魚眼造成的畸變。所有使用估計深度訓練的策略都毫無例外地失敗了。
研究還探討了零樣本泛化的多個維度:
1. 物體姿態(tài)泛化:在數(shù)據(jù)收集和機器人評估中,他們改變了物體的姿態(tài)。如果有多個物體,他們也改變了它們相對于彼此的位置。他們觀察到,使用具有3D狀態(tài)表示的對應性編碼了物體的姿態(tài),并允許他們的策略從野外數(shù)據(jù)進行泛化。他們注意到,他們的人類示范中的空間多樣性遠大于機器人在其工作空間中可以訪問的多樣性。這種多樣性,結合3D增強,使策略在更大的3D體積中學習了更一般的解決方案,從而實現(xiàn)了對機器人的零樣本遷移。他們將物體姿態(tài)的多樣性限制在人類會現(xiàn)實地操作的范圍內(例如,烤箱門對相機是可見的)。
2. 物體語義泛化:基于先前研究,他們還證明了3D表示允許零樣本物體類別泛化。由于他們的訓練和推理圖像差異很大(Aria魚眼與iPhone針孔),他們引入了Grounding DINO來裁剪圖像以提高DIFT的成功率;這不是之前研究實現(xiàn)的,因為他們的相機和背景在訓練和推理之間是相同的。由于Grounding DINO是語言條件的,他們只需用物體類別(例如"烤箱")提示它,就可以讓它泛化到完全新的物體實例。這種預訓練模型的組合將視覺多樣性壓縮成幾何抽象,允許EgoZero在自我中心設置中跨視覺分布進行泛化。
3. 相機泛化:基于視覺的策略最大的限制因素之一是,學習對小的個別像素變化的不變性需要大量數(shù)據(jù)。例如,之前的研究在10,000多小時的跨實施數(shù)據(jù)上進行訓練,但當推理相機(和端點)與用于收集機器人訓練數(shù)據(jù)的相機不同時,其零樣本性能顯著降低。為了解決這個問題,其他研究使用Aria眼鏡進行人類數(shù)據(jù)收集、機器人數(shù)據(jù)收集和策略推理,但仍然需要幾個小時的人類和機器人數(shù)據(jù)以及仔細的重新規(guī)范化才能達到良好的成功率。由于EgoZero從3D點集學習策略,EgoZero完全與相機無關。他們在所有實驗中通過在推理中使用iPhone證明了這一點。
4. 人類尺度泛化:對于每項任務,他們在2-3個不同的環(huán)境中收集數(shù)據(jù),在不同高度的桌面上,有各種背景干擾物,有多個獨特的示范者。他們執(zhí)行示范時,有的移動,有的站立不動,有的坐下。人類示范者的差異在訓練數(shù)據(jù)中提供了額外的多樣性。這些在高度和抓握方面的差異仍然被編碼在同一個統(tǒng)一的表示空間中。
六、EgoZero的局限性與未來發(fā)展方向
盡管EgoZero取得了令人印象深刻的成果,研究團隊也坦率地承認了當前方法的幾個局限性:
1. 3D表示的局限性:推理過程中最大的錯誤來源是對應模型DIFT。對應通過對狀態(tài)空間進行排序來編碼姿態(tài),使策略學習變得樣本高效。在更大的數(shù)據(jù)規(guī)模下,姿態(tài)信息可以直接從密集的無序幾何信息中學習(例如,使用接地分割模型)。對應錯誤可能是一個更普遍的限制的癥狀:策略受其3D點輸入的準確性上限的約束。雖然使用3D點可以簡化策略學習,但它沒有信息來糾正3D測量誤差。
2. 三角測量的局限性:他們依賴運動結構來定位Aria的抓取前軌跡上的物體。雖然當相機運動有限時,這種算法的魯棒性較差,但他們發(fā)現(xiàn)自然任務演示的相機運動通常是足夠的。此外,三角測量需要靜止的物體,這意味著他們無法跟蹤物體。未來,立體相機或廉價的激光雷達可以消除這些約束,并允許在隨機設置中進行閉環(huán)策略學習。研究團隊希望隨著硬件設計的改進,深度估計將變得更加容易。
3. 手部模型的局限性:在這項工作中,他們使用HaMeR和Aria的手部姿勢來提取完整的動作空間,這兩者都引入了輕微的不準確性。Aria的手部姿勢并不總是預測手上的相同位置,而HaMeR在手上預測不一致的錯誤旋轉和平移分量。即使精心調整了公式,動作標簽仍然包含1-2厘米的誤差,阻止策略解決高精度任務。研究團隊希望手部估計方法將隨著更好的研究和硬件設計變得更加可靠。
七、結論:邁向以人為中心的機器人技術
總的來說,EgoZero代表了機器人學習領域的一個重要突破。它不僅展示了從第一人稱視角的人類數(shù)據(jù)到機器人執(zhí)行的有效零樣本遷移,而且為解決機器人學習中的數(shù)據(jù)瓶頸提供了一種可行的方法。
這項研究的核心貢獻可以總結為以下幾點:
1. EgoZero策略在七個任務上實現(xiàn)了70%的零樣本成功率,僅使用Project Aria智能眼鏡記錄的人類數(shù)據(jù)進行訓練。據(jù)研究團隊所知,這是第一個成功將野外人類數(shù)據(jù)轉化為閉環(huán)策略的方法,無需任何機器人數(shù)據(jù)。
2. EgoZero策略僅使用100個訓練示范(每項任務20分鐘的數(shù)據(jù)收集)就展示了強大的零樣本泛化特性,證明了從統(tǒng)一3D狀態(tài)-動作表示中學習的魯棒性、可轉移性和數(shù)據(jù)效率。
3. 當評估新的相機視角、空間配置和完全超出分布的物體實例時,EgoZero實現(xiàn)了高成功率——驗證了他們提出的從物體中提取精確3D表示的方法,即使在沒有精確深度測量的情況下也是如此。
更廣泛地說,這項研究表明,野外人類數(shù)據(jù)可以作為真實世界機器人學習的可擴展基礎,為機器人技術提供豐富、多樣和自然的訓練數(shù)據(jù)鋪平了道路。雖然EgoZero代表了如何從人類數(shù)據(jù)實現(xiàn)強大零樣本遷移的初步概念證明,但研究團隊也承認了一些限制,其中許多他們希望隨著硬件和機器人學習方法的共同改進而得到解決。
歸根結底,人類數(shù)據(jù)在其可擴展性和形態(tài)完整性方面具有巨大潛力。EgoZero提供了一個框架,未來的研究可以在此基礎上擴展到完全靈巧和雙手設置。這項工作為一種更以人為中心、可擴展和豐富的機器人技術主題提供了可能性,使機器人能夠從人類在日常生活中自然執(zhí)行的各種任務中學習。
好文章,需要你的鼓勵
新加坡國立大學研究團隊開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實驗顯示,僅訓練AI玩簡單撲克游戲就能讓其數(shù)學推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學題目作為訓練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉移到數(shù)學解題中,為AI訓練提供了新思路。
同濟大學團隊開發(fā)的GIGA-ToF技術通過融合多幀圖像的"圖結構"信息,創(chuàng)新性地解決了3D相機噪聲問題。該技術利用圖像間的不變幾何關系,結合深度學習和數(shù)學優(yōu)化方法,在合成數(shù)據(jù)集上實現(xiàn)37.9%的精度提升,并在真實設備上展現(xiàn)出色泛化能力,為機器人、AR和自動駕駛等領域提供更可靠的3D視覺解決方案。
伊利諾伊大學研究團隊通過對比實驗發(fā)現(xiàn),經(jīng)過強化學習訓練的視覺語言模型雖然表現(xiàn)出"頓悟時刻"現(xiàn)象,但這些自我糾錯行為并不能實際提升推理準確率。研究揭示了AI模型存在"生成-驗證差距",即生成答案的能力強于驗證答案質量的能力,且模型在自我驗證時無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機構聯(lián)合提出SparseLoRA技術,通過動態(tài)稀疏性實現(xiàn)大語言模型訓練加速1.6倍,計算成本降低2.2倍。該方法使用SVD稀疏性估計器智能選擇重要計算部分,在保持模型性能的同時顯著提升訓練效率,已在多個任務上驗證有效性。