av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 香港大學團隊突破機器人"動作理解"難題:讓任何機器人都能學會人類技能

香港大學團隊突破機器人"動作理解"難題:讓任何機器人都能學會人類技能

2025-07-08 09:28
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-07-08 09:28 ? 科技行者

這項由香港大學OpenDriveLab實驗室的卜慶雯、楊彥廷等研究人員領導的突破性研究發(fā)表于2025年5月,論文代碼已在GitHub開源(https://github.com/OpenDriveLab/UniVLA)。有興趣深入了解的讀者可以通過arXiv:2505.06111v2訪問完整論文。

當你看到一個孩子學會用筷子吃飯后,很快就能學會用叉子、勺子甚至用手抓食物時,你是否想過這種"舉一反三"的能力對機器人來說有多么困難?現(xiàn)在,香港大學的研究團隊找到了讓機器人也具備這種能力的方法。

目前的機器人就像只會背誦一本菜譜的廚師,只能在特定廚房用特定工具做特定的菜。一旦換了環(huán)境或工具,就完全不知所措。這是因為現(xiàn)有的機器人訓練方法嚴重依賴于標注好的動作數(shù)據(jù),就像必須有人在旁邊手把手教每一個動作細節(jié)。更糟糕的是,不同品牌、不同型號的機器人就像說著不同"方言"的人,彼此之間無法共享學到的技能。

研究團隊提出的UniVLA框架就像為機器人世界創(chuàng)造了一種"通用語言"。這種語言不是基于具體的機械動作,而是基于任務的本質(zhì)意圖。就好比當人類說"拿起那個杯子"時,不管你用左手還是右手,不管杯子在桌子的哪個位置,你都能理解并完成這個動作的核心目標。

一、破解機器人學習的"巴別塔"難題

傳統(tǒng)的機器人訓練方式面臨著一個根本問題:動作標注的稀缺性。每個機器人的動作都需要人工仔細標注,這就像要為每種語言重新編寫整本字典一樣費時費力。更關鍵的是,網(wǎng)絡上雖然有海量的視頻資源——從專業(yè)的機器人演示到日常的人類活動錄像,但這些寶貴的學習材料卻無法被現(xiàn)有方法有效利用,因為它們?nèi)狈_的動作標注。

UniVLA的核心創(chuàng)新在于提出了"任務中心潛在動作"的概念。這就像是在混亂的廚房噪音中專門聽取烹飪的核心步驟,而忽略鍋碗瓢盆的碰撞聲。研究團隊發(fā)現(xiàn),在任何視頻中都存在兩類信息:與任務相關的核心動作(比如抓取、放置、轉動)和與任務無關的環(huán)境噪音(比如背景中其他人的移動、光線變化、攝像頭抖動)。

為了實現(xiàn)這種分離,研究團隊設計了一個兩階段的訓練過程。在第一階段,系統(tǒng)學習識別與任務無關的環(huán)境變化,這些變化雖然在視頻中很明顯,但對完成任務本身并不重要。第二階段則專注于提取真正的任務核心動作。這種方法的巧妙之處在于,通過語言指令的引導,系統(tǒng)能夠自動區(qū)分哪些視覺變化是完成任務必需的,哪些只是環(huán)境噪音。

二、從視頻中"看懂"動作的本質(zhì)

UniVLA使用了一種被稱為VQ-VAE的技術來將連續(xù)的動作壓縮成離散的"動作詞匯"。這就像是將復雜的音樂旋律轉換成簡單的音符記號,既保留了核心信息,又大大簡化了處理復雜度。這些"動作詞匯"就像是機器人世界的通用語言,不同的機器人雖然"口音"(硬件設計)不同,但都能理解這些基本的"詞匯"含義。

研究團隊還采用了DINOv2特征作為視覺表示的基礎。DINOv2是一種能夠理解圖像中物體和空間關系的視覺模型,它就像是給機器人裝上了一雙能夠理解世界結構的"眼睛"。與傳統(tǒng)的像素級預測不同,DINOv2關注的是物體的語義信息和空間關系,這讓系統(tǒng)能夠更好地理解"拿起紅色的杯子"這樣的指令,而不是簡單地模仿像素的變化。

這種方法的另一個重要優(yōu)勢是它的數(shù)據(jù)效率。傳統(tǒng)方法需要大量的標注數(shù)據(jù)才能訓練出可用的模型,而UniVLA可以從未標注的網(wǎng)絡視頻中學習。研究顯示,即使只使用Bridge-V2數(shù)據(jù)集進行預訓練,UniVLA的表現(xiàn)也超過了使用更大規(guī)模Open X-Embodiment數(shù)據(jù)集訓練的其他方法。這就像是一個學生通過看電影學會了外語,而其他學生還在啃厚重的語法書。

三、讓機器人學會"舉一反三"

UniVLA的訓練過程分為三個關鍵階段,每個階段都有其獨特的作用。首先是任務中心潛在動作學習階段,這個過程就像教會系統(tǒng)區(qū)分"有用的動作"和"無用的背景噪音"。系統(tǒng)學會從大量視頻中提取出真正與任務完成相關的動作模式,而忽略那些雖然在視頻中很明顯但與任務無關的變化。

第二階段是下一個潛在動作預測訓練,這就像是訓練一個能夠"預測下一步該做什么"的智能助手。系統(tǒng)基于Prismatic-7B視覺語言模型,學會根據(jù)當前的觀察和任務指令,預測下一步應該執(zhí)行的潛在動作。這個過程讓機器人具備了跨領域的規(guī)劃能力,能夠在統(tǒng)一的潛在空間中進行思考和決策。

第三階段是潛在動作解碼,這是將通用的"動作意圖"轉換為具體機器人可執(zhí)行動作的過程。這就像是一個翻譯器,將通用的任務指令翻譯成特定機器人能夠理解的"方言"。每個機器人只需要訓練一個小型的解碼器(僅包含1.26萬個參數(shù)),就能將通用的潛在動作轉換為自己的具體控制信號。

四、驚人的實驗表現(xiàn)與真實世界驗證

在LIBERO基準測試中,UniVLA展現(xiàn)出了令人印象深刻的性能提升。這個基準包含四個不同的任務套件,每個都測試機器人的不同能力。在空間推理任務中,UniVLA的成功率達到96.5%,相比OpenVLA的84.7%有顯著提升。在物體泛化任務中,成功率從88.4%提升到96.8%。最令人印象深刻的是在長期任務規(guī)劃中,UniVLA將成功率從53.7%大幅提升到92.0%,這意味著機器人在處理需要多個步驟的復雜任務時表現(xiàn)更加可靠。

導航任務的測試進一步證明了UniVLA的跨領域泛化能力。在Room2Room導航基準中,UniVLA達到了47.1%的成功率,相比OpenVLA的17.5%實現(xiàn)了近三倍的提升。更重要的是,這種提升是在只使用單幀RGB圖像輸入的情況下實現(xiàn)的,而其他一些方法需要使用歷史觀察序列或深度信息。

真實世界的機器人實驗可能是最具說服力的驗證。研究團隊設計了四個不同的任務來測試機器人的各種能力。在"存放螺絲刀"任務中,機器人需要展現(xiàn)空間感知能力,將螺絲刀放入柜子并關門,UniVLA達到了93.3%的成功率。在"清理砧板"任務中,機器人需要使用掃帚將物品掃入畚箕,這測試了工具使用和非握持操作能力,成功率達到100%。"疊毛巾"任務測試了對可變形物體的操作能力,而"漢諾塔堆疊"任務則考驗語義理解和多步驟規(guī)劃能力,UniVLA分別達到了46.7%和86.7%的成功率。

五、數(shù)據(jù)規(guī)模效應與泛化能力的深度分析

UniVLA展現(xiàn)出了優(yōu)秀的數(shù)據(jù)擴展性,這意味著隨著訓練數(shù)據(jù)的增加,系統(tǒng)性能持續(xù)改善。研究團隊發(fā)現(xiàn),即使是人類視頻這樣看似與機器人操作相距甚遠的數(shù)據(jù),也能為系統(tǒng)帶來性能提升。從僅使用Bridge-V2數(shù)據(jù)集到加入Open X-Embodiment數(shù)據(jù),再到最終包含人類活動視頻,系統(tǒng)的平均性能穩(wěn)步提升。在真實世界實驗中,數(shù)據(jù)規(guī)模的擴大帶來了持續(xù)的性能改善,這表明UniVLA能夠有效地從多樣化的數(shù)據(jù)源中提取有用信息。

更令人印象深刻的是系統(tǒng)的數(shù)據(jù)效率。在LIBERO-Goal和LIBERO-Long基準測試中,僅使用10%的訓練數(shù)據(jù),UniVLA就能達到86.3%和71.4%的成功率,這不僅超過了使用完整數(shù)據(jù)集訓練的OpenVLA,也為實際應用中的快速部署提供了可能性。這種數(shù)據(jù)效率來源于潛在動作空間的緊湊性和信息密度,相比傳統(tǒng)的2567維動作空間,UniVLA使用的16維潛在空間大大降低了學習復雜度。

泛化能力測試顯示了UniVLA在面對新環(huán)境時的魯棒性。在光照變化測試中,研究團隊調(diào)暗環(huán)境光線并施加強定向照明,UniVLA仍能保持66.7%的成功率。在視覺干擾測試中,當工作臺面添加了碗、筆記本和膠帶等額外物品時,系統(tǒng)成功率為53.3%。最具挑戰(zhàn)性的是新物體測試,將操作對象從螺絲刀替換為未見過的馬克筆,UniVLA達到了86.7%的成功率,這表明系統(tǒng)真正學會了任務的本質(zhì)而非簡單的模式記憶。

六、技術創(chuàng)新的深層機制解析

UniVLA的核心技術創(chuàng)新體現(xiàn)在其任務中心動作分解機制上。傳統(tǒng)的潛在動作學習方法往往將所有視覺變化都編碼到動作表示中,這導致學到的表示包含了大量與任務無關的噪音。UniVLA通過引入語言條件,巧妙地將動作表示分解為任務相關和任務無關兩個部分。在第一階段訓練中,系統(tǒng)在語言指導下學習編碼與任務無關的環(huán)境變化,第二階段則專門學習任務核心動作。

這種分解的效果通過定量分析得到了驗證。使用任務中心潛在動作訓練的策略在LIBERO基準上平均達到88.7%的成功率,而使用傳統(tǒng)方法學到的任務無關動作訓練的策略僅達到56.5%。特別是在長期任務LIBERO-Long中,差異更加明顯:任務中心方法達到79.4%成功率,而任務無關方法幾乎完全失敗,僅達到0.2%。

動作解碼器的設計也體現(xiàn)了系統(tǒng)的優(yōu)雅性。相比傳統(tǒng)的自回歸動作生成方式,UniVLA采用基于注意力機制的并行解碼,這不僅提高了推理效率,還改善了動作序列的一致性。解碼器使用視覺嵌入作為查詢來提取潛在動作信息,這種設計減少了多模態(tài)分布的歧義性,在LIBERO-Long任務中帶來了42.1%的性能提升。

歷史動作整合機制進一步增強了系統(tǒng)的序列決策能力。受到大語言模型中思維鏈推理的啟發(fā),UniVLA將歷史潛在動作作為輸入提示,建立了機器人策略的反饋循環(huán)。這種設計在長期任務中特別有效,在LIBERO-Long中帶來3.9%的提升,在導航任務中提升更是達到16.5%。

七、與現(xiàn)有方法的系統(tǒng)性比較

UniVLA與現(xiàn)有方法的比較揭示了其獨特優(yōu)勢。相比OpenVLA等直接在原始動作空間中操作的方法,UniVLA通過潛在空間規(guī)劃大大降低了計算復雜度。OpenVLA需要21500個A100 GPU小時進行預訓練,而UniVLA僅需960個GPU小時就能達到更好性能,這相當于用二十分之一的計算資源獲得了更好的結果。

與LAPA等其他潛在動作方法相比,UniVLA的任務中心設計帶來了顯著優(yōu)勢。在所有LIBERO任務中,UniVLA都明顯超過了LAPA的表現(xiàn),平均提升達到29.5%。這種提升主要來源于更好的動作表示質(zhì)量,任務中心的設計讓學到的潛在動作更加聚焦于任務核心,減少了環(huán)境噪音的干擾。

在導航任務中,UniVLA與專門的導航模型NaVid達到了相當?shù)男阅芩?,這尤其令人印象深刻,因為NaVid使用了完整的歷史觀察序列,而UniVLA僅使用當前觀察和歷史潛在動作。這表明潛在動作空間的緊湊表示能夠有效捕獲序列決策所需的關鍵信息。

實時性能分析顯示,UniVLA在NVIDIA RTX 4090 GPU上能夠達到10Hz的閉環(huán)推理頻率,通過預測動作塊(chunk size為12)實現(xiàn)了平滑控制。相比之下,OpenVLA由于推理延遲問題在實際部署中表現(xiàn)不佳,單步動作預測需要0.18秒,動作塊預測需要0.68秒,這種延遲在實際機器人控制中是不可接受的。

八、潛在動作空間的可視化分析

通過可視化分析,研究團隊驗證了潛在動作空間確實學到了語義一致的動作表示。來自不同數(shù)據(jù)源和不同機器人的圖像對,如果被分配了相同的潛在動作標簽,確實展現(xiàn)出了語義上的一致性。比如,標記為"抓取物品"的潛在動作在Bridge數(shù)據(jù)集、RT-1數(shù)據(jù)集、LIBERO環(huán)境甚至人類視頻中都對應著本質(zhì)相同的抓取動作,盡管具體的執(zhí)行細節(jié)可能不同。

注意力熱圖分析進一步揭示了任務中心潛在動作的工作機制。熱圖顯示,學到的潛在動作主要關注任務關鍵區(qū)域:機器人的末端執(zhí)行器和被操作的目標物體,而忽略無關的背景區(qū)域。這種空間注意力模式證明了潛在動作確實編碼了任務中心的空間先驗知識,專注于完成任務所必需的實體。

跨域遷移能力的可視化展示了UniVLA的一個重要特性:即使?jié)撛趧幼髂P蛷奈匆娺^LIBERO數(shù)據(jù)集,它也能準確地為該領域的圖像分配合適的動作標簽。這種零樣本泛化能力來源于潛在動作空間的語義豐富性,它學會了動作的本質(zhì)特征而非表面的視覺模式。

九、計算效率與實際部署考量

UniVLA在計算效率方面的優(yōu)勢為實際部署提供了重要保障。相比傳統(tǒng)方法需要大量標注數(shù)據(jù)和長時間訓練,UniVLA能夠快速適應新的機器人平臺。僅需訓練包含1.26萬參數(shù)的小型解碼器,就能將預訓練的通用策略適配到具體機器人上。這種輕量級適配方案大大降低了部署成本和時間。

LoRA(低秩適應)技術的使用進一步提高了訓練效率。在下游任務適配中,只有約123萬個參數(shù)需要更新,這相比完整模型的70億參數(shù)是微不足道的。這種參數(shù)高效的微調(diào)方法讓UniVLA能夠在保持高性能的同時,快速適應新的任務和環(huán)境。

動作塊預測機制也體現(xiàn)了系統(tǒng)的實用性考量。由于潛在動作設計為表示約一秒鐘的動作序列,它們可以自然地解碼為動作塊,塊大小可以根據(jù)具體機器人的控制頻率靈活調(diào)整。這種設計既提高了控制的平滑性,又減少了推理頻率要求,使得實時控制成為可能。

內(nèi)存使用和存儲需求的優(yōu)化也值得關注。潛在動作的離散化表示大大減少了存儲需求,16個潛在動作令牌相比原始的高維動作序列占用更少的存儲空間。這對于需要存儲大量演示數(shù)據(jù)的實際應用來說是一個重要優(yōu)勢。

十、面向未來的擴展性與局限性

盡管UniVLA取得了顯著進展,但研究團隊也誠實地指出了當前方法的局限性。潛在動作的固定粒度和預定義碼本大小可能不是所有任務或機器人的最優(yōu)選擇。探索自適應機制來根據(jù)環(huán)境條件動態(tài)調(diào)整這些參數(shù),將是未來研究的一個重要方向。

當前的評估主要集中在單臂操作任務上,而潛在動作令牌表示的動作粒度在框架內(nèi)相對固定。將框架擴展到雙臂人形系統(tǒng)或靈巧手操作可能需要更復雜和細粒度的動作空間建模。這為未來的研究提供了明確的發(fā)展方向。

語言標注的粒度要求也是一個需要考慮的因素。任務相關的潛在動作設計主要編碼對任務完成關鍵的自主體運動,而排除非自主體動態(tài)。雖然這種設計在大多數(shù)情況下是有效的,但對于某些需要與環(huán)境動態(tài)密切交互的任務,可能需要更靈活的表示方法。

與世界模型的集成為UniVLA開辟了新的可能性。潛在動作模型的解碼器本質(zhì)上是一個世界模型,能夠根據(jù)潛在動作預測未來觀察。這為強化學習中的參考對齊和通過規(guī)劃樹進行測試時擴展開辟了道路,其中視覺語言模型或啟發(fā)式函數(shù)可以作為獎勵模型。

上下文學習能力對于提高視覺語言動作模型的性能上限至關重要??紤]到潛在動作模型能夠提取連接人類和機器人操作的可遷移運動表示,將人類演示視頻編碼為緊湊潛在動作嵌入序列作為上下文樣本的方法值得探索。這種方法可能實現(xiàn)零樣本技能獲取,無需額外的微調(diào)。

說到底,UniVLA為機器人學習領域帶來了一種全新的思路。它不再執(zhí)著于讓每個機器人從零開始學習,而是建立了一個通用的"技能理解"框架,讓不同的機器人都能共享和遷移已學到的能力。這就像是為機器人世界建立了一個通用的"技能圖書館",每個新的機器人都可以從中借閱和學習。

更重要的是,這項研究展示了如何有效利用網(wǎng)絡上豐富的視頻資源來訓練機器人。不再需要昂貴的人工標注過程,也不再受限于特定機器人平臺的數(shù)據(jù)稀缺問題。隨著視頻數(shù)據(jù)的不斷增長和計算能力的提升,我們有理由相信,未來的機器人將能夠更快、更便宜地學會復雜的技能,最終走進千家萬戶,成為真正有用的智能助手。

當然,從實驗室到實際應用還有很長的路要走,但UniVLA已經(jīng)為我們展示了一個充滿希望的方向。也許在不久的將來,當你的家用機器人輕松地從網(wǎng)絡視頻中學會新技能時,你會想起今天這項來自香港大學的開創(chuàng)性研究。如果你對這項研究的技術細節(jié)感興趣,可以訪問他們的GitHub代碼庫或查閱完整論文來深入了解。

Q&A

Q1:UniVLA是什么?它能做什么? A:UniVLA是由香港大學開發(fā)的通用機器人學習框架,它的核心能力是讓不同類型的機器人都能共享和遷移技能。通過創(chuàng)建"任務中心潛在動作"這種通用語言,任何機器人都能從網(wǎng)絡視頻中學習,而不需要昂貴的人工標注數(shù)據(jù)。

Q2:UniVLA會不會取代現(xiàn)有的機器人訓練方法? A:不會完全取代,但會大大改變機器人訓練方式。UniVLA主要解決的是跨機器人技能遷移和數(shù)據(jù)稀缺問題,它能讓機器人訓練變得更高效、更經(jīng)濟,但仍需要與現(xiàn)有方法結合使用,特別是在具體任務的精細調(diào)優(yōu)方面。

Q3:普通人能使用UniVLA技術嗎?有什么要求? A:目前UniVLA主要面向研究人員和機器人開發(fā)者,代碼已在GitHub開源。普通消費者還無法直接使用,但這項技術為未來家用機器人的普及奠定了基礎,有望讓機器人更快學會家務技能并降低成本。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-