av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 突破視覺瓶頸:中央工學(xué)院研究團(tuán)隊證明以物體為中心的表征能顯著提升機器人操作能力

突破視覺瓶頸:中央工學(xué)院研究團(tuán)隊證明以物體為中心的表征能顯著提升機器人操作能力

2025-05-26 17:52
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-26 17:52 ? 科技行者

2024年,來自法國埃屈里的中央工學(xué)院(Ecole Centrale de Lyon)LIRIS實驗室的Alexandre Chapin、Bruno Machado、Emmanuel Dellandrea和Liming Chen共同發(fā)表了一項具有開創(chuàng)性的研究成果。這篇題為《Object-Centric Representations Improve Policy Generalization in Robot Manipulation》的論文探究了一種全新的視覺表征方法,這種方法能夠顯著提高機器人在執(zhí)行各種操作任務(wù)時的泛化能力。

機器人為什么會"迷惑":傳統(tǒng)視覺方法的局限

想象一下,你走進(jìn)一個從未去過的廚房準(zhǔn)備做飯。即使燈光不同、廚具擺放位置奇怪,你仍然能輕松識別出鍋碗瓢盆并正確使用它們。但對機器人來說,這種我們認(rèn)為理所當(dāng)然的能力卻是一項巨大挑戰(zhàn)。

目前的機器人視覺系統(tǒng)主要依賴兩種方法:一種是"全局表征",它將整個畫面壓縮成一個特征向量,就像把整個廚房場景拍成一張全景照片;另一種是"密集表征",它將畫面分解成許多小區(qū)域,就像把廚房場景切分成一系列小照片。這兩種方法都存在一個關(guān)鍵問題:它們無法有效區(qū)分場景中的關(guān)鍵物體和無關(guān)背景,導(dǎo)致機器人在環(huán)境發(fā)生變化時(比如燈光、紋理或有干擾物出現(xiàn))容易"迷惑"。

中央工學(xué)院的研究團(tuán)隊提出了一個大膽假設(shè):如果機器人像人類一樣"看"世界——不是看一團(tuán)混雜的像素,而是識別出獨立的物體實體——它是否能更好地應(yīng)對環(huán)境變化?

以物體為中心的表征:讓機器人像人類一樣"看"世界

研究團(tuán)隊提出的解決方案叫做"以物體為中心的表征"(Object-Centric Representations,簡稱OCR)。這種方法不再將圖像視為均質(zhì)的像素集合,而是將其分解成一組有意義的實體——即物體。

想象一下拼圖游戲:傳統(tǒng)方法就像看到一大堆拼圖碎片,而OCR則能識別出這些碎片組成的獨立圖案(如一把椅子、一張桌子等)。這種表征方式引入了一種"歸納偏置"(inductive bias),使機器人能夠更自然地理解和操作真實世界中的物體。

具體來說,研究團(tuán)隊采用了一種叫做"槽注意力"(Slot Attention)的算法,該算法能夠?qū)⒁曈X輸入分解成固定數(shù)量的"槽"(slots),每個槽對應(yīng)場景中的一個實體。這種方法模擬了人類感知的基本特性——我們不是看到一片混亂的色彩,而是看到一個個獨立的、可交互的物體。

研究方法:全面對比不同視覺表征的性能

為了驗證OCR的有效性,研究團(tuán)隊開發(fā)了一個統(tǒng)一框架,用于評估不同類型的視覺表征在機器人操作任務(wù)中的表現(xiàn)。他們選擇了7種代表性的視覺編碼器進(jìn)行比較,包括:

傳統(tǒng)方法:如基于ResNet-50的全局和密集表征模型(如R3M、DINOv2、VC-1、Theia)。

OCR方法:如DINOSAUR和VIDEOSAUR及其改進(jìn)版本(DINOSAUR*和VIDEOSAUR*,在機器人數(shù)據(jù)上進(jìn)行了預(yù)訓(xùn)練)。

實驗環(huán)境涵蓋了三個互補的場景:

MetaWorld:一個包含簡單桌面操作任務(wù)的模擬環(huán)境,使用Sawyer機械臂完成。 LIBERO-90:一個包含復(fù)雜多物體場景的模擬環(huán)境,跨越廚房、辦公室和客廳等多種場景。 真實世界:研究團(tuán)隊開發(fā)的一套易于復(fù)制的真實機器人任務(wù),使用低成本SO-100機械臂完成。

研究團(tuán)隊特別設(shè)計了測試場景來評估模型在不同視覺干擾下的泛化能力,包括新的干擾物體出現(xiàn)、表面紋理變化和光照條件變化。

關(guān)鍵創(chuàng)新:機器人數(shù)據(jù)預(yù)訓(xùn)練

值得注意的是,研究團(tuán)隊不僅比較了現(xiàn)有模型,還引入了一個創(chuàng)新點:在機器人操作數(shù)據(jù)上預(yù)訓(xùn)練OCR模型。

想象一下,如果讓一個從未見過廚房的人去做飯,肯定會手忙腳亂;但如果這個人之前看過大量烹飪視頻,即使在陌生廚房也能較快上手。類似地,研究團(tuán)隊收集并預(yù)處理了來自三個主要來源的機器人操作視頻數(shù)據(jù)集:BridgeData V2(使用WidowX-250機械臂的家庭任務(wù)演示)、Fractal(使用Everyday Robots完成的廚房操作任務(wù))和DROID(包含多個實驗室的非約束機器人交互)。

這些數(shù)據(jù)集共包含超過18.8萬個軌跡,涵蓋了豐富的視覺和物理多樣性,包括不同視角、物體類型和光照條件。研究團(tuán)隊使用這些數(shù)據(jù)訓(xùn)練OCR模型的槽注意力模塊,使其能夠?qū)W習(xí)到與機器人操作動態(tài)相關(guān)的結(jié)構(gòu)化表征。

研究發(fā)現(xiàn):OCR模型在所有測試中表現(xiàn)優(yōu)異

實驗結(jié)果令人振奮。在三個測試環(huán)境中,基于OCR的方法(特別是VIDEOSAUR*)一致優(yōu)于全局和密集表征方法。

在MetaWorld環(huán)境中,除了VC-1外,所有模型的表現(xiàn)都超過60%的成功率。OCR模型的表現(xiàn)與頂級基線相當(dāng),盡管環(huán)境相對簡單。

在LIBERO環(huán)境中,OCR模型的優(yōu)勢更為明顯。VIDEOSAUR*比最好的密集模型(Theia)提高了9%的成功率,展示了其處理多物體交互的能力。

在真實世界設(shè)置中,OCR模型再次優(yōu)于其他模型。VIDEOSAUR*達(dá)到了70%的成功率,而最好的密集基線僅為50%。有趣的是,最簡單的模型——在ImageNet上預(yù)訓(xùn)練的ResNet-50——也表現(xiàn)得相當(dāng)不錯,可能是由于其緊湊的大小和視覺預(yù)訓(xùn)練數(shù)據(jù)的多樣性。

更令人興奮的是,在評估模型對分布外條件的泛化能力時,OCR模型表現(xiàn)出色,特別是在紋理和光照變化方面。在MetaWorld中,VIDEOSAUR*在紋理和光照變化下的成功率分別為35%和65%,遠(yuǎn)高于大多數(shù)基線模型。在真實世界評估中,VIDEOSAUR*同樣表現(xiàn)出強大的魯棒性,在紋理和光照變化下的成功率分別為50%和58%。

關(guān)鍵洞察:物體中心視角的重要性

通過對不同OCR變體的比較,研究團(tuán)隊得出了兩個關(guān)鍵洞察:

首先,在預(yù)訓(xùn)練中加入機器人數(shù)據(jù)能顯著提升性能。比較DINOSAUR*與DINOSAUR、VIDEOSAUR*與VIDEOSAUR的性能,可以看到在機器人數(shù)據(jù)上預(yù)訓(xùn)練的模型在所有環(huán)境中都有顯著提升。

其次,考慮時間動態(tài)也是提升性能的重要因素。VIDEOSAUR*相比DINOSAUR*在LIBERO和真實環(huán)境中分別提高了9和26個百分點,證明了時間信息對機器人操作的重要性。

這對未來機器人技術(shù)意味著什么?

這項研究的成果意義重大。它表明,通過引入以物體為中心的視覺表征,我們可以顯著提高機器人在復(fù)雜環(huán)境中的操作能力和適應(yīng)性。

想象一下,這就像是給機器人裝上了一副全新的"眼鏡",讓它能夠像人類一樣識別和追蹤環(huán)境中的獨立物體,而不是被海量的像素信息所淹沒。這種能力對于家庭服務(wù)機器人、倉儲機器人或醫(yī)療輔助機器人等應(yīng)用至關(guān)重要,因為這些機器人需要在不斷變化的環(huán)境中執(zhí)行復(fù)雜任務(wù)。

盡管研究團(tuán)隊也指出了OCR方法的一些局限性——例如,當(dāng)前的OCR方法沒有固有地綁定到特定物體,缺乏語義基礎(chǔ);某些槽被分配給沒有捕獲有意義語義內(nèi)容的背景區(qū)域;以及在某些失敗案例中,槽也會捕獲干擾物——但這些問題都為未來研究指明了方向。

結(jié)語:邁向更智能、更適應(yīng)性強的機器人

這項研究表明,我們應(yīng)該重新思考機器人視覺表征——從扁平的全局或密集特征圖轉(zhuǎn)向更結(jié)構(gòu)化的物體中心表征。通過引入這種結(jié)構(gòu)化偏置,機器人能夠更好地捕捉任務(wù)相關(guān)的結(jié)構(gòu),并在各種視覺條件下保持穩(wěn)健性。

歸根結(jié)底,這項研究為彌合低級視覺輸入和高級符號推理之間的差距提供了一條有前景的道路。通過讓機器人像人類一樣"看"世界——不是看像素,而是看對象——我們可以實現(xiàn)更智能、更通用、更適應(yīng)性強的機器人系統(tǒng)。

對于未來的研究,團(tuán)隊建議探索如何將OCR與多模態(tài)輸入和自監(jiān)督學(xué)習(xí)框架進(jìn)一步整合,以最大化其可擴(kuò)展性和下游實用性。這可能是實現(xiàn)真正自主、通用機器人的重要一步。

如果你對這項研究感興趣,可以在相關(guān)學(xué)術(shù)平臺上查找原論文《Object-Centric Representations Improve Policy Generalization in Robot Manipulation》,深入了解其技術(shù)細(xì)節(jié)和實現(xiàn)方法。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-