**【研究背景與團(tuán)隊(duì)介紹】**
2025年5月,加州大學(xué)伯克利分校的研究團(tuán)隊(duì)Kaiyuan Chen、Shuangyu Xie、Zehan Ma和Ken Goldberg共同發(fā)表了一項(xiàng)創(chuàng)新研究,為機(jī)器人與人工智能領(lǐng)域帶來了新的突破。這篇名為"Robo2VLM: Visual Question Answering from Large-Scale In-the-Wild Robot Manipulation Datasets"的論文于2025年5月21日發(fā)布在arXiv預(yù)印本平臺(tái)上(arXiv:2505.15517v1),探索了如何利用真實(shí)世界的機(jī)器人操作數(shù)據(jù)來增強(qiáng)視覺語言模型(VLM)的能力。
想象一下,當(dāng)你教導(dǎo)孩子認(rèn)識(shí)世界時(shí),你不僅會(huì)告訴他們物體的名稱,還會(huì)讓他們親手觸摸、操作這些物體,從而建立更深刻的理解。同樣的道理適用于人工智能系統(tǒng)。現(xiàn)有的視覺語言模型(如LLaVA、Llama和Qwen等)雖然通過互聯(lián)網(wǎng)上的大量圖像和文本學(xué)習(xí)了豐富的知識(shí),但它們?nèi)狈φ鎸?shí)物理世界的互動(dòng)經(jīng)驗(yàn),特別是在精細(xì)的空間關(guān)系理解和物理交互方面存在明顯不足。
伯克利團(tuán)隊(duì)的研究就像是給這些"聰明但缺乏實(shí)踐經(jīng)驗(yàn)"的AI模型提供了一個(gè)動(dòng)手學(xué)習(xí)的機(jī)會(huì)。他們創(chuàng)新性地提出了一個(gè)反向思路:通常我們使用視覺語言模型來幫助機(jī)器人理解場(chǎng)景和任務(wù),但這次研究卻是利用機(jī)器人在現(xiàn)實(shí)世界中的操作經(jīng)驗(yàn)來反過來增強(qiáng)視覺語言模型的能力。這種機(jī)器人到視覺語言模型(Robot-to-VLM,簡(jiǎn)稱Robo2VLM)的思路,開創(chuàng)了人工智能訓(xùn)練的新范式。
**【研究核心問題與創(chuàng)新點(diǎn)】**
當(dāng)前視覺語言模型面臨的核心挑戰(zhàn)在于,它們所訓(xùn)練的圖像-文本數(shù)據(jù)缺乏精細(xì)的空間信息,而這些信息對(duì)于機(jī)器人識(shí)別長(zhǎng)尾物體、理解復(fù)雜場(chǎng)景、推理空間關(guān)系和規(guī)劃物理交互至關(guān)重要。一些研究者試圖通過模擬生成數(shù)據(jù)來解決這一問題,但模擬環(huán)境與真實(shí)世界之間存在明顯差距,無法準(zhǔn)確模擬真實(shí)世界的視覺屬性(如噪聲、雜亂和光照變化)和物理屬性(如接觸動(dòng)力學(xué)和交互)。
相比之下,遙操作機(jī)器人軌跡包含了精確、結(jié)構(gòu)化的本體感知和運(yùn)動(dòng)學(xué)信息,如關(guān)節(jié)角度、末端執(zhí)行器姿態(tài)、抓取器狀態(tài)和力-扭矩讀數(shù),這些數(shù)據(jù)隱含地編碼了3D空間信息。伯克利團(tuán)隊(duì)提出的核心假設(shè)是:從機(jī)器人軌跡中提取的視覺和文本數(shù)據(jù)可以提高視覺語言模型的空間推理能力。
基于這一假設(shè),研究團(tuán)隊(duì)開發(fā)了Robo2VLM,這是一個(gè)多選視覺問答(VQA)數(shù)據(jù)集生成框架。給定一個(gè)人類遙操作的機(jī)器人軌跡,Robo2VLM從非視覺和非描述性的傳感模態(tài)(如末端執(zhí)行器姿態(tài)、抓取器開口度和力感知)中提取地面真值。根據(jù)這些模態(tài),它將機(jī)器人軌跡分割成一系列操作階段。在每個(gè)階段,Robo2VLM利用場(chǎng)景和交互理解來識(shí)別機(jī)器人、任務(wù)目標(biāo)和目標(biāo)物體的3D屬性。這些屬性用于生成基于空間、目標(biāo)條件和交互推理問題模板的代表性VQA查詢——圖像和文本多選題。
**【研究方法詳解】**
Robo2VLM的工作流程就像是一位細(xì)心的觀察者,它不僅看到機(jī)器人的動(dòng)作,還理解動(dòng)作背后的目的和過程。首先,它將機(jī)器人軌跡定義為來自多個(gè)傳感器模態(tài)的時(shí)間同步數(shù)據(jù)幀序列。每個(gè)時(shí)間步的數(shù)據(jù)幀包含了RGB圖像、立體圖像對(duì)(如果有)、末端執(zhí)行器姿態(tài)、抓取器狀態(tài)和力-扭矩向量等信息。
想象一下烹飪過程中的不同階段:準(zhǔn)備食材、下鍋烹煮、翻炒調(diào)味、裝盤上菜。類似地,Robo2VLM將機(jī)器人操作過程分解為幾個(gè)關(guān)鍵階段:接近、穩(wěn)定、接觸、釋放和重置。它通過分析末端執(zhí)行器姿態(tài)、抓取器開口信號(hào)和力-扭矩測(cè)量的序列來實(shí)現(xiàn)這一點(diǎn)。比如,當(dāng)抓取器從開始慢慢閉合,并且力傳感器檢測(cè)到接觸力時(shí),系統(tǒng)就知道機(jī)器人正在執(zhí)行"接觸"階段。
接下來,Robo2VLM設(shè)計(jì)了一系列視覺問題原型,每個(gè)原型都與特定的操作任務(wù)完成所需的機(jī)器人能力相對(duì)應(yīng),并錨定到不同的操作階段。這些問題原型分為三類:空間推理、目標(biāo)條件推理和交互推理。
空間推理專注于機(jī)器人對(duì)物體幾何、可達(dá)性和跨視點(diǎn)空間布局的理解。比如"物體是否可以被機(jī)器人抓???"或"抓取器和物體之間的相對(duì)方向是什么?"這類問題通常出現(xiàn)在早期的接近和穩(wěn)定階段。
目標(biāo)條件推理探測(cè)機(jī)器人對(duì)任務(wù)的高級(jí)理解,包括目標(biāo)推斷、未來行動(dòng)預(yù)測(cè)和整體任務(wù)成功。例如"任務(wù)是否失敗?"、"機(jī)器人接下來會(huì)做什么?"和"機(jī)器人當(dāng)前的動(dòng)作階段是什么?"這類問題貫穿從接近到重置的多個(gè)操作階段。
交互推理關(guān)注物理交互動(dòng)態(tài),如抓取穩(wěn)定性或機(jī)器人當(dāng)前執(zhí)行器狀態(tài)。這些問題發(fā)生在穩(wěn)定、接觸和釋放階段,依賴于RGB、觸覺或抓取器開口信號(hào)。比如,"這是一個(gè)穩(wěn)定的抓取嗎?"可能依賴于接觸力讀數(shù)或推斷的物體位移。
**【數(shù)據(jù)集構(gòu)建與特點(diǎn)】**
研究團(tuán)隊(duì)將Robo2VLM應(yīng)用于開放X-實(shí)體(Open X-Embodiment)數(shù)據(jù)集中的176k多樣化、真實(shí)世界的軌跡,生成了超過300萬個(gè)VQA樣本。Open X-Embodiment是一個(gè)主要的協(xié)作研究計(jì)劃,匯總了來自22個(gè)不同機(jī)器人實(shí)體、35個(gè)研究實(shí)驗(yàn)室的機(jī)器人演示數(shù)據(jù),包含超過100萬個(gè)軌跡,涵蓋500多種技能。
通過數(shù)據(jù)優(yōu)化范式(如自然語言處理中的域重加權(quán)和機(jī)器人策略學(xué)習(xí)),研究團(tuán)隊(duì)精心策劃了Robo2VLM-1,這是一個(gè)大規(guī)模的野外VQA數(shù)據(jù)集,包含684,710個(gè)問題,涵蓋463個(gè)不同場(chǎng)景、3,396個(gè)機(jī)器人操作任務(wù)和149個(gè)操作技能。
Robo2VLM-1數(shù)據(jù)集的場(chǎng)景分布非常豐富,其中辦公室場(chǎng)景占33.6%,實(shí)驗(yàn)室場(chǎng)景占25.3%,廚房場(chǎng)景占16.9%。任務(wù)類型也很多樣,包括常見的操作動(dòng)作如抓?。?1.5%)、放置(20.6%)和移動(dòng)(9.9%)。問題的平均長(zhǎng)度為108.69個(gè)字符,每個(gè)問題平均有4.65個(gè)選項(xiàng),選項(xiàng)的平均長(zhǎng)度為14.22個(gè)字符。
**【實(shí)驗(yàn)評(píng)估與結(jié)果分析】**
研究團(tuán)隊(duì)從Robo2VLM-1中采樣了60k個(gè)VQA問題,分為50k訓(xùn)練集和10k測(cè)試集,主要研究?jī)蓚€(gè)問題:(1) Robo2VLM-1訓(xùn)練集如何提高VLM的空間和交互推理能力?(2) Robo2VLM-1測(cè)試集在這些推理任務(wù)中有效評(píng)估VLM的能力程度?
他們對(duì)14種模型配置進(jìn)行了評(píng)估,包括LLaVA、Llama 3.2和Qwen2/Qwen2.5-VL等開源模型,每個(gè)模型都在零樣本和思維鏈(Chain-of-Thought,CoT)提示設(shè)置下進(jìn)行評(píng)估。
評(píng)估結(jié)果表明,在Robo2VLM-1測(cè)試集上,Qwen模型與同配置的其他VLM相比具有更高的整體準(zhǔn)確率。Qwen 2.5 VL-72B在零樣本設(shè)置下獲得了37.76%的最高準(zhǔn)確率,而Qwen 2.5 VL-32B在CoT設(shè)置下獲得了41.30%的整體準(zhǔn)確率。Qwen模型在以物體為中心的類別中表現(xiàn)特別出色,如"物體狀態(tài)"(Object State),Qwen 2.5 VL-72B在這一類別中的準(zhǔn)確率達(dá)到了85.00%(零樣本)和92.37%(CoT)。
有趣的是,零樣本準(zhǔn)確率通常隨著模型規(guī)模的增加而提高——從30.63%(Qwen 7B)上升到37.76%(Qwen 72B)。然而,這一趨勢(shì)在CoT設(shè)置中并不成立,32B模型的表現(xiàn)優(yōu)于72B模型(41.30% vs. 39.52%)。這一觀察與Qwen2.5的官方技術(shù)報(bào)告一致,報(bào)告指出Qwen2.5-VL-32B的數(shù)學(xué)和問題解決能力通過強(qiáng)化學(xué)習(xí)得到了進(jìn)一步增強(qiáng)。
對(duì)于模型微調(diào)實(shí)驗(yàn),研究團(tuán)隊(duì)使用Robo2VLM-1訓(xùn)練集對(duì)LLaVA 1.6進(jìn)行了微調(diào),并在Robo2VLM-1測(cè)試集上進(jìn)行評(píng)估。他們將訓(xùn)練數(shù)據(jù)樣本從10k增加到50k進(jìn)行微調(diào)。隨著微調(diào)數(shù)據(jù)的增加,大多數(shù)VQA類別的性能都有顯著提升。"物體狀態(tài)"理解的準(zhǔn)確率從29.34%提高到80.24%,"任務(wù)狀態(tài)-成功"的準(zhǔn)確率也從47.65%提高到68.03%。其他類別也隨著更多數(shù)據(jù)而顯示出明顯的積極趨勢(shì)。
然而,在一些類別中,如"空間關(guān)系"和"任務(wù)狀態(tài)-目標(biāo)",用有限數(shù)據(jù)(如10k)微調(diào)的表現(xiàn)不如未微調(diào)的基線。這可能是因?yàn)槟P瓦€沒有看到足夠多的特定任務(wù)示例來開始泛化,或者因?yàn)镽obo2VLM-1中的問題格式與預(yù)訓(xùn)練中看到的格式不同,需要適應(yīng)時(shí)間。
研究團(tuán)隊(duì)還進(jìn)行了人類評(píng)估,覆蓋了表3中定義的所有11個(gè)類別。對(duì)于每個(gè)類別,要求人類評(píng)估者隨機(jī)回答來自Robo2VLM-1測(cè)試集的問題。他們使用平均成功率作為與三個(gè)模型(LLaVA 1.6-7B、LLaVA 1.6-7B-Finetuned和Qwen 2.5 VL-32B-CoT)在相同類別集上比較的參考。
結(jié)果顯示,Qwen 2.5 VL-32B-CoT在某些任務(wù)上接近人類準(zhǔn)確率,例如在"物體狀態(tài)"類別中達(dá)到90.5%(相比人類的96.7%),在"交互階段"類別中達(dá)到71.35%(相比人類的80.0%)。但在更復(fù)雜的空間推理任務(wù)中,如"空間關(guān)系",人類達(dá)到60.0%的準(zhǔn)確率,而最佳模型(經(jīng)微調(diào)的LLaVa 1.6-7B)僅達(dá)到19.42%。這可能表明,即使從多個(gè)視角觀察,單目圖像可能缺乏準(zhǔn)確確定空間關(guān)系所需的完整深度信息。
**【研究意義與未來展望】**
這項(xiàng)研究的意義在于首次提出了一種利用真實(shí)機(jī)器人感知數(shù)據(jù)來增強(qiáng)視覺語言模型的方法。通過Robo2VLM框架,研究者能夠從機(jī)器人的物理交互中提取出有價(jià)值的空間和交互知識(shí),進(jìn)而提升視覺語言模型的推理能力。
與現(xiàn)有方法相比,Robo2VLM減少了對(duì)手動(dòng)注釋的需求,并實(shí)現(xiàn)了交互和物理屬性推理,這在以前的VQA基準(zhǔn)測(cè)試中很少被探索,如抓取器狀態(tài)、抓取穩(wěn)定性、任務(wù)目標(biāo)以及關(guān)注機(jī)器人和目標(biāo)物體的空間信息。
未來的工作將專注于將Robo2VLM推廣到更廣泛的機(jī)器人實(shí)體,并生成更多樣化的數(shù)據(jù)集。研究團(tuán)隊(duì)還計(jì)劃探索將在Robo2VLM-1上訓(xùn)練的模型部署到現(xiàn)實(shí)世界機(jī)器人任務(wù)中的可能性。
盡管如此,研究團(tuán)隊(duì)也承認(rèn)Robo2VLM存在一定局限性。作為一個(gè)數(shù)據(jù)生成框架,它依賴于輸入遙操作軌跡的質(zhì)量。如果原始軌跡校準(zhǔn)錯(cuò)誤,它會(huì)影響生成的VQA數(shù)據(jù)的質(zhì)量?;蛘?,如果原始軌跡缺少實(shí)體傳感模態(tài),如NYU VINN(占176k軌跡的0.2%),則會(huì)限制Robo2VLM可以生成的問題數(shù)量。
總的來說,Robo2VLM為彌合視覺語言模型與物理世界之間的鴻溝邁出了重要一步,為未來的機(jī)器人智能和人工智能系統(tǒng)開辟了新的研究方向。
好文章,需要你的鼓勵(lì)
新加坡國(guó)立大學(xué)研究團(tuán)隊(duì)開發(fā)了SPIRAL框架,通過讓AI與自己對(duì)弈零和游戲來提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡(jiǎn)單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。