這項來自意大利理工學院(IIT)和英國阿伯丁大學聯(lián)合研究團隊的最新研究,剛剛于2025年5月在arXiv預印本平臺上發(fā)布。這篇題為《通過空間錨定的合成世界實現(xiàn)機器人的具身認知》(Towards Embodied Cognition in Robots via Spatially Grounded Synthetic Worlds)的論文由Joel Currie、Gioele Migno、Enrico Piacenti等研究者共同完成,他們提出了一個令人興奮的新方法,希望教會機器人理解"別人看到的世界"是什么樣子。
想象這樣一個場景:你和朋友坐在餐桌兩側(cè),你說"請遞給我左邊的那杯咖啡"。對于人類來說,朋友會自然地理解你說的"左邊"是從你的視角出發(fā)的,而不是從他自己的視角。這種能力在人類社交中看似簡單,卻是機器人至今難以掌握的重要技能,專業(yè)上稱為"視覺視角采納"(Visual Perspective Taking,簡稱VPT)。
研究團隊指出,具備視角轉(zhuǎn)換能力對于機器人與人類順暢互動至關重要。想一想,如果機器人助手無法理解"在我左邊的杯子"和"在你左邊的杯子"之間的區(qū)別,它將如何正確執(zhí)行你的指令?這種看似簡單的能力實際上涉及復雜的空間認知,是機器人實現(xiàn)"具身認知"(即通過身體與環(huán)境互動來理解世界)的關鍵一步。
現(xiàn)有的機器人視角采納解決方案通常依賴于復雜的幾何模型和手工設計的視角轉(zhuǎn)換規(guī)則,就像是給機器人提供一本詳細的地圖和轉(zhuǎn)向指南。雖然這些方法在受控環(huán)境中有效,但缺乏靈活性和適應性,就像只會按固定路線行駛的自動駕駛汽車,一旦遇到地圖上沒有的路況就不知所措。
與此相對,視覺語言模型(VLMs)展現(xiàn)出驚人的靈活性和適應能力,就像能夠理解各種場景的通用翻譯器。然而,現(xiàn)有的視覺語言模型在精確的空間推理方面仍然表現(xiàn)不佳,特別是在推斷物體位置、相對方向或特定視角下的關系時。這就像一個能認出各種物品的人,卻無法準確描述它們之間的位置關系。
研究者認為,這些空間推理能力的缺乏并非模型架構(gòu)的固有缺陷,而可能是由于缺少明確將空間關系與視覺場景聯(lián)系起來的訓練數(shù)據(jù)造成的。這就像是試圖教一個孩子認識方向,但從來沒有給他展示過真實的空間關系例子。
為了解決這個問題,研究團隊提出了一個概念性框架,旨在訓練視覺語言模型執(zhí)行視覺視角采納任務。作為實現(xiàn)這一愿景的第一步,他們創(chuàng)建了一個合成數(shù)據(jù)集,由NVIDIA Omniverse生成,用于空間推理任務的監(jiān)督學習。
數(shù)據(jù)集的每個實例都包含三個關鍵元素:一個RGB圖像(就像機器人的"眼睛"看到的圖像)、一個自然語言描述(比如"桌上有一個紅色立方體")、以及一個真實的4×4變換矩陣,代表物體相對于相機的精確位置姿態(tài)。這有點像給機器人同時提供一張照片、照片的文字描述,以及物體的準確坐標和方向。
當前的研究專注于推斷Z軸距離(即物體到相機的遠近距離)這一基礎能力,研究者計劃在未來將其擴展到完整的六自由度(6 DOF)推理,包括物體的所有可能位置和旋轉(zhuǎn)角度。這就像是先教會孩子判斷物體的遠近,然后再教他理解物體的左右、上下以及旋轉(zhuǎn)方向。
研究團隊設計的概念性流程包括三個關鍵階段:首先,從圖像和文本輸入估計物體姿態(tài),得到一個變換矩陣;其次,推斷代理(如另一個機器人或人類)與相機之間的相對視角變換;最后,通過變換組合進行視角映射,得出從代理視角看到的物體姿態(tài)。通過這種結(jié)構(gòu)化的空間監(jiān)督方式,研究者希望推動能夠執(zhí)行具身認知任務的機器人發(fā)展,如視角采納、空間推理和視角不變的物體理解。
團隊將他們創(chuàng)建的合成數(shù)據(jù)集公開發(fā)布在Hugging Face平臺上,任何人都可以通過https://huggingface.co/datasets/jwgcurrie/synthetic-distance鏈接訪問,這為進一步研究提供了寶貴資源。
這項工作得到了歐盟"下一代歐盟PNRR MUR"資助的"未來人工智能研究"(FAIR)項目的支持,為實現(xiàn)能夠在人機交互場景中進行空間理解的具身AI系統(tǒng)邁出了關鍵的第一步。雖然現(xiàn)在的成果還是初步的,但它為未來機器人能夠真正理解"別人眼中的世界"鋪平了道路,這對實現(xiàn)自然、直觀的人機交互至關重要。
想象未來的機器人助手不僅能看到世界,還能理解你所看到的世界——當你說"請拿那個靠近你的杯子"時,機器人能夠準確理解"靠近你"是從你的視角出發(fā)的空間關系。這種看似簡單的能力,實際上是人機協(xié)作的重要基石,而這項研究正是朝著這個方向邁出的重要一步。
好文章,需要你的鼓勵
新加坡國立大學研究團隊開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實驗顯示,僅訓練AI玩簡單撲克游戲就能讓其數(shù)學推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學題目作為訓練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學解題中,為AI訓練提供了新思路。
同濟大學團隊開發(fā)的GIGA-ToF技術通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機噪聲問題。該技術利用圖像間的不變幾何關系,結(jié)合深度學習和數(shù)學優(yōu)化方法,在合成數(shù)據(jù)集上實現(xiàn)37.9%的精度提升,并在真實設備上展現(xiàn)出色泛化能力,為機器人、AR和自動駕駛等領域提供更可靠的3D視覺解決方案。
伊利諾伊大學研究團隊通過對比實驗發(fā)現(xiàn),經(jīng)過強化學習訓練的視覺語言模型雖然表現(xiàn)出"頓悟時刻"現(xiàn)象,但這些自我糾錯行為并不能實際提升推理準確率。研究揭示了AI模型存在"生成-驗證差距",即生成答案的能力強于驗證答案質(zhì)量的能力,且模型在自我驗證時無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機構(gòu)聯(lián)合提出SparseLoRA技術,通過動態(tài)稀疏性實現(xiàn)大語言模型訓練加速1.6倍,計算成本降低2.2倍。該方法使用SVD稀疏性估計器智能選擇重要計算部分,在保持模型性能的同時顯著提升訓練效率,已在多個任務上驗證有效性。