av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁(yè) OmniSpatial:清華、北大等團(tuán)隊(duì)聯(lián)手打造全面評(píng)估視覺語言模型空間推理能力的綜合基準(zhǔn)

OmniSpatial:清華、北大等團(tuán)隊(duì)聯(lián)手打造全面評(píng)估視覺語言模型空間推理能力的綜合基準(zhǔn)

2025-06-07 08:28
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-07 08:28 ? 科技行者

這項(xiàng)由清華大學(xué)、西安交通大學(xué)、上海交通大學(xué)、北京大學(xué)、上海智能研究院和上海人工智能實(shí)驗(yàn)室的聯(lián)合研究團(tuán)隊(duì)完成的成果,以孟迪佳、祁澤琨為共同第一作者,李藝教授為通訊作者,發(fā)表于2025年6月3日的arXiv預(yù)印本平臺(tái)(arXiv:2506.03135v1)。

一、研究背景:空間推理,AI的"盲區(qū)"

你有沒有體驗(yàn)過這樣的場(chǎng)景:當(dāng)你讓ChatGPT或其他AI助手識(shí)別圖片中"左邊的人"或"右邊的物體"時(shí),它們能夠輕松應(yīng)對(duì);但如果你問"如果我站在這個(gè)房間的另一角,哪個(gè)物體會(huì)擋住我的視線?"或者"這個(gè)機(jī)器人手臂應(yīng)該如何旋轉(zhuǎn)才能抓住物體?",AI往往會(huì)給出錯(cuò)誤或模糊的答案。

這正是當(dāng)前視覺語言模型(VLMs)面臨的一個(gè)重要挑戰(zhàn)——空間推理能力的局限性??臻g推理是人類認(rèn)知心理學(xué)中的重要方面,也是現(xiàn)代AI系統(tǒng)的一個(gè)主要瓶頸。雖然已有大量研究致力于評(píng)估或改進(jìn)VLMs對(duì)基本空間關(guān)系的理解,如區(qū)分左右、遠(yuǎn)近和物體計(jì)數(shù),但這些任務(wù)僅代表了空間推理的最基礎(chǔ)層面。

想象一下在現(xiàn)實(shí)世界中,當(dāng)你需要在緊急情況下找到AED(自動(dòng)體外除顫器)時(shí),僅僅知道它"在門的右側(cè)"是遠(yuǎn)遠(yuǎn)不夠的——你還需要理解原理圖,將地圖與實(shí)際環(huán)境對(duì)應(yīng)起來,并規(guī)劃一條高效路線。同樣地,插入刀具到刀架或折疊紙盒等任務(wù)需要對(duì)物體旋轉(zhuǎn)、變形和空間兼容性進(jìn)行推理——這遠(yuǎn)遠(yuǎn)超出了簡(jiǎn)單的物體放置范圍。

正是在這一背景下,研究團(tuán)隊(duì)提出了OmniSpatial,一個(gè)全面評(píng)估視覺語言模型空間推理能力的基準(zhǔn)測(cè)試。

二、OmniSpatial:空間認(rèn)知的四大維度

從認(rèn)知心理學(xué)的角度來看,復(fù)雜的空間推理遠(yuǎn)不止基本關(guān)系那么簡(jiǎn)單。它還包括動(dòng)態(tài)世界知識(shí)推理、與環(huán)境或代理的交互空間行為、3D空間結(jié)構(gòu)的邏輯分析,以及視角轉(zhuǎn)換能力。

研究團(tuán)隊(duì)將空間推理分為四個(gè)關(guān)鍵維度:

**動(dòng)態(tài)推理**:想象你正在觀察一個(gè)來回?cái)[動(dòng)的鐘擺。動(dòng)態(tài)推理能力讓你預(yù)測(cè)鐘擺下一秒的位置,即使畫面暫停了。在機(jī)器人控制和自動(dòng)駕駛等領(lǐng)域,這種預(yù)測(cè)運(yùn)動(dòng)和時(shí)間變化的能力至關(guān)重要,能讓系統(tǒng)在動(dòng)態(tài)環(huán)境中做出適應(yīng)性決策。

**復(fù)雜空間邏輯**:這就像解魔方或拼圖一樣,需要高階的空間關(guān)系推理、變換和幾何結(jié)構(gòu)理解。例如,想象有一個(gè)3D物體的2D展開圖,你需要在腦海中"折疊"它,預(yù)測(cè)最終的3D形狀。這種能力對(duì)工程設(shè)計(jì)、機(jī)器人操作至關(guān)重要。

**空間交互**:這類似于你在擁擠的商場(chǎng)中穿行,需要根據(jù)環(huán)境約束和目標(biāo)實(shí)時(shí)調(diào)整路徑。在現(xiàn)實(shí)應(yīng)用中,這包括路徑規(guī)劃、避障,以及基于空間反饋的實(shí)時(shí)決策——就像導(dǎo)航應(yīng)用需要根據(jù)實(shí)時(shí)交通狀況調(diào)整路線一樣。

**視角轉(zhuǎn)換**:想象你在玩"藏貓貓"游戲,需要預(yù)測(cè)從其他人的角度能看到什么。這種能力讓我們能從不同視角理解空間關(guān)系,對(duì)導(dǎo)航、社交認(rèn)知和空間感知至關(guān)重要,就像需要理解其他駕駛員視角的交通環(huán)境一樣。

這四個(gè)維度共同構(gòu)成了OmniSpatial基準(zhǔn)測(cè)試的框架,涵蓋了50個(gè)細(xì)分任務(wù)類別,提供了一個(gè)前所未有的全面空間認(rèn)知評(píng)估體系。

三、數(shù)據(jù)集構(gòu)建:精心選擇的1500多道空間題

與那些聚焦少數(shù)任務(wù)的大規(guī)?;鶞?zhǔn)不同,OmniSpatial優(yōu)先考慮任務(wù)多樣性和結(jié)構(gòu)化分類,而非簡(jiǎn)單地追求數(shù)據(jù)集規(guī)模。研究團(tuán)隊(duì)構(gòu)建了1533個(gè)高質(zhì)量的問答對(duì),這些問題設(shè)計(jì)用于挑戰(zhàn)模型超越簡(jiǎn)單的模式匹配或統(tǒng)計(jì)學(xué)習(xí),即使在有限數(shù)據(jù)的情況下也能嚴(yán)格測(cè)試空間推理能力。

**數(shù)據(jù)來源多樣化**:研究團(tuán)隊(duì)從網(wǎng)絡(luò)搜索、標(biāo)準(zhǔn)化測(cè)試、駕駛考試問題和現(xiàn)有數(shù)據(jù)集(包括MME、HOI4D等)中精心篩選數(shù)據(jù)。這種多樣化的來源增強(qiáng)了任務(wù)的真實(shí)性、復(fù)雜性和跨領(lǐng)域泛化能力。

想象一下這些測(cè)試場(chǎng)景的豐富多樣性:

- 網(wǎng)絡(luò)搜索的圖片涵蓋自然環(huán)境、建筑和日常生活,增加了視覺復(fù)雜性 - 心理學(xué)和認(rèn)知科學(xué)的標(biāo)準(zhǔn)化測(cè)試提供了科學(xué)嚴(yán)謹(jǐn)?shù)目臻g推理挑戰(zhàn) - 駕駛考試問題引入了現(xiàn)實(shí)世界的動(dòng)態(tài)交互,如道路規(guī)則理解和運(yùn)動(dòng)預(yù)測(cè) - HOI4D等數(shù)據(jù)集貢獻(xiàn)了多分辨率、不同光照和視角多樣性,以及涉及人-物交互的具身智能任務(wù)

為確保全面評(píng)估,研究團(tuán)隊(duì)將任務(wù)分為4大空間推理類型,進(jìn)一步細(xì)分為50個(gè)精細(xì)任務(wù)類別。例如,視角轉(zhuǎn)換任務(wù)從簡(jiǎn)單的空間判斷("藍(lán)色運(yùn)動(dòng)員的對(duì)手的武器在左邊還是右邊?")到復(fù)雜的運(yùn)動(dòng)預(yù)測(cè)("藍(lán)色運(yùn)動(dòng)員正在阻擋紅色運(yùn)動(dòng)員的進(jìn)攻——接下來會(huì)發(fā)生什么?")??臻g交互任務(wù)既包括靜態(tài)碰撞評(píng)估("車輛是否離前面的車太近?")也包括動(dòng)態(tài)環(huán)境推理("前方有車門打開——是行人下車嗎?")。

研究團(tuán)隊(duì)強(qiáng)調(diào)了精確的圖像-任務(wù)對(duì)齊在數(shù)據(jù)集選擇和注釋中的重要性。每個(gè)問答對(duì)都經(jīng)過手動(dòng)策劃并多輪審核,以確保準(zhǔn)確性、一致性和最小歧義。與自動(dòng)注釋不同,手動(dòng)完善保證了視覺場(chǎng)景與空間推理任務(wù)之間的高度相關(guān)性,增強(qiáng)了OmniSpatial作為未來研究基準(zhǔn)的可靠性。

四、改進(jìn)空間推理能力:兩種創(chuàng)新方法

研究團(tuán)隊(duì)不僅開發(fā)了評(píng)估基準(zhǔn),還探索了改進(jìn)視覺語言模型空間推理能力的方法。

**PointGraph:通過點(diǎn)關(guān)系增強(qiáng)空間推理**

第一種方法像是給AI提供了一個(gè)"物體分布地圖"。研究團(tuán)隊(duì)嘗試使用Segment Anything Model(SAM)等現(xiàn)有專家模型將圖像分割成不同區(qū)域。這一過程提取出與圖像中多個(gè)物體對(duì)應(yīng)的像素簇,使模型能夠估計(jì)物體中心并更有效地執(zhí)行后續(xù)空間推理任務(wù)。

想象一下,這就像是在閱讀復(fù)雜的城市地圖時(shí),有人幫你標(biāo)出了所有重要地標(biāo)的確切位置,讓你更容易規(guī)劃路線或判斷距離。這種結(jié)構(gòu)化的物體表示方法為模型提供了清晰的空間關(guān)系指引。

**SpatialCoT:通過新視角合成增強(qiáng)空間想象**

第二種方法解決了一個(gè)更根本的問題:視覺語言模型主要受限于文本推理范式,而人類天生具備強(qiáng)大的空間想象能力,通常稱為"心理意象"。

這種空間想象能力在某種程度上對(duì)應(yīng)于物體或場(chǎng)景的新視角合成。幸運(yùn)的是,最近在3D生成模型方面的進(jìn)展可以有效執(zhí)行此類任務(wù)。研究團(tuán)隊(duì)采用InstantMesh來從輸入圖像合成新視角,提供額外的視覺線索來增強(qiáng)空間想象。

這就像是當(dāng)你在腦海中想象房間的另一側(cè)看起來如何,或者物體從背面會(huì)是什么樣子。通過提供這些額外的"想象視角",模型能夠構(gòu)建更完整的空間理解。

五、實(shí)驗(yàn)結(jié)果:頂尖模型也未能攻克空間推理

研究團(tuán)隊(duì)對(duì)現(xiàn)有視覺語言模型在OmniSpatial上進(jìn)行了全面評(píng)估,測(cè)試對(duì)象包括專有模型和開源模型。結(jié)果顯示了當(dāng)前AI系統(tǒng)在復(fù)雜空間推理方面的顯著局限性。

**整體模型表現(xiàn)**:

1. 專有推理模型如ChatGPT o3和Gemini-2.5-pro表現(xiàn)最佳,總體成功率超過56%;但與人類水平相比仍有顯著差距。這些模型需要大量推理時(shí)間和tokens。

2. 開源模型也展示了有競(jìng)爭(zhēng)力的結(jié)果,大規(guī)模模型如InternVL3-78B和Qwen-VL2.5-72B達(dá)到了與GPT-4.1-mini和Gemini-2.0-flash-exp相當(dāng)?shù)谋憩F(xiàn)。

3. 專用空間推理模型由于數(shù)據(jù)集覆蓋范圍和模型容量的限制,在全面基準(zhǔn)測(cè)試中難以實(shí)現(xiàn)實(shí)質(zhì)性改進(jìn)。

**分類表現(xiàn)差異**:

不同空間推理類別的表現(xiàn)差異尤為顯著:

1. 在動(dòng)態(tài)推理和空間交互方面,專有模型表現(xiàn)強(qiáng)勁,表明推理模型在時(shí)間理解、空間關(guān)系分析和基于地圖的理解方面具有高水平能力。

2. 對(duì)于幾何模式識(shí)別和推理等復(fù)雜邏輯任務(wù),即使是為擴(kuò)展思考設(shè)計(jì)的推理模型也只能達(dá)到約30%到40%的準(zhǔn)確率,僅略高于隨機(jī)基線。

3. 當(dāng)前模型展示出有限的視角轉(zhuǎn)換能力,主要從自我中心視角分析場(chǎng)景,而在想象他人視角方面存在困難。

**PointGraph和SpatialCoT的影響**:

研究還評(píng)估了所提出方法的有效性:

1. PointGraph作為GPT-4.1、Gemini-2.5-flash和Qwen-VL2.5-7B的預(yù)處理步驟,帶來了明顯的準(zhǔn)確度提升,特別是在動(dòng)態(tài)推理和視角轉(zhuǎn)換方面,驗(yàn)證了集成結(jié)構(gòu)化物體表示的好處。

2. 傳統(tǒng)的文本鏈?zhǔn)剿伎?Chain-of-Thought)難以帶來顯著改進(jìn)。

3. 通過InstantMesh實(shí)現(xiàn)的空間鏈?zhǔn)剿伎?SpatialCoT)方法在OmniSpatial視角轉(zhuǎn)換測(cè)試中表現(xiàn)出顯著的性能改進(jìn),驗(yàn)證了顯式空間想象的有效性。

六、未來發(fā)展方向:邁向真正的空間感知AI

OmniSpatial基準(zhǔn)測(cè)試不僅揭示了當(dāng)前AI系統(tǒng)在空間推理方面的局限性,還為未來研究指明了方向。研究團(tuán)隊(duì)發(fā)現(xiàn),即使是最先進(jìn)的專有和開源視覺語言模型,在OmniSpatial上的表現(xiàn)也最高僅達(dá)到57%的準(zhǔn)確率,遠(yuǎn)低于人類表現(xiàn)的30多個(gè)百分點(diǎn),特別是在幾何推理和非自我中心視角轉(zhuǎn)換方面表現(xiàn)不佳。

這些發(fā)現(xiàn)表明,我們需要發(fā)展更強(qiáng)大的物理和視角感知多模態(tài)模型。研究團(tuán)隊(duì)的PointGraph和SpatialCoT方法提供了有希望的起點(diǎn),但要實(shí)現(xiàn)真正的空間認(rèn)知AI,仍需更多創(chuàng)新。

通過系統(tǒng)地揭示這些差距,OmniSpatial為未來的物理和視角感知多模態(tài)模型研究提供了嚴(yán)格的評(píng)估標(biāo)準(zhǔn)和豐富的錯(cuò)誤分析平臺(tái)。這一基準(zhǔn)測(cè)試將推動(dòng)空間推理研究向前發(fā)展,最終實(shí)現(xiàn)能夠在現(xiàn)實(shí)世界中有效導(dǎo)航和交互的AI系統(tǒng)。

正如人類需要空間認(rèn)知來在物理世界中有效導(dǎo)航和交互一樣,AI系統(tǒng)也需要掌握這些能力才能實(shí)現(xiàn)真正的通用智能。OmniSpatial基準(zhǔn)測(cè)試向這一目標(biāo)邁出了重要一步,為研究人員提供了一個(gè)系統(tǒng)評(píng)估和改進(jìn)AI空間推理能力的框架。

未來的研究方向可能包括:

1. 進(jìn)一步探索3D表示和感知在空間推理中的作用 2. 開發(fā)更強(qiáng)大的空間鏈?zhǔn)剿伎挤椒?3. 創(chuàng)建能夠同時(shí)處理多個(gè)視角的多模態(tài)模型 4. 將空間推理能力與機(jī)器人執(zhí)行任務(wù)相結(jié)合

隨著這些方向的發(fā)展,我們離真正理解和導(dǎo)航物理世界的AI系統(tǒng)又近了一步。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-