2025年5月,浙江大學(xué)李鼎銘、李宏興等研究團(tuán)隊(duì)在arXiv上發(fā)表了一項(xiàng)突破性研究《ViewSpatial-Bench: Evaluating Multi-perspective Spatial Localization in Vision-Language Models》(arXiv:2505.21500v1),這項(xiàng)研究深入探討了當(dāng)前視覺語言模型在跨視角空間理解方面的關(guān)鍵局限性,并提出了解決方案。讓我們一起來了解這項(xiàng)創(chuàng)新研究的細(xì)節(jié)。
空間理解:人類與機(jī)器的巨大差距
想象這樣一個(gè)場(chǎng)景:你和朋友坐在咖啡廳里,朋友說"請(qǐng)把我左邊的那杯咖啡遞給我"。對(duì)我們?nèi)祟悂碚f,這是再簡(jiǎn)單不過的請(qǐng)求——我們會(huì)自然地從朋友的視角出發(fā),而不是從自己的視角去理解"左邊"的含義。這種能力叫做"視角采納",是我們?nèi)祟惻c生俱來的空間認(rèn)知能力。
然而,當(dāng)前最先進(jìn)的視覺語言模型(VLMs)在這方面表現(xiàn)得像個(gè)"空間盲人"。研究團(tuán)隊(duì)發(fā)現(xiàn),即使是像GPT-4o這樣強(qiáng)大的模型,在涉及多視角空間定位任務(wù)時(shí)的表現(xiàn)僅比隨機(jī)猜測(cè)略好一點(diǎn)點(diǎn)。這些模型主要擅長(zhǎng)從攝像機(jī)視角(自我中心視角)理解空間關(guān)系,但當(dāng)需要從另一個(gè)實(shí)體的參考框架(分配中心視角)理解空間關(guān)系時(shí),它們的表現(xiàn)就大打折扣。
想象一下,如果你請(qǐng)求家用機(jī)器人"幫我拿我右邊的杯子",它卻拿了它自己右邊的杯子,這種交互體驗(yàn)會(huì)多么令人沮喪。這正是當(dāng)前人工智能系統(tǒng)面臨的核心挑戰(zhàn)之一,也是浙江大學(xué)研究團(tuán)隊(duì)努力解決的問題。
ViewSpatial-Bench:全面評(píng)估空間理解能力的新基準(zhǔn)
為了系統(tǒng)評(píng)估視覺語言模型的多視角空間理解能力,研究團(tuán)隊(duì)開發(fā)了名為"ViewSpatial-Bench"的評(píng)測(cè)基準(zhǔn)。這是首個(gè)專門設(shè)計(jì)用于評(píng)估多視角空間定位能力的綜合基準(zhǔn),涵蓋了五種不同類型的任務(wù),并得到了一個(gè)自動(dòng)化3D標(biāo)注流水線的支持,該流水線能生成精確的方向標(biāo)簽。
ViewSpatial-Bench包含了超過5,700個(gè)問答對(duì),涵蓋了1,000多個(gè)獨(dú)特的3D場(chǎng)景,數(shù)據(jù)來源于ScanNet和MS-COCO數(shù)據(jù)集的驗(yàn)證集。這些任務(wù)分為兩大類:攝像機(jī)視角和人類視角。
從攝像機(jī)視角來看: 1. 物體相對(duì)方向識(shí)別任務(wù):判斷圖像中物體之間的空間關(guān)系,比如"桌子相對(duì)于沙發(fā)在什么位置?" 2. 物體視角朝向識(shí)別任務(wù):從自我中心視角確定人物的注視方向,例如"從攝像機(jī)視角看,圖中人物朝哪個(gè)方向面對(duì)?"
從人類視角來看: 1. 物體相對(duì)方向識(shí)別任務(wù):從圖像中某個(gè)角色的視角判斷其他物體的空間關(guān)系,如"從白衣男子的視角看,綠衣男子在他的什么位置?" 2. 物體視角朝向識(shí)別任務(wù):要求假設(shè)自己是圖像中的某個(gè)角色,確定自己的注視方向,例如"假設(shè)你是圖中穿綠衣服的人,你面向哪個(gè)方向?" 3. 場(chǎng)景模擬相對(duì)方向識(shí)別任務(wù):需要在連續(xù)幀中模擬自己在空間場(chǎng)景內(nèi)的位置,確定其他物體的相對(duì)位置,如"站在冰箱前面對(duì)著桌子,枕頭在什么位置?"
這些任務(wù)被精心設(shè)計(jì),旨在全面評(píng)估模型在不同視角下理解空間關(guān)系的能力,特別是在需要視角轉(zhuǎn)換的情況下。
自動(dòng)化3D空間標(biāo)注流水線:數(shù)據(jù)生成的秘密武器
研究團(tuán)隊(duì)開發(fā)了一個(gè)創(chuàng)新的自動(dòng)化3D空間標(biāo)注流水線,這是ViewSpatial-Bench的重要支柱。這個(gè)流水線能高效生成大規(guī)模、精確標(biāo)注的多視角數(shù)據(jù)集。
對(duì)于ScanNet數(shù)據(jù)源,團(tuán)隊(duì)首先獲取場(chǎng)景的體素信息,然后應(yīng)用最大覆蓋采樣算法來確保用最少的幀捕獲完整的空間表示。對(duì)于每個(gè)選定的幀,系統(tǒng)生成場(chǎng)景元數(shù)據(jù),包括可見物體的可見率和3D空間坐標(biāo)。
對(duì)于MS-COCO數(shù)據(jù)源,團(tuán)隊(duì)篩選出包含占圖像面積至少20%的動(dòng)物對(duì)象的圖像。利用MS-COCO的邊界框和關(guān)鍵點(diǎn)信息,他們將人物圖像分割為頭部和身體組件,然后使用Orient-Anything-Large模型計(jì)算旋轉(zhuǎn)角度。對(duì)于人物視角的朝向,他們通過分析頭部和身體朝向之間的角度偏移來計(jì)算注視方向。
這種自動(dòng)化標(biāo)注方法不僅提高了數(shù)據(jù)生成的效率,還確保了空間關(guān)系標(biāo)簽的準(zhǔn)確性和一致性,為模型訓(xùn)練和評(píng)估提供了可靠的基礎(chǔ)。
現(xiàn)有視覺語言模型的評(píng)估結(jié)果:令人擔(dān)憂的表現(xiàn)
研究團(tuán)隊(duì)對(duì)多種視覺語言模型在ViewSpatial-Bench上進(jìn)行了全面評(píng)估,包括開源模型(InternVL2.5/VL3、LLaVA-NeXT-Video、LLaVA-OneVision、Llama-3.2-Vision、Kimi-VL-Instruct和Qwen2.5-VL)以及專有模型(GPT-4o和Gemini-2.0-Flash)。
評(píng)估結(jié)果揭示了一個(gè)令人擔(dān)憂的事實(shí):即使是最強(qiáng)大的專有模型,如GPT-4o(34.98%)和Gemini-2.0-Flash(32.56%),在空間定位任務(wù)上的表現(xiàn)也僅比隨機(jī)猜測(cè)(26.33%)略好一點(diǎn)。這證實(shí)了研究團(tuán)隊(duì)的假設(shè):當(dāng)前的視覺語言模型盡管在標(biāo)準(zhǔn)的視覺語言任務(wù)上表現(xiàn)出色,但在需要視角轉(zhuǎn)換的空間理解任務(wù)上存在根本性的缺陷。
更有趣的是,大多數(shù)模型在攝像機(jī)視角任務(wù)上的表現(xiàn)(平均33.2%)反而低于人類視角任務(wù)(平均35.7%)。這與直覺相悖,因?yàn)槲覀儠?huì)期望自我中心視角(基于攝像機(jī))的任務(wù)應(yīng)該比分配中心視角(基于人類)的任務(wù)更容易。這一發(fā)現(xiàn)表明,當(dāng)前的視覺語言架構(gòu)可能隱含地編碼了某些偏向第三人稱視角的空間偏見,這可能源于Web采集訓(xùn)練數(shù)據(jù)中此類構(gòu)圖的普遍存在。
多視角空間模型:彌合認(rèn)知差距的新方法
為了解決當(dāng)前視覺語言模型在視角依賴空間推理方面的局限性,研究團(tuán)隊(duì)開發(fā)了多視角空間模型(Multi-View Spatial Model,簡(jiǎn)稱MVSM)。這一模型通過系統(tǒng)化的增強(qiáng)方法,結(jié)合高質(zhì)量的訓(xùn)練數(shù)據(jù)和專為多視角空間理解設(shè)計(jì)的微調(diào)策略,顯著提升了空間理解能力。
研究團(tuán)隊(duì)利用他們的自動(dòng)化空間標(biāo)注框架,生成了約43,000個(gè)多樣化的空間關(guān)系樣本,涵蓋了所有五種任務(wù)類型。這個(gè)數(shù)據(jù)集整合了來自ScanNet和MS-COCO訓(xùn)練集的3D空間信息,對(duì)于難以實(shí)現(xiàn)完全自動(dòng)化的人類相對(duì)方向任務(wù)(由于復(fù)雜的人類空間坐標(biāo)和環(huán)境上下文),還補(bǔ)充了Spatial-MM數(shù)據(jù)。
他們的多視角微調(diào)策略明確訓(xùn)練模型從不同的觀察視角進(jìn)行推理,使MVSM能夠發(fā)展出一種更統(tǒng)一的3D空間關(guān)系表示,支持從攝像機(jī)和人類視角進(jìn)行穩(wěn)健的推理。
評(píng)估結(jié)果令人振奮:MVSM相比其骨干模型Qwen2.5-VL(3B)取得了46.24%的絕對(duì)性能提升。模型在所有任務(wù)類別上都表現(xiàn)出顯著且一致的改進(jìn),其中在朝向任務(wù)上的提升最為突出——攝像機(jī)視角朝向任務(wù)提升了54.32%,人類視角朝向任務(wù)提升了51.00%。這種對(duì)稱的改進(jìn)模式特別值得注意,它表明通過在多視角空間標(biāo)注數(shù)據(jù)上的顯式訓(xùn)練,模型能夠發(fā)展出跨視角有效的統(tǒng)一3D空間表示。
實(shí)際應(yīng)用評(píng)估:從實(shí)驗(yàn)室到現(xiàn)實(shí)世界
為了進(jìn)一步驗(yàn)證MVSM在實(shí)際應(yīng)用中的空間理解能力,研究團(tuán)隊(duì)在VSI-Bench和他們自己構(gòu)建的小型應(yīng)用評(píng)估數(shù)據(jù)集VSI-App上評(píng)估了其性能。
在VSI-Bench上,MVSM在需要視角轉(zhuǎn)換的物體相對(duì)方向和路徑規(guī)劃任務(wù)上都優(yōu)于其骨干模型,特別是在路徑規(guī)劃任務(wù)上取得了顯著的9.54%的提升。這一改進(jìn)表明,MVSM不僅能夠模擬靜態(tài)空間關(guān)系,還能夠模擬通過3D環(huán)境的動(dòng)態(tài)軌跡,這一能力是從研究團(tuán)隊(duì)的視角感知訓(xùn)練方法中自然產(chǎn)生的,而無需專門針對(duì)路徑規(guī)劃進(jìn)行優(yōu)化。
對(duì)于VSI-App,研究團(tuán)隊(duì)構(gòu)建了一個(gè)包含50個(gè)場(chǎng)景(25個(gè)室內(nèi),25個(gè)室外)的專門評(píng)估數(shù)據(jù)集,旨在評(píng)估人類中心的空間推理能力。MVSM在室內(nèi)環(huán)境中表現(xiàn)出顯著的改進(jìn)(+20.00%),在室外場(chǎng)景中也有適度的提升(+4.00%)。這種性能模式揭示了一個(gè)有趣的領(lǐng)域差距:具有結(jié)構(gòu)化空間關(guān)系的室內(nèi)環(huán)境與研究團(tuán)隊(duì)的訓(xùn)練分布更加一致,而室外場(chǎng)景盡管仍有改進(jìn),但提出了更大的挑戰(zhàn)。
視角混淆分析:一致性認(rèn)知的關(guān)鍵
研究團(tuán)隊(duì)對(duì)不同模型在VSI-App上的表現(xiàn)進(jìn)行了深入分析,發(fā)現(xiàn)在沒有視角感知訓(xùn)練的模型中存在一個(gè)普遍問題:它們?cè)趩蝹€(gè)回答中表現(xiàn)出不一致的空間判斷,在人類和攝像機(jī)視角之間交替。這表明它們?nèi)狈σ粋€(gè)可以從不同視角導(dǎo)航的3D空間的連貫內(nèi)部模型。
相比之下,MVSM能夠始終如一地堅(jiān)持指定的視角框架,即使在需要多次空間轉(zhuǎn)換的復(fù)雜情況下也是如此。這種一致性是實(shí)現(xiàn)自然、直觀的人機(jī)空間交流的關(guān)鍵。
結(jié)論與未來展望
ViewSpatial-Bench的開發(fā)為評(píng)估視覺語言模型的多視角空間定位能力提供了一個(gè)全面的基準(zhǔn)。通過對(duì)各種先進(jìn)VLM的評(píng)估,研究團(tuán)隊(duì)揭示了它們?cè)诳臻g推理能力上的顯著局限性。通過開發(fā)自動(dòng)化空間標(biāo)注流水線并構(gòu)建大規(guī)模多視角數(shù)據(jù)集,他們成功訓(xùn)練了多視角空間模型(MVSM),該模型在ViewSpatial-Bench任務(wù)上取得了顯著的整體性能提升。
這項(xiàng)研究為空間智能視覺語言模型的發(fā)展鋪平了道路,這些模型能夠更好地與人類認(rèn)知模式對(duì)齊,特別是在涉及空間理解的復(fù)雜任務(wù)中。隨著人工智能系統(tǒng)越來越多地融入我們的日常生活,改進(jìn)它們理解和導(dǎo)航3D空間的能力變得至關(guān)重要,特別是在需要與人類互動(dòng)的情境中。
未來的研究方向可能包括擴(kuò)展基準(zhǔn)以包含動(dòng)態(tài)空間推理場(chǎng)景,探索半監(jiān)督方法以減少對(duì)手動(dòng)標(biāo)注的依賴,以及開發(fā)能夠處理室外環(huán)境中不同空間尺度和視覺特征的專門訓(xùn)練方法。
對(duì)于任何對(duì)實(shí)現(xiàn)更自然、更直觀的人機(jī)空間交流感興趣的人來說,ViewSpatial-Bench和MVSM代表了朝著這一目標(biāo)邁出的重要一步。有興趣深入了解的讀者可以通過項(xiàng)目網(wǎng)站(https://zju-real.github.io/ViewSpatial-Page)獲取更多信息,或直接查閱完整論文(arXiv:2505.21500v1)。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對(duì)話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。