**為什么我們需要關(guān)注AI的空間理解能力?** 假設(shè)你正在超市購(gòu)物,讓你的AI助手告訴你"哪一盒牛奶離你更近"或"轉(zhuǎn)彎后右側(cè)第二個(gè)貨架是什么",這些看似簡(jiǎn)單的問(wèn)題,實(shí)際上涉及復(fù)雜的3D空間理解能力。盡管當(dāng)前多模態(tài)大語(yǔ)言模型(MLLMs)在回答"這是什么"、"誰(shuí)在畫(huà)面中"等語(yǔ)義問(wèn)題表現(xiàn)出色,但它們是否真正理解空間關(guān)系、相機(jī)運(yùn)動(dòng)和物體距離等幾何特性呢?
這正是由上海交通大學(xué)人工智能學(xué)院的吳昊寧、黃曉等人,聯(lián)合上海AI實(shí)驗(yàn)室在2025年5月提出的研究"SpatialScore: Towards Unified Evaluation for Multimodal Spatial Understanding"所要探索的核心問(wèn)題。這篇發(fā)表在arXiv上的研究(arXiv:2505.17012v1)圍繞一個(gè)關(guān)鍵問(wèn)題展開(kāi):**現(xiàn)有的多模態(tài)大語(yǔ)言模型是否真正具備3D空間感知和理解能力?**
想象一下,如果你讓AI告訴你"桌子和沙發(fā)之間的距離有多遠(yuǎn)",或者"基于這兩張照片,相機(jī)是如何移動(dòng)的",大多數(shù)現(xiàn)有模型往往會(huì)茫然不知所措。這是因?yàn)檎嬲目臻g理解需要模型不僅能"看見(jiàn)"畫(huà)面中的物體,還要理解它們?cè)谌S空間中的位置、方向和相互關(guān)系。就像人類在現(xiàn)實(shí)世界中導(dǎo)航一樣,需要直覺(jué)理解空間幾何關(guān)系。
這項(xiàng)研究的重要性不僅在于評(píng)估當(dāng)前AI模型的空間理解能力,更在于為未來(lái)的模型發(fā)展提供明確方向。設(shè)想一下,如果家用機(jī)器人或自動(dòng)駕駛汽車無(wú)法準(zhǔn)確理解"左轉(zhuǎn)"、"前方兩米"這樣的空間指令,后果將會(huì)多么嚴(yán)重。
研究團(tuán)隊(duì)的貢獻(xiàn)主要包括四個(gè)方面:首先,他們創(chuàng)建了專門(mén)評(píng)估視覺(jué)幾何感知能力的VGBench基準(zhǔn)測(cè)試;其次,他們整合了11個(gè)現(xiàn)有數(shù)據(jù)集,提出了迄今為止最全面的空間理解評(píng)測(cè)基準(zhǔn)SpatialScore;第三,他們開(kāi)發(fā)了名為SpatialAgent的多代理系統(tǒng),集成9種專業(yè)工具來(lái)增強(qiáng)空間理解能力;最后,他們通過(guò)大量實(shí)驗(yàn)揭示了當(dāng)前模型在空間推理方面仍然存在的挑戰(zhàn),同時(shí)證明了SpatialAgent的有效性。
讓我們一起深入了解這項(xiàng)研究如何為AI注入"空間感",以及這對(duì)未來(lái)AI應(yīng)用有何重大意義。
一、為什么現(xiàn)有AI模型缺乏空間理解能力?
想象你站在一個(gè)陌生的房間里,僅憑一張照片,你可以立刻判斷哪個(gè)物體離你更近,哪個(gè)物體放在另一個(gè)物體的上方,甚至能大致估計(jì)物體間的距離。這種空間感知能力對(duì)人類來(lái)說(shuō)是如此自然,但對(duì)AI模型卻是巨大挑戰(zhàn)。
在傳統(tǒng)計(jì)算機(jī)視覺(jué)研究中,3D視覺(jué)幾何感知被認(rèn)為是一個(gè)"已解決"的問(wèn)題(盡管依賴優(yōu)化算法),有著完善的工具和嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)基礎(chǔ)。近期研究已經(jīng)通過(guò)前饋神經(jīng)網(wǎng)絡(luò)重新激活了這些經(jīng)典方法。然而,這些進(jìn)展仍局限于純視覺(jué)范式,缺乏與語(yǔ)言理解的整合和統(tǒng)一的評(píng)估協(xié)議。
現(xiàn)有的評(píng)測(cè)基準(zhǔn)主要存在兩個(gè)關(guān)鍵限制:一是任務(wù)過(guò)于簡(jiǎn)單,主要關(guān)注表面的空間相關(guān)查詢(如基本物體存在或位置關(guān)系),忽略了嚴(yán)格的視覺(jué)幾何理解(如相機(jī)姿態(tài)和動(dòng)態(tài));二是評(píng)估范圍狹窄,通常是片面的,考慮簡(jiǎn)單問(wèn)題(如是/否判斷),單一模態(tài)輸入(如靜態(tài)圖像),或孤立技能(如距離或大小估計(jì)),缺乏衡量整體空間推理能力的統(tǒng)一框架。
上海交通大學(xué)的研究團(tuán)隊(duì)發(fā)現(xiàn),盡管現(xiàn)有多模態(tài)大語(yǔ)言模型在語(yǔ)義理解和邏輯推理方面取得了令人印象深刻的進(jìn)展,但在處理空間幾何問(wèn)題時(shí)表現(xiàn)不佳。例如,當(dāng)被要求估計(jì)物體距離、判斷相機(jī)運(yùn)動(dòng)方向或計(jì)算同一物體在不同視角下的位置時(shí),這些模型往往給出錯(cuò)誤或不一致的答案。
這種情況就像一個(gè)能流利描述周圍環(huán)境但無(wú)法準(zhǔn)確判斷距離和方向的導(dǎo)游——表面上看似懂得很多,但實(shí)際應(yīng)用價(jià)值有限。正如研究團(tuán)隊(duì)所言:"集成語(yǔ)義理解與空間幾何感知將成為多模態(tài)大語(yǔ)言模型的下一個(gè)演化步驟。"
二、VGBench與SpatialScore:全面評(píng)估空間理解能力的新基準(zhǔn)
為了系統(tǒng)評(píng)估AI模型的空間理解能力,研究團(tuán)隊(duì)首先開(kāi)發(fā)了VGBench,這是一個(gè)專門(mén)設(shè)計(jì)用于評(píng)估視覺(jué)幾何感知能力的基準(zhǔn)測(cè)試。
VGBench的構(gòu)建過(guò)程非常精細(xì)。研究團(tuán)隊(duì)從ScanNet、ScanNet++、CA-1M和WildRGB-D等數(shù)據(jù)集中隨機(jī)選取了約300個(gè)場(chǎng)景,這些場(chǎng)景都帶有精確的3D注釋(如深度圖和3D邊界框)。隨后,他們結(jié)合預(yù)定義的問(wèn)題模板與大語(yǔ)言模型改寫(xiě),構(gòu)建了開(kāi)放式問(wèn)答對(duì),確保問(wèn)題的多樣性。為了便于定量評(píng)估,他們還將部分開(kāi)放式問(wèn)答轉(zhuǎn)換為判斷和多選格式,采用三種策略生成既合理又具挑戰(zhàn)性的干擾選項(xiàng)。
想象VGBench就像一個(gè)空間智力測(cè)試,包含了各種視覺(jué)幾何感知任務(wù),例如:
1. 相機(jī)參數(shù)估計(jì):就像要求AI判斷"拍照人站在什么位置,鏡頭朝哪個(gè)方向" 2. 深度估計(jì):要求AI判斷"哪個(gè)物體離相機(jī)更近"或"這個(gè)區(qū)域的平均深度是多少米" 3. 距離估計(jì):要求計(jì)算兩個(gè)物體中心之間的實(shí)際距離 4. 單應(yīng)矩陣估計(jì):判斷兩張圖片之間的幾何變換關(guān)系 5. 物體位置:確定3D空間中物體的精確位置 6. 姿態(tài)估計(jì):判斷相機(jī)在兩個(gè)位置之間的相對(duì)旋轉(zhuǎn)和平移 7. 點(diǎn)跟蹤:識(shí)別同一個(gè)3D點(diǎn)在不同圖像中的對(duì)應(yīng)位置
VGBench最終包含6000個(gè)高質(zhì)量樣本,涵蓋判斷題、多選題和開(kāi)放式問(wèn)答格式。這就像給AI模型出了一套全面的空間幾何測(cè)試題,測(cè)試它們是否真正理解三維世界的規(guī)則。
在VGBench的基礎(chǔ)上,研究團(tuán)隊(duì)進(jìn)一步整合了11個(gè)現(xiàn)有的空間相關(guān)數(shù)據(jù)集,構(gòu)建了名為SpatialScore的全面空間理解基準(zhǔn)。這些整合的數(shù)據(jù)集包括MMVP、RealWorldQA、SpatialSense、VSR、SpatialBench、CV-Bench、QSpatialBench、3DSRBench、VSI-Bench,以及BLINK和MMIU中的空間相關(guān)子集。
想象SpatialScore就像一所完整的空間理解學(xué)校,包含各種難度和類型的課程??偣灿?8,093個(gè)樣本,分為8大類別:
1. 計(jì)數(shù):要求AI數(shù)出場(chǎng)景中特定物體的數(shù)量 2. 物體定位:確定物體在2D或3D空間中的位置 3. 3D位置關(guān)系:理解物體之間的相對(duì)位置關(guān)系 4. 深度與距離:估計(jì)物體的深度或物體之間的距離 5. 物體屬性:判斷物體的大小、形狀、方向等屬性 6. 相機(jī)與圖像變換:理解相機(jī)運(yùn)動(dòng)和圖像變換 7. 點(diǎn)/物體跟蹤:跟蹤多幀圖像或視頻中的點(diǎn)或物體 8. 其他:包括各種不屬于上述類別的空間理解任務(wù)
此外,研究團(tuán)隊(duì)還精心策劃了SpatialScore-Hard子集,包含1,400個(gè)特別具有挑戰(zhàn)性的樣本。這些樣本是通過(guò)嚴(yán)格流程篩選出來(lái)的:首先識(shí)別至少16個(gè)不同規(guī)模的多模態(tài)大語(yǔ)言模型(從1B到78B參數(shù))都無(wú)法給出正確答案的樣本,并且要求至少有兩個(gè)大型模型(32B+參數(shù))在每個(gè)樣本上失敗。這些候選樣本經(jīng)過(guò)手動(dòng)驗(yàn)證并在各類別間平衡,形成了一個(gè)能更好揭示當(dāng)前模型在空間理解方面局限性的集中子集。
如果把VGBench比作專業(yè)的空間幾何考試,那么SpatialScore就是一套全面的空間理解評(píng)估系統(tǒng),而SpatialScore-Hard則是其中特別具有挑戰(zhàn)性的高級(jí)測(cè)試題。這三者共同構(gòu)成了迄今為止最全面、最多樣化的空間理解評(píng)測(cè)基準(zhǔn)。
三、SpatialAgent:增強(qiáng)空間理解能力的多代理系統(tǒng)
發(fā)現(xiàn)問(wèn)題后,研究團(tuán)隊(duì)并未止步于評(píng)估,而是提出了一個(gè)創(chuàng)新的解決方案——SpatialAgent,這是一個(gè)專為空間理解設(shè)計(jì)的多代理系統(tǒng)。
想象SpatialAgent就像一個(gè)專家團(tuán)隊(duì),每個(gè)專家負(fù)責(zé)空間理解的不同方面,共同合作解決復(fù)雜的空間問(wèn)題。這個(gè)系統(tǒng)集成了9種專業(yè)工具,涵蓋2D感知、運(yùn)動(dòng)與變換、相機(jī)與幾何、以及輔助工具四大類別。
在2D感知方面,SpatialAgent使用RAM++進(jìn)行開(kāi)放詞匯表物體識(shí)別,OWLv2進(jìn)行準(zhǔn)確的物體檢測(cè)和定位,SAM2進(jìn)行實(shí)例分割以細(xì)化定位并量化物體比例。結(jié)合深度線索和現(xiàn)實(shí)世界先驗(yàn)知識(shí),這些工具使系統(tǒng)能夠可靠地估計(jì)物體的物理尺寸。
在運(yùn)動(dòng)與變換方面,系統(tǒng)集成了RAFT光流估計(jì)算法,用于分析多幀序列或視頻中的運(yùn)動(dòng)。這有助于相機(jī)運(yùn)動(dòng)分析,結(jié)合2D感知模塊,還能實(shí)現(xiàn)物體級(jí)和區(qū)域級(jí)運(yùn)動(dòng)跟蹤。此外,系統(tǒng)利用OpenCV中的SIFT算法進(jìn)行特征匹配和單應(yīng)性估計(jì),支持點(diǎn)跟蹤和圖像對(duì)齊任務(wù)。
對(duì)于相機(jī)與幾何方面,SpatialAgent集成了VGGT用于從單幀或多幀輸入估計(jì)相機(jī)參數(shù)(內(nèi)參和外參),DepthAnythingV2用于使用特定領(lǐng)域模型(室內(nèi)/室外)進(jìn)行深度估計(jì),以及OrientAnything用于估計(jì)3D物體方向,便于細(xì)粒度空間關(guān)系推斷。
最后,輔助工具包括基本圖像操作(如裁剪、調(diào)整大?。┖蛿?shù)值計(jì)算工具。專門(mén)的Terminate動(dòng)作用于整合工具輸出并標(biāo)志推理完成。此外,系統(tǒng)還采用目標(biāo)提示工程來(lái)增強(qiáng)開(kāi)源多模態(tài)大語(yǔ)言模型(如Qwen2.5-VL、InternVL3)的逐步推理能力。
SpatialAgent的工作方式有兩種不同的范式:Plan-Execute(計(jì)劃-執(zhí)行)和ReAct(推理-行動(dòng))。
Plan-Execute范式就像是先制定詳細(xì)的行動(dòng)計(jì)劃,然后按步驟執(zhí)行。具體來(lái)說(shuō),系統(tǒng)先由計(jì)劃者(planner)生成工具調(diào)用計(jì)劃,然后執(zhí)行者(executor)按順序執(zhí)行計(jì)劃并獲取工具輸出,最后總結(jié)者(summarizer)根據(jù)工具輸出和原始輸入生成最終響應(yīng)。這種方法在高效制定和執(zhí)行計(jì)劃方面表現(xiàn)出色,但預(yù)先確定的執(zhí)行路徑可能在復(fù)雜場(chǎng)景中犧牲精度。
ReAct范式則更像是一個(gè)迭代推理過(guò)程,通過(guò)動(dòng)態(tài)規(guī)劃適應(yīng)中間輸出。系統(tǒng)由觀察者(observer)、執(zhí)行者(executor)和總結(jié)者(summarizer)組成,維護(hù)一個(gè)記錄所有中間交互的內(nèi)存模塊。觀察者根據(jù)原始輸入和完整交互歷史生成下一個(gè)動(dòng)作,執(zhí)行者相應(yīng)處理,這個(gè)迭代過(guò)程持續(xù)到觀察者輸出Terminate動(dòng)作,觸發(fā)總結(jié)階段。ReAct范式通過(guò)動(dòng)態(tài)規(guī)劃展現(xiàn)出更好的靈活性,但由于其迭代性質(zhì),效率可能較低。
這兩種范式通過(guò)精心設(shè)計(jì)的提示詞驅(qū)動(dòng),各有優(yōu)勢(shì):Plan-Execute高效但可能缺乏靈活性,ReAct靈活但效率較低??傮w而言,SpatialAgent就像一個(gè)由多個(gè)專家組成的團(tuán)隊(duì),根據(jù)不同的問(wèn)題類型選擇最合適的工作方式,大大提升了現(xiàn)有模型的空間理解能力。
四、實(shí)驗(yàn)結(jié)果:當(dāng)前模型的空間理解能力如何?
研究團(tuán)隊(duì)在SpatialScore基準(zhǔn)上對(duì)25個(gè)代表性模型進(jìn)行了廣泛實(shí)驗(yàn),這些模型參數(shù)規(guī)模從1B到78B不等,包括InternVL2.5、InternVL3、Kimi-VL、Qwen2.5VL、LLaVA-OneVision、LLaMA-3.2V等通用多模態(tài)大語(yǔ)言模型,以及SpaceQwen2.5VL、SpatialBot和SpaceLLaVA等專為空間理解微調(diào)的模型。
實(shí)驗(yàn)結(jié)果令人深思:即使是最先進(jìn)的模型,在空間理解任務(wù)上的表現(xiàn)也遠(yuǎn)非完美。在VGBench上,最佳模型InternVL3-78B的總體準(zhǔn)確率僅為43.53%,這表明當(dāng)前模型在視覺(jué)幾何感知方面存在顯著局限。特別是在涉及單應(yīng)矩陣、相機(jī)參數(shù)、3D重建以及距離/深度估計(jì)的任務(wù)上,表現(xiàn)尤為不佳。
在SpatialScore整體基準(zhǔn)上,最佳模型InternVL3-78B的準(zhǔn)確率為60.17%,雖然表現(xiàn)較好,但仍有很大提升空間。有趣的是,更大的模型通常表現(xiàn)更好,這表明隨著參數(shù)規(guī)模增加,空間推理能力確實(shí)有所提升。然而,即使是最大的模型,其絕對(duì)性能仍然有限,說(shuō)明在全面空間理解方面仍有很大改進(jìn)空間。
此外,專為有限空間相關(guān)數(shù)據(jù)微調(diào)的模型(如SpaceQwen2.5VL-3B、SpaceLLaVA-13B)表現(xiàn)出較差的泛化能力,在多樣化且具挑戰(zhàn)性的SpatialScore基準(zhǔn)上表現(xiàn)不佳。這就像一個(gè)只學(xué)會(huì)了某一種特定道路導(dǎo)航的司機(jī),在陌生復(fù)雜環(huán)境中容易迷失方向。
在2D vs 3D推理方面,雖然現(xiàn)有模型能適度處理基本2D空間任務(wù)(如物體定位),但在3D空間推理方面表現(xiàn)明顯較差,特別是在需要視覺(jué)幾何感知的任務(wù)上,如相機(jī)參數(shù)預(yù)測(cè)和圖像變換(單應(yīng)矩陣)。
在SpatialScore-Hard子集上的表現(xiàn)更加突出地揭示了當(dāng)前模型的局限性。即使是開(kāi)源和專有模型(如商業(yè)API)在這個(gè)具有挑戰(zhàn)性的子集上也表現(xiàn)不佳,進(jìn)一步強(qiáng)調(diào)了這些樣本的難度。
與此相比,研究團(tuán)隊(duì)提出的SpatialAgent展示了顯著的改進(jìn)。即使使用Qwen2.5VL-7B和InternVL-8B等緊湊模型作為代理核心,SpatialAgent也能提升它們的空間理解能力,超越所有開(kāi)源模型,甚至在幾個(gè)類別中超過(guò)專有系統(tǒng)。這些改進(jìn)歸功于SpatialAgent的結(jié)構(gòu)化、工具調(diào)用框架,驗(yàn)證了其系統(tǒng)化、工具增強(qiáng)的推理框架在復(fù)雜空間任務(wù)中的決定性優(yōu)勢(shì),特別是在那些需要精確視覺(jué)幾何和多步推理的任務(wù)中。
具體來(lái)說(shuō),在SpatialScore-Hard上,SpatialAgent-Intern-PE(使用Plan-Execute范式)的總體準(zhǔn)確率達(dá)到46.08%,遠(yuǎn)高于未增強(qiáng)的InternVL3-78B(21.79%)和商業(yè)API如GPT-4o(30.57%)。這表明通過(guò)集成專業(yè)工具和結(jié)構(gòu)化推理,即使相對(duì)小型的模型也能在空間理解任務(wù)上取得顯著進(jìn)步。
然而,即使是SpatialAgent,偶爾也會(huì)失敗,通常是由于工具執(zhí)行次優(yōu)或?qū)χ虚g結(jié)果的誤解(例如,混淆深度與物體距離)。這些局限性預(yù)計(jì)會(huì)隨著多模態(tài)大語(yǔ)言模型理解能力的提升和工具箱設(shè)計(jì)的改進(jìn)而減少。
總的來(lái)說(shuō),這些實(shí)驗(yàn)結(jié)果既揭示了當(dāng)前模型在空間理解方面的持續(xù)挑戰(zhàn),又證明了SpatialAgent的有效性。雖然通過(guò)工具增強(qiáng)方法取得了顯著進(jìn)步,但空間理解領(lǐng)域仍需要基礎(chǔ)性的架構(gòu)創(chuàng)新。
五、未來(lái)展望:空間智能研究的下一步是什么?
隨著人工智能向?qū)嶓w環(huán)境應(yīng)用的不斷拓展,空間理解能力將變得越來(lái)越重要。研究團(tuán)隊(duì)的工作不僅評(píng)估了當(dāng)前模型的能力,還為未來(lái)研究指明了方向。
從短期來(lái)看,SpatialAgent代表了一種有效的過(guò)渡解決方案,通過(guò)集成專業(yè)工具和結(jié)構(gòu)化推理,顯著提升了現(xiàn)有模型的空間理解能力。這種方法可以立即應(yīng)用于實(shí)際場(chǎng)景,如智能家居、機(jī)器人導(dǎo)航和增強(qiáng)現(xiàn)實(shí)應(yīng)用。
然而,從長(zhǎng)期來(lái)看,真正的突破可能需要在模型架構(gòu)上進(jìn)行基礎(chǔ)創(chuàng)新。就像人類不需要明確計(jì)算就能直觀理解空間關(guān)系一樣,未來(lái)的AI模型可能需要內(nèi)建空間幾何理解能力,而不僅僅依賴外部工具。
此外,研究團(tuán)隊(duì)開(kāi)發(fā)的VGBench和SpatialScore提供了全面評(píng)估空間理解能力的標(biāo)準(zhǔn),這將有助于推動(dòng)該領(lǐng)域的發(fā)展。這些基準(zhǔn)測(cè)試不僅評(píng)估模型當(dāng)前的能力,還指出了需要改進(jìn)的具體方向。
在方法論方面,SpatialAgent展示的Plan-Execute和ReAct范式為復(fù)雜問(wèn)題的解決提供了有效框架,可能會(huì)影響未來(lái)多模態(tài)系統(tǒng)的設(shè)計(jì)。特別是對(duì)于需要多步推理和專業(yè)工具協(xié)作的任務(wù),這種多代理系統(tǒng)方法可能會(huì)變得越來(lái)越普遍。
具體到應(yīng)用層面,隨著空間理解能力的提升,我們可以期待更自然、更直觀的人機(jī)交互。例如,能夠理解"把這個(gè)放在那個(gè)旁邊"或"朝門(mén)的方向走五米然后右轉(zhuǎn)"等自然指令的機(jī)器人助手。同樣,增強(qiáng)現(xiàn)實(shí)應(yīng)用可以更準(zhǔn)確地將虛擬內(nèi)容融入物理空間,自動(dòng)駕駛系統(tǒng)可以更好地理解復(fù)雜的交通環(huán)境。
最后,該研究揭示的一個(gè)重要見(jiàn)解是:即使是最先進(jìn)的模型,在處理需要3D空間感知的任務(wù)時(shí)仍然存在顯著局限。這提醒我們,盡管在語(yǔ)義理解和邏輯推理方面取得了令人印象深刻的進(jìn)展,AI仍然缺乏人類視為理所當(dāng)然的某些基本能力。彌合這一差距將是未來(lái)研究的關(guān)鍵挑戰(zhàn)。
結(jié)語(yǔ)
想象一個(gè)能夠精確理解并導(dǎo)航我們?nèi)S世界的AI系統(tǒng)。這不再是科幻小說(shuō)中的場(chǎng)景,而是隨著上海交通大學(xué)研究團(tuán)隊(duì)的這項(xiàng)開(kāi)創(chuàng)性工作,正在逐步成為現(xiàn)實(shí)。
歸根結(jié)底,SpatialScore研究的核心貢獻(xiàn)在于系統(tǒng)地揭示并解決了當(dāng)前多模態(tài)大語(yǔ)言模型在空間理解方面的局限性。通過(guò)構(gòu)建全面的評(píng)測(cè)基準(zhǔn),研究團(tuán)隊(duì)不僅為我們提供了衡量AI空間智能的標(biāo)尺,還通過(guò)SpatialAgent展示了提升這種能力的可行路徑。
對(duì)于普通用戶來(lái)說(shuō),這項(xiàng)研究意味著未來(lái)的AI助手將能更好地理解我們的空間相關(guān)指令。無(wú)論是指導(dǎo)你在超市找到特定商品,還是幫助你重新布置家具,或者在陌生城市為你導(dǎo)航,空間理解能力的提升將使AI在日常生活中變得更加實(shí)用和自然。
對(duì)于研究人員和開(kāi)發(fā)者來(lái)說(shuō),VGBench、SpatialScore和SpatialAgent提供了寶貴的資源和方法,為未來(lái)的模型發(fā)展提供了明確方向。這些工具將幫助下一代AI系統(tǒng)不僅能"看見(jiàn)"世界,還能真正"理解"世界的空間結(jié)構(gòu)。
正如研究團(tuán)隊(duì)所言,整合語(yǔ)義理解與空間幾何感知將成為多模態(tài)大語(yǔ)言模型的下一個(gè)演化步驟。隨著這一進(jìn)展,AI將離真正的"空間智能"更近一步,這對(duì)于從家用機(jī)器人到自動(dòng)駕駛車輛等各種實(shí)體AI應(yīng)用都具有深遠(yuǎn)意義。
你是否曾想過(guò),當(dāng)AI不僅能認(rèn)出畫(huà)面中的物體,還能理解它們?cè)诳臻g中的確切位置和關(guān)系時(shí),會(huì)開(kāi)啟哪些新的可能性?隨著SpatialScore和SpatialAgent這樣的創(chuàng)新研究推動(dòng)技術(shù)邊界,這個(gè)問(wèn)題的答案正在逐漸展開(kāi)。
好文章,需要你的鼓勵(lì)
新加坡國(guó)立大學(xué)研究團(tuán)隊(duì)開(kāi)發(fā)了SPIRAL框架,通過(guò)讓AI與自己對(duì)弈零和游戲來(lái)提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡(jiǎn)單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無(wú)需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開(kāi)發(fā)的GIGA-ToF技術(shù)通過(guò)融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問(wèn)題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺(jué)解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過(guò)對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺(jué)語(yǔ)言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無(wú)法有效利用視覺(jué)信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過(guò)動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語(yǔ)言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。