av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 多空間理解新突破:Meta研究團隊打造多幀空間理解的多模態(tài)大語言模型

多空間理解新突破:Meta研究團隊打造多幀空間理解的多模態(tài)大語言模型

2025-05-28 18:36
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-28 18:36 ? 科技行者

作為人工智能領(lǐng)域的重要突破,2025年5月23日發(fā)表的論文《Multi-SpatialMLLM: Multi-Frame Spatial Understanding with MultiModal Large Language Models》,由來自Meta公司FAIR團隊的Runsen Xu、Weiyao Wang、Hao Tang、Xingyu Chen、Xiaodong Wang、Fu-Jen Chu、Matt Feiszli、Kevin J. Liang,以及香港中文大學(xué)的Dahua Lin共同完成。該研究成果可通過項目網(wǎng)站 https://runsenxu.com/projects/Multi-SpatialMLLM 獲取。這項研究標(biāo)志著多模態(tài)大語言模型在空間理解能力上的重要進(jìn)展,特別是在多幀圖像處理方面取得了突破性進(jìn)展。

一、研究背景:為什么機器人需要理解空間關(guān)系?

想象一下,你與朋友在咖啡廳聊天,輕松地指著桌面上的杯子說:"把那個紅色的杯子遞給我"。這個簡單的請求對人類來說輕而易舉,但對人工智能卻是一項復(fù)雜的挑戰(zhàn)。為什么?因為它涉及到空間理解——知道物體之間的相對位置、距離和方向關(guān)系。

近年來,多模態(tài)大語言模型(MLLMs)在視覺任務(wù)上取得了令人矚目的進(jìn)步。像GPT-4V、Claude和Gemini這樣的模型可以理解圖像內(nèi)容并進(jìn)行描述,仿佛它們真的"看懂"了圖片。然而,這些模型面臨一個重要的局限性——它們大多只能處理單一圖像的空間理解,就像只能通過一張快照來理解世界,而無法整合多個視角或時間點的信息。

Meta研究團隊敏銳地意識到,這種局限性嚴(yán)重阻礙了人工智能在機器人和自動駕駛等實際應(yīng)用中的表現(xiàn)。試想,如果你讓機器人"把餐桌上的盤子拿到廚房",它需要從多個角度理解餐桌和盤子的位置關(guān)系,然后規(guī)劃一條路徑,最后準(zhǔn)確地抓取盤子。這不僅需要理解單幀圖像中的空間關(guān)系,還需要整合多幀圖像的信息,構(gòu)建一個連貫的環(huán)境理解。

正如研究團隊在論文中指出的,現(xiàn)有的多模態(tài)大語言模型即使在單圖像的空間理解上也常常表現(xiàn)不佳,甚至?xí)煜镜淖笥曳较?。這種局限性在很大程度上源于訓(xùn)練數(shù)據(jù)的不足——現(xiàn)有的模型主要在網(wǎng)絡(luò)上的圖像-文本對上訓(xùn)練,這些數(shù)據(jù)缺乏豐富的空間關(guān)系標(biāo)注。

二、研究核心:如何讓AI理解多幀圖像中的空間關(guān)系?

為了解決這一挑戰(zhàn),Meta研究團隊提出了一種全新的框架,旨在賦予多模態(tài)大語言模型強大的多幀空間理解能力。他們的方法建立在三個基礎(chǔ)能力之上,這些能力共同構(gòu)成了人類空間理解的基石:

首先是深度感知(Depth Perception)。想象你正在觀察一個房間——有些物體離你很近,有些則很遠(yuǎn)。人類可以輕松判斷物體的遠(yuǎn)近,這種能力對于理解三維空間至關(guān)重要。研究團隊讓AI模型學(xué)會從圖像中推斷物體的相對距離和三維結(jié)構(gòu)。

其次是視覺對應(yīng)(Visual Correspondence)。當(dāng)你從不同角度觀察同一個物體時,盡管它在圖像中的位置和外觀可能變化,但你的大腦會自動識別這是同一個物體。這種能力讓研究團隊的模型能夠在不同圖像之間匹配重疊區(qū)域,建立一致的場景關(guān)聯(lián)。

最后是動態(tài)感知(Dynamic Perception)。這包括理解相機(或觀察者)的移動和物體的移動。當(dāng)你在房間里走動時,你能感知自己的移動方向和速度,同時也能察覺哪些物體保持靜止,哪些在移動。研究團隊讓AI模型學(xué)會區(qū)分并理解這兩種不同類型的運動。

研究的關(guān)鍵挑戰(zhàn)在于獲取足夠的訓(xùn)練數(shù)據(jù)。與先前的研究不同,該團隊不僅需要空間數(shù)據(jù),還需要時間上對齊的多幀數(shù)據(jù)。由于手動標(biāo)注如此大規(guī)模的數(shù)據(jù)既昂貴又費時,研究人員創(chuàng)新性地利用了現(xiàn)有的3D和4D數(shù)據(jù)集,包括ScanNet(3D室內(nèi)場景)和TAPVid3D、Aria Digital Twin以及Panoptic Studio等4D數(shù)據(jù)集。

他們開發(fā)了一個數(shù)據(jù)引擎,通過采樣具有均勻重疊分布的圖像對,然后將空間和時間對齊的點云反投影到圖像上,建立像素級的對應(yīng)關(guān)系。利用這些對應(yīng)關(guān)系以及相機運動和投影信息,研究團隊創(chuàng)建了高質(zhì)量的問答對,涵蓋多種空間理解任務(wù)。

三、獨特創(chuàng)新:超越單一圖像的空間理解

研究團隊的一個重要創(chuàng)新是打造了"MultiSPA"數(shù)據(jù)集——首個專注于多幀空間理解的大規(guī)模數(shù)據(jù)集,包含超過2700萬個樣本。這些樣本涵蓋了各種3D和4D場景,提供了前所未有的豐富空間理解訓(xùn)練資源。

與先前方法相比,MultiSPA在兩個關(guān)鍵方面實現(xiàn)了突破:

首先,它支持多種引用方式。想象你正在指導(dǎo)某人找到房間里的一個物體——你可能會說"桌子上的紅色杯子"(語義標(biāo)簽),或者"那個點(指著它)"(視覺點標(biāo)注),或者"坐標(biāo)x,y處的物體"(像素坐標(biāo))。先前的研究主要依賴單一引用方式,如SpatialVLM使用語義標(biāo)簽,SpatialRGPT使用物體掩碼。而MultiSPA支持所有這些引用方式,大大拓展了模型的應(yīng)用場景。

其次,MultiSPA支持多種輸出格式。從定性描述("物體在左側(cè)")到量化數(shù)值("物體距離相機3米"),從二維像素位置到三維位移向量,這些多樣化的輸出使模型能夠提供更精確、更豐富的空間信息。

基于這個數(shù)據(jù)集,研究團隊訓(xùn)練了Multi-SpatialMLLM模型。他們選擇了InternVL2-8B作為基礎(chǔ)模型,采用LoRA(低秩適應(yīng))技術(shù)進(jìn)行微調(diào)。為了保持模型的多功能性,他們將空間理解數(shù)據(jù)與一般指令遵循數(shù)據(jù)混合訓(xùn)練,確保模型在增強空間理解的同時不會喪失其他能力。

四、實驗結(jié)果:AI的空間理解能力有多強?

研究團隊設(shè)計了一系列實驗,全面評估Multi-SpatialMLLM的性能。結(jié)果令人振奮——該模型在多幀空間理解任務(wù)上顯著超越了基線模型和專有系統(tǒng)。

在MultiSPA基準(zhǔn)測試中,Multi-SpatialMLLM的平均準(zhǔn)確率達(dá)到56.11%,比基礎(chǔ)模型提高了35.68個百分點。特別是在定性任務(wù)上,如深度比較、相機方向和相機平移方向,模型的準(zhǔn)確率達(dá)到了74%-90%,遠(yuǎn)高于基線模型的約50%。

更令人印象深刻的是,盡管Multi-SpatialMLLM只有8B參數(shù),可能遠(yuǎn)少于Claude-3.5、Gemini-2.0和GPT-4o等閉源模型,但它在多幀空間理解任務(wù)上的表現(xiàn)與這些模型相當(dāng)甚至超越它們。這充分證明了MultiSPA數(shù)據(jù)集的有效性。

在泛化能力方面,該模型在BLINK基準(zhǔn)測試(一個用于評估MLLM感知的多樣化基準(zhǔn))上表現(xiàn)出色。盡管BLINK的圖像分辨率和分布與訓(xùn)練數(shù)據(jù)不同,Multi-SpatialMLLM仍在多視圖推理和視覺對應(yīng)等任務(wù)上取得了接近90%的準(zhǔn)確率,比基礎(chǔ)模型提高了26.4%,甚至超過了幾個專有模型。這表明模型學(xué)到的多幀空間理解能力可以跨數(shù)據(jù)集遷移。

同時,模型在標(biāo)準(zhǔn)VQA(視覺問答)基準(zhǔn)測試上保持了與原始模型相當(dāng)?shù)男阅埽C明它沒有因為空間理解能力的增強而損失一般性能。

五、多任務(wù)協(xié)同:空間理解的不同能力如何互相增強?

研究中的一個有趣發(fā)現(xiàn)是多任務(wù)訓(xùn)練的協(xié)同效應(yīng)。當(dāng)研究團隊僅使用50萬個相機運動數(shù)據(jù)樣本進(jìn)行訓(xùn)練時,模型在相機運動向量預(yù)測任務(wù)上的準(zhǔn)確率為9.3%。而當(dāng)加入其他任務(wù)的數(shù)據(jù)(總共300萬樣本)進(jìn)行聯(lián)合訓(xùn)練時,準(zhǔn)確率顯著提升至18.0%。

更令人驚訝的是,即使是來自不同數(shù)據(jù)源的任務(wù)也表現(xiàn)出了這種協(xié)同效應(yīng)。當(dāng)研究團隊比較兩種對象運動訓(xùn)練配置時發(fā)現(xiàn):(1)僅使用40萬個對象運動樣本;(2)使用相同的40萬對象運動樣本,外加40萬來自相機運動、視覺對應(yīng)和深度估計的樣本。結(jié)果顯示,第二種配置在對象運動子任務(wù)上的平均準(zhǔn)確率從17.5%提高到了22.04%。

這一發(fā)現(xiàn)具有重要意義,因為它表明,空間理解能力的不同方面可以相互增強,而不僅僅是相互競爭。這為未來的研究指明了方向——我們不僅可以通過增加數(shù)據(jù)量和模型容量來提升性能,還可以通過增加任務(wù)多樣性來實現(xiàn)更好的泛化能力。

六、涌現(xiàn)現(xiàn)象:復(fù)雜空間理解能力的突然出現(xiàn)

研究團隊在實驗中觀察到一個令人著迷的現(xiàn)象——某些空間推理能力似乎是"涌現(xiàn)"的,類似于文本大語言模型中觀察到的涌現(xiàn)能力。

為了探索這一現(xiàn)象,研究團隊設(shè)計了一個挑戰(zhàn)性更大的視覺對應(yīng)任務(wù)版本。在默認(rèn)設(shè)置中,第二張圖像中的干擾像素是隨機選擇的,這相對容易。但在困難版本中,干擾像素被刻意選在正確像素附近,要求模型具有更高的辨別能力。

當(dāng)在這些困難樣本上訓(xùn)練不同規(guī)模的模型并在簡單樣本上測試時,研究團隊發(fā)現(xiàn)只有26B參數(shù)的變體(配備了6B視覺編碼器和20B語言模型)顯著提高了性能,從基線的44.0%提升到82.33%。相比之下,8B和13B模型(后者配備了更大的6B視覺編碼器)不僅沒有有效學(xué)習(xí),反而性能下降。

這一發(fā)現(xiàn)暗示,學(xué)習(xí)困難的空間任務(wù)可能需要足夠大的模型容量——可能指向多幀空間理解的"涌現(xiàn)"特性。這與文本大語言模型中觀察到的現(xiàn)象類似,某些復(fù)雜能力只有在模型規(guī)模達(dá)到一定閾值后才會出現(xiàn)。

七、實際應(yīng)用:多幀空間理解如何改變機器人學(xué)習(xí)?

Multi-SpatialMLLM不僅在學(xué)術(shù)基準(zhǔn)上表現(xiàn)出色,在實際應(yīng)用中也展示了令人印象深刻的能力。研究團隊在新收集的機器人手臂堆疊立方體的圖像上測試了模型。盡管訓(xùn)練數(shù)據(jù)中沒有包含任何機器人場景,模型仍然能夠準(zhǔn)確識別靜態(tài)物體和移動物體。

更重要的是,研究表明Multi-SpatialMLLM可以作為機器人學(xué)習(xí)中的"多幀獎勵標(biāo)注器"。在機器人學(xué)習(xí)中,一個關(guān)鍵挑戰(zhàn)是如何評估機器人的行為是否達(dá)到了目標(biāo)。通過分析連續(xù)幀中物體的移動情況,Multi-SpatialMLLM能夠估計物體的位移距離,與地面真實情況保持一致。這為機器人學(xué)習(xí)提供了一種新的評估方式,特別是對于"將物體移動n米"這樣的任務(wù)。

八、未來展望:多幀空間理解的更廣闊應(yīng)用

盡管這項研究取得了重要突破,但仍有一些局限性值得關(guān)注。首先,大多數(shù)實驗僅使用兩幀圖像,未來研究可以探索使用更多幀的情況,進(jìn)一步增強空間推理能力。其次,盡管觀察到了涌現(xiàn)現(xiàn)象的跡象,但需要更深入的研究來明確哪些具體的空間能力會隨著模型規(guī)模增加而涌現(xiàn)。

未來的研究方向可能包括:進(jìn)一步擴展訓(xùn)練數(shù)據(jù)規(guī)模和模型容量;探索更多幀的空間理解;將模型應(yīng)用于更多實際場景,如機器人導(dǎo)航、自動駕駛和增強現(xiàn)實;以及深入研究空間理解能力的涌現(xiàn)特性。

這項研究標(biāo)志著多模態(tài)大語言模型向著更全面的空間理解邁出了重要一步。通過整合深度感知、視覺對應(yīng)和動態(tài)感知,Multi-SpatialMLLM展示了在復(fù)雜空間任務(wù)上的強大能力,為人工智能在現(xiàn)實世界中的應(yīng)用開辟了新的可能性。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-