論文與研究團隊介紹
2025年5月,香港中文大學的鄭鐸、黃世佳、李巖洋和王立威發(fā)表了一項創(chuàng)新研究,題為《從視頻中學習3D世界:用3D視覺幾何先驗增強多模態(tài)大語言模型》(Learning from Videos for 3D World: Enhancing MLLMs with 3D Vision Geometry Priors)。這篇研究論文已在arXiv預印本平臺上公開(arXiv:2505.24625v1),為多模態(tài)大語言模型在3D場景理解方面帶來了重大突破。
想象一下,你正在使用一款智能助手,向它展示你家客廳的視頻,并詢問:"如果我把沙發(fā)移到窗戶旁邊,會不會擋住走道?"傳統(tǒng)的AI系統(tǒng)可能會困惑不已,因為它們缺乏理解3D空間的能力。然而,香港中文大學的研究團隊開發(fā)的新技術可以讓AI助手從普通視頻中理解三維空間關系,就像人類那樣。
研究背景與挑戰(zhàn)
多模態(tài)大語言模型(MLLMs)近年來發(fā)展迅速,在圖像和視頻理解方面取得了顯著進步。然而,當涉及到理解3D空間和物體之間的空間關系時,這些模型仍然表現(xiàn)不佳。就像一個人只看照片而沒有立體視覺一樣,傳統(tǒng)MLLMs對深度、距離和物體之間的相對位置缺乏準確感知。
以往的研究嘗試通過將3D場景解釋為視頻序列來改善MLLMs的3D理解能力。例如,有些方法會在視覺特征中注入3D坐標信息,或者使用從3D點云重建的鳥瞰圖。但這些方法有一個共同的限制:它們依賴于密集的3D數(shù)據(jù)輸入(如深度圖和點云圖),而這些數(shù)據(jù)在現(xiàn)實世界中往往難以獲取。雖然可以直接從圖像估算3D屬性,但這可能引入估計誤差并降低性能。
研究團隊面臨的核心問題是:"多模態(tài)大語言模型能否直接從視頻中理解3D世界,而不需要任何顯式的3D數(shù)據(jù)輸入?"
研究創(chuàng)新:視頻-3D幾何大語言模型
為了解決這一挑戰(zhàn),研究團隊提出了一種名為"視頻-3D幾何大語言模型"(Video-3D Geometry LLM,簡稱VG LLM)的新型框架。這一方法的獨特之處在于,它無需依賴顯式的3D數(shù)據(jù)輸入,而是直接從普通視頻中學習3D幾何信息。
想象一下,我們人類在觀看視頻時,能夠自然地理解場景中物體的深度、大小和相對位置。這是因為我們的大腦能夠從連續(xù)幀之間的變化中推斷出3D信息。VG LLM就是模仿這一過程,它包含了一個3D視覺幾何編碼器,可以從視頻序列中提取3D先驗信息。
具體來說,VG LLM的工作原理如下:當輸入視頻幀時,這些圖像會同時經(jīng)過兩個不同的處理通道:一個是常規(guī)的視覺編碼器,用于提取每個單獨圖像的語義特征;另一個是新集成的3D視覺幾何編碼器,用于捕捉幀間的幾何關系。這兩個編碼器提取的特征會在圖像塊級別融合,然后傳遞給MLLM主干網(wǎng)絡。
關鍵的突破點在于3D視覺幾何編碼器。它是在諸如圖像對或序列的點圖預測等任務上預訓練的,因此嵌入了強大的3D感知先驗知識,能夠捕捉幀間的對應關系。通過這種方式,VG LLM可以有效地將3D幾何先驗整合到模型中,使其對視角變換更加魯棒,從而顯著提高空間推理能力。
實驗設置與評估
研究團隊在各種3D場景理解和空間推理任務上進行了廣泛的實驗,這些任務都接受視頻作為輸入。為了全面評估模型性能,他們選擇了多種具有挑戰(zhàn)性的任務:
3D場景理解任務包括: - 3D視覺定位:在給定語言描述的情況下,找出視頻中特定物體的位置和邊界框 - 3D密集描述:為3D場景中的所有物體生成詳細描述 - 3D視頻物體檢測:在統(tǒng)一坐標系中檢測整個視頻中出現(xiàn)的所有物體
空間推理任務則包括: - VSI-Bench:評估關系推理和自我中心-分配中心轉換能力 - CV-Bench:評估2D和3D視覺理解能力 - BLINK:測試相對深度、空間推理和多視角推理能力
值得注意的是,研究團隊訓練了兩個不同的模型分別用于3D場景理解和空間推理任務,以確保公平比較。他們的模型基于Qwen2.5-VL-3B,集成了VGGT-1B作為3D幾何編碼器。
實驗結果與發(fā)現(xiàn)
實驗結果令人振奮。研究團隊的4B參數(shù)模型在沒有使用任何顯式3D輸入的情況下,不僅超越了許多基于3D輸入的領先模型,甚至在VSI-Bench評估中超過了Gemini-1.5-Pro這樣的大型專有模型。
具體來看,在3D場景理解任務中:
在3D視覺定位(ScanRefer數(shù)據(jù)集)上,VG LLM在IoU為0.25的閾值下達到了51.0%的準確率,超過了SPAR的48.8%。即使在沒有建議框優(yōu)化的情況下,VG LLM也達到了34.1%的準確率,超過了SPAR的31.9%。
在3D密集描述(Scan2Cap基準)上,盡管沒有使用3D相機參數(shù)或顯式深度信息,VG LLM仍然取得了74.1的CIDEr得分,超過了之前最先進的LEO模型的72.4分。這表明,VGGT提取的視覺特征中隱含編碼的3D幾何信息足以用于室內場景理解。
在3D視頻物體檢測任務上,與僅使用Qwen2.5-VL-3B的基線相比,引入視覺幾何信息帶來了顯著改進。特別是,在4幀設置中,平均召回率大幅提升了14.1個百分點,從32.1%上升到46.2%。這一改進歸功于模型增強的自我中心-分配中心轉換能力,使其能夠檢索到第一幀中不可見的物體。
在空間推理任務中:
在VSI-Bench上,VG LLM-4B取得了令人印象深刻的46.1%的平均得分,超過了Gemini-1.5-Pro的45.4%。在計數(shù)和房間大小估計等任務上,模型表現(xiàn)尤為出色,分別達到了66.4%和56.3%的準確率。
在CV-Bench上,VG LLM-4B在3D任務上取得了91.3%的最高準確率,展示了其強大的3D理解能力。
在BLINK(空間子集)上,模型在相對深度任務上取得了79.8%的最高得分,超過了GPT-4o的74.2%。
這些結果揭示了幾個重要發(fā)現(xiàn):
1. 無需顯式的密集3D輸入,VG LLM也能超越許多基于3D輸入的模型,證明了其有效的3D幾何理解能力。
2. 通過在視覺表示中隱式建模幀間對應關系,模型學習了強大的自我中心-分配中心轉換能力,在3D視頻物體檢測上帶來了顯著改進。
3. 在需要復雜空間推理技能的任務上,如VSI-Bench,4B參數(shù)的VG LLM獲得了令人印象深刻的46.1%的平均分數(shù),甚至超過了最佳專有模型Gemini-1.5-Pro。
值得一提的是,與SPAR這樣依賴大量訓練數(shù)據(jù)(200萬樣本)的方法不同,研究團隊的方法只使用了SPAR-7M的3%數(shù)據(jù)就取得了強大的性能,這凸顯了3D幾何建模在MLLMs中的重要性。此外,增強空間理解能力對通用多模態(tài)性能的影響微乎其微,甚至在BLINK(+4.0)和TempCompassMC(+0.6)等任務上帶來了改進。
模型架構與訓練詳情
VG LLM的核心創(chuàng)新在于其架構設計。傳統(tǒng)的MLLMs在處理視頻時,會將每一幀作為獨立的標記通過視覺編碼器處理,這種方式無法捕捉關鍵的3D幾何信息,如幀間對應關系。而VG LLM引入的3D視覺幾何編碼器則能夠彌補這一不足。
具體來說,VG LLM的架構包含以下組件:
首先是預處理階段。給定一系列RGB圖像和一個自然語言問題,傳統(tǒng)MLLM會使用2D視覺編碼器將這些圖像編碼為圖像標記。在VG LLM中,研究團隊選擇了Qwen2.5-VL作為MLLM主干。
其次是3D視覺幾何編碼器。為了在輸入幀中建模3D幾何信息(如幀間對應關系),團隊采用了一個3D視覺幾何編碼器從所有輸入圖像中共同提取這些信息。團隊選擇了VGGT作為3D視覺幾何編碼器,因為它在3D任務中表現(xiàn)出色。
然后是視覺特征融合。在將特征傳遞給MLLM主干之前,VG LLM會融合圖像標記和3D視覺幾何特征。具體來說,它首先將每個3D視覺幾何特征轉換為與圖像標記相同形狀的特征,然后生成幾何增強的視覺特征。
最后,這些融合的視覺特征與問題的文本嵌入一起輸入MLLM主干,生成最終響應。
在訓練方面,研究團隊采用了一種多任務學習方法,結合了多個數(shù)據(jù)集進行訓練。對于3D場景理解,他們使用了ScanRefer、Scan2Cap和從EmbodiedScan構建的數(shù)據(jù)集。對于空間推理,他們使用了SPAR-7M和LLaVA-Video-178K的LLaVA-Hound分割的數(shù)據(jù)。
模型在8個H100 80G GPU上訓練,3D場景理解訓練花費了8小時,空間推理指令調優(yōu)花費了12小時。
未來展望與應用前景
這項研究的成功為MLLMs在理解和推理3D空間方面開辟了新的可能性。通過使MLLMs能夠直接從視頻中理解3D世界,而不需要顯式的3D數(shù)據(jù)輸入,VG LLM大大擴展了這些模型的應用范圍。
在實際應用中,這項技術可能對多個領域產(chǎn)生深遠影響:
在室內導航機器人領域,VG LLM可以幫助機器人理解復雜的空間指令,如"移動到沙發(fā)和咖啡桌之間的空間",無需依賴昂貴的3D傳感器。
在增強現(xiàn)實應用中,它可以更好地理解用戶周圍的環(huán)境,提供更加直觀和上下文相關的信息。
在智能家居系統(tǒng)中,它可以通過理解房間布局和物體之間的空間關系,提供更智能的控制和自動化功能。
在輔助技術方面,它可以幫助視障人士更好地理解周圍環(huán)境,識別物體之間的空間關系。
未來的研究方向可能包括進一步改進模型的3D幾何理解能力,擴展到更復雜和動態(tài)的場景,以及將這種能力整合到更廣泛的應用中。
總結
香港中文大學研究團隊開發(fā)的VG LLM代表了多模態(tài)大語言模型在3D場景理解和空間推理方面的重大進步。通過集成3D視覺幾何編碼器,VG LLM能夠直接從視頻中提取3D幾何信息,而不需要顯式的3D數(shù)據(jù)輸入。
實驗結果表明,VG LLM在各種3D場景理解和空間推理任務上表現(xiàn)出色,甚至超過了一些依賴顯式3D輸入的領先模型和大型專有模型。這些結果凸顯了在MLLMs中建模3D幾何信息的重要性,以及這種方法在提高模型空間理解能力方面的有效性。
隨著這項技術的進一步發(fā)展和應用,我們可以期待看到更多能夠自然地理解和交互于3D世界的AI系統(tǒng),從而為各種領域帶來更智能、更直觀的解決方案。對于那些希望深入了解這項研究的讀者,可以通過arXiv:2505.24625v1訪問完整論文,或者訪問項目網(wǎng)站https://lavi-lab.github.io/VG-LLM獲取更多信息。
好文章,需要你的鼓勵
新加坡國立大學研究團隊開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實驗顯示,僅訓練AI玩簡單撲克游戲就能讓其數(shù)學推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學題目作為訓練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉移到數(shù)學解題中,為AI訓練提供了新思路。
同濟大學團隊開發(fā)的GIGA-ToF技術通過融合多幀圖像的"圖結構"信息,創(chuàng)新性地解決了3D相機噪聲問題。該技術利用圖像間的不變幾何關系,結合深度學習和數(shù)學優(yōu)化方法,在合成數(shù)據(jù)集上實現(xiàn)37.9%的精度提升,并在真實設備上展現(xiàn)出色泛化能力,為機器人、AR和自動駕駛等領域提供更可靠的3D視覺解決方案。
伊利諾伊大學研究團隊通過對比實驗發(fā)現(xiàn),經(jīng)過強化學習訓練的視覺語言模型雖然表現(xiàn)出"頓悟時刻"現(xiàn)象,但這些自我糾錯行為并不能實際提升推理準確率。研究揭示了AI模型存在"生成-驗證差距",即生成答案的能力強于驗證答案質量的能力,且模型在自我驗證時無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機構聯(lián)合提出SparseLoRA技術,通過動態(tài)稀疏性實現(xiàn)大語言模型訓練加速1.6倍,計算成本降低2.2倍。該方法使用SVD稀疏性估計器智能選擇重要計算部分,在保持模型性能的同時顯著提升訓練效率,已在多個任務上驗證有效性。