這項來自浙江大學、莫納什大學和MBZUAI聯(lián)合研究團隊的最新研究《Revisiting Depth Representations for Feed-Forward 3D Gaussian Splatting》于2025年6月發(fā)表在arXiv預印本平臺(arXiv:2506.05327v1)。該研究由施督超、王偉杰(共同第一作者)、陳東尼、張澤宇、邊家旺、莊博涵和沈春華教授共同完成。有興趣深入了解的讀者可以通過項目主頁https://aim-uofa.github.io/PMLoss獲取更多信息。
想象一下,你正在使用一款先進的3D建模軟件,可以從幾張照片快速創(chuàng)建逼真的3D場景。但當你放大查看時,發(fā)現(xiàn)物體的邊緣總是有些模糊不清,就像用模糊的剪刀剪出來的一樣。這正是當前前饋式3D高斯分布渲染(Feed-Forward 3D Gaussian Splatting,簡稱3DGS)技術(shù)面臨的核心問題。
3D高斯分布渲染是一種近年來備受關(guān)注的新型3D場景表示和渲染技術(shù),它能夠以極快的速度生成高質(zhì)量的新視角圖像。不過,傳統(tǒng)的3DGS需要對每個新場景進行耗時的優(yōu)化,限制了它在實際應(yīng)用中的便捷性。因此,研究人員開發(fā)了前饋式3DGS方法,可以直接從輸入圖像快速預測3D場景,無需逐場景優(yōu)化。
然而,這些前饋式方法往往使用深度圖作為中間表示,而深度圖在物體邊界處常常存在不連續(xù)性,導致生成的3D點云破碎或稀疏,最終影響渲染質(zhì)量。這就像是用低質(zhì)量的拼圖片試圖拼出一幅完整畫作,邊緣總是對不齊。
針對這一問題,研究團隊提出了一種名為PM-Loss的新型正則化損失函數(shù),基于預訓練Transformer模型預測的點圖(pointmap)。雖然點圖本身的準確度可能不如深度圖,但它能有效強化幾何平滑性,特別是在物體邊界周圍。這就像是給拼圖添加了一個指導模板,幫助我們更準確地對齊邊緣。
通過這種方法,研究團隊顯著改善了前饋式3DGS在各種架構(gòu)和場景下的表現(xiàn),始終提供更好的渲染結(jié)果。他們的成果不僅提高了視覺質(zhì)量,還為未來前饋式3DGS的發(fā)展提供了新的思路。
一、深度圖的不足:前饋式3DGS面臨的挑戰(zhàn)
想象你正在用透明塑料片畫一座房子的輪廓,然后將這些輪廓疊加起來形成一個3D模型。這基本上就是深度圖的工作方式——它記錄了場景中每個點到相機的距離。雖然這種方法在平滑表面上效果不錯,但在物體邊界處卻會出現(xiàn)問題。
深度圖在物體邊界處常常呈現(xiàn)出急劇的深度變化或不連續(xù)性。這就像是在畫輪廓時,筆突然跳到了完全不同的高度。當我們將這些深度值轉(zhuǎn)換為3D點時,這些不連續(xù)性會導致生成的3D點云出現(xiàn)斷裂或稀疏區(qū)域,就像拼圖缺了幾塊一樣。
研究人員在論文中詳細分析了這一問題。他們展示了當前主流的前饋式3DGS方法(如DepthSplat和MVSplat)如何使用深度圖來生成3D高斯分布。這些方法首先預測場景的深度圖,然后將其反投影為3D點云,最后在這些點上放置3D高斯分布。由于深度圖的固有局限性,這些方法在物體邊界處往往產(chǎn)生質(zhì)量較差的結(jié)果。
例如,在論文圖1中,我們可以清楚地看到DepthSplat生成的3D點云在物體邊界處有大量漂浮的點和噪聲,導致渲染的新視角圖像在這些區(qū)域出現(xiàn)明顯的失真和黑邊。這就像是用模糊的相機拍攝出來的照片,邊緣總是有些朦朧不清。
二、點圖的優(yōu)勢:平滑幾何的強大先驗
如果說深度圖就像只測量高度的地形圖,那么點圖(pointmap)則更像是一個完整的3D模型。點圖直接在世界坐標系中編碼三維點的XYZ坐標,而不僅僅是相機空間中的單一深度值。
近年來,以DUSt3R、Fast3R和VGGT為代表的點圖回歸方法在3D重建領(lǐng)域取得了顯著進展。這些方法使用大型Transformer模型直接從圖像預測密集的3D點云,簡化了傳統(tǒng)的多視角立體視覺過程。這就像是從多張照片中直接"看"出一個完整的3D物體,而不需要復雜的測量和計算。
這些點圖模型的一個關(guān)鍵優(yōu)勢在于它們能夠產(chǎn)生更加平滑、連續(xù)的幾何表示,特別是在物體邊界處。這是因為它們不受深度不連續(xù)性的影響,而是學習了更加全局化的幾何先驗知識。
然而,將點圖作為前饋式3DGS的先驗并不是一件容易的事。點圖隱含地編碼了粗略的相機姿態(tài),而前饋式3DGS則需要明確提供準確的相機姿態(tài),這導致直接整合兩者變得困難?,F(xiàn)有的一些方法如Splatt3R和NoPoSplat通過忽略相機姿態(tài)或需要緩慢的測試時間姿態(tài)對齊來解決這個問題,但這些方法限制了其在實際場景中的應(yīng)用。
三、PM-Loss:巧妙利用點圖先驗的新方法
研究團隊提出的PM-Loss創(chuàng)新性地將點圖的幾何先驗知識轉(zhuǎn)化為一個簡單有效的訓練損失,而不是作為一個復雜的網(wǎng)絡(luò)組件。這就像是給一個繪畫學徒提供一個參考草圖,而不是直接接管他的畫筆。
具體來說,PM-Loss引導從預測深度反投影得到的點云學習,以大規(guī)模3D重建模型(如Fast3R、VGGT)預測的全局點圖作為偽真值。這種指導需要確保源點和目標點在同一空間中,并且有高效的測量方式。
對于前者,研究人員發(fā)現(xiàn)Umeyama算法可以高效地對齊兩個點云,利用深度圖和點圖之間的一一對應(yīng)關(guān)系。想象一下,這就像是將兩張透明紙上的圖案精確對齊,使它們完美重疊。實驗表明,這種對齊方法比常用的ICP算法快近250倍(0.9毫秒 vs 238.3毫秒)。
對于后者,他們使用Chamfer距離直接在3D空間中對它們進行正則化,這比在2D空間應(yīng)用的方法效果顯著更好。Chamfer距離可以看作是測量兩個點云之間"相似度"的一種方法,就像是測量兩個拼圖之間有多少部分可以完美對接。
PM-Loss的一個關(guān)鍵見解是重新計算3D空間中的最近鄰居進行監(jiān)督,而不是直接依賴一對一的像素對應(yīng)關(guān)系(這會退化為深度損失)。這種設(shè)計使監(jiān)督對姿態(tài)不對齊和預測噪聲更加魯棒。想象一下,這就像是允許拼圖的各個部分稍微移動位置,只要整體形狀相似即可,而不是要求每個像素都一一對應(yīng)。
四、實驗設(shè)計與結(jié)果:PM-Loss的強大效果
研究團隊在多個大規(guī)模數(shù)據(jù)集上評估了他們的方法,包括DL3DV、RealEstate10K和DTU。他們將PM-Loss應(yīng)用于兩個代表性的前饋式3DGS模型:MVSplat和DepthSplat,并與原始模型進行了詳細比較。
在視覺質(zhì)量方面,添加PM-Loss后的模型在兩個大規(guī)模數(shù)據(jù)集上都取得了顯著提升,PSNR提高至少2dB。這相當于從標清視頻升級到高清視頻的體驗提升。視覺對比結(jié)果清楚地表明,原始模型常常在場景邊界處失敗,形成黑色區(qū)域,而使用PM-Loss的模型則能更準確地恢復這些區(qū)域,顯著提高渲染視圖的視覺質(zhì)量。
在點云質(zhì)量方面,PM-Loss同樣表現(xiàn)出色。在DL3DV數(shù)據(jù)集上,與原始DepthSplat相比,添加PM-Loss后生成的3D高斯分布更加清晰、邊界更加清晰,大大減少了邊界周圍的漂浮偽影和噪聲。在DTU數(shù)據(jù)集上,無論是2視圖、4視圖還是6視圖輸入,添加PM-Loss的模型在準確性、完整性和整體Chamfer距離上都取得了更好的結(jié)果。
研究團隊還進行了廣泛的消融研究,驗證了各種設(shè)計選擇的有效性。他們比較了不同的距離測量方法,證明了3D"最近鄰"Chamfer損失優(yōu)于2D"一對一"深度損失。他們還探索了不同點圖來源的影響,發(fā)現(xiàn)雖然更高質(zhì)量的點圖(如VGGT)能提供更好的效果,但即使使用質(zhì)量較低的點圖(如Fast3R),PM-Loss仍然能顯著優(yōu)于基線方法。
關(guān)于效率,PM-Loss引入的額外計算成本主要來自點云對齊和Chamfer損失計算,總共僅需約65毫秒,即使對大量3D高斯分布(約458,752個)也是如此,使其能夠高效地集成到大多數(shù)現(xiàn)有的前饋式3DGS模型中。
五、PM-Loss的更廣泛意義和應(yīng)用前景
PM-Loss不僅僅是一個技術(shù)改進,它代表了一種新的思路:如何巧妙地整合不同模型和表示的優(yōu)勢,而不是簡單地替換或疊加它們。這就像是一名廚師不僅知道各種食材的特性,還知道如何將它們完美搭配,創(chuàng)造出超越單一食材的美味佳肴。
在實際應(yīng)用中,PM-Loss可以為許多依賴3D場景重建的領(lǐng)域帶來提升,例如:
虛擬現(xiàn)實和增強現(xiàn)實:更準確的物體邊界意味著VR/AR體驗中的物體會看起來更自然、更真實,減少了"飄浮感"和邊緣偽影,提高沉浸感。
機器人視覺:更準確的3D場景理解可以幫助機器人更好地識別和交互物體,特別是在物體邊界處,減少抓取或?qū)Ш藉e誤。
內(nèi)容創(chuàng)作:為電影、游戲和虛擬產(chǎn)品展示提供更高質(zhì)量、更高效的3D內(nèi)容生成工具,減少手動修復邊界問題的工作量。
值得注意的是,PM-Loss是一種即插即用的解決方案,它不需要修改現(xiàn)有模型的架構(gòu),只需要在訓練過程中添加一個額外的損失項。這使得它非常易于集成到現(xiàn)有的前饋式3DGS管道中,為實際應(yīng)用提供了便利。
研究團隊在論文中也坦率地指出了方法的局限性:PM-Loss的效果受限于預訓練點圖模型的質(zhì)量,點圖中的錯誤可能會通過損失函數(shù)傳播到前饋式3DGS模型中。未來,隨著更強大的點圖模型的發(fā)展,PM-Loss的效果可能會進一步提升。
六、結(jié)論與未來展望
這項研究通過引入PM-Loss,成功地解決了前饋式3DGS中由深度圖引起的不連續(xù)性問題。通過利用點圖作為幾何先驗,PM-Loss顯著改善了3D高斯分布的質(zhì)量,特別是在物體邊界處,從而提高了新視角合成的視覺質(zhì)量。
從更廣泛的角度來看,這項工作展示了如何巧妙地融合不同模型和表示的優(yōu)勢,而不是簡單地替換或堆疊它們。它提供了一種高效、有效的方法,可以將預訓練大模型中的知識轉(zhuǎn)移到下游任務(wù)中,這在當前AI領(lǐng)域是一個重要的研究方向。
未來的研究可能會探索更多種類的幾何先驗,或者開發(fā)更高效的對齊和損失計算方法。隨著點圖回歸模型的不斷改進,PM-Loss的效果也可能會進一步提升。此外,將這種方法擴展到更多的3D視覺任務(wù),如物體檢測、分割和跟蹤,也是值得探索的方向。
總的來說,這項研究不僅為前饋式3DGS提供了一個有效的解決方案,也為如何利用預訓練模型的知識提供了一個啟發(fā)性的案例。隨著3D視覺技術(shù)的不斷發(fā)展,我們可以期待更多像PM-Loss這樣的創(chuàng)新方法出現(xiàn),進一步推動計算機視覺和圖形學的邊界。
如果你對這項研究感興趣,可以訪問項目主頁https://aim-uofa.github.io/PMLoss獲取更多信息,包括代碼、預訓練模型和更多實驗結(jié)果。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機制和漸進式訓練,能夠?qū)碗s指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學習外觀和運動信息,顯著解決了當前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓練數(shù)據(jù)集和MM-AlignBench評測基準,通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預報,準確性超越傳統(tǒng)方法90%的指標。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學習40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學領(lǐng)域帶來了效率和精度的雙重突破。