這項(xiàng)來自浙江大學(xué)、莫納什大學(xué)和MBZUAI聯(lián)合研究團(tuán)隊(duì)的最新研究《Revisiting Depth Representations for Feed-Forward 3D Gaussian Splatting》于2025年6月發(fā)表在arXiv預(yù)印本平臺(arXiv:2506.05327v1)。該研究由施督超、王偉杰(共同第一作者)、陳東尼、張澤宇、邊家旺、莊博涵和沈春華教授共同完成。有興趣深入了解的讀者可以通過項(xiàng)目主頁https://aim-uofa.github.io/PMLoss獲取更多信息。
想象一下,你正在使用一款先進(jìn)的3D建模軟件,可以從幾張照片快速創(chuàng)建逼真的3D場景。但當(dāng)你放大查看時(shí),發(fā)現(xiàn)物體的邊緣總是有些模糊不清,就像用模糊的剪刀剪出來的一樣。這正是當(dāng)前前饋式3D高斯分布渲染(Feed-Forward 3D Gaussian Splatting,簡稱3DGS)技術(shù)面臨的核心問題。
3D高斯分布渲染是一種近年來備受關(guān)注的新型3D場景表示和渲染技術(shù),它能夠以極快的速度生成高質(zhì)量的新視角圖像。不過,傳統(tǒng)的3DGS需要對每個(gè)新場景進(jìn)行耗時(shí)的優(yōu)化,限制了它在實(shí)際應(yīng)用中的便捷性。因此,研究人員開發(fā)了前饋式3DGS方法,可以直接從輸入圖像快速預(yù)測3D場景,無需逐場景優(yōu)化。
然而,這些前饋式方法往往使用深度圖作為中間表示,而深度圖在物體邊界處常常存在不連續(xù)性,導(dǎo)致生成的3D點(diǎn)云破碎或稀疏,最終影響渲染質(zhì)量。這就像是用低質(zhì)量的拼圖片試圖拼出一幅完整畫作,邊緣總是對不齊。
針對這一問題,研究團(tuán)隊(duì)提出了一種名為PM-Loss的新型正則化損失函數(shù),基于預(yù)訓(xùn)練Transformer模型預(yù)測的點(diǎn)圖(pointmap)。雖然點(diǎn)圖本身的準(zhǔn)確度可能不如深度圖,但它能有效強(qiáng)化幾何平滑性,特別是在物體邊界周圍。這就像是給拼圖添加了一個(gè)指導(dǎo)模板,幫助我們更準(zhǔn)確地對齊邊緣。
通過這種方法,研究團(tuán)隊(duì)顯著改善了前饋式3DGS在各種架構(gòu)和場景下的表現(xiàn),始終提供更好的渲染結(jié)果。他們的成果不僅提高了視覺質(zhì)量,還為未來前饋式3DGS的發(fā)展提供了新的思路。
一、深度圖的不足:前饋式3DGS面臨的挑戰(zhàn)
想象你正在用透明塑料片畫一座房子的輪廓,然后將這些輪廓疊加起來形成一個(gè)3D模型。這基本上就是深度圖的工作方式——它記錄了場景中每個(gè)點(diǎn)到相機(jī)的距離。雖然這種方法在平滑表面上效果不錯(cuò),但在物體邊界處卻會出現(xiàn)問題。
深度圖在物體邊界處常常呈現(xiàn)出急劇的深度變化或不連續(xù)性。這就像是在畫輪廓時(shí),筆突然跳到了完全不同的高度。當(dāng)我們將這些深度值轉(zhuǎn)換為3D點(diǎn)時(shí),這些不連續(xù)性會導(dǎo)致生成的3D點(diǎn)云出現(xiàn)斷裂或稀疏區(qū)域,就像拼圖缺了幾塊一樣。
研究人員在論文中詳細(xì)分析了這一問題。他們展示了當(dāng)前主流的前饋式3DGS方法(如DepthSplat和MVSplat)如何使用深度圖來生成3D高斯分布。這些方法首先預(yù)測場景的深度圖,然后將其反投影為3D點(diǎn)云,最后在這些點(diǎn)上放置3D高斯分布。由于深度圖的固有局限性,這些方法在物體邊界處往往產(chǎn)生質(zhì)量較差的結(jié)果。
例如,在論文圖1中,我們可以清楚地看到DepthSplat生成的3D點(diǎn)云在物體邊界處有大量漂浮的點(diǎn)和噪聲,導(dǎo)致渲染的新視角圖像在這些區(qū)域出現(xiàn)明顯的失真和黑邊。這就像是用模糊的相機(jī)拍攝出來的照片,邊緣總是有些朦朧不清。
二、點(diǎn)圖的優(yōu)勢:平滑幾何的強(qiáng)大先驗(yàn)
如果說深度圖就像只測量高度的地形圖,那么點(diǎn)圖(pointmap)則更像是一個(gè)完整的3D模型。點(diǎn)圖直接在世界坐標(biāo)系中編碼三維點(diǎn)的XYZ坐標(biāo),而不僅僅是相機(jī)空間中的單一深度值。
近年來,以DUSt3R、Fast3R和VGGT為代表的點(diǎn)圖回歸方法在3D重建領(lǐng)域取得了顯著進(jìn)展。這些方法使用大型Transformer模型直接從圖像預(yù)測密集的3D點(diǎn)云,簡化了傳統(tǒng)的多視角立體視覺過程。這就像是從多張照片中直接"看"出一個(gè)完整的3D物體,而不需要復(fù)雜的測量和計(jì)算。
這些點(diǎn)圖模型的一個(gè)關(guān)鍵優(yōu)勢在于它們能夠產(chǎn)生更加平滑、連續(xù)的幾何表示,特別是在物體邊界處。這是因?yàn)樗鼈儾皇苌疃炔贿B續(xù)性的影響,而是學(xué)習(xí)了更加全局化的幾何先驗(yàn)知識。
然而,將點(diǎn)圖作為前饋式3DGS的先驗(yàn)并不是一件容易的事。點(diǎn)圖隱含地編碼了粗略的相機(jī)姿態(tài),而前饋式3DGS則需要明確提供準(zhǔn)確的相機(jī)姿態(tài),這導(dǎo)致直接整合兩者變得困難?,F(xiàn)有的一些方法如Splatt3R和NoPoSplat通過忽略相機(jī)姿態(tài)或需要緩慢的測試時(shí)間姿態(tài)對齊來解決這個(gè)問題,但這些方法限制了其在實(shí)際場景中的應(yīng)用。
三、PM-Loss:巧妙利用點(diǎn)圖先驗(yàn)的新方法
研究團(tuán)隊(duì)提出的PM-Loss創(chuàng)新性地將點(diǎn)圖的幾何先驗(yàn)知識轉(zhuǎn)化為一個(gè)簡單有效的訓(xùn)練損失,而不是作為一個(gè)復(fù)雜的網(wǎng)絡(luò)組件。這就像是給一個(gè)繪畫學(xué)徒提供一個(gè)參考草圖,而不是直接接管他的畫筆。
具體來說,PM-Loss引導(dǎo)從預(yù)測深度反投影得到的點(diǎn)云學(xué)習(xí),以大規(guī)模3D重建模型(如Fast3R、VGGT)預(yù)測的全局點(diǎn)圖作為偽真值。這種指導(dǎo)需要確保源點(diǎn)和目標(biāo)點(diǎn)在同一空間中,并且有高效的測量方式。
對于前者,研究人員發(fā)現(xiàn)Umeyama算法可以高效地對齊兩個(gè)點(diǎn)云,利用深度圖和點(diǎn)圖之間的一一對應(yīng)關(guān)系。想象一下,這就像是將兩張透明紙上的圖案精確對齊,使它們完美重疊。實(shí)驗(yàn)表明,這種對齊方法比常用的ICP算法快近250倍(0.9毫秒 vs 238.3毫秒)。
對于后者,他們使用Chamfer距離直接在3D空間中對它們進(jìn)行正則化,這比在2D空間應(yīng)用的方法效果顯著更好。Chamfer距離可以看作是測量兩個(gè)點(diǎn)云之間"相似度"的一種方法,就像是測量兩個(gè)拼圖之間有多少部分可以完美對接。
PM-Loss的一個(gè)關(guān)鍵見解是重新計(jì)算3D空間中的最近鄰居進(jìn)行監(jiān)督,而不是直接依賴一對一的像素對應(yīng)關(guān)系(這會退化為深度損失)。這種設(shè)計(jì)使監(jiān)督對姿態(tài)不對齊和預(yù)測噪聲更加魯棒。想象一下,這就像是允許拼圖的各個(gè)部分稍微移動(dòng)位置,只要整體形狀相似即可,而不是要求每個(gè)像素都一一對應(yīng)。
四、實(shí)驗(yàn)設(shè)計(jì)與結(jié)果:PM-Loss的強(qiáng)大效果
研究團(tuán)隊(duì)在多個(gè)大規(guī)模數(shù)據(jù)集上評估了他們的方法,包括DL3DV、RealEstate10K和DTU。他們將PM-Loss應(yīng)用于兩個(gè)代表性的前饋式3DGS模型:MVSplat和DepthSplat,并與原始模型進(jìn)行了詳細(xì)比較。
在視覺質(zhì)量方面,添加PM-Loss后的模型在兩個(gè)大規(guī)模數(shù)據(jù)集上都取得了顯著提升,PSNR提高至少2dB。這相當(dāng)于從標(biāo)清視頻升級到高清視頻的體驗(yàn)提升。視覺對比結(jié)果清楚地表明,原始模型常常在場景邊界處失敗,形成黑色區(qū)域,而使用PM-Loss的模型則能更準(zhǔn)確地恢復(fù)這些區(qū)域,顯著提高渲染視圖的視覺質(zhì)量。
在點(diǎn)云質(zhì)量方面,PM-Loss同樣表現(xiàn)出色。在DL3DV數(shù)據(jù)集上,與原始DepthSplat相比,添加PM-Loss后生成的3D高斯分布更加清晰、邊界更加清晰,大大減少了邊界周圍的漂浮偽影和噪聲。在DTU數(shù)據(jù)集上,無論是2視圖、4視圖還是6視圖輸入,添加PM-Loss的模型在準(zhǔn)確性、完整性和整體Chamfer距離上都取得了更好的結(jié)果。
研究團(tuán)隊(duì)還進(jìn)行了廣泛的消融研究,驗(yàn)證了各種設(shè)計(jì)選擇的有效性。他們比較了不同的距離測量方法,證明了3D"最近鄰"Chamfer損失優(yōu)于2D"一對一"深度損失。他們還探索了不同點(diǎn)圖來源的影響,發(fā)現(xiàn)雖然更高質(zhì)量的點(diǎn)圖(如VGGT)能提供更好的效果,但即使使用質(zhì)量較低的點(diǎn)圖(如Fast3R),PM-Loss仍然能顯著優(yōu)于基線方法。
關(guān)于效率,PM-Loss引入的額外計(jì)算成本主要來自點(diǎn)云對齊和Chamfer損失計(jì)算,總共僅需約65毫秒,即使對大量3D高斯分布(約458,752個(gè))也是如此,使其能夠高效地集成到大多數(shù)現(xiàn)有的前饋式3DGS模型中。
五、PM-Loss的更廣泛意義和應(yīng)用前景
PM-Loss不僅僅是一個(gè)技術(shù)改進(jìn),它代表了一種新的思路:如何巧妙地整合不同模型和表示的優(yōu)勢,而不是簡單地替換或疊加它們。這就像是一名廚師不僅知道各種食材的特性,還知道如何將它們完美搭配,創(chuàng)造出超越單一食材的美味佳肴。
在實(shí)際應(yīng)用中,PM-Loss可以為許多依賴3D場景重建的領(lǐng)域帶來提升,例如:
虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí):更準(zhǔn)確的物體邊界意味著VR/AR體驗(yàn)中的物體會看起來更自然、更真實(shí),減少了"飄浮感"和邊緣偽影,提高沉浸感。
機(jī)器人視覺:更準(zhǔn)確的3D場景理解可以幫助機(jī)器人更好地識別和交互物體,特別是在物體邊界處,減少抓取或?qū)Ш藉e(cuò)誤。
內(nèi)容創(chuàng)作:為電影、游戲和虛擬產(chǎn)品展示提供更高質(zhì)量、更高效的3D內(nèi)容生成工具,減少手動(dòng)修復(fù)邊界問題的工作量。
值得注意的是,PM-Loss是一種即插即用的解決方案,它不需要修改現(xiàn)有模型的架構(gòu),只需要在訓(xùn)練過程中添加一個(gè)額外的損失項(xiàng)。這使得它非常易于集成到現(xiàn)有的前饋式3DGS管道中,為實(shí)際應(yīng)用提供了便利。
研究團(tuán)隊(duì)在論文中也坦率地指出了方法的局限性:PM-Loss的效果受限于預(yù)訓(xùn)練點(diǎn)圖模型的質(zhì)量,點(diǎn)圖中的錯(cuò)誤可能會通過損失函數(shù)傳播到前饋式3DGS模型中。未來,隨著更強(qiáng)大的點(diǎn)圖模型的發(fā)展,PM-Loss的效果可能會進(jìn)一步提升。
六、結(jié)論與未來展望
這項(xiàng)研究通過引入PM-Loss,成功地解決了前饋式3DGS中由深度圖引起的不連續(xù)性問題。通過利用點(diǎn)圖作為幾何先驗(yàn),PM-Loss顯著改善了3D高斯分布的質(zhì)量,特別是在物體邊界處,從而提高了新視角合成的視覺質(zhì)量。
從更廣泛的角度來看,這項(xiàng)工作展示了如何巧妙地融合不同模型和表示的優(yōu)勢,而不是簡單地替換或堆疊它們。它提供了一種高效、有效的方法,可以將預(yù)訓(xùn)練大模型中的知識轉(zhuǎn)移到下游任務(wù)中,這在當(dāng)前AI領(lǐng)域是一個(gè)重要的研究方向。
未來的研究可能會探索更多種類的幾何先驗(yàn),或者開發(fā)更高效的對齊和損失計(jì)算方法。隨著點(diǎn)圖回歸模型的不斷改進(jìn),PM-Loss的效果也可能會進(jìn)一步提升。此外,將這種方法擴(kuò)展到更多的3D視覺任務(wù),如物體檢測、分割和跟蹤,也是值得探索的方向。
總的來說,這項(xiàng)研究不僅為前饋式3DGS提供了一個(gè)有效的解決方案,也為如何利用預(yù)訓(xùn)練模型的知識提供了一個(gè)啟發(fā)性的案例。隨著3D視覺技術(shù)的不斷發(fā)展,我們可以期待更多像PM-Loss這樣的創(chuàng)新方法出現(xiàn),進(jìn)一步推動(dòng)計(jì)算機(jī)視覺和圖形學(xué)的邊界。
如果你對這項(xiàng)研究感興趣,可以訪問項(xiàng)目主頁https://aim-uofa.github.io/PMLoss獲取更多信息,包括代碼、預(yù)訓(xùn)練模型和更多實(shí)驗(yàn)結(jié)果。
好文章,需要你的鼓勵(lì)
新加坡國立大學(xué)研究團(tuán)隊(duì)開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過對比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。