這項(xiàng)由成功大學(xué)人工智能系的Seungjun Oh、Younggeun Lee、Hyejin Jeon以及延世大學(xué)人工智能系的Eunbyung Park共同完成的研究,發(fā)表于2025年5月19日的arXiv預(yù)印本平臺(tái)(arXiv:2505.13215v1),提出了一種名為"混合3D-4D高斯分布"(Hybrid 3D-4D Gaussian Splatting,簡(jiǎn)稱(chēng)3D-4DGS)的新型技術(shù),為動(dòng)態(tài)場(chǎng)景重建帶來(lái)了顯著的效率提升。有興趣深入了解的讀者可以通過(guò)研究團(tuán)隊(duì)的項(xiàng)目網(wǎng)站https://ohsngjun.github.io/3D-4DGS/查看更多細(xì)節(jié)。
想象一下,當(dāng)你觀看一段VR視頻時(shí),場(chǎng)景中有些物體在動(dòng)(比如人在行走),而其他元素則保持靜止(如背景墻壁和家具)。傳統(tǒng)技術(shù)往往用同一種方法來(lái)處理這兩種不同性質(zhì)的內(nèi)容,就像用同一種工具既要切面包又要鋸木頭一樣——效率低下且可能影響效果。
這正是當(dāng)前動(dòng)態(tài)場(chǎng)景三維重建技術(shù)面臨的核心挑戰(zhàn)。近年來(lái),研究人員開(kāi)發(fā)了一系列基于神經(jīng)網(wǎng)絡(luò)的方法來(lái)實(shí)現(xiàn)高質(zhì)量的三維場(chǎng)景重建,特別是基于神經(jīng)輻射場(chǎng)(NeRF)的技術(shù)取得了顯著進(jìn)展。這些方法就像是一種"數(shù)字雕刻",能夠從多張圖片中"雕刻"出完整的三維場(chǎng)景模型。
更近期的突破是3D高斯分布技術(shù)(3DGS),它使用一種特殊的數(shù)學(xué)工具——三維高斯分布(可以想象成三維空間中的小氣泡或云朵)來(lái)表示場(chǎng)景。這種方法相比NeRF有著更快的渲染速度和更好的視覺(jué)效果。當(dāng)研究人員嘗試將這種技術(shù)擴(kuò)展到動(dòng)態(tài)場(chǎng)景時(shí),出現(xiàn)了兩種主要思路:一種是跟蹤高斯分布的運(yùn)動(dòng)(就像跟蹤移動(dòng)物體),另一種則是直接優(yōu)化四維高斯分布(4DGS),將時(shí)間作為額外的維度加入模型。
然而,這些方法都存在明顯的缺點(diǎn)。第一種方法在處理快速運(yùn)動(dòng)時(shí)表現(xiàn)不佳,就像用慢動(dòng)作攝像機(jī)無(wú)法清晰捕捉賽車(chē)一樣。第二種方法雖然效果好,但計(jì)算成本高昂,特別是當(dāng)它對(duì)場(chǎng)景中的靜態(tài)區(qū)域也使用復(fù)雜的時(shí)變參數(shù)時(shí),這就像是用推土機(jī)來(lái)鏟一小堆沙子——大材小用且浪費(fèi)資源。
這就是Oh等人提出的混合3D-4D高斯分布技術(shù)的創(chuàng)新之處。他們的方法就像是一個(gè)聰明的導(dǎo)演,能夠識(shí)別場(chǎng)景中的"主角"(動(dòng)態(tài)部分)和"背景"(靜態(tài)部分),并為它們分配不同的"拍攝技術(shù)"。具體來(lái)說(shuō),研究團(tuán)隊(duì)開(kāi)發(fā)了一種自動(dòng)分類(lèi)機(jī)制,將場(chǎng)景中的高斯分布分為靜態(tài)和動(dòng)態(tài)兩類(lèi),靜態(tài)部分使用簡(jiǎn)單的3D高斯分布表示,而動(dòng)態(tài)部分則保留完整的4D表示能力。
這種混合表示方法帶來(lái)了顯著的性能提升。在標(biāo)準(zhǔn)的Neural 3D Video(N3V)數(shù)據(jù)集上進(jìn)行的實(shí)驗(yàn)表明,3D-4DGS僅需約12分鐘的訓(xùn)練時(shí)間就能達(dá)到與其他方法相當(dāng)甚至更好的渲染質(zhì)量,而傳統(tǒng)的4DGS則需要5.5小時(shí)。這就像是找到了一條高速公路,讓你以原來(lái)五分之一的時(shí)間到達(dá)同一個(gè)目的地。
接下來(lái),讓我們深入了解這項(xiàng)技術(shù)的工作原理和實(shí)驗(yàn)結(jié)果。
一、高斯分布飛濺:一場(chǎng)三維重建的革命
在深入了解混合3D-4D高斯分布技術(shù)之前,我們需要先理解其基礎(chǔ)——3D高斯分布飛濺(3D Gaussian Splatting)。想象一下,如果你想用氣球來(lái)表示一個(gè)物體的形狀。普通氣球是圓形的,但如果你可以將氣球擠壓成各種形狀(橢圓形、扁平狀等),并在空間中擺放成千上萬(wàn)個(gè)這樣的氣球,那么你就能近似地表現(xiàn)出任何復(fù)雜物體的形狀和外觀。
這就是3D高斯分布的基本思想。每個(gè)"高斯"可以想象成一個(gè)三維空間中的氣球,它有自己的位置、大小、方向和顏色。當(dāng)我們從特定角度看這些"氣球"時(shí),它們會(huì)投影到我們的視野中,形成一幅圖像。這個(gè)過(guò)程稱(chēng)為"飛濺"(Splatting),就像是將這些氣球潑灑到屏幕上一樣。
傳統(tǒng)的3D高斯分布技術(shù)主要用于靜態(tài)場(chǎng)景,但現(xiàn)實(shí)世界中的許多場(chǎng)景是動(dòng)態(tài)的——人物走動(dòng)、物體移動(dòng)等。為了捕捉這種變化,研究人員將時(shí)間作為第四個(gè)維度加入模型,發(fā)展出了4D高斯分布技術(shù)。
在4D高斯分布中,每個(gè)"氣球"不僅有空間屬性,還有一個(gè)時(shí)間屬性,表示它在哪個(gè)時(shí)刻存在或如何隨時(shí)間變化。這就像是給每個(gè)氣球添加了一個(gè)小馬達(dá),讓它能夠按照特定路徑移動(dòng)。這種方法能夠很好地捕捉物體的運(yùn)動(dòng),但代價(jià)是需要更多的計(jì)算資源和存儲(chǔ)空間。
特別是,4D高斯分布技術(shù)在處理靜態(tài)區(qū)域時(shí)效率低下。想象一面永遠(yuǎn)不動(dòng)的墻壁,用4D技術(shù)來(lái)表示它就相當(dāng)于在不同時(shí)間點(diǎn)重復(fù)存儲(chǔ)相同的信息,這無(wú)疑是一種浪費(fèi)。
二、混合3D-4D高斯分布:智能地區(qū)分靜與動(dòng)
Oh等人的創(chuàng)新之處在于,他們開(kāi)發(fā)了一種自動(dòng)識(shí)別靜態(tài)和動(dòng)態(tài)區(qū)域的方法,并對(duì)這兩類(lèi)區(qū)域采用不同的表示方式。這就像是一個(gè)聰明的攝影師,知道何時(shí)使用定格拍攝(對(duì)靜物),何時(shí)使用連續(xù)拍攝(對(duì)動(dòng)態(tài)物體)。
具體來(lái)說(shuō),他們的方法首先將整個(gè)場(chǎng)景視為動(dòng)態(tài)的,使用4D高斯分布進(jìn)行表示。然后,系統(tǒng)會(huì)分析每個(gè)高斯分布的"時(shí)間尺度"參數(shù)。時(shí)間尺度可以理解為高斯分布在時(shí)間維度上的"延展性"。
想象一下,如果一個(gè)高斯分布的時(shí)間尺度很大,就意味著它在很長(zhǎng)一段時(shí)間內(nèi)都保持不變——也就是說(shuō),它很可能表示的是場(chǎng)景中的靜態(tài)部分。相反,時(shí)間尺度小的高斯分布則可能表示場(chǎng)景中的動(dòng)態(tài)元素,因?yàn)樗枰S時(shí)間頻繁變化以捕捉運(yùn)動(dòng)。
研究團(tuán)隊(duì)設(shè)定了一個(gè)時(shí)間尺度閾值τ。當(dāng)一個(gè)高斯分布的時(shí)間尺度超過(guò)這個(gè)閾值時(shí),系統(tǒng)會(huì)將其識(shí)別為"靜態(tài)",并將其從4D表示轉(zhuǎn)換為更簡(jiǎn)單的3D表示。這個(gè)過(guò)程不是一次性完成的,而是在訓(xùn)練過(guò)程中逐步進(jìn)行,讓模型有足夠的時(shí)間來(lái)正確識(shí)別哪些部分是真正靜態(tài)的。
這種混合表示方法的最大優(yōu)勢(shì)在于,它可以顯著減少模型參數(shù)的數(shù)量。在實(shí)驗(yàn)中,研究團(tuán)隊(duì)發(fā)現(xiàn)大多數(shù)場(chǎng)景中,絕大部分高斯分布的時(shí)間尺度都很?。ǖ陀?.5),只有少數(shù)分布具有較大的時(shí)間尺度。通過(guò)將這些大時(shí)間尺度的分布轉(zhuǎn)換為3D表示,系統(tǒng)可以節(jié)省大量的計(jì)算資源和存儲(chǔ)空間。
三、技術(shù)實(shí)現(xiàn):從4D到3D的優(yōu)雅過(guò)渡
那么,研究團(tuán)隊(duì)是如何實(shí)現(xiàn)從4D高斯分布到3D高斯分布的轉(zhuǎn)換的呢?這個(gè)過(guò)程可以想象成從一個(gè)復(fù)雜的四維積木拆解出一個(gè)更簡(jiǎn)單的三維積木。
在4D高斯分布中,每個(gè)分布都有一個(gè)四維空間中的均值(表示位置)和一個(gè)協(xié)方差矩陣(表示形狀和方向)。協(xié)方差矩陣通常被參數(shù)化為旋轉(zhuǎn)矩陣和縮放矩陣的組合。
當(dāng)系統(tǒng)識(shí)別出一個(gè)高斯分布是靜態(tài)的(基于其時(shí)間尺度),它會(huì)執(zhí)行以下轉(zhuǎn)換步驟:
首先,系統(tǒng)保留該高斯分布的空間位置(丟棄時(shí)間坐標(biāo)),并從四維旋轉(zhuǎn)矩陣中提取出三維部分。這就像是從一個(gè)復(fù)雜的四維積木中抽取出我們能看到的三維部分。
其次,系統(tǒng)固定該高斯分布的所有參數(shù)(位置、旋轉(zhuǎn)、顏色等),使其在整個(gè)時(shí)間序列中保持不變。這樣,這個(gè)高斯分布就成為了一個(gè)"永恒存在"的靜態(tài)元素。
這種轉(zhuǎn)換不僅簡(jiǎn)化了模型,還減少了需要在每個(gè)時(shí)間步更新的參數(shù)數(shù)量。在傳統(tǒng)的4D高斯分布方法中,每個(gè)時(shí)間步都需要計(jì)算所有高斯分布的參數(shù)。而在混合方法中,靜態(tài)高斯分布的參數(shù)保持不變,系統(tǒng)只需要更新動(dòng)態(tài)部分的參數(shù)。
通過(guò)這種方式,即使在處理長(zhǎng)時(shí)間序列(如40秒的視頻)時(shí),模型依然能夠保持高效。這就像是在制作一部電影時(shí),使用靜態(tài)背景板來(lái)表示不變的場(chǎng)景元素,只需要為移動(dòng)的角色制作動(dòng)畫(huà),而不是為每一幀重新繪制整個(gè)場(chǎng)景。
四、優(yōu)化與渲染:無(wú)縫融合靜態(tài)與動(dòng)態(tài)
為了獲得最佳效果,研究團(tuán)隊(duì)還對(duì)優(yōu)化過(guò)程和渲染管線進(jìn)行了精心設(shè)計(jì)。
在優(yōu)化階段,系統(tǒng)首先使用完整的4D高斯分布模型進(jìn)行短期訓(xùn)練(約500次迭代),讓所有高斯分布有機(jī)會(huì)"穩(wěn)定下來(lái)"。然后,系統(tǒng)開(kāi)始應(yīng)用靜態(tài)/動(dòng)態(tài)識(shí)別機(jī)制,將滿(mǎn)足條件的高斯分布轉(zhuǎn)換為3D表示。
與此同時(shí),系統(tǒng)對(duì)3D和4D高斯分布分別進(jìn)行自適應(yīng)密度控制和剪枝操作,確保每種表示都能得到充分優(yōu)化。這種分離的優(yōu)化策略大大加速了訓(xùn)練收斂速度。
在標(biāo)準(zhǔn)的4DGS訓(xùn)練中,每次迭代只會(huì)更新少量的4D高斯分布,因?yàn)樵S多分布在特定時(shí)間步不會(huì)對(duì)渲染產(chǎn)生顯著貢獻(xiàn)。相比之下,3D-4DGS方法中的靜態(tài)3D高斯分布在每次迭代中都會(huì)被更新,這使得模型能夠更快地收斂。
值得注意的是,研究團(tuán)隊(duì)還發(fā)現(xiàn),在動(dòng)態(tài)場(chǎng)景重建中,傳統(tǒng)的"不透明度重置"技術(shù)(一種常用于消除靜態(tài)場(chǎng)景中的"浮動(dòng)物"的方法)可能會(huì)破壞時(shí)空優(yōu)化過(guò)程,特別是在訓(xùn)練時(shí)間有限的情況下。因此,他們選擇了一種直接的連續(xù)優(yōu)化方法,讓靜態(tài)和動(dòng)態(tài)高斯分布在整個(gè)訓(xùn)練過(guò)程中保持其不透明度,這實(shí)現(xiàn)了更穩(wěn)定的收斂。
最后,在渲染階段,系統(tǒng)將3D和4D高斯分布集成到一個(gè)統(tǒng)一的CUDA光柵化管線中。對(duì)于每個(gè)時(shí)間步,系統(tǒng)首先根據(jù)當(dāng)前時(shí)間對(duì)4D高斯分布進(jìn)行"切片",生成瞬時(shí)3D高斯分布。然后,系統(tǒng)將這些瞬時(shí)分布與靜態(tài)3D高斯分布合并,投影到屏幕空間中,并按照前后順序進(jìn)行alpha混合,生成最終的渲染圖像。
通過(guò)這種無(wú)縫融合的方式,系統(tǒng)可以同時(shí)享受3D飛濺的效率和4D建模的靈活性,實(shí)現(xiàn)高質(zhì)量的動(dòng)態(tài)場(chǎng)景渲染。
五、實(shí)驗(yàn)結(jié)果:速度與質(zhì)量的雙重突破
研究團(tuán)隊(duì)在兩個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集上評(píng)估了他們的方法:Neural 3D Video(N3V)和Technicolor。N3V數(shù)據(jù)集包含六個(gè)多視角視頻序列,每個(gè)序列由18-21個(gè)攝像機(jī)捕捉,分辨率為2704×2028。其中五個(gè)序列持續(xù)10秒,一個(gè)序列持續(xù)40秒。Technicolor數(shù)據(jù)集包含16個(gè)攝像機(jī)捕捉的視頻記錄,分辨率為2048×1088。
實(shí)驗(yàn)結(jié)果令人印象深刻。在N3V數(shù)據(jù)集的10秒序列上,3D-4DGS僅需約12分鐘的訓(xùn)練時(shí)間就能達(dá)到32.25 dB的平均PSNR(峰值信噪比,一種圖像質(zhì)量評(píng)估指標(biāo)),超過(guò)了包括4DGS(需要5.5小時(shí))在內(nèi)的多種最先進(jìn)方法。而在40秒的長(zhǎng)序列上,3D-4DGS在52分鐘內(nèi)就能達(dá)到29.2 dB的PSNR,這比其他方法快了一個(gè)數(shù)量級(jí)。
在Technicolor數(shù)據(jù)集上,即使使用更簡(jiǎn)單的稀疏COLMAP初始化(因?yàn)槊總€(gè)場(chǎng)景只有50幀),3D-4DGS也能在29分鐘內(nèi)達(dá)到33.22 dB的PSNR和0.911的SSIM(結(jié)構(gòu)相似性,另一種圖像質(zhì)量評(píng)估指標(biāo))。相比之下,4DGS需要超過(guò)四小時(shí)才能達(dá)到相似的PSNR,而Ex4DGS雖然稍微精確一些,但也需要一小時(shí)多。
這些結(jié)果清楚地表明,通過(guò)智能區(qū)分靜態(tài)和動(dòng)態(tài)內(nèi)容,3D-4DGS不僅能夠顯著加速訓(xùn)練過(guò)程,還能保持甚至提高渲染質(zhì)量。這就像是找到了一條既能節(jié)省時(shí)間又不犧牲質(zhì)量的捷徑。
為了進(jìn)一步驗(yàn)證時(shí)間尺度閾值τ的影響,研究團(tuán)隊(duì)進(jìn)行了消融實(shí)驗(yàn)。他們發(fā)現(xiàn),較低的閾值(如τ=2.5)會(huì)更激進(jìn)地將4D高斯分布轉(zhuǎn)換為3D,這可能會(huì)不當(dāng)?shù)貙?dòng)態(tài)內(nèi)容合并到靜態(tài)表示中,雖然能簡(jiǎn)化最終的幾何結(jié)構(gòu),但可能會(huì)減少運(yùn)動(dòng)細(xì)節(jié)。相反,較高的閾值(如τ=3.5)在將高斯分布切換到3D時(shí)更為寬松,能夠保留微妙的動(dòng)態(tài)效果,但代價(jià)是較慢的收斂速度和更高的內(nèi)存使用率。中等范圍的設(shè)置(τ=3.0)在這些極端之間取得了平衡,保持了接近最優(yōu)的質(zhì)量,同時(shí)避免了過(guò)多的存儲(chǔ)開(kāi)銷(xiāo)。
此外,研究人員還可視化了空間分布的高斯分布,比較了他們的模型與4DGS的區(qū)別。結(jié)果顯示,原始的4DGS在靜態(tài)區(qū)域引入了大量高斯分布,暗示許多小時(shí)間尺度的4D高斯分布被用來(lái)表示場(chǎng)景的靜態(tài)部分。而他們的方法則在這些區(qū)域使用3D高斯分布,使高斯分布在整個(gè)場(chǎng)景中分布更加均勻。這進(jìn)一步證實(shí)了他們的方法能夠顯著減少冗余,降低內(nèi)存使用,加速優(yōu)化過(guò)程。
六、技術(shù)局限與未來(lái)方向
盡管3D-4DGS方法取得了顯著成功,但研究團(tuán)隊(duì)也坦率地指出了一些局限性。
首先,他們的啟發(fā)式尺度閾值設(shè)置可能需要進(jìn)一步精細(xì)化。目前,研究團(tuán)隊(duì)根據(jù)完全訓(xùn)練的4DGS中時(shí)間尺度的分布和目標(biāo)數(shù)據(jù)集的特性來(lái)經(jīng)驗(yàn)性地確定閾值τ。理想情況下,這個(gè)過(guò)程可以使用基于學(xué)習(xí)的或數(shù)據(jù)驅(qū)動(dòng)的方法來(lái)優(yōu)化。
其次,專(zhuān)門(mén)針對(duì)4D的密度控制策略可能進(jìn)一步減少冗余并優(yōu)化內(nèi)存使用。研究團(tuán)隊(duì)的方法目前直接采用了3DGS的密度控制策略,這可能不是4D場(chǎng)景的最優(yōu)選擇。基于3DGS密度控制的最新成功,開(kāi)發(fā)專(zhuān)門(mén)針對(duì)4D的方法可能會(huì)進(jìn)一步提高重建質(zhì)量和效率。
盡管存在這些局限性,3D-4DGS方法已經(jīng)為動(dòng)態(tài)場(chǎng)景重建設(shè)立了新的基準(zhǔn),顯著提高了訓(xùn)練速度和渲染效率,同時(shí)保持了高質(zhì)量的視覺(jué)效果。這為實(shí)時(shí)動(dòng)態(tài)場(chǎng)景捕捉和渲染開(kāi)辟了新的可能性,有望在虛擬和增強(qiáng)現(xiàn)實(shí)、體育廣播、電影制作和現(xiàn)場(chǎng)表演等領(lǐng)域找到廣泛應(yīng)用。
這項(xiàng)研究不僅是對(duì)現(xiàn)有技術(shù)的改進(jìn),更是對(duì)如何更有效地表示和處理動(dòng)態(tài)3D內(nèi)容的深刻思考。通過(guò)識(shí)別靜態(tài)和動(dòng)態(tài)部分并為它們分配不同的表示方法,研究團(tuán)隊(duì)展示了一種更加智能和高效的場(chǎng)景理解和重建方式。這種思路可能會(huì)影響未來(lái)更多領(lǐng)域的研究,如3D內(nèi)容壓縮、增量場(chǎng)景重建和實(shí)時(shí)交互系統(tǒng)。
總的來(lái)說(shuō),混合3D-4D高斯分布技術(shù)代表了動(dòng)態(tài)場(chǎng)景重建的一個(gè)重要里程碑,它結(jié)合了3D和4D表示的優(yōu)勢(shì),為創(chuàng)建更快、更高效和更高質(zhì)量的動(dòng)態(tài)3D內(nèi)容開(kāi)辟了新的道路。隨著虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)技術(shù)的不斷發(fā)展,這樣的方法將在塑造我們未來(lái)的數(shù)字體驗(yàn)中發(fā)揮關(guān)鍵作用。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語(yǔ)言模型的敘事推理能力與音頻生成技術(shù),通過(guò)交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開(kāi)辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過(guò)讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問(wèn)題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語(yǔ)言模型人性化對(duì)話(huà)問(wèn)題。該研究創(chuàng)建了包含20萬(wàn)高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過(guò)創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開(kāi)發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過(guò)學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來(lái)了效率和精度的雙重突破。