av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見(jiàn)證連接與計(jì)算的「力量」

首頁(yè) 靜態(tài)與動(dòng)態(tài)的和諧:成功大學(xué)3D-4D高斯分布融合技術(shù)突破動(dòng)態(tài)場(chǎng)景建模效率瓶頸

靜態(tài)與動(dòng)態(tài)的和諧:成功大學(xué)3D-4D高斯分布融合技術(shù)突破動(dòng)態(tài)場(chǎng)景建模效率瓶頸

2025-05-22 08:27
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-22 08:27 ? 科技行者

這項(xiàng)由成功大學(xué)人工智能系的Seungjun Oh、Younggeun Lee、Hyejin Jeon以及延世大學(xué)人工智能系的Eunbyung Park共同完成的研究,發(fā)表于2025年5月19日的arXiv預(yù)印本平臺(tái)(arXiv:2505.13215v1),提出了一種名為"混合3D-4D高斯分布"(Hybrid 3D-4D Gaussian Splatting,簡(jiǎn)稱(chēng)3D-4DGS)的新型技術(shù),為動(dòng)態(tài)場(chǎng)景重建帶來(lái)了顯著的效率提升。有興趣深入了解的讀者可以通過(guò)研究團(tuán)隊(duì)的項(xiàng)目網(wǎng)站https://ohsngjun.github.io/3D-4DGS/查看更多細(xì)節(jié)。

想象一下,當(dāng)你觀看一段VR視頻時(shí),場(chǎng)景中有些物體在動(dòng)(比如人在行走),而其他元素則保持靜止(如背景墻壁和家具)。傳統(tǒng)技術(shù)往往用同一種方法來(lái)處理這兩種不同性質(zhì)的內(nèi)容,就像用同一種工具既要切面包又要鋸木頭一樣——效率低下且可能影響效果。

這正是當(dāng)前動(dòng)態(tài)場(chǎng)景三維重建技術(shù)面臨的核心挑戰(zhàn)。近年來(lái),研究人員開(kāi)發(fā)了一系列基于神經(jīng)網(wǎng)絡(luò)的方法來(lái)實(shí)現(xiàn)高質(zhì)量的三維場(chǎng)景重建,特別是基于神經(jīng)輻射場(chǎng)(NeRF)的技術(shù)取得了顯著進(jìn)展。這些方法就像是一種"數(shù)字雕刻",能夠從多張圖片中"雕刻"出完整的三維場(chǎng)景模型。

更近期的突破是3D高斯分布技術(shù)(3DGS),它使用一種特殊的數(shù)學(xué)工具——三維高斯分布(可以想象成三維空間中的小氣泡或云朵)來(lái)表示場(chǎng)景。這種方法相比NeRF有著更快的渲染速度和更好的視覺(jué)效果。當(dāng)研究人員嘗試將這種技術(shù)擴(kuò)展到動(dòng)態(tài)場(chǎng)景時(shí),出現(xiàn)了兩種主要思路:一種是跟蹤高斯分布的運(yùn)動(dòng)(就像跟蹤移動(dòng)物體),另一種則是直接優(yōu)化四維高斯分布(4DGS),將時(shí)間作為額外的維度加入模型。

然而,這些方法都存在明顯的缺點(diǎn)。第一種方法在處理快速運(yùn)動(dòng)時(shí)表現(xiàn)不佳,就像用慢動(dòng)作攝像機(jī)無(wú)法清晰捕捉賽車(chē)一樣。第二種方法雖然效果好,但計(jì)算成本高昂,特別是當(dāng)它對(duì)場(chǎng)景中的靜態(tài)區(qū)域也使用復(fù)雜的時(shí)變參數(shù)時(shí),這就像是用推土機(jī)來(lái)鏟一小堆沙子——大材小用且浪費(fèi)資源。

這就是Oh等人提出的混合3D-4D高斯分布技術(shù)的創(chuàng)新之處。他們的方法就像是一個(gè)聰明的導(dǎo)演,能夠識(shí)別場(chǎng)景中的"主角"(動(dòng)態(tài)部分)和"背景"(靜態(tài)部分),并為它們分配不同的"拍攝技術(shù)"。具體來(lái)說(shuō),研究團(tuán)隊(duì)開(kāi)發(fā)了一種自動(dòng)分類(lèi)機(jī)制,將場(chǎng)景中的高斯分布分為靜態(tài)和動(dòng)態(tài)兩類(lèi),靜態(tài)部分使用簡(jiǎn)單的3D高斯分布表示,而動(dòng)態(tài)部分則保留完整的4D表示能力。

這種混合表示方法帶來(lái)了顯著的性能提升。在標(biāo)準(zhǔn)的Neural 3D Video(N3V)數(shù)據(jù)集上進(jìn)行的實(shí)驗(yàn)表明,3D-4DGS僅需約12分鐘的訓(xùn)練時(shí)間就能達(dá)到與其他方法相當(dāng)甚至更好的渲染質(zhì)量,而傳統(tǒng)的4DGS則需要5.5小時(shí)。這就像是找到了一條高速公路,讓你以原來(lái)五分之一的時(shí)間到達(dá)同一個(gè)目的地。

接下來(lái),讓我們深入了解這項(xiàng)技術(shù)的工作原理和實(shí)驗(yàn)結(jié)果。

一、高斯分布飛濺:一場(chǎng)三維重建的革命

在深入了解混合3D-4D高斯分布技術(shù)之前,我們需要先理解其基礎(chǔ)——3D高斯分布飛濺(3D Gaussian Splatting)。想象一下,如果你想用氣球來(lái)表示一個(gè)物體的形狀。普通氣球是圓形的,但如果你可以將氣球擠壓成各種形狀(橢圓形、扁平狀等),并在空間中擺放成千上萬(wàn)個(gè)這樣的氣球,那么你就能近似地表現(xiàn)出任何復(fù)雜物體的形狀和外觀。

這就是3D高斯分布的基本思想。每個(gè)"高斯"可以想象成一個(gè)三維空間中的氣球,它有自己的位置、大小、方向和顏色。當(dāng)我們從特定角度看這些"氣球"時(shí),它們會(huì)投影到我們的視野中,形成一幅圖像。這個(gè)過(guò)程稱(chēng)為"飛濺"(Splatting),就像是將這些氣球潑灑到屏幕上一樣。

傳統(tǒng)的3D高斯分布技術(shù)主要用于靜態(tài)場(chǎng)景,但現(xiàn)實(shí)世界中的許多場(chǎng)景是動(dòng)態(tài)的——人物走動(dòng)、物體移動(dòng)等。為了捕捉這種變化,研究人員將時(shí)間作為第四個(gè)維度加入模型,發(fā)展出了4D高斯分布技術(shù)。

在4D高斯分布中,每個(gè)"氣球"不僅有空間屬性,還有一個(gè)時(shí)間屬性,表示它在哪個(gè)時(shí)刻存在或如何隨時(shí)間變化。這就像是給每個(gè)氣球添加了一個(gè)小馬達(dá),讓它能夠按照特定路徑移動(dòng)。這種方法能夠很好地捕捉物體的運(yùn)動(dòng),但代價(jià)是需要更多的計(jì)算資源和存儲(chǔ)空間。

特別是,4D高斯分布技術(shù)在處理靜態(tài)區(qū)域時(shí)效率低下。想象一面永遠(yuǎn)不動(dòng)的墻壁,用4D技術(shù)來(lái)表示它就相當(dāng)于在不同時(shí)間點(diǎn)重復(fù)存儲(chǔ)相同的信息,這無(wú)疑是一種浪費(fèi)。

二、混合3D-4D高斯分布:智能地區(qū)分靜與動(dòng)

Oh等人的創(chuàng)新之處在于,他們開(kāi)發(fā)了一種自動(dòng)識(shí)別靜態(tài)和動(dòng)態(tài)區(qū)域的方法,并對(duì)這兩類(lèi)區(qū)域采用不同的表示方式。這就像是一個(gè)聰明的攝影師,知道何時(shí)使用定格拍攝(對(duì)靜物),何時(shí)使用連續(xù)拍攝(對(duì)動(dòng)態(tài)物體)。

具體來(lái)說(shuō),他們的方法首先將整個(gè)場(chǎng)景視為動(dòng)態(tài)的,使用4D高斯分布進(jìn)行表示。然后,系統(tǒng)會(huì)分析每個(gè)高斯分布的"時(shí)間尺度"參數(shù)。時(shí)間尺度可以理解為高斯分布在時(shí)間維度上的"延展性"。

想象一下,如果一個(gè)高斯分布的時(shí)間尺度很大,就意味著它在很長(zhǎng)一段時(shí)間內(nèi)都保持不變——也就是說(shuō),它很可能表示的是場(chǎng)景中的靜態(tài)部分。相反,時(shí)間尺度小的高斯分布則可能表示場(chǎng)景中的動(dòng)態(tài)元素,因?yàn)樗枰S時(shí)間頻繁變化以捕捉運(yùn)動(dòng)。

研究團(tuán)隊(duì)設(shè)定了一個(gè)時(shí)間尺度閾值τ。當(dāng)一個(gè)高斯分布的時(shí)間尺度超過(guò)這個(gè)閾值時(shí),系統(tǒng)會(huì)將其識(shí)別為"靜態(tài)",并將其從4D表示轉(zhuǎn)換為更簡(jiǎn)單的3D表示。這個(gè)過(guò)程不是一次性完成的,而是在訓(xùn)練過(guò)程中逐步進(jìn)行,讓模型有足夠的時(shí)間來(lái)正確識(shí)別哪些部分是真正靜態(tài)的。

這種混合表示方法的最大優(yōu)勢(shì)在于,它可以顯著減少模型參數(shù)的數(shù)量。在實(shí)驗(yàn)中,研究團(tuán)隊(duì)發(fā)現(xiàn)大多數(shù)場(chǎng)景中,絕大部分高斯分布的時(shí)間尺度都很?。ǖ陀?.5),只有少數(shù)分布具有較大的時(shí)間尺度。通過(guò)將這些大時(shí)間尺度的分布轉(zhuǎn)換為3D表示,系統(tǒng)可以節(jié)省大量的計(jì)算資源和存儲(chǔ)空間。

三、技術(shù)實(shí)現(xiàn):從4D到3D的優(yōu)雅過(guò)渡

那么,研究團(tuán)隊(duì)是如何實(shí)現(xiàn)從4D高斯分布到3D高斯分布的轉(zhuǎn)換的呢?這個(gè)過(guò)程可以想象成從一個(gè)復(fù)雜的四維積木拆解出一個(gè)更簡(jiǎn)單的三維積木。

在4D高斯分布中,每個(gè)分布都有一個(gè)四維空間中的均值(表示位置)和一個(gè)協(xié)方差矩陣(表示形狀和方向)。協(xié)方差矩陣通常被參數(shù)化為旋轉(zhuǎn)矩陣和縮放矩陣的組合。

當(dāng)系統(tǒng)識(shí)別出一個(gè)高斯分布是靜態(tài)的(基于其時(shí)間尺度),它會(huì)執(zhí)行以下轉(zhuǎn)換步驟:

首先,系統(tǒng)保留該高斯分布的空間位置(丟棄時(shí)間坐標(biāo)),并從四維旋轉(zhuǎn)矩陣中提取出三維部分。這就像是從一個(gè)復(fù)雜的四維積木中抽取出我們能看到的三維部分。

其次,系統(tǒng)固定該高斯分布的所有參數(shù)(位置、旋轉(zhuǎn)、顏色等),使其在整個(gè)時(shí)間序列中保持不變。這樣,這個(gè)高斯分布就成為了一個(gè)"永恒存在"的靜態(tài)元素。

這種轉(zhuǎn)換不僅簡(jiǎn)化了模型,還減少了需要在每個(gè)時(shí)間步更新的參數(shù)數(shù)量。在傳統(tǒng)的4D高斯分布方法中,每個(gè)時(shí)間步都需要計(jì)算所有高斯分布的參數(shù)。而在混合方法中,靜態(tài)高斯分布的參數(shù)保持不變,系統(tǒng)只需要更新動(dòng)態(tài)部分的參數(shù)。

通過(guò)這種方式,即使在處理長(zhǎng)時(shí)間序列(如40秒的視頻)時(shí),模型依然能夠保持高效。這就像是在制作一部電影時(shí),使用靜態(tài)背景板來(lái)表示不變的場(chǎng)景元素,只需要為移動(dòng)的角色制作動(dòng)畫(huà),而不是為每一幀重新繪制整個(gè)場(chǎng)景。

四、優(yōu)化與渲染:無(wú)縫融合靜態(tài)與動(dòng)態(tài)

為了獲得最佳效果,研究團(tuán)隊(duì)還對(duì)優(yōu)化過(guò)程和渲染管線進(jìn)行了精心設(shè)計(jì)。

在優(yōu)化階段,系統(tǒng)首先使用完整的4D高斯分布模型進(jìn)行短期訓(xùn)練(約500次迭代),讓所有高斯分布有機(jī)會(huì)"穩(wěn)定下來(lái)"。然后,系統(tǒng)開(kāi)始應(yīng)用靜態(tài)/動(dòng)態(tài)識(shí)別機(jī)制,將滿(mǎn)足條件的高斯分布轉(zhuǎn)換為3D表示。

與此同時(shí),系統(tǒng)對(duì)3D和4D高斯分布分別進(jìn)行自適應(yīng)密度控制和剪枝操作,確保每種表示都能得到充分優(yōu)化。這種分離的優(yōu)化策略大大加速了訓(xùn)練收斂速度。

在標(biāo)準(zhǔn)的4DGS訓(xùn)練中,每次迭代只會(huì)更新少量的4D高斯分布,因?yàn)樵S多分布在特定時(shí)間步不會(huì)對(duì)渲染產(chǎn)生顯著貢獻(xiàn)。相比之下,3D-4DGS方法中的靜態(tài)3D高斯分布在每次迭代中都會(huì)被更新,這使得模型能夠更快地收斂。

值得注意的是,研究團(tuán)隊(duì)還發(fā)現(xiàn),在動(dòng)態(tài)場(chǎng)景重建中,傳統(tǒng)的"不透明度重置"技術(shù)(一種常用于消除靜態(tài)場(chǎng)景中的"浮動(dòng)物"的方法)可能會(huì)破壞時(shí)空優(yōu)化過(guò)程,特別是在訓(xùn)練時(shí)間有限的情況下。因此,他們選擇了一種直接的連續(xù)優(yōu)化方法,讓靜態(tài)和動(dòng)態(tài)高斯分布在整個(gè)訓(xùn)練過(guò)程中保持其不透明度,這實(shí)現(xiàn)了更穩(wěn)定的收斂。

最后,在渲染階段,系統(tǒng)將3D和4D高斯分布集成到一個(gè)統(tǒng)一的CUDA光柵化管線中。對(duì)于每個(gè)時(shí)間步,系統(tǒng)首先根據(jù)當(dāng)前時(shí)間對(duì)4D高斯分布進(jìn)行"切片",生成瞬時(shí)3D高斯分布。然后,系統(tǒng)將這些瞬時(shí)分布與靜態(tài)3D高斯分布合并,投影到屏幕空間中,并按照前后順序進(jìn)行alpha混合,生成最終的渲染圖像。

通過(guò)這種無(wú)縫融合的方式,系統(tǒng)可以同時(shí)享受3D飛濺的效率和4D建模的靈活性,實(shí)現(xiàn)高質(zhì)量的動(dòng)態(tài)場(chǎng)景渲染。

五、實(shí)驗(yàn)結(jié)果:速度與質(zhì)量的雙重突破

研究團(tuán)隊(duì)在兩個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集上評(píng)估了他們的方法:Neural 3D Video(N3V)和Technicolor。N3V數(shù)據(jù)集包含六個(gè)多視角視頻序列,每個(gè)序列由18-21個(gè)攝像機(jī)捕捉,分辨率為2704×2028。其中五個(gè)序列持續(xù)10秒,一個(gè)序列持續(xù)40秒。Technicolor數(shù)據(jù)集包含16個(gè)攝像機(jī)捕捉的視頻記錄,分辨率為2048×1088。

實(shí)驗(yàn)結(jié)果令人印象深刻。在N3V數(shù)據(jù)集的10秒序列上,3D-4DGS僅需約12分鐘的訓(xùn)練時(shí)間就能達(dá)到32.25 dB的平均PSNR(峰值信噪比,一種圖像質(zhì)量評(píng)估指標(biāo)),超過(guò)了包括4DGS(需要5.5小時(shí))在內(nèi)的多種最先進(jìn)方法。而在40秒的長(zhǎng)序列上,3D-4DGS在52分鐘內(nèi)就能達(dá)到29.2 dB的PSNR,這比其他方法快了一個(gè)數(shù)量級(jí)。

在Technicolor數(shù)據(jù)集上,即使使用更簡(jiǎn)單的稀疏COLMAP初始化(因?yàn)槊總€(gè)場(chǎng)景只有50幀),3D-4DGS也能在29分鐘內(nèi)達(dá)到33.22 dB的PSNR和0.911的SSIM(結(jié)構(gòu)相似性,另一種圖像質(zhì)量評(píng)估指標(biāo))。相比之下,4DGS需要超過(guò)四小時(shí)才能達(dá)到相似的PSNR,而Ex4DGS雖然稍微精確一些,但也需要一小時(shí)多。

這些結(jié)果清楚地表明,通過(guò)智能區(qū)分靜態(tài)和動(dòng)態(tài)內(nèi)容,3D-4DGS不僅能夠顯著加速訓(xùn)練過(guò)程,還能保持甚至提高渲染質(zhì)量。這就像是找到了一條既能節(jié)省時(shí)間又不犧牲質(zhì)量的捷徑。

為了進(jìn)一步驗(yàn)證時(shí)間尺度閾值τ的影響,研究團(tuán)隊(duì)進(jìn)行了消融實(shí)驗(yàn)。他們發(fā)現(xiàn),較低的閾值(如τ=2.5)會(huì)更激進(jìn)地將4D高斯分布轉(zhuǎn)換為3D,這可能會(huì)不當(dāng)?shù)貙?dòng)態(tài)內(nèi)容合并到靜態(tài)表示中,雖然能簡(jiǎn)化最終的幾何結(jié)構(gòu),但可能會(huì)減少運(yùn)動(dòng)細(xì)節(jié)。相反,較高的閾值(如τ=3.5)在將高斯分布切換到3D時(shí)更為寬松,能夠保留微妙的動(dòng)態(tài)效果,但代價(jià)是較慢的收斂速度和更高的內(nèi)存使用率。中等范圍的設(shè)置(τ=3.0)在這些極端之間取得了平衡,保持了接近最優(yōu)的質(zhì)量,同時(shí)避免了過(guò)多的存儲(chǔ)開(kāi)銷(xiāo)。

此外,研究人員還可視化了空間分布的高斯分布,比較了他們的模型與4DGS的區(qū)別。結(jié)果顯示,原始的4DGS在靜態(tài)區(qū)域引入了大量高斯分布,暗示許多小時(shí)間尺度的4D高斯分布被用來(lái)表示場(chǎng)景的靜態(tài)部分。而他們的方法則在這些區(qū)域使用3D高斯分布,使高斯分布在整個(gè)場(chǎng)景中分布更加均勻。這進(jìn)一步證實(shí)了他們的方法能夠顯著減少冗余,降低內(nèi)存使用,加速優(yōu)化過(guò)程。

六、技術(shù)局限與未來(lái)方向

盡管3D-4DGS方法取得了顯著成功,但研究團(tuán)隊(duì)也坦率地指出了一些局限性。

首先,他們的啟發(fā)式尺度閾值設(shè)置可能需要進(jìn)一步精細(xì)化。目前,研究團(tuán)隊(duì)根據(jù)完全訓(xùn)練的4DGS中時(shí)間尺度的分布和目標(biāo)數(shù)據(jù)集的特性來(lái)經(jīng)驗(yàn)性地確定閾值τ。理想情況下,這個(gè)過(guò)程可以使用基于學(xué)習(xí)的或數(shù)據(jù)驅(qū)動(dòng)的方法來(lái)優(yōu)化。

其次,專(zhuān)門(mén)針對(duì)4D的密度控制策略可能進(jìn)一步減少冗余并優(yōu)化內(nèi)存使用。研究團(tuán)隊(duì)的方法目前直接采用了3DGS的密度控制策略,這可能不是4D場(chǎng)景的最優(yōu)選擇。基于3DGS密度控制的最新成功,開(kāi)發(fā)專(zhuān)門(mén)針對(duì)4D的方法可能會(huì)進(jìn)一步提高重建質(zhì)量和效率。

盡管存在這些局限性,3D-4DGS方法已經(jīng)為動(dòng)態(tài)場(chǎng)景重建設(shè)立了新的基準(zhǔn),顯著提高了訓(xùn)練速度和渲染效率,同時(shí)保持了高質(zhì)量的視覺(jué)效果。這為實(shí)時(shí)動(dòng)態(tài)場(chǎng)景捕捉和渲染開(kāi)辟了新的可能性,有望在虛擬和增強(qiáng)現(xiàn)實(shí)、體育廣播、電影制作和現(xiàn)場(chǎng)表演等領(lǐng)域找到廣泛應(yīng)用。

這項(xiàng)研究不僅是對(duì)現(xiàn)有技術(shù)的改進(jìn),更是對(duì)如何更有效地表示和處理動(dòng)態(tài)3D內(nèi)容的深刻思考。通過(guò)識(shí)別靜態(tài)和動(dòng)態(tài)部分并為它們分配不同的表示方法,研究團(tuán)隊(duì)展示了一種更加智能和高效的場(chǎng)景理解和重建方式。這種思路可能會(huì)影響未來(lái)更多領(lǐng)域的研究,如3D內(nèi)容壓縮、增量場(chǎng)景重建和實(shí)時(shí)交互系統(tǒng)。

總的來(lái)說(shuō),混合3D-4D高斯分布技術(shù)代表了動(dòng)態(tài)場(chǎng)景重建的一個(gè)重要里程碑,它結(jié)合了3D和4D表示的優(yōu)勢(shì),為創(chuàng)建更快、更高效和更高質(zhì)量的動(dòng)態(tài)3D內(nèi)容開(kāi)辟了新的道路。隨著虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)技術(shù)的不斷發(fā)展,這樣的方法將在塑造我們未來(lái)的數(shù)字體驗(yàn)中發(fā)揮關(guān)鍵作用。

分享至
1贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-