近日,由浙江大學(xué)ZIP實(shí)驗室的王威杰、ByteDance Seed的陳俊宇以及莫納什大學(xué)的張澤宇等研究者共同發(fā)表的論文《ZPressor: Bottleneck-Aware Compression for Scalable Feed-Forward 3DGS》在arXiv上引起廣泛關(guān)注(arXiv:2505.23734v1,2025年5月29日)。這項研究為當(dāng)前3D場景渲染技術(shù)提供了一個突破性的解決方案,使得前饋式3D高斯渲染(Feed-forward 3DGS)能夠處理更多的輸入視圖,同時保持高效率和高質(zhì)量的渲染效果。
想象一下,你正在嘗試通過多張照片重建一個完整的3D場景,比如你家的客廳或花園。傳統(tǒng)的3D高斯渲染技術(shù)就像是一個手工藝人,需要花費(fèi)大量時間逐步調(diào)整,直到完美重現(xiàn)場景。而前饋式3DGS則像是一位經(jīng)驗豐富的魔術(shù)師,只需一揮魔杖(一次前向傳遞),就能將這些照片轉(zhuǎn)化為生動的3D場景。然而,這位魔術(shù)師有一個限制——他的"魔法帽"(編碼器)容量有限,當(dāng)輸入的照片過多時,他要么表現(xiàn)欠佳,要么需要消耗過多的內(nèi)存資源。
這正是研究團(tuán)隊要解決的核心問題。他們將目光投向了信息瓶頸理論(Information Bottleneck),這一理論提供了一個優(yōu)雅的框架來平衡信息壓縮和保留。就像是一個旅行者需要在有限的行李箱中盡可能高效地打包行李,只帶上真正必需的物品一樣,研究團(tuán)隊開發(fā)了名為ZPressor的輕量級模塊,它能夠智能地"打包"多視圖輸入的信息,去除冗余但保留關(guān)鍵細(xì)節(jié)。
ZPressor的核心思想非常巧妙。首先,它將輸入視圖分為兩組:錨點(diǎn)視圖(anchor views)和支持視圖(support views)。錨點(diǎn)視圖就像是一群"代表",負(fù)責(zé)存儲和傳遞關(guān)鍵信息,而支持視圖中的信息則被壓縮并融合到這些代表中。為了確保這些"代表"能最大程度地覆蓋場景信息,研究者使用了一種稱為最遠(yuǎn)點(diǎn)采樣(farthest point sampling)的技術(shù)來選擇錨點(diǎn)視圖,就像是在一個大房間里盡可能均勻地放置幾個攝像頭,以獲得最全面的覆蓋。
研究團(tuán)隊在DL3DV-10K和RealEstate10K兩個大型基準(zhǔn)數(shù)據(jù)集上進(jìn)行了廣泛實(shí)驗,結(jié)果令人振奮。他們將ZPressor集成到多個現(xiàn)有的前饋式3DGS模型中,包括pixelSplat、MVSplat和DepthSplat。在所有測試中,添加了ZPressor的模型不僅在中等數(shù)量的輸入視圖(如12個視圖)下表現(xiàn)更好,而且在處理密集輸入視圖(如36個視圖)時仍能保持良好的性能和計算效率,而原始模型在這種情況下通常會出現(xiàn)顯著的性能下降或內(nèi)存溢出。例如,在36個輸入視圖的情況下,添加了ZPressor的DepthSplat比原始模型在PSNR上提高了4.65dB,同時將推理時間減少了約70%,內(nèi)存使用減少了約80%。
一、ZPressor的核心原理:信息瓶頸視角下的解決方案
想象一下信息瓶頸理論就像是精簡行李的藝術(shù)。當(dāng)你要長途旅行時,你不可能帶上家里的所有物品,而是需要精心挑選真正必需的東西。信息瓶頸理論也是如此,它要求我們從原始數(shù)據(jù)中提取出一個壓縮表示,這個表示既要盡可能?。ㄏ袷且粋€小巧的行李箱),又要包含完成任務(wù)所需的全部關(guān)鍵信息(像是旅行中真正需要的物品)。
研究團(tuán)隊發(fā)現(xiàn),現(xiàn)有的前饋式3DGS模型之所以在處理大量輸入視圖時表現(xiàn)不佳,根本原因在于它們的編碼器能力有限。這些編碼器就像是容量固定的容器,當(dāng)?shù)谷胩嘈畔r,它們要么溢出(內(nèi)存不足),要么無法有效處理(性能下降)。尤其是在像素對齊的設(shè)計中,3D高斯基元的數(shù)量會隨著輸入視圖的增加而線性增長,導(dǎo)致計算資源需求急劇上升。
ZPressor通過實(shí)現(xiàn)信息瓶頸原理解決了這個問題。從數(shù)學(xué)角度看,信息瓶頸目標(biāo)是最小化以下得分:
IB分?jǐn)?shù) = β × I(X, Z) - I(Z, Y)
這個公式中,I(X, Z)是壓縮得分,表示壓縮表示Z保留了多少輸入X的信息;I(Z, Y)是預(yù)測得分,表示Z對于預(yù)測目標(biāo)Y有多大幫助;β是平衡這兩個目標(biāo)的參數(shù)。
簡單來說,壓縮得分就像是"行李箱輕量化"的目標(biāo),我們希望它盡可能?。欢A(yù)測得分則是"帶夠必需品"的目標(biāo),我們希望它盡可能大。ZPressor正是通過平衡這兩個看似矛盾的目標(biāo),實(shí)現(xiàn)了對多視圖輸入的高效壓縮。
二、ZPressor的技術(shù)設(shè)計:優(yōu)雅簡潔的三步法
ZPressor的設(shè)計非常優(yōu)雅,可以概括為三個主要步驟,就像是一場精心編排的舞蹈。
首先是錨點(diǎn)視圖選擇。想象你需要在一個大房間里放置幾個攝像頭,以盡可能捕捉房間的全貌。你會如何放置這些攝像頭?自然是盡量均勻分布,互相之間保持適當(dāng)距離。ZPressor采用的最遠(yuǎn)點(diǎn)采樣(FPS)算法正是基于這種直覺。它首先隨機(jī)選擇一個視圖作為第一個錨點(diǎn),然后迭代地選擇與現(xiàn)有錨點(diǎn)集合距離最遠(yuǎn)的視圖作為新的錨點(diǎn),直到選滿預(yù)定數(shù)量。這樣,選出的錨點(diǎn)視圖能夠最大程度地覆蓋整個場景信息。
第二步是支持視圖分配。每個非錨點(diǎn)視圖(即支持視圖)被分配給與其攝像機(jī)位置最近的錨點(diǎn)視圖。這就像是選舉制度中的選區(qū)劃分,每個公民(支持視圖)被分配到最近的投票站(錨點(diǎn)視圖)。這種分配方式確保了支持視圖中的信息能夠與最相關(guān)的錨點(diǎn)視圖融合,從而保持場景的局部一致性。
第三步,也是最關(guān)鍵的一步,是視圖信息融合。這一步使用了交叉注意力(cross-attention)機(jī)制,將支持視圖的信息壓縮并融合到對應(yīng)的錨點(diǎn)視圖中。具體來說,錨點(diǎn)視圖的特征作為查詢(queries),而支持視圖的特征提供鍵(keys)和值(values)。這種設(shè)計使得錨點(diǎn)視圖能夠有選擇地吸收支持視圖中的補(bǔ)充信息,同時避免信息冗余。
整個過程就像是一個高效的信息提煉系統(tǒng)。錨點(diǎn)視圖就像是信息的"容器",而支持視圖則是信息的"源泉"。通過交叉注意力機(jī)制,系統(tǒng)從支持視圖中提取出最有價值的信息,并將其融合到錨點(diǎn)視圖中,形成一個緊湊但信息豐富的表示。
為了進(jìn)一步增強(qiáng)信息流動,研究團(tuán)隊還添加了自注意力層,并將多個包含交叉注意力和自注意力的模塊堆疊起來。這些設(shè)計使得ZPressor能夠更有效地壓縮和融合多視圖信息,從而大大提高了前饋式3DGS模型的可擴(kuò)展性。
三、實(shí)驗驗證:令人信服的性能提升
研究團(tuán)隊在兩個大型基準(zhǔn)數(shù)據(jù)集上進(jìn)行了廣泛的實(shí)驗:DL3DV-10K和RealEstate10K。DL3DV-10K是一個具有挑戰(zhàn)性的大規(guī)模數(shù)據(jù)集,包含來自10,510個真實(shí)場景的5130萬幀;RealEstate10K則是一個包含約10萬個視頻片段的大型數(shù)據(jù)集,這些片段來自YouTube上的房屋參觀視頻。
實(shí)驗設(shè)計非常全面。研究團(tuán)隊將ZPressor集成到三個代表性的前饋式3DGS模型中:DepthSplat、MVSplat和pixelSplat。他們使用12個輸入視圖(其中6個作為錨點(diǎn)視圖)訓(xùn)練模型,然后在不同數(shù)量的輸入視圖(從8個到36個)上進(jìn)行評估。
結(jié)果令人印象深刻。在所有情況下,集成了ZPressor的模型都顯著優(yōu)于原始模型。特別是在處理大量輸入視圖時,性能差距更為明顯。例如,在DL3DV數(shù)據(jù)集上,當(dāng)使用36個輸入視圖時,添加了ZPressor的DepthSplat比原始模型在PSNR(峰值信噪比,衡量圖像質(zhì)量的指標(biāo))上提高了4.65dB,這是一個相當(dāng)顯著的提升。
更令人驚訝的是,原始的pixelSplat模型在處理超過8個輸入視圖時就會遇到內(nèi)存不足(OOM)的問題,而添加了ZPressor的版本能夠輕松處理多達(dá)36個輸入視圖,并且表現(xiàn)優(yōu)異。這清楚地展示了ZPressor在提高模型可擴(kuò)展性方面的巨大潛力。
除了圖像質(zhì)量指標(biāo)外,研究團(tuán)隊還評估了模型的效率。結(jié)果顯示,添加ZPressor不僅提高了渲染質(zhì)量,還大幅降低了計算成本。例如,在處理36個輸入視圖時,添加了ZPressor的DepthSplat比原始模型的推理時間減少了約70%,內(nèi)存使用減少了約80%。這種效率提升對于實(shí)際應(yīng)用至關(guān)重要,尤其是在資源受限的設(shè)備上。
視覺比較結(jié)果更加直觀地展示了ZPressor的效果。在36個輸入視圖的情況下,原始DepthSplat和MVSplat模型產(chǎn)生的渲染結(jié)果中存在明顯的偽影和噪點(diǎn),而它們的ZPressor增強(qiáng)版本則產(chǎn)生了顯著更清晰、更真實(shí)的渲染結(jié)果。這些視覺比較結(jié)果直觀地證明了ZPressor在提高渲染質(zhì)量方面的顯著效果。
四、深入分析:揭示ZPressor的工作機(jī)制
為了更深入地理解ZPressor的工作機(jī)制,研究團(tuán)隊進(jìn)行了一系列細(xì)致的分析實(shí)驗。
首先,他們分析了瓶頸約束(即錨點(diǎn)視圖的數(shù)量)在不同信息內(nèi)容的場景中的影響。研究團(tuán)隊使用幀距作為場景覆蓋范圍和信息內(nèi)容的代理,比較了幀距為50(CG50)和幀距為100(CG100)兩種設(shè)置下的性能。結(jié)果顯示,在CG50設(shè)置下,將錨點(diǎn)視圖從7個增加到9個會導(dǎo)致性能下降,這表明7個聚類已經(jīng)足夠,額外的聚類會引入冗余。而在CG100設(shè)置下,增加錨點(diǎn)視圖反而提高了性能,這表明信息內(nèi)容更豐富的場景需要更高的信息瓶頸。這一發(fā)現(xiàn)證實(shí)了ZPressor確實(shí)是根據(jù)信息瓶頸原理工作的。
其次,研究團(tuán)隊分析了信息融合策略的重要性。他們比較了三種設(shè)置:默認(rèn)設(shè)置(將支持視圖融合到錨點(diǎn)視圖中)、不進(jìn)行融合(w/o fusion)、以及融合重復(fù)的錨點(diǎn)視圖而非支持視圖(fuse anchors)。結(jié)果顯示,去掉信息融合步驟會導(dǎo)致性能顯著下降,而融合重復(fù)的錨點(diǎn)視圖效果不如默認(rèn)設(shè)置。這證明了ZPressor的關(guān)鍵在于從支持視圖中提取補(bǔ)充信息并將其融合到錨點(diǎn)視圖中。
最后,研究團(tuán)隊還進(jìn)行了消融實(shí)驗,驗證了ZPressor各組件的作用。結(jié)果顯示,移除多塊堆疊設(shè)計或自注意力層都會導(dǎo)致性能輕微下降,證明這些組件確實(shí)有助于增強(qiáng)信息融合效果。然而,即使是最簡化的ZPressor變體也顯著優(yōu)于基線模型,這進(jìn)一步證明了信息瓶頸是前饋式3DGS模型的關(guān)鍵限制因素,而ZPressor有效地解決了這一問題。
五、跨數(shù)據(jù)集泛化能力與實(shí)際應(yīng)用前景
除了主要實(shí)驗外,研究團(tuán)隊還評估了ZPressor的跨數(shù)據(jù)集泛化能力。他們使用在RealEstate10K上預(yù)訓(xùn)練的模型在ACID數(shù)據(jù)集上進(jìn)行測試,結(jié)果顯示添加了ZPressor的模型表現(xiàn)出色,尤其是在輸入視圖數(shù)量增加時,性能優(yōu)勢更加明顯。這證明了ZPressor不僅在原訓(xùn)練數(shù)據(jù)集上有效,還能在新的、未見過的場景中保持其優(yōu)勢。
從實(shí)際應(yīng)用角度看,ZPressor為前饋式3DGS技術(shù)開辟了新的可能性。以前,這些模型在處理大量輸入視圖時會遇到嚴(yán)重的性能和內(nèi)存限制,這大大限制了它們在復(fù)雜場景重建中的應(yīng)用。而有了ZPressor,這些模型現(xiàn)在能夠在80GB的GPU上處理480P分辨率下的100多個輸入視圖,這意味著它們可以應(yīng)用于更廣泛的實(shí)際場景,如虛擬現(xiàn)實(shí)、增強(qiáng)現(xiàn)實(shí)和3D內(nèi)容創(chuàng)建。
當(dāng)然,ZPressor也有其局限性。正如研究團(tuán)隊在論文中指出的,在極端密集的視圖設(shè)置下(如1000個輸入視圖),即使ZPressor也只能將其壓縮到約50個視圖,以保持信息緊湊性。而處理50個視圖的3D高斯仍然對典型GPU提出了相當(dāng)大的計算挑戰(zhàn)。未來的工作可能需要探索將ZPressor與3D高斯合并或內(nèi)存高效渲染相結(jié)合,以進(jìn)一步擴(kuò)展前饋式3DGS處理極端密集輸入視圖的能力。
六、結(jié)論與未來展望
這項研究的意義遠(yuǎn)超過技術(shù)本身。它不僅提供了一個實(shí)用的解決方案來提高前饋式3DGS模型的可擴(kuò)展性,還為理解和解決深度學(xué)習(xí)中的信息瓶頸問題提供了新的視角。通過將信息瓶頸理論應(yīng)用于3D場景重建,研究團(tuán)隊展示了如何在保持高性能的同時實(shí)現(xiàn)有效的信息壓縮。
對于普通用戶來說,這項技術(shù)的進(jìn)步意味著更高質(zhì)量、更高效的3D內(nèi)容創(chuàng)建和渲染。想象一下,你可以使用智能手機(jī)拍攝家中或戶外場景的多張照片,然后一個增強(qiáng)了ZPressor的前饋式3DGS系統(tǒng)能夠迅速將這些照片轉(zhuǎn)化為高質(zhì)量的3D模型,可以在虛擬現(xiàn)實(shí)中探索,或者用于家居設(shè)計、房地產(chǎn)展示等應(yīng)用。這種技術(shù)可以使3D內(nèi)容創(chuàng)建變得更加普及和民主化,不再需要專業(yè)的設(shè)備和技能。
從研究角度看,ZPressor為解決深度學(xué)習(xí)中的信息瓶頸問題提供了一個成功案例。這種方法可能被應(yīng)用到其他領(lǐng)域,如自然語言處理、多模態(tài)學(xué)習(xí)等,以提高模型的效率和可擴(kuò)展性。
未來,研究團(tuán)隊可能會探索如何進(jìn)一步提高ZPressor的效率,例如通過更先進(jìn)的視圖選擇策略或更高效的信息融合機(jī)制。他們也可能嘗試將ZPressor與其他技術(shù)相結(jié)合,如神經(jīng)輻射場(NeRF)或輕量級3D表示,以開發(fā)更強(qiáng)大、更通用的3D場景重建系統(tǒng)。
總而言之,ZPressor代表了3D場景重建領(lǐng)域的一個重要進(jìn)步。通過創(chuàng)新性地應(yīng)用信息瓶頸理論,研究團(tuán)隊開發(fā)了一個簡單而有效的解決方案,大大提高了前饋式3DGS模型的可擴(kuò)展性和效率。這項工作不僅推動了學(xué)術(shù)研究的前沿,還為實(shí)際應(yīng)用提供了新的可能性,讓高質(zhì)量的3D內(nèi)容創(chuàng)建和渲染變得更加可行和普及。
對于那些對這項研究感興趣的讀者,可以通過項目頁面https://lhmd.top/zpressor獲取更多信息,包括視頻結(jié)果、代碼和訓(xùn)練好的模型。研究團(tuán)隊的開源精神值得贊賞,這將有助于更廣泛的研究社區(qū)建立在這一重要工作的基礎(chǔ)上,進(jìn)一步推動3D視覺領(lǐng)域的發(fā)展。
好文章,需要你的鼓勵
騰訊ARC實(shí)驗室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學(xué)習(xí)外觀和運(yùn)動信息,顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運(yùn)動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報,準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。