這項(xiàng)由英國曼徹斯特大學(xué)的項(xiàng)翔、中國大灣區(qū)大學(xué)的陳新凱等研究者領(lǐng)導(dǎo)的研究發(fā)表于2025年8月的計(jì)算機(jī)視覺頂級(jí)會(huì)議論文集。研究團(tuán)隊(duì)開發(fā)了一種名為"Distilled-3DGS"的創(chuàng)新技術(shù),成功解決了3D場景重建領(lǐng)域的一個(gè)重大難題。有興趣深入了解技術(shù)細(xì)節(jié)的讀者可以訪問項(xiàng)目主頁https://distilled3dgs.github.io或GitHub代碼庫https://github.com/lt-xiang/Distilled-3DGS獲取完整資料。
3D場景重建技術(shù)就像是給現(xiàn)實(shí)世界拍照然后在電腦里重建出一個(gè)完全相同的虛擬世界,這項(xiàng)技術(shù)在VR游戲、自動(dòng)駕駛汽車、建筑設(shè)計(jì)等領(lǐng)域都有廣泛應(yīng)用。然而,現(xiàn)有的先進(jìn)技術(shù)面臨著一個(gè)讓人頭疼的問題:要想獲得清晰逼真的3D場景效果,系統(tǒng)需要處理數(shù)百萬個(gè)微小的3D點(diǎn)(被稱為高斯點(diǎn)),這就像用數(shù)百萬個(gè)彩色小球來拼裝一個(gè)完整的房間模型。雖然效果很棒,但這些海量的數(shù)據(jù)讓電腦的內(nèi)存和存儲(chǔ)空間承受巨大壓力,普通設(shè)備根本跑不動(dòng)。
研究團(tuán)隊(duì)巧妙地借用了人工智能領(lǐng)域的"知識(shí)蒸餾"概念來解決這個(gè)難題。知識(shí)蒸餾原本是讓一個(gè)小型AI模型向多個(gè)大型AI老師學(xué)習(xí),從而在保持小巧輕便的同時(shí)獲得接近大模型的能力。研究者將這個(gè)思路創(chuàng)新性地應(yīng)用到3D場景重建中,開發(fā)了一套"多師傅帶徒弟"的訓(xùn)練系統(tǒng)。
整個(gè)系統(tǒng)的工作流程就像一個(gè)精心設(shè)計(jì)的師徒傳承故事。首先,研究團(tuán)隊(duì)訓(xùn)練了三個(gè)不同特色的"師傅模型"。第一個(gè)師傅是標(biāo)準(zhǔn)的3DGS模型,就像一位經(jīng)驗(yàn)豐富的老工匠,能夠穩(wěn)定地重建高質(zhì)量的3D場景。第二個(gè)師傅在訓(xùn)練過程中會(huì)故意給自己的3D點(diǎn)添加一些隨機(jī)擾動(dòng),就像一位在顛簸路面上依然能保持穩(wěn)定的老司機(jī),這種訓(xùn)練方式讓它對(duì)各種意外情況都有很強(qiáng)的適應(yīng)能力。第三個(gè)師傅則采用了"隨機(jī)休息"的策略,在訓(xùn)練時(shí)會(huì)隨機(jī)讓一些3D點(diǎn)"打盹",迫使其他點(diǎn)承擔(dān)更多工作,這樣訓(xùn)練出來的模型更加靈活,不會(huì)過分依賴某些特定的3D點(diǎn)。
有了這三位各有特長的師傅后,系統(tǒng)開始訓(xùn)練一個(gè)輕量級(jí)的"學(xué)徒模型"。學(xué)徒模型只使用師傅們一半甚至更少的3D點(diǎn)數(shù)量,但要努力學(xué)會(huì)師傅們的所有技能。訓(xùn)練過程中,三位師傅會(huì)分別對(duì)同一個(gè)場景進(jìn)行渲染,然后將他們的結(jié)果融合成一個(gè)"標(biāo)準(zhǔn)答案"。學(xué)徒模型需要不斷調(diào)整自己的參數(shù),讓自己的渲染結(jié)果盡可能接近這個(gè)標(biāo)準(zhǔn)答案。
研究團(tuán)隊(duì)還發(fā)明了一種巧妙的"空間分布學(xué)習(xí)"方法來幫助學(xué)徒掌握3D場景的幾何結(jié)構(gòu)。這個(gè)方法就像教學(xué)徒畫素描時(shí)不僅要關(guān)注每個(gè)細(xì)節(jié),還要掌握整體的構(gòu)圖比例。具體來說,系統(tǒng)會(huì)把3D空間劃分成許多小格子,然后統(tǒng)計(jì)師傅和學(xué)徒在每個(gè)格子里放置了多少個(gè)3D點(diǎn),通過對(duì)比這些分布模式,學(xué)徒能夠?qū)W會(huì)如何在保持較少點(diǎn)數(shù)的情況下依然準(zhǔn)確捕捉場景的空間結(jié)構(gòu)。
為了驗(yàn)證這套方法的效果,研究團(tuán)隊(duì)在多個(gè)知名數(shù)據(jù)集上進(jìn)行了大規(guī)模測(cè)試。這些數(shù)據(jù)集包含了從室內(nèi)房間到戶外花園,從簡單物品到復(fù)雜建筑等各種場景。測(cè)試結(jié)果令人振奮:在Mip-NeRF360數(shù)據(jù)集上,新方法在減少86%存儲(chǔ)空間的同時(shí),圖像質(zhì)量(PSNR指標(biāo))還提升了0.55分貝。在Tanks&Temples數(shù)據(jù)集上,存儲(chǔ)空間減少了87.5%,圖像質(zhì)量提升了0.62分貝。這就像一個(gè)魔術(shù)師不僅讓行李箱變得更輕便,里面的物品質(zhì)量反而更好了。
研究團(tuán)隊(duì)還進(jìn)行了詳細(xì)的對(duì)比分析,將新方法與現(xiàn)有的各種3D場景壓縮技術(shù)進(jìn)行比較。結(jié)果顯示,無論是與傳統(tǒng)的網(wǎng)格簡化方法相比,還是與最新的神經(jīng)網(wǎng)絡(luò)壓縮技術(shù)相比,Distilled-3DGS都展現(xiàn)出了明顯的優(yōu)勢(shì)。特別值得一提的是,在處理復(fù)雜室外場景時(shí),這種優(yōu)勢(shì)更加明顯,因?yàn)槎鄮煾迪到y(tǒng)能夠更好地處理光照變化、遮擋關(guān)系等復(fù)雜情況。
為了深入理解每個(gè)組件的貢獻(xiàn),研究者進(jìn)行了細(xì)致的消融實(shí)驗(yàn)。他們發(fā)現(xiàn),三個(gè)師傅中的每一個(gè)都發(fā)揮著不可替代的作用:標(biāo)準(zhǔn)師傅提供穩(wěn)定的基礎(chǔ)質(zhì)量,擾動(dòng)師傅增強(qiáng)了系統(tǒng)的魯棒性,而隨機(jī)失活師傅則防止了過擬合問題。當(dāng)移除任何一個(gè)師傅時(shí),學(xué)徒的性能都會(huì)明顯下降??臻g分布學(xué)習(xí)方法也被證明是必不可少的,沒有它,學(xué)徒很難準(zhǔn)確掌握?qǐng)鼍暗膸缀谓Y(jié)構(gòu),圖像質(zhì)量會(huì)下降0.16分貝。
這項(xiàng)研究的意義遠(yuǎn)不止技術(shù)本身。它為3D內(nèi)容在移動(dòng)設(shè)備、網(wǎng)頁瀏覽器等資源受限環(huán)境中的應(yīng)用開辟了新的可能性。過去那些只能在高端工作站上運(yùn)行的3D應(yīng)用,現(xiàn)在有望在普通手機(jī)上流暢運(yùn)行。對(duì)于VR和AR應(yīng)用來說,這意味著更輕便的頭戴設(shè)備和更長的電池續(xù)航時(shí)間。對(duì)于自動(dòng)駕駛汽車而言,這意味著能夠在車載計(jì)算機(jī)上實(shí)時(shí)構(gòu)建更精確的環(huán)境模型。
從技術(shù)創(chuàng)新的角度來看,這項(xiàng)研究首次將知識(shí)蒸餾技術(shù)成功應(yīng)用到3D高斯點(diǎn)云這種非結(jié)構(gòu)化數(shù)據(jù)上,這本身就是一個(gè)重要的突破。傳統(tǒng)的知識(shí)蒸餾主要針對(duì)神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)化特征,而3D高斯點(diǎn)云是無序的、數(shù)量可變的點(diǎn)集合,如何在這種情況下實(shí)現(xiàn)有效的知識(shí)傳遞是一個(gè)全新的挑戰(zhàn)。研究團(tuán)隊(duì)提出的多師傅融合策略和空間分布匹配方法為解決這類問題提供了新的思路。
當(dāng)然,這項(xiàng)技術(shù)也有一些局限性。首先,訓(xùn)練過程需要同時(shí)訓(xùn)練多個(gè)師傅模型,這意味著初期的訓(xùn)練時(shí)間和計(jì)算資源消耗會(huì)增加幾倍。其次,在生成蒸餾標(biāo)簽時(shí)需要多個(gè)模型同時(shí)進(jìn)行推理,這會(huì)顯著增加GPU內(nèi)存的使用量。不過,這些額外的成本主要集中在訓(xùn)練階段,一旦訓(xùn)練完成,最終的學(xué)徒模型在實(shí)際應(yīng)用時(shí)仍然非常輕量高效。
研究團(tuán)隊(duì)表示,未來的工作方向包括探索端到端的蒸餾流程,以及針對(duì)高斯點(diǎn)參數(shù)的自適應(yīng)剪枝策略。他們還計(jì)劃將這項(xiàng)技術(shù)擴(kuò)展到動(dòng)態(tài)場景和多視角視頻的處理上,這將為4D內(nèi)容創(chuàng)建和時(shí)序3D重建帶來新的突破。
這項(xiàng)研究的成功發(fā)表也反映了當(dāng)前3D計(jì)算機(jī)視覺領(lǐng)域的發(fā)展趨勢(shì):在追求更高質(zhì)量的同時(shí),如何讓技術(shù)變得更加實(shí)用和普及。Distilled-3DGS的出現(xiàn)為這個(gè)平衡點(diǎn)的實(shí)現(xiàn)提供了一個(gè)優(yōu)雅的解決方案,它不僅在學(xué)術(shù)界引起了廣泛關(guān)注,也為工業(yè)界的實(shí)際應(yīng)用提供了可行的技術(shù)路徑。
說到底,這項(xiàng)研究就像是給3D世界重建技術(shù)裝上了一臺(tái)高效的"壓縮機(jī)",在大幅減少存儲(chǔ)和計(jì)算需求的同時(shí),還能保持甚至提升視覺效果的質(zhì)量。隨著VR、AR和元宇宙概念的日益普及,這樣的技術(shù)突破將讓更多普通用戶能夠享受到高質(zhì)量的3D沉浸式體驗(yàn),真正推動(dòng)3D技術(shù)從實(shí)驗(yàn)室走向千家萬戶。
Q&A
Q1:Distilled-3DGS是什么技術(shù)?它解決了什么問題?
A:Distilled-3DGS是一種3D場景重建壓縮技術(shù),主要解決了現(xiàn)有3D高斯點(diǎn)云技術(shù)需要海量存儲(chǔ)空間和計(jì)算資源的問題。它通過"多師傅帶徒弟"的知識(shí)蒸餾方法,讓輕量級(jí)模型在減少86%以上存儲(chǔ)空間的同時(shí),還能保持甚至提升圖像質(zhì)量。
Q2:這項(xiàng)技術(shù)的多師傅訓(xùn)練系統(tǒng)是如何工作的?
A:系統(tǒng)訓(xùn)練三個(gè)不同特色的師傅模型:標(biāo)準(zhǔn)師傅提供穩(wěn)定基礎(chǔ),擾動(dòng)師傅增強(qiáng)適應(yīng)能力,隨機(jī)失活師傅防止過擬合。然后這三個(gè)師傅共同指導(dǎo)一個(gè)輕量級(jí)學(xué)徒模型學(xué)習(xí),學(xué)徒只需要師傅們一半的3D點(diǎn)數(shù)量就能達(dá)到相近的重建效果。
Q3:Distilled-3DGS技術(shù)有什么實(shí)際應(yīng)用價(jià)值?
A:這項(xiàng)技術(shù)能讓原本只能在高端設(shè)備上運(yùn)行的3D應(yīng)用在普通手機(jī)上流暢運(yùn)行,為VR/AR設(shè)備帶來更輕便的體驗(yàn)和更長續(xù)航,幫助自動(dòng)駕駛汽車實(shí)時(shí)構(gòu)建更精確的環(huán)境模型,推動(dòng)3D技術(shù)從實(shí)驗(yàn)室真正走向大眾市場。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對(duì)話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。