這項(xiàng)由南開大學(xué)朱左梁、楊健教授和南京大學(xué)王蓓蓓教授合作完成的研究發(fā)表于2025年7月的arXiv預(yù)印本平臺(tái)(論文編號:arXiv:2507.15629v1),有興趣深入了解的讀者可以通過GitHub項(xiàng)目頁面https://github.com/NK-CS-ZZL/DiscretizedSDF獲取完整代碼和論文。
在數(shù)字世界里,有一個(gè)聽起來很技術(shù)但實(shí)際非常有趣的問題:如何讓一個(gè)3D物體在不同光線下看起來都很真實(shí)?這就像攝影師給模特拍照時(shí)要調(diào)整燈光角度一樣,計(jì)算機(jī)也需要學(xué)會(huì)如何在虛擬環(huán)境中給3D物體"打光"。
傳統(tǒng)的方法就像用放大鏡一點(diǎn)一點(diǎn)地觀察物體表面,既慢又費(fèi)勁。而3D高斯?jié)姙R技術(shù)的出現(xiàn)就像發(fā)明了快門相機(jī),能快速捕捉整個(gè)場景,但問題是它在處理光影效果時(shí)經(jīng)常"翻車"——要么把金屬表面渲染得像塑料,要么把光滑的茶壺表面弄得坑坑洼洼。
這個(gè)問題的根源在于,3D高斯?jié)姙R技術(shù)把復(fù)雜的三維物體分解成無數(shù)個(gè)小"高斯球",就像用無數(shù)個(gè)彩色氣球來拼湊一個(gè)雕塑。這種方法雖然渲染速度很快,但在判斷哪些氣球應(yīng)該透明、哪些應(yīng)該不透明時(shí)經(jīng)常出錯(cuò),導(dǎo)致最終的光影效果不夠真實(shí)。
研究團(tuán)隊(duì)的解決思路相當(dāng)巧妙。他們沒有像以前的方法那樣額外添加一套復(fù)雜的幾何約束系統(tǒng)(這會(huì)大大增加內(nèi)存占用),而是直接在每個(gè)"高斯球"上貼了一個(gè)小標(biāo)簽,標(biāo)明它到物體表面的距離。這就像給每個(gè)氣球都配了一個(gè)GPS定位器,讓它們知道自己應(yīng)該在哪里、應(yīng)該有多透明。
更巧妙的是,他們設(shè)計(jì)了一套"投影一致性損失"機(jī)制。簡單來說,就是讓計(jì)算機(jī)不斷檢查:如果我把這個(gè)高斯球投影到物體表面,它的位置是否和我用傳統(tǒng)方法算出來的表面位置一致?如果不一致,就調(diào)整參數(shù)。這個(gè)過程就像一個(gè)質(zhì)量檢查員,不斷確保每個(gè)部件都裝在了正確的位置上。
為了避免訓(xùn)練過程中出現(xiàn)幾何形狀"跑偏"的問題,研究團(tuán)隊(duì)還設(shè)計(jì)了球形初始化策略。他們不是隨機(jī)放置這些高斯球,而是一開始就把它們排列成球形,就像搭積木時(shí)先搭一個(gè)穩(wěn)定的底座。這樣做能有效避免算法在訓(xùn)練初期就"走歪路",陷入錯(cuò)誤的局部最優(yōu)解。
在技術(shù)實(shí)現(xiàn)上,研究團(tuán)隊(duì)使用了一個(gè)巧妙的SDF到透明度轉(zhuǎn)換函數(shù)。這個(gè)函數(shù)就像一個(gè)智能調(diào)光器,能根據(jù)每個(gè)高斯球到表面的距離自動(dòng)調(diào)整其透明度。距離表面越近的高斯球越不透明,距離越遠(yuǎn)的越透明。為了讓這個(gè)調(diào)光器工作得更穩(wěn)定,他們還設(shè)計(jì)了一個(gè)"中值損失"機(jī)制,通過監(jiān)控所有高斯球距離的中值來自動(dòng)調(diào)整轉(zhuǎn)換參數(shù),就像給調(diào)光器安裝了一個(gè)自動(dòng)校準(zhǔn)系統(tǒng)。
實(shí)驗(yàn)結(jié)果相當(dāng)令人驚喜。在多個(gè)標(biāo)準(zhǔn)測試數(shù)據(jù)集上,這種新方法在視覺質(zhì)量指標(biāo)上都超越了現(xiàn)有的高斯?jié)姙R重光照方法。更重要的是,它只需要現(xiàn)有最先進(jìn)方法20%的顯存,訓(xùn)練速度也快了很多。這就像發(fā)明了一輛既省油又跑得快的新車。
具體來說,在處理反射性物體(比如金屬茶壺、玻璃球)時(shí),新方法能準(zhǔn)確重現(xiàn)表面的高光和反射效果,而傳統(tǒng)方法往往會(huì)產(chǎn)生不自然的偽影。在處理復(fù)雜幾何形狀時(shí),比如有很多細(xì)節(jié)的雕塑或者表面有紋理的物體,新方法也能保持幾何的準(zhǔn)確性,不會(huì)出現(xiàn)表面"融化"或"破損"的現(xiàn)象。
從實(shí)際應(yīng)用角度來看,這項(xiàng)技術(shù)的意義不僅僅在于提高了渲染質(zhì)量。在虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)應(yīng)用中,用戶經(jīng)常需要在不同的光照條件下觀看3D物體,比如在室內(nèi)燈光下查看家具的樣子,或者在戶外陽光下預(yù)覽建筑效果。這種技術(shù)能讓這些體驗(yàn)更加真實(shí)可信。
在影視制作領(lǐng)域,這種技術(shù)也有很大的應(yīng)用潛力。傳統(tǒng)的3D渲染往往需要專業(yè)藝術(shù)家花費(fèi)大量時(shí)間調(diào)整材質(zhì)參數(shù)和光照設(shè)置,而這種自動(dòng)化的重光照技術(shù)能大大降低制作成本和時(shí)間。
當(dāng)然,這項(xiàng)技術(shù)也有其局限性。目前它主要專注于直接光照效果,對于復(fù)雜的間接光照(比如光線在多個(gè)表面之間反射形成的復(fù)雜光影效果)處理能力還有待提升。此外,對于一些特殊材質(zhì)(比如半透明的玉石或者有復(fù)雜內(nèi)部結(jié)構(gòu)的物體),效果也還需要進(jìn)一步改善。
研究團(tuán)隊(duì)在論文中也提到了未來的改進(jìn)方向。他們計(jì)劃將這種技術(shù)擴(kuò)展到無界場景中,也就是說不僅能處理單個(gè)物體,還能處理整個(gè)室外場景的重光照。這將進(jìn)一步擴(kuò)大技術(shù)的應(yīng)用范圍。
從技術(shù)發(fā)展的角度來看,這項(xiàng)研究代表了3D渲染技術(shù)向著更高效、更實(shí)用方向發(fā)展的重要一步。它成功地將傳統(tǒng)幾何約束方法的穩(wěn)健性和現(xiàn)代快速渲染技術(shù)的效率結(jié)合在一起,為未來的3D內(nèi)容創(chuàng)作工具奠定了重要基礎(chǔ)。
說到底,這項(xiàng)研究解決的是一個(gè)看似技術(shù)性很強(qiáng),實(shí)際卻與我們?nèi)粘I钕⑾⑾嚓P(guān)的問題。每當(dāng)我們在手機(jī)上查看3D產(chǎn)品展示,或者在游戲中欣賞逼真的光影效果時(shí),背后都離不開這樣的技術(shù)支持。南開大學(xué)這個(gè)研究團(tuán)隊(duì)的工作,讓這些體驗(yàn)變得更加真實(shí)、更加高效,也為未來更多令人興奮的應(yīng)用鋪平了道路。歸根結(jié)底,技術(shù)的進(jìn)步最終都會(huì)體現(xiàn)在我們?nèi)粘5臄?shù)字體驗(yàn)中,讓虛擬世界變得更加真實(shí)可信。
Q&A
Q1:什么是3D高斯?jié)姙R技術(shù)?它有什么優(yōu)勢? A:3D高斯?jié)姙R技術(shù)是一種新的3D場景表示方法,它把復(fù)雜的3D物體分解成無數(shù)個(gè)"高斯球"來表示,就像用彩色氣球拼湊雕塑。它的最大優(yōu)勢是渲染速度非??欤軐?shí)現(xiàn)實(shí)時(shí)渲染,但在處理光影效果時(shí)容易出現(xiàn)問題。
Q2:離散化SDF是什么意思?為什么要這樣做? A:SDF是描述物體幾何形狀的一種數(shù)學(xué)表示方法,傳統(tǒng)方法需要額外的網(wǎng)絡(luò)來存儲(chǔ)這些信息。離散化SDF就是把這些信息直接"貼"在每個(gè)高斯球上,像給每個(gè)氣球配GPS定位器,這樣既節(jié)省內(nèi)存又提高效率。
Q3:這項(xiàng)技術(shù)會(huì)不會(huì)應(yīng)用到手機(jī)或游戲中? A:很有可能。由于這種技術(shù)顯存需求低、渲染速度快,非常適合移動(dòng)設(shè)備和實(shí)時(shí)應(yīng)用。未來我們可能會(huì)在手機(jī)APP的3D產(chǎn)品展示、移動(dòng)游戲、AR應(yīng)用中看到這種技術(shù),讓3D效果更真實(shí)且更流暢。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。