av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁 一張照片變出立體城鎮(zhèn):UCSC和哥倫比亞大學(xué)聯(lián)合研發(fā)的3DTown技術(shù)突破

一張照片變出立體城鎮(zhèn):UCSC和哥倫比亞大學(xué)聯(lián)合研發(fā)的3DTown技術(shù)突破

2025-05-27 11:37
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-27 11:37 ? 科技行者

從單一圖像構(gòu)建三維城鎮(zhèn):讓虛擬世界變得觸手可及

這項(xiàng)由加州大學(xué)圣克魯茲分校(UC Santa Cruz)的Kaizhi Zheng和Jing Gu、哥倫比亞大學(xué)(Columbia University)的Ruijian Zhang以及Cybever AI的Jie Yang、加州大學(xué)圣克魯茲分校的Xin Eric Wang共同完成的研究,于2025年5月發(fā)表在arXiv預(yù)印本平臺(arXiv:2505.15765v1)。有興趣深入了解的讀者可以通過研究團(tuán)隊(duì)的項(xiàng)目網(wǎng)站(https://eric-ai-lab.github.io/3dtown.github.io/)查看更多信息。

一、為什么我們需要從單張圖像生成3D場景?

想象一下,你正在開發(fā)一款虛擬現(xiàn)實(shí)游戲,需要大量精美的3D城鎮(zhèn)場景,但你既沒有昂貴的3D掃描設(shè)備,也沒有足夠的人力去手動(dòng)建模?;蛘吣闶且患曳康禺a(chǎn)公司,想要快速將平面圖紙轉(zhuǎn)化為可交互的虛擬樣板房。這時(shí),如果能有一種技術(shù),只需一張鳥瞰圖就能自動(dòng)生成完整的3D場景,那將是多么便捷!

這正是加州大學(xué)圣克魯茲分校和哥倫比亞大學(xué)研究團(tuán)隊(duì)開發(fā)的"3DTown"技術(shù)所要解決的問題。在我們?nèi)粘I钪校瑥钠矫娴搅Ⅲw的轉(zhuǎn)換無處不在——從看平面電視到體驗(yàn)3D電影,從紙質(zhì)圖紙到實(shí)體建筑。但在數(shù)字世界里,這種轉(zhuǎn)換往往需要專業(yè)設(shè)備、多角度拍攝或耗時(shí)的人工建模。3DTown提供了一種輕量級的替代方案:僅需一張俯視圖,就能生成逼真、連貫的3D場景。

目前的3D生成技術(shù)在單個(gè)物體層面已經(jīng)取得了顯著成果,但當(dāng)擴(kuò)展到整個(gè)場景時(shí),常常會(huì)出現(xiàn)幾何不一致、布局混亂和網(wǎng)格質(zhì)量低下等問題。想象一下,如果你用現(xiàn)有技術(shù)處理一張城鎮(zhèn)俯視圖,可能會(huì)得到一個(gè)建筑物懸浮在空中、道路扭曲變形,或者紋理模糊不清的奇怪世界。3DTown團(tuán)隊(duì)正是要解決這些挑戰(zhàn),讓生成的3D世界既真實(shí)又連貫。

二、3DTown:一種無需訓(xùn)練的3D場景生成新方法

3DTown的核心思想可以比作搭建積木城堡的過程。想象你有一張城堡的俯視照片,而不是直接嘗試一次性復(fù)制整個(gè)城堡(這很容易出錯(cuò)),你決定將照片分成小區(qū)域,一塊一塊地搭建,再確保它們能無縫銜接。

研究團(tuán)隊(duì)的方法基于兩個(gè)關(guān)鍵原則:區(qū)域化生成和空間感知的3D修復(fù)。區(qū)域化生成就像是將大拼圖分解成小塊,先完成每個(gè)小塊,再將它們組合起來,這樣可以提高圖像到3D的對齊精度和分辨率。而空間感知的3D修復(fù)則像是在拼圖的接縫處使用特殊膠水,確保全局場景的連貫性和高質(zhì)量幾何生成。

具體來說,3DTown首先將輸入的俯視圖分解成重疊的區(qū)域,然后使用預(yù)訓(xùn)練的3D物體生成器(如Trellis)處理每個(gè)區(qū)域。這就像是請一位精通雕刻單個(gè)建筑的藝術(shù)家來處理城鎮(zhèn)的每個(gè)街區(qū)。接著,通過一種稱為"掩碼校正流修復(fù)"的過程填充缺失的幾何信息,同時(shí)保持結(jié)構(gòu)連續(xù)性。這相當(dāng)于一位專家在檢查整個(gè)城鎮(zhèn)模型,發(fā)現(xiàn)缺失部分后進(jìn)行修復(fù),同時(shí)確保修復(fù)的部分與原有部分風(fēng)格一致。

這種模塊化設(shè)計(jì)允許3DTown克服分辨率瓶頸并保持空間結(jié)構(gòu),而無需進(jìn)行3D監(jiān)督訓(xùn)練或微調(diào)。你可以把它想象成一個(gè)非常聰明的助手,他不需要特別學(xué)習(xí)如何搭建城鎮(zhèn)模型,而是利用已有的單體建筑知識,通過合理的分解和組合策略,創(chuàng)造出完整且連貫的城鎮(zhèn)場景。

三、技術(shù)細(xì)節(jié):3DTown如何將平面變成立體?

### 1. 結(jié)構(gòu)化潛在表示:積木的基本單元

在開始構(gòu)建3D場景之前,3DTown需要一種有效的方式來表示3D結(jié)構(gòu)。想象你在玩一種特殊的積木游戲,每個(gè)積木塊(稱為體素)都有兩個(gè)屬性:它的位置(在3D空間中的坐標(biāo))和它的特征(顏色、質(zhì)地等)。

在技術(shù)層面,研究團(tuán)隊(duì)使用了結(jié)構(gòu)化潛在表示,這是一種由位置索引和潛在特征向量組成的數(shù)據(jù)結(jié)構(gòu)。位置索引告訴我們體素在3D網(wǎng)格中的位置,而潛在特征向量則包含了體素的外觀和幾何信息。這就像給每個(gè)積木塊一個(gè)地址標(biāo)簽(告訴你它應(yīng)該放在哪里)和一個(gè)屬性卡片(告訴你它應(yīng)該是什么樣子)。

### 2. 空間先驗(yàn)初始化:搭建骨架

當(dāng)你拿到一張城鎮(zhèn)的俯視圖時(shí),第一步是要理解這個(gè)城鎮(zhèn)的大致結(jié)構(gòu)。3DTown使用單目深度估計(jì)器從輸入圖像中預(yù)測深度信息,并推斷相機(jī)參數(shù),從而構(gòu)建像素級點(diǎn)云。這就像是從平面照片中提取出景物的大致高低關(guān)系,建立一個(gè)初步的3D骨架。

然而,由于遮擋,這些點(diǎn)云會(huì)有很多缺失區(qū)域。為了解決這個(gè)問題,研究團(tuán)隊(duì)提出了一種方法:先單獨(dú)生成具有標(biāo)志性的建筑物(如城堡中心的主塔),然后將后續(xù)生成內(nèi)容建立在這些標(biāo)志性結(jié)構(gòu)的幾何基礎(chǔ)上。這就像是先搭建城堡的主要塔樓,然后再圍繞它添加其他建筑。

### 3. 區(qū)域化生成:分而治之

直接將預(yù)訓(xùn)練的物體生成器應(yīng)用于整個(gè)場景會(huì)導(dǎo)致低分辨率幾何和布局失真。想象一下,如果你試圖一次性描繪整個(gè)城市,很容易忽略細(xì)節(jié)或錯(cuò)誤安排建筑物位置。

為了解決這個(gè)問題,3DTown將場景分割成重疊的區(qū)域,并對每個(gè)區(qū)域單獨(dú)進(jìn)行處理。每個(gè)區(qū)域都與其對應(yīng)的圖像裁剪部分關(guān)聯(lián),確保生成內(nèi)容與圖像證據(jù)緊密對應(yīng)。這就像是將一張大地圖分成多個(gè)小區(qū)域,分別繪制后再拼接起來,這樣每個(gè)區(qū)域都能得到足夠的關(guān)注和細(xì)節(jié)處理。

### 4. 空間感知的3D修復(fù):無縫連接

雖然區(qū)域化生成提高了局部保真度,但它也引入了一個(gè)新挑戰(zhàn):如何確保區(qū)域之間的全局一致性?3DTown借鑒了2D擴(kuò)散模型中的無訓(xùn)練修復(fù)方法(如RePaint),并將其適應(yīng)于3D生成。

具體來說,對于每個(gè)區(qū)域級子網(wǎng)格,系統(tǒng)會(huì)將已知的活動(dòng)體素標(biāo)記為保留,而將未知體素標(biāo)記為重新生成。使用掩碼校正流管道,系統(tǒng)能夠完成區(qū)域結(jié)構(gòu)并獲得局部特征,同時(shí)保持與已知內(nèi)容的一致性。這就像是在拼圖的接縫處使用特殊的過渡技術(shù),確保每塊拼圖能夠自然地融合在一起,沒有明顯的斷裂或不協(xié)調(diào)。

### 5. 區(qū)域融合:組裝完整場景

生成每個(gè)區(qū)域后,系統(tǒng)會(huì)更新場景級結(jié)構(gòu)化潛在表示,用區(qū)域級潛在表示替換相應(yīng)部分。由于區(qū)域是使用分塊策略提取的,某些區(qū)域可能只包含前景地標(biāo)的部分觀察。為了保持地標(biāo)完整性,系統(tǒng)會(huì)在融合過程中丟棄對應(yīng)于部分前景的結(jié)構(gòu)化潛在表示。

每個(gè)區(qū)域都是從場景級潛在表示的最新版本中提取的,確保區(qū)域之間的一致性。如果一個(gè)區(qū)域與先前生成的區(qū)域重疊,其重疊體素會(huì)在生成過程中被約束為匹配現(xiàn)有內(nèi)容。這強(qiáng)制了連續(xù)性并避免了重疊區(qū)域中的不一致性,從而實(shí)現(xiàn)了相鄰區(qū)域之間的平滑過渡,同時(shí)保留了已合成的內(nèi)容。

最終,完整的場景級潛在表示通過物體解碼器解碼,產(chǎn)生場景級網(wǎng)格和3D高斯分布。完整的紋理場景使用物理渲染烘焙和高斯分布渲染的組合進(jìn)行渲染。這就像是將所有精心制作的模型部件組裝起來,并為它們上色、添加紋理,最終呈現(xiàn)出一個(gè)完整而生動(dòng)的3D城鎮(zhèn)。

四、實(shí)驗(yàn)成果:3DTown與現(xiàn)有技術(shù)的比較

為了評估3DTown的性能,研究團(tuán)隊(duì)構(gòu)建了一個(gè)包含100個(gè)多樣化俯視場景圖像的自定義測試集。這些圖像由GPT-4o生成,涵蓋了"雪地村莊"、"沙漠城鎮(zhèn)"等各種風(fēng)格。

由于缺乏地面真實(shí)網(wǎng)格,團(tuán)隊(duì)通過模型間的成對比較來衡量性能。對于每個(gè)參考圖像,兩個(gè)生成的場景在三個(gè)標(biāo)準(zhǔn)上進(jìn)行評估:幾何質(zhì)量、布局一致性和紋理一致性。幾何質(zhì)量評估哪個(gè)網(wǎng)格包含更詳細(xì)、更精細(xì)的結(jié)構(gòu),更接近圖像證據(jù)。布局一致性評估生成的網(wǎng)格是否與參考圖像具有相同的布局。紋理一致性衡量生成的網(wǎng)格紋理與參考圖像相應(yīng)部分的一致程度。

研究結(jié)果令人印象深刻。無論是在人類偏好還是GPT-4o評估中,3DTown都大幅優(yōu)于現(xiàn)有技術(shù),包括Trellis、Hunyuan3D-2和TripoSG。例如,在人類偏好評估中,3DTown在幾何質(zhì)量方面的勝率比Trellis高37個(gè)百分點(diǎn)(68.5%對31.5%),比TripoSG高55個(gè)百分點(diǎn)(77.5%對22.5%)。

從質(zhì)量上看,3DTown生成的場景資產(chǎn)具有清晰的結(jié)構(gòu)、一致的布局和逼真的表面細(xì)節(jié),與參考俯視圖緊密匹配。相比之下,Trellis通常生成過度集中、低分辨率的結(jié)構(gòu),缺乏外圍細(xì)節(jié)。Hunyuan3D-2在布局扭曲和幾何幻覺方面表現(xiàn)出明顯問題,盡管在隔離部分的紋理上尚可接受。TripoSG保持了一些構(gòu)圖結(jié)構(gòu),但經(jīng)常引入重復(fù)對象,忽略參考圖像中的布局證據(jù)。

研究團(tuán)隊(duì)還進(jìn)行了消融研究,以評估3DTown關(guān)鍵組件的貢獻(xiàn):區(qū)域化生成策略和預(yù)生成地標(biāo)的使用。結(jié)果表明,移除區(qū)域化生成會(huì)導(dǎo)致性能大幅下降,這表明整體生成無法充分利用預(yù)訓(xùn)練模型的能力。沒有區(qū)域化條件,模型難以解析空間上下文和圖像到3D的對應(yīng)關(guān)系,產(chǎn)生低分辨率和空間不連貫的輸出。

同樣,禁用地標(biāo)感知初始化,僅依靠單目深度構(gòu)建空間先驗(yàn),也會(huì)導(dǎo)致幾何和布局質(zhì)量明顯下降,特別是在包含大型前景結(jié)構(gòu)(如門或塔)的區(qū)域。由于區(qū)域化生成以空間塊處理場景,地標(biāo)充當(dāng)錨點(diǎn),維持區(qū)域邊界之間的對象連續(xù)性。沒有它們,模型更容易在區(qū)域之間產(chǎn)生不連貫或不匹配的內(nèi)容。

五、3DTown的意義與應(yīng)用前景

3DTown的出現(xiàn)為從單一圖像生成高質(zhì)量、連貫3D場景提供了一種有效的方法。這項(xiàng)技術(shù)有望在多個(gè)領(lǐng)域產(chǎn)生深遠(yuǎn)影響:

在游戲開發(fā)中,設(shè)計(jì)師可以通過繪制簡單的俯視圖快速生成復(fù)雜的3D環(huán)境,大大加速游戲世界的構(gòu)建過程。想象一下,一個(gè)小型獨(dú)立游戲工作室不再需要投入大量資源進(jìn)行3D建模,而是可以通過繪制2D地圖快速生成可玩的3D世界。

在虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)領(lǐng)域,3DTown可以幫助創(chuàng)建更豐富、更沉浸式的體驗(yàn)。從旅游景點(diǎn)的虛擬預(yù)覽到歷史遺址的數(shù)字重建,只需一張俯視圖或平面圖就能創(chuàng)建可探索的3D環(huán)境。

在城市規(guī)劃和建筑設(shè)計(jì)中,3DTown可以將概念草圖或鳥瞰圖快速轉(zhuǎn)化為可視化的3D模型,幫助規(guī)劃者和利益相關(guān)者更好地理解和評估設(shè)計(jì)方案。想象一個(gè)城市規(guī)劃師只需繪制一張新社區(qū)的俯視圖,就能立即生成一個(gè)詳細(xì)的3D模型,用于公眾咨詢和決策支持。

在教育領(lǐng)域,3DTown可以幫助學(xué)生更直觀地理解地理、歷史和建筑概念。教師可以將平面地圖或歷史遺址的俯視圖轉(zhuǎn)化為交互式3D模型,增強(qiáng)學(xué)習(xí)體驗(yàn)。

然而,3DTown也存在一些局限性。預(yù)訓(xùn)練的3D生成器是在單物體圖像上訓(xùn)練的,即使經(jīng)過區(qū)域分解,底層分布不匹配仍可能導(dǎo)致塊級幻覺,如重復(fù)的外觀或不現(xiàn)實(shí)的屋頂形狀。此外,粗糙的空間先驗(yàn)由于遮擋而包含許多空洞,主導(dǎo)這類空洞的區(qū)域有時(shí)會(huì)從生成器繼承空或過度平滑的表面。

未來的研究方向可能包括場景級微調(diào)或領(lǐng)域適應(yīng),以減少這些幻覺;集成不確定性感知的深度完成、多視圖線索或語義先驗(yàn),以產(chǎn)生更密集的支架和更可靠的修復(fù)。隨著這些改進(jìn)的實(shí)現(xiàn),我們可以期待3DTown及類似技術(shù)在數(shù)字內(nèi)容創(chuàng)建和虛擬環(huán)境構(gòu)建中發(fā)揮越來越重要的作用。

結(jié)論:單張圖片到3D世界的橋梁

歸根結(jié)底,3DTown代表了一種突破性的方法,能夠從單一俯視圖生成高質(zhì)量、連貫的3D場景。通過結(jié)合區(qū)域化生成和空間感知的3D修復(fù),這項(xiàng)技術(shù)克服了現(xiàn)有方法的局限性,在幾何質(zhì)量、布局一致性和紋理保真度方面取得了顯著改進(jìn)。

就像魔術(shù)師能從帽子里變出一只兔子一樣,3DTown能從一張平面圖像中"變出"一個(gè)立體世界。但與魔術(shù)不同,這不是幻覺,而是基于堅(jiān)實(shí)科學(xué)原理的技術(shù)創(chuàng)新。它為創(chuàng)建虛擬環(huán)境提供了一種更簡單、更高效的方式,有望在游戲開發(fā)、虛擬現(xiàn)實(shí)、城市規(guī)劃和教育等多個(gè)領(lǐng)域產(chǎn)生廣泛影響。

如果你對3DTown感興趣,可以訪問項(xiàng)目網(wǎng)站(https://eric-ai-lab.github.io/3dtown.github.io/)了解更多信息,或查閱原始論文獲取完整的技術(shù)細(xì)節(jié)。隨著技術(shù)的不斷發(fā)展,我們可以期待在不久的將來,從平面到立體的轉(zhuǎn)換會(huì)變得更加簡單和普遍,為我們打開一個(gè)充滿可能性的數(shù)字世界。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-