av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁(yè) UniGeo:利用視頻擴(kuò)散模型實(shí)現(xiàn)一致性幾何信息估計(jì)的突破性研究

UniGeo:利用視頻擴(kuò)散模型實(shí)現(xiàn)一致性幾何信息估計(jì)的突破性研究

2025-06-04 13:33
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-04 13:33 ? 科技行者

香港大學(xué)、北京航空航天大學(xué)和VAST研究團(tuán)隊(duì)的重大突破!視頻幾何信息估計(jì)從此變得更加精準(zhǔn)一致

在計(jì)算機(jī)視覺領(lǐng)域,從單一圖像或視頻中估計(jì)三維幾何信息(如深度和表面法線)一直是一個(gè)基礎(chǔ)但充滿挑戰(zhàn)的任務(wù)。2025年5月30日,由香港大學(xué)的楊天陽(yáng)(Yang-Tian Sun)、余欣(Xin Yu)、黃一華(Yi-Hua Huang)和齊曉娟(Xiaojuan Qi),北京航空航天大學(xué)的黃澤桓(Zehuan Huang)以及VAST的郭元辰(Yuan-Chen Guo)、楊子儀(Ziyi Yang)和曹延培(Yan-Pei Cao)共同撰寫的研究論文《UniGeo: Taming Video Diffusion for Unified Consistent Geometry Estimation》在arXiv預(yù)印本平臺(tái)(arXiv:2505.24521v1)上發(fā)表。這篇論文提出了一個(gè)創(chuàng)新的框架,巧妙地利用視頻擴(kuò)散模型來(lái)實(shí)現(xiàn)跨幀一致的幾何信息估計(jì)。有興趣深入了解的讀者可以通過(guò)https://sunyangtian.github.io/UniGeo-web/訪問(wèn)項(xiàng)目主頁(yè)。

想象一下,當(dāng)你拿著手機(jī)圍繞一個(gè)物體拍攝視頻時(shí),你的大腦能夠自然地理解這個(gè)物體的三維形狀和空間位置關(guān)系。但對(duì)計(jì)算機(jī)來(lái)說(shuō),這個(gè)任務(wù)卻異常困難。過(guò)去的方法通常是逐幀處理視頻,導(dǎo)致不同幀之間的幾何信息(如深度和表面法線)不一致,就像幾個(gè)不同的人各自描述同一個(gè)物體,卻給出矛盾的細(xì)節(jié)描述。這種不一致性問(wèn)題嚴(yán)重影響了后續(xù)的三維重建和場(chǎng)景理解任務(wù)。

一、研究背景與創(chuàng)新點(diǎn)

近年來(lái),利用擴(kuò)散模型預(yù)訓(xùn)練得到的先驗(yàn)知識(shí)來(lái)輔助單目幾何估計(jì)的方法(如深度和法線估計(jì))引起了研究者們的廣泛關(guān)注。想象一下,擴(kuò)散模型就像一個(gè)看過(guò)無(wú)數(shù)場(chǎng)景的經(jīng)驗(yàn)豐富的專家,通過(guò)大量的數(shù)據(jù)學(xué)習(xí)到了世界是什么樣子。比如Marigold和GeoWizard這樣的方法已經(jīng)證明,經(jīng)過(guò)微調(diào)的基于擴(kuò)散的圖像生成器能夠在深度和法線預(yù)測(cè)任務(wù)中取得卓越的性能。這些發(fā)現(xiàn)表明,圖像生成模型從大規(guī)模數(shù)據(jù)集中學(xué)習(xí)到的先驗(yàn)知識(shí)可以增強(qiáng)幾何估計(jì)的準(zhǔn)確性和泛化能力。

然而,當(dāng)我們直接將基于圖像的幾何估計(jì)方法逐幀應(yīng)用到視頻中時(shí),往往會(huì)導(dǎo)致明顯的不一致性。要解決這個(gè)問(wèn)題,最近的一些工作如DepthCrafter和ChronoDepth嘗試?yán)靡曨l擴(kuò)散模型的一致性先驗(yàn)來(lái)進(jìn)行深度估計(jì),將視頻幀作為條件輸入,同時(shí)預(yù)測(cè)攝像機(jī)坐標(biāo)系下的跨幀深度作為輸出。

盡管這些方法取得了一定進(jìn)展,但幾何屬性(如深度和表面法線)所需的一致性與RGB視頻幀的一致性存在根本性差異。例如,視頻先驗(yàn)通常會(huì)強(qiáng)制相同物體在不同幀中的外觀相似,而其深度和法線則會(huì)隨著相機(jī)運(yùn)動(dòng)而變化。這種差異可能導(dǎo)致幾何預(yù)測(cè)不準(zhǔn)確。此外,RGB條件通過(guò)通道級(jí)的拼接引入到視頻擴(kuò)散模型中,這改變了與預(yù)訓(xùn)練模型相比的輸入格式,需要架構(gòu)修改并且難以充分利用視頻擴(kuò)散先驗(yàn)的潛力。

UniGeo團(tuán)隊(duì)的核心創(chuàng)新在于,他們發(fā)現(xiàn)預(yù)訓(xùn)練的視頻生成模型天生具備提取幀間一致性的能力。他們通過(guò)注意力權(quán)重可視化證明了這一點(diǎn):當(dāng)模型處理視頻序列時(shí),它能夠自動(dòng)識(shí)別不同幀中相同區(qū)域的對(duì)應(yīng)關(guān)系。這種內(nèi)在的對(duì)應(yīng)能力啟發(fā)他們重新思考視頻幾何估計(jì)問(wèn)題:如果我們能夠以合適的方式利用這種對(duì)應(yīng)關(guān)系,是否可以獲得更加一致的幾何估計(jì)結(jié)果?

二、UniGeo方法的核心設(shè)計(jì)

基于上述觀察,研究團(tuán)隊(duì)提出了UniGeo框架,它將基于視頻的幾何估計(jì)任務(wù)(包括全局位置和表面法線)重新表述為一個(gè)視頻生成問(wèn)題。具體來(lái)說(shuō),他們采取了以下創(chuàng)新設(shè)計(jì):

首先,他們提出在共享的全局坐標(biāo)系統(tǒng)中表示幾何屬性。這就像是讓所有人使用同一個(gè)地圖和坐標(biāo)系統(tǒng)來(lái)描述位置,而不是各自使用相對(duì)于自己的位置來(lái)描述。這種方法自然地對(duì)齊了跨幀的幾何對(duì)應(yīng)關(guān)系,反映了RGB視頻中的一致性。相比之下,現(xiàn)有方法估計(jì)以相機(jī)為中心的坐標(biāo)系中的幾何形狀,這本質(zhì)上會(huì)導(dǎo)致不一致性。

想象一下,如果你從不同角度拍攝同一個(gè)物體,傳統(tǒng)方法會(huì)以"我離物體多遠(yuǎn)"(相對(duì)于相機(jī))來(lái)描述深度。而UniGeo則會(huì)說(shuō)"這個(gè)點(diǎn)在空間中的絕對(duì)位置是什么",無(wú)論你從哪個(gè)角度拍攝,那個(gè)點(diǎn)的全局坐標(biāo)都是固定的。這種表示方法使得幾何信息天然地保持一致性。

其次,他們巧妙地解決了如何將RGB信息融入預(yù)訓(xùn)練視頻擴(kuò)散模型的問(wèn)題。與其將RGB輸入堆疊在通道維度上作為條件(這種方法會(huì)使預(yù)訓(xùn)練的視頻擴(kuò)散模型錯(cuò)位),他們提出將RGB幀作為統(tǒng)一視頻序列中的額外輸入處理。具體來(lái)說(shuō),他們將RGB幀與帶噪聲的幾何序列一起組織,使模型能夠直接適應(yīng)視頻擴(kuò)散模型,無(wú)需架構(gòu)修改。

想象一下,這就像是給模型看一個(gè)特殊的視頻,這個(gè)視頻的前半部分是普通的RGB畫面,后半部分是對(duì)應(yīng)的幾何屬性(如深度或法線)。模型通過(guò)學(xué)習(xí)前半部分和后半部分的關(guān)系,來(lái)預(yù)測(cè)正確的幾何信息。

更精妙的是,研究團(tuán)隊(duì)提出了一種共享位置編碼策略,重用來(lái)自圖像的位置嵌入并將它們應(yīng)用于幾何屬性。他們觀察到,注意力權(quán)重在不同幀之間自然地捕獲對(duì)應(yīng)關(guān)系,這些權(quán)重受到標(biāo)記位置嵌入的強(qiáng)烈影響。通過(guò)重用位置嵌入,他們確保了圖像和幾何屬性之間的精確對(duì)齊,有效地利用了預(yù)訓(xùn)練模型的幀間對(duì)應(yīng)關(guān)系學(xué)習(xí)能力。

這就像是在不同的照片上貼上相同編號(hào)的標(biāo)簽,告訴模型:"這些標(biāo)簽相同的地方其實(shí)是同一個(gè)物體的不同角度視圖"。這樣,模型就能更好地建立不同幀之間的對(duì)應(yīng)關(guān)系。

最后,為了有效利用可用的訓(xùn)練數(shù)據(jù)集學(xué)習(xí)泛化模型,他們探索了訓(xùn)練單個(gè)網(wǎng)絡(luò)來(lái)同時(shí)預(yù)測(cè)多個(gè)幾何屬性。他們的創(chuàng)新公式使這些任務(wù)共享相同的學(xué)習(xí)對(duì)應(yīng)關(guān)系,允許它們相互加強(qiáng)。令人驚訝的是,實(shí)驗(yàn)結(jié)果表明,這種多任務(wù)方法不僅提供了在統(tǒng)一模型中推斷多個(gè)屬性的額外優(yōu)勢(shì),而且優(yōu)于針對(duì)特定任務(wù)單獨(dú)訓(xùn)練的網(wǎng)絡(luò)。

這就像一個(gè)人同時(shí)學(xué)習(xí)繪畫和雕塑,兩種技能會(huì)相互促進(jìn),讓他對(duì)三維形狀的理解更加全面。同樣,當(dāng)模型同時(shí)學(xué)習(xí)預(yù)測(cè)位置和法線時(shí),它對(duì)物體幾何形狀的理解也會(huì)更加完整。

三、實(shí)驗(yàn)與結(jié)果分析

UniGeo團(tuán)隊(duì)在多個(gè)數(shù)據(jù)集上進(jìn)行了大量實(shí)驗(yàn),以驗(yàn)證他們方法的有效性。他們的訓(xùn)練數(shù)據(jù)包括:Hypersim(一個(gè)室內(nèi)多視圖數(shù)據(jù)集,提供位置和法線標(biāo)簽),InteriorNet(一個(gè)室內(nèi)視頻數(shù)據(jù)集,提供位置和法線監(jiān)督)以及MatrixCity(一個(gè)室外視頻數(shù)據(jù)集,提供法線數(shù)據(jù))。

在測(cè)試階段,他們選擇了ScanNet++和7scenes數(shù)據(jù)集進(jìn)行評(píng)估,這兩個(gè)數(shù)據(jù)集都是真實(shí)場(chǎng)景數(shù)據(jù)集,在訓(xùn)練過(guò)程中未被使用。對(duì)于ScanNet++,每幀的注釋幾何屬性是由高功率LiDAR傳感器掃描的網(wǎng)格重新渲染的,可用于深度和法線評(píng)估。7scenes則用于重建點(diǎn)云評(píng)估。

讓我們來(lái)看看在法線估計(jì)任務(wù)上的表現(xiàn)。團(tuán)隊(duì)使用了角度誤差作為評(píng)估指標(biāo),計(jì)算預(yù)測(cè)法線與真實(shí)法線之間的角度誤差。他們報(bào)告了平均和中位角度誤差,數(shù)值越低表示精度越高。此外,他們還測(cè)量了角度誤差小于11.25°的像素百分比,這個(gè)值越高表示精度越好。

在ScanNet++數(shù)據(jù)集上,UniGeo的平均角度誤差為18.15,中位角度誤差為7.91,角度誤差小于11.25°的像素百分比為63.38%。這一結(jié)果優(yōu)于現(xiàn)有的方法,如Marigold(平均誤差20.93,中位誤差11.36,11.25°準(zhǔn)確率53.31%)、GeoWizard(平均誤差21.33,中位誤差12.61,11.25°準(zhǔn)確率49.23%)以及E2E FT(平均誤差18.32,中位誤差8.22,11.25°準(zhǔn)確率65.02%)。

對(duì)于深度/半徑估計(jì),由于深度通常定義為相機(jī)坐標(biāo)系中3D坐標(biāo)的z值,為了將其轉(zhuǎn)換為一致的幾何屬性,團(tuán)隊(duì)使用了3D點(diǎn)到全局坐標(biāo)系原點(diǎn)的距離("半徑")作為替代,這與GT通過(guò)最小二乘擬合對(duì)齊。他們報(bào)告了平均絕對(duì)相對(duì)誤差(AbsRel)、均方根誤差(RMSE)以及對(duì)齊預(yù)測(cè)半徑與GT之比小于1.25的像素百分比(δ1準(zhǔn)確率)。

在這一任務(wù)上,UniGeo的AbsRel為10.2,δ1準(zhǔn)確率為90.5%,優(yōu)于Video Depth Anything(AbsRel為13.5,δ1準(zhǔn)確率為86.2%)和GeoWizard(AbsRel為11.5,δ1準(zhǔn)確率為89.6%)等方法。

值得注意的是,與其他方法不同,UniGeo不需要相機(jī)參數(shù)作為輸入,這進(jìn)一步證明了利用視頻擴(kuò)散模型先驗(yàn)的優(yōu)勢(shì)。

在視頻重建任務(wù)中,由于UniGeo直接預(yù)測(cè)統(tǒng)一坐標(biāo)系中每個(gè)幀像素的幾何屬性,它可以直接應(yīng)用于重建。與無(wú)姿態(tài)的基于圖像的重建方法(如Dust3R和Spann3R)相比,UniGeo在7scenes數(shù)據(jù)集上取得了具有競(jìng)爭(zhēng)力的性能,盡管它使用的訓(xùn)練數(shù)據(jù)明顯少于競(jìng)爭(zhēng)方法。

四、UniGeo的突破意義與應(yīng)用前景

UniGeo的研究意義在于,它首次實(shí)現(xiàn)了從視頻數(shù)據(jù)同時(shí)預(yù)測(cè)多個(gè)幾何屬性(如半徑、法線)的能力,確保全局一致性,適合直接用于重建任務(wù)。與基于圖像的方法相比,該方法無(wú)需額外的相機(jī)信息就能獲得更優(yōu)的性能,并提供與在大規(guī)模數(shù)據(jù)集上訓(xùn)練的模型相當(dāng)?shù)闹亟ㄙ|(zhì)量。

特別值得一提的是,盡管UniGeo僅在靜態(tài)數(shù)據(jù)上訓(xùn)練,但由于受益于視頻擴(kuò)散先驗(yàn),它能夠?qū)δ承﹦?dòng)態(tài)場(chǎng)景進(jìn)行穩(wěn)健的泛化。這意味著,即使場(chǎng)景中有移動(dòng)的物體,UniGeo也能相對(duì)準(zhǔn)確地估計(jì)幾何信息,這對(duì)于真實(shí)世界的應(yīng)用(如增強(qiáng)現(xiàn)實(shí)和自動(dòng)駕駛)非常重要。

從應(yīng)用角度看,UniGeo可以廣泛應(yīng)用于虛擬現(xiàn)實(shí)/增強(qiáng)現(xiàn)實(shí)(VR/AR)、機(jī)器人技術(shù)和自動(dòng)駕駛等領(lǐng)域。例如,在AR應(yīng)用中,它可以幫助更準(zhǔn)確地放置虛擬物體;在機(jī)器人導(dǎo)航中,它可以提供更一致的環(huán)境理解;在自動(dòng)駕駛中,它可以提高對(duì)周圍環(huán)境的感知能力。

UniGeo的局限性在于,由于存儲(chǔ)限制,它一次只能處理有限長(zhǎng)度的視頻片段。拼接多個(gè)短片段的結(jié)果時(shí)可能會(huì)導(dǎo)致累積誤差。將長(zhǎng)期記憶集成到當(dāng)前框架中仍然是一個(gè)開放的研究問(wèn)題。此外,高計(jì)算成本限制了微調(diào)到較低分辨率(512×384),有時(shí)會(huì)導(dǎo)致模糊的偽影。未來(lái)的工作應(yīng)探索高效的模型蒸餾技術(shù),以更好地捕捉幀間一致性,增強(qiáng)幾何預(yù)測(cè)和整體輸出質(zhì)量。

五、深入理解UniGeo的技術(shù)原理

為了更深入地理解UniGeo的工作原理,我們需要了解擴(kuò)散模型的基本概念。擴(kuò)散模型是一類通過(guò)迭代去噪過(guò)程對(duì)特定數(shù)據(jù)分布進(jìn)行建模的模型。在前向過(guò)程中,不同級(jí)別的高斯噪聲被逐步添加到數(shù)據(jù)點(diǎn)中,生成一個(gè)噪聲樣本序列。去噪模型的目標(biāo)是逐漸逆轉(zhuǎn)這個(gè)過(guò)程,通過(guò)預(yù)測(cè)噪聲并從有噪聲的樣本中去除它。

在UniGeo中,研究團(tuán)隊(duì)利用了視頻擴(kuò)散模型的變體——擴(kuò)散變換器(DiT)。與傳統(tǒng)的U-Net架構(gòu)相比,DiT在生成質(zhì)量和靈活性方面表現(xiàn)出色。它首先將視頻潛在表示進(jìn)行分塊處理,將它們轉(zhuǎn)換為標(biāo)記,然后將它們連接成一個(gè)長(zhǎng)序列進(jìn)行去噪。

UniGeo的創(chuàng)新之處在于,它不是將RGB條件與幾何表示在通道維度上拼接,而是將它們作為一個(gè)統(tǒng)一的序列處理。具體來(lái)說(shuō),給定RGB視頻序列和相應(yīng)的幾何序列,它首先使用預(yù)訓(xùn)練的VAE編碼器提取它們的潛在表示。然后,它將噪聲添加到目標(biāo)幾何標(biāo)記中,并將RGB標(biāo)記與帶噪聲的幾何標(biāo)記在標(biāo)記維度上連接,形成一個(gè)擴(kuò)展的標(biāo)記序列。

在DiT網(wǎng)絡(luò)的前向過(guò)程中,自注意力機(jī)制應(yīng)用于整個(gè)序列,使特征能夠在RGB和幾何屬性之間充分交換。為了獲得預(yù)測(cè)的去噪幾何結(jié)果,它只保留輸出序列的后半部分,并使用VAE解碼器將其解碼到像素空間。

更重要的是,UniGeo提出了共享位置編碼(SPE)策略,它重用RGB標(biāo)記的位置嵌入,并將它們應(yīng)用于幾何標(biāo)記。這種方法有效地強(qiáng)制空間對(duì)齊,并將幀間一致性傳遞到幾何估計(jì)中,導(dǎo)致RGB條件和預(yù)測(cè)幾何圖之間的一致性更好。與通道連接相比,這種方法不需要修改去噪網(wǎng)絡(luò)的輸入特征,提供了更靈活的微調(diào)機(jī)制。

此外,UniGeo還采用了單步確定性訓(xùn)練方法?;谧罱谖⒄{(diào)圖像擴(kuò)散模型用于幾何估計(jì)的研究,他們發(fā)現(xiàn)視頻擴(kuò)散模型也可以作為單步確定性模型進(jìn)行微調(diào)用于幾何估計(jì)。具體來(lái)說(shuō),他們不再在訓(xùn)練期間隨機(jī)采樣時(shí)間步t,而是將t固定為T。此外,他們將高斯噪聲替換為其期望值(即零),并將其與RGB潛在表示一起輸入模型。視頻擴(kuò)散模型經(jīng)過(guò)微調(diào),以MSE損失匹配GT幾何屬性的潛在表示。這種方法不僅顯著降低了計(jì)算成本,還產(chǎn)生了更準(zhǔn)確的幾何預(yù)測(cè)。

六、UniGeo的應(yīng)用與未來(lái)展望

UniGeo的出現(xiàn)為三維視覺領(lǐng)域帶來(lái)了新的可能性。傳統(tǒng)上,從單目圖像或視頻估計(jì)幾何信息的任務(wù)充滿挑戰(zhàn),尤其是在保持跨幀一致性方面。UniGeo通過(guò)充分利用預(yù)訓(xùn)練視頻擴(kuò)散模型中的先驗(yàn)知識(shí),提供了一種新的范式,能夠產(chǎn)生全局一致的幾何估計(jì)。

在實(shí)際應(yīng)用中,UniGeo可以用于多種場(chǎng)景:

在增強(qiáng)現(xiàn)實(shí)中,準(zhǔn)確的深度和法線估計(jì)對(duì)于虛擬物體與真實(shí)環(huán)境的自然融合至關(guān)重要。UniGeo提供的一致幾何估計(jì)可以顯著提高AR體驗(yàn)的質(zhì)量,使虛擬物體能夠正確地遮擋或被真實(shí)物體遮擋,同時(shí)對(duì)光線和陰影做出適當(dāng)反應(yīng)。

在機(jī)器人導(dǎo)航中,一致的三維場(chǎng)景理解對(duì)于路徑規(guī)劃和障礙物避免至關(guān)重要。UniGeo可以幫助機(jī)器人從普通RGB相機(jī)獲取的視頻中構(gòu)建連貫的環(huán)境地圖,而無(wú)需昂貴的深度傳感器。

在內(nèi)容創(chuàng)作領(lǐng)域,從視頻重建三維模型對(duì)于虛擬制作和視覺效果至關(guān)重要。UniGeo簡(jiǎn)化了這一過(guò)程,允許藝術(shù)家和內(nèi)容創(chuàng)作者從常規(guī)視頻中直接重建高質(zhì)量的三維場(chǎng)景。

對(duì)于未來(lái)的研究方向,UniGeo團(tuán)隊(duì)建議:

開發(fā)集成長(zhǎng)期記憶的機(jī)制,以處理更長(zhǎng)的視頻序列而不引入累積誤差。這可能涉及設(shè)計(jì)新的架構(gòu)或訓(xùn)練策略,使模型能夠保持長(zhǎng)期的全局一致性。

探索高效的模型蒸餾技術(shù),以捕獲幀間一致性,同時(shí)減少計(jì)算需求。這可能使UniGeo能夠處理更高分辨率的輸入,并產(chǎn)生更詳細(xì)的幾何估計(jì)。

擴(kuò)展UniGeo以更好地處理動(dòng)態(tài)場(chǎng)景,包括移動(dòng)物體和變形物體。雖然當(dāng)前模型已經(jīng)顯示出對(duì)某些動(dòng)態(tài)場(chǎng)景的泛化能力,但這一方向仍有很大的改進(jìn)空間。

將UniGeo與其他三維理解任務(wù)集成,如語(yǔ)義分割和實(shí)例分割,以提供更全面的場(chǎng)景理解。這可能涉及設(shè)計(jì)新的多任務(wù)學(xué)習(xí)框架,同時(shí)保持幾何估計(jì)的高質(zhì)量。

總之,UniGeo代表了視頻幾何估計(jì)領(lǐng)域的重要突破,通過(guò)巧妙地利用預(yù)訓(xùn)練視頻擴(kuò)散模型的內(nèi)在一致性,它實(shí)現(xiàn)了跨幀一致的幾何屬性預(yù)測(cè)。這不僅推進(jìn)了計(jì)算機(jī)視覺的基礎(chǔ)研究,還為各種實(shí)際應(yīng)用開辟了新的可能性。隨著相關(guān)技術(shù)的進(jìn)一步發(fā)展,我們可以期待在不久的將來(lái)看到更多基于UniGeo的創(chuàng)新應(yīng)用。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-