av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 深度無限融合:浙江大學(xué)和香港大學(xué)聯(lián)合打造的「Prior Depth Anything」,讓你的相機看得更深更遠(yuǎn)

深度無限融合:浙江大學(xué)和香港大學(xué)聯(lián)合打造的「Prior Depth Anything」,讓你的相機看得更深更遠(yuǎn)

2025-05-16 17:04
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-16 17:04 ? Hugging Face

浙江大學(xué)和香港大學(xué)的研究團隊最近聯(lián)合發(fā)布了一項突破性研究——"Prior Depth Anything"(深度無限融合)。這項研究由浙江大學(xué)的王澤寒、陳思宇、王佳蕾、張子昂、趙周和香港大學(xué)的楊理賀、趙恒爽共同完成,并于2025年5月發(fā)表在arXiv預(yù)印本平臺(arXiv:2505.10565v1),研究者還提供了項目網(wǎng)站 https://prior-depth-anything.github.io/ 供讀者進一步了解。

想象一下,當(dāng)你用手機拍照時,相機能不僅看到物體的色彩和形狀,還能精確測量它們的距離和深度。這就是深度測量技術(shù)的魅力所在。在計算機視覺和機器人技術(shù)中,獲取高質(zhì)量的深度信息至關(guān)重要,它能幫助自動駕駛汽車避開障礙物,讓AR/VR設(shè)備更好地理解空間,甚至幫助機器人精確地抓取物體。

但是,目前獲取深度信息的方法面臨兩難困境,就像一個有趣的"魚和熊掌不可兼得"的故事:

一方面,我們有各種深度測量設(shè)備(如激光雷達(dá)或?qū)I(yè)深度相機),它們能提供精確的測量結(jié)果,但測量數(shù)據(jù)往往不完整,就像拿到了一張殘缺不全的地圖,有些區(qū)域非常精確,但大部分區(qū)域是空白的。

另一方面,人工智能深度預(yù)測模型(如Depth Anything)可以從普通照片預(yù)測完整的深度圖,就像一位藝術(shù)家能夠憑想象力畫出完整的風(fēng)景,但缺乏絕對精確的測量數(shù)據(jù),好比畫得再美也無法告訴你確切的距離。

"Prior Depth Anything"的核心創(chuàng)新就是巧妙地將這兩種互補的信息源融合在一起,就像將科學(xué)家的精確測量與藝術(shù)家的全景想象相結(jié)合。這樣,我們就能得到既完整又精確的深度地圖,就像擁有了一張既全面又精確的地形圖,讓計算機和機器人能更好地"看懂"世界。

這項研究的難點在于,現(xiàn)實生活中的深度測量數(shù)據(jù)可能以多種形式出現(xiàn),比如激光雷達(dá)的稀疏點云、低分辨率的深度圖、帶有大面積缺失的深度圖,甚至這些情況混合在一起。以往的方法通常只針對其中一種情況設(shè)計,缺乏通用性。而"Prior Depth Anything"能處理任何類型的深度先驗,就像一把能開各種鎖的萬能鑰匙,使其在實際應(yīng)用中更加靈活實用。

讓我們一起深入了解這項研究的細(xì)節(jié),看看研究團隊是如何解決這個棘手問題的。

一、研究背景:為什么我們需要更好的深度估計技術(shù)?

想象你正在玩一個虛擬現(xiàn)實游戲,你在虛擬世界中移動,但系統(tǒng)無法精確知道周圍物體的距離,結(jié)果導(dǎo)致你"穿墻而過"或無法抓取物品?;蛘呦胂笠惠v自動駕駛汽車,如果它無法準(zhǔn)確判斷前方行人的距離,后果可能是災(zāi)難性的。這些都是深度估計技術(shù)不完善帶來的問題。

在我們的物理世界中,深度信息無處不在,它告訴我們物體相對于我們的遠(yuǎn)近。人類通過雙眼和大腦的協(xié)作能輕松感知深度,但對計算機來說,從單一圖像中獲取深度信息卻是一項挑戰(zhàn)。目前,獲取深度信息主要有兩種方式:

第一種是通過專門的設(shè)備進行深度測量。比如結(jié)構(gòu)光相機(如iPhone的Face ID系統(tǒng))、ToF(飛行時間)相機或激光雷達(dá),它們發(fā)射光線并測量返回時間來計算距離。還有SfM(Structure from Motion,從運動恢復(fù)結(jié)構(gòu))技術(shù),它通過分析多張照片中物體的位置變化來估計深度。這些方法提供的是精確的測量結(jié)果,但往往是不完整的,就像醫(yī)生手里有精確的血壓計,但只能測量身體的某個部位。

另一種是通過人工智能模型從單張RGB圖像預(yù)測深度,這類被稱為單目深度估計(Monocular Depth Estimation,簡稱MDE)的方法近年來取得了長足進步。特別是像"Depth Anything"這樣的模型,它們能為任何圖像生成完整的深度圖,包含豐富的幾何結(jié)構(gòu)和細(xì)節(jié)。但這種預(yù)測方法提供的是相對深度,而非絕對的測量值,就像藝術(shù)家畫出的透視圖——雖然能給人深度感,但無法告訴你確切的距離。

研究者們注意到,這兩種方法是互補的:一方提供精確但不完整的測量值,另一方提供完整但相對的深度預(yù)測。如果能將它們結(jié)合起來,就能獲得"魚和熊掌兼得"的效果——既精確又完整的深度圖。

這正是"Prior Depth Anything"試圖解決的問題。它將各種形式的深度測量數(shù)據(jù)(稱為"先驗")與深度預(yù)測模型結(jié)合,生成高質(zhì)量的完整深度地圖。研究者將深度先驗歸納為四種主要類型:

1. 稀疏點(深度補全):例如來自激光雷達(dá)或SfM的深度點云,這些點非常精確但極為稀疏,需要進行深度補全。

2. 低分辨率(深度超分辨率):例如低功耗ToF相機捕獲的低分辨率深度圖,需要進行超分辨率處理。

3. 缺失區(qū)域(深度修復(fù)):例如立體匹配失敗或3D高斯編輯留下的空洞區(qū)域,需要進行深度修復(fù)。

4. 混合先驗:現(xiàn)實中,上述情況經(jīng)?;旌铣霈F(xiàn),如結(jié)構(gòu)光相機可能同時產(chǎn)生低分辨率和不完整的深度圖。

相比現(xiàn)有方法(如只專注于深度補全的Marigold-DC、只針對深度超分辨率的PromptDA或只關(guān)注深度修復(fù)的DepthLab),"Prior Depth Anything"設(shè)計了一個通用框架,能處理任何類型的深度先驗,大大提高了其實用性。

二、技術(shù)原理:從粗到細(xì)的深度融合魔法

"Prior Depth Anything"采用了一種由粗到細(xì)的漸進式融合策略,就像一位熟練的藝術(shù)修復(fù)師先勾勒出畫作的大致輪廓,再逐步添加細(xì)節(jié),最終恢復(fù)出完整精美的作品。這個過程分為兩個主要階段:粗略度量對齊和精細(xì)結(jié)構(gòu)優(yōu)化。

粗略度量對齊:搭建深度地圖的骨架

想象你手里有一張殘缺的地圖(深度先驗)和一張完整但比例不準(zhǔn)確的地圖(深度預(yù)測)。粗略度量對齊就是通過對比兩張地圖的重疊部分,找出正確的比例關(guān)系,然后用這個比例關(guān)系來填補殘缺地圖的空白區(qū)域。

具體來說,研究團隊首先使用一個凍結(jié)的MDE模型(如Depth Anything V2)從輸入圖像生成相對深度預(yù)測。然后,他們采用像素級度量對齊方法,將深度預(yù)測與深度先驗融合。

對于每個缺失的像素點,他們找出k個最近的有效點(k-近鄰法),計算出最佳的縮放和偏移參數(shù),使得這些有效點的預(yù)測深度值與實際測量值之間的誤差最小化。然后,使用計算得到的參數(shù)將預(yù)測深度值映射到度量空間,填補缺失區(qū)域。

但這種簡單的方法存在兩個問題:一是相鄰像素可能選擇不同的支持點,導(dǎo)致深度值突變;二是支持點的權(quán)重相同,忽略了幾何相關(guān)性。為解決這些問題,研究者引入了距離感知加權(quán)機制,根據(jù)支持點到查詢點的距離進行加權(quán),讓更近的點具有更大的影響力。

通過這種顯式結(jié)合深度預(yù)測中的幾何結(jié)構(gòu)和深度先驗中的度量信息,研究團隊生成了填充完整的粗略深度圖。這一步不僅縮小了不同先驗類型之間的域差距,提高了在不同場景下的泛化能力,還保留了深度預(yù)測中的精細(xì)幾何結(jié)構(gòu),顯著提升了先驗信息有限時的性能。

精細(xì)結(jié)構(gòu)優(yōu)化:雕琢深度細(xì)節(jié)

盡管粗略對齊后的深度圖已經(jīng)相當(dāng)準(zhǔn)確,但由于深度先驗中的固有噪聲,仍可能存在誤差。想象一個建筑師根據(jù)粗略的草圖建造房屋,他需要進一步精細(xì)調(diào)整以確保每一個細(xì)節(jié)都符合要求。

為了解決這個問題,研究團隊設(shè)計了一個條件化的MDE模型來優(yōu)化粗略深度圖。這個模型將原始RGB圖像、填充的深度先驗和深度預(yù)測作為輸入,通過學(xué)習(xí)從RGB圖像中捕獲的精確幾何結(jié)構(gòu)來糾正深度先驗中的噪聲和錯誤。

具體來說,他們在MDE模型中添加了兩個條件卷積層,分別用于處理度量條件(填充的深度先驗)和幾何條件(深度預(yù)測)。為了提高場景和模型的泛化能力,他們將度量條件和幾何條件都?xì)w一化到[0,1]范圍內(nèi)。這種歸一化消除了不同場景(如室內(nèi)vs室外)之間的深度尺度差異,并使模型能夠適應(yīng)來自不同凍結(jié)MDE模型的預(yù)測。

在訓(xùn)練過程中,研究團隊使用了合成數(shù)據(jù)集Hypersim和vKITTI,因為這些數(shù)據(jù)集提供了精確的地面真值深度圖。他們隨機采樣稀疏點、創(chuàng)建方形缺失區(qū)域或應(yīng)用下采樣來構(gòu)建不同的合成先驗。為了模擬真實世界的測量噪聲,他們還添加了離群點和邊界噪聲來擾動采樣的先驗。

通過這種粗到細(xì)的融合策略,"Prior Depth Anything"能有效融合深度測量的精確度量信息和深度預(yù)測的完整幾何結(jié)構(gòu),生成既精確又詳細(xì)的度量深度圖。

三、實驗驗證:多種深度場景的全能選手

為了驗證"Prior Depth Anything"的性能,研究團隊在7個未見過的真實世界數(shù)據(jù)集上進行了廣泛測試,包括室內(nèi)場景(NYUv2和ScanNet)、室內(nèi)/室外場景(ETH3D和DIODE)、室外場景(KITTI)以及提供捕獲的低分辨率深度圖的ARKitScenes和RGB-D-D。他們構(gòu)建了9種不同的先驗?zāi)J剑合∈椟c(SfM、LiDAR、極端稀疏)、低分辨率(捕獲、×8、×16)和缺失區(qū)域(范圍、形狀、對象),并將這些模式混合以模擬更復(fù)雜的場景。

在混合深度先驗的實驗中,"Prior Depth Anything"展現(xiàn)出了卓越的性能。與之前的方法相比,它不僅在絕對性能上表現(xiàn)更好,更重要的是,當(dāng)添加額外的先驗?zāi)J綍r,性能下降很小。例如,與只使用稀疏點的設(shè)置相比,添加缺失區(qū)域或低分辨率后,性能僅略有下降(NYUv2上從1.96%增加到2.01%和3.08%)。相比之下,Omni-DC(從2.63%增加到2.86%和3.81%)和Marigold-DC(從2.13%增加到2.26%和3.82%)顯示出更大的性能下降。這凸顯了該方法對不同先驗輸入的魯棒性。

在深度補全任務(wù)中,盡管Omni-DC和Marigold-DC是專為深度補全設(shè)計的,并依賴于復(fù)雜的、耗時的結(jié)構(gòu),但"Prior Depth Anything"憑借更簡單、更高效的設(shè)計實現(xiàn)了更好的整體性能。

在深度超分辨率任務(wù)中,對于通過下采樣創(chuàng)建的低分辨率地圖,該方法達(dá)到了與最先進方法相當(dāng)?shù)男阅堋6诟叽硇院蛯嵱眯缘腁RKitScenes和RGB-D-D基準(zhǔn)測試上,該方法取得了領(lǐng)先的性能。

在深度修復(fù)任務(wù)中,特別是在實用且具有挑戰(zhàn)性的"范圍"設(shè)置中,該方法取得了優(yōu)異的結(jié)果,這對于改善具有有限有效工作范圍的深度傳感器具有重要意義。此外,它在填充方形和對象掩碼方面優(yōu)于所有替代方案,展示了其在3D內(nèi)容生成和編輯中的潛力。

定性分析顯示,相比于之前的方法,"Prior Depth Anything"生成的深度圖具有更豐富的細(xì)節(jié)、更清晰的邊界和更準(zhǔn)確的度量。研究者還觀察到,該方法的錯誤主要出現(xiàn)在真實數(shù)據(jù)"地面真值"的模糊邊緣處。實際上,該方法能夠有效糾正標(biāo)簽中的噪聲,同時與先驗中的度量信息保持一致,這些"超越地面真值"的案例突顯了該方法解決深度測量技術(shù)固有噪聲的潛力。

四、進一步探索:靈活的測試時改進與實際應(yīng)用

"Prior Depth Anything"的一個重要特性是其測試時改進能力。研究表明,使用更大、更強大的凍結(jié)MDE模型會持續(xù)帶來更高的準(zhǔn)確性,而較小的模型則保持競爭力并提高整個pipeline的效率。這一發(fā)現(xiàn)凸顯了該模型的靈活性和適應(yīng)不同場景的能力。

在推理效率分析中,與之前的方法相比,"Prior Depth Anything"的不同變體在參數(shù)數(shù)量和推理延遲方面表現(xiàn)出一定優(yōu)勢。粗略度量對齊階段,依賴于k-NN和最小二乘法,占據(jù)了大部分推理延遲。但與復(fù)雜的Omni-DC和基于擴散的DepthLab和Marigold-DC相比,它仍然展示出顯著的效率優(yōu)勢。

為了展示該模型的實際應(yīng)用潛力,研究團隊將基于先驗的單目深度估計模型應(yīng)用于優(yōu)化VGGT(一種最先進的3D重建基礎(chǔ)模型)的深度預(yù)測。他們?nèi)≈眯哦茸罡叩?0%像素作為深度先驗,應(yīng)用不同的基于先驗的模型獲得更精細(xì)的深度預(yù)測。結(jié)果表明,只有"Prior Depth Anything"能一致地改善VGGT的預(yù)測,主要歸功于其適應(yīng)各種先驗的能力。這些令人驚訝的結(jié)果突顯了"PriorDA"廣泛的應(yīng)用潛力。

五、局限與未來方向:邁向更強大的深度感知

盡管"Prior Depth Anything"取得了顯著成就,但研究團隊也指出了一些限制和未來工作方向。目前,他們最大的條件MDE模型是基于Depth Anything v2 ViT-B初始化的??紤]到Depth Anything v2的更大版本展示出更強的能力,基于更大骨干網(wǎng)絡(luò)訓(xùn)練條件MDE模型是未來工作的重要方向。

此外,遵循Depth Anything的做法,所有訓(xùn)練圖像都被調(diào)整到518×518的尺寸。相比之下,PromptDA是原生在1440×1920分辨率上訓(xùn)練的。因此,在更高分辨率上訓(xùn)練以更好地處理容易獲取的高分辨率RGB圖像是另一個關(guān)鍵研究方向。

總的來說,"Prior Depth Anything"為基于先驗的單目深度估計開辟了新的道路,展示了粗到細(xì)漸進式融合策略的有效性。通過巧妙結(jié)合測量深度的精確度量信息和預(yù)測深度的完整幾何結(jié)構(gòu),該方法能生成準(zhǔn)確、密集且詳細(xì)的度量深度圖,為計算機視覺和機器人應(yīng)用提供了強大工具。未來,隨著更大模型的采用和更高分辨率的訓(xùn)練,我們可以期待這一技術(shù)進一步改進,為各種實際應(yīng)用場景提供更精確的深度信息。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-