這項(xiàng)由南開大學(xué)計(jì)算機(jī)科學(xué)學(xué)院視覺(jué)計(jì)算與圖像處理實(shí)驗(yàn)室(VCIP)的孫博遠(yuǎn)、金默弟、尹博文和侯啟斌教授團(tuán)隊(duì)開展的研究,發(fā)表于2025年7月的arXiv預(yù)印本平臺(tái),感興趣的讀者可以通過(guò)論文編號(hào)arXiv:2507.01634v1訪問(wèn)完整論文,項(xiàng)目主頁(yè)為https://ghost233lism.github.io/depthanything-AC-page,代碼已在GitHub開源:https://github.com/HVision-NKU/DepthAnythingAC。
我們每天都在使用眼睛判斷物體的遠(yuǎn)近距離,這種能力看似簡(jiǎn)單,實(shí)際上是一個(gè)復(fù)雜的視覺(jué)處理過(guò)程。當(dāng)駕駛汽車時(shí),我們需要準(zhǔn)確判斷前方車輛的距離;當(dāng)機(jī)器人在家中移動(dòng)時(shí),它也需要"看懂"周圍物體的空間關(guān)系。近年來(lái),人工智能在這方面取得了令人矚目的進(jìn)展,誕生了許多能夠從單張照片就準(zhǔn)確判斷距離的AI模型,比如著名的DepthAnything系列和DepthPro等。
然而,這些看似強(qiáng)大的AI系統(tǒng)都有一個(gè)共同的軟肋:一旦遇到惡劣天氣或復(fù)雜光照條件,它們的表現(xiàn)就會(huì)大打折扣。就像人類在霧霾天氣中難以看清遠(yuǎn)方一樣,現(xiàn)有的距離估算AI在面對(duì)雨雪、大霧、強(qiáng)光或黑暗環(huán)境時(shí),往往會(huì)產(chǎn)生嚴(yán)重的誤判。這個(gè)問(wèn)題在自動(dòng)駕駛、機(jī)器人導(dǎo)航等對(duì)安全性要求極高的應(yīng)用場(chǎng)景中尤為致命。
南開大學(xué)的研究團(tuán)隊(duì)深刻認(rèn)識(shí)到了這個(gè)問(wèn)題的嚴(yán)重性。他們發(fā)現(xiàn),現(xiàn)有的AI模型之所以在復(fù)雜環(huán)境中表現(xiàn)不佳,主要是因?yàn)橛?xùn)練數(shù)據(jù)幾乎都來(lái)自正常的光照和天氣條件。當(dāng)AI遇到從未見(jiàn)過(guò)的復(fù)雜場(chǎng)景時(shí),就像一個(gè)只在晴天學(xué)過(guò)開車的新手司機(jī)突然遇到暴雨,自然會(huì)手足無(wú)措。
更嚴(yán)重的是,獲取惡劣天氣條件下的高質(zhì)量訓(xùn)練數(shù)據(jù)極其困難。研究人員不可能等待各種極端天氣條件的出現(xiàn)來(lái)收集數(shù)據(jù),而現(xiàn)有模型在處理這些"臟亂差"的圖像時(shí)表現(xiàn)糟糕,無(wú)法提供可靠的訓(xùn)練標(biāo)簽。這就形成了一個(gè)惡性循環(huán):沒(méi)有好數(shù)據(jù)就訓(xùn)練不出好模型,沒(méi)有好模型就無(wú)法處理復(fù)雜場(chǎng)景。
面對(duì)這個(gè)挑戰(zhàn),南開大學(xué)團(tuán)隊(duì)提出了一個(gè)巧妙的解決方案,他們開發(fā)了名為DepthAnything-AC(Depth Anything at Any Condition)的新型AI模型。這個(gè)模型的核心思想是"在正常條件下學(xué)習(xí),在惡劣條件下驗(yàn)證"。
研究團(tuán)隊(duì)的第一個(gè)創(chuàng)新是設(shè)計(jì)了一套"擾動(dòng)一致性訓(xùn)練框架"。這個(gè)框架的工作原理很像訓(xùn)練一個(gè)優(yōu)秀的歌手:首先讓歌手在標(biāo)準(zhǔn)錄音棚環(huán)境中學(xué)會(huì)一首歌,然后在各種嘈雜環(huán)境中反復(fù)練習(xí),直到無(wú)論在什么條件下都能唱出同樣動(dòng)聽的旋律。具體來(lái)說(shuō),他們會(huì)對(duì)同一張正常圖片進(jìn)行多種"人工破壞",比如調(diào)暗亮度模擬夜晚、添加模糊效果模擬雨霧、增加對(duì)比度變化等,然后要求AI對(duì)原圖和"破壞版"給出一致的距離判斷結(jié)果。
這種訓(xùn)練方法的妙處在于,它不需要收集真實(shí)的惡劣天氣數(shù)據(jù),而是通過(guò)計(jì)算機(jī)模擬的方式創(chuàng)造各種復(fù)雜條件。研究團(tuán)隊(duì)精心設(shè)計(jì)了四大類擾動(dòng)方式:光照變化(模擬從白天到黑夜的各種光線條件)、天氣變化(模擬霧霾、雨雪等天氣現(xiàn)象)、模糊效果(模擬運(yùn)動(dòng)模糊和焦點(diǎn)模糊)以及對(duì)比度調(diào)整(模擬不同的拍攝設(shè)備和環(huán)境)。
第二個(gè)重要?jiǎng)?chuàng)新是"空間距離約束"機(jī)制。研究團(tuán)隊(duì)發(fā)現(xiàn),現(xiàn)有的AI模型往往只關(guān)注每個(gè)像素點(diǎn)的深度值,而忽略了不同區(qū)域之間的空間關(guān)系。這就像一個(gè)人雖然能告訴你每個(gè)物體的距離,但卻搞不清楚它們的相對(duì)位置關(guān)系。為了解決這個(gè)問(wèn)題,研究團(tuán)隊(duì)引入了一個(gè)新的約束機(jī)制,要求AI不僅要準(zhǔn)確判斷每個(gè)點(diǎn)的距離,還要理解不同區(qū)域之間的幾何關(guān)系。
這個(gè)機(jī)制的工作原理類似于教授地理學(xué):不僅要記住每個(gè)城市的位置,更要理解城市之間的相對(duì)距離和方位關(guān)系。通過(guò)這種方式,AI能夠更好地理解圖像的整體空間結(jié)構(gòu),即使在某些區(qū)域因?yàn)閻毫訔l件而模糊不清時(shí),也能通過(guò)周圍區(qū)域的信息推斷出合理的距離值。
在訓(xùn)練過(guò)程中,研究團(tuán)隊(duì)采用了一種"師生結(jié)合"的策略。他們保持原始的DepthAnything V2模型作為"老師",專門處理正常條件下的圖像,同時(shí)訓(xùn)練一個(gè)新的"學(xué)生"模型來(lái)處理各種復(fù)雜條件。學(xué)生模型需要在處理正常圖像時(shí)向老師學(xué)習(xí),在處理擾動(dòng)圖像時(shí)保持與原圖的一致性,在理解空間關(guān)系時(shí)遵循幾何約束。這種多重監(jiān)督機(jī)制確保了模型既能保持在正常條件下的優(yōu)秀表現(xiàn),又能在復(fù)雜條件下保持穩(wěn)定。
一、訓(xùn)練數(shù)據(jù)的精心選擇與高效利用
南開大學(xué)團(tuán)隊(duì)在數(shù)據(jù)使用方面展現(xiàn)了驚人的效率。與前代DepthAnything系列模型動(dòng)輒使用6300萬(wàn)張圖片的"大胃王"式訓(xùn)練不同,DepthAnything-AC僅使用了54萬(wàn)張無(wú)標(biāo)簽圖片就達(dá)到了優(yōu)異的效果,數(shù)據(jù)使用量還不到前代模型的1%。這種高效性堪比用一小杯水就能煮出一鍋好粥的神奇技巧。
研究團(tuán)隊(duì)從九個(gè)不同的數(shù)據(jù)集中精心挑選了這54萬(wàn)張圖片,涵蓋了室內(nèi)外各種場(chǎng)景。這些數(shù)據(jù)集包括ADE20k(主要用于場(chǎng)景理解)、MegaDepth(大規(guī)模戶外場(chǎng)景)、DIML(室內(nèi)外混合場(chǎng)景)、VKITTI2(虛擬駕駛場(chǎng)景)、HRWSI(高分辨率場(chǎng)景)、SA-1B(大規(guī)模分割數(shù)據(jù)集)、COCO(通用目標(biāo)檢測(cè)數(shù)據(jù)集)、Pascal VOC 2012(經(jīng)典視覺(jué)數(shù)據(jù)集)以及AODRaw(復(fù)雜光照條件數(shù)據(jù)集)。
值得注意的是,除了AODRaw數(shù)據(jù)集包含一些復(fù)雜自然條件的圖像外,其他數(shù)據(jù)集的圖片基本都是在正常光照和天氣條件下拍攝的。這進(jìn)一步證明了他們的訓(xùn)練策略的有效性:通過(guò)人工模擬各種復(fù)雜條件,而不是依賴真實(shí)的惡劣天氣數(shù)據(jù)。
訓(xùn)練過(guò)程采用了標(biāo)準(zhǔn)的深度學(xué)習(xí)配置:使用ViT-S作為主干網(wǎng)絡(luò),DPT作為解碼器,AdamW優(yōu)化器,初始學(xué)習(xí)率為5×10^-6,權(quán)重衰減為0.01,輸入圖像尺寸為518×518像素,批次大小為16。整個(gè)訓(xùn)練過(guò)程在4塊NVIDIA RTX 3090 GPU上進(jìn)行了20個(gè)周期。
二、四大類擾動(dòng)策略的精密設(shè)計(jì)
DepthAnything-AC的核心創(chuàng)新之一是精心設(shè)計(jì)的擾動(dòng)策略,這些策略能夠模擬現(xiàn)實(shí)世界中各種可能遇到的復(fù)雜視覺(jué)條件。
光照擾動(dòng)是最基礎(chǔ)也是最重要的一類。研究團(tuán)隊(duì)通過(guò)非線性方式降低圖像亮度,讓較亮的區(qū)域降低得更多,較暗的區(qū)域保持相對(duì)穩(wěn)定,從而模擬真實(shí)的低光環(huán)境。同時(shí),他們還添加了泊松噪聲來(lái)模擬低光條件下光子計(jì)數(shù)不足的問(wèn)題,以及高斯噪聲來(lái)模擬相機(jī)傳感器在低光條件下的讀取噪聲。這種多層次的光照模擬確保了AI能夠適應(yīng)從黃昏到深夜的各種光照條件。
模糊效果的模擬同樣細(xì)致入微。運(yùn)動(dòng)模糊通過(guò)隨機(jī)選擇一個(gè)方向角度(在-45°到45°之間),然后根據(jù)模糊嚴(yán)重程度設(shè)置核半徑和高斯參數(shù),構(gòu)建方向性的模糊核來(lái)實(shí)現(xiàn)。這模擬了相機(jī)或物體運(yùn)動(dòng)時(shí)產(chǎn)生的拖影效果。變焦模糊則通過(guò)生成具有遞增縮放因子的多個(gè)圖層,然后進(jìn)行等權(quán)重平均來(lái)合成,模擬了相機(jī)變焦過(guò)程中的模糊現(xiàn)象。
天氣條件的模擬更是展現(xiàn)了研究團(tuán)隊(duì)的創(chuàng)意。霧霾效果使用Diamond-Square算法生成二維自相似噪聲場(chǎng),通過(guò)嚴(yán)重程度參數(shù)控制霧的密度和紋理,較高的嚴(yán)重程度對(duì)應(yīng)更高的噪聲幅度和更少的細(xì)節(jié)保留。雪花效果則通過(guò)生成具有特定參數(shù)的高斯隨機(jī)場(chǎng)作為雪的分布,然后調(diào)整雪花大小和密度,最后添加方向性運(yùn)動(dòng)模糊(角度在-135°到-45°之間)來(lái)模擬飄落的雪花。
對(duì)比度調(diào)整使用中心縮放變換,系數(shù)范圍為0.05到0.4,模擬不同相機(jī)設(shè)備和環(huán)境條件下的成像差異。
在實(shí)際訓(xùn)練中,光照擾動(dòng)會(huì)應(yīng)用到所有圖像上,而模糊、天氣和對(duì)比度擾動(dòng)則以一定概率隨機(jī)應(yīng)用。經(jīng)過(guò)大量實(shí)驗(yàn),研究團(tuán)隊(duì)發(fā)現(xiàn)當(dāng)模糊增強(qiáng)的概率設(shè)置為0.1,天氣增強(qiáng)的概率設(shè)置為0.2時(shí),模型能夠達(dá)到最佳性能。
三、空間距離約束的幾何智慧
DepthAnything-AC的另一個(gè)重要?jiǎng)?chuàng)新是引入了空間距離約束機(jī)制,這個(gè)機(jī)制的設(shè)計(jì)體現(xiàn)了對(duì)圖像空間幾何關(guān)系的深刻理解。
傳統(tǒng)的深度估計(jì)模型主要關(guān)注每個(gè)像素點(diǎn)的深度值預(yù)測(cè),這種方法雖然直觀,但忽略了圖像中不同區(qū)域之間的空間幾何關(guān)系。就像一個(gè)人能夠記住地圖上每個(gè)地點(diǎn)的海拔高度,但卻不理解這些地點(diǎn)之間的相對(duì)位置關(guān)系一樣,這種局部?jī)?yōu)化的方法在面對(duì)復(fù)雜條件時(shí)容易出現(xiàn)不一致的預(yù)測(cè)結(jié)果。
研究團(tuán)隊(duì)提出的空間距離關(guān)系(SDR)包含兩個(gè)核心組成部分:位置關(guān)系和深度關(guān)系。對(duì)于一張分為H×W個(gè)小塊的圖像,位置關(guān)系通過(guò)計(jì)算每對(duì)小塊之間的歐幾里得距離來(lái)表示,形成一個(gè)H×W乘以H×W的位置關(guān)系矩陣。這個(gè)矩陣經(jīng)過(guò)最小-最大歸一化處理,確保數(shù)值范圍的一致性。
深度關(guān)系則通過(guò)計(jì)算預(yù)測(cè)深度值之間的絕對(duì)差值來(lái)定義。當(dāng)AI模型對(duì)圖像進(jìn)行深度預(yù)測(cè)后,每個(gè)小塊都會(huì)得到一個(gè)深度值,深度關(guān)系就是這些深度值之間的差異。
最終的空間距離關(guān)系是位置關(guān)系和深度關(guān)系的幾何組合,具體計(jì)算為二者的平方和再開平方根。這種計(jì)算方式的物理意義非常直觀:它表示的是三維空間中任意兩個(gè)小塊之間的真實(shí)幾何距離。
空間距離關(guān)系的每一行都反映了特定小塊與圖像中所有其他小塊的幾何鄰近程度,天然地編碼了豐富的語(yǔ)義信息。研究團(tuán)隊(duì)通過(guò)可視化分析發(fā)現(xiàn),構(gòu)建的空間關(guān)系與圖像中物體的語(yǔ)義結(jié)構(gòu)高度相關(guān),具有清晰的邊界定義。這使得模型能夠以無(wú)需訓(xùn)練的方式利用語(yǔ)義先驗(yàn)信息。
基于這種空間距離關(guān)系,研究團(tuán)隊(duì)設(shè)計(jì)了相應(yīng)的損失函數(shù),鼓勵(lì)模型在處理擾動(dòng)圖像時(shí)保持與原始圖像相同的空間距離關(guān)系。這種約束機(jī)制不僅增強(qiáng)了物體邊界定位的準(zhǔn)確性,還減少了紋理丟失導(dǎo)致的預(yù)測(cè)歧義性。
四、損失函數(shù)的精妙設(shè)計(jì)
DepthAnything-AC的訓(xùn)練過(guò)程使用了三個(gè)相互配合的損失函數(shù),每個(gè)都承擔(dān)著特定的作用,就像交響樂(lè)團(tuán)中不同樂(lè)器的和諧配合。
一致性損失是整個(gè)框架的核心,它確保模型對(duì)正常圖像和擾動(dòng)圖像產(chǎn)生一致的預(yù)測(cè)結(jié)果。這個(gè)損失函數(shù)采用了仿射不變的設(shè)計(jì),借鑒了DepthAnything的經(jīng)驗(yàn)。具體計(jì)算方式是先對(duì)預(yù)測(cè)結(jié)果和目標(biāo)結(jié)果進(jìn)行尺度和偏移的標(biāo)準(zhǔn)化,然后計(jì)算標(biāo)準(zhǔn)化后結(jié)果之間的平均絕對(duì)誤差。這種設(shè)計(jì)確保了模型關(guān)注的是相對(duì)深度關(guān)系而非絕對(duì)深度值,符合單目深度估計(jì)的本質(zhì)特征。
知識(shí)蒸餾損失發(fā)揮著"保守派"的作用,防止模型在追求魯棒性的過(guò)程中丟失在正常場(chǎng)景下的優(yōu)秀表現(xiàn)。通過(guò)保持原始DepthAnything V2模型的凍結(jié)狀態(tài)作為教師,新訓(xùn)練的學(xué)生模型需要在處理正常圖像時(shí)盡可能模仿教師的行為。這種設(shè)計(jì)巧妙地解決了一個(gè)經(jīng)典的機(jī)器學(xué)習(xí)難題:如何在提升特定能力的同時(shí)避免對(duì)原有能力的損害。
空間距離約束損失則承擔(dān)著"幾何學(xué)家"的角色,確保模型理解和保持圖像的空間幾何結(jié)構(gòu)。這個(gè)損失函數(shù)計(jì)算擾動(dòng)圖像的空間距離關(guān)系與原始圖像空間距離關(guān)系之間的均方誤差,鼓勵(lì)模型在處理復(fù)雜條件時(shí)保持對(duì)空間結(jié)構(gòu)的正確理解。
三個(gè)損失函數(shù)的權(quán)重設(shè)置經(jīng)過(guò)了細(xì)致的實(shí)驗(yàn)調(diào)優(yōu),最終確定為均等權(quán)重(各占1/3)。研究團(tuán)隊(duì)發(fā)現(xiàn)這種均衡的權(quán)重分配能夠讓三個(gè)目標(biāo)函數(shù)和諧配合,既保證了魯棒性的提升,又維持了原有的性能水平,還增強(qiáng)了幾何理解能力。
五、全面而嚴(yán)格的實(shí)驗(yàn)驗(yàn)證
南開大學(xué)團(tuán)隊(duì)對(duì)DepthAnything-AC進(jìn)行了極為全面的實(shí)驗(yàn)評(píng)估,涵蓋了多個(gè)不同類型的測(cè)試場(chǎng)景,確保模型的可靠性和實(shí)用性。
在增強(qiáng)版多條件DA-2K基準(zhǔn)測(cè)試中,DepthAnything-AC展現(xiàn)出了顯著的優(yōu)勢(shì)。DA-2K原本是DepthAnything V2提出的高分辨率深度估計(jì)數(shù)據(jù)集,通過(guò)判斷兩個(gè)給定點(diǎn)哪個(gè)離相機(jī)更近來(lái)評(píng)估模型能力。研究團(tuán)隊(duì)在此基礎(chǔ)上添加了四種擾動(dòng)(暗光、霧、雪、模糊),創(chuàng)建了增強(qiáng)版基準(zhǔn)。實(shí)驗(yàn)結(jié)果顯示,DepthAnything-AC在所有條件下都達(dá)到了最佳性能,準(zhǔn)確率分別為:正常條件95.3%、暗光條件92.3%、霧天條件92.9%、雪天條件89.2%、模糊條件88.0%。
真實(shí)復(fù)雜環(huán)境的測(cè)試更能說(shuō)明模型的實(shí)際應(yīng)用價(jià)值。研究團(tuán)隊(duì)選擇了五個(gè)具有挑戰(zhàn)性的真實(shí)世界數(shù)據(jù)集:NuScenes-night(500張夜間自動(dòng)駕駛圖像)、RobotCar-night(186張夜間機(jī)器人導(dǎo)航圖像)、DrivingStereo的雨天、霧天、云天子集(每個(gè)500張圖像)。在這些真實(shí)場(chǎng)景中,DepthAnything-AC在多數(shù)指標(biāo)上都優(yōu)于其他方法。特別是在RobotCar-night數(shù)據(jù)集上,相比DepthAnything V2,δ1指標(biāo)提升了0.037,這在深度估計(jì)領(lǐng)域是一個(gè)相當(dāng)顯著的改進(jìn)。
合成復(fù)雜環(huán)境基準(zhǔn)KITTI-C的測(cè)試結(jié)果進(jìn)一步驗(yàn)證了模型的魯棒性。KITTI-C通過(guò)在經(jīng)典KITTI數(shù)據(jù)集上添加合成擾動(dòng)來(lái)模擬各種挑戰(zhàn)性場(chǎng)景。在四個(gè)子集(暗光、雪天、運(yùn)動(dòng)模糊、高斯噪聲)的測(cè)試中,DepthAnything-AC都表現(xiàn)出了一致的改進(jìn),證明了其設(shè)計(jì)策略的有效性。
最重要的是,研究團(tuán)隊(duì)還驗(yàn)證了模型在通用場(chǎng)景下的性能保持能力。在KITTI、NYU-D、Sintel、ETH3D、DIODE等五個(gè)標(biāo)準(zhǔn)深度估計(jì)基準(zhǔn)上的測(cè)試顯示,DepthAnything-AC的性能與原始DepthAnything V2基本相當(dāng),證明了在提升魯棒性的同時(shí)沒(méi)有損害原有的通用能力。
六、深入的消融實(shí)驗(yàn)分析
研究團(tuán)隊(duì)進(jìn)行了詳盡的消融實(shí)驗(yàn)來(lái)驗(yàn)證每個(gè)設(shè)計(jì)組件的有效性,這些實(shí)驗(yàn)就像解剖一臺(tái)精密機(jī)器,逐個(gè)檢驗(yàn)每個(gè)零件的作用。
組件有效性分析顯示,每個(gè)設(shè)計(jì)元素都對(duì)最終性能有正面貢獻(xiàn)。在沒(méi)有擾動(dòng)的情況下,僅使用一致性正則化和知識(shí)蒸餾就能在DA-2K暗光基準(zhǔn)上達(dá)到91.1%的準(zhǔn)確率。添加擾動(dòng)后,性能提升到91.4%。進(jìn)一步加入空間距離約束后,最終達(dá)到92.3%的最佳性能。
不同訓(xùn)練策略的對(duì)比實(shí)驗(yàn)揭示了一致性正則化相比傳統(tǒng)知識(shí)蒸餾的優(yōu)勢(shì)。研究團(tuán)隊(duì)發(fā)現(xiàn),純知識(shí)蒸餾方法在某些復(fù)雜場(chǎng)景下的表現(xiàn)不如基于一致性的方法,這表明學(xué)生模型的非擾動(dòng)分支具有足夠的泛化能力,能夠提供比凍結(jié)教師模型更高質(zhì)量的監(jiān)督信號(hào)。
不同仿射不變損失函數(shù)的比較實(shí)驗(yàn)表明,DepthAnything-AC使用的損失函數(shù)設(shè)計(jì)是最適合當(dāng)前任務(wù)的。與MiDaS和原始DepthAnything的損失函數(shù)相比,新設(shè)計(jì)的損失函數(shù)在復(fù)雜條件下表現(xiàn)更佳。
編碼器凍結(jié)策略的重要性通過(guò)對(duì)比實(shí)驗(yàn)得到了驗(yàn)證。當(dāng)編碼器參數(shù)參與訓(xùn)練時(shí),模型在多個(gè)基準(zhǔn)上的性能都出現(xiàn)了下降,這說(shuō)明保持預(yù)訓(xùn)練特征表示的穩(wěn)定性對(duì)于維持模型的泛化能力至關(guān)重要。
擾動(dòng)類型和概率的精細(xì)調(diào)節(jié)實(shí)驗(yàn)顯示,每種擾動(dòng)類型都對(duì)整體性能有積極貢獻(xiàn),而且不同擾動(dòng)概率的組合會(huì)顯著影響最終效果。經(jīng)過(guò)系統(tǒng)性實(shí)驗(yàn),研究團(tuán)隊(duì)確定了最優(yōu)的擾動(dòng)配置方案。
七、視覺(jué)效果與特征分析的深入洞察
通過(guò)詳細(xì)的視覺(jué)分析,研究團(tuán)隊(duì)揭示了DepthAnything-AC相比現(xiàn)有方法的顯著優(yōu)勢(shì),這些分析就像醫(yī)生通過(guò)X光片診斷病情一樣直觀有力。
在特征表示的可視化分析中,研究團(tuán)隊(duì)發(fā)現(xiàn)擾動(dòng)會(huì)顯著降低原始模型的特征質(zhì)量,這可能解釋了現(xiàn)有基礎(chǔ)深度估計(jì)模型在復(fù)雜場(chǎng)景下感知語(yǔ)義邊界和精細(xì)細(xì)節(jié)能力不足的原因。而DepthAnything-AC通過(guò)一致性框架和空間距離約束,能夠有效地從擾動(dòng)輸入中恢復(fù)出高質(zhì)量的特征表示。
深度預(yù)測(cè)結(jié)果的對(duì)比顯示,DepthAnything-AC在物體邊界的清晰度、細(xì)節(jié)的保留程度以及整體一致性方面都明顯優(yōu)于其他方法。特別是在處理復(fù)雜光照條件(如強(qiáng)逆光、夜間場(chǎng)景)和惡劣天氣條件(如霧霾、雨雪)時(shí),DepthAnything-AC能夠產(chǎn)生更加穩(wěn)定和準(zhǔn)確的深度估計(jì)結(jié)果。
空間距離關(guān)系的可視化分析進(jìn)一步證實(shí)了這種設(shè)計(jì)的有效性。通過(guò)觀察不同查詢位置對(duì)應(yīng)的空間距離圖,可以清楚地看到構(gòu)建的空間關(guān)系與圖像中物體的語(yǔ)義結(jié)構(gòu)高度相關(guān),呈現(xiàn)出清晰的邊界定義。這種內(nèi)在的語(yǔ)義感知能力是DepthAnything-AC能夠在復(fù)雜條件下保持優(yōu)秀性能的關(guān)鍵因素。
說(shuō)到底,南開大學(xué)團(tuán)隊(duì)的這項(xiàng)研究解決了一個(gè)看似簡(jiǎn)單卻極其重要的問(wèn)題:如何讓AI在任何條件下都能準(zhǔn)確判斷距離。通過(guò)巧妙的擾動(dòng)一致性訓(xùn)練和空間距離約束設(shè)計(jì),他們成功地讓AI模型具備了在惡劣天氣和復(fù)雜光照條件下穩(wěn)定工作的能力,同時(shí)保持了在正常條件下的優(yōu)秀表現(xiàn)。
這項(xiàng)研究的意義遠(yuǎn)不止于技術(shù)層面的突破。在自動(dòng)駕駛汽車需要在雨雪天氣中安全行駛的今天,在機(jī)器人需要在各種光照條件下完成任務(wù)的未來(lái),DepthAnything-AC提供的技術(shù)能力將直接關(guān)系到人們的生活安全和便利。更重要的是,這種"以不變應(yīng)萬(wàn)變"的設(shè)計(jì)思路為解決其他AI魯棒性問(wèn)題提供了有價(jià)值的啟發(fā)。
研究團(tuán)隊(duì)的工作還展現(xiàn)了一種令人鼓舞的趨勢(shì):通過(guò)更聰明的方法而非更多的數(shù)據(jù)來(lái)解決復(fù)雜問(wèn)題。在數(shù)據(jù)收集成本日益高昂的今天,這種高效的訓(xùn)練策略具有重要的實(shí)踐價(jià)值。當(dāng)我們回過(guò)頭來(lái)審視這項(xiàng)研究時(shí),會(huì)發(fā)現(xiàn)它不僅僅是一個(gè)技術(shù)改進(jìn),更是對(duì)AI系統(tǒng)在真實(shí)世界中可靠性問(wèn)題的深刻思考和有效回應(yīng)。
Q&A
Q1:DepthAnything-AC是什么?它與普通的距離判斷AI有什么不同? A:DepthAnything-AC是南開大學(xué)開發(fā)的新型距離估算AI模型,它的特別之處在于能在惡劣天氣(如雨雪、霧霾)和復(fù)雜光照條件(如夜晚、強(qiáng)光)下準(zhǔn)確判斷物體距離。而普通的距離判斷AI只能在正常天氣和光照條件下工作良好,一旦環(huán)境變復(fù)雜就容易出錯(cuò)。
Q2:這個(gè)技術(shù)會(huì)不會(huì)很快應(yīng)用到自動(dòng)駕駛汽車中? A:很有可能。目前自動(dòng)駕駛汽車在惡劣天氣中的表現(xiàn)一直是個(gè)難題,DepthAnything-AC正好解決了這個(gè)痛點(diǎn)。不過(guò)從研究成果到實(shí)際應(yīng)用還需要更多的測(cè)試和優(yōu)化,預(yù)計(jì)在未來(lái)幾年內(nèi)可能會(huì)看到相關(guān)技術(shù)的商業(yè)化應(yīng)用。
Q3:普通人能使用這個(gè)技術(shù)嗎?有什么實(shí)際用處? A:目前這還是一個(gè)研究項(xiàng)目,普通人無(wú)法直接使用。但未來(lái)這種技術(shù)可能會(huì)集成到手機(jī)攝像頭、家用機(jī)器人、無(wú)人機(jī)等設(shè)備中,幫助它們?cè)诟鞣N條件下更準(zhǔn)確地判斷距離,提升拍照效果、導(dǎo)航精度和安全性能。
好文章,需要你的鼓勵(lì)
新加坡國(guó)立大學(xué)研究團(tuán)隊(duì)開發(fā)了SPIRAL框架,通過(guò)讓AI與自己對(duì)弈零和游戲來(lái)提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡(jiǎn)單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無(wú)需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開發(fā)的GIGA-ToF技術(shù)通過(guò)融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問(wèn)題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺(jué)解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過(guò)對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺(jué)語(yǔ)言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無(wú)法有效利用視覺(jué)信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過(guò)動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語(yǔ)言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。