這項由法國Valeo公司人工智能部門聯(lián)合巴黎索邦大學(xué)CNRS實驗室以及布拉格捷克理工大學(xué)共同完成的研究,于2025年6月23日發(fā)表在arXiv預(yù)印本平臺上(論文編號:arXiv:2506.18463v1)。有興趣深入了解的讀者可以通過該論文編號在arXiv官網(wǎng)搜索訪問完整論文。
當(dāng)你第一次看到斑馬時,哪怕只見過幾張照片,下次遇到時依然能輕松認(rèn)出它來。這種"舉一反三"的能力對人類來說再自然不過,但對AI模型而言卻是個巨大挑戰(zhàn)?,F(xiàn)在,一個名為DIP的新技術(shù)正在改變這種狀況,讓AI也能像人類一樣快速學(xué)習(xí)和理解新場景。
傳統(tǒng)的AI圖像識別模型就像一個只會死記硬背的學(xué)生,需要看成千上萬張標(biāo)注好的圖片才能學(xué)會識別某個物體。而且一旦遇到訓(xùn)練時沒見過的新場景,就會表現(xiàn)得手足無措。這不僅需要海量的人工標(biāo)注數(shù)據(jù),成本高昂,而且在實際應(yīng)用中靈活性很差。
研究團(tuán)隊面臨的核心挑戰(zhàn)是:如何讓AI模型在只看到少量未標(biāo)注樣本的情況下,就能準(zhǔn)確理解和分割圖像中的不同物體?這就像要求一個從未接受過正式美術(shù)訓(xùn)練的人,僅憑觀察幾幅畫作就掌握繪畫技巧一樣困難。
為了解決這個問題,研究人員從大語言模型的成功經(jīng)驗中汲取靈感。大語言模型之所以能在各種任務(wù)中表現(xiàn)出色,關(guān)鍵在于它們具備"上下文學(xué)習(xí)"能力——能夠根據(jù)提示中的少量示例快速適應(yīng)新任務(wù),而無需重新訓(xùn)練。研究團(tuán)隊希望將這種能力移植到視覺模型上。
DIP技術(shù)的核心創(chuàng)新在于采用了一種全新的"元學(xué)習(xí)"訓(xùn)練方式。與傳統(tǒng)方法需要復(fù)雜的自我蒸餾架構(gòu)不同,DIP直接模擬真實應(yīng)用場景來訓(xùn)練模型。這就好比培訓(xùn)一名醫(yī)生,與其讓他反復(fù)背誦教科書,不如直接讓他接觸各種病例,在實踐中積累經(jīng)驗。
具體來說,研究團(tuán)隊設(shè)計了一套自動化的"偽任務(wù)"生成系統(tǒng)。這個系統(tǒng)會自動從未標(biāo)注的圖片中創(chuàng)建學(xué)習(xí)任務(wù),每個任務(wù)都包含一個待分割的"查詢圖像"和幾個"支持樣本"。支持樣本中既有與查詢圖像相似的"正例",也有完全不相關(guān)的"干擾項"。通過在這些精心設(shè)計的偽任務(wù)上訓(xùn)練,模型逐漸學(xué)會如何在復(fù)雜環(huán)境中找到正確的視覺對應(yīng)關(guān)系。
這種訓(xùn)練方式的巧妙之處在于完全無需人工標(biāo)注。研究團(tuán)隊利用預(yù)訓(xùn)練的Stable Diffusion擴(kuò)散模型來自動生成高質(zhì)量的圖像分割掩碼,然后用DINOv2R視覺編碼器來識別和標(biāo)記這些分割區(qū)域。整個過程就像讓兩個AI助手協(xié)作完成一項復(fù)雜任務(wù):一個負(fù)責(zé)"圈出"圖像中的不同區(qū)域,另一個負(fù)責(zé)"貼標(biāo)簽"說明這些區(qū)域?qū)儆谑裁搭悇e。
在訓(xùn)練過程中,模型需要學(xué)會一項關(guān)鍵技能:給定一個查詢圖像的某個部分,在支持樣本中找到最相似的對應(yīng)區(qū)域,并據(jù)此預(yù)測該部分應(yīng)該屬于什么類別。這個過程采用了注意力機(jī)制,讓模型能夠自動計算查詢區(qū)域與所有支持區(qū)域之間的相似度,然后根據(jù)相似度加權(quán)平均來產(chǎn)生最終預(yù)測。
研究團(tuán)隊在多個數(shù)據(jù)集上進(jìn)行了全面測試,結(jié)果令人印象深刻。在Pascal VOC和ADE20K等標(biāo)準(zhǔn)數(shù)據(jù)集上,DIP在少樣本場景下的表現(xiàn)顯著優(yōu)于現(xiàn)有最佳方法。特別是在極端的少樣本情況下(只使用1/128的訓(xùn)練數(shù)據(jù)),DIP在Pascal VOC上達(dá)到了70.1%的mIoU分?jǐn)?shù),相比基礎(chǔ)模型DINOv2R的60.3%提升了近10個百分點。
更令人振奮的是,DIP的訓(xùn)練效率極高。在單個A100 GPU上,整個后訓(xùn)練過程僅需不到9小時即可完成,這相比傳統(tǒng)從零開始訓(xùn)練的方法節(jié)省了大量計算資源。而且DIP不僅限于語義分割任務(wù),在單目深度估計等其他密集預(yù)測任務(wù)上也表現(xiàn)出良好的泛化能力。
為了驗證方法的通用性,研究團(tuán)隊還將DIP應(yīng)用于其他預(yù)訓(xùn)練模型,包括CLIP和MAE。結(jié)果顯示,DIP能夠顯著提升這些模型的密集表示能力。特別值得一提的是,對于原本不適合上下文分割任務(wù)的MAE模型,DIP將其在Pascal VOC上的表現(xiàn)從13.9%提升到了47.3%,實現(xiàn)了翻天覆地的改變。
從技術(shù)實現(xiàn)角度來看,DIP相比現(xiàn)有方法具有顯著優(yōu)勢。傳統(tǒng)的自監(jiān)督方法往往需要復(fù)雜的架構(gòu)設(shè)計,包括可微分排序、RoI對齊單元、Sinkhorn-Knopp優(yōu)化等組件,不僅實現(xiàn)復(fù)雜,而且超參數(shù)敏感。而DIP采用的方法相對簡潔,主要由一個預(yù)訓(xùn)練的視覺編碼器和一個簡單的多層感知機(jī)組成,大大降低了實現(xiàn)難度和調(diào)優(yōu)成本。
在跨域泛化能力測試中,DIP也表現(xiàn)出色。研究人員使用Cityscapes數(shù)據(jù)集作為支持集,在具有挑戰(zhàn)性天氣條件的ACDC數(shù)據(jù)集上進(jìn)行測試。盡管ACDC包含雪天、夜晚、霧天等復(fù)雜場景,DIP依然能夠保持良好的分割性能,證明了其在面對域偏移時的魯棒性。
研究團(tuán)隊還進(jìn)行了詳細(xì)的消融實驗來驗證各個組件的重要性。實驗發(fā)現(xiàn),使用最近鄰策略構(gòu)建正例樣本比簡單的隨機(jī)裁剪效果更好,這說明DIP能夠有效利用圖像間的語義相似性。同時,包含干擾樣本對于模型學(xué)習(xí)判別性特征至關(guān)重要,移除干擾樣本會導(dǎo)致性能顯著下降。
定性分析結(jié)果更加直觀地展示了DIP的優(yōu)勢。通過可視化查詢圖像片段與參考圖像之間的相關(guān)性圖,可以清楚看到DIP產(chǎn)生的相關(guān)性更加連貫,能夠準(zhǔn)確捕捉整個物體級別的對應(yīng)關(guān)系,而傳統(tǒng)方法往往只能建立局部的、片段化的對應(yīng)關(guān)系。這種改進(jìn)直接轉(zhuǎn)化為更準(zhǔn)確的鄰域檢索和更好的分割結(jié)果。
從應(yīng)用前景來看,DIP技術(shù)具有廣泛的潛在用途。在自動駕駛領(lǐng)域,它可以幫助車輛更好地理解復(fù)雜的道路場景,即使遇到訓(xùn)練時未見過的新環(huán)境也能準(zhǔn)確識別。在醫(yī)療影像分析中,DIP可以協(xié)助醫(yī)生快速準(zhǔn)確地分割病灶區(qū)域,提高診斷效率。在機(jī)器人視覺領(lǐng)域,這項技術(shù)能讓機(jī)器人更好地理解和操作周圍環(huán)境中的物體。
當(dāng)然,DIP技術(shù)也存在一些局限性。首先,它仍然依賴于預(yù)訓(xùn)練的基礎(chǔ)模型質(zhì)量,如果基礎(chǔ)模型本身存在偏見或局限,可能會傳遞到最終結(jié)果中。其次,雖然訓(xùn)練過程被標(biāo)稱為無監(jiān)督,但實際上仍然間接利用了預(yù)訓(xùn)練模型中包含的監(jiān)督信息。此外,在處理極其復(fù)雜或模糊的場景時,自動生成的偽標(biāo)簽質(zhì)量可能會影響最終性能。
盡管如此,DIP代表了視覺AI領(lǐng)域的一個重要進(jìn)步方向。它證明了通過巧妙的訓(xùn)練策略設(shè)計,可以在不增加數(shù)據(jù)標(biāo)注成本的情況下顯著提升模型的少樣本學(xué)習(xí)能力。這種思路為未來開發(fā)更加智能、靈活的視覺系統(tǒng)提供了新的可能性。
研究團(tuán)隊表示,他們計劃繼續(xù)優(yōu)化DIP技術(shù),探索將其應(yīng)用于更多視覺任務(wù)的可能性。同時,他們也在研究如何進(jìn)一步減少對預(yù)訓(xùn)練模型的依賴,朝著真正的無監(jiān)督學(xué)習(xí)目標(biāo)邁進(jìn)。隨著這項技術(shù)的不斷完善和普及,我們有理由期待AI視覺系統(tǒng)在理解和適應(yīng)真實世界方面取得更大突破。
說到底,DIP技術(shù)讓我們看到了AI向人類學(xué)習(xí)方式靠攏的可能性。就像人類能夠通過觀察少量樣本快速掌握新概念一樣,配備了DIP技術(shù)的AI模型也開始具備這種"舉一反三"的能力。這不僅僅是技術(shù)上的進(jìn)步,更代表著我們對智能本質(zhì)理解的深化。當(dāng)AI能夠像人類一樣靈活學(xué)習(xí)和適應(yīng)時,它們就能更好地融入我們的日常生活,成為真正智能的助手和伙伴。
Q&A
Q1:DIP技術(shù)是什么?它的核心創(chuàng)新在哪里? A:DIP是一種新的AI視覺模型訓(xùn)練技術(shù),核心創(chuàng)新在于采用"元學(xué)習(xí)"方式,讓AI通過模擬真實應(yīng)用場景來學(xué)習(xí),而不是傳統(tǒng)的死記硬背方式。就像培訓(xùn)醫(yī)生時讓他直接接觸病例而非背教科書,這樣訓(xùn)練出的模型能夠在只看到少量樣本時就快速理解新場景。
Q2:DIP會不會取代現(xiàn)有的圖像識別技術(shù)? A:DIP更像是對現(xiàn)有技術(shù)的重要升級而非完全替代。它主要解決現(xiàn)有技術(shù)在少樣本學(xué)習(xí)方面的不足,讓AI模型變得更加靈活和高效。目前它仍需要基于預(yù)訓(xùn)練模型工作,但顯著降低了對大量標(biāo)注數(shù)據(jù)的依賴,這對實際應(yīng)用很有價值。
Q3:普通人什么時候能用上DIP技術(shù)?有什么實際用途? A:雖然DIP目前還處于研究階段,但其背后的技術(shù)很快會集成到各種應(yīng)用中。未來可能出現(xiàn)在手機(jī)相機(jī)的智能分割功能、自動駕駛汽車的環(huán)境理解系統(tǒng),以及醫(yī)療影像輔助診斷工具中。對普通人來說,最直接的體驗可能是更智能的照片編輯和更準(zhǔn)確的圖像搜索功能。
好文章,需要你的鼓勵
新加坡國立大學(xué)研究團(tuán)隊開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實驗顯示,僅訓(xùn)練AI玩簡單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實現(xiàn)37.9%的精度提升,并在真實設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊通過對比實驗發(fā)現(xiàn),經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時刻"現(xiàn)象,但這些自我糾錯行為并不能實際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗證差距",即生成答案的能力強(qiáng)于驗證答案質(zhì)量的能力,且模型在自我驗證時無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動態(tài)稀疏性實現(xiàn)大語言模型訓(xùn)練加速1.6倍,計算成本降低2.2倍。該方法使用SVD稀疏性估計器智能選擇重要計算部分,在保持模型性能的同時顯著提升訓(xùn)練效率,已在多個任務(wù)上驗證有效性。