av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁 DINO-R1:博世與德州農(nóng)工大學(xué)聯(lián)手打造具備推理能力的視覺基礎(chǔ)模型

DINO-R1:博世與德州農(nóng)工大學(xué)聯(lián)手打造具備推理能力的視覺基礎(chǔ)模型

2025-06-05 10:27
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-05 10:27 ? 科技行者

近日,來自博世北美研究中心、博世人工智能中心(BCAI)和德州農(nóng)工大學(xué)的研究團(tuán)隊(duì)在arXiv上發(fā)表了一篇標(biāo)題為《DINO-R1: Incentivizing Reasoning Capability in Vision Foundation Models》的論文。這項(xiàng)研究由Chenbin Pan、Wenbin He、Zhengzhong Tu和Liu Ren共同完成,發(fā)表于2025年5月29日,論文編號為arXiv:2505.24025v1。

一、為什么我們需要具備推理能力的視覺模型?

想象一下,你正在使用一個(gè)人工智能助手解決數(shù)學(xué)問題或編寫代碼。最近,像DeepSeek-R1這樣的大型語言模型在這些需要復(fù)雜推理的任務(wù)上取得了令人矚目的成功。這些模型之所以能夠表現(xiàn)出色,很大程度上歸功于一種名為"群組相對策略優(yōu)化"(Group Relative Policy Optimization,簡稱GRPO)的強(qiáng)化學(xué)習(xí)訓(xùn)練方法。通過這種方法,模型能夠不斷生成合成數(shù)據(jù)并通過可驗(yàn)證的獎(jiǎng)勵(lì)來優(yōu)化自身的推理能力。

然而,當(dāng)我們轉(zhuǎn)向視覺世界時(shí),情況卻大不相同。目前的視覺基礎(chǔ)模型(如DINO系列)主要依賴于預(yù)定義的視覺類別的監(jiān)督訓(xùn)練或自監(jiān)督學(xué)習(xí)目標(biāo),缺乏強(qiáng)大的推理機(jī)制。這使得它們在面對新穎、模糊或高度變化的場景時(shí)表現(xiàn)不佳——而這恰恰是實(shí)際應(yīng)用中經(jīng)常遇到的情況。

特別是在"視覺提示"(visual prompting)場景中,用戶通過視覺示例(而非文本)來指定檢測目標(biāo)。這種方法在自動(dòng)標(biāo)注、工業(yè)檢測和機(jī)器人操作等領(lǐng)域有著廣泛應(yīng)用。然而,由于視覺示例之間的多樣性和類內(nèi)變化,訓(xùn)練視覺提示模型面臨著巨大挑戰(zhàn)。研究團(tuán)隊(duì)發(fā)現(xiàn),僅使用監(jiān)督微調(diào)(SFT)方法難以應(yīng)對這些挑戰(zhàn),常常表現(xiàn)出不穩(wěn)定的收斂性、對域外數(shù)據(jù)的有限泛化能力,以及查詢預(yù)測與視覺提示之間的弱對齊。

二、DINO-R1:視覺模型中的推理能力革命

面對這些挑戰(zhàn),研究團(tuán)隊(duì)提出了一種全新的訓(xùn)練范式——"群組相對查詢優(yōu)化"(Group Relative Query Optimization,簡稱GRQO)。這是第一次嘗試使用強(qiáng)化學(xué)習(xí)來激勵(lì)視覺基礎(chǔ)模型的上下文推理能力。

想象你正在教一群學(xué)生解決問題。傳統(tǒng)的教學(xué)方法可能是為每個(gè)學(xué)生提供一個(gè)標(biāo)準(zhǔn)答案,然后讓他們各自對比改進(jìn)。而GRQO采用的方法則更像是讓學(xué)生們在小組內(nèi)相互比較,根據(jù)相對表現(xiàn)來調(diào)整學(xué)習(xí)策略。這種方法不僅能讓每個(gè)學(xué)生了解自己在組內(nèi)的位置,還能通過互相借鑒快速提高整體水平。

具體來說,GRQO針對基于查詢的表示模型(如DINO系列)引入了以下創(chuàng)新:

首先,GRQO設(shè)計(jì)了一個(gè)基于群組的相對獎(jiǎng)勵(lì)模塊。在傳統(tǒng)的目標(biāo)檢測模型(如DETR系列)中,每個(gè)查詢只有在匹配到真實(shí)目標(biāo)時(shí)才能獲得監(jiān)督信號,這導(dǎo)致大部分查詢得不到有效的學(xué)習(xí)信號。而GRQO則計(jì)算每個(gè)查詢與所有可能目標(biāo)的匹配質(zhì)量,并相對于組內(nèi)平均水平賦予獎(jiǎng)勵(lì)值。這意味著即使一個(gè)查詢沒有完全匹配到目標(biāo),只要它比其他查詢做得更好,就能獲得正向?qū)W習(xí)信號。

其次,研究團(tuán)隊(duì)引入了KL散度正則化,用于穩(wěn)定訓(xùn)練過程中的"目標(biāo)性"(objectness)分布。由于視覺提示的多樣性和結(jié)構(gòu)變化,模型對圖像中哪些區(qū)域可能包含目標(biāo)的預(yù)測可能會(huì)在訓(xùn)練過程中劇烈波動(dòng)。通過正則化這種分布,模型能夠在學(xué)習(xí)新樣本的同時(shí)保持對先前獲得的知識的記憶,從而減少過擬合和分布偏移。

這種聯(lián)合優(yōu)化策略為查詢提供了更密集、更有表現(xiàn)力的監(jiān)督信號,同時(shí)提高了訓(xùn)練穩(wěn)定性和模型泛化能力。研究團(tuán)隊(duì)基于Grounding-DINO框架實(shí)現(xiàn)了這一方法,并訓(xùn)練了一系列DINO-R1家族模型,這些模型集成了視覺提示編碼器和視覺引導(dǎo)的查詢選擇機(jī)制。

三、DINO-R1的技術(shù)實(shí)現(xiàn):如何讓視覺模型具備推理能力?

要理解DINO-R1的工作原理,我們首先需要了解它的基礎(chǔ)——Grounding-DINO(簡稱G-DINO)模型。G-DINO是一種開放詞匯目標(biāo)檢測器,能夠通過語言提示來定位圖像中的物體。它通過圖像骨干網(wǎng)絡(luò)(如Swin Transformer)提取多尺度視覺特征,通過文本骨干網(wǎng)絡(luò)(如BERT)提取文本特征,然后通過跨模態(tài)特征增強(qiáng)器將它們?nèi)诤?。在檢測過程中,G-DINO使用語言引導(dǎo)的查詢選擇機(jī)制,根據(jù)跨模態(tài)相似性選擇最相關(guān)的圖像位置作為解碼器查詢的位置部分。

研究團(tuán)隊(duì)將G-DINO擴(kuò)展為支持視覺提示,并將結(jié)果模型稱為VIS-G-DINO。與依賴自由文本的G-DINO不同,VIS-G-DINO通過用戶在參考圖像上指定的邊界框進(jìn)行條件檢測,實(shí)現(xiàn)無需語言描述的開放集檢測。參考圖像可以是目標(biāo)圖像本身,也可以來自不同的上下文。

為了實(shí)現(xiàn)這一點(diǎn),團(tuán)隊(duì)設(shè)計(jì)了一個(gè)視覺提示編碼器,將輸入邊界框轉(zhuǎn)換為局部化的視覺特征。每個(gè)框首先使用正弦余弦位置編碼進(jìn)行嵌入,并投影到與transformer輸入空間匹配。這些嵌入與可學(xué)習(xí)的視覺查詢一起,通過可變形交叉注意力機(jī)制關(guān)注多尺度圖像特征。自注意力和前饋層進(jìn)一步將這些特征精煉為緊湊的視覺提示嵌入,捕獲區(qū)域級語義。

為了增強(qiáng)語義一致性,研究團(tuán)隊(duì)在視覺提示和它們對應(yīng)的文本嵌入之間應(yīng)用了區(qū)域級對比學(xué)習(xí)。這將視覺提示錨定在與預(yù)訓(xùn)練語言模型相同的語義空間中。在訓(xùn)練過程中,每個(gè)類別隨機(jī)采樣視覺提示,以提高泛化能力。研究發(fā)現(xiàn),每個(gè)類別采樣一個(gè)提示能夠在多樣性和穩(wěn)定性之間取得最佳平衡。

在圖像-提示融合和查詢選擇方面,VIS-G-DINO遵循G-DINO的架構(gòu),通過多模態(tài)特征增強(qiáng)器融合圖像特征和視覺提示。為了引導(dǎo)檢測過程,研究團(tuán)隊(duì)引入了視覺引導(dǎo)的查詢選擇機(jī)制。給定精煉后的圖像令牌和視覺提示特征,模型通過點(diǎn)積計(jì)算圖像-提示相似度矩陣。對于每個(gè)圖像令牌,在提示軸上取最大相似度作為其"目標(biāo)性"分?jǐn)?shù),表示該位置存在提示目標(biāo)的可能性。模型選擇具有最高目標(biāo)性分?jǐn)?shù)的圖像令牌作為解碼器查詢的位置嵌入。

四、群組相對查詢優(yōu)化:DINO-R1的核心創(chuàng)新

視覺提示檢測要求對象查詢能夠與共享相同語義但外觀高度多樣的視覺示例對齊。這種設(shè)置引入了比語言提示更大的類內(nèi)變異,要求模型既能記憶多樣的外觀,又能泛化到未見過的變化。受GRPO在大型語言模型社區(qū)中泛化能力的啟發(fā),研究團(tuán)隊(duì)提出了群組相對查詢優(yōu)化(GRQO)——一種通過基于群組的獎(jiǎng)勵(lì)建模和分布正則化來增強(qiáng)查詢質(zhì)量和學(xué)習(xí)穩(wěn)定性的新型訓(xùn)練范式。

GRQO的第一個(gè)關(guān)鍵組件是查詢級相對獎(jiǎng)勵(lì)。在DETR風(fēng)格的架構(gòu)中,查詢通過各層的自注意力和交叉注意力進(jìn)行交互,作為檢測能力的主要載體。然而,標(biāo)準(zhǔn)的一對一二分圖匹配提供了稀疏的監(jiān)督,只更新一小部分查詢,讓其他查詢得不到充分優(yōu)化。為了解決這個(gè)問題,研究團(tuán)隊(duì)引入了一種查詢級獎(jiǎng)勵(lì)機(jī)制,在所有查詢中密集化監(jiān)督。

具體來說,對于每個(gè)解碼器查詢預(yù)測,GRQO計(jì)算與同一圖像中的真實(shí)實(shí)例的成對匹配成本。匹配成本是分類和定位項(xiàng)的加權(quán)和。在真實(shí)實(shí)例中選擇最小總成本作為評估查詢質(zhì)量的指標(biāo)。查詢i的獎(jiǎng)勵(lì)ri被定義為這個(gè)最小成本的負(fù)值:成本越低意味著對齊越好,因此獎(jiǎng)勵(lì)越高。為了使學(xué)習(xí)信號更加穩(wěn)健并利用群組動(dòng)態(tài),GRQO在同一樣本內(nèi)的所有查詢中對獎(jiǎng)勵(lì)進(jìn)行歸一化,計(jì)算相對優(yōu)勢:

這種群組歸一化的優(yōu)勢提供了穩(wěn)定的、比較性的梯度,鼓勵(lì)所有查詢相對于動(dòng)態(tài)群組基線進(jìn)行改進(jìn)。

GRQO的第二個(gè)關(guān)鍵組件是KL散度正則化。為了進(jìn)一步穩(wěn)定高變異視覺提示下的訓(xùn)練并防止分布漂移,研究團(tuán)隊(duì)在目標(biāo)性概率分布上引入了基于KL散度的正則化項(xiàng)。在該設(shè)置中,目標(biāo)性分布捕獲了模型對圖像令牌與提示目標(biāo)相關(guān)性的置信度。由于視覺提示的多樣外觀和結(jié)構(gòu),這些目標(biāo)性預(yù)測可能在迭代過程中波動(dòng),導(dǎo)致訓(xùn)練不穩(wěn)定。為了緩解這一點(diǎn),GRQO通過KL散度項(xiàng)將當(dāng)前模型的目標(biāo)性分布與參考模型分布進(jìn)行正則化。參考模型是早期訓(xùn)練狀態(tài)的凍結(jié)副本。通過將學(xué)習(xí)動(dòng)態(tài)錨定到穩(wěn)定的先驗(yàn),KL正則化幫助模型保留可泛化知識,同時(shí)逐步吸收視覺提示的多樣性。

這種聯(lián)合優(yōu)化策略為DINO-R1提供了兩個(gè)關(guān)鍵優(yōu)勢:一方面,群組相對獎(jiǎng)勵(lì)密集化了查詢級學(xué)習(xí)信號,鼓勵(lì)查詢之間的競爭和協(xié)作;另一方面,KL正則化確保了目標(biāo)性分布的穩(wěn)定性,防止了災(zāi)難性遺忘。兩者結(jié)合起來,使DINO-R1能夠有效地從多樣的視覺提示中學(xué)習(xí),同時(shí)保持對之前所學(xué)知識的記憶。

五、實(shí)驗(yàn)結(jié)果:DINO-R1的性能表現(xiàn)

研究團(tuán)隊(duì)在多個(gè)數(shù)據(jù)集上進(jìn)行了廣泛的實(shí)驗(yàn),以評估DINO-R1的性能。實(shí)驗(yàn)設(shè)置包括兩種主要場景:一是零樣本(域外評估),在Objects365上訓(xùn)練模型并在COCO、LVIS-minival、ODinW13和ODinW35上測試;二是微調(diào)(域內(nèi)評估),在COCO訓(xùn)練集上微調(diào)模型并在COCO驗(yàn)證集上評估。

在域外檢測方面,DINO-R1展示了顯著的泛化能力。在COCO數(shù)據(jù)集上,DINO-R1-T比SFT提高了4.1個(gè)mAP點(diǎn)(從19.9提升到24.0)。在更具挑戰(zhàn)性的LVIS數(shù)據(jù)集上,DINO-R1-B在稀有類別上比SFT提高了3.4個(gè)mAP點(diǎn)(從12.5提升到15.9),展示了其對多樣和稀有類別的更強(qiáng)泛化能力。在ODinW數(shù)據(jù)集上,DINO-R1-L在13子集和35子集上分別比SFT提高了8.8和4.4個(gè)mAP點(diǎn)。這些一致的收益反映了DINO-R1不僅提高了泛化能力,還增強(qiáng)了視覺推理能力。通過使用群組相對獎(jiǎng)勵(lì)和穩(wěn)定的目標(biāo)性監(jiān)督優(yōu)化查詢,DINO-R1學(xué)會(huì)了更好地在不同場景和物體樣式之間對齊高級語義。

在域內(nèi)檢測方面,GRQO在COCO上的封閉集檢測設(shè)置中也提供了一致的收益。當(dāng)使用GRQO微調(diào)SFT預(yù)訓(xùn)練模型時(shí),DINO-R1-L達(dá)到了43.5 mAP,比繼續(xù)SFT訓(xùn)練(39.2 mAP)提高了4.3個(gè)點(diǎn)。值得注意的是,使用GRQO預(yù)訓(xùn)練模型作為起點(diǎn)會(huì)帶來更大的改進(jìn),DINO-R1比SFT基線提高了4.9個(gè)mAP點(diǎn)。這些結(jié)果表明,GRQO不僅能更好地泛化,還能提高同一域內(nèi)的訓(xùn)練效率和有效性。

研究團(tuán)隊(duì)還進(jìn)行了全面的消融研究,以評估DINO-R1各組件的貢獻(xiàn)。首先,他們評估了GRQO的兩個(gè)關(guān)鍵組件:查詢級相對獎(jiǎng)勵(lì)和KL散度正則化。結(jié)果顯示,兩個(gè)組件單獨(dú)都能提高性能,但結(jié)合起來效果更好。具體來說,獎(jiǎng)勵(lì)模塊在零樣本和微調(diào)設(shè)置中分別提供了2.9和3.6個(gè)mAP點(diǎn)的增益,而KL正則化分別貢獻(xiàn)了1.1和1.7個(gè)mAP點(diǎn)的改進(jìn)。當(dāng)兩個(gè)組件結(jié)合使用時(shí),完整的GRQO框架在兩種設(shè)置中分別比SFT基線提高了4.1和4.7個(gè)點(diǎn)。

在查詢獎(jiǎng)勵(lì)設(shè)計(jì)方面,研究團(tuán)隊(duì)測試了不同的獎(jiǎng)勵(lì)函數(shù)組合。結(jié)果表明,使用所有三個(gè)組件(分類、L1和IoU)的群組相對獎(jiǎng)勵(lì)達(dá)到了最佳性能,為23.5和36.8 mAP。值得注意的是,相對獎(jiǎng)勵(lì)比絕對獎(jiǎng)勵(lì)分別高出3.4和5.4個(gè)mAP點(diǎn),強(qiáng)調(diào)了群組歸一化在提高獎(jiǎng)勵(lì)穩(wěn)定性方面的作用。此外,層級獎(jiǎng)勵(lì)策略(其中中間解碼器層也由獎(jiǎng)勵(lì)函數(shù)監(jiān)督)進(jìn)一步提高了性能,表明早期查詢精煉階段也能從強(qiáng)化學(xué)習(xí)式優(yōu)化中受益。

在損失縮放方面,研究團(tuán)隊(duì)探索了GRQO對其兩個(gè)關(guān)鍵損失組件縮放的敏感性:查詢獎(jiǎng)勵(lì)項(xiàng)和KL散度正則化。具體來說,他們在1.0、10.0、10e2、10e3、10e4的范圍內(nèi)改變獎(jiǎng)勵(lì)損失的權(quán)重,在0.4、0.04、0.004的范圍內(nèi)改變KL正則化的權(quán)重。結(jié)果顯示,當(dāng)獎(jiǎng)勵(lì)權(quán)重設(shè)為10e3且KL權(quán)重為0.04時(shí),性能最佳。這表明中等強(qiáng)度的獎(jiǎng)勵(lì)信號鼓勵(lì)更有效的查詢區(qū)分,而過大的權(quán)重會(huì)導(dǎo)致次優(yōu)優(yōu)化。同樣,KL正則化系數(shù)0.04在穩(wěn)定性和泛化之間取得了良好平衡,幫助模型在訓(xùn)練多樣視覺提示過程中抵抗分布漂移。

研究團(tuán)隊(duì)還研究了視覺提示的多樣性和數(shù)量在訓(xùn)練和推理中的作用。他們改變了訓(xùn)練期間每個(gè)類別隨機(jī)采樣的提示數(shù)量,并進(jìn)一步評估了具有不同提示數(shù)量的模型在推理時(shí)的表現(xiàn)。結(jié)果顯示,每個(gè)類別僅使用一個(gè)隨機(jī)提示進(jìn)行訓(xùn)練顯著優(yōu)于使用更多提示的設(shè)置。研究團(tuán)隊(duì)推測,這是由于采樣提示池中增加的多樣性和更高的方差,使模型能夠泛化到更廣泛的視覺外觀。相反,在推理過程中,隨著每個(gè)類別提示數(shù)量的增加,性能提高,表明集成式提示有助于增強(qiáng)物體身份并減少開放集場景中的歧義。

定性比較也顯示了GRQO相對于SFT的顯著改進(jìn)。SFT結(jié)果表現(xiàn)出假陽性和漏檢,反映了查詢表達(dá)能力有限和與視覺提示的弱對齊。相比之下,GRQO產(chǎn)生更準(zhǔn)確和完整的檢測,更好地與提示語義對齊。這些結(jié)果強(qiáng)調(diào)了GRQO在增強(qiáng)查詢推理和高變異視覺輸入下的魯棒性方面的能力。

六、DINO-R1的意義與未來展望

DINO-R1代表了視覺基礎(chǔ)模型領(lǐng)域的重要突破,首次將強(qiáng)化學(xué)習(xí)的原理應(yīng)用于增強(qiáng)視覺模型的推理能力。這種方法不僅改進(jìn)了開放詞匯檢測的性能,還為視覺上下文學(xué)習(xí)、多模態(tài)對齊和提示驅(qū)動(dòng)的視覺推理鋪平了道路。

研究團(tuán)隊(duì)認(rèn)為,DINO-R1為密集視覺任務(wù)中的強(qiáng)化學(xué)習(xí)訓(xùn)練開辟了一個(gè)有前途的方向,并為未來的視覺上下文學(xué)習(xí)、多模態(tài)對齊和提示驅(qū)動(dòng)的視覺推理研究提供了基礎(chǔ)。在未來的工作中,他們計(jì)劃整合更具表現(xiàn)力的視覺提示編碼方法,將DINO-R1擴(kuò)展到更具挑戰(zhàn)性和多樣性的數(shù)據(jù)集,并探索它在其他開放世界設(shè)置中的應(yīng)用,如指代表達(dá)理解、檢索增強(qiáng)檢測和多樣本視覺推理。

然而,研究團(tuán)隊(duì)也承認(rèn)了當(dāng)前工作的一些局限性。DINO-R1主要關(guān)注優(yōu)化策略而非架構(gòu)增強(qiáng)。在DINO-R1中使用的視覺提示編碼器采用了相對簡單的設(shè)計(jì),以隔離和突出GRQO框架的貢獻(xiàn)。未來研究可以探索更具表現(xiàn)力和結(jié)構(gòu)化的視覺提示編碼方法。

總的來說,DINO-R1代表了視覺基礎(chǔ)模型推理能力的重要一步,展示了強(qiáng)化學(xué)習(xí)策略可以顯著改進(jìn)開放集視覺理解的能力和魯棒性。隨著這一領(lǐng)域的繼續(xù)發(fā)展,我們可以期待看到視覺模型在復(fù)雜推理任務(wù)上的進(jìn)一步突破,最終縮小視覺和語言模型之間的能力差距。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-