av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 推理引導(dǎo)+強化學習:清華&阿里巴巴推出UniVG-R1,讓AI讀懂復(fù)雜視覺指令的全新突破

推理引導(dǎo)+強化學習:清華&阿里巴巴推出UniVG-R1,讓AI讀懂復(fù)雜視覺指令的全新突破

2025-05-27 13:28
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-27 13:28 ? 科技行者

在我們使用智能助手時,你是否曾經(jīng)希望它能準確理解"找出第二張圖片中能處理第一張圖片中物品的家具"這樣的復(fù)雜指令?或者"找出能保護人安全著陸的東西"?這類需要跨圖片理解和推理的任務(wù)對AI來說一直是個大挑戰(zhàn)。2025年5月,來自清華大學深圳國際研究生院和阿里巴巴AMAP團隊的研究者們在arXiv上發(fā)表了一篇題為"UniVG-R1: Reasoning Guided Universal Visual Grounding with Reinforcement Learning"的論文,提出了一種全新的解決方案。

為什么我們需要更智能的視覺定位技術(shù)?

想象一下,你正在和朋友一起看照片,朋友說:"看看第一張照片中那個戴眼鏡的男孩,在第二張照片中找找他在哪里。"這對我們?nèi)祟悂碚f很簡單,但對AI而言卻是個巨大挑戰(zhàn)。傳統(tǒng)的視覺定位(Visual Grounding)技術(shù)主要處理單張圖片中的簡單指令,如"找出藍色的襯衫",但在現(xiàn)實應(yīng)用中,我們常常需要AI理解跨越多張圖片的復(fù)雜隱含指令。

清華和阿里巴巴的研究團隊將這種更實用、更復(fù)雜的任務(wù)稱為"通用視覺定位"(Universal Visual Grounding)。它不僅要求AI能夠在圖像中定位物體,還要能夠理解復(fù)雜的語言指令,甚至進行跨圖像的推理。

UniVG-R1:融合推理與強化學習的突破性方案

研究團隊提出的UniVG-R1模型就像是給AI裝上了一個特殊的"思考大腦"。這個模型基于多模態(tài)大語言模型(MLLM),但關(guān)鍵在于它通過兩個創(chuàng)新手段大幅增強了模型的推理能力:

首先,研究團隊構(gòu)建了一個高質(zhì)量的"思維鏈"(Chain-of-Thought,簡稱CoT)數(shù)據(jù)集。這就像是給AI提供了詳細的推理路徑指南,告訴它"應(yīng)該怎么一步步思考"。具體來說,他們收集了90,000個樣本,每個樣本都包含詳細的推理過程,指導(dǎo)模型如何從問題到答案一步步推理。

其次,他們采用了一種名為"強化學習"(Reinforcement Learning)的技術(shù)。這就像是給AI設(shè)置了一個獎懲機制——當AI找到正確的推理路徑時給予獎勵,引導(dǎo)它逐漸學會更好的推理方式。研究者們特別使用了一種稱為"基于規(guī)則的強化學習"(rule-based reinforcement learning)的方法,結(jié)合"冷啟動數(shù)據(jù)"(cold-start data)來增強模型的推理能力。

模型訓練:兩階段策略讓AI學會"像人一樣思考"

UniVG-R1的訓練過程分為兩個階段,就像是先教會孩子基本知識,再教他如何活學活用。

在第一階段,研究團隊使用構(gòu)建的CoT數(shù)據(jù)集進行監(jiān)督微調(diào)(Supervised Fine-tuning)。這些數(shù)據(jù)包含詳細的推理鏈,就像是給AI提供了"解題思路",引導(dǎo)它學習如何正確推理。這個階段主要是讓模型學會基本的推理路徑。

在第二階段,研究者們采用了群組相對策略優(yōu)化(Group Relative Policy Optimization,簡稱GRPO)算法進行強化學習。這個階段就像是讓AI"自己練習"——模型會生成多個可能的推理路徑,然后通過一個基于IoU(交并比)的驗證獎勵函數(shù)來評估哪些路徑更好,從而不斷調(diào)整自己的推理策略。

困難感知權(quán)重調(diào)整:讓AI更關(guān)注難題

研究團隊還發(fā)現(xiàn)了GRPO算法中存在一個"困難偏差"問題:隨著訓練的進行,容易的樣本比例會增加,而困難樣本的比例會減少。這就像是學習中只關(guān)注簡單題目而忽略了難題,導(dǎo)致學習效率下降。

為了解決這個問題,研究者們提出了一種"困難感知權(quán)重調(diào)整"(difficulty-aware weight adjustment)策略。這個策略會根據(jù)樣本的困難程度動態(tài)調(diào)整權(quán)重,給予更難的樣本更大的權(quán)重,就像是督促學生多花時間在難題上。具體來說,他們嘗試了幾種不同的函數(shù)來量化樣本的困難程度,最終發(fā)現(xiàn)使用exp(1-mIoU)函數(shù)效果最佳。

實驗結(jié)果:性能大幅超越現(xiàn)有技術(shù)

UniVG-R1在多項基準測試中都取得了出色的表現(xiàn)。在MIG-Bench基準測試上,UniVG-R1比之前最先進的Migician模型平均提高了9.1%的性能。而且UniVG-R1在10個子任務(wù)上都取得了最佳結(jié)果,這包括靜態(tài)差異檢測、相似性識別、共同物體識別等多種任務(wù)類型。

更令人印象深刻的是,UniVG-R1展現(xiàn)了強大的泛化能力。在四個圖像和視頻推理定位基準測試上的零樣本性能平均提高了23.4%。具體來說: - 在LISA-Grounding上提高了27.8% - 在LLMSeg-Grounding上提高了15.9% - 在ReVOS-Grounding上提高了20.3% - 在ReasonVOS上提高了25.3%

這些結(jié)果表明,UniVG-R1不僅在特定任務(wù)上表現(xiàn)出色,還能很好地遷移到未見過的新任務(wù)上,展現(xiàn)了真正的"通用"能力。

模型規(guī)模與效率:小樣本也能有大提升

值得一提的是,UniVG-R1在訓練數(shù)據(jù)效率方面也有顯著優(yōu)勢。Migician模型使用了約120萬個樣本進行訓練,而UniVG-R1僅使用了10萬個樣本(約為Migician的8.3%),卻取得了更好的性能。這表明推理引導(dǎo)和強化學習的結(jié)合可以大幅提高模型的學習效率。

研究團隊還在不同規(guī)模的模型上進行了實驗。他們發(fā)現(xiàn)即使在較小的Qwen2-VL-2B模型上,強化學習也能帶來顯著的性能提升。這表明該方法對不同規(guī)模的模型都有效,具有廣泛的適用性。

實際應(yīng)用:讓AI真正理解我們的意圖

UniVG-R1的出現(xiàn)為人機交互開辟了新的可能性。想象一下,當你對智能助手說:"看看第一張照片中那個有創(chuàng)意的女孩,第二張照片中哪個物品最能反映她在第一張照片中展示的特點?"UniVG-R1能夠分析女孩手上和臉上的顏料,推斷出她具有創(chuàng)造性特點,然后在第二張圖片中找到最相關(guān)的物品——墻上的繪畫,因為這與女孩的創(chuàng)造性特征最相符。

這種能力可以應(yīng)用于多種場景: - 智能購物助手:根據(jù)用戶提供的多張參考圖片推薦合適的商品 - 智能搜索引擎:理解復(fù)雜的多圖像查詢意圖 - 智能安防系統(tǒng):根據(jù)復(fù)雜指令在多個攝像頭畫面中定位目標 - 自動駕駛:理解復(fù)雜的道路場景和指令

未來展望:走向更通用的人工智能

UniVG-R1的研究成果表明,結(jié)合推理引導(dǎo)和強化學習是增強AI復(fù)雜理解能力的有效途徑。這為構(gòu)建更通用、更智能的AI系統(tǒng)提供了新的方向。

未來的研究可能會探索如何將這種推理能力擴展到更多領(lǐng)域,如視頻理解、3D場景理解等。同時,進一步優(yōu)化強化學習算法,減少訓練資源需求,也是一個重要的研究方向。

這項研究讓我們離真正理解人類復(fù)雜意圖的AI又近了一步。正如研究團隊所展示的,當我們讓AI學會"像人類一樣思考"時,它就能更好地理解和滿足我們的需求。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-