在我們使用智能助手時,你是否曾經(jīng)希望它能準確理解"找出第二張圖片中能處理第一張圖片中物品的家具"這樣的復(fù)雜指令?或者"找出能保護人安全著陸的東西"?這類需要跨圖片理解和推理的任務(wù)對AI來說一直是個大挑戰(zhàn)。2025年5月,來自清華大學深圳國際研究生院和阿里巴巴AMAP團隊的研究者們在arXiv上發(fā)表了一篇題為"UniVG-R1: Reasoning Guided Universal Visual Grounding with Reinforcement Learning"的論文,提出了一種全新的解決方案。
為什么我們需要更智能的視覺定位技術(shù)?
想象一下,你正在和朋友一起看照片,朋友說:"看看第一張照片中那個戴眼鏡的男孩,在第二張照片中找找他在哪里。"這對我們?nèi)祟悂碚f很簡單,但對AI而言卻是個巨大挑戰(zhàn)。傳統(tǒng)的視覺定位(Visual Grounding)技術(shù)主要處理單張圖片中的簡單指令,如"找出藍色的襯衫",但在現(xiàn)實應(yīng)用中,我們常常需要AI理解跨越多張圖片的復(fù)雜隱含指令。
清華和阿里巴巴的研究團隊將這種更實用、更復(fù)雜的任務(wù)稱為"通用視覺定位"(Universal Visual Grounding)。它不僅要求AI能夠在圖像中定位物體,還要能夠理解復(fù)雜的語言指令,甚至進行跨圖像的推理。
UniVG-R1:融合推理與強化學習的突破性方案
研究團隊提出的UniVG-R1模型就像是給AI裝上了一個特殊的"思考大腦"。這個模型基于多模態(tài)大語言模型(MLLM),但關(guān)鍵在于它通過兩個創(chuàng)新手段大幅增強了模型的推理能力:
首先,研究團隊構(gòu)建了一個高質(zhì)量的"思維鏈"(Chain-of-Thought,簡稱CoT)數(shù)據(jù)集。這就像是給AI提供了詳細的推理路徑指南,告訴它"應(yīng)該怎么一步步思考"。具體來說,他們收集了90,000個樣本,每個樣本都包含詳細的推理過程,指導(dǎo)模型如何從問題到答案一步步推理。
其次,他們采用了一種名為"強化學習"(Reinforcement Learning)的技術(shù)。這就像是給AI設(shè)置了一個獎懲機制——當AI找到正確的推理路徑時給予獎勵,引導(dǎo)它逐漸學會更好的推理方式。研究者們特別使用了一種稱為"基于規(guī)則的強化學習"(rule-based reinforcement learning)的方法,結(jié)合"冷啟動數(shù)據(jù)"(cold-start data)來增強模型的推理能力。
模型訓練:兩階段策略讓AI學會"像人一樣思考"
UniVG-R1的訓練過程分為兩個階段,就像是先教會孩子基本知識,再教他如何活學活用。
在第一階段,研究團隊使用構(gòu)建的CoT數(shù)據(jù)集進行監(jiān)督微調(diào)(Supervised Fine-tuning)。這些數(shù)據(jù)包含詳細的推理鏈,就像是給AI提供了"解題思路",引導(dǎo)它學習如何正確推理。這個階段主要是讓模型學會基本的推理路徑。
在第二階段,研究者們采用了群組相對策略優(yōu)化(Group Relative Policy Optimization,簡稱GRPO)算法進行強化學習。這個階段就像是讓AI"自己練習"——模型會生成多個可能的推理路徑,然后通過一個基于IoU(交并比)的驗證獎勵函數(shù)來評估哪些路徑更好,從而不斷調(diào)整自己的推理策略。
困難感知權(quán)重調(diào)整:讓AI更關(guān)注難題
研究團隊還發(fā)現(xiàn)了GRPO算法中存在一個"困難偏差"問題:隨著訓練的進行,容易的樣本比例會增加,而困難樣本的比例會減少。這就像是學習中只關(guān)注簡單題目而忽略了難題,導(dǎo)致學習效率下降。
為了解決這個問題,研究者們提出了一種"困難感知權(quán)重調(diào)整"(difficulty-aware weight adjustment)策略。這個策略會根據(jù)樣本的困難程度動態(tài)調(diào)整權(quán)重,給予更難的樣本更大的權(quán)重,就像是督促學生多花時間在難題上。具體來說,他們嘗試了幾種不同的函數(shù)來量化樣本的困難程度,最終發(fā)現(xiàn)使用exp(1-mIoU)函數(shù)效果最佳。
實驗結(jié)果:性能大幅超越現(xiàn)有技術(shù)
UniVG-R1在多項基準測試中都取得了出色的表現(xiàn)。在MIG-Bench基準測試上,UniVG-R1比之前最先進的Migician模型平均提高了9.1%的性能。而且UniVG-R1在10個子任務(wù)上都取得了最佳結(jié)果,這包括靜態(tài)差異檢測、相似性識別、共同物體識別等多種任務(wù)類型。
更令人印象深刻的是,UniVG-R1展現(xiàn)了強大的泛化能力。在四個圖像和視頻推理定位基準測試上的零樣本性能平均提高了23.4%。具體來說: - 在LISA-Grounding上提高了27.8% - 在LLMSeg-Grounding上提高了15.9% - 在ReVOS-Grounding上提高了20.3% - 在ReasonVOS上提高了25.3%
這些結(jié)果表明,UniVG-R1不僅在特定任務(wù)上表現(xiàn)出色,還能很好地遷移到未見過的新任務(wù)上,展現(xiàn)了真正的"通用"能力。
模型規(guī)模與效率:小樣本也能有大提升
值得一提的是,UniVG-R1在訓練數(shù)據(jù)效率方面也有顯著優(yōu)勢。Migician模型使用了約120萬個樣本進行訓練,而UniVG-R1僅使用了10萬個樣本(約為Migician的8.3%),卻取得了更好的性能。這表明推理引導(dǎo)和強化學習的結(jié)合可以大幅提高模型的學習效率。
研究團隊還在不同規(guī)模的模型上進行了實驗。他們發(fā)現(xiàn)即使在較小的Qwen2-VL-2B模型上,強化學習也能帶來顯著的性能提升。這表明該方法對不同規(guī)模的模型都有效,具有廣泛的適用性。
實際應(yīng)用:讓AI真正理解我們的意圖
UniVG-R1的出現(xiàn)為人機交互開辟了新的可能性。想象一下,當你對智能助手說:"看看第一張照片中那個有創(chuàng)意的女孩,第二張照片中哪個物品最能反映她在第一張照片中展示的特點?"UniVG-R1能夠分析女孩手上和臉上的顏料,推斷出她具有創(chuàng)造性特點,然后在第二張圖片中找到最相關(guān)的物品——墻上的繪畫,因為這與女孩的創(chuàng)造性特征最相符。
這種能力可以應(yīng)用于多種場景: - 智能購物助手:根據(jù)用戶提供的多張參考圖片推薦合適的商品 - 智能搜索引擎:理解復(fù)雜的多圖像查詢意圖 - 智能安防系統(tǒng):根據(jù)復(fù)雜指令在多個攝像頭畫面中定位目標 - 自動駕駛:理解復(fù)雜的道路場景和指令
未來展望:走向更通用的人工智能
UniVG-R1的研究成果表明,結(jié)合推理引導(dǎo)和強化學習是增強AI復(fù)雜理解能力的有效途徑。這為構(gòu)建更通用、更智能的AI系統(tǒng)提供了新的方向。
未來的研究可能會探索如何將這種推理能力擴展到更多領(lǐng)域,如視頻理解、3D場景理解等。同時,進一步優(yōu)化強化學習算法,減少訓練資源需求,也是一個重要的研究方向。
這項研究讓我們離真正理解人類復(fù)雜意圖的AI又近了一步。正如研究團隊所展示的,當我們讓AI學會"像人類一樣思考"時,它就能更好地理解和滿足我們的需求。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機制和漸進式訓練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學習外觀和運動信息,顯著解決了當前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓練數(shù)據(jù)集和MM-AlignBench評測基準,通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報,準確性超越傳統(tǒng)方法90%的指標。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學習40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學領(lǐng)域帶來了效率和精度的雙重突破。