av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<var id="4gaqr"><fieldset id="4gaqr"><th id="4gaqr"></th></fieldset></var>

<del id="4gaqr"></del>

微信掃一掃，關(guān)注公眾號

科技行者
算力行者

見證連接與計算的「力量」

推理引導(dǎo)+強化學習：清華&阿里巴巴推出UniVG-R1，讓AI讀懂復(fù)雜視覺指令的全新突破

人工智能多模態(tài)大語言模型視覺定位

推理引導(dǎo)+強化學習：清華&阿里巴巴推出UniVG-R1，讓AI讀懂復(fù)雜視覺指令的全新突破

作者：科技行者

2025-05-27 13:28

分享至：

清華大學深圳國際研究生院與阿里巴巴AMAP團隊合作開發(fā)了UniVG-R1，這是一種基于推理引導(dǎo)的通用視覺定位模型。研究者通過構(gòu)建高質(zhì)量思維鏈數(shù)據(jù)集和應(yīng)用強化學習技術(shù)，顯著增強了模型處理多圖像復(fù)雜指令的能力。實驗表明，UniVG-R1在MIG-Bench上比現(xiàn)有技術(shù)提升9.1%，并在四個零樣本測試基準上平均提高23.4%的性能，展現(xiàn)出卓越的推理能力和泛化性。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-05-27 13:28 ? 科技行者

在我們使用智能助手時，你是否曾經(jīng)希望它能準確理解"找出第二張圖片中能處理第一張圖片中物品的家具"這樣的復(fù)雜指令？或者"找出能保護人安全著陸的東西"？這類需要跨圖片理解和推理的任務(wù)對AI來說一直是個大挑戰(zhàn)。2025年5月，來自清華大學深圳國際研究生院和阿里巴巴AMAP團隊的研究者們在arXiv上發(fā)表了一篇題為"UniVG-R1: Reasoning Guided Universal Visual Grounding with Reinforcement Learning"的論文，提出了一種全新的解決方案。

為什么我們需要更智能的視覺定位技術(shù)？

想象一下，你正在和朋友一起看照片，朋友說："看看第一張照片中那個戴眼鏡的男孩，在第二張照片中找找他在哪里。"這對我們?nèi)祟悂碚f很簡單，但對AI而言卻是個巨大挑戰(zhàn)。傳統(tǒng)的視覺定位（Visual Grounding）技術(shù)主要處理單張圖片中的簡單指令，如"找出藍色的襯衫"，但在現(xiàn)實應(yīng)用中，我們常常需要AI理解跨越多張圖片的復(fù)雜隱含指令。

清華和阿里巴巴的研究團隊將這種更實用、更復(fù)雜的任務(wù)稱為"通用視覺定位"（Universal Visual Grounding）。它不僅要求AI能夠在圖像中定位物體，還要能夠理解復(fù)雜的語言指令，甚至進行跨圖像的推理。

UniVG-R1：融合推理與強化學習的突破性方案

研究團隊提出的UniVG-R1模型就像是給AI裝上了一個特殊的"思考大腦"。這個模型基于多模態(tài)大語言模型（MLLM），但關(guān)鍵在于它通過兩個創(chuàng)新手段大幅增強了模型的推理能力：

首先，研究團隊構(gòu)建了一個高質(zhì)量的"思維鏈"（Chain-of-Thought，簡稱CoT）數(shù)據(jù)集。這就像是給AI提供了詳細的推理路徑指南，告訴它"應(yīng)該怎么一步步思考"。具體來說，他們收集了90,000個樣本，每個樣本都包含詳細的推理過程，指導(dǎo)模型如何從問題到答案一步步推理。

其次，他們采用了一種名為"強化學習"（Reinforcement Learning）的技術(shù)。這就像是給AI設(shè)置了一個獎懲機制——當AI找到正確的推理路徑時給予獎勵，引導(dǎo)它逐漸學會更好的推理方式。研究者們特別使用了一種稱為"基于規(guī)則的強化學習"（rule-based reinforcement learning）的方法，結(jié)合"冷啟動數(shù)據(jù)"（cold-start data）來增強模型的推理能力。

模型訓練：兩階段策略讓AI學會"像人一樣思考"

UniVG-R1的訓練過程分為兩個階段，就像是先教會孩子基本知識，再教他如何活學活用。

在第一階段，研究團隊使用構(gòu)建的CoT數(shù)據(jù)集進行監(jiān)督微調(diào)（Supervised Fine-tuning）。這些數(shù)據(jù)包含詳細的推理鏈，就像是給AI提供了"解題思路"，引導(dǎo)它學習如何正確推理。這個階段主要是讓模型學會基本的推理路徑。

在第二階段，研究者們采用了群組相對策略優(yōu)化（Group Relative Policy Optimization，簡稱GRPO）算法進行強化學習。這個階段就像是讓AI"自己練習"——模型會生成多個可能的推理路徑，然后通過一個基于IoU（交并比）的驗證獎勵函數(shù)來評估哪些路徑更好，從而不斷調(diào)整自己的推理策略。

困難感知權(quán)重調(diào)整：讓AI更關(guān)注難題

研究團隊還發(fā)現(xiàn)了GRPO算法中存在一個"困難偏差"問題：隨著訓練的進行，容易的樣本比例會增加，而困難樣本的比例會減少。這就像是學習中只關(guān)注簡單題目而忽略了難題，導(dǎo)致學習效率下降。

為了解決這個問題，研究者們提出了一種"困難感知權(quán)重調(diào)整"（difficulty-aware weight adjustment）策略。這個策略會根據(jù)樣本的困難程度動態(tài)調(diào)整權(quán)重，給予更難的樣本更大的權(quán)重，就像是督促學生多花時間在難題上。具體來說，他們嘗試了幾種不同的函數(shù)來量化樣本的困難程度，最終發(fā)現(xiàn)使用exp(1-mIoU)函數(shù)效果最佳。

實驗結(jié)果：性能大幅超越現(xiàn)有技術(shù)

UniVG-R1在多項基準測試中都取得了出色的表現(xiàn)。在MIG-Bench基準測試上，UniVG-R1比之前最先進的Migician模型平均提高了9.1%的性能。而且UniVG-R1在10個子任務(wù)上都取得了最佳結(jié)果，這包括靜態(tài)差異檢測、相似性識別、共同物體識別等多種任務(wù)類型。

更令人印象深刻的是，UniVG-R1展現(xiàn)了強大的泛化能力。在四個圖像和視頻推理定位基準測試上的零樣本性能平均提高了23.4%。具體來說： - 在LISA-Grounding上提高了27.8% - 在LLMSeg-Grounding上提高了15.9% - 在ReVOS-Grounding上提高了20.3% - 在ReasonVOS上提高了25.3%

這些結(jié)果表明，UniVG-R1不僅在特定任務(wù)上表現(xiàn)出色，還能很好地遷移到未見過的新任務(wù)上，展現(xiàn)了真正的"通用"能力。

模型規(guī)模與效率：小樣本也能有大提升

值得一提的是，UniVG-R1在訓練數(shù)據(jù)效率方面也有顯著優(yōu)勢。Migician模型使用了約120萬個樣本進行訓練，而UniVG-R1僅使用了10萬個樣本（約為Migician的8.3%），卻取得了更好的性能。這表明推理引導(dǎo)和強化學習的結(jié)合可以大幅提高模型的學習效率。

研究團隊還在不同規(guī)模的模型上進行了實驗。他們發(fā)現(xiàn)即使在較小的Qwen2-VL-2B模型上，強化學習也能帶來顯著的性能提升。這表明該方法對不同規(guī)模的模型都有效，具有廣泛的適用性。

實際應(yīng)用：讓AI真正理解我們的意圖

UniVG-R1的出現(xiàn)為人機交互開辟了新的可能性。想象一下，當你對智能助手說："看看第一張照片中那個有創(chuàng)意的女孩，第二張照片中哪個物品最能反映她在第一張照片中展示的特點？"UniVG-R1能夠分析女孩手上和臉上的顏料，推斷出她具有創(chuàng)造性特點，然后在第二張圖片中找到最相關(guān)的物品——墻上的繪畫，因為這與女孩的創(chuàng)造性特征最相符。

這種能力可以應(yīng)用于多種場景： - 智能購物助手：根據(jù)用戶提供的多張參考圖片推薦合適的商品 - 智能搜索引擎：理解復(fù)雜的多圖像查詢意圖 - 智能安防系統(tǒng)：根據(jù)復(fù)雜指令在多個攝像頭畫面中定位目標 - 自動駕駛：理解復(fù)雜的道路場景和指令

未來展望：走向更通用的人工智能

UniVG-R1的研究成果表明，結(jié)合推理引導(dǎo)和強化學習是增強AI復(fù)雜理解能力的有效途徑。這為構(gòu)建更通用、更智能的AI系統(tǒng)提供了新的方向。

未來的研究可能會探索如何將這種推理能力擴展到更多領(lǐng)域，如視頻理解、3D場景理解等。同時，進一步優(yōu)化強化學習算法，減少訓練資源需求，也是一個重要的研究方向。

這項研究讓我們離真正理解人類復(fù)雜意圖的AI又近了一步。正如研究團隊所展示的，當我們讓AI學會"像人類一樣思考"時，它就能更好地理解和滿足我們的需求。

人工智能多模態(tài)大語言模型視覺定位

分享至

0贊

好文章，需要你的鼓勵

推薦文章

音頻生成
大語言模型
多模態(tài)AI

2025-09-10 09:47

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實驗室團隊AudioStory突破性進展

騰訊ARC實驗室推出AudioStory系統(tǒng)，首次實現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù)，通過交錯式推理生成、解耦橋接機制和漸進式訓練，能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準測試中表現(xiàn)優(yōu)異，為AI音頻創(chuàng)作開辟新方向。
視頻生成
深度學習
多模態(tài)學習

2025-09-09 13:57

Meta與特拉維夫大學聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

Meta與特拉維夫大學聯(lián)合研發(fā)的VideoJAM技術(shù)，通過讓AI同時學習外觀和運動信息，顯著解決了當前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運動質(zhì)量，在多項測試中超越包括Sora在內(nèi)的商業(yè)模型，為AI視頻生成的實用化應(yīng)用奠定了重要基礎(chǔ)。
多模態(tài)AI
人類價值觀對齊
數(shù)據(jù)集構(gòu)建

2025-09-09 13:56

上海AI實驗室重磅發(fā)布：讓AI看圖"說人話"的神奇訓練法，解決多模態(tài)AI與人類價值觀對齊難題

上海AI實驗室發(fā)布OmniAlign-V研究，首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓練數(shù)據(jù)集和MM-AlignBench評測基準，通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法，讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平，為AI價值觀對齊提供了可行技術(shù)路徑。
人工智能
圖神經(jīng)網(wǎng)絡(luò)
天氣預(yù)報

2025-09-09 10:56

谷歌研究團隊發(fā)布超級預(yù)測模型：讓AI像天氣預(yù)報員一樣預(yù)測全球大氣變化

谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型，能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報，準確性超越傳統(tǒng)方法90%的指標。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù)，通過學習40年歷史數(shù)據(jù)掌握天氣變化規(guī)律，在極端天氣預(yù)測方面表現(xiàn)卓越，能耗僅為傳統(tǒng)方法的千分之一，為氣象學領(lǐng)域帶來了效率和精度的雙重突破。

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實驗室團隊AudioStory突破性進展

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實驗室團隊AudioStory突破性進展

2025-09-10 09:47

Meta與特拉維夫大學聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

Meta與特拉維夫大學聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

2025-09-09 13:57

上海AI實驗室重磅發(fā)布：讓AI看圖"說人話"的神奇訓練法，解決多模態(tài)AI與人類價值觀對齊難題

上海AI實驗室重磅發(fā)布：讓AI看圖"說人話"的神奇訓練法，解決多模態(tài)AI與人類價值觀對齊難題

2025-09-09 13:56

谷歌研究團隊發(fā)布超級預(yù)測模型：讓AI像天氣預(yù)報員一樣預(yù)測全球大氣變化

谷歌研究團隊發(fā)布超級預(yù)測模型：讓AI像天氣預(yù)報員一樣預(yù)測全球大氣變化

2025-09-09 10:56

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時代

京ICP證15039648號京ICP備15039648號-9 京公網(wǎng)安備 11010802021500號

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報電話：010-62641205　涉未成年人舉報專線：010-62641208 舉報郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報專區(qū)：https://www.12377.cn

<big id="ysxf2"></big>