av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 視覺世界中的定位強化學(xué)習(xí):卡內(nèi)基梅隆大學(xué)團隊讓AI"看"得更透徹

視覺世界中的定位強化學(xué)習(xí):卡內(nèi)基梅隆大學(xué)團隊讓AI"看"得更透徹

2025-06-04 10:13
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-04 10:13 ? 科技行者

在人工智能研究的最前沿,卡內(nèi)基梅隆大學(xué)的研究團隊開創(chuàng)了一種新方法,讓計算機不僅能"看",還能像人類一樣理解和推理所看到的內(nèi)容。這項名為"視覺推理的定位強化學(xué)習(xí)"(Grounded Reinforcement Learning for Visual Reasoning)的研究由Gabriel Sarch、Snigdha Saha、Naitik Khandelwal、Ayush Jain、Michael J. Tarr、Aviral Kumar和Katerina Fragkiadaki共同完成,發(fā)表于2025年5月29日的arXiv預(yù)印本平臺(arXiv:2505.23678v1)。研究團隊還建立了專門網(wǎng)站(visually-grounded-rl.github.io)供感興趣的讀者獲取更多信息。

想象一下,當(dāng)你試圖理解一張復(fù)雜的圖片時,你會怎么做?你可能先掃視整個畫面,然后將注意力集中在關(guān)鍵區(qū)域,邊看邊思考,有時還會回過頭來重新審視某些細(xì)節(jié)。這種自然而然的視覺理解過程對我們?nèi)祟悂碚f輕而易舉,但對計算機而言卻是一項艱巨的挑戰(zhàn)。

卡內(nèi)基梅隆大學(xué)的研究團隊正是從人類的這種視覺行為中獲得靈感,開發(fā)了一個名為ViGoRL(Visually Grounded Reinforcement Learning,視覺定位強化學(xué)習(xí))的系統(tǒng)。與傳統(tǒng)的視覺語言模型不同,ViGoRL不只是被動地"看"圖像,而是主動地將注意力引導(dǎo)到圖像中的具體位置,就像用手指指向圖片中的特定區(qū)域一樣,邊看邊思考,逐步推理。

讓我們通過一個簡單的例子來理解這一突破。假設(shè)我們問AI一個問題:"籃子是否在木勺旁邊?"面對一張廚房的照片,傳統(tǒng)AI模型可能會給出不準(zhǔn)確的回答,因為它無法明確地定位和關(guān)聯(lián)圖像中的物體。而ViGoRL系統(tǒng)則會像偵探一樣,一步步分析:"讓我先找到木勺的位置,它們在柜臺左側(cè)靠近爐子?,F(xiàn)在我看到籃子放在柜臺后方,離木勺有一段距離。等等,我再仔細(xì)看看別的地方,在(200, 855)處有一個容器,但這不是籃子。所以,籃子不在木勺旁邊。"這種方法不僅答案更準(zhǔn)確,而且推理過程也更加透明和可理解。

傳統(tǒng)的視覺語言模型在處理復(fù)雜圖像理解任務(wù)時往往采用"一步到位"的方法,直接從圖像輸入跳到最終答案,中間缺乏明確的推理步驟。雖然有些研究如ViperGPT、VisualProg和V*等嘗試將視覺任務(wù)分解為多個中間步驟,但這些方法通常生成固定的推理鏈,無法根據(jù)輸入場景的結(jié)構(gòu)進(jìn)行靈活調(diào)整。

強化學(xué)習(xí)(RL)在語言模型的推理鏈上取得了顯著進(jìn)展,特別是在數(shù)學(xué)和編程等文本領(lǐng)域,使模型能夠?qū)W習(xí)根據(jù)上下文調(diào)整的多樣化推理策略。然而,強化學(xué)習(xí)只能在基礎(chǔ)模型的采樣分布中已經(jīng)存在的推理行為上進(jìn)行構(gòu)建或組合。例如,Gandhi等人已經(jīng)在基于文本的領(lǐng)域中發(fā)現(xiàn)了關(guān)鍵的認(rèn)知行為,如設(shè)定子目標(biāo)、回溯、驗證等,這些行為支持強化學(xué)習(xí)下的自我改進(jìn)。但在視覺推理任務(wù)中,這些認(rèn)知行為是否同樣支持泛化能力尚不明確。

最近的一些研究嘗試直接在基礎(chǔ)視覺語言模型上應(yīng)用強化學(xué)習(xí),隱含假設(shè)強化學(xué)習(xí)本身可以誘導(dǎo)有用的認(rèn)知行為。然而,研究團隊的分析顯示,這種簡單應(yīng)用強化學(xué)習(xí)的方法通常會產(chǎn)生抽象、未定位的推理,而非更豐富、視覺定位的認(rèn)知行為。這些發(fā)現(xiàn)與先前研究一致,表明顯式提示視覺語言模型引用空間對象位置可以提高性能和可解釋性,這表明將思維定位到空間區(qū)域可能是有效視覺推理的關(guān)鍵認(rèn)知行為。因此,一個關(guān)鍵的開放問題是:如何在應(yīng)用強化學(xué)習(xí)以實現(xiàn)穩(wěn)健視覺推理之前,在視覺語言模型中嵌入有用的認(rèn)知行為?

研究團隊提出的假設(shè)是,當(dāng)模型的文本推理步驟明確定位到特定圖像區(qū)域時,模型不僅能"看"得更好,還能"思考"得更好,促進(jìn)文本和視覺信息之間更有針對性和系統(tǒng)性的交叉引用。這一假設(shè)受到人類在推理世界時如何系統(tǒng)性地轉(zhuǎn)移有限的注視點以有選擇地收集和整合與任務(wù)相關(guān)的信息的啟發(fā)。定位可能在模型中起到類似的作用,作為一種空間注意機制,實現(xiàn)準(zhǔn)確的特征綁定并支持指示性引用,通過本地化的感知錨定簡化多步推理。

研究團隊提出了一個多輪強化學(xué)習(xí)框架,用于訓(xùn)練視覺語言模型以一種基于地面、視覺感知的方式進(jìn)行推理。這與數(shù)學(xué)或代碼中的語言模型推理形成對比,后者不需要嚴(yán)格地定位到外部輸入。在每個推理步驟中,模型產(chǎn)生一個自然語言思想,并附帶相應(yīng)的空間定位(即圖像中的(x, y)位置)。這使模型能夠隨著推理的展開,逐步細(xì)化其注意力并收集與任務(wù)相關(guān)的視覺信息。通過將多輪交互整合到強化學(xué)習(xí)過程中——每一輪由一個或多個推理步驟組成,然后是對視覺反饋工具的查詢——模型學(xué)會在需要細(xì)粒度視覺信息時迭代請求所選區(qū)域的放大視圖。關(guān)鍵的是,沒有使用外部監(jiān)督或明確的人工提供的定位線索來監(jiān)督思想的空間定位;相反,模型自主學(xué)習(xí)提出和利用空間定位作為內(nèi)部認(rèn)知工具。

當(dāng)前訓(xùn)練視覺語言模型直接從視覺輸入產(chǎn)生文本答案的方法固有地使它們偏向抽象、未定位的推理,使強化學(xué)習(xí)方法很難自發(fā)地發(fā)現(xiàn)區(qū)域級別的系統(tǒng)視覺策略。為了在強化學(xué)習(xí)訓(xùn)練前明確注入定位推理行為,研究團隊采用蒙特卡羅樹搜索(MCTS)系統(tǒng)地拼接獨立采樣的推理步驟,生成多樣化、視覺定位的推理軌跡。團隊通過對這些MCTS構(gòu)建的路徑進(jìn)行監(jiān)督微調(diào)(SFT)來引導(dǎo)模型,從而將豐富的區(qū)域級推理策略嵌入到模型中。

然后,研究團隊?wèi)?yīng)用組相對策略優(yōu)化(GRPO)進(jìn)一步加強導(dǎo)致正確答案的定位序列。最后,團隊引入了一種帶有視覺反饋循環(huán)的新型多輪強化學(xué)習(xí)公式,允許模型在需要時通過工具調(diào)用動態(tài)放大圖像區(qū)域進(jìn)行更詳細(xì)的視覺檢查。這種多輪變體提高了模型定位和推理關(guān)于細(xì)粒度視覺元素的能力。

研究團隊在一系列視覺推理基準(zhǔn)上評估了ViGoRL,包括用于空間推理的SAT-2和BLINK,用于視覺搜索的V*bench,以及用于基于網(wǎng)絡(luò)的定位的ScreenSpot和VisualWebArena。他們的方法在所有任務(wù)上始終優(yōu)于現(xiàn)有方法。具體來說,ViGoRL在SAT-2上的準(zhǔn)確率比香草GRPO高出12.9個百分點,在BLINK上高出2.0個百分點。在細(xì)粒度的網(wǎng)絡(luò)定位場景中,他們的方法在ScreenSpot-Pro上超過了香草GRPO和大規(guī)模網(wǎng)絡(luò)微調(diào)模型。通過利用多輪強化學(xué)習(xí)進(jìn)行動態(tài)、放大的視覺反饋,ViGoRL進(jìn)一步提高了ScreenSpot-Pro的性能,有效地定位高分辨率圖像中的小元素。此外,多輪強化學(xué)習(xí)顯著增強了視覺搜索能力,使ViGoRL在V*Bench上超越了視覺語言模型工具使用管道和專有視覺語言模型,達(dá)到86.4%的準(zhǔn)確率。在VisualWebArena上,這是一個需要僅從圖像輸入進(jìn)行網(wǎng)絡(luò)交互的基準(zhǔn),無需訪問HTML,ViGoRL優(yōu)于直接SFT和香草GRPO,并超過了該模型大小的先前最先進(jìn)技術(shù)ICAL,盡管只使用視覺輸入。

消融研究證實了定位的重要性:沒有空間錨定訓(xùn)練的模型表現(xiàn)明顯較差。此外,研究團隊發(fā)現(xiàn)定位放大了其他視覺認(rèn)知行為,如區(qū)域探索、定位子目標(biāo)設(shè)定和視覺驗證。人類評估表明,模型的視覺引用不僅在空間上準(zhǔn)確,而且有助于理解模型的推理步驟。

那么為什么視覺定位有用呢?研究結(jié)果表明,將每個推理步驟空間錨定迫使模型以更加結(jié)構(gòu)化、符合人類的認(rèn)知形式進(jìn)行推理。ViGoRL學(xué)會迭代引用、檢查和驗證特定視覺區(qū)域中的內(nèi)容——放大認(rèn)知行為,如子目標(biāo)公式、視覺驗證和回溯。

這種模型架構(gòu)反映了認(rèn)知科學(xué)的見解:人類依靠空間注意力和視覺例程將復(fù)雜問題分解為可管理的、感知上定位的步驟。定位不僅僅是減少計算負(fù)荷(正如人類空間注意力常被描述的那樣),而是用外部視覺結(jié)構(gòu)支撐推理——有效地使用世界的內(nèi)容作為思考過程的一部分。研究團隊在模型中觀察到類似的好處:空間定位能夠更好地泛化,特別是在分布外環(huán)境中,并通過使中間步驟在物理上可引用來提高可解釋性。

這項研究為未來的AI視覺理解系統(tǒng)開辟了新的可能性。通過訓(xùn)練模型使用指示引用——指向、放大、驗證——未來的系統(tǒng)可能更好地反映支撐人類問題解決的迭代、定位策略。這為構(gòu)建不僅能有效推理,而且以可查詢、可適應(yīng)和與感知體驗一致的方式推理的代理開辟了有前景的方向。

正如研究者所說:"視覺定位強化學(xué)習(xí)是為模型注入通用視覺推理能力的強大范式。"這項研究不僅提高了AI系統(tǒng)的視覺理解能力,還使其推理過程更加透明和可解釋,向著更智能、更人性化的人工智能邁出了重要一步。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-