av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁(yè) 視覺世界中的定位強(qiáng)化學(xué)習(xí):卡內(nèi)基梅隆大學(xué)團(tuán)隊(duì)讓AI"看"得更透徹

視覺世界中的定位強(qiáng)化學(xué)習(xí):卡內(nèi)基梅隆大學(xué)團(tuán)隊(duì)讓AI"看"得更透徹

2025-06-04 10:13
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-04 10:13 ? 科技行者

在人工智能研究的最前沿,卡內(nèi)基梅隆大學(xué)的研究團(tuán)隊(duì)開創(chuàng)了一種新方法,讓計(jì)算機(jī)不僅能"看",還能像人類一樣理解和推理所看到的內(nèi)容。這項(xiàng)名為"視覺推理的定位強(qiáng)化學(xué)習(xí)"(Grounded Reinforcement Learning for Visual Reasoning)的研究由Gabriel Sarch、Snigdha Saha、Naitik Khandelwal、Ayush Jain、Michael J. Tarr、Aviral Kumar和Katerina Fragkiadaki共同完成,發(fā)表于2025年5月29日的arXiv預(yù)印本平臺(tái)(arXiv:2505.23678v1)。研究團(tuán)隊(duì)還建立了專門網(wǎng)站(visually-grounded-rl.github.io)供感興趣的讀者獲取更多信息。

想象一下,當(dāng)你試圖理解一張復(fù)雜的圖片時(shí),你會(huì)怎么做?你可能先掃視整個(gè)畫面,然后將注意力集中在關(guān)鍵區(qū)域,邊看邊思考,有時(shí)還會(huì)回過頭來重新審視某些細(xì)節(jié)。這種自然而然的視覺理解過程對(duì)我們?nèi)祟悂碚f輕而易舉,但對(duì)計(jì)算機(jī)而言卻是一項(xiàng)艱巨的挑戰(zhàn)。

卡內(nèi)基梅隆大學(xué)的研究團(tuán)隊(duì)正是從人類的這種視覺行為中獲得靈感,開發(fā)了一個(gè)名為ViGoRL(Visually Grounded Reinforcement Learning,視覺定位強(qiáng)化學(xué)習(xí))的系統(tǒng)。與傳統(tǒng)的視覺語言模型不同,ViGoRL不只是被動(dòng)地"看"圖像,而是主動(dòng)地將注意力引導(dǎo)到圖像中的具體位置,就像用手指指向圖片中的特定區(qū)域一樣,邊看邊思考,逐步推理。

讓我們通過一個(gè)簡(jiǎn)單的例子來理解這一突破。假設(shè)我們問AI一個(gè)問題:"籃子是否在木勺旁邊?"面對(duì)一張廚房的照片,傳統(tǒng)AI模型可能會(huì)給出不準(zhǔn)確的回答,因?yàn)樗鼰o法明確地定位和關(guān)聯(lián)圖像中的物體。而ViGoRL系統(tǒng)則會(huì)像偵探一樣,一步步分析:"讓我先找到木勺的位置,它們?cè)诠衽_(tái)左側(cè)靠近爐子?,F(xiàn)在我看到籃子放在柜臺(tái)后方,離木勺有一段距離。等等,我再仔細(xì)看看別的地方,在(200, 855)處有一個(gè)容器,但這不是籃子。所以,籃子不在木勺旁邊。"這種方法不僅答案更準(zhǔn)確,而且推理過程也更加透明和可理解。

傳統(tǒng)的視覺語言模型在處理復(fù)雜圖像理解任務(wù)時(shí)往往采用"一步到位"的方法,直接從圖像輸入跳到最終答案,中間缺乏明確的推理步驟。雖然有些研究如ViperGPT、VisualProg和V*等嘗試將視覺任務(wù)分解為多個(gè)中間步驟,但這些方法通常生成固定的推理鏈,無法根據(jù)輸入場(chǎng)景的結(jié)構(gòu)進(jìn)行靈活調(diào)整。

強(qiáng)化學(xué)習(xí)(RL)在語言模型的推理鏈上取得了顯著進(jìn)展,特別是在數(shù)學(xué)和編程等文本領(lǐng)域,使模型能夠?qū)W習(xí)根據(jù)上下文調(diào)整的多樣化推理策略。然而,強(qiáng)化學(xué)習(xí)只能在基礎(chǔ)模型的采樣分布中已經(jīng)存在的推理行為上進(jìn)行構(gòu)建或組合。例如,Gandhi等人已經(jīng)在基于文本的領(lǐng)域中發(fā)現(xiàn)了關(guān)鍵的認(rèn)知行為,如設(shè)定子目標(biāo)、回溯、驗(yàn)證等,這些行為支持強(qiáng)化學(xué)習(xí)下的自我改進(jìn)。但在視覺推理任務(wù)中,這些認(rèn)知行為是否同樣支持泛化能力尚不明確。

最近的一些研究嘗試直接在基礎(chǔ)視覺語言模型上應(yīng)用強(qiáng)化學(xué)習(xí),隱含假設(shè)強(qiáng)化學(xué)習(xí)本身可以誘導(dǎo)有用的認(rèn)知行為。然而,研究團(tuán)隊(duì)的分析顯示,這種簡(jiǎn)單應(yīng)用強(qiáng)化學(xué)習(xí)的方法通常會(huì)產(chǎn)生抽象、未定位的推理,而非更豐富、視覺定位的認(rèn)知行為。這些發(fā)現(xiàn)與先前研究一致,表明顯式提示視覺語言模型引用空間對(duì)象位置可以提高性能和可解釋性,這表明將思維定位到空間區(qū)域可能是有效視覺推理的關(guān)鍵認(rèn)知行為。因此,一個(gè)關(guān)鍵的開放問題是:如何在應(yīng)用強(qiáng)化學(xué)習(xí)以實(shí)現(xiàn)穩(wěn)健視覺推理之前,在視覺語言模型中嵌入有用的認(rèn)知行為?

研究團(tuán)隊(duì)提出的假設(shè)是,當(dāng)模型的文本推理步驟明確定位到特定圖像區(qū)域時(shí),模型不僅能"看"得更好,還能"思考"得更好,促進(jìn)文本和視覺信息之間更有針對(duì)性和系統(tǒng)性的交叉引用。這一假設(shè)受到人類在推理世界時(shí)如何系統(tǒng)性地轉(zhuǎn)移有限的注視點(diǎn)以有選擇地收集和整合與任務(wù)相關(guān)的信息的啟發(fā)。定位可能在模型中起到類似的作用,作為一種空間注意機(jī)制,實(shí)現(xiàn)準(zhǔn)確的特征綁定并支持指示性引用,通過本地化的感知錨定簡(jiǎn)化多步推理。

研究團(tuán)隊(duì)提出了一個(gè)多輪強(qiáng)化學(xué)習(xí)框架,用于訓(xùn)練視覺語言模型以一種基于地面、視覺感知的方式進(jìn)行推理。這與數(shù)學(xué)或代碼中的語言模型推理形成對(duì)比,后者不需要嚴(yán)格地定位到外部輸入。在每個(gè)推理步驟中,模型產(chǎn)生一個(gè)自然語言思想,并附帶相應(yīng)的空間定位(即圖像中的(x, y)位置)。這使模型能夠隨著推理的展開,逐步細(xì)化其注意力并收集與任務(wù)相關(guān)的視覺信息。通過將多輪交互整合到強(qiáng)化學(xué)習(xí)過程中——每一輪由一個(gè)或多個(gè)推理步驟組成,然后是對(duì)視覺反饋工具的查詢——模型學(xué)會(huì)在需要細(xì)粒度視覺信息時(shí)迭代請(qǐng)求所選區(qū)域的放大視圖。關(guān)鍵的是,沒有使用外部監(jiān)督或明確的人工提供的定位線索來監(jiān)督思想的空間定位;相反,模型自主學(xué)習(xí)提出和利用空間定位作為內(nèi)部認(rèn)知工具。

當(dāng)前訓(xùn)練視覺語言模型直接從視覺輸入產(chǎn)生文本答案的方法固有地使它們偏向抽象、未定位的推理,使強(qiáng)化學(xué)習(xí)方法很難自發(fā)地發(fā)現(xiàn)區(qū)域級(jí)別的系統(tǒng)視覺策略。為了在強(qiáng)化學(xué)習(xí)訓(xùn)練前明確注入定位推理行為,研究團(tuán)隊(duì)采用蒙特卡羅樹搜索(MCTS)系統(tǒng)地拼接獨(dú)立采樣的推理步驟,生成多樣化、視覺定位的推理軌跡。團(tuán)隊(duì)通過對(duì)這些MCTS構(gòu)建的路徑進(jìn)行監(jiān)督微調(diào)(SFT)來引導(dǎo)模型,從而將豐富的區(qū)域級(jí)推理策略嵌入到模型中。

然后,研究團(tuán)隊(duì)?wèi)?yīng)用組相對(duì)策略優(yōu)化(GRPO)進(jìn)一步加強(qiáng)導(dǎo)致正確答案的定位序列。最后,團(tuán)隊(duì)引入了一種帶有視覺反饋循環(huán)的新型多輪強(qiáng)化學(xué)習(xí)公式,允許模型在需要時(shí)通過工具調(diào)用動(dòng)態(tài)放大圖像區(qū)域進(jìn)行更詳細(xì)的視覺檢查。這種多輪變體提高了模型定位和推理關(guān)于細(xì)粒度視覺元素的能力。

研究團(tuán)隊(duì)在一系列視覺推理基準(zhǔn)上評(píng)估了ViGoRL,包括用于空間推理的SAT-2和BLINK,用于視覺搜索的V*bench,以及用于基于網(wǎng)絡(luò)的定位的ScreenSpot和VisualWebArena。他們的方法在所有任務(wù)上始終優(yōu)于現(xiàn)有方法。具體來說,ViGoRL在SAT-2上的準(zhǔn)確率比香草GRPO高出12.9個(gè)百分點(diǎn),在BLINK上高出2.0個(gè)百分點(diǎn)。在細(xì)粒度的網(wǎng)絡(luò)定位場(chǎng)景中,他們的方法在ScreenSpot-Pro上超過了香草GRPO和大規(guī)模網(wǎng)絡(luò)微調(diào)模型。通過利用多輪強(qiáng)化學(xué)習(xí)進(jìn)行動(dòng)態(tài)、放大的視覺反饋,ViGoRL進(jìn)一步提高了ScreenSpot-Pro的性能,有效地定位高分辨率圖像中的小元素。此外,多輪強(qiáng)化學(xué)習(xí)顯著增強(qiáng)了視覺搜索能力,使ViGoRL在V*Bench上超越了視覺語言模型工具使用管道和專有視覺語言模型,達(dá)到86.4%的準(zhǔn)確率。在VisualWebArena上,這是一個(gè)需要僅從圖像輸入進(jìn)行網(wǎng)絡(luò)交互的基準(zhǔn),無需訪問HTML,ViGoRL優(yōu)于直接SFT和香草GRPO,并超過了該模型大小的先前最先進(jìn)技術(shù)ICAL,盡管只使用視覺輸入。

消融研究證實(shí)了定位的重要性:沒有空間錨定訓(xùn)練的模型表現(xiàn)明顯較差。此外,研究團(tuán)隊(duì)發(fā)現(xiàn)定位放大了其他視覺認(rèn)知行為,如區(qū)域探索、定位子目標(biāo)設(shè)定和視覺驗(yàn)證。人類評(píng)估表明,模型的視覺引用不僅在空間上準(zhǔn)確,而且有助于理解模型的推理步驟。

那么為什么視覺定位有用呢?研究結(jié)果表明,將每個(gè)推理步驟空間錨定迫使模型以更加結(jié)構(gòu)化、符合人類的認(rèn)知形式進(jìn)行推理。ViGoRL學(xué)會(huì)迭代引用、檢查和驗(yàn)證特定視覺區(qū)域中的內(nèi)容——放大認(rèn)知行為,如子目標(biāo)公式、視覺驗(yàn)證和回溯。

這種模型架構(gòu)反映了認(rèn)知科學(xué)的見解:人類依靠空間注意力和視覺例程將復(fù)雜問題分解為可管理的、感知上定位的步驟。定位不僅僅是減少計(jì)算負(fù)荷(正如人類空間注意力常被描述的那樣),而是用外部視覺結(jié)構(gòu)支撐推理——有效地使用世界的內(nèi)容作為思考過程的一部分。研究團(tuán)隊(duì)在模型中觀察到類似的好處:空間定位能夠更好地泛化,特別是在分布外環(huán)境中,并通過使中間步驟在物理上可引用來提高可解釋性。

這項(xiàng)研究為未來的AI視覺理解系統(tǒng)開辟了新的可能性。通過訓(xùn)練模型使用指示引用——指向、放大、驗(yàn)證——未來的系統(tǒng)可能更好地反映支撐人類問題解決的迭代、定位策略。這為構(gòu)建不僅能有效推理,而且以可查詢、可適應(yīng)和與感知體驗(yàn)一致的方式推理的代理開辟了有前景的方向。

正如研究者所說:"視覺定位強(qiáng)化學(xué)習(xí)是為模型注入通用視覺推理能力的強(qiáng)大范式。"這項(xiàng)研究不僅提高了AI系統(tǒng)的視覺理解能力,還使其推理過程更加透明和可解釋,向著更智能、更人性化的人工智能邁出了重要一步。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-