av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<rt id="dpp7v"></rt>

首頁(yè)
對(duì)話創(chuàng)新
對(duì)話科技行者
機(jī)器人新紀(jì)元
AI論文解讀
聯(lián)系我們

微信掃一掃，關(guān)注公眾號(hào)

科技行者
算力行者

見(jiàn)證連接與計(jì)算的「力量」

SATORI-R1：華中科技大學(xué)研究團(tuán)隊(duì)通過(guò)空間定位和可驗(yàn)證獎(jiǎng)勵(lì)增強(qiáng)多模態(tài)推理能力

多模態(tài)推理視覺(jué)問(wèn)答強(qiáng)化學(xué)習(xí)

SATORI-R1：華中科技大學(xué)研究團(tuán)隊(duì)通過(guò)空間定位和可驗(yàn)證獎(jiǎng)勵(lì)增強(qiáng)多模態(tài)推理能力

作者：科技行者

2025-06-01 16:09

分享至：

華中科技大學(xué)和香港中文大學(xué)研究團(tuán)隊(duì)提出SATORI-R1，一種通過(guò)空間定位和可驗(yàn)證獎(jiǎng)勵(lì)增強(qiáng)多模態(tài)推理的新方法。該方法將視覺(jué)問(wèn)答任務(wù)分解為圖像描述、區(qū)域定位和答案預(yù)測(cè)三個(gè)可驗(yàn)證階段，解決了自由形式推理中注意力分散和訓(xùn)練收斂慢的問(wèn)題。實(shí)驗(yàn)證明，SATORI-R1在七個(gè)視覺(jué)問(wèn)答基準(zhǔn)上一致提升性能，最高達(dá)15.7%，并展示出更聚焦的視覺(jué)注意力和更低的訓(xùn)練方差。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-06-01 16:09 ? 科技行者

在人工智能視覺(jué)語(yǔ)言理解領(lǐng)域，一項(xiàng)重大突破悄然發(fā)生。由華中科技大學(xué)沈楚明、魏威、屈曉曄和香港中文大學(xué)鄭宇共同完成的研究《SATORI-R1: Incentivizing Multimodal Reasoning with Spatial Grounding and Verifiable Rewards》于2025年5月25日發(fā)表在arXiv預(yù)印本平臺(tái)（arXiv:2505.19094v1），這項(xiàng)研究為視覺(jué)問(wèn)答任務(wù)提供了全新的思路。有興趣深入了解的讀者可通過(guò)GitHub（https://github.com/justairr/SATORI-R1）訪問(wèn)項(xiàng)目代碼。

這個(gè)故事要從最近大火的強(qiáng)化學(xué)習(xí)（RL）技術(shù)說(shuō)起。想象一下，就像訓(xùn)練寵物做新把戲時(shí)，我們通過(guò)獎(jiǎng)勵(lì)正確行為來(lái)引導(dǎo)它學(xué)習(xí)。在文本領(lǐng)域，DeepSeek-R1模型已經(jīng)證明這種方法可以讓AI展現(xiàn)出強(qiáng)大的推理能力。然而，當(dāng)這種技術(shù)被直接應(yīng)用到視覺(jué)問(wèn)答領(lǐng)域時(shí)，研究者們發(fā)現(xiàn)了兩個(gè)關(guān)鍵問(wèn)題。

首先是"注意力分散"問(wèn)題。想象你在看一幅復(fù)雜的畫(huà)作，有人問(wèn)你："畫(huà)中人物穿的是什么顏色的衣服？"正常情況下，你會(huì)立即將目光聚焦在人物身上。但如果采用自由形式的推理模式，模型就像一個(gè)東張西望的孩子，目光在畫(huà)面各處游走，分散了對(duì)關(guān)鍵區(qū)域的注意力，導(dǎo)致回答準(zhǔn)確度下降。

其次是"收斂障礙"問(wèn)題。這就像教一個(gè)孩子解題，如果沒(méi)有明確的中間步驟指導(dǎo)，只靠最終答案來(lái)評(píng)判對(duì)錯(cuò)，學(xué)習(xí)效率會(huì)非常低。在強(qiáng)化學(xué)習(xí)中，沒(méi)有可驗(yàn)證的中間步驟會(huì)使模型訓(xùn)練變得緩慢且計(jì)算成本高昂。

針對(duì)這些挑戰(zhàn)，華中科技大學(xué)的研究團(tuán)隊(duì)提出了SATORI（Spatially Anchored Task Optimization with ReInforcement Learning，空間錨定任務(wù)優(yōu)化強(qiáng)化學(xué)習(xí)）方法。這個(gè)方法巧妙地將視覺(jué)問(wèn)答任務(wù)分解為三個(gè)可驗(yàn)證的階段：全局圖像描述、區(qū)域定位和答案預(yù)測(cè)。

想象一下偵探破案的過(guò)程：偵探首先會(huì)對(duì)整個(gè)案發(fā)現(xiàn)場(chǎng)進(jìn)行全面觀察（全局圖像描述），然后聚焦于關(guān)鍵證據(jù)區(qū)域（區(qū)域定位），最后基于這些信息得出結(jié)論（答案預(yù)測(cè)）。SATORI正是采用了這樣的思路，每個(gè)階段都能提供明確的獎(jiǎng)勵(lì)信號(hào)，指導(dǎo)模型學(xué)習(xí)。

為了支持這種訓(xùn)練方式，研究團(tuán)隊(duì)還創(chuàng)建了一個(gè)名為VQA-Verify的數(shù)據(jù)集，包含12,000個(gè)帶有答案相關(guān)說(shuō)明和邊界框標(biāo)注的樣本。這就像為偵探提供了一本詳細(xì)的教程，告訴他在各種案件中應(yīng)該關(guān)注哪些區(qū)域，以及如何解讀這些線索。

實(shí)驗(yàn)結(jié)果令人振奮。在七個(gè)視覺(jué)問(wèn)答基準(zhǔn)測(cè)試中，SATORI展現(xiàn)出一致的性能提升，相比基線模型，準(zhǔn)確率最高提升了15.7%。通過(guò)分析注意力圖，研究者確認(rèn)模型確實(shí)更專(zhuān)注于關(guān)鍵區(qū)域，這直接帶來(lái)了準(zhǔn)確率的提升。

讓我們深入了解SATORI的工作原理。研究團(tuán)隊(duì)首先分析了多模態(tài)大語(yǔ)言模型的視覺(jué)注意力圖，發(fā)現(xiàn)自由形式推理會(huì)分散模型對(duì)答案相關(guān)區(qū)域的關(guān)注。這就像在閱讀一本復(fù)雜的書(shū)時(shí)，過(guò)度鉆研每個(gè)細(xì)節(jié)反而會(huì)讓你錯(cuò)過(guò)關(guān)鍵情節(jié)。

基于這一發(fā)現(xiàn)，研究者提出了三步視覺(jué)推理模式和相應(yīng)的強(qiáng)化學(xué)習(xí)范式。通過(guò)將圖像描述和區(qū)域定位轉(zhuǎn)化為可驗(yàn)證的獎(jiǎng)勵(lì)信號(hào)，這種方法減少了策略梯度方差27%，加速了模型收斂。

技術(shù)細(xì)節(jié)上，SATORI采用了GRPO（Group Relative Policy Optimization，群體相對(duì)策略?xún)?yōu)化）算法，每個(gè)輸入問(wèn)題會(huì)采樣多個(gè)候選輸出，并基于獎(jiǎng)勵(lì)函數(shù)進(jìn)行評(píng)估。研究者設(shè)計(jì)了多種獎(jiǎng)勵(lì)信號(hào)，包括描述準(zhǔn)確度、邊界框匹配度和最終答案正確性。這些獎(jiǎng)勵(lì)共同引導(dǎo)模型生成更準(zhǔn)確的視覺(jué)推理過(guò)程。

為了驗(yàn)證方法有效性，研究團(tuán)隊(duì)在MMBench、MMStar、MME和OCRBench等多個(gè)基準(zhǔn)測(cè)試上進(jìn)行了評(píng)估。結(jié)果顯示，SATORI不僅在常規(guī)視覺(jué)問(wèn)答任務(wù)上表現(xiàn)優(yōu)異，在數(shù)學(xué)推理等更具挑戰(zhàn)性的任務(wù)上也取得了4.6到9.0個(gè)百分點(diǎn)的提升。

這項(xiàng)研究的意義在于，它提出了一種更符合視覺(jué)任務(wù)特性的推理模式。相比于直接套用文本領(lǐng)域的自由形式推理，SATORI通過(guò)引入空間定位，使模型能夠更精確地聚焦于問(wèn)題相關(guān)區(qū)域，從而提高回答準(zhǔn)確率。

此外，研究中提出的可驗(yàn)證中間步驟也為強(qiáng)化學(xué)習(xí)在視覺(jué)語(yǔ)言領(lǐng)域的應(yīng)用提供了新思路。通過(guò)分解復(fù)雜任務(wù)和提供明確的中間獎(jiǎng)勵(lì)，SATORI顯著提高了訓(xùn)練效率和模型性能。

對(duì)普通人來(lái)說(shuō)，這項(xiàng)研究意味著未來(lái)的AI助手將能更準(zhǔn)確地理解和回答與圖像相關(guān)的問(wèn)題。無(wú)論是詢(xún)問(wèn)照片中物體的位置、人物的動(dòng)作，還是場(chǎng)景中的關(guān)系，AI都能像人類(lèi)一樣，先觀察全局，然后聚焦細(xì)節(jié)，最后給出準(zhǔn)確答案。

研究團(tuán)隊(duì)指出，未來(lái)工作將探索更精細(xì)的驗(yàn)證框架，使模型能在每個(gè)推理步驟關(guān)注不同的圖像區(qū)域，并考慮引入可學(xué)習(xí)的階段控制器，使模型能根據(jù)問(wèn)題復(fù)雜度自適應(yīng)地調(diào)整中間步驟的數(shù)量和類(lèi)型。

總之，SATORI為多模態(tài)大語(yǔ)言模型的視覺(jué)推理能力開(kāi)辟了新路徑，通過(guò)空間定位和可驗(yàn)證獎(jiǎng)勵(lì)，使模型能更準(zhǔn)確地理解視覺(jué)內(nèi)容，從而提供更精準(zhǔn)的回答。這項(xiàng)創(chuàng)新不僅提升了現(xiàn)有技術(shù)的性能，也為未來(lái)研究提供了寶貴的方向和思路。

多模態(tài)推理視覺(jué)問(wèn)答強(qiáng)化學(xué)習(xí)

分享至

0贊

好文章，需要你的鼓勵(lì)

推薦文章

音頻生成
大語(yǔ)言模型
多模態(tài)AI

2025-09-10 09:47

如何讓AI像電影配樂(lè)師一樣創(chuàng)作完整的長(zhǎng)篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng)，首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語(yǔ)言模型的敘事推理能力與音頻生成技術(shù)，通過(guò)交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練，能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異，為AI音頻創(chuàng)作開(kāi)辟新方向。
視頻生成
深度學(xué)習(xí)
多模態(tài)學(xué)習(xí)

2025-09-09 13:57

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動(dòng)起來(lái)不再是奢望

Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù)，通過(guò)讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息，顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問(wèn)題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量，在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型，為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
多模態(tài)AI
人類(lèi)價(jià)值觀對(duì)齊
數(shù)據(jù)集構(gòu)建

2025-09-09 13:56

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說(shuō)人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類(lèi)價(jià)值觀對(duì)齊難題

上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究，首次系統(tǒng)性解決多模態(tài)大語(yǔ)言模型人性化對(duì)話問(wèn)題。該研究創(chuàng)建了包含20萬(wàn)高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn)，通過(guò)創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法，讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平，為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
人工智能
圖神經(jīng)網(wǎng)絡(luò)
天氣預(yù)報(bào)

2025-09-09 10:56

谷歌研究團(tuán)隊(duì)發(fā)布超級(jí)預(yù)測(cè)模型：讓AI像天氣預(yù)報(bào)員一樣預(yù)測(cè)全球大氣變化

谷歌DeepMind團(tuán)隊(duì)開(kāi)發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型，能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào)，準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù)，通過(guò)學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律，在極端天氣預(yù)測(cè)方面表現(xiàn)卓越，能耗僅為傳統(tǒng)方法的千分之一，為氣象學(xué)領(lǐng)域帶來(lái)了效率和精度的雙重突破。

如何讓AI像電影配樂(lè)師一樣創(chuàng)作完整的長(zhǎng)篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

如何讓AI像電影配樂(lè)師一樣創(chuàng)作完整的長(zhǎng)篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

2025-09-10 09:47

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動(dòng)起來(lái)不再是奢望

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動(dòng)起來(lái)不再是奢望

2025-09-09 13:57

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說(shuō)人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類(lèi)價(jià)值觀對(duì)齊難題

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說(shuō)人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類(lèi)價(jià)值觀對(duì)齊難題

2025-09-09 13:56

谷歌研究團(tuán)隊(duì)發(fā)布超級(jí)預(yù)測(cè)模型：讓AI像天氣預(yù)報(bào)員一樣預(yù)測(cè)全球大氣變化

谷歌研究團(tuán)隊(duì)發(fā)布超級(jí)預(yù)測(cè)模型：讓AI像天氣預(yù)報(bào)員一樣預(yù)測(cè)全球大氣變化

2025-09-09 10:56

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時(shí)代

京ICP證15039648號(hào) 京ICP備15039648號(hào)-9 京公網(wǎng)安備 11010802021500號(hào)

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報(bào)電話：010-62641205　涉未成年人舉報(bào)專(zhuān)線：010-62641208 舉報(bào)郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報(bào)專(zhuān)區(qū)：https://www.12377.cn