av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<abbr id="j1xmv"></abbr>

<tr id="j1xmv"><strike id="j1xmv"></strike></tr>

<abbr id="j1xmv"><fieldset id="j1xmv"></fieldset></abbr>

微信掃一掃，關(guān)注公眾號

科技行者
算力行者

見證連接與計算的「力量」

通過強化學(xué)習(xí)克服視覺推理中的捷徑問題：Visionary-R1模型的突破性研究

人工智能視覺推理強化學(xué)習(xí)

通過強化學(xué)習(xí)克服視覺推理中的捷徑問題：Visionary-R1模型的突破性研究

作者：科技行者

2025-05-26 17:24

分享至：

這篇研究通過創(chuàng)新的"先描述后推理"方法，解決了視覺語言模型在學(xué)習(xí)推理過程中容易走捷徑的問題。研究團隊開發(fā)的Visionary-R1模型不依賴任何推理鏈標(biāo)注數(shù)據(jù)，僅使用問題-答案對和強化學(xué)習(xí)，就實現(xiàn)了超越GPT-4o等商業(yè)模型的視覺推理能力，為AI推理能力的提升開辟了新途徑。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-05-26 17:24 ? 科技行者

從大型語言模型到視覺語言模型，人工智能的推理能力一直是研究人員追求的重要目標(biāo)。今天，我想與大家分享一項來自香港浸會大學(xué)、上海人工智能實驗室和威斯康星大學(xué)麥迪遜分校研究團隊的最新成果。這項由Jiaer Xia、Yuhang Zang、Peng Gao、Yixuan Li和通訊作者Kaiyang Zhou共同完成的研究題為《Visionary-R1: 通過強化學(xué)習(xí)緩解視覺推理中的捷徑問題》，發(fā)表于2025年5月20日的arXiv預(yù)印本平臺（arXiv:2505.14677v1），研究代碼已在GitHub開源（https://github.com/maifoundations/Visionary-R1）。

一、研究背景：AI推理的難題與捷徑問題

想象一下，你正在教一個孩子解決數(shù)學(xué)問題。如果你只給孩子看答案，而不教他解題步驟，他可能會想出各種捷徑來得到正確答案，比如死記硬背或者猜測。但當(dāng)遇到新題型時，這些捷徑就不管用了。人工智能模型也面臨類似的問題。

近年來，大型語言模型（如DeepSeek-R1）通過強化學(xué)習(xí)技術(shù)成功地學(xué)會了推理能力，即使只使用問題-答案對而不需要詳細(xì)的推理過程標(biāo)注。這一突破讓研究者們開始嘗試將同樣的方法應(yīng)用到視覺語言模型（VLM）上，希望它們也能學(xué)會"看圖推理"。

然而，研究團隊發(fā)現(xiàn)，當(dāng)直接將強化學(xué)習(xí)應(yīng)用到視覺語言模型時，模型會走捷徑：它會從簡單問題中學(xué)到一些表面模式，而不是真正理解圖像內(nèi)容。就像那個只記答案不會解題的孩子一樣，這種模型在面對新的、復(fù)雜的視覺問題時往往表現(xiàn)不佳。

研究者們將這一現(xiàn)象稱為"捷徑學(xué)習(xí)"（shortcut learning）。具體來說，當(dāng)使用名為GRPO（Group Relative Policy Optimization）的強化學(xué)習(xí)方法訓(xùn)練視覺語言模型時，模型被要求先生成推理鏈再給出答案。但在實踐中，模型會利用簡單問題中的規(guī)律生成非常短且無信息量的"推理"，從而降低了它在未見過的數(shù)據(jù)分布上的泛化能力。

二、創(chuàng)新解決方案：先理解圖像，再進行推理

研究團隊提出了一個簡單但非常有效的解決方案：讓模型在推理之前先對圖像進行詳細(xì)描述。這就像讓學(xué)生在解題前先仔細(xì)閱讀并復(fù)述題目內(nèi)容，確保他們真正理解了問題。

團隊開發(fā)的模型名為Visionary-R1，它遵循"描述-推理-回答"的輸出格式： 1. 首先，模型要生成一個詳細(xì)的圖像描述，捕捉圖像中的物體、數(shù)字、文本、空間關(guān)系等關(guān)鍵信息。 2. 然后，基于這個描述構(gòu)建完整的推理鏈條。 3. 最后，給出問題的最終答案。

為什么這種方法有效？想象你在解一道復(fù)雜的數(shù)學(xué)題。如果你跳過理解題目直接計算，很容易犯錯。但如果你先花時間理解題目，復(fù)述一遍題目要求和已知條件，然后再一步步推導(dǎo)，成功率會大大提高。同樣的道理，讓AI模型先描述圖像內(nèi)容，能確保它真正"看懂"了圖像，而不是僅僅對問題文本做出反應(yīng)。

但僅僅要求模型生成圖像描述還不夠，因為模型可能會生成敷衍了事的簡單描述。研究團隊巧妙地設(shè)計了一個"描述獎勵"機制：模型生成的描述必須包含足夠的信息，能夠僅基于這個描述就正確回答問題。具體來說，他們會將描述輸入到一個語言模型中，讓它嘗試回答問題。如果答案正確，說明描述足夠詳細(xì)和準(zhǔn)確；如果答案錯誤，說明描述缺乏關(guān)鍵信息。

通過這種方式，模型被"激勵"去生成全面、準(zhǔn)確的圖像描述，為后續(xù)的推理打下堅實基礎(chǔ)。研究者們觀察到，當(dāng)模型生成的推理文本越長、越詳細(xì)時，它的準(zhǔn)確率就越高（如圖2所示）。這證實了他們的核心假設(shè)：避免捷徑學(xué)習(xí)的關(guān)鍵在于鼓勵模型深入理解圖像。

三、訓(xùn)練數(shù)據(jù)與實現(xiàn)細(xì)節(jié)：不依賴推理鏈標(biāo)注的純強化學(xué)習(xí)方法

與現(xiàn)有研究不同，Visionary-R1完全不依賴任何推理鏈標(biāo)注數(shù)據(jù)。研究團隊收集了11個流行的視覺問答數(shù)據(jù)集，涵蓋場景理解、圖表分析、數(shù)學(xué)問題解決和文檔處理等多種視覺格式，總共包含272.6K個問題-答案對。

在技術(shù)實現(xiàn)上，團隊創(chuàng)新性地調(diào)整了GRPO強化學(xué)習(xí)算法，增加了三種獎勵信號來指導(dǎo)模型學(xué)習(xí)： 1. 準(zhǔn)確度獎勵：評估答案是否正確 2. 格式獎勵：鼓勵模型遵循"描述-推理-回答"的輸出格式 3. 描述獎勵：評估圖像描述的質(zhì)量和信息量

另一個技術(shù)創(chuàng)新是使用余弦退火的KL懲罰系數(shù)。這聽起來可能有點復(fù)雜，但可以這樣理解：強化學(xué)習(xí)過程中，我們需要平衡模型探索新策略和保持穩(wěn)定性之間的關(guān)系。團隊設(shè)計了一種動態(tài)調(diào)整策略，在訓(xùn)練初期使用較大的懲罰系數(shù)保持穩(wěn)定，隨著訓(xùn)練進行逐漸減小懲罰，允許模型生成更長、更有意義的推理文本。

實驗結(jié)果表明，這種動態(tài)調(diào)整策略對模型性能有顯著影響。當(dāng)使用固定的懲罰系數(shù)時，模型要么會生成無意義的冗長文本，要么會通過簡短描述走捷徑；而使用余弦退火策略則能有效緩解這些問題。

四、實驗結(jié)果：戰(zhàn)勝強大的商業(yè)AI模型

研究團隊在四個具有挑戰(zhàn)性的視覺推理基準(zhǔn)上評估了Visionary-R1的性能：MathVista（測試數(shù)學(xué)視覺推理）、MathVision（專注于數(shù)學(xué)視覺推理任務(wù)）、MMStar（評估感知、數(shù)學(xué)理解、科學(xué)技術(shù)相關(guān)問題和邏輯推理）以及MMBench（全面評估視覺和數(shù)學(xué)推理）。

令人驚訝的是，盡管只有3B參數(shù)規(guī)模，且僅使用問題-答案對進行訓(xùn)練，Visionary-R1在這些基準(zhǔn)測試上的表現(xiàn)超過了許多強大的商業(yè)AI模型，包括GPT-4o、Claude3.5-Sonnet和Gemini-1.5-Pro。具體來說，Visionary-R1在MathVista上達到69.4%的準(zhǔn)確率，在MathVision上達到24.7%，在MMStar上達到66.5%，在MMBench上達到84.1%。

與僅用監(jiān)督微調(diào)（SFT）或直接使用GRPO的基線模型相比，Visionary-R1的性能也有顯著提升。例如，在MMStar上，Visionary-R1比基礎(chǔ)模型提高了14.1個百分點的準(zhǔn)確率。

更重要的是，如果我們觀察模型在具體例子上的表現(xiàn)（如圖1所示），可以發(fā)現(xiàn)GRPO模型在簡單訓(xùn)練樣本上會生成簡短的推理，而在復(fù)雜測試樣本上則完全不知所措。相比之下，Visionary-R1在簡單和復(fù)雜樣本上都能生成詳細(xì)、有意義的推理過程，這證明了其真正理解圖像并進行推理的能力。

五、深入分析：為什么"先描述后推理"如此有效？

研究者們進行了詳細(xì)的消融實驗，以了解各個組件的貢獻。結(jié)果表明，僅僅添加圖像描述步驟就能顯著提升模型性能，而進一步加入描述獎勵則能取得更好的效果。

為什么這種設(shè)計如此有效？想象一下偵探破案的過程。優(yōu)秀的偵探不會直接跳到結(jié)論，而是先仔細(xì)觀察現(xiàn)場，記錄所有細(xì)節(jié)，然后基于這些觀察結(jié)果進行推理。Visionary-R1正是采用了類似的工作方式：

1. 觀察階段（圖像描述）：模型被要求仔細(xì)觀察圖像中的所有細(xì)節(jié)，包括文本、數(shù)字、對象、關(guān)系等，并生成全面的描述。 2. 分析階段（推理鏈）：基于收集到的觀察結(jié)果，模型構(gòu)建邏輯推理鏈，一步步分析問題。 3. 結(jié)論階段（回答）：最終基于分析給出答案。

這種設(shè)計確保了模型不會忽略關(guān)鍵視覺信息，也不會走捷徑。無論問題難易，模型都必須先理解圖像，這就像要求學(xué)生在回答每道題前都必須先復(fù)述題目內(nèi)容，確保他們真正理解問題。

研究者們還發(fā)現(xiàn)，當(dāng)模型生成的推理鏈越長，其準(zhǔn)確率通常越高（如圖2所示）。這進一步證明了詳盡推理對解決復(fù)雜問題的重要性。

六、結(jié)論與未來展望

Visionary-R1的研究揭示了視覺語言模型在強化學(xué)習(xí)中的一個關(guān)鍵問題：如果不強制模型理解圖像內(nèi)容，它會走捷徑，導(dǎo)致推理能力無法泛化。通過引入"先描述后推理"的策略，研究團隊成功緩解了這一問題，訓(xùn)練出了一個性能超越多個強大商業(yè)模型的視覺推理系統(tǒng)。

更重要的是，Visionary-R1完全不依賴推理鏈標(biāo)注數(shù)據(jù)，僅通過問題-答案對和強化學(xué)習(xí)就達到了令人印象深刻的性能。這種方法大大降低了開發(fā)視覺推理模型的成本，提高了可擴展性。

研究團隊也指出了一些局限性，比如實驗僅基于3B參數(shù)的模型，未來可以嘗試在更大規(guī)模模型上應(yīng)用這一方法。他們相信，隨著模型規(guī)模的增加，強化學(xué)習(xí)的效果可能會進一步放大。

這項研究不僅在視覺推理領(lǐng)域取得了突破，也為其他模態(tài)的AI推理任務(wù)提供了有價值的見解：要使AI模型真正理解和推理，必須確保它們先全面理解輸入數(shù)據(jù)，而不是簡單尋找捷徑。

對于未來的研究方向，團隊提出了幾個可能的擴展：探索在更大模型上應(yīng)用這一方法，將動態(tài)KL懲罰系數(shù)策略應(yīng)用到其他強化學(xué)習(xí)任務(wù)中，以及將"先描述后推理"的思路擴展到其他模態(tài)的推理任務(wù)中。

人工智能視覺推理強化學(xué)習(xí)

分享至

0贊

好文章，需要你的鼓勵

推薦文章

音頻生成
大語言模型
多模態(tài)AI

2025-09-10 09:47

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實驗室團隊AudioStory突破性進展

騰訊ARC實驗室推出AudioStory系統(tǒng)，首次實現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù)，通過交錯式推理生成、解耦橋接機制和漸進式訓(xùn)練，能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異，為AI音頻創(chuàng)作開辟新方向。
視頻生成
深度學(xué)習(xí)
多模態(tài)學(xué)習(xí)

2025-09-09 13:57

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù)，通過讓AI同時學(xué)習(xí)外觀和運動信息，顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運動質(zhì)量，在多項測試中超越包括Sora在內(nèi)的商業(yè)模型，為AI視頻生成的實用化應(yīng)用奠定了重要基礎(chǔ)。
多模態(tài)AI
人類價值觀對齊
數(shù)據(jù)集構(gòu)建

2025-09-09 13:56

上海AI實驗室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價值觀對齊難題

上海AI實驗室發(fā)布OmniAlign-V研究，首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn)，通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法，讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平，為AI價值觀對齊提供了可行技術(shù)路徑。
人工智能
圖神經(jīng)網(wǎng)絡(luò)
天氣預(yù)報

2025-09-09 10:56

谷歌研究團隊發(fā)布超級預(yù)測模型：讓AI像天氣預(yù)報員一樣預(yù)測全球大氣變化

谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型，能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報，準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù)，通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律，在極端天氣預(yù)測方面表現(xiàn)卓越，能耗僅為傳統(tǒng)方法的千分之一，為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實驗室團隊AudioStory突破性進展

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實驗室團隊AudioStory突破性進展

2025-09-10 09:47

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

2025-09-09 13:57

上海AI實驗室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價值觀對齊難題

上海AI實驗室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價值觀對齊難題

2025-09-09 13:56

谷歌研究團隊發(fā)布超級預(yù)測模型：讓AI像天氣預(yù)報員一樣預(yù)測全球大氣變化

谷歌研究團隊發(fā)布超級預(yù)測模型：讓AI像天氣預(yù)報員一樣預(yù)測全球大氣變化

2025-09-09 10:56

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時代

京ICP證15039648號京ICP備15039648號-9 京公網(wǎng)安備 11010802021500號

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報電話：010-62641205　涉未成年人舉報專線：010-62641208 舉報郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報專區(qū)：https://www.12377.cn

<wbr id="pdic5"><label id="pdic5"></label></wbr>