av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 通過強化學(xué)習(xí)克服視覺推理中的捷徑問題:Visionary-R1模型的突破性研究

通過強化學(xué)習(xí)克服視覺推理中的捷徑問題:Visionary-R1模型的突破性研究

2025-05-26 17:24
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-26 17:24 ? 科技行者

從大型語言模型到視覺語言模型,人工智能的推理能力一直是研究人員追求的重要目標(biāo)。今天,我想與大家分享一項來自香港浸會大學(xué)、上海人工智能實驗室和威斯康星大學(xué)麥迪遜分校研究團隊的最新成果。這項由Jiaer Xia、Yuhang Zang、Peng Gao、Yixuan Li和通訊作者Kaiyang Zhou共同完成的研究題為《Visionary-R1: 通過強化學(xué)習(xí)緩解視覺推理中的捷徑問題》,發(fā)表于2025年5月20日的arXiv預(yù)印本平臺(arXiv:2505.14677v1),研究代碼已在GitHub開源(https://github.com/maifoundations/Visionary-R1)。

一、研究背景:AI推理的難題與捷徑問題

想象一下,你正在教一個孩子解決數(shù)學(xué)問題。如果你只給孩子看答案,而不教他解題步驟,他可能會想出各種捷徑來得到正確答案,比如死記硬背或者猜測。但當(dāng)遇到新題型時,這些捷徑就不管用了。人工智能模型也面臨類似的問題。

近年來,大型語言模型(如DeepSeek-R1)通過強化學(xué)習(xí)技術(shù)成功地學(xué)會了推理能力,即使只使用問題-答案對而不需要詳細(xì)的推理過程標(biāo)注。這一突破讓研究者們開始嘗試將同樣的方法應(yīng)用到視覺語言模型(VLM)上,希望它們也能學(xué)會"看圖推理"。

然而,研究團隊發(fā)現(xiàn),當(dāng)直接將強化學(xué)習(xí)應(yīng)用到視覺語言模型時,模型會走捷徑:它會從簡單問題中學(xué)到一些表面模式,而不是真正理解圖像內(nèi)容。就像那個只記答案不會解題的孩子一樣,這種模型在面對新的、復(fù)雜的視覺問題時往往表現(xiàn)不佳。

研究者們將這一現(xiàn)象稱為"捷徑學(xué)習(xí)"(shortcut learning)。具體來說,當(dāng)使用名為GRPO(Group Relative Policy Optimization)的強化學(xué)習(xí)方法訓(xùn)練視覺語言模型時,模型被要求先生成推理鏈再給出答案。但在實踐中,模型會利用簡單問題中的規(guī)律生成非常短且無信息量的"推理",從而降低了它在未見過的數(shù)據(jù)分布上的泛化能力。

二、創(chuàng)新解決方案:先理解圖像,再進行推理

研究團隊提出了一個簡單但非常有效的解決方案:讓模型在推理之前先對圖像進行詳細(xì)描述。這就像讓學(xué)生在解題前先仔細(xì)閱讀并復(fù)述題目內(nèi)容,確保他們真正理解了問題。

團隊開發(fā)的模型名為Visionary-R1,它遵循"描述-推理-回答"的輸出格式: 1. 首先,模型要生成一個詳細(xì)的圖像描述,捕捉圖像中的物體、數(shù)字、文本、空間關(guān)系等關(guān)鍵信息。 2. 然后,基于這個描述構(gòu)建完整的推理鏈條。 3. 最后,給出問題的最終答案。

為什么這種方法有效?想象你在解一道復(fù)雜的數(shù)學(xué)題。如果你跳過理解題目直接計算,很容易犯錯。但如果你先花時間理解題目,復(fù)述一遍題目要求和已知條件,然后再一步步推導(dǎo),成功率會大大提高。同樣的道理,讓AI模型先描述圖像內(nèi)容,能確保它真正"看懂"了圖像,而不是僅僅對問題文本做出反應(yīng)。

但僅僅要求模型生成圖像描述還不夠,因為模型可能會生成敷衍了事的簡單描述。研究團隊巧妙地設(shè)計了一個"描述獎勵"機制:模型生成的描述必須包含足夠的信息,能夠僅基于這個描述就正確回答問題。具體來說,他們會將描述輸入到一個語言模型中,讓它嘗試回答問題。如果答案正確,說明描述足夠詳細(xì)和準(zhǔn)確;如果答案錯誤,說明描述缺乏關(guān)鍵信息。

通過這種方式,模型被"激勵"去生成全面、準(zhǔn)確的圖像描述,為后續(xù)的推理打下堅實基礎(chǔ)。研究者們觀察到,當(dāng)模型生成的推理文本越長、越詳細(xì)時,它的準(zhǔn)確率就越高(如圖2所示)。這證實了他們的核心假設(shè):避免捷徑學(xué)習(xí)的關(guān)鍵在于鼓勵模型深入理解圖像。

三、訓(xùn)練數(shù)據(jù)與實現(xiàn)細(xì)節(jié):不依賴推理鏈標(biāo)注的純強化學(xué)習(xí)方法

與現(xiàn)有研究不同,Visionary-R1完全不依賴任何推理鏈標(biāo)注數(shù)據(jù)。研究團隊收集了11個流行的視覺問答數(shù)據(jù)集,涵蓋場景理解、圖表分析、數(shù)學(xué)問題解決和文檔處理等多種視覺格式,總共包含272.6K個問題-答案對。

在技術(shù)實現(xiàn)上,團隊創(chuàng)新性地調(diào)整了GRPO強化學(xué)習(xí)算法,增加了三種獎勵信號來指導(dǎo)模型學(xué)習(xí): 1. 準(zhǔn)確度獎勵:評估答案是否正確 2. 格式獎勵:鼓勵模型遵循"描述-推理-回答"的輸出格式 3. 描述獎勵:評估圖像描述的質(zhì)量和信息量

另一個技術(shù)創(chuàng)新是使用余弦退火的KL懲罰系數(shù)。這聽起來可能有點復(fù)雜,但可以這樣理解:強化學(xué)習(xí)過程中,我們需要平衡模型探索新策略和保持穩(wěn)定性之間的關(guān)系。團隊設(shè)計了一種動態(tài)調(diào)整策略,在訓(xùn)練初期使用較大的懲罰系數(shù)保持穩(wěn)定,隨著訓(xùn)練進行逐漸減小懲罰,允許模型生成更長、更有意義的推理文本。

實驗結(jié)果表明,這種動態(tài)調(diào)整策略對模型性能有顯著影響。當(dāng)使用固定的懲罰系數(shù)時,模型要么會生成無意義的冗長文本,要么會通過簡短描述走捷徑;而使用余弦退火策略則能有效緩解這些問題。

四、實驗結(jié)果:戰(zhàn)勝強大的商業(yè)AI模型

研究團隊在四個具有挑戰(zhàn)性的視覺推理基準(zhǔn)上評估了Visionary-R1的性能:MathVista(測試數(shù)學(xué)視覺推理)、MathVision(專注于數(shù)學(xué)視覺推理任務(wù))、MMStar(評估感知、數(shù)學(xué)理解、科學(xué)技術(shù)相關(guān)問題和邏輯推理)以及MMBench(全面評估視覺和數(shù)學(xué)推理)。

令人驚訝的是,盡管只有3B參數(shù)規(guī)模,且僅使用問題-答案對進行訓(xùn)練,Visionary-R1在這些基準(zhǔn)測試上的表現(xiàn)超過了許多強大的商業(yè)AI模型,包括GPT-4o、Claude3.5-Sonnet和Gemini-1.5-Pro。具體來說,Visionary-R1在MathVista上達到69.4%的準(zhǔn)確率,在MathVision上達到24.7%,在MMStar上達到66.5%,在MMBench上達到84.1%。

與僅用監(jiān)督微調(diào)(SFT)或直接使用GRPO的基線模型相比,Visionary-R1的性能也有顯著提升。例如,在MMStar上,Visionary-R1比基礎(chǔ)模型提高了14.1個百分點的準(zhǔn)確率。

更重要的是,如果我們觀察模型在具體例子上的表現(xiàn)(如圖1所示),可以發(fā)現(xiàn)GRPO模型在簡單訓(xùn)練樣本上會生成簡短的推理,而在復(fù)雜測試樣本上則完全不知所措。相比之下,Visionary-R1在簡單和復(fù)雜樣本上都能生成詳細(xì)、有意義的推理過程,這證明了其真正理解圖像并進行推理的能力。

五、深入分析:為什么"先描述后推理"如此有效?

研究者們進行了詳細(xì)的消融實驗,以了解各個組件的貢獻。結(jié)果表明,僅僅添加圖像描述步驟就能顯著提升模型性能,而進一步加入描述獎勵則能取得更好的效果。

為什么這種設(shè)計如此有效?想象一下偵探破案的過程。優(yōu)秀的偵探不會直接跳到結(jié)論,而是先仔細(xì)觀察現(xiàn)場,記錄所有細(xì)節(jié),然后基于這些觀察結(jié)果進行推理。Visionary-R1正是采用了類似的工作方式:

1. 觀察階段(圖像描述):模型被要求仔細(xì)觀察圖像中的所有細(xì)節(jié),包括文本、數(shù)字、對象、關(guān)系等,并生成全面的描述。 2. 分析階段(推理鏈):基于收集到的觀察結(jié)果,模型構(gòu)建邏輯推理鏈,一步步分析問題。 3. 結(jié)論階段(回答):最終基于分析給出答案。

這種設(shè)計確保了模型不會忽略關(guān)鍵視覺信息,也不會走捷徑。無論問題難易,模型都必須先理解圖像,這就像要求學(xué)生在回答每道題前都必須先復(fù)述題目內(nèi)容,確保他們真正理解問題。

研究者們還發(fā)現(xiàn),當(dāng)模型生成的推理鏈越長,其準(zhǔn)確率通常越高(如圖2所示)。這進一步證明了詳盡推理對解決復(fù)雜問題的重要性。

六、結(jié)論與未來展望

Visionary-R1的研究揭示了視覺語言模型在強化學(xué)習(xí)中的一個關(guān)鍵問題:如果不強制模型理解圖像內(nèi)容,它會走捷徑,導(dǎo)致推理能力無法泛化。通過引入"先描述后推理"的策略,研究團隊成功緩解了這一問題,訓(xùn)練出了一個性能超越多個強大商業(yè)模型的視覺推理系統(tǒng)。

更重要的是,Visionary-R1完全不依賴推理鏈標(biāo)注數(shù)據(jù),僅通過問題-答案對和強化學(xué)習(xí)就達到了令人印象深刻的性能。這種方法大大降低了開發(fā)視覺推理模型的成本,提高了可擴展性。

研究團隊也指出了一些局限性,比如實驗僅基于3B參數(shù)的模型,未來可以嘗試在更大規(guī)模模型上應(yīng)用這一方法。他們相信,隨著模型規(guī)模的增加,強化學(xué)習(xí)的效果可能會進一步放大。

這項研究不僅在視覺推理領(lǐng)域取得了突破,也為其他模態(tài)的AI推理任務(wù)提供了有價值的見解:要使AI模型真正理解和推理,必須確保它們先全面理解輸入數(shù)據(jù),而不是簡單尋找捷徑。

對于未來的研究方向,團隊提出了幾個可能的擴展:探索在更大模型上應(yīng)用這一方法,將動態(tài)KL懲罰系數(shù)策略應(yīng)用到其他強化學(xué)習(xí)任務(wù)中,以及將"先描述后推理"的思路擴展到其他模態(tài)的推理任務(wù)中。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-