av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁 通過強(qiáng)化學(xué)習(xí)克服視覺推理中的捷徑問題:Visionary-R1模型的突破性研究

通過強(qiáng)化學(xué)習(xí)克服視覺推理中的捷徑問題:Visionary-R1模型的突破性研究

2025-05-26 17:24
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-26 17:24 ? 科技行者

從大型語言模型到視覺語言模型,人工智能的推理能力一直是研究人員追求的重要目標(biāo)。今天,我想與大家分享一項(xiàng)來自香港浸會(huì)大學(xué)、上海人工智能實(shí)驗(yàn)室和威斯康星大學(xué)麥迪遜分校研究團(tuán)隊(duì)的最新成果。這項(xiàng)由Jiaer Xia、Yuhang Zang、Peng Gao、Yixuan Li和通訊作者Kaiyang Zhou共同完成的研究題為《Visionary-R1: 通過強(qiáng)化學(xué)習(xí)緩解視覺推理中的捷徑問題》,發(fā)表于2025年5月20日的arXiv預(yù)印本平臺(tái)(arXiv:2505.14677v1),研究代碼已在GitHub開源(https://github.com/maifoundations/Visionary-R1)。

一、研究背景:AI推理的難題與捷徑問題

想象一下,你正在教一個(gè)孩子解決數(shù)學(xué)問題。如果你只給孩子看答案,而不教他解題步驟,他可能會(huì)想出各種捷徑來得到正確答案,比如死記硬背或者猜測(cè)。但當(dāng)遇到新題型時(shí),這些捷徑就不管用了。人工智能模型也面臨類似的問題。

近年來,大型語言模型(如DeepSeek-R1)通過強(qiáng)化學(xué)習(xí)技術(shù)成功地學(xué)會(huì)了推理能力,即使只使用問題-答案對(duì)而不需要詳細(xì)的推理過程標(biāo)注。這一突破讓研究者們開始嘗試將同樣的方法應(yīng)用到視覺語言模型(VLM)上,希望它們也能學(xué)會(huì)"看圖推理"。

然而,研究團(tuán)隊(duì)發(fā)現(xiàn),當(dāng)直接將強(qiáng)化學(xué)習(xí)應(yīng)用到視覺語言模型時(shí),模型會(huì)走捷徑:它會(huì)從簡(jiǎn)單問題中學(xué)到一些表面模式,而不是真正理解圖像內(nèi)容。就像那個(gè)只記答案不會(huì)解題的孩子一樣,這種模型在面對(duì)新的、復(fù)雜的視覺問題時(shí)往往表現(xiàn)不佳。

研究者們將這一現(xiàn)象稱為"捷徑學(xué)習(xí)"(shortcut learning)。具體來說,當(dāng)使用名為GRPO(Group Relative Policy Optimization)的強(qiáng)化學(xué)習(xí)方法訓(xùn)練視覺語言模型時(shí),模型被要求先生成推理鏈再給出答案。但在實(shí)踐中,模型會(huì)利用簡(jiǎn)單問題中的規(guī)律生成非常短且無信息量的"推理",從而降低了它在未見過的數(shù)據(jù)分布上的泛化能力。

二、創(chuàng)新解決方案:先理解圖像,再進(jìn)行推理

研究團(tuán)隊(duì)提出了一個(gè)簡(jiǎn)單但非常有效的解決方案:讓模型在推理之前先對(duì)圖像進(jìn)行詳細(xì)描述。這就像讓學(xué)生在解題前先仔細(xì)閱讀并復(fù)述題目?jī)?nèi)容,確保他們真正理解了問題。

團(tuán)隊(duì)開發(fā)的模型名為Visionary-R1,它遵循"描述-推理-回答"的輸出格式: 1. 首先,模型要生成一個(gè)詳細(xì)的圖像描述,捕捉圖像中的物體、數(shù)字、文本、空間關(guān)系等關(guān)鍵信息。 2. 然后,基于這個(gè)描述構(gòu)建完整的推理鏈條。 3. 最后,給出問題的最終答案。

為什么這種方法有效?想象你在解一道復(fù)雜的數(shù)學(xué)題。如果你跳過理解題目直接計(jì)算,很容易犯錯(cuò)。但如果你先花時(shí)間理解題目,復(fù)述一遍題目要求和已知條件,然后再一步步推導(dǎo),成功率會(huì)大大提高。同樣的道理,讓AI模型先描述圖像內(nèi)容,能確保它真正"看懂"了圖像,而不是僅僅對(duì)問題文本做出反應(yīng)。

但僅僅要求模型生成圖像描述還不夠,因?yàn)槟P涂赡軙?huì)生成敷衍了事的簡(jiǎn)單描述。研究團(tuán)隊(duì)巧妙地設(shè)計(jì)了一個(gè)"描述獎(jiǎng)勵(lì)"機(jī)制:模型生成的描述必須包含足夠的信息,能夠僅基于這個(gè)描述就正確回答問題。具體來說,他們會(huì)將描述輸入到一個(gè)語言模型中,讓它嘗試回答問題。如果答案正確,說明描述足夠詳細(xì)和準(zhǔn)確;如果答案錯(cuò)誤,說明描述缺乏關(guān)鍵信息。

通過這種方式,模型被"激勵(lì)"去生成全面、準(zhǔn)確的圖像描述,為后續(xù)的推理打下堅(jiān)實(shí)基礎(chǔ)。研究者們觀察到,當(dāng)模型生成的推理文本越長(zhǎng)、越詳細(xì)時(shí),它的準(zhǔn)確率就越高(如圖2所示)。這證實(shí)了他們的核心假設(shè):避免捷徑學(xué)習(xí)的關(guān)鍵在于鼓勵(lì)模型深入理解圖像。

三、訓(xùn)練數(shù)據(jù)與實(shí)現(xiàn)細(xì)節(jié):不依賴推理鏈標(biāo)注的純強(qiáng)化學(xué)習(xí)方法

與現(xiàn)有研究不同,Visionary-R1完全不依賴任何推理鏈標(biāo)注數(shù)據(jù)。研究團(tuán)隊(duì)收集了11個(gè)流行的視覺問答數(shù)據(jù)集,涵蓋場(chǎng)景理解、圖表分析、數(shù)學(xué)問題解決和文檔處理等多種視覺格式,總共包含272.6K個(gè)問題-答案對(duì)。

在技術(shù)實(shí)現(xiàn)上,團(tuán)隊(duì)創(chuàng)新性地調(diào)整了GRPO強(qiáng)化學(xué)習(xí)算法,增加了三種獎(jiǎng)勵(lì)信號(hào)來指導(dǎo)模型學(xué)習(xí): 1. 準(zhǔn)確度獎(jiǎng)勵(lì):評(píng)估答案是否正確 2. 格式獎(jiǎng)勵(lì):鼓勵(lì)模型遵循"描述-推理-回答"的輸出格式 3. 描述獎(jiǎng)勵(lì):評(píng)估圖像描述的質(zhì)量和信息量

另一個(gè)技術(shù)創(chuàng)新是使用余弦退火的KL懲罰系數(shù)。這聽起來可能有點(diǎn)復(fù)雜,但可以這樣理解:強(qiáng)化學(xué)習(xí)過程中,我們需要平衡模型探索新策略和保持穩(wěn)定性之間的關(guān)系。團(tuán)隊(duì)設(shè)計(jì)了一種動(dòng)態(tài)調(diào)整策略,在訓(xùn)練初期使用較大的懲罰系數(shù)保持穩(wěn)定,隨著訓(xùn)練進(jìn)行逐漸減小懲罰,允許模型生成更長(zhǎng)、更有意義的推理文本。

實(shí)驗(yàn)結(jié)果表明,這種動(dòng)態(tài)調(diào)整策略對(duì)模型性能有顯著影響。當(dāng)使用固定的懲罰系數(shù)時(shí),模型要么會(huì)生成無意義的冗長(zhǎng)文本,要么會(huì)通過簡(jiǎn)短描述走捷徑;而使用余弦退火策略則能有效緩解這些問題。

四、實(shí)驗(yàn)結(jié)果:戰(zhàn)勝?gòu)?qiáng)大的商業(yè)AI模型

研究團(tuán)隊(duì)在四個(gè)具有挑戰(zhàn)性的視覺推理基準(zhǔn)上評(píng)估了Visionary-R1的性能:MathVista(測(cè)試數(shù)學(xué)視覺推理)、MathVision(專注于數(shù)學(xué)視覺推理任務(wù))、MMStar(評(píng)估感知、數(shù)學(xué)理解、科學(xué)技術(shù)相關(guān)問題和邏輯推理)以及MMBench(全面評(píng)估視覺和數(shù)學(xué)推理)。

令人驚訝的是,盡管只有3B參數(shù)規(guī)模,且僅使用問題-答案對(duì)進(jìn)行訓(xùn)練,Visionary-R1在這些基準(zhǔn)測(cè)試上的表現(xiàn)超過了許多強(qiáng)大的商業(yè)AI模型,包括GPT-4o、Claude3.5-Sonnet和Gemini-1.5-Pro。具體來說,Visionary-R1在MathVista上達(dá)到69.4%的準(zhǔn)確率,在MathVision上達(dá)到24.7%,在MMStar上達(dá)到66.5%,在MMBench上達(dá)到84.1%。

與僅用監(jiān)督微調(diào)(SFT)或直接使用GRPO的基線模型相比,Visionary-R1的性能也有顯著提升。例如,在MMStar上,Visionary-R1比基礎(chǔ)模型提高了14.1個(gè)百分點(diǎn)的準(zhǔn)確率。

更重要的是,如果我們觀察模型在具體例子上的表現(xiàn)(如圖1所示),可以發(fā)現(xiàn)GRPO模型在簡(jiǎn)單訓(xùn)練樣本上會(huì)生成簡(jiǎn)短的推理,而在復(fù)雜測(cè)試樣本上則完全不知所措。相比之下,Visionary-R1在簡(jiǎn)單和復(fù)雜樣本上都能生成詳細(xì)、有意義的推理過程,這證明了其真正理解圖像并進(jìn)行推理的能力。

五、深入分析:為什么"先描述后推理"如此有效?

研究者們進(jìn)行了詳細(xì)的消融實(shí)驗(yàn),以了解各個(gè)組件的貢獻(xiàn)。結(jié)果表明,僅僅添加圖像描述步驟就能顯著提升模型性能,而進(jìn)一步加入描述獎(jiǎng)勵(lì)則能取得更好的效果。

為什么這種設(shè)計(jì)如此有效?想象一下偵探破案的過程。優(yōu)秀的偵探不會(huì)直接跳到結(jié)論,而是先仔細(xì)觀察現(xiàn)場(chǎng),記錄所有細(xì)節(jié),然后基于這些觀察結(jié)果進(jìn)行推理。Visionary-R1正是采用了類似的工作方式:

1. 觀察階段(圖像描述):模型被要求仔細(xì)觀察圖像中的所有細(xì)節(jié),包括文本、數(shù)字、對(duì)象、關(guān)系等,并生成全面的描述。 2. 分析階段(推理鏈):基于收集到的觀察結(jié)果,模型構(gòu)建邏輯推理鏈,一步步分析問題。 3. 結(jié)論階段(回答):最終基于分析給出答案。

這種設(shè)計(jì)確保了模型不會(huì)忽略關(guān)鍵視覺信息,也不會(huì)走捷徑。無論問題難易,模型都必須先理解圖像,這就像要求學(xué)生在回答每道題前都必須先復(fù)述題目?jī)?nèi)容,確保他們真正理解問題。

研究者們還發(fā)現(xiàn),當(dāng)模型生成的推理鏈越長(zhǎng),其準(zhǔn)確率通常越高(如圖2所示)。這進(jìn)一步證明了詳盡推理對(duì)解決復(fù)雜問題的重要性。

六、結(jié)論與未來展望

Visionary-R1的研究揭示了視覺語言模型在強(qiáng)化學(xué)習(xí)中的一個(gè)關(guān)鍵問題:如果不強(qiáng)制模型理解圖像內(nèi)容,它會(huì)走捷徑,導(dǎo)致推理能力無法泛化。通過引入"先描述后推理"的策略,研究團(tuán)隊(duì)成功緩解了這一問題,訓(xùn)練出了一個(gè)性能超越多個(gè)強(qiáng)大商業(yè)模型的視覺推理系統(tǒng)。

更重要的是,Visionary-R1完全不依賴推理鏈標(biāo)注數(shù)據(jù),僅通過問題-答案對(duì)和強(qiáng)化學(xué)習(xí)就達(dá)到了令人印象深刻的性能。這種方法大大降低了開發(fā)視覺推理模型的成本,提高了可擴(kuò)展性。

研究團(tuán)隊(duì)也指出了一些局限性,比如實(shí)驗(yàn)僅基于3B參數(shù)的模型,未來可以嘗試在更大規(guī)模模型上應(yīng)用這一方法。他們相信,隨著模型規(guī)模的增加,強(qiáng)化學(xué)習(xí)的效果可能會(huì)進(jìn)一步放大。

這項(xiàng)研究不僅在視覺推理領(lǐng)域取得了突破,也為其他模態(tài)的AI推理任務(wù)提供了有價(jià)值的見解:要使AI模型真正理解和推理,必須確保它們先全面理解輸入數(shù)據(jù),而不是簡(jiǎn)單尋找捷徑。

對(duì)于未來的研究方向,團(tuán)隊(duì)提出了幾個(gè)可能的擴(kuò)展:探索在更大模型上應(yīng)用這一方法,將動(dòng)態(tài)KL懲罰系數(shù)策略應(yīng)用到其他強(qiáng)化學(xué)習(xí)任務(wù)中,以及將"先描述后推理"的思路擴(kuò)展到其他模態(tài)的推理任務(wù)中。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-