av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁(yè) SRPO:通過(guò)反思增強(qiáng)強(qiáng)化學(xué)習(xí),讓多模態(tài)大語(yǔ)言模型推理能力更上一層樓

SRPO:通過(guò)反思增強(qiáng)強(qiáng)化學(xué)習(xí),讓多模態(tài)大語(yǔ)言模型推理能力更上一層樓

2025-06-05 15:21
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-05 15:21 ? 科技行者

在2025年6月發(fā)布于arXiv預(yù)印本平臺(tái)的一項(xiàng)最新研究中,由俄亥俄州立大學(xué)的萬(wàn)忠偉(Zhongwei Wan)領(lǐng)銜,聯(lián)合來(lái)自凱斯西儲(chǔ)大學(xué)、帝國(guó)理工學(xué)院、杜克大學(xué)等多家知名院校的研究團(tuán)隊(duì)開發(fā)了一種名為SRPO的創(chuàng)新技術(shù)。這項(xiàng)研究的全稱是"SRPO: Enhancing Multimodal LLM Reasoning via Reflection-Aware Reinforcement Learning",主要解決了多模態(tài)大語(yǔ)言模型在復(fù)雜推理任務(wù)中的自我反思和自我糾錯(cuò)能力不足的問(wèn)題。有興趣深入了解的讀者可以通過(guò)arXiv:2506.01713v1訪問(wèn)完整論文。

為什么我們需要會(huì)"反思"的AI?

想象一下,你正在解決一道復(fù)雜的數(shù)學(xué)題。第一次嘗試后,你可能會(huì)停下來(lái)思考:"等等,我這個(gè)解法對(duì)嗎?我是不是忽略了什么關(guān)鍵條件?"這種自我檢查和反思的能力對(duì)人類解決復(fù)雜問(wèn)題至關(guān)重要。然而,目前的多模態(tài)大語(yǔ)言模型(也就是那些既能理解圖像又能處理文字的AI系統(tǒng))卻缺乏這種能力。

研究團(tuán)隊(duì)發(fā)現(xiàn),現(xiàn)有的多模態(tài)大語(yǔ)言模型在解決需要復(fù)雜推理的問(wèn)題時(shí),往往表現(xiàn)不佳,特別是與僅處理文本的模型相比。這些模型通常按照馬爾可夫過(guò)程一個(gè)接一個(gè)地生成文字,只關(guān)注局部依賴關(guān)系,導(dǎo)致它們的推理過(guò)程可能冗余、重復(fù)甚至出現(xiàn)錯(cuò)誤。例如,GPT-o1盡管擁有結(jié)構(gòu)化的推理路徑,但在MathVista基準(zhǔn)測(cè)試上的準(zhǔn)確率只有73.9%,甚至低于Qwen-2.5-VL-72B的74.8%。

這就像一個(gè)學(xué)生在解題時(shí)只顧著一步步往前走,不懂得停下來(lái)回頭檢查自己的思路是否正確。研究團(tuán)隊(duì)認(rèn)為,這些模型缺乏的正是"自我反思"能力——檢查、評(píng)估并修正自己推理過(guò)程的能力。

雖然之前已有研究嘗試通過(guò)直接提示或強(qiáng)化學(xué)習(xí)來(lái)增強(qiáng)模型的自我反思能力,但這些方法的有效性受限于模型在預(yù)訓(xùn)練階段就已經(jīng)確定的內(nèi)在能力邊界。簡(jiǎn)單來(lái)說(shuō),這就像試圖教會(huì)一個(gè)只學(xué)過(guò)加減法的學(xué)生解微積分——如果沒有必要的基礎(chǔ)知識(shí),單靠鼓勵(lì)和引導(dǎo)是不夠的。

SRPO:教會(huì)AI思考、反思再思考

針對(duì)這一挑戰(zhàn),研究團(tuán)隊(duì)提出了SRPO(多模態(tài)自我反思增強(qiáng)推理與群組相對(duì)策略優(yōu)化)框架,這是一個(gè)專門設(shè)計(jì)的兩階段反思感知強(qiáng)化學(xué)習(xí)方法。簡(jiǎn)單來(lái)說(shuō),SRPO就像是給AI配備了一個(gè)內(nèi)置的"質(zhì)疑者",不斷地審視自己的推理過(guò)程,并在必要時(shí)進(jìn)行修正。

這個(gè)框架分為兩個(gè)主要階段:

首先是"反思導(dǎo)向的冷啟動(dòng)初始化"階段。想象一下教練在訓(xùn)練新手時(shí),先示范正確的動(dòng)作,然后指出常見錯(cuò)誤。類似地,研究團(tuán)隊(duì)利用一個(gè)高級(jí)多模態(tài)大語(yǔ)言模型(如GPT-o4-mini)基于政策模型的輸出和標(biāo)準(zhǔn)答案之間的差異生成反思內(nèi)容。這個(gè)過(guò)程中,模型會(huì)自主評(píng)估多個(gè)生成的回答,識(shí)別錯(cuò)誤,并通過(guò)反思性推理迭代修改它們。隨后,這些高質(zhì)量的反思數(shù)據(jù)集被用于執(zhí)行多模態(tài)反思式監(jiān)督微調(diào),為后續(xù)的強(qiáng)化學(xué)習(xí)提供一個(gè)良好的起點(diǎn)。

第二階段是"反思感知強(qiáng)化學(xué)習(xí)"。這就像是在實(shí)戰(zhàn)中訓(xùn)練,但有一個(gè)特別的獎(jiǎng)勵(lì)機(jī)制,鼓勵(lì)模型不僅要解決問(wèn)題,還要反思自己的解決方案。研究團(tuán)隊(duì)基于群組相對(duì)策略優(yōu)化(GRPO)算法設(shè)計(jì)了一個(gè)新的獎(jiǎng)勵(lì)機(jī)制,積極鼓勵(lì)簡(jiǎn)潔、任務(wù)導(dǎo)向的反思步驟,同時(shí)明確懲罰過(guò)于冗長(zhǎng)或冗余的反思,從而有效地引導(dǎo)多模態(tài)大語(yǔ)言模型通過(guò)強(qiáng)化學(xué)習(xí)階段采用有意義的反思行為。

為了更具體地理解SRPO的工作原理,我們可以看一個(gè)例子。假設(shè)模型正在解決一個(gè)關(guān)于柵欄成本計(jì)算的問(wèn)題。使用標(biāo)準(zhǔn)GRPO方法時(shí),模型可能會(huì)計(jì)算出"總成本為555 + 37x",但沒有任何自主反思和改進(jìn)的機(jī)會(huì)。而在SRPO框架下,模型不僅會(huì)給出初步答案,還會(huì)反思:"我的初步推理誤判了周長(zhǎng)的結(jié)構(gòu)...為了糾正推理...",并在反思的指導(dǎo)下重新計(jì)算,得出正確答案"777"。

如何構(gòu)建高質(zhì)量的反思數(shù)據(jù)集?

在實(shí)際實(shí)施SRPO時(shí),構(gòu)建高質(zhì)量的反思數(shù)據(jù)集是關(guān)鍵的第一步。研究團(tuán)隊(duì)采用了"少即是多"的策略,精心挑選了約10,000個(gè)多模態(tài)推理樣本,這些樣本來(lái)自三個(gè)大型數(shù)據(jù)集:LLaVA-CoT(10萬(wàn)個(gè)樣本)、Mulberry(26萬(wàn)個(gè)樣本)和MathV360K。

這些樣本涵蓋了多個(gè)領(lǐng)域,包括物理學(xué)、數(shù)學(xué)和一般知識(shí)。基于這個(gè)子集,研究團(tuán)隊(duì)構(gòu)建了自我反思數(shù)據(jù)集,采用兩種互補(bǔ)策略:

一是"正確思維鏈的精煉"。想象你解出了一道數(shù)學(xué)題,然后老師幫你把解題過(guò)程簡(jiǎn)化,去除不必要的步驟,使其更加清晰。在這種情況下,盡管初始答案是正確的,但推理過(guò)程可能過(guò)于冗長(zhǎng)或復(fù)雜。

二是"錯(cuò)誤思維鏈的修正"。這就像是老師指出你解題過(guò)程中的錯(cuò)誤,并引導(dǎo)你找到正確的方法。對(duì)于每個(gè)樣本,研究團(tuán)隊(duì)首先通過(guò)思維鏈提示獲取政策模型生成的初始回答。然后,以標(biāo)準(zhǔn)答案為指導(dǎo),使用更大的多模態(tài)大語(yǔ)言模型(如GPT-o4-mini)生成自我反思,這些反思要么修正有缺陷的推理,要么簡(jiǎn)化正確但冗長(zhǎng)的輸出。

最終的每個(gè)樣本包含三個(gè)組成部分:初始回答、生成的自我反思和標(biāo)準(zhǔn)答案。在研究團(tuán)隊(duì)精心策劃的數(shù)據(jù)中,大約30%的初始回答是正確的,而剩余70%包含推理錯(cuò)誤,這突顯了自我反思對(duì)于錯(cuò)誤解答糾正和正確問(wèn)題精煉的必要性。

反思感知的強(qiáng)化學(xué)習(xí):如何獎(jiǎng)勵(lì)有效的反思?

在SRPO的第二階段,研究團(tuán)隊(duì)開發(fā)了一種基于GRPO的強(qiáng)化學(xué)習(xí)方法,配備了明確的獎(jiǎng)勵(lì)函數(shù)來(lái)激勵(lì)有意義的反思性推理。

這個(gè)獎(jiǎng)勵(lì)函數(shù)可以分為兩部分:任務(wù)獎(jiǎng)勵(lì)和反思獎(jiǎng)勵(lì)。

任務(wù)獎(jiǎng)勵(lì)結(jié)合了格式獎(jiǎng)勵(lì)和準(zhǔn)確性獎(jiǎng)勵(lì)。格式獎(jiǎng)勵(lì)鼓勵(lì)模型在`...`標(biāo)簽內(nèi)包含其推理過(guò)程。準(zhǔn)確性獎(jiǎng)勵(lì)驗(yàn)證預(yù)測(cè)答案是否與標(biāo)準(zhǔn)答案匹配,引導(dǎo)模型產(chǎn)生邏輯一致且正確的輸出。這種重復(fù)監(jiān)督有助于增強(qiáng)模型的推理能力。

反思獎(jiǎng)勵(lì)則是SRPO的核心創(chuàng)新。它包括幾個(gè)組成部分:一個(gè)指示反思段落是否正確格式化的指標(biāo)(使用``標(biāo)簽),一個(gè)鼓勵(lì)適當(dāng)長(zhǎng)度的反思簡(jiǎn)潔性獎(jiǎng)勵(lì),以及一個(gè)反思有效性指標(biāo)。

特別值得注意的是反思有效性指標(biāo),它根據(jù)反思對(duì)答案正確性的影響提供額外獎(jiǎng)勵(lì):如果反思保持正確答案,得0.25分;如果反思成功糾正錯(cuò)誤答案,得0.5分;如果反思未能糾正錯(cuò)誤答案,不得分;如果反思誤導(dǎo)正確答案變?yōu)殄e(cuò)誤,扣0.25分。這種設(shè)計(jì)鼓勵(lì)模型將反思不僅作為一種形式,而是作為一種改進(jìn)推理質(zhì)量和避免冗余的工具。

與標(biāo)準(zhǔn)GRPO相比,SRPO的增強(qiáng)反思感知框架引入了幾個(gè)關(guān)鍵改進(jìn):通過(guò)強(qiáng)制結(jié)構(gòu)化反思格式,引導(dǎo)模型生成一致且可識(shí)別的反思段落;通過(guò)引入平滑、可微分的長(zhǎng)度獎(jiǎng)勵(lì),鼓勵(lì)生成簡(jiǎn)潔但信息豐富的反思;通過(guò)有效性獎(jiǎng)勵(lì)直接將獎(jiǎng)勵(lì)信號(hào)與功能改進(jìn)對(duì)齊;通過(guò)明確獎(jiǎng)勵(lì)反思效用而非僅僅存在,阻止獎(jiǎng)勵(lì)博弈行為,如空或冗長(zhǎng)的反思。

SRPO的實(shí)驗(yàn)評(píng)估:會(huì)反思的AI確實(shí)表現(xiàn)更好

研究團(tuán)隊(duì)在多個(gè)廣泛采用的多模態(tài)推理基準(zhǔn)測(cè)試上評(píng)估了SRPO,這些基準(zhǔn)包括數(shù)學(xué)推理(MathVista、MathVerse、MathVision、OlympiadBench、WeMath)、通用推理(MMMU-Pro、MMMU、EMMA)和跨學(xué)科推理(MMK12,涵蓋物理、化學(xué)和生物任務(wù))。

實(shí)驗(yàn)結(jié)果令人印象深刻:SRPO在所有測(cè)試基準(zhǔn)上都顯著優(yōu)于現(xiàn)有最先進(jìn)的模型。例如,SRPO-7B在MathVista上達(dá)到75.8%的準(zhǔn)確率,超過(guò)了GRPO-7B的72.3%和基礎(chǔ)Qwen-2.5-VL-7B的68.2%。在物理領(lǐng)域,SRPO-7B的分?jǐn)?shù)達(dá)到60.6分,大幅領(lǐng)先于GRPO-7B的53.5分和Qwen-2.5-VL-7B的45.4分。

更值得注意的是,即使與領(lǐng)先的封閉源多模態(tài)大語(yǔ)言模型相比,SRPO也表現(xiàn)出高度的競(jìng)爭(zhēng)力。例如,SRPO-32B在EMMA基準(zhǔn)測(cè)試上的表現(xiàn)超過(guò)了Gemini2-flash 4.6分。

研究團(tuán)隊(duì)還進(jìn)行了消融研究,探討了SRPO在RL訓(xùn)練數(shù)據(jù)大小和自我反思組件方面的表現(xiàn)敏感性。通過(guò)從原始37K數(shù)據(jù)集中抽樣15K和7K子集,研究團(tuán)隊(duì)發(fā)現(xiàn)SRPO的性能隨著數(shù)據(jù)增加而穩(wěn)步提升。值得注意的是,即使在5K樣本的情況下,SRPO仍然顯著優(yōu)于Qwen-2.5-VL-7B和標(biāo)準(zhǔn)GRPO,在物理基準(zhǔn)測(cè)試上超過(guò)GRPO 7.1分。這表明,即使在有限數(shù)據(jù)的情況下,增強(qiáng)RL中的自我反思也能有效提升推理能力。

進(jìn)一步研究SRPO內(nèi)部各個(gè)自我反思組件的有效性,研究團(tuán)隊(duì)發(fā)現(xiàn),移除自我反思SFT會(huì)顯著降低性能,但仍然保持對(duì)標(biāo)準(zhǔn)GRPO在物理測(cè)試上5.1分的優(yōu)勢(shì)。相反,去除自我反思RL幾乎不會(huì)帶來(lái)相對(duì)于Qwen-2.5-VL-7B的改進(jìn),表明僅在SFT階段進(jìn)行反思訓(xùn)練是不夠的。因此,在RL期間明確獎(jiǎng)勵(lì)反思質(zhì)量對(duì)于實(shí)現(xiàn)多模態(tài)推理的最佳效果至關(guān)重要。

直觀理解SRPO的實(shí)際效果

為了更具體地理解SRPO的工作方式,研究團(tuán)隊(duì)提供了幾個(gè)生動(dòng)的例子,展示了SRPO如何在實(shí)際推理任務(wù)中發(fā)揮作用。

在一個(gè)關(guān)于角度測(cè)量的幾何問(wèn)題中,使用標(biāo)準(zhǔn)GRPO訓(xùn)練的模型錯(cuò)誤地假設(shè)角1和角11是對(duì)應(yīng)角,并得出不正確的答案"57°"。然而,使用SRPO訓(xùn)練的模型不僅給出了初步答案,還進(jìn)行了反思:"原始推理有一個(gè)重大缺陷:它錯(cuò)誤地將角1和角11識(shí)別為由平行線與截線形成的對(duì)應(yīng)角..."基于這一反思,模型重新評(píng)估了幾何關(guān)系,并正確得出答案"123°"。

在另一個(gè)關(guān)于固體表面積計(jì)算的問(wèn)題中,GRPO模型計(jì)算得出"7525.44"的錯(cuò)誤答案。而SRPO模型通過(guò)反思:"第一個(gè)推理步驟錯(cuò)誤地計(jì)算了側(cè)面積...",并在反思的指導(dǎo)下重新計(jì)算,得出正確答案"8090.80"。

這些例子生動(dòng)地展示了SRPO如何使模型能夠識(shí)別和糾正自己推理中的錯(cuò)誤,從而提高最終準(zhǔn)確性。此外,研究團(tuán)隊(duì)還觀察到,即使在推理正確的情況下,SRPO也能通過(guò)反思提煉和簡(jiǎn)化推理過(guò)程,使其更加簡(jiǎn)潔和清晰。

總結(jié):反思使AI的推理能力更上一層樓

這項(xiàng)研究向我們展示了,就像人類一樣,AI也能通過(guò)自我反思和自我糾錯(cuò)來(lái)提高解決復(fù)雜問(wèn)題的能力。SRPO框架通過(guò)系統(tǒng)地生成高質(zhì)量的反思訓(xùn)練數(shù)據(jù)并設(shè)計(jì)專門的獎(jiǎng)勵(lì)機(jī)制來(lái)鼓勵(lì)有效的自我反思,成功地增強(qiáng)了多模態(tài)大語(yǔ)言模型的推理能力。

歸根結(jié)底,SRPO的成功告訴我們,為AI提供反思能力不僅可以幫助它們糾正錯(cuò)誤,還可以使它們的思考過(guò)程更加清晰和高效。這種方法的優(yōu)勢(shì)在于,它不僅改進(jìn)了模型的最終準(zhǔn)確性,還提高了推理過(guò)程的質(zhì)量和可解釋性。

對(duì)于普通用戶來(lái)說(shuō),這意味著未來(lái)的AI助手將能夠更準(zhǔn)確地幫助解決涉及視覺和文本的復(fù)雜問(wèn)題,比如解釋科學(xué)圖表、進(jìn)行幾何推理或理解復(fù)雜的圖像-文本理解任務(wù)。而且,由于這些AI具有自我反思的能力,它們的回答將更加可靠,錯(cuò)誤率更低。

當(dāng)然,這項(xiàng)研究也有其局限性。研究團(tuán)隊(duì)主要評(píng)估了SRPO在7B和32B規(guī)模的密集多模態(tài)大語(yǔ)言模型上的有效性,沒有在專家混合模型或擴(kuò)散語(yǔ)言模型架構(gòu)上進(jìn)行擴(kuò)展實(shí)驗(yàn)。此外,強(qiáng)化學(xué)習(xí)訓(xùn)練數(shù)據(jù)僅從公開可用的多模態(tài)推理數(shù)據(jù)集中選擇,沒有探索更大規(guī)模的商業(yè)推理數(shù)據(jù)集。

隨著這一領(lǐng)域的不斷發(fā)展,我們可以期待看到更多基于反思的學(xué)習(xí)方法,幫助AI系統(tǒng)突破預(yù)訓(xùn)練階段設(shè)定的固有認(rèn)知邊界,實(shí)現(xiàn)更強(qiáng)大、更可靠的推理能力。如果你對(duì)這項(xiàng)研究感興趣,可以通過(guò)論文中提供的網(wǎng)站https://srpo.pages.dev了解更多詳細(xì)信息。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-