這項由清華大學(xué)自動化系、交叉信息科學(xué)研究院和北京信息科學(xué)與技術(shù)國家研究中心的研究團隊聯(lián)合完成的開創(chuàng)性工作,于2025年5月發(fā)表在arXiv預(yù)印本平臺(arXiv:2505.15692v1)。該團隊由吳金陽、廖崇華、馮明寬、張帥、聞錚琦、邵鵬鵬、徐華哲和陶建華共同完成,展示了一種全新的強化學(xué)習(xí)方法,旨在提升大型語言模型的推理能力。
為什么我們需要"思維增強"?
想象一下,你正在學(xué)習(xí)解決復(fù)雜的數(shù)學(xué)問題。傳統(tǒng)方法是什么?反復(fù)嘗試不同解題路徑,然后記住那些成功的方法。這就像是在黑暗中摸索——你只知道某些路徑能成功,但不知道為什么或如何應(yīng)用到新問題上。這正是當(dāng)前強化學(xué)習(xí)訓(xùn)練大語言模型面臨的困境。
當(dāng)前的強化學(xué)習(xí)方法,如GRPO(Group Relative Policy Optimization),雖然能夠通過獎勵機制引導(dǎo)模型找到正確答案,但它們主要是通過偏向那些能獲得高獎勵的輸出路徑來工作,而沒有引入額外的外部知識。用餐廳尋找美食來打個比方:傳統(tǒng)方法就像是你只能依靠自己的嘗試來找到好餐廳,而沒有美食指南或朋友推薦的幫助。這種方式限制了模型的探索能力,使其推理能力邊界比基礎(chǔ)模型更窄。
研究團隊提出的解決方案——思維增強型策略優(yōu)化(TAPO)——就像是給探索者提供了一本思維指南。它通過引入外部高級指導(dǎo)("思維模式")來增強強化學(xué)習(xí)過程。這些思維模式可以看作是解決問題的抽象策略或"思考路徑",幫助模型學(xué)習(xí)更通用、更可解釋的推理行為。
TAPO如何工作?就像給AI配備了思維導(dǎo)航儀
傳統(tǒng)的強化學(xué)習(xí)訓(xùn)練就像是讓學(xué)生自己摸索解題方法,而TAPO則像是在困難時提供有用提示的導(dǎo)師。具體來說,TAPO構(gòu)建了一個"思維庫"——一個存儲高級思維模板的通用倉庫,這些模板從僅僅500個種子樣本中抽象出來。
每個模板代表了解決某類問題的抽象策略。想象一下,解決幾何問題的通用步驟可能是:分析問題結(jié)構(gòu)→應(yīng)用相關(guān)定理→逐步推導(dǎo)→驗證結(jié)果。這種抽象策略就是一種"思維模式",可以應(yīng)用于各種幾何問題,而不僅限于特定案例。
在GRPO采樣過程中,TAPO會自適應(yīng)地識別和應(yīng)用相關(guān)的思維模板。對于每個新問題,系統(tǒng)會找出最相關(guān)的思維模式,并將其用作推理指導(dǎo)。這種動態(tài)集成外部指導(dǎo)和內(nèi)部模型能力的方法,使系統(tǒng)能夠內(nèi)化更通用、更可解釋的推理行為,穩(wěn)定模型學(xué)習(xí),并產(chǎn)生更強大的推理模型。
從500個樣本到普適思維模式:思維庫的構(gòu)建過程
TAPO的核心在于其"思維庫"的構(gòu)建。研究團隊首先定義了五種人類思維行為,用于橋接模型推理和人類認(rèn)知:
第一種是"分而治之",這類似于我們將復(fù)雜問題分解為可管理的子問題;第二種是"自我反思",即評估和完善先前解決方案;第三種是"系統(tǒng)分析",分析問題的整體結(jié)構(gòu)并確定約束條件;第四種是"單步思考",通過專注的推理步驟解決問題的單個方面;最后是"思維鏈",采用連接邏輯步驟的順序推理過程。
有了這些行為定義,團隊使用蒙特卡洛樹搜索(MCTS)技術(shù)為每個種子問題生成解決方案樹。MCTS就像是在棋盤游戲中提前規(guī)劃多步棋路,不斷嘗試不同路徑并評估哪條路徑最有可能成功。對于每個問題,系統(tǒng)會選擇最優(yōu)的解決方案軌跡,并提取其中的高級思維模式(如:系統(tǒng)分析→單步思考→分而治之)。
這些提取的模式隨后按照"問題條件復(fù)雜性"(PCC)進(jìn)行分類整理。PCC衡量問題中已知先驗條件的數(shù)量,可以被視為問題的"復(fù)雜度指紋"。相似問題往往具有相似的PCC值,使得這個指標(biāo)成為模式聚合的有效工具。
當(dāng)系統(tǒng)遇到新問題時,它會計算該問題的PCC值,并從思維庫中找出最相似的思維模板。這種適應(yīng)性檢索機制確保了模型能夠應(yīng)用適當(dāng)?shù)耐评聿呗?,而不是使用一刀切的方法?/p>
實驗結(jié)果:TAPO顯著超越現(xiàn)有方法
研究團隊在多個高水平推理基準(zhǔn)上評估了TAPO的性能,結(jié)果令人印象深刻。TAPO在五個競賽級基準(zhǔn)測試中顯著優(yōu)于現(xiàn)有強化學(xué)習(xí)方法,平均提高了12.0個百分點。特別是在具有挑戰(zhàn)性的AIME和AMC基準(zhǔn)上,TAPO分別比GRPO提高了99%和41%,在Minerva Math上提高了17%。
更令人驚訝的是,這些高級思維模式——僅從500個先驗樣本中抽象出來——能夠有效地泛化到各種任務(wù)和模型。TAPO在不同規(guī)模和架構(gòu)的模型上展示了有效性,包括Qwen2.5-Math系列和Llama3系列模型。即使是在較弱的Llama3.2-3B-Base上,該方法也能實現(xiàn)穩(wěn)定學(xué)習(xí),而這個模型在標(biāo)準(zhǔn)GRPO訓(xùn)練中通常會遇到困難。
研究人員還評估了TAPO在分布外(OOD)任務(wù)上的泛化能力。盡管所有比較方法都是在數(shù)學(xué)數(shù)據(jù)上訓(xùn)練的,但TAPO在ARC-C、GPQA-Diamond和MMLU-Pro等OOD任務(wù)上平均優(yōu)于GRPO 13.7%,這表明該方法在使用高級外部指導(dǎo)增強OOD泛化方面的有效性。
更穩(wěn)定的學(xué)習(xí),更出色的解釋能力
TAPO不僅提高了模型的性能,還帶來了更穩(wěn)定的學(xué)習(xí)過程和更出色的解釋能力。在訓(xùn)練動態(tài)分析中,研究人員發(fā)現(xiàn)TAPO在兩種模型上都能持續(xù)實現(xiàn)比GRPO更高的整體訓(xùn)練獎勵。雖然這種優(yōu)勢在Qwen2.5-Math-7B-Base上看起來較為適中,但在較弱的Llama3.2-3B-Base上則更為顯著。
值得注意的是,GRPO在訓(xùn)練后期往往會崩潰,而TAPO即使在弱模型上也能維持穩(wěn)定的訓(xùn)練動態(tài)。這種增強的穩(wěn)定性源于TAPO將思維模式策略性地整合到采樣過程中。通過將復(fù)雜問題分解為可管理的子任務(wù),TAPO為弱模型提供了明確的外部指導(dǎo),賦予它們通常只有更強模型才具備的高級任務(wù)分解能力。
此外,案例研究表明,TAPO產(chǎn)生的推理過程更具可讀性和可解釋性。與GRPO生成的解決方案相比,TAPO的輸出結(jié)構(gòu)更清晰,邏輯更連貫,并且能夠系統(tǒng)地解決問題的各個方面。
結(jié)語:思維增強開啟強化學(xué)習(xí)新時代
TAPO的提出標(biāo)志著強化學(xué)習(xí)訓(xùn)練推理模型的一個重要里程碑。通過橋接外部高級指導(dǎo)和模型內(nèi)部推理能力,TAPO有效解決了當(dāng)前強化學(xué)習(xí)方法的根本限制。
歸根結(jié)底,TAPO就像是給AI提供了思維地圖和指南針,而不僅僅是讓它在黑暗中摸索。這種方法不僅提高了模型的性能,還增強了其適應(yīng)能力、穩(wěn)定性和可解釋性。從本質(zhì)上講,TAPO代表了一種更平衡的學(xué)習(xí)方法,將人類智慧(以抽象思維模式的形式)與機器學(xué)習(xí)能力相結(jié)合。
未來的研究可能會探索將思維增強型強化學(xué)習(xí)應(yīng)用于更多樣化的任務(wù)和領(lǐng)域,特別是檢索增強生成和多模態(tài)推理場景。TAPO建立了一個堅實的基礎(chǔ),用于有效地將外部知識與強化學(xué)習(xí)相結(jié)合,以增強各種AI應(yīng)用中的推理能力。
如果你對這項研究感興趣,可以通過arXiv:2505.15692v1訪問完整論文,深入了解TAPO的技術(shù)細(xì)節(jié)和實驗結(jié)果。這項研究不僅為AI研究人員提供了新的方法論,也為我們?nèi)绾嗡伎己驮鰪夾I的推理能力提供了新的視角。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學(xué)習(xí)外觀和運動信息,顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報,準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。