這項(xiàng)由北京大學(xué)計(jì)算機(jī)學(xué)院董藝泓、蔣雪等研究人員與阿里巴巴通義實(shí)驗(yàn)室聯(lián)合開展的研究發(fā)表于2025年7月,研究成果已在arXiv預(yù)印本平臺(tái)發(fā)布(論文編號(hào):arXiv:2508.00222v3)。有興趣深入了解的讀者可以通過https://github.com/YihongDong/RL-PLUS獲取完整代碼和詳細(xì)技術(shù)資料。
當(dāng)我們訓(xùn)練大語言模型解決數(shù)學(xué)問題時(shí),會(huì)遇到一個(gè)令人困惑的現(xiàn)象:模型經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練后,雖然在標(biāo)準(zhǔn)測(cè)試中表現(xiàn)更好了,但它的整體能力邊界卻在悄悄收縮。這就像一個(gè)學(xué)生通過大量刷題提高了考試成績(jī),但解決新題型的能力反而下降了。
研究團(tuán)隊(duì)發(fā)現(xiàn),目前主流的強(qiáng)化學(xué)習(xí)方法存在一個(gè)被稱為"能力邊界塌陷"的問題。用一個(gè)簡(jiǎn)單的比喻來理解:假設(shè)AI模型的能力就像一個(gè)人的知識(shí)面,原本這個(gè)人雖然每個(gè)領(lǐng)域都不夠精通,但涉獵廣泛。經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練后,這個(gè)人在某個(gè)特定領(lǐng)域變得非常專業(yè),但其他領(lǐng)域的知識(shí)卻逐漸遺忘了,整體的知識(shí)覆蓋面實(shí)際上縮小了。
這種現(xiàn)象在評(píng)估指標(biāo)上有明確體現(xiàn)。研究人員使用了一個(gè)叫做"pass@k"的測(cè)試方法,簡(jiǎn)單說就是給模型k次機(jī)會(huì)來解決同一個(gè)問題,看它是否能在這k次嘗試中至少成功一次。奇怪的是,經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的模型在只給一次機(jī)會(huì)時(shí)(pass@1)表現(xiàn)很好,但當(dāng)給予更多嘗試機(jī)會(huì)時(shí)(比如pass@128),它的優(yōu)勢(shì)就消失了,甚至不如原始模型。這說明訓(xùn)練并沒有真正擴(kuò)展模型的能力邊界,而是讓模型在已有能力范圍內(nèi)表現(xiàn)得更加確定性。
造成這一問題的根本原因在于,現(xiàn)有的強(qiáng)化學(xué)習(xí)方法過分依賴模型自己的探索,就像讓一個(gè)人只能通過自己的思考來學(xué)習(xí)新知識(shí),而不能向外界學(xué)習(xí)。由于大語言模型的可能輸出空間極其龐大,而正確答案又很稀少(就像在浩瀚的海洋中尋找珍珠),模型很難通過自己的隨機(jī)探索找到全新的解題思路。因此,它只能不斷優(yōu)化已經(jīng)掌握的方法,這就導(dǎo)致了能力邊界的收縮。
為了解決這個(gè)問題,研究團(tuán)隊(duì)提出了一個(gè)名為RL-PLUS的創(chuàng)新方法。這個(gè)方法的核心思想可以用孔子的教育理念來概括:"學(xué)而不思則罔,思而不學(xué)則殆"?,F(xiàn)有的強(qiáng)化學(xué)習(xí)方法只是在"思"(利用自身已有知識(shí)),而缺少"學(xué)"(從外部獲取新知識(shí))。RL-PLUS則將這兩者巧妙結(jié)合,既保持了內(nèi)在的推理優(yōu)化,又引入了外部數(shù)據(jù)的學(xué)習(xí)。
然而,將外部數(shù)據(jù)融入強(qiáng)化學(xué)習(xí)訓(xùn)練并非易事,主要面臨兩大技術(shù)挑戰(zhàn)。第一個(gè)挑戰(zhàn)是"分布不匹配"問題。這就像你想學(xué)習(xí)一道新菜的做法,但手頭只有不同廚師在不同條件下的烹飪記錄,這些記錄的風(fēng)格和習(xí)慣與你現(xiàn)在的烹飪方式差異很大,直接照搬可能會(huì)出現(xiàn)問題。第二個(gè)挑戰(zhàn)是如何從外部數(shù)據(jù)中高效提取有價(jià)值的信息。模型天生傾向于關(guān)注那些它認(rèn)為概率高的內(nèi)容,但真正的創(chuàng)新往往隱藏在那些看似不太可能但實(shí)際正確的解題路徑中。
針對(duì)第一個(gè)挑戰(zhàn),研究團(tuán)隊(duì)開發(fā)了"多重要性采樣"技術(shù)。傳統(tǒng)的重要性采樣方法在處理外部數(shù)據(jù)時(shí)要么產(chǎn)生系統(tǒng)性偏差,要么方差過大導(dǎo)致訓(xùn)練不穩(wěn)定。多重要性采樣的巧妙之處在于,它不是試圖精確估計(jì)外部數(shù)據(jù)的來源分布,而是構(gòu)建一個(gè)包含多個(gè)策略的混合分布。這就像在做菜時(shí),不是試圖完全復(fù)制某一個(gè)大廚的手法,而是綜合多個(gè)大廚的技巧,形成一個(gè)更穩(wěn)定可靠的烹飪方案。
研究團(tuán)隊(duì)從貝葉斯決策理論的角度為這種方法提供了理論支撐。他們將對(duì)未知外部策略的估計(jì)看作一個(gè)決策問題:既要相信現(xiàn)有的經(jīng)驗(yàn)(用當(dāng)前模型作為先驗(yàn)知識(shí)),又要承認(rèn)存在未知的可能性(用均勻分布表示最大不確定性)。通過這種平衡,得到的估計(jì)器能夠在偏差和方差之間達(dá)到最優(yōu)權(quán)衡。理論證明表明,只要混合策略中至少包含一個(gè)與目標(biāo)策略相近的成分,整個(gè)估計(jì)器就能保持較低的方差,即使其他成分與目標(biāo)策略相差很大。
針對(duì)第二個(gè)挑戰(zhàn),研究團(tuán)隊(duì)設(shè)計(jì)了"基于探索的優(yōu)勢(shì)函數(shù)"。這個(gè)函數(shù)的設(shè)計(jì)靈感來源于焦點(diǎn)損失函數(shù),其核心思想是根據(jù)當(dāng)前模型對(duì)某個(gè)正確答案的探索難度來調(diào)整學(xué)習(xí)信號(hào)的強(qiáng)度。具體來說,如果一個(gè)正確的解題步驟在當(dāng)前模型看來概率很低(即難以探索),那么這個(gè)步驟就會(huì)獲得更高的學(xué)習(xí)權(quán)重;相反,如果模型已經(jīng)很容易想到這個(gè)步驟,那么相應(yīng)的學(xué)習(xí)信號(hào)就會(huì)被抑制。
這種設(shè)計(jì)的妙處在于它能自適應(yīng)地引導(dǎo)模型關(guān)注那些真正有價(jià)值的新知識(shí)。用一個(gè)形象的比喻:這就像一個(gè)老師在批改作業(yè)時(shí),對(duì)于學(xué)生已經(jīng)掌握得很好的知識(shí)點(diǎn)只是輕輕帶過,而對(duì)于學(xué)生還沒有掌握但非常重要的知識(shí)點(diǎn)則會(huì)重點(diǎn)標(biāo)注和講解。通過這種方式,模型能夠優(yōu)先學(xué)習(xí)那些正確但不容易發(fā)現(xiàn)的推理路徑。
將這兩個(gè)核心技術(shù)整合后,RL-PLUS的訓(xùn)練目標(biāo)函數(shù)變成了內(nèi)部?jī)?yōu)化和外部學(xué)習(xí)的協(xié)調(diào)組合。內(nèi)部?jī)?yōu)化部分繼續(xù)使用標(biāo)準(zhǔn)的策略梯度方法來改進(jìn)模型在已有數(shù)據(jù)上的表現(xiàn),而外部學(xué)習(xí)部分則使用多重要性采樣和探索優(yōu)勢(shì)函數(shù)來從外部數(shù)據(jù)中獲取新知識(shí)。這兩部分不是簡(jiǎn)單的相加,而是經(jīng)過精心設(shè)計(jì)的協(xié)同工作,確保既不會(huì)因?yàn)橥獠繑?shù)據(jù)的引入而破壞原有的學(xué)習(xí)穩(wěn)定性,也不會(huì)因?yàn)檫^分保守而錯(cuò)失學(xué)習(xí)新知識(shí)的機(jī)會(huì)。
特別值得注意的是,研究團(tuán)隊(duì)在設(shè)計(jì)中去除了傳統(tǒng)強(qiáng)化學(xué)習(xí)中的梯度裁剪機(jī)制。雖然梯度裁剪能夠確保訓(xùn)練穩(wěn)定性,但它也會(huì)抑制那些來自外部數(shù)據(jù)的強(qiáng)烈學(xué)習(xí)信號(hào),而這些信號(hào)恰恰可能包含了模型最需要學(xué)習(xí)的新知識(shí)。通過移除這一限制,RL-PLUS能夠在遇到有價(jià)值的外部信息時(shí)進(jìn)行更大幅度的參數(shù)更新,從而更有效地?cái)U(kuò)展能力邊界。
研究團(tuán)隊(duì)在六個(gè)數(shù)學(xué)推理基準(zhǔn)測(cè)試上對(duì)RL-PLUS進(jìn)行了全面評(píng)估,包括AIME 2024、AIME 2025、AMC、MATH-500、Minerva和Olympiad等。實(shí)驗(yàn)結(jié)果顯示,RL-PLUS在所有測(cè)試中都達(dá)到了最先進(jìn)的性能水平。以Qwen2.5-Math-7B為基礎(chǔ)模型,RL-PLUS的平均得分達(dá)到了53.4分,相比傳統(tǒng)的SFT+GRPO方法提升了5.2個(gè)百分點(diǎn)。更重要的是,這種提升不是通過犧牲能力廣度來實(shí)現(xiàn)的,而是真正的能力擴(kuò)展。
為了驗(yàn)證RL-PLUS確實(shí)解決了能力邊界塌陷問題,研究人員詳細(xì)分析了不同方法的pass@k曲線。結(jié)果表明,傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法(如GRPO)雖然在pass@1上表現(xiàn)不錯(cuò),但隨著k值的增加,其優(yōu)勢(shì)逐漸消失,在某些情況下甚至低于原始基礎(chǔ)模型。這證實(shí)了能力邊界塌陷現(xiàn)象的存在。相比之下,RL-PLUS在所有k值下都保持了對(duì)基礎(chǔ)模型的顯著優(yōu)勢(shì),證明它確實(shí)擴(kuò)展了模型的能力邊界而不是簡(jiǎn)單地提高了確定性。
研究團(tuán)隊(duì)還測(cè)試了RL-PLUS在跨領(lǐng)域任務(wù)上的泛化能力。他們?cè)诹鶄€(gè)與數(shù)學(xué)無關(guān)的任務(wù)上進(jìn)行了評(píng)估,包括編程任務(wù)(HumanEval、LiveCodeBench、Codeforces)和科學(xué)問答(ARC-c、GPQA-diamond、MMLU-Pro)。結(jié)果顯示,RL-PLUS不僅在訓(xùn)練領(lǐng)域表現(xiàn)優(yōu)異,在完全不同的領(lǐng)域中也展現(xiàn)出了強(qiáng)大的泛化能力,平均性能提升了3.9個(gè)百分點(diǎn)。這表明RL-PLUS學(xué)到的不是特定領(lǐng)域的技巧,而是更基礎(chǔ)的推理能力。
為了驗(yàn)證方法的普遍適用性,研究人員在多種不同的語言模型上測(cè)試了RL-PLUS,包括LLaMA-3.1-8B、Deepseek-Math-7B和不同規(guī)模的Qwen2.5-Math模型。結(jié)果表明,無論基礎(chǔ)模型的架構(gòu)和規(guī)模如何,RL-PLUS都能帶來持續(xù)穩(wěn)定的改進(jìn)。特別值得一提的是,在某些傳統(tǒng)強(qiáng)化學(xué)習(xí)方法難以取得改進(jìn)的模型上(如LLaMA-3.1-8B),RL-PLUS仍然實(shí)現(xiàn)了顯著的性能提升,相對(duì)改進(jìn)幅度高達(dá)69.2%。
訓(xùn)練動(dòng)態(tài)分析揭示了RL-PLUS的另一個(gè)重要優(yōu)勢(shì):它能夠維持模型的探索能力。傳統(tǒng)強(qiáng)化學(xué)習(xí)方法在訓(xùn)練過程中會(huì)出現(xiàn)"熵崩塌"現(xiàn)象,即模型變得過于確定性,失去了探索新解法的能力。而RL-PLUS訓(xùn)練的模型始終保持著適度的隨機(jī)性,這意味著它們?nèi)匀痪邆浒l(fā)現(xiàn)新推理路徑的潛力。同時(shí),RL-PLUS的響應(yīng)長(zhǎng)度隨訓(xùn)練進(jìn)程穩(wěn)步增長(zhǎng),表明模型正在學(xué)習(xí)更復(fù)雜、更深入的推理過程。
為了深入理解RL-PLUS各組件的貢獻(xiàn),研究團(tuán)隊(duì)進(jìn)行了詳細(xì)的消融實(shí)驗(yàn)。結(jié)果顯示,多重要性采樣和探索優(yōu)勢(shì)函數(shù)都是不可或缺的關(guān)鍵組件。移除多重要性采樣會(huì)導(dǎo)致性能從53.4分下降到45.5分,這凸顯了穩(wěn)定的外部數(shù)據(jù)整合機(jī)制的重要性。移除探索優(yōu)勢(shì)函數(shù)則導(dǎo)致性能下降到50.9分,說明有針對(duì)性的探索引導(dǎo)對(duì)于高效學(xué)習(xí)確實(shí)至關(guān)重要。
研究團(tuán)隊(duì)還比較了不同的外部策略估計(jì)方法。他們發(fā)現(xiàn),使用簡(jiǎn)單的代理策略或?qū)⑼獠坎呗愿怕试O(shè)為1的方法都無法達(dá)到理想效果,而基于貝葉斯理論的策略估計(jì)方法能夠帶來2.9分的額外提升,驗(yàn)證了理論驅(qū)動(dòng)設(shè)計(jì)的價(jià)值。
在訓(xùn)練穩(wěn)定性方面,研究人員通過延長(zhǎng)訓(xùn)練時(shí)間(超過原來的10倍)驗(yàn)證了RL-PLUS的穩(wěn)健性。實(shí)驗(yàn)結(jié)果顯示,模型的關(guān)鍵指標(biāo)在長(zhǎng)期訓(xùn)練中保持了良好的穩(wěn)定性和持續(xù)改進(jìn)趨勢(shì)。測(cè)試得分和獎(jiǎng)勵(lì)信號(hào)呈現(xiàn)穩(wěn)定的上升趨勢(shì),而策略熵快速收斂到一個(gè)健康的非零范圍,表明模型在變得更加有效的同時(shí)仍然保持著必要的探索能力。
通過一個(gè)具體的案例分析,我們可以更清楚地看到RL-PLUS的優(yōu)勢(shì)。在一個(gè)關(guān)于博弈論的數(shù)學(xué)競(jìng)賽題中,傳統(tǒng)的GRPO方法只能部分識(shí)別問題的核心(找到了"5的倍數(shù)"這一條件),但無法發(fā)現(xiàn)完整的解題模式,最終得出錯(cuò)誤答案。SFT+GRPO的方法則完全誤解了問題的博弈論本質(zhì),采用了錯(cuò)誤的"模3"邏輯。而RL-PLUS則準(zhǔn)確地識(shí)別出這是一個(gè)尋找P位置(第二玩家獲勝位置)的博弈論問題,通過演繹推理成功導(dǎo)出了完整的失敗位置模式(n ≡ 0 或 2 mod 5),并進(jìn)行了清晰的分步計(jì)算,最終得出了正確答案。
這個(gè)案例生動(dòng)地展示了RL-PLUS在多步推理能力上的顯著優(yōu)勢(shì)。它不僅能夠正確識(shí)別問題類型,還能進(jìn)行復(fù)雜的邏輯推導(dǎo),最后進(jìn)行準(zhǔn)確的計(jì)算。這種綜合能力正是現(xiàn)代AI系統(tǒng)所追求的,也是RL-PLUS通過整合內(nèi)外部學(xué)習(xí)所實(shí)現(xiàn)的重要突破。
從技術(shù)發(fā)展的角度來看,RL-PLUS代表了大語言模型訓(xùn)練方法的一個(gè)重要進(jìn)步。它打破了傳統(tǒng)強(qiáng)化學(xué)習(xí)只能在現(xiàn)有能力范圍內(nèi)優(yōu)化的局限,為AI系統(tǒng)的能力擴(kuò)展開辟了新的途徑。這種方法不僅在數(shù)學(xué)推理領(lǐng)域取得了成功,其核心思想也可以推廣到其他需要復(fù)雜推理的AI應(yīng)用中。
說到底,RL-PLUS解決的是一個(gè)看似矛盾但實(shí)際上很現(xiàn)實(shí)的問題:如何讓AI系統(tǒng)在變得更加精確的同時(shí)也保持開放性和創(chuàng)新能力。這就像培養(yǎng)一個(gè)優(yōu)秀的學(xué)生,我們既希望他在考試中表現(xiàn)出色,又希望他能保持好奇心和探索精神,不斷學(xué)習(xí)新的知識(shí)和技能。RL-PLUS通過巧妙地平衡內(nèi)部?jī)?yōu)化和外部學(xué)習(xí),為這個(gè)教育難題提供了一個(gè)技術(shù)層面的解決方案。
這項(xiàng)研究的意義遠(yuǎn)不止于技術(shù)本身。它揭示了AI訓(xùn)練中一個(gè)普遍存在但往往被忽視的問題,并提出了切實(shí)可行的解決方案。隨著大語言模型在各個(gè)領(lǐng)域的應(yīng)用越來越廣泛,如何避免能力邊界塌陷、保持系統(tǒng)的持續(xù)學(xué)習(xí)和創(chuàng)新能力,將成為AI發(fā)展中的一個(gè)關(guān)鍵問題。RL-PLUS為這個(gè)問題提供了重要的技術(shù)參考和理論基礎(chǔ)。
Q&A
Q1:什么是大語言模型的"能力邊界塌陷"問題?
A:能力邊界塌陷是指大語言模型在強(qiáng)化學(xué)習(xí)訓(xùn)練后,雖然在標(biāo)準(zhǔn)測(cè)試中表現(xiàn)更好,但整體解決問題的能力范圍實(shí)際上縮小了。就像學(xué)生通過刷題提高考試成績(jī),但面對(duì)新題型的能力反而下降。這種現(xiàn)象可以通過pass@k測(cè)試發(fā)現(xiàn):模型在一次嘗試時(shí)表現(xiàn)好,但給更多機(jī)會(huì)時(shí)優(yōu)勢(shì)消失。
Q2:RL-PLUS是如何解決能力邊界塌陷問題的?
A:RL-PLUS采用"學(xué)思結(jié)合"的策略,既保持內(nèi)部推理優(yōu)化,又引入外部數(shù)據(jù)學(xué)習(xí)。它使用多重要性采樣技術(shù)穩(wěn)定整合外部數(shù)據(jù),避免分布不匹配問題;同時(shí)用探索優(yōu)勢(shì)函數(shù)引導(dǎo)模型重點(diǎn)學(xué)習(xí)那些正確但難以發(fā)現(xiàn)的推理路徑,從而真正擴(kuò)展而非收縮模型的能力邊界。
Q3:RL-PLUS在實(shí)際應(yīng)用中效果如何?
A:RL-PLUS在六個(gè)數(shù)學(xué)推理基準(zhǔn)測(cè)試中都達(dá)到了最先進(jìn)性能,平均得分53.4分,比傳統(tǒng)方法提升5.2分。更重要的是,它在跨領(lǐng)域任務(wù)中也表現(xiàn)出色,在編程和科學(xué)問答等完全不同領(lǐng)域平均提升3.9分,證明學(xué)到的是基礎(chǔ)推理能力而非特定技巧。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對(duì)話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。