NVIDIA研究團(tuán)隊(duì)的Mingjie Liu、Shizhe Diao、Ximing Lu、Jian Hu、Xin Dong、Yejin Choi、Jan Kautz和Yi Dong在2025年5月30日發(fā)表了一篇名為《ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models》的研究論文。這項(xiàng)研究成果已上傳至arXiv預(yù)印本平臺(tái)(arXiv:2505.24864v1),并且研究團(tuán)隊(duì)已經(jīng)開(kāi)源了他們訓(xùn)練的模型,有興趣的讀者可以通過(guò)https://huggingface.co/nvidia/Nemotron-Research-Reasoning-Qwen-1.5B獲取。
強(qiáng)化學(xué)習(xí)是否真能提升語(yǔ)言模型的推理能力?一場(chǎng)學(xué)術(shù)爭(zhēng)論的起源
想象一下:你有一個(gè)聰明的助手,他能解決一些復(fù)雜問(wèn)題,但總有些難題讓他犯難。你可以通過(guò)不斷指導(dǎo)和反饋來(lái)幫助他進(jìn)步,但問(wèn)題是——他真的能學(xué)會(huì)解決那些原本完全無(wú)法應(yīng)對(duì)的難題嗎?還是說(shuō),他只是變得更擅長(zhǎng)解決那些本來(lái)就勉強(qiáng)能做的問(wèn)題?
這個(gè)問(wèn)題映射到人工智能領(lǐng)域,就變成了一個(gè)熱烈爭(zhēng)論的話題:強(qiáng)化學(xué)習(xí)(RL)到底能不能讓大語(yǔ)言模型(LLM)獲得新的推理能力?還是說(shuō),它只是讓模型更有效地利用已有的能力?
近年來(lái),像OpenAI的O1和DeepSeek的R1這樣的推理型語(yǔ)言模型通過(guò)增加測(cè)試時(shí)的計(jì)算量——比如生成更長(zhǎng)的思考鏈(Chain-of-Thought)和回溯修正——在數(shù)學(xué)問(wèn)題解決和代碼生成等復(fù)雜任務(wù)上取得了顯著進(jìn)步。而強(qiáng)化學(xué)習(xí)已成為培養(yǎng)這些復(fù)雜推理能力的關(guān)鍵工具。
然而,一些研究人員對(duì)此提出質(zhì)疑。他們認(rèn)為,強(qiáng)化學(xué)習(xí)并沒(méi)有真正教會(huì)模型新的推理技巧,而只是提高了模型從已有能力中抽取正確答案的效率。想象成這樣:如果一個(gè)學(xué)生本來(lái)就知道100道題的答案,強(qiáng)化學(xué)習(xí)可能幫助他更快找到正確答案,但不會(huì)教他解決第101道全新類(lèi)型的題目。
NVIDIA的研究團(tuán)隊(duì)不認(rèn)同這一觀點(diǎn)。他們認(rèn)為,先前的研究之所以得出這樣的結(jié)論,主要是因?yàn)閮蓚€(gè)限制:一是過(guò)度關(guān)注特定領(lǐng)域(如數(shù)學(xué)),這些領(lǐng)域的模型在預(yù)訓(xùn)練和后訓(xùn)練階段已經(jīng)接觸了大量相關(guān)內(nèi)容;二是強(qiáng)化學(xué)習(xí)訓(xùn)練時(shí)間太短,通常不超過(guò)幾百步,沒(méi)有給模型足夠的時(shí)間去探索和發(fā)展新的推理能力。
持久強(qiáng)化學(xué)習(xí):給模型足夠的學(xué)習(xí)時(shí)間
為了驗(yàn)證他們的假設(shè),NVIDIA團(tuán)隊(duì)提出了一種名為"持久強(qiáng)化學(xué)習(xí)"(ProRL)的方法。這就像是給學(xué)生提供長(zhǎng)期、持續(xù)的訓(xùn)練,而不只是短期突擊。具體來(lái)說(shuō),他們的方法包含幾個(gè)關(guān)鍵創(chuàng)新:
首先,他們顯著延長(zhǎng)了強(qiáng)化學(xué)習(xí)的訓(xùn)練時(shí)間,從通常的幾百步增加到超過(guò)2000步。這就像是把短期沖刺訓(xùn)練變成了馬拉松式的長(zhǎng)期培訓(xùn),讓模型有足夠的時(shí)間探索和掌握新的解題策略。
其次,他們使用了多樣化的訓(xùn)練數(shù)據(jù),不僅包括傳統(tǒng)的數(shù)學(xué)和編程問(wèn)題,還添加了STEM科學(xué)推理、邏輯謎題和指令遵循等各種任務(wù)類(lèi)型。這相當(dāng)于讓學(xué)生不只學(xué)習(xí)一門(mén)學(xué)科,而是接觸多種知識(shí)領(lǐng)域,培養(yǎng)更全面的思維能力。
第三,他們引入了KL散度控制機(jī)制。這有點(diǎn)像給學(xué)生設(shè)定學(xué)習(xí)界限——既鼓勵(lì)他探索新方法,又不讓他完全拋棄已學(xué)的基礎(chǔ)知識(shí)。在技術(shù)上,這防止了模型輸出分布的"熵崩塌"問(wèn)題,也就是說(shuō),防止模型過(guò)早地固化在某些特定的解題模式上,失去繼續(xù)探索的能力。
最后,他們采用了參考策略重置技術(shù)。想象一個(gè)長(zhǎng)跑運(yùn)動(dòng)員需要定期補(bǔ)充能量,這項(xiàng)技術(shù)就像是讓模型在長(zhǎng)期訓(xùn)練過(guò)程中定期"補(bǔ)充能量",避免訓(xùn)練效果停滯不前。當(dāng)模型學(xué)習(xí)曲線趨于平穩(wěn)時(shí),研究人員會(huì)重置參考策略和優(yōu)化器狀態(tài),讓模型能夠繼續(xù)有效學(xué)習(xí)。
通過(guò)這些方法,研究團(tuán)隊(duì)開(kāi)發(fā)出了名為Nemotron-Research-Reasoning-Qwen-1.5B的模型,這是當(dāng)前最先進(jìn)的1.5B參數(shù)推理模型。值得注意的是,盡管這個(gè)模型參數(shù)量不大,但其性能超越了同樣參數(shù)量的DeepSeek-R1-1.5B基礎(chǔ)模型,甚至在多個(gè)任務(wù)上匹配或超過(guò)了更大的DeepSeek-R1-7B模型。
突破性成果:小模型也能獲得強(qiáng)大推理能力
那么,持久強(qiáng)化學(xué)習(xí)的效果如何呢?研究團(tuán)隊(duì)的實(shí)驗(yàn)結(jié)果令人印象深刻。
首先,在數(shù)學(xué)基準(zhǔn)測(cè)試上,Nemotron-Research-Reasoning-Qwen-1.5B模型比基礎(chǔ)模型平均提高了14.7%的pass@1分?jǐn)?shù)(一次嘗試就得到正確答案的比例)。在編程方面,提升了13.9%。在邏輯謎題上,驚人地提高了54.8%。在STEM推理任務(wù)上,提升了25.1%。在指令遵循任務(wù)上,提高了18.1%。
更重要的是,研究團(tuán)隊(duì)發(fā)現(xiàn),隨著訓(xùn)練步數(shù)的增加,模型的性能持續(xù)提升,并沒(méi)有出現(xiàn)早期飽和現(xiàn)象。這表明,強(qiáng)化學(xué)習(xí)的確可以隨著計(jì)算資源的增加而不斷提升模型能力,就像持續(xù)練習(xí)可以不斷提高人類(lèi)的技能一樣。
也許最有說(shuō)服力的證據(jù)是,研究人員發(fā)現(xiàn)一些任務(wù)上,基礎(chǔ)模型無(wú)論嘗試多少次都無(wú)法解決(pass@k為0,k代表嘗試次數(shù)),而經(jīng)過(guò)ProRL訓(xùn)練的模型卻能達(dá)到100%的通過(guò)率。這就像是一個(gè)學(xué)生原本完全不會(huì)某類(lèi)型的題目,經(jīng)過(guò)特殊訓(xùn)練后卻能夠熟練掌握。
研究人員還分析了模型解題過(guò)程的創(chuàng)新性。他們使用"創(chuàng)造力指數(shù)"(Creativity Index)來(lái)衡量模型輸出與預(yù)訓(xùn)練語(yǔ)料庫(kù)的重疊程度。結(jié)果表明,經(jīng)過(guò)持久強(qiáng)化學(xué)習(xí)訓(xùn)練的模型生成的解題路徑具有更高的創(chuàng)新性,這意味著模型確實(shí)學(xué)會(huì)了新的解題策略,而不僅僅是重復(fù)預(yù)訓(xùn)練中看到的模式。
越是挑戰(zhàn),提升越大:模型能力擴(kuò)展的規(guī)律
研究團(tuán)隊(duì)進(jìn)一步分析發(fā)現(xiàn),強(qiáng)化學(xué)習(xí)對(duì)模型能力的提升遵循一個(gè)有趣的規(guī)律:基礎(chǔ)模型表現(xiàn)越弱的任務(wù),通過(guò)ProRL獲得的提升就越大。
想象一個(gè)學(xué)生在不同科目上的表現(xiàn):數(shù)學(xué)很擅長(zhǎng)(90分),物理一般(70分),化學(xué)很差(40分)。如果給這個(gè)學(xué)生提供全面的輔導(dǎo),他在化學(xué)上的進(jìn)步可能會(huì)最顯著,因?yàn)檫@里有最大的提升空間。
研究結(jié)果也證實(shí)了這一點(diǎn)。在那些基礎(chǔ)模型已經(jīng)表現(xiàn)不錯(cuò)的任務(wù)上(如某些數(shù)學(xué)問(wèn)題),ProRL的提升相對(duì)較??;而在基礎(chǔ)模型原本表現(xiàn)很差的任務(wù)上(如某些邏輯謎題),ProRL帶來(lái)的改進(jìn)則非常顯著。研究人員將任務(wù)分為三類(lèi):
1. 邊界縮小型任務(wù):在這些任務(wù)上,模型的pass@1(一次嘗試正確率)提高了,但pass@128(嘗試128次的正確率)反而下降或持平。這通常發(fā)生在基礎(chǔ)模型已經(jīng)很擅長(zhǎng)的任務(wù)上,相當(dāng)于模型變得更"自信"但不一定更"聰明"。
2. 邊界平穩(wěn)型任務(wù):在這些任務(wù)上,模型在早期訓(xùn)練階段就實(shí)現(xiàn)了pass@1和pass@128的顯著提升,但后續(xù)訓(xùn)練效果增長(zhǎng)不明顯。這意味著模型很快就掌握了解決這類(lèi)問(wèn)題的能力,額外的訓(xùn)練幫助有限。
3. 邊界持續(xù)擴(kuò)展型任務(wù):最有趣的是這類(lèi)任務(wù),模型的推理能力隨著ProRL訓(xùn)練的持續(xù)進(jìn)行而不斷提升。這表明長(zhǎng)期的強(qiáng)化學(xué)習(xí)確實(shí)能夠幫助模型持續(xù)發(fā)展新的解題能力。
超越訓(xùn)練范圍:模型的泛化能力
研究團(tuán)隊(duì)還測(cè)試了模型在處理分布外任務(wù)和增加難度任務(wù)時(shí)的表現(xiàn)。
分布外任務(wù)是指模型在訓(xùn)練中從未見(jiàn)過(guò)的全新類(lèi)型問(wèn)題。研究人員使用了名為"boxnet"的任務(wù),這是一個(gè)在訓(xùn)練中完全沒(méi)有出現(xiàn)過(guò)的推理謎題。結(jié)果顯示,基礎(chǔ)模型完全無(wú)法解決這個(gè)任務(wù)(pass@k為0),而ProRL訓(xùn)練的模型卻能夠很好地應(yīng)對(duì),表明模型確實(shí)學(xué)會(huì)了可泛化的抽象推理模式。
對(duì)于難度增加的任務(wù),研究人員測(cè)試了"graph_color"(圖著色)問(wèn)題,通過(guò)增加圖中節(jié)點(diǎn)數(shù)量來(lái)提高難度。雖然模型只在含有10個(gè)節(jié)點(diǎn)的圖上訓(xùn)練,但測(cè)試時(shí)使用了更多節(jié)點(diǎn)的圖。結(jié)果表明,隨著難度增加,所有模型的表現(xiàn)都會(huì)下降,但ProRL訓(xùn)練的模型在各種難度級(jí)別上都保持了明顯的優(yōu)勢(shì),表明它學(xué)到的能力具有很好的可擴(kuò)展性。
持久強(qiáng)化學(xué)習(xí)的實(shí)用價(jià)值與挑戰(zhàn)
NVIDIA團(tuán)隊(duì)的研究不僅在學(xué)術(shù)上具有重要意義,也有巨大的實(shí)用價(jià)值。
首先,這項(xiàng)研究證明,即使是相對(duì)小型的模型(1.5B參數(shù)),通過(guò)適當(dāng)?shù)挠?xùn)練方法也能獲得強(qiáng)大的推理能力。這對(duì)于資源有限的研究者和組織來(lái)說(shuō)是個(gè)好消息,因?yàn)樗麄兛梢杂酶俚挠?jì)算資源獲得優(yōu)秀的模型。
其次,研究表明,強(qiáng)化學(xué)習(xí)可以幫助模型在沒(méi)有額外訓(xùn)練數(shù)據(jù)的情況下提升能力。這在數(shù)據(jù)獲取困難的情況下尤其有價(jià)值。
然而,持久強(qiáng)化學(xué)習(xí)也面臨一些挑戰(zhàn)。首先是計(jì)算資源需求大。ProRL方法需要長(zhǎng)時(shí)間訓(xùn)練,這對(duì)于小型組織或研究者可能是一個(gè)障礙。其次是可擴(kuò)展性問(wèn)題。雖然研究證明了1.5B參數(shù)模型的有效性,但尚不清楚這種方法是否同樣適用于更大規(guī)模的模型。第三是訓(xùn)練過(guò)程的復(fù)雜性。需要定期重置參考策略和優(yōu)化器參數(shù)以保持訓(xùn)練穩(wěn)定性,這增加了訓(xùn)練過(guò)程的復(fù)雜度。
盡管如此,ProRL方法提供的強(qiáng)大推理能力提升仍然使得這些挑戰(zhàn)值得克服。正如研究人員所說(shuō),持久強(qiáng)化學(xué)習(xí)真正打開(kāi)了擴(kuò)展語(yǔ)言模型推理邊界的大門(mén)。
結(jié)論:耐心的訓(xùn)練帶來(lái)智能的飛躍
回到我們開(kāi)始的比喻:如果一個(gè)學(xué)生在特定領(lǐng)域表現(xiàn)不佳,是否意味著他永遠(yuǎn)無(wú)法掌握這個(gè)領(lǐng)域的知識(shí)?NVIDIA的研究告訴我們,答案是否定的。只要給予足夠的時(shí)間和適當(dāng)?shù)挠?xùn)練方法,即使是能力有限的模型也能在原本薄弱的領(lǐng)域取得顯著進(jìn)步。
這項(xiàng)研究的核心發(fā)現(xiàn)是,強(qiáng)化學(xué)習(xí)不僅能提高模型利用現(xiàn)有知識(shí)的效率,還能真正幫助模型探索和發(fā)現(xiàn)全新的解題策略。關(guān)鍵在于給模型足夠的學(xué)習(xí)時(shí)間(持久強(qiáng)化學(xué)習(xí)),提供多樣化的任務(wù)(跨領(lǐng)域訓(xùn)練),以及使用合適的學(xué)習(xí)控制機(jī)制(KL散度控制和參考策略重置)。
對(duì)于人工智能研究社區(qū)來(lái)說(shuō),這項(xiàng)工作挑戰(zhàn)了之前關(guān)于強(qiáng)化學(xué)習(xí)局限性的假設(shè),為未來(lái)更強(qiáng)大、更通用的推理模型的發(fā)展提供了新方向。對(duì)于普通用戶(hù)來(lái)說(shuō),這意味著我們可能很快就能看到更小、更高效但同時(shí)也更聰明的AI系統(tǒng),它們能夠處理各種復(fù)雜的推理任務(wù),從數(shù)學(xué)問(wèn)題到編程挑戰(zhàn),再到科學(xué)推理和邏輯謎題。
如果這項(xiàng)研究讓你感興趣,不妨訪問(wèn)研究團(tuán)隊(duì)的GitHub頁(yè)面或Hugging Face模型庫(kù),親自嘗試一下Nemotron-Research-Reasoning-Qwen-1.5B模型的能力。正如研究者們展示的那樣,有時(shí)候,耐心的訓(xùn)練比模型的原始能力更重要,這不僅適用于AI,也許對(duì)我們?nèi)祟?lèi)自身的學(xué)習(xí)也是一種啟示。
好文章,需要你的鼓勵(lì)
新加坡國(guó)立大學(xué)研究團(tuán)隊(duì)開(kāi)發(fā)了SPIRAL框架,通過(guò)讓AI與自己對(duì)弈零和游戲來(lái)提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡(jiǎn)單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無(wú)需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開(kāi)發(fā)的GIGA-ToF技術(shù)通過(guò)融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問(wèn)題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺(jué)解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過(guò)對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺(jué)語(yǔ)言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無(wú)法有效利用視覺(jué)信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過(guò)動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語(yǔ)言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。