在人工智能領(lǐng)域,特別是大語言模型的訓(xùn)練與優(yōu)化上,一項重要的研究成果于2025年5月29日由微軟研究院的研究團(tuán)隊發(fā)布在arXiv預(yù)印本平臺上。這項名為《基于最優(yōu)獎勵基線的在策略強化學(xué)習(xí)》(On-Policy RL with Optimal Reward Baseline, OPO)的研究由Yaru Hao、Li Dong、Xun Wu、Shaohan Huang、Zewen Chi和Furu Wei共同完成,論文編號為arXiv:2505.23585v1。研究團(tuán)隊提供了完整的實現(xiàn)代碼,有興趣的讀者可以通過https://github.com/microsoft/LMOps/tree/main/opo訪問。
強化學(xué)習(xí)是一種讓人工智能通過"試錯"來學(xué)習(xí)的方法,就像我們學(xué)騎自行車一樣——跌倒幾次后,慢慢掌握平衡感。在大語言模型的世界里,強化學(xué)習(xí)已經(jīng)成為讓模型理解人類偏好和增強推理能力的關(guān)鍵技術(shù)。但是,目前主流的強化學(xué)習(xí)算法面臨兩個主要問題,就像一輛結(jié)構(gòu)復(fù)雜但不太穩(wěn)定的汽車:一方面,它們常常訓(xùn)練不穩(wěn)定,容易出現(xiàn)"打滑"現(xiàn)象;另一方面,它們需要額外的輔助模型來幫助訓(xùn)練,就像需要多個副駕駛,浪費了計算資源。
微軟研究院的團(tuán)隊針對這些問題,提出了一種名為"基于最優(yōu)獎勵基線的在策略強化學(xué)習(xí)"(OPO)的算法。想象一下,如果之前的算法是一輛結(jié)構(gòu)復(fù)雜的老爺車,那么OPO就像是經(jīng)過精心設(shè)計的新型跑車——結(jié)構(gòu)更簡單,但性能更強大。OPO有兩個關(guān)鍵創(chuàng)新:一是嚴(yán)格堅持"在策略"訓(xùn)練,就像嚴(yán)格按照駕駛手冊操作;二是引入了理論上最優(yōu)的獎勵基線,就像為汽車配備了最先進(jìn)的導(dǎo)航系統(tǒng)。這兩項改進(jìn)使得OPO不需要額外的輔助模型,也不需要復(fù)雜的正則化項,就能實現(xiàn)穩(wěn)定高效的訓(xùn)練。
研究團(tuán)隊在數(shù)學(xué)推理基準(zhǔn)測試上評估了OPO的性能。結(jié)果顯示,OPO不僅在準(zhǔn)確率上超過了現(xiàn)有方法,而且訓(xùn)練過程更加穩(wěn)定。更令人驚喜的是,OPO生成的回答更加多樣化,重復(fù)率更低,這意味著它能夠產(chǎn)生更自然、更有創(chuàng)意的回答。
讓我們一起深入了解這項研究,看看微軟研究院的研究人員是如何讓大語言模型的訓(xùn)練變得更加高效和穩(wěn)定的。
一、強化學(xué)習(xí)與大語言模型:從人類反饋到智能推理
大語言模型(如ChatGPT、Claude等)的發(fā)展經(jīng)歷了多個階段,而強化學(xué)習(xí)尤其是基于人類反饋的強化學(xué)習(xí)(RLHF)已成為讓這些模型與人類偏好保持一致的關(guān)鍵技術(shù)。想象一下,如果說初始的語言模型就像是一個掌握了大量知識但不太懂得如何恰當(dāng)表達(dá)的學(xué)生,那么RLHF就像是一位耐心的老師,通過不斷的反饋幫助這位學(xué)生學(xué)會如何更好地表達(dá)自己的想法。
標(biāo)準(zhǔn)的RLHF流程通常包括兩個階段:首先是監(jiān)督微調(diào)(SFT),就像是基礎(chǔ)教育;然后是強化學(xué)習(xí)階段,就像是進(jìn)階培訓(xùn)。在強化學(xué)習(xí)階段,最常用的算法是近端策略優(yōu)化(Proximal Policy Optimization,PPO)。PPO算法需要訓(xùn)練一個額外的價值模型來估計每個狀態(tài)的價值,就像是雇傭了一位助教來評估學(xué)生的每一步表現(xiàn)。
除了一般的對齊任務(wù),強化學(xué)習(xí)還被證明在增強語言模型的推理能力方面非常有效。例如,OpenAI的o1模型和DeepSeek的R1模型都展示了通過強化學(xué)習(xí),甚至是基于簡單規(guī)則的獎勵,就能顯著提升模型在數(shù)學(xué)和編程等復(fù)雜任務(wù)上的表現(xiàn)。
然而,現(xiàn)有的RLHF算法面臨著穩(wěn)定性和效率的挑戰(zhàn)。就像一輛性能強大但難以控制的賽車,這些算法常常因為松散的"在策略"約束而訓(xùn)練不穩(wěn)定,導(dǎo)致大幅度的策略偏移和樣本多樣性降低,這種現(xiàn)象被稱為"對齊稅"(alignment tax)——為了讓模型與人類偏好對齊,不得不犧牲模型的一部分原有能力和多樣性。
二、OPO算法:簡化設(shè)計背后的理論突破
微軟研究院團(tuán)隊提出的OPO算法像是對賽車進(jìn)行了全面升級,保留了核心引擎但簡化了其他組件,使其更加穩(wěn)定高效。OPO有兩個關(guān)鍵改進(jìn):嚴(yán)格的在策略訓(xùn)練和理論上最優(yōu)的獎勵基線。
首先,讓我們理解什么是"在策略"訓(xùn)練。想象你在學(xué)習(xí)烹飪一道新菜。"在策略"訓(xùn)練就像是嚴(yán)格按照當(dāng)前的食譜來烹飪,然后根據(jù)嘗試結(jié)果改進(jìn)食譜;而"離策略"(或松散的在策略)訓(xùn)練則像是用舊版食譜做了一批菜,然后多次嘗試修改食譜而不重新烹飪。雖然后者似乎更高效(不用每次都重新烹飪),但可能導(dǎo)致食譜越改越偏離實際效果。OPO堅持嚴(yán)格的在策略訓(xùn)練,確保每一次梯度更新都基于最新策略采樣的數(shù)據(jù),這在實踐中能夠穩(wěn)定訓(xùn)練過程并增強探索能力。
其次,OPO引入了理論上最優(yōu)的獎勵基線。在強化學(xué)習(xí)中,基線的作用是減少梯度估計的方差,就像在騎自行車時,有一個參考線可以幫助你保持平衡。傳統(tǒng)算法中的基線往往是啟發(fā)式設(shè)計的,而OPO通過理論推導(dǎo)得出了能夠最小化梯度方差的最優(yōu)基線:
b* = E[||?θ log πθ(y|x)||? · r(x, y)] / E[||?θ log πθ(y|x)||?]
這個公式看起來可能有些復(fù)雜,但實際上它表示的是一個加權(quán)平均的獎勵,權(quán)重是策略梯度的平方大小。對于序列生成問題(如語言建模),在一些簡化假設(shè)下,這個最優(yōu)基線可以進(jìn)一步簡化為:
b* = E[ly · r(x, y)] / E[ly]
其中l(wèi)y是響應(yīng)y的長度。這意味著更長的響應(yīng)在基線計算中貢獻(xiàn)更多。
通過整合這兩項改進(jìn),OPO成功地消除了對輔助模型(如價值模型和參考模型)的需求,也不需要復(fù)雜的正則化項。它只依賴于一個單一的策略模型,直接優(yōu)化以最大化期望獎勵。
三、實驗驗證:穩(wěn)定性與性能的雙重提升
為了驗證OPO的有效性,研究團(tuán)隊在多個數(shù)學(xué)推理基準(zhǔn)測試上進(jìn)行了實驗。他們使用了DeepSeek-R1-Distill-Qwen-7B模型,這是一個經(jīng)過蒸餾的7B參數(shù)模型。
在實驗設(shè)計上,研究團(tuán)隊進(jìn)行了兩組對比:第一組比較了嚴(yán)格在策略和松散在策略的GRPO訓(xùn)練;第二組在嚴(yán)格在策略訓(xùn)練的基礎(chǔ)上,比較了OPO和GRPO的性能差異。
在訓(xùn)練數(shù)據(jù)方面,團(tuán)隊使用了Skywork-OR1-RL-Data數(shù)據(jù)集中的數(shù)學(xué)子集,包含48k個獨特的數(shù)學(xué)問題。他們采用了基于規(guī)則的獎勵函數(shù):如果回答正確,獎勵為1;如果回答錯誤,獎勵為0。正確性由Math-Verify評估器判定。
在評估方面,團(tuán)隊在三個廣泛使用的數(shù)學(xué)推理基準(zhǔn)上進(jìn)行了測試:MATH-500、AIME 2024和AIME 2025。他們使用了pass@k指標(biāo),這表示從k個樣本中至少有一個正確答案的概率。
第一組實驗結(jié)果表明,在相同的優(yōu)化步驟下,嚴(yán)格在策略訓(xùn)練在pass@1指標(biāo)上顯著優(yōu)于松散在策略訓(xùn)練,這驗證了嚴(yán)格在策略訓(xùn)練的有效性。對于更大的k值(如pass@8),兩種方法的表現(xiàn)相當(dāng)。
第二組實驗結(jié)果更加令人興奮。OPO在大多數(shù)情況下優(yōu)于GRPO,特別是在更大的k值(如pass@8和pass@16)上,其改進(jìn)更為顯著。更值得注意的是,雖然GRPO有時在pass@16指標(biāo)上相比初始的SFT策略表現(xiàn)相似或甚至降低,但OPO能夠超越SFT基線,這表明它在擴展性能和跨數(shù)據(jù)集泛化方面的有效性。
除了準(zhǔn)確率,研究團(tuán)隊還分析了訓(xùn)練動態(tài),包括模型輸出分布的熵和更新模型與原始模型之間的KL散度。結(jié)果顯示,嚴(yán)格在策略訓(xùn)練表現(xiàn)出顯著更低的KL散度和更高的熵,即使沒有任何顯式的KL或熵正則化。這意味著嚴(yán)格在策略訓(xùn)練能夠自然地維持模型的多樣性和穩(wěn)定性。
四、深入分析:為什么OPO生成更多樣化的回答?
在訓(xùn)練穩(wěn)定性和性能之外,一個特別有趣的發(fā)現(xiàn)是OPO生成的回答更加多樣化,重復(fù)率更低。研究團(tuán)隊使用了兩個指標(biāo)來量化這一點:Self-BLEU和Rep-5。
Self-BLEU用于量化采樣多樣性。對于每個查詢,模型會生成多個回答;每個回答被視為一個假設(shè),并與其他回答作為參考進(jìn)行比較。所有組合的平均BLEU分?jǐn)?shù)被報告為Self-BLEU。較低的Self-BLEU分?jǐn)?shù)表示回答之間的多樣性更高。
Rep-5則用于測量重復(fù)率,它計算每個生成序列中重復(fù)5-gram的比例。較低的Rep-5分?jǐn)?shù)反映了序列內(nèi)部重復(fù)較少。
實驗結(jié)果表明,受益于嚴(yán)格的在策略訓(xùn)練和最優(yōu)獎勵基線,OPO生成的輸出在多樣性和重復(fù)率方面都優(yōu)于其他方法。這對用戶體驗有著直接的影響——用戶會得到更自然、更有創(chuàng)意的回答,而不是刻板或重復(fù)的回應(yīng)。
為什么OPO能夠保持更高的多樣性?一個可能的解釋是,嚴(yán)格在策略訓(xùn)練保持了較高的熵(即不確定性),這鼓勵模型探索更多可能的回答。傳統(tǒng)的松散在策略方法可能會過度優(yōu)化特定的回答模式,導(dǎo)致"模式崩塌"——模型傾向于生成非常相似的回答。
此外,最優(yōu)獎勵基線的使用也有助于穩(wěn)定訓(xùn)練過程,使模型能夠在優(yōu)化性能的同時保持多樣性。這是一個很好的平衡——既能給出正確的答案,又能保持回答的自然和多樣性。
五、OPO的優(yōu)勢與實際應(yīng)用
總結(jié)一下OPO的主要優(yōu)勢:
理論嚴(yán)謹(jǐn)性:OPO基于理論推導(dǎo)出的最優(yōu)獎勵基線,能夠最小化梯度方差,確保更穩(wěn)健的學(xué)習(xí)過程。
增強穩(wěn)定性:OPO展現(xiàn)出穩(wěn)定的訓(xùn)練動態(tài),即使沒有顯式的KL或熵正則化,這對于可靠的性能至關(guān)重要。
經(jīng)驗有效性:OPO在數(shù)學(xué)推理基準(zhǔn)測試上表現(xiàn)出色,生成更多樣化、重復(fù)率更低的回答。
從實際應(yīng)用角度看,OPO可以在多個場景中發(fā)揮作用:
教育輔助:OPO優(yōu)化的語言模型能夠生成更多樣化的數(shù)學(xué)問題解答,幫助學(xué)生理解不同的解題思路。
客戶服務(wù):在客服聊天機器人中,OPO可以幫助模型生成更自然、不刻板的回答,提升用戶體驗。
創(chuàng)意寫作:OPO的多樣性優(yōu)勢可以應(yīng)用于輔助創(chuàng)意寫作,生成更有創(chuàng)意和不重復(fù)的內(nèi)容。
此外,OPO的簡化設(shè)計(不需要額外的價值模型或復(fù)雜的正則化)也意味著它在實際部署中更加高效,可以降低計算成本和復(fù)雜性。
六、未來展望與研究方向
雖然OPO在數(shù)學(xué)推理任務(wù)上表現(xiàn)出色,但研究團(tuán)隊也指出了一些未來的研究方向。首先,他們計劃在更廣泛的強化學(xué)習(xí)設(shè)置中進(jìn)行更全面的實驗,以進(jìn)一步評估方法的通用性和穩(wěn)健性。
其次,雖然本研究主要使用了基于規(guī)則的獎勵,但OPO原則上也適用于其他類型的獎勵信號,如基于人類偏好的獎勵模型。這為將OPO應(yīng)用于更廣泛的對齊任務(wù)打開了可能性。
另外,OPO的理論基礎(chǔ)也可能啟發(fā)其他強化學(xué)習(xí)算法的改進(jìn)。例如,最優(yōu)基線的概念可能被應(yīng)用到其他策略梯度方法中,而嚴(yán)格在策略訓(xùn)練的穩(wěn)定性優(yōu)勢也可能影響未來算法的設(shè)計哲學(xué)。
總的來說,OPO代表了一種回歸基礎(chǔ)、追求簡潔和理論嚴(yán)謹(jǐn)性的趨勢,這與當(dāng)前AI研究中常見的復(fù)雜模型和啟發(fā)式方法形成了對比。正如研究團(tuán)隊所說:"簡單而有效"可能是未來算法設(shè)計的重要方向。
結(jié)論:簡化設(shè)計背后的深刻洞見
說到底,OPO算法的成功告訴我們一個重要的道理:在人工智能研究中,有時候最有效的解決方案不是增加復(fù)雜性,而是回歸基礎(chǔ)原則并進(jìn)行理論上的深入思考。
通過嚴(yán)格遵守在策略訓(xùn)練原則并引入理論上最優(yōu)的獎勵基線,微軟研究院的團(tuán)隊成功地創(chuàng)造了一個更簡單、更穩(wěn)定、更高效的強化學(xué)習(xí)算法。這種設(shè)計不僅在理論上有堅實的基礎(chǔ),在實踐中也展現(xiàn)出卓越的性能——更高的準(zhǔn)確率、更穩(wěn)定的訓(xùn)練過程以及更多樣化的輸出。
對于普通用戶來說,OPO的成功意味著未來的AI助手可能會提供更自然、更有創(chuàng)意、更少重復(fù)的回答,同時在處理復(fù)雜任務(wù)(如數(shù)學(xué)問題)時表現(xiàn)更為出色。對于AI研究人員和工程師來說,OPO提供了一個簡化強化學(xué)習(xí)流程的新思路,可能會影響未來語言模型訓(xùn)練的設(shè)計選擇。
如果你對OPO算法的技術(shù)細(xì)節(jié)感興趣,可以通過論文鏈接(arXiv:2505.23585v1)查閱完整論文,或者訪問GitHub倉庫(https://github.com/microsoft/LMOps/tree/main/opo)查看實現(xiàn)代碼。在這個AI快速發(fā)展的時代,像OPO這樣的創(chuàng)新算法將繼續(xù)推動語言模型向更智能、更自然、更有用的方向發(fā)展。
好文章,需要你的鼓勵
新加坡國立大學(xué)研究團(tuán)隊開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實驗顯示,僅訓(xùn)練AI玩簡單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟大學(xué)團(tuán)隊開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實現(xiàn)37.9%的精度提升,并在真實設(shè)備上展現(xiàn)出色泛化能力,為機器人、AR和自動駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊通過對比實驗發(fā)現(xiàn),經(jīng)過強化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時刻"現(xiàn)象,但這些自我糾錯行為并不能實際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗證差距",即生成答案的能力強于驗證答案質(zhì)量的能力,且模型在自我驗證時無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動態(tài)稀疏性實現(xiàn)大語言模型訓(xùn)練加速1.6倍,計算成本降低2.2倍。該方法使用SVD稀疏性估計器智能選擇重要計算部分,在保持模型性能的同時顯著提升訓(xùn)練效率,已在多個任務(wù)上驗證有效性。