在人工智能領(lǐng)域,特別是大語(yǔ)言模型的訓(xùn)練與優(yōu)化上,一項(xiàng)重要的研究成果于2025年5月29日由微軟研究院的研究團(tuán)隊(duì)發(fā)布在arXiv預(yù)印本平臺(tái)上。這項(xiàng)名為《基于最優(yōu)獎(jiǎng)勵(lì)基線的在策略強(qiáng)化學(xué)習(xí)》(On-Policy RL with Optimal Reward Baseline, OPO)的研究由Yaru Hao、Li Dong、Xun Wu、Shaohan Huang、Zewen Chi和Furu Wei共同完成,論文編號(hào)為arXiv:2505.23585v1。研究團(tuán)隊(duì)提供了完整的實(shí)現(xiàn)代碼,有興趣的讀者可以通過(guò)https://github.com/microsoft/LMOps/tree/main/opo訪問(wèn)。
強(qiáng)化學(xué)習(xí)是一種讓人工智能通過(guò)"試錯(cuò)"來(lái)學(xué)習(xí)的方法,就像我們學(xué)騎自行車(chē)一樣——跌倒幾次后,慢慢掌握平衡感。在大語(yǔ)言模型的世界里,強(qiáng)化學(xué)習(xí)已經(jīng)成為讓模型理解人類(lèi)偏好和增強(qiáng)推理能力的關(guān)鍵技術(shù)。但是,目前主流的強(qiáng)化學(xué)習(xí)算法面臨兩個(gè)主要問(wèn)題,就像一輛結(jié)構(gòu)復(fù)雜但不太穩(wěn)定的汽車(chē):一方面,它們常常訓(xùn)練不穩(wěn)定,容易出現(xiàn)"打滑"現(xiàn)象;另一方面,它們需要額外的輔助模型來(lái)幫助訓(xùn)練,就像需要多個(gè)副駕駛,浪費(fèi)了計(jì)算資源。
微軟研究院的團(tuán)隊(duì)針對(duì)這些問(wèn)題,提出了一種名為"基于最優(yōu)獎(jiǎng)勵(lì)基線的在策略強(qiáng)化學(xué)習(xí)"(OPO)的算法。想象一下,如果之前的算法是一輛結(jié)構(gòu)復(fù)雜的老爺車(chē),那么OPO就像是經(jīng)過(guò)精心設(shè)計(jì)的新型跑車(chē)——結(jié)構(gòu)更簡(jiǎn)單,但性能更強(qiáng)大。OPO有兩個(gè)關(guān)鍵創(chuàng)新:一是嚴(yán)格堅(jiān)持"在策略"訓(xùn)練,就像嚴(yán)格按照駕駛手冊(cè)操作;二是引入了理論上最優(yōu)的獎(jiǎng)勵(lì)基線,就像為汽車(chē)配備了最先進(jìn)的導(dǎo)航系統(tǒng)。這兩項(xiàng)改進(jìn)使得OPO不需要額外的輔助模型,也不需要復(fù)雜的正則化項(xiàng),就能實(shí)現(xiàn)穩(wěn)定高效的訓(xùn)練。
研究團(tuán)隊(duì)在數(shù)學(xué)推理基準(zhǔn)測(cè)試上評(píng)估了OPO的性能。結(jié)果顯示,OPO不僅在準(zhǔn)確率上超過(guò)了現(xiàn)有方法,而且訓(xùn)練過(guò)程更加穩(wěn)定。更令人驚喜的是,OPO生成的回答更加多樣化,重復(fù)率更低,這意味著它能夠產(chǎn)生更自然、更有創(chuàng)意的回答。
讓我們一起深入了解這項(xiàng)研究,看看微軟研究院的研究人員是如何讓大語(yǔ)言模型的訓(xùn)練變得更加高效和穩(wěn)定的。
一、強(qiáng)化學(xué)習(xí)與大語(yǔ)言模型:從人類(lèi)反饋到智能推理
大語(yǔ)言模型(如ChatGPT、Claude等)的發(fā)展經(jīng)歷了多個(gè)階段,而強(qiáng)化學(xué)習(xí)尤其是基于人類(lèi)反饋的強(qiáng)化學(xué)習(xí)(RLHF)已成為讓這些模型與人類(lèi)偏好保持一致的關(guān)鍵技術(shù)。想象一下,如果說(shuō)初始的語(yǔ)言模型就像是一個(gè)掌握了大量知識(shí)但不太懂得如何恰當(dāng)表達(dá)的學(xué)生,那么RLHF就像是一位耐心的老師,通過(guò)不斷的反饋幫助這位學(xué)生學(xué)會(huì)如何更好地表達(dá)自己的想法。
標(biāo)準(zhǔn)的RLHF流程通常包括兩個(gè)階段:首先是監(jiān)督微調(diào)(SFT),就像是基礎(chǔ)教育;然后是強(qiáng)化學(xué)習(xí)階段,就像是進(jìn)階培訓(xùn)。在強(qiáng)化學(xué)習(xí)階段,最常用的算法是近端策略?xún)?yōu)化(Proximal Policy Optimization,PPO)。PPO算法需要訓(xùn)練一個(gè)額外的價(jià)值模型來(lái)估計(jì)每個(gè)狀態(tài)的價(jià)值,就像是雇傭了一位助教來(lái)評(píng)估學(xué)生的每一步表現(xiàn)。
除了一般的對(duì)齊任務(wù),強(qiáng)化學(xué)習(xí)還被證明在增強(qiáng)語(yǔ)言模型的推理能力方面非常有效。例如,OpenAI的o1模型和DeepSeek的R1模型都展示了通過(guò)強(qiáng)化學(xué)習(xí),甚至是基于簡(jiǎn)單規(guī)則的獎(jiǎng)勵(lì),就能顯著提升模型在數(shù)學(xué)和編程等復(fù)雜任務(wù)上的表現(xiàn)。
然而,現(xiàn)有的RLHF算法面臨著穩(wěn)定性和效率的挑戰(zhàn)。就像一輛性能強(qiáng)大但難以控制的賽車(chē),這些算法常常因?yàn)樗缮⒌?在策略"約束而訓(xùn)練不穩(wěn)定,導(dǎo)致大幅度的策略偏移和樣本多樣性降低,這種現(xiàn)象被稱(chēng)為"對(duì)齊稅"(alignment tax)——為了讓模型與人類(lèi)偏好對(duì)齊,不得不犧牲模型的一部分原有能力和多樣性。
二、OPO算法:簡(jiǎn)化設(shè)計(jì)背后的理論突破
微軟研究院團(tuán)隊(duì)提出的OPO算法像是對(duì)賽車(chē)進(jìn)行了全面升級(jí),保留了核心引擎但簡(jiǎn)化了其他組件,使其更加穩(wěn)定高效。OPO有兩個(gè)關(guān)鍵改進(jìn):嚴(yán)格的在策略訓(xùn)練和理論上最優(yōu)的獎(jiǎng)勵(lì)基線。
首先,讓我們理解什么是"在策略"訓(xùn)練。想象你在學(xué)習(xí)烹飪一道新菜。"在策略"訓(xùn)練就像是嚴(yán)格按照當(dāng)前的食譜來(lái)烹飪,然后根據(jù)嘗試結(jié)果改進(jìn)食譜;而"離策略"(或松散的在策略)訓(xùn)練則像是用舊版食譜做了一批菜,然后多次嘗試修改食譜而不重新烹飪。雖然后者似乎更高效(不用每次都重新烹飪),但可能導(dǎo)致食譜越改越偏離實(shí)際效果。OPO堅(jiān)持嚴(yán)格的在策略訓(xùn)練,確保每一次梯度更新都基于最新策略采樣的數(shù)據(jù),這在實(shí)踐中能夠穩(wěn)定訓(xùn)練過(guò)程并增強(qiáng)探索能力。
其次,OPO引入了理論上最優(yōu)的獎(jiǎng)勵(lì)基線。在強(qiáng)化學(xué)習(xí)中,基線的作用是減少梯度估計(jì)的方差,就像在騎自行車(chē)時(shí),有一個(gè)參考線可以幫助你保持平衡。傳統(tǒng)算法中的基線往往是啟發(fā)式設(shè)計(jì)的,而OPO通過(guò)理論推導(dǎo)得出了能夠最小化梯度方差的最優(yōu)基線:
b* = E[||?θ log πθ(y|x)||? · r(x, y)] / E[||?θ log πθ(y|x)||?]
這個(gè)公式看起來(lái)可能有些復(fù)雜,但實(shí)際上它表示的是一個(gè)加權(quán)平均的獎(jiǎng)勵(lì),權(quán)重是策略梯度的平方大小。對(duì)于序列生成問(wèn)題(如語(yǔ)言建模),在一些簡(jiǎn)化假設(shè)下,這個(gè)最優(yōu)基線可以進(jìn)一步簡(jiǎn)化為:
b* = E[ly · r(x, y)] / E[ly]
其中l(wèi)y是響應(yīng)y的長(zhǎng)度。這意味著更長(zhǎng)的響應(yīng)在基線計(jì)算中貢獻(xiàn)更多。
通過(guò)整合這兩項(xiàng)改進(jìn),OPO成功地消除了對(duì)輔助模型(如價(jià)值模型和參考模型)的需求,也不需要復(fù)雜的正則化項(xiàng)。它只依賴(lài)于一個(gè)單一的策略模型,直接優(yōu)化以最大化期望獎(jiǎng)勵(lì)。
三、實(shí)驗(yàn)驗(yàn)證:穩(wěn)定性與性能的雙重提升
為了驗(yàn)證OPO的有效性,研究團(tuán)隊(duì)在多個(gè)數(shù)學(xué)推理基準(zhǔn)測(cè)試上進(jìn)行了實(shí)驗(yàn)。他們使用了DeepSeek-R1-Distill-Qwen-7B模型,這是一個(gè)經(jīng)過(guò)蒸餾的7B參數(shù)模型。
在實(shí)驗(yàn)設(shè)計(jì)上,研究團(tuán)隊(duì)進(jìn)行了兩組對(duì)比:第一組比較了嚴(yán)格在策略和松散在策略的GRPO訓(xùn)練;第二組在嚴(yán)格在策略訓(xùn)練的基礎(chǔ)上,比較了OPO和GRPO的性能差異。
在訓(xùn)練數(shù)據(jù)方面,團(tuán)隊(duì)使用了Skywork-OR1-RL-Data數(shù)據(jù)集中的數(shù)學(xué)子集,包含48k個(gè)獨(dú)特的數(shù)學(xué)問(wèn)題。他們采用了基于規(guī)則的獎(jiǎng)勵(lì)函數(shù):如果回答正確,獎(jiǎng)勵(lì)為1;如果回答錯(cuò)誤,獎(jiǎng)勵(lì)為0。正確性由Math-Verify評(píng)估器判定。
在評(píng)估方面,團(tuán)隊(duì)在三個(gè)廣泛使用的數(shù)學(xué)推理基準(zhǔn)上進(jìn)行了測(cè)試:MATH-500、AIME 2024和AIME 2025。他們使用了pass@k指標(biāo),這表示從k個(gè)樣本中至少有一個(gè)正確答案的概率。
第一組實(shí)驗(yàn)結(jié)果表明,在相同的優(yōu)化步驟下,嚴(yán)格在策略訓(xùn)練在pass@1指標(biāo)上顯著優(yōu)于松散在策略訓(xùn)練,這驗(yàn)證了嚴(yán)格在策略訓(xùn)練的有效性。對(duì)于更大的k值(如pass@8),兩種方法的表現(xiàn)相當(dāng)。
第二組實(shí)驗(yàn)結(jié)果更加令人興奮。OPO在大多數(shù)情況下優(yōu)于GRPO,特別是在更大的k值(如pass@8和pass@16)上,其改進(jìn)更為顯著。更值得注意的是,雖然GRPO有時(shí)在pass@16指標(biāo)上相比初始的SFT策略表現(xiàn)相似或甚至降低,但OPO能夠超越SFT基線,這表明它在擴(kuò)展性能和跨數(shù)據(jù)集泛化方面的有效性。
除了準(zhǔn)確率,研究團(tuán)隊(duì)還分析了訓(xùn)練動(dòng)態(tài),包括模型輸出分布的熵和更新模型與原始模型之間的KL散度。結(jié)果顯示,嚴(yán)格在策略訓(xùn)練表現(xiàn)出顯著更低的KL散度和更高的熵,即使沒(méi)有任何顯式的KL或熵正則化。這意味著嚴(yán)格在策略訓(xùn)練能夠自然地維持模型的多樣性和穩(wěn)定性。
四、深入分析:為什么OPO生成更多樣化的回答?
在訓(xùn)練穩(wěn)定性和性能之外,一個(gè)特別有趣的發(fā)現(xiàn)是OPO生成的回答更加多樣化,重復(fù)率更低。研究團(tuán)隊(duì)使用了兩個(gè)指標(biāo)來(lái)量化這一點(diǎn):Self-BLEU和Rep-5。
Self-BLEU用于量化采樣多樣性。對(duì)于每個(gè)查詢(xún),模型會(huì)生成多個(gè)回答;每個(gè)回答被視為一個(gè)假設(shè),并與其他回答作為參考進(jìn)行比較。所有組合的平均BLEU分?jǐn)?shù)被報(bào)告為Self-BLEU。較低的Self-BLEU分?jǐn)?shù)表示回答之間的多樣性更高。
Rep-5則用于測(cè)量重復(fù)率,它計(jì)算每個(gè)生成序列中重復(fù)5-gram的比例。較低的Rep-5分?jǐn)?shù)反映了序列內(nèi)部重復(fù)較少。
實(shí)驗(yàn)結(jié)果表明,受益于嚴(yán)格的在策略訓(xùn)練和最優(yōu)獎(jiǎng)勵(lì)基線,OPO生成的輸出在多樣性和重復(fù)率方面都優(yōu)于其他方法。這對(duì)用戶(hù)體驗(yàn)有著直接的影響——用戶(hù)會(huì)得到更自然、更有創(chuàng)意的回答,而不是刻板或重復(fù)的回應(yīng)。
為什么OPO能夠保持更高的多樣性?一個(gè)可能的解釋是,嚴(yán)格在策略訓(xùn)練保持了較高的熵(即不確定性),這鼓勵(lì)模型探索更多可能的回答。傳統(tǒng)的松散在策略方法可能會(huì)過(guò)度優(yōu)化特定的回答模式,導(dǎo)致"模式崩塌"——模型傾向于生成非常相似的回答。
此外,最優(yōu)獎(jiǎng)勵(lì)基線的使用也有助于穩(wěn)定訓(xùn)練過(guò)程,使模型能夠在優(yōu)化性能的同時(shí)保持多樣性。這是一個(gè)很好的平衡——既能給出正確的答案,又能保持回答的自然和多樣性。
五、OPO的優(yōu)勢(shì)與實(shí)際應(yīng)用
總結(jié)一下OPO的主要優(yōu)勢(shì):
理論嚴(yán)謹(jǐn)性:OPO基于理論推導(dǎo)出的最優(yōu)獎(jiǎng)勵(lì)基線,能夠最小化梯度方差,確保更穩(wěn)健的學(xué)習(xí)過(guò)程。
增強(qiáng)穩(wěn)定性:OPO展現(xiàn)出穩(wěn)定的訓(xùn)練動(dòng)態(tài),即使沒(méi)有顯式的KL或熵正則化,這對(duì)于可靠的性能至關(guān)重要。
經(jīng)驗(yàn)有效性:OPO在數(shù)學(xué)推理基準(zhǔn)測(cè)試上表現(xiàn)出色,生成更多樣化、重復(fù)率更低的回答。
從實(shí)際應(yīng)用角度看,OPO可以在多個(gè)場(chǎng)景中發(fā)揮作用:
教育輔助:OPO優(yōu)化的語(yǔ)言模型能夠生成更多樣化的數(shù)學(xué)問(wèn)題解答,幫助學(xué)生理解不同的解題思路。
客戶(hù)服務(wù):在客服聊天機(jī)器人中,OPO可以幫助模型生成更自然、不刻板的回答,提升用戶(hù)體驗(yàn)。
創(chuàng)意寫(xiě)作:OPO的多樣性?xún)?yōu)勢(shì)可以應(yīng)用于輔助創(chuàng)意寫(xiě)作,生成更有創(chuàng)意和不重復(fù)的內(nèi)容。
此外,OPO的簡(jiǎn)化設(shè)計(jì)(不需要額外的價(jià)值模型或復(fù)雜的正則化)也意味著它在實(shí)際部署中更加高效,可以降低計(jì)算成本和復(fù)雜性。
六、未來(lái)展望與研究方向
雖然OPO在數(shù)學(xué)推理任務(wù)上表現(xiàn)出色,但研究團(tuán)隊(duì)也指出了一些未來(lái)的研究方向。首先,他們計(jì)劃在更廣泛的強(qiáng)化學(xué)習(xí)設(shè)置中進(jìn)行更全面的實(shí)驗(yàn),以進(jìn)一步評(píng)估方法的通用性和穩(wěn)健性。
其次,雖然本研究主要使用了基于規(guī)則的獎(jiǎng)勵(lì),但OPO原則上也適用于其他類(lèi)型的獎(jiǎng)勵(lì)信號(hào),如基于人類(lèi)偏好的獎(jiǎng)勵(lì)模型。這為將OPO應(yīng)用于更廣泛的對(duì)齊任務(wù)打開(kāi)了可能性。
另外,OPO的理論基礎(chǔ)也可能啟發(fā)其他強(qiáng)化學(xué)習(xí)算法的改進(jìn)。例如,最優(yōu)基線的概念可能被應(yīng)用到其他策略梯度方法中,而嚴(yán)格在策略訓(xùn)練的穩(wěn)定性?xún)?yōu)勢(shì)也可能影響未來(lái)算法的設(shè)計(jì)哲學(xué)。
總的來(lái)說(shuō),OPO代表了一種回歸基礎(chǔ)、追求簡(jiǎn)潔和理論嚴(yán)謹(jǐn)性的趨勢(shì),這與當(dāng)前AI研究中常見(jiàn)的復(fù)雜模型和啟發(fā)式方法形成了對(duì)比。正如研究團(tuán)隊(duì)所說(shuō):"簡(jiǎn)單而有效"可能是未來(lái)算法設(shè)計(jì)的重要方向。
結(jié)論:簡(jiǎn)化設(shè)計(jì)背后的深刻洞見(jiàn)
說(shuō)到底,OPO算法的成功告訴我們一個(gè)重要的道理:在人工智能研究中,有時(shí)候最有效的解決方案不是增加復(fù)雜性,而是回歸基礎(chǔ)原則并進(jìn)行理論上的深入思考。
通過(guò)嚴(yán)格遵守在策略訓(xùn)練原則并引入理論上最優(yōu)的獎(jiǎng)勵(lì)基線,微軟研究院的團(tuán)隊(duì)成功地創(chuàng)造了一個(gè)更簡(jiǎn)單、更穩(wěn)定、更高效的強(qiáng)化學(xué)習(xí)算法。這種設(shè)計(jì)不僅在理論上有堅(jiān)實(shí)的基礎(chǔ),在實(shí)踐中也展現(xiàn)出卓越的性能——更高的準(zhǔn)確率、更穩(wěn)定的訓(xùn)練過(guò)程以及更多樣化的輸出。
對(duì)于普通用戶(hù)來(lái)說(shuō),OPO的成功意味著未來(lái)的AI助手可能會(huì)提供更自然、更有創(chuàng)意、更少重復(fù)的回答,同時(shí)在處理復(fù)雜任務(wù)(如數(shù)學(xué)問(wèn)題)時(shí)表現(xiàn)更為出色。對(duì)于AI研究人員和工程師來(lái)說(shuō),OPO提供了一個(gè)簡(jiǎn)化強(qiáng)化學(xué)習(xí)流程的新思路,可能會(huì)影響未來(lái)語(yǔ)言模型訓(xùn)練的設(shè)計(jì)選擇。
如果你對(duì)OPO算法的技術(shù)細(xì)節(jié)感興趣,可以通過(guò)論文鏈接(arXiv:2505.23585v1)查閱完整論文,或者訪問(wèn)GitHub倉(cāng)庫(kù)(https://github.com/microsoft/LMOps/tree/main/opo)查看實(shí)現(xiàn)代碼。在這個(gè)AI快速發(fā)展的時(shí)代,像OPO這樣的創(chuàng)新算法將繼續(xù)推動(dòng)語(yǔ)言模型向更智能、更自然、更有用的方向發(fā)展。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語(yǔ)言模型的敘事推理能力與音頻生成技術(shù),通過(guò)交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開(kāi)辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過(guò)讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問(wèn)題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語(yǔ)言模型人性化對(duì)話問(wèn)題。該研究創(chuàng)建了包含20萬(wàn)高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過(guò)創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開(kāi)發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過(guò)學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來(lái)了效率和精度的雙重突破。