av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見(jiàn)證連接與計(jì)算的「力量」

首頁(yè) 微軟研究院重大突破:更穩(wěn)定高效的大語(yǔ)言模型強(qiáng)化學(xué)習(xí)算法—OPO如何解決算法不穩(wěn)定和計(jì)算浪費(fèi)問(wèn)題

微軟研究院重大突破:更穩(wěn)定高效的大語(yǔ)言模型強(qiáng)化學(xué)習(xí)算法—OPO如何解決算法不穩(wěn)定和計(jì)算浪費(fèi)問(wèn)題

2025-06-03 17:00
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-03 17:00 ? 科技行者

在人工智能領(lǐng)域,特別是大語(yǔ)言模型的訓(xùn)練與優(yōu)化上,一項(xiàng)重要的研究成果于2025年5月29日由微軟研究院的研究團(tuán)隊(duì)發(fā)布在arXiv預(yù)印本平臺(tái)上。這項(xiàng)名為《基于最優(yōu)獎(jiǎng)勵(lì)基線的在策略強(qiáng)化學(xué)習(xí)》(On-Policy RL with Optimal Reward Baseline, OPO)的研究由Yaru Hao、Li Dong、Xun Wu、Shaohan Huang、Zewen Chi和Furu Wei共同完成,論文編號(hào)為arXiv:2505.23585v1。研究團(tuán)隊(duì)提供了完整的實(shí)現(xiàn)代碼,有興趣的讀者可以通過(guò)https://github.com/microsoft/LMOps/tree/main/opo訪問(wèn)。

強(qiáng)化學(xué)習(xí)是一種讓人工智能通過(guò)"試錯(cuò)"來(lái)學(xué)習(xí)的方法,就像我們學(xué)騎自行車(chē)一樣——跌倒幾次后,慢慢掌握平衡感。在大語(yǔ)言模型的世界里,強(qiáng)化學(xué)習(xí)已經(jīng)成為讓模型理解人類(lèi)偏好和增強(qiáng)推理能力的關(guān)鍵技術(shù)。但是,目前主流的強(qiáng)化學(xué)習(xí)算法面臨兩個(gè)主要問(wèn)題,就像一輛結(jié)構(gòu)復(fù)雜但不太穩(wěn)定的汽車(chē):一方面,它們常常訓(xùn)練不穩(wěn)定,容易出現(xiàn)"打滑"現(xiàn)象;另一方面,它們需要額外的輔助模型來(lái)幫助訓(xùn)練,就像需要多個(gè)副駕駛,浪費(fèi)了計(jì)算資源。

微軟研究院的團(tuán)隊(duì)針對(duì)這些問(wèn)題,提出了一種名為"基于最優(yōu)獎(jiǎng)勵(lì)基線的在策略強(qiáng)化學(xué)習(xí)"(OPO)的算法。想象一下,如果之前的算法是一輛結(jié)構(gòu)復(fù)雜的老爺車(chē),那么OPO就像是經(jīng)過(guò)精心設(shè)計(jì)的新型跑車(chē)——結(jié)構(gòu)更簡(jiǎn)單,但性能更強(qiáng)大。OPO有兩個(gè)關(guān)鍵創(chuàng)新:一是嚴(yán)格堅(jiān)持"在策略"訓(xùn)練,就像嚴(yán)格按照駕駛手冊(cè)操作;二是引入了理論上最優(yōu)的獎(jiǎng)勵(lì)基線,就像為汽車(chē)配備了最先進(jìn)的導(dǎo)航系統(tǒng)。這兩項(xiàng)改進(jìn)使得OPO不需要額外的輔助模型,也不需要復(fù)雜的正則化項(xiàng),就能實(shí)現(xiàn)穩(wěn)定高效的訓(xùn)練。

研究團(tuán)隊(duì)在數(shù)學(xué)推理基準(zhǔn)測(cè)試上評(píng)估了OPO的性能。結(jié)果顯示,OPO不僅在準(zhǔn)確率上超過(guò)了現(xiàn)有方法,而且訓(xùn)練過(guò)程更加穩(wěn)定。更令人驚喜的是,OPO生成的回答更加多樣化,重復(fù)率更低,這意味著它能夠產(chǎn)生更自然、更有創(chuàng)意的回答。

讓我們一起深入了解這項(xiàng)研究,看看微軟研究院的研究人員是如何讓大語(yǔ)言模型的訓(xùn)練變得更加高效和穩(wěn)定的。

一、強(qiáng)化學(xué)習(xí)與大語(yǔ)言模型:從人類(lèi)反饋到智能推理

大語(yǔ)言模型(如ChatGPT、Claude等)的發(fā)展經(jīng)歷了多個(gè)階段,而強(qiáng)化學(xué)習(xí)尤其是基于人類(lèi)反饋的強(qiáng)化學(xué)習(xí)(RLHF)已成為讓這些模型與人類(lèi)偏好保持一致的關(guān)鍵技術(shù)。想象一下,如果說(shuō)初始的語(yǔ)言模型就像是一個(gè)掌握了大量知識(shí)但不太懂得如何恰當(dāng)表達(dá)的學(xué)生,那么RLHF就像是一位耐心的老師,通過(guò)不斷的反饋幫助這位學(xué)生學(xué)會(huì)如何更好地表達(dá)自己的想法。

標(biāo)準(zhǔn)的RLHF流程通常包括兩個(gè)階段:首先是監(jiān)督微調(diào)(SFT),就像是基礎(chǔ)教育;然后是強(qiáng)化學(xué)習(xí)階段,就像是進(jìn)階培訓(xùn)。在強(qiáng)化學(xué)習(xí)階段,最常用的算法是近端策略?xún)?yōu)化(Proximal Policy Optimization,PPO)。PPO算法需要訓(xùn)練一個(gè)額外的價(jià)值模型來(lái)估計(jì)每個(gè)狀態(tài)的價(jià)值,就像是雇傭了一位助教來(lái)評(píng)估學(xué)生的每一步表現(xiàn)。

除了一般的對(duì)齊任務(wù),強(qiáng)化學(xué)習(xí)還被證明在增強(qiáng)語(yǔ)言模型的推理能力方面非常有效。例如,OpenAI的o1模型和DeepSeek的R1模型都展示了通過(guò)強(qiáng)化學(xué)習(xí),甚至是基于簡(jiǎn)單規(guī)則的獎(jiǎng)勵(lì),就能顯著提升模型在數(shù)學(xué)和編程等復(fù)雜任務(wù)上的表現(xiàn)。

然而,現(xiàn)有的RLHF算法面臨著穩(wěn)定性和效率的挑戰(zhàn)。就像一輛性能強(qiáng)大但難以控制的賽車(chē),這些算法常常因?yàn)樗缮⒌?在策略"約束而訓(xùn)練不穩(wěn)定,導(dǎo)致大幅度的策略偏移和樣本多樣性降低,這種現(xiàn)象被稱(chēng)為"對(duì)齊稅"(alignment tax)——為了讓模型與人類(lèi)偏好對(duì)齊,不得不犧牲模型的一部分原有能力和多樣性。

二、OPO算法:簡(jiǎn)化設(shè)計(jì)背后的理論突破

微軟研究院團(tuán)隊(duì)提出的OPO算法像是對(duì)賽車(chē)進(jìn)行了全面升級(jí),保留了核心引擎但簡(jiǎn)化了其他組件,使其更加穩(wěn)定高效。OPO有兩個(gè)關(guān)鍵改進(jìn):嚴(yán)格的在策略訓(xùn)練和理論上最優(yōu)的獎(jiǎng)勵(lì)基線。

首先,讓我們理解什么是"在策略"訓(xùn)練。想象你在學(xué)習(xí)烹飪一道新菜。"在策略"訓(xùn)練就像是嚴(yán)格按照當(dāng)前的食譜來(lái)烹飪,然后根據(jù)嘗試結(jié)果改進(jìn)食譜;而"離策略"(或松散的在策略)訓(xùn)練則像是用舊版食譜做了一批菜,然后多次嘗試修改食譜而不重新烹飪。雖然后者似乎更高效(不用每次都重新烹飪),但可能導(dǎo)致食譜越改越偏離實(shí)際效果。OPO堅(jiān)持嚴(yán)格的在策略訓(xùn)練,確保每一次梯度更新都基于最新策略采樣的數(shù)據(jù),這在實(shí)踐中能夠穩(wěn)定訓(xùn)練過(guò)程并增強(qiáng)探索能力。

其次,OPO引入了理論上最優(yōu)的獎(jiǎng)勵(lì)基線。在強(qiáng)化學(xué)習(xí)中,基線的作用是減少梯度估計(jì)的方差,就像在騎自行車(chē)時(shí),有一個(gè)參考線可以幫助你保持平衡。傳統(tǒng)算法中的基線往往是啟發(fā)式設(shè)計(jì)的,而OPO通過(guò)理論推導(dǎo)得出了能夠最小化梯度方差的最優(yōu)基線:

b* = E[||?θ log πθ(y|x)||? · r(x, y)] / E[||?θ log πθ(y|x)||?]

這個(gè)公式看起來(lái)可能有些復(fù)雜,但實(shí)際上它表示的是一個(gè)加權(quán)平均的獎(jiǎng)勵(lì),權(quán)重是策略梯度的平方大小。對(duì)于序列生成問(wèn)題(如語(yǔ)言建模),在一些簡(jiǎn)化假設(shè)下,這個(gè)最優(yōu)基線可以進(jìn)一步簡(jiǎn)化為:

b* = E[ly · r(x, y)] / E[ly]

其中l(wèi)y是響應(yīng)y的長(zhǎng)度。這意味著更長(zhǎng)的響應(yīng)在基線計(jì)算中貢獻(xiàn)更多。

通過(guò)整合這兩項(xiàng)改進(jìn),OPO成功地消除了對(duì)輔助模型(如價(jià)值模型和參考模型)的需求,也不需要復(fù)雜的正則化項(xiàng)。它只依賴(lài)于一個(gè)單一的策略模型,直接優(yōu)化以最大化期望獎(jiǎng)勵(lì)。

三、實(shí)驗(yàn)驗(yàn)證:穩(wěn)定性與性能的雙重提升

為了驗(yàn)證OPO的有效性,研究團(tuán)隊(duì)在多個(gè)數(shù)學(xué)推理基準(zhǔn)測(cè)試上進(jìn)行了實(shí)驗(yàn)。他們使用了DeepSeek-R1-Distill-Qwen-7B模型,這是一個(gè)經(jīng)過(guò)蒸餾的7B參數(shù)模型。

在實(shí)驗(yàn)設(shè)計(jì)上,研究團(tuán)隊(duì)進(jìn)行了兩組對(duì)比:第一組比較了嚴(yán)格在策略和松散在策略的GRPO訓(xùn)練;第二組在嚴(yán)格在策略訓(xùn)練的基礎(chǔ)上,比較了OPO和GRPO的性能差異。

在訓(xùn)練數(shù)據(jù)方面,團(tuán)隊(duì)使用了Skywork-OR1-RL-Data數(shù)據(jù)集中的數(shù)學(xué)子集,包含48k個(gè)獨(dú)特的數(shù)學(xué)問(wèn)題。他們采用了基于規(guī)則的獎(jiǎng)勵(lì)函數(shù):如果回答正確,獎(jiǎng)勵(lì)為1;如果回答錯(cuò)誤,獎(jiǎng)勵(lì)為0。正確性由Math-Verify評(píng)估器判定。

在評(píng)估方面,團(tuán)隊(duì)在三個(gè)廣泛使用的數(shù)學(xué)推理基準(zhǔn)上進(jìn)行了測(cè)試:MATH-500、AIME 2024和AIME 2025。他們使用了pass@k指標(biāo),這表示從k個(gè)樣本中至少有一個(gè)正確答案的概率。

第一組實(shí)驗(yàn)結(jié)果表明,在相同的優(yōu)化步驟下,嚴(yán)格在策略訓(xùn)練在pass@1指標(biāo)上顯著優(yōu)于松散在策略訓(xùn)練,這驗(yàn)證了嚴(yán)格在策略訓(xùn)練的有效性。對(duì)于更大的k值(如pass@8),兩種方法的表現(xiàn)相當(dāng)。

第二組實(shí)驗(yàn)結(jié)果更加令人興奮。OPO在大多數(shù)情況下優(yōu)于GRPO,特別是在更大的k值(如pass@8和pass@16)上,其改進(jìn)更為顯著。更值得注意的是,雖然GRPO有時(shí)在pass@16指標(biāo)上相比初始的SFT策略表現(xiàn)相似或甚至降低,但OPO能夠超越SFT基線,這表明它在擴(kuò)展性能和跨數(shù)據(jù)集泛化方面的有效性。

除了準(zhǔn)確率,研究團(tuán)隊(duì)還分析了訓(xùn)練動(dòng)態(tài),包括模型輸出分布的熵和更新模型與原始模型之間的KL散度。結(jié)果顯示,嚴(yán)格在策略訓(xùn)練表現(xiàn)出顯著更低的KL散度和更高的熵,即使沒(méi)有任何顯式的KL或熵正則化。這意味著嚴(yán)格在策略訓(xùn)練能夠自然地維持模型的多樣性和穩(wěn)定性。

四、深入分析:為什么OPO生成更多樣化的回答?

在訓(xùn)練穩(wěn)定性和性能之外,一個(gè)特別有趣的發(fā)現(xiàn)是OPO生成的回答更加多樣化,重復(fù)率更低。研究團(tuán)隊(duì)使用了兩個(gè)指標(biāo)來(lái)量化這一點(diǎn):Self-BLEU和Rep-5。

Self-BLEU用于量化采樣多樣性。對(duì)于每個(gè)查詢(xún),模型會(huì)生成多個(gè)回答;每個(gè)回答被視為一個(gè)假設(shè),并與其他回答作為參考進(jìn)行比較。所有組合的平均BLEU分?jǐn)?shù)被報(bào)告為Self-BLEU。較低的Self-BLEU分?jǐn)?shù)表示回答之間的多樣性更高。

Rep-5則用于測(cè)量重復(fù)率,它計(jì)算每個(gè)生成序列中重復(fù)5-gram的比例。較低的Rep-5分?jǐn)?shù)反映了序列內(nèi)部重復(fù)較少。

實(shí)驗(yàn)結(jié)果表明,受益于嚴(yán)格的在策略訓(xùn)練和最優(yōu)獎(jiǎng)勵(lì)基線,OPO生成的輸出在多樣性和重復(fù)率方面都優(yōu)于其他方法。這對(duì)用戶(hù)體驗(yàn)有著直接的影響——用戶(hù)會(huì)得到更自然、更有創(chuàng)意的回答,而不是刻板或重復(fù)的回應(yīng)。

為什么OPO能夠保持更高的多樣性?一個(gè)可能的解釋是,嚴(yán)格在策略訓(xùn)練保持了較高的熵(即不確定性),這鼓勵(lì)模型探索更多可能的回答。傳統(tǒng)的松散在策略方法可能會(huì)過(guò)度優(yōu)化特定的回答模式,導(dǎo)致"模式崩塌"——模型傾向于生成非常相似的回答。

此外,最優(yōu)獎(jiǎng)勵(lì)基線的使用也有助于穩(wěn)定訓(xùn)練過(guò)程,使模型能夠在優(yōu)化性能的同時(shí)保持多樣性。這是一個(gè)很好的平衡——既能給出正確的答案,又能保持回答的自然和多樣性。

五、OPO的優(yōu)勢(shì)與實(shí)際應(yīng)用

總結(jié)一下OPO的主要優(yōu)勢(shì):

理論嚴(yán)謹(jǐn)性:OPO基于理論推導(dǎo)出的最優(yōu)獎(jiǎng)勵(lì)基線,能夠最小化梯度方差,確保更穩(wěn)健的學(xué)習(xí)過(guò)程。

增強(qiáng)穩(wěn)定性:OPO展現(xiàn)出穩(wěn)定的訓(xùn)練動(dòng)態(tài),即使沒(méi)有顯式的KL或熵正則化,這對(duì)于可靠的性能至關(guān)重要。

經(jīng)驗(yàn)有效性:OPO在數(shù)學(xué)推理基準(zhǔn)測(cè)試上表現(xiàn)出色,生成更多樣化、重復(fù)率更低的回答。

從實(shí)際應(yīng)用角度看,OPO可以在多個(gè)場(chǎng)景中發(fā)揮作用:

教育輔助:OPO優(yōu)化的語(yǔ)言模型能夠生成更多樣化的數(shù)學(xué)問(wèn)題解答,幫助學(xué)生理解不同的解題思路。

客戶(hù)服務(wù):在客服聊天機(jī)器人中,OPO可以幫助模型生成更自然、不刻板的回答,提升用戶(hù)體驗(yàn)。

創(chuàng)意寫(xiě)作:OPO的多樣性?xún)?yōu)勢(shì)可以應(yīng)用于輔助創(chuàng)意寫(xiě)作,生成更有創(chuàng)意和不重復(fù)的內(nèi)容。

此外,OPO的簡(jiǎn)化設(shè)計(jì)(不需要額外的價(jià)值模型或復(fù)雜的正則化)也意味著它在實(shí)際部署中更加高效,可以降低計(jì)算成本和復(fù)雜性。

六、未來(lái)展望與研究方向

雖然OPO在數(shù)學(xué)推理任務(wù)上表現(xiàn)出色,但研究團(tuán)隊(duì)也指出了一些未來(lái)的研究方向。首先,他們計(jì)劃在更廣泛的強(qiáng)化學(xué)習(xí)設(shè)置中進(jìn)行更全面的實(shí)驗(yàn),以進(jìn)一步評(píng)估方法的通用性和穩(wěn)健性。

其次,雖然本研究主要使用了基于規(guī)則的獎(jiǎng)勵(lì),但OPO原則上也適用于其他類(lèi)型的獎(jiǎng)勵(lì)信號(hào),如基于人類(lèi)偏好的獎(jiǎng)勵(lì)模型。這為將OPO應(yīng)用于更廣泛的對(duì)齊任務(wù)打開(kāi)了可能性。

另外,OPO的理論基礎(chǔ)也可能啟發(fā)其他強(qiáng)化學(xué)習(xí)算法的改進(jìn)。例如,最優(yōu)基線的概念可能被應(yīng)用到其他策略梯度方法中,而嚴(yán)格在策略訓(xùn)練的穩(wěn)定性?xún)?yōu)勢(shì)也可能影響未來(lái)算法的設(shè)計(jì)哲學(xué)。

總的來(lái)說(shuō),OPO代表了一種回歸基礎(chǔ)、追求簡(jiǎn)潔和理論嚴(yán)謹(jǐn)性的趨勢(shì),這與當(dāng)前AI研究中常見(jiàn)的復(fù)雜模型和啟發(fā)式方法形成了對(duì)比。正如研究團(tuán)隊(duì)所說(shuō):"簡(jiǎn)單而有效"可能是未來(lái)算法設(shè)計(jì)的重要方向。

結(jié)論:簡(jiǎn)化設(shè)計(jì)背后的深刻洞見(jiàn)

說(shuō)到底,OPO算法的成功告訴我們一個(gè)重要的道理:在人工智能研究中,有時(shí)候最有效的解決方案不是增加復(fù)雜性,而是回歸基礎(chǔ)原則并進(jìn)行理論上的深入思考。

通過(guò)嚴(yán)格遵守在策略訓(xùn)練原則并引入理論上最優(yōu)的獎(jiǎng)勵(lì)基線,微軟研究院的團(tuán)隊(duì)成功地創(chuàng)造了一個(gè)更簡(jiǎn)單、更穩(wěn)定、更高效的強(qiáng)化學(xué)習(xí)算法。這種設(shè)計(jì)不僅在理論上有堅(jiān)實(shí)的基礎(chǔ),在實(shí)踐中也展現(xiàn)出卓越的性能——更高的準(zhǔn)確率、更穩(wěn)定的訓(xùn)練過(guò)程以及更多樣化的輸出。

對(duì)于普通用戶(hù)來(lái)說(shuō),OPO的成功意味著未來(lái)的AI助手可能會(huì)提供更自然、更有創(chuàng)意、更少重復(fù)的回答,同時(shí)在處理復(fù)雜任務(wù)(如數(shù)學(xué)問(wèn)題)時(shí)表現(xiàn)更為出色。對(duì)于AI研究人員和工程師來(lái)說(shuō),OPO提供了一個(gè)簡(jiǎn)化強(qiáng)化學(xué)習(xí)流程的新思路,可能會(huì)影響未來(lái)語(yǔ)言模型訓(xùn)練的設(shè)計(jì)選擇。

如果你對(duì)OPO算法的技術(shù)細(xì)節(jié)感興趣,可以通過(guò)論文鏈接(arXiv:2505.23585v1)查閱完整論文,或者訪問(wèn)GitHub倉(cāng)庫(kù)(https://github.com/microsoft/LMOps/tree/main/opo)查看實(shí)現(xiàn)代碼。在這個(gè)AI快速發(fā)展的時(shí)代,像OPO這樣的創(chuàng)新算法將繼續(xù)推動(dòng)語(yǔ)言模型向更智能、更自然、更有用的方向發(fā)展。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-