av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁(yè) 大模型學(xué)習(xí)推理的熵機(jī)制:理解為何大模型在強(qiáng)化學(xué)習(xí)中容易陷入熵崩塌

大模型學(xué)習(xí)推理的熵機(jī)制:理解為何大模型在強(qiáng)化學(xué)習(xí)中容易陷入熵崩塌

2025-06-02 16:34
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-02 16:34 ? 科技行者

**《強(qiáng)化學(xué)習(xí)中的熵機(jī)制:理解大語(yǔ)言模型推理能力的關(guān)鍵》**

這項(xiàng)研究由上海人工智能實(shí)驗(yàn)室、清華大學(xué)、伊利諾伊大學(xué)香檳分校、北京大學(xué)、南京大學(xué)和香港中文大學(xué)的研究團(tuán)隊(duì)共同完成,主要作者包括崔干渠、張宇辰、陳佳成等多位學(xué)者。論文發(fā)表于2025年5月28日的arXiv預(yù)印本平臺(tái),論文代碼已在GitHub上開源:https://github.com/PRIME-RL/Entropy-Mechanism-of-RL

想象一下你正在教一個(gè)孩子如何騎自行車。剛開始時(shí),孩子會(huì)嘗試各種方式保持平衡——左傾、右傾、加速、減速。這種"探索"多種可能性的行為至關(guān)重要。但隨著技能提升,孩子會(huì)逐漸形成固定的騎行方式,減少"嘗試新動(dòng)作"的概率。在強(qiáng)化學(xué)習(xí)的世界里,我們稱這種嘗試新動(dòng)作的傾向?yàn)?策略熵"。

在大語(yǔ)言模型(簡(jiǎn)稱LLM)的強(qiáng)化學(xué)習(xí)過(guò)程中,研究者們發(fā)現(xiàn)了一個(gè)有趣又棘手的現(xiàn)象:模型的策略熵會(huì)迅速下降至接近零的水平,導(dǎo)致模型變得"過(guò)度自信",不再愿意探索新的解決方案。這就像那個(gè)學(xué)會(huì)騎車的孩子,一旦掌握了某種騎行方式,就完全拒絕嘗試任何新技巧,哪怕新技巧可能更好。

這項(xiàng)研究的關(guān)鍵發(fā)現(xiàn)是,在沒有熵干預(yù)的情況下,模型性能和策略熵之間存在著一個(gè)可預(yù)測(cè)的數(shù)學(xué)關(guān)系:R = -a·exp(H) + b,其中R是模型性能,H是策略熵,a和b是擬合系數(shù)。簡(jiǎn)單來(lái)說(shuō),模型是在"用熵?fù)Q取性能",但這種交易存在天花板,一旦熵耗盡,性能也就無(wú)法提升了。

研究團(tuán)隊(duì)不僅揭示了這一規(guī)律,還深入探究了熵變化的內(nèi)在機(jī)制,并設(shè)計(jì)了兩種簡(jiǎn)單有效的方法(Clip-Cov和KL-Cov)來(lái)緩解熵崩塌問題,幫助模型保持探索能力,從而達(dá)到更好的性能。這對(duì)于未來(lái)大模型強(qiáng)化學(xué)習(xí)的規(guī)模化應(yīng)用具有重要意義。

一、熵崩塌:大語(yǔ)言模型強(qiáng)化學(xué)習(xí)中的瓶頸現(xiàn)象

當(dāng)我們談?wù)摯笳Z(yǔ)言模型(如ChatGPT或Qwen等)的后訓(xùn)練階段時(shí),強(qiáng)化學(xué)習(xí)已成為提升模型能力特別是推理能力的重要方法。然而,研究團(tuán)隊(duì)在大量實(shí)驗(yàn)中發(fā)現(xiàn),強(qiáng)化學(xué)習(xí)過(guò)程中會(huì)出現(xiàn)一個(gè)普遍現(xiàn)象:模型的策略熵會(huì)迅速崩塌(快速下降至接近零),而這與模型性能的飽和息息相關(guān)。

策略熵,簡(jiǎn)單來(lái)說(shuō)就是模型選擇不同行動(dòng)的不確定性。想象一下你在一個(gè)陌生城市找餐廳,一開始你會(huì)考慮多種選擇(高熵狀態(tài)),但隨著你獲得更多信息,你會(huì)逐漸縮小范圍直到做出最終決定(低熵狀態(tài))。在強(qiáng)化學(xué)習(xí)中,適當(dāng)?shù)牟呗造貙?duì)于模型持續(xù)探索新路徑至關(guān)重要。

研究團(tuán)隊(duì)通過(guò)大量實(shí)驗(yàn)發(fā)現(xiàn),在沒有專門控制熵的情況下,模型的策略熵會(huì)在訓(xùn)練早期(通常是前200步,約占總訓(xùn)練步數(shù)的1/12)就下降了73%,與此同時(shí)模型性能提升了76%。到前800步(約占總訓(xùn)練的1/3),熵消耗達(dá)到94%,性能提升達(dá)到93%。這意味著剩下2/3的訓(xùn)練步驟只帶來(lái)了約7%的性能提升,效率極低。

更令人驚訝的是,研究者發(fā)現(xiàn)驗(yàn)證性能(R)和策略熵(H)之間存在一個(gè)精確的數(shù)學(xué)關(guān)系:R = -a·exp(H) + b。這個(gè)簡(jiǎn)單的指數(shù)函數(shù)幾乎完美地描述了所有實(shí)驗(yàn)結(jié)果,無(wú)論是對(duì)不同大小的模型(從0.5B到32B參數(shù))、不同模型家族(Qwen2.5、Mistral、LLaMA)還是不同任務(wù)(數(shù)學(xué)和編程)。

這個(gè)公式的含義深遠(yuǎn): 1. 它表明模型性能是通過(guò)"交易"熵獲得的,類似于一種"資源消耗"過(guò)程 2. 模型性能存在理論上限(當(dāng)H=0時(shí),R=-a+b),且這個(gè)上限可以預(yù)測(cè) 3. 如果不打破這種"熵瓶頸",僅僅增加更多計(jì)算資源對(duì)強(qiáng)化學(xué)習(xí)的回報(bào)將非常有限

這個(gè)發(fā)現(xiàn)類似于機(jī)器學(xué)習(xí)中的"縮放法則"(Scaling Laws),讓我們能在訓(xùn)練早期就預(yù)測(cè)模型的最終性能。例如,研究者們僅使用前36步(約15%)的訓(xùn)練數(shù)據(jù)就能準(zhǔn)確預(yù)測(cè)Qwen2.5系列模型在數(shù)學(xué)和編程任務(wù)上的最終性能,平均誤差僅為0.9%和1.2%。

二、深入探究熵動(dòng)態(tài)變化的機(jī)制

為了解決熵崩塌問題,研究團(tuán)隊(duì)首先需要理解策略熵變化的內(nèi)在機(jī)制。就像醫(yī)生需要了解疾病的病理機(jī)制才能開出有效處方一樣,研究者需要掌握熵變化的數(shù)學(xué)原理才能設(shè)計(jì)有效的干預(yù)方法。

研究者從理論和實(shí)驗(yàn)兩個(gè)角度分析了熵的動(dòng)態(tài)變化。對(duì)于像大語(yǔ)言模型這樣的softmax策略,他們證明了連續(xù)兩步之間的熵變化主要由動(dòng)作概率(log-probability)和對(duì)應(yīng)logit變化之間的協(xié)方差決定。這個(gè)協(xié)方差項(xiàng)在策略梯度(Policy Gradient)和自然策略梯度(Natural Policy Gradient)等算法中,與動(dòng)作優(yōu)勢(shì)(advantage)成正比。

用日常語(yǔ)言解釋,這意味著:當(dāng)模型認(rèn)為某個(gè)動(dòng)作既有高概率又有高回報(bào)(高優(yōu)勢(shì))時(shí),它會(huì)更加確信這個(gè)動(dòng)作是正確的,因此降低策略熵;相反,如果一個(gè)罕見動(dòng)作獲得了高回報(bào),模型會(huì)增加這個(gè)動(dòng)作的概率,反而提高了策略熵。

研究團(tuán)隊(duì)通過(guò)實(shí)驗(yàn)驗(yàn)證了這一理論結(jié)論。他們觀察到,在訓(xùn)練早期,模型在訓(xùn)練數(shù)據(jù)上表現(xiàn)出高協(xié)方差,說(shuō)明模型的置信度和實(shí)際表現(xiàn)是匹配的,這讓模型能夠"安全地"強(qiáng)化那些高置信度的決策,進(jìn)一步降低熵。隨著訓(xùn)練進(jìn)行,協(xié)方差逐漸下降但仍保持為正,繼續(xù)拉低策略熵。

通過(guò)分析不同難度的訓(xùn)練樣本,研究者還發(fā)現(xiàn),對(duì)于簡(jiǎn)單問題(模型回答正確率高的問題),協(xié)方差較大;而對(duì)于困難問題,協(xié)方差較小。這符合直覺:當(dāng)模型擅長(zhǎng)解決某類問題時(shí),它對(duì)自己的判斷更有信心,而面對(duì)困難問題時(shí)則更加謹(jǐn)慎。

這些發(fā)現(xiàn)為研究團(tuán)隊(duì)提供了重要啟示:控制熵的關(guān)鍵在于限制那些協(xié)方差高的token的更新步長(zhǎng)。就像教練有時(shí)會(huì)故意讓運(yùn)動(dòng)員嘗試不同的技術(shù)動(dòng)作而不僅僅強(qiáng)化已掌握的動(dòng)作一樣,我們需要設(shè)計(jì)算法讓模型保持一定程度的探索能力。

三、傳統(tǒng)熵控制方法的局限性

在解決熵崩塌問題之前,研究團(tuán)隊(duì)首先嘗試了傳統(tǒng)強(qiáng)化學(xué)習(xí)中常用的熵控制方法,看它們是否適用于大語(yǔ)言模型。

在傳統(tǒng)強(qiáng)化學(xué)習(xí)中,研究者通常會(huì)在損失函數(shù)中添加熵正則化項(xiàng)(entropy regularization)或KL懲罰項(xiàng)(KL penalty)來(lái)控制策略熵。熵正則化通過(guò)獎(jiǎng)勵(lì)高熵(即多樣化的行為)來(lái)鼓勵(lì)模型探索,而KL懲罰則通過(guò)限制策略與參考策略的偏離程度來(lái)防止過(guò)度更新。

然而,研究者發(fā)現(xiàn)這些方法在大語(yǔ)言模型上表現(xiàn)不佳。添加熵?fù)p失項(xiàng)(Lent = L - α·H(πθ))時(shí),調(diào)節(jié)系數(shù)α非常敏感:較小的系數(shù)(如0.0001或0.001)幾乎沒有影響,而較大的系數(shù)(如0.01)則會(huì)導(dǎo)致熵爆炸,模型變得過(guò)度隨機(jī)。雖然設(shè)置α=0.005能夠穩(wěn)定熵值,但并沒有帶來(lái)性能提升。

同樣,添加KL懲罰項(xiàng)也面臨類似問題。雖然可以穩(wěn)定熵值,但往往會(huì)降低模型性能而非提升。這表明,簡(jiǎn)單套用傳統(tǒng)強(qiáng)化學(xué)習(xí)中的熵控制方法并不適合大語(yǔ)言模型。

這些實(shí)驗(yàn)結(jié)果解釋了為何最近的許多大語(yǔ)言模型強(qiáng)化學(xué)習(xí)研究并沒有包含熵正則化或KL懲罰項(xiàng)。傳統(tǒng)方法要么對(duì)超參數(shù)過(guò)度敏感,要么會(huì)損害模型性能,這促使研究團(tuán)隊(duì)開發(fā)更適合大語(yǔ)言模型特點(diǎn)的熵控制方法。

四、基于協(xié)方差的熵控制方法:Clip-Cov和KL-Cov

既然傳統(tǒng)方法行不通,研究團(tuán)隊(duì)基于前述熵動(dòng)態(tài)分析提出了兩種新的熵控制方法:Clip-Cov和KL-Cov。這兩種方法都著眼于控制高協(xié)方差token的更新,以維持適當(dāng)?shù)牟呗造亍?/p>

首先,研究團(tuán)隊(duì)發(fā)現(xiàn),在訓(xùn)練過(guò)程中,只有極小部分token(約0.02%)具有極高的協(xié)方差(平均值5.654),遠(yuǎn)超平均水平(0.003)。這些"異常值"對(duì)熵崩塌起著決定性作用。控制這些token的更新,就可能有效緩解熵崩塌問題。

Clip-Cov方法的核心思想是,隨機(jī)選擇一小部分具有高協(xié)方差的token,并切斷它們的梯度。具體來(lái)說(shuō),研究者計(jì)算每個(gè)token的協(xié)方差,然后隨機(jī)選擇r·N個(gè)協(xié)方差在預(yù)設(shè)范圍[ωlow, ωhigh]內(nèi)的token(r為裁剪比例,N為總token數(shù)),將這些token從策略梯度更新中排除。這就像是告訴模型:"不要過(guò)度確信這些看似很確定的判斷,保留一些不確定性。"

KL-Cov方法則采取不同策略,它識(shí)別協(xié)方差最高的一部分token(比例為k),并對(duì)這些token應(yīng)用KL懲罰。這相當(dāng)于告訴模型:"你可以更新這些判斷,但不要偏離太遠(yuǎn)。"KL懲罰的系數(shù)β控制懲罰的強(qiáng)度。

實(shí)驗(yàn)表明,這兩種方法都能有效控制策略熵,并帶來(lái)實(shí)質(zhì)性的性能提升。以Qwen2.5-7B模型為例,與基線GRPO算法相比,Clip-Cov和KL-Cov在數(shù)學(xué)推理任務(wù)上分別提高了1.8%和2.0%的平均性能;對(duì)于Qwen2.5-32B模型,提升更加顯著,分別達(dá)到4.5%和6.4%。

特別值得注意的是,這些方法在更具挑戰(zhàn)性的任務(wù)上表現(xiàn)更好。例如,在AIME24和AIME25等困難數(shù)學(xué)題上,KL-Cov使Qwen2.5-32B模型的性能分別提高了15.0%和14.6%。這表明,當(dāng)我們解除熵崩塌帶來(lái)的"探索詛咒"后,大模型能夠更充分地發(fā)揮其潛力。

研究者還發(fā)現(xiàn),通過(guò)調(diào)整KL-Cov中的KL系數(shù)β或Clip-Cov中的裁剪比例r,可以精確控制策略熵的水平。這為未來(lái)的研究提供了一個(gè)重要工具,讓研究者能夠探索不同熵水平對(duì)模型性能的影響。

這兩種方法實(shí)現(xiàn)起來(lái)非常簡(jiǎn)單,只需在現(xiàn)有強(qiáng)化學(xué)習(xí)算法的基礎(chǔ)上添加幾行代碼。然而,它們對(duì)模型性能的影響卻相當(dāng)顯著,這體現(xiàn)了"小改動(dòng),大影響"的原則。

五、研究啟示與未來(lái)展望

這項(xiàng)研究為我們理解和改進(jìn)大語(yǔ)言模型的強(qiáng)化學(xué)習(xí)過(guò)程提供了重要啟示。首先,策略熵的崩塌不僅是一個(gè)普遍現(xiàn)象,而且會(huì)限制模型性能的提升。研究揭示的R = -a·exp(H) + b關(guān)系表明,模型性能和策略熵之間存在可預(yù)測(cè)的"交易",而熵耗盡后性能也就達(dá)到了天花板。

第二,研究揭示了熵變化的內(nèi)在機(jī)制,即高協(xié)方差token主導(dǎo)了熵的下降。這一發(fā)現(xiàn)讓我們能夠設(shè)計(jì)更有針對(duì)性的干預(yù)方法,而不是盲目應(yīng)用傳統(tǒng)的熵正則化。

第三,基于協(xié)方差的熵控制方法(Clip-Cov和KL-Cov)證明了通過(guò)適當(dāng)?shù)撵毓芾恚梢燥@著提升模型性能,特別是在困難任務(wù)上。這表明,保持適當(dāng)?shù)奶剿髂芰?duì)于模型充分發(fā)揮潛力至關(guān)重要。

這項(xiàng)研究也引發(fā)了一些有趣的思考。例如,最佳的策略熵水平可能因任務(wù)而異,研究者發(fā)現(xiàn)熵和性能之間并沒有簡(jiǎn)單的線性關(guān)系。此外,模型對(duì)超參數(shù)設(shè)置非常敏感,即使只干預(yù)極小比例的token(10^-4到10^-3),也能完全改變熵曲線,這表明有幾個(gè)"關(guān)鍵"token對(duì)LLM的熵至關(guān)重要。

未來(lái)研究可以沿著幾個(gè)方向進(jìn)一步探索: 1. 探究不同任務(wù)和模型架構(gòu)下的最佳熵水平 2. 開發(fā)更智能的自適應(yīng)熵管理方法,根據(jù)任務(wù)難度和訓(xùn)練階段動(dòng)態(tài)調(diào)整 3. 研究策略熵與模型可解釋性、魯棒性之間的關(guān)系

正如論文結(jié)尾引用物理學(xué)家普朗克的名言:"自然界不會(huì)進(jìn)行任何變化,除非其利益是通過(guò)熵的增加而得到服務(wù)。"在大語(yǔ)言模型的強(qiáng)化學(xué)習(xí)領(lǐng)域,適當(dāng)?shù)撵毓芾砜赡苁谴蚱菩阅芴旎ò?、?shí)現(xiàn)持續(xù)進(jìn)步的關(guān)鍵。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-