av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 大模型學習推理的熵機制:理解為何大模型在強化學習中容易陷入熵崩塌

大模型學習推理的熵機制:理解為何大模型在強化學習中容易陷入熵崩塌

2025-06-02 16:34
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-02 16:34 ? 科技行者

**《強化學習中的熵機制:理解大語言模型推理能力的關(guān)鍵》**

這項研究由上海人工智能實驗室、清華大學、伊利諾伊大學香檳分校、北京大學、南京大學和香港中文大學的研究團隊共同完成,主要作者包括崔干渠、張宇辰、陳佳成等多位學者。論文發(fā)表于2025年5月28日的arXiv預印本平臺,論文代碼已在GitHub上開源:https://github.com/PRIME-RL/Entropy-Mechanism-of-RL

想象一下你正在教一個孩子如何騎自行車。剛開始時,孩子會嘗試各種方式保持平衡——左傾、右傾、加速、減速。這種"探索"多種可能性的行為至關(guān)重要。但隨著技能提升,孩子會逐漸形成固定的騎行方式,減少"嘗試新動作"的概率。在強化學習的世界里,我們稱這種嘗試新動作的傾向為"策略熵"。

在大語言模型(簡稱LLM)的強化學習過程中,研究者們發(fā)現(xiàn)了一個有趣又棘手的現(xiàn)象:模型的策略熵會迅速下降至接近零的水平,導致模型變得"過度自信",不再愿意探索新的解決方案。這就像那個學會騎車的孩子,一旦掌握了某種騎行方式,就完全拒絕嘗試任何新技巧,哪怕新技巧可能更好。

這項研究的關(guān)鍵發(fā)現(xiàn)是,在沒有熵干預的情況下,模型性能和策略熵之間存在著一個可預測的數(shù)學關(guān)系:R = -a·exp(H) + b,其中R是模型性能,H是策略熵,a和b是擬合系數(shù)。簡單來說,模型是在"用熵換取性能",但這種交易存在天花板,一旦熵耗盡,性能也就無法提升了。

研究團隊不僅揭示了這一規(guī)律,還深入探究了熵變化的內(nèi)在機制,并設(shè)計了兩種簡單有效的方法(Clip-Cov和KL-Cov)來緩解熵崩塌問題,幫助模型保持探索能力,從而達到更好的性能。這對于未來大模型強化學習的規(guī)?;瘧?yīng)用具有重要意義。

一、熵崩塌:大語言模型強化學習中的瓶頸現(xiàn)象

當我們談?wù)摯笳Z言模型(如ChatGPT或Qwen等)的后訓練階段時,強化學習已成為提升模型能力特別是推理能力的重要方法。然而,研究團隊在大量實驗中發(fā)現(xiàn),強化學習過程中會出現(xiàn)一個普遍現(xiàn)象:模型的策略熵會迅速崩塌(快速下降至接近零),而這與模型性能的飽和息息相關(guān)。

策略熵,簡單來說就是模型選擇不同行動的不確定性。想象一下你在一個陌生城市找餐廳,一開始你會考慮多種選擇(高熵狀態(tài)),但隨著你獲得更多信息,你會逐漸縮小范圍直到做出最終決定(低熵狀態(tài))。在強化學習中,適當?shù)牟呗造貙τ谀P统掷m(xù)探索新路徑至關(guān)重要。

研究團隊通過大量實驗發(fā)現(xiàn),在沒有專門控制熵的情況下,模型的策略熵會在訓練早期(通常是前200步,約占總訓練步數(shù)的1/12)就下降了73%,與此同時模型性能提升了76%。到前800步(約占總訓練的1/3),熵消耗達到94%,性能提升達到93%。這意味著剩下2/3的訓練步驟只帶來了約7%的性能提升,效率極低。

更令人驚訝的是,研究者發(fā)現(xiàn)驗證性能(R)和策略熵(H)之間存在一個精確的數(shù)學關(guān)系:R = -a·exp(H) + b。這個簡單的指數(shù)函數(shù)幾乎完美地描述了所有實驗結(jié)果,無論是對不同大小的模型(從0.5B到32B參數(shù))、不同模型家族(Qwen2.5、Mistral、LLaMA)還是不同任務(wù)(數(shù)學和編程)。

這個公式的含義深遠: 1. 它表明模型性能是通過"交易"熵獲得的,類似于一種"資源消耗"過程 2. 模型性能存在理論上限(當H=0時,R=-a+b),且這個上限可以預測 3. 如果不打破這種"熵瓶頸",僅僅增加更多計算資源對強化學習的回報將非常有限

這個發(fā)現(xiàn)類似于機器學習中的"縮放法則"(Scaling Laws),讓我們能在訓練早期就預測模型的最終性能。例如,研究者們僅使用前36步(約15%)的訓練數(shù)據(jù)就能準確預測Qwen2.5系列模型在數(shù)學和編程任務(wù)上的最終性能,平均誤差僅為0.9%和1.2%。

二、深入探究熵動態(tài)變化的機制

為了解決熵崩塌問題,研究團隊首先需要理解策略熵變化的內(nèi)在機制。就像醫(yī)生需要了解疾病的病理機制才能開出有效處方一樣,研究者需要掌握熵變化的數(shù)學原理才能設(shè)計有效的干預方法。

研究者從理論和實驗兩個角度分析了熵的動態(tài)變化。對于像大語言模型這樣的softmax策略,他們證明了連續(xù)兩步之間的熵變化主要由動作概率(log-probability)和對應(yīng)logit變化之間的協(xié)方差決定。這個協(xié)方差項在策略梯度(Policy Gradient)和自然策略梯度(Natural Policy Gradient)等算法中,與動作優(yōu)勢(advantage)成正比。

用日常語言解釋,這意味著:當模型認為某個動作既有高概率又有高回報(高優(yōu)勢)時,它會更加確信這個動作是正確的,因此降低策略熵;相反,如果一個罕見動作獲得了高回報,模型會增加這個動作的概率,反而提高了策略熵。

研究團隊通過實驗驗證了這一理論結(jié)論。他們觀察到,在訓練早期,模型在訓練數(shù)據(jù)上表現(xiàn)出高協(xié)方差,說明模型的置信度和實際表現(xiàn)是匹配的,這讓模型能夠"安全地"強化那些高置信度的決策,進一步降低熵。隨著訓練進行,協(xié)方差逐漸下降但仍保持為正,繼續(xù)拉低策略熵。

通過分析不同難度的訓練樣本,研究者還發(fā)現(xiàn),對于簡單問題(模型回答正確率高的問題),協(xié)方差較大;而對于困難問題,協(xié)方差較小。這符合直覺:當模型擅長解決某類問題時,它對自己的判斷更有信心,而面對困難問題時則更加謹慎。

這些發(fā)現(xiàn)為研究團隊提供了重要啟示:控制熵的關(guān)鍵在于限制那些協(xié)方差高的token的更新步長。就像教練有時會故意讓運動員嘗試不同的技術(shù)動作而不僅僅強化已掌握的動作一樣,我們需要設(shè)計算法讓模型保持一定程度的探索能力。

三、傳統(tǒng)熵控制方法的局限性

在解決熵崩塌問題之前,研究團隊首先嘗試了傳統(tǒng)強化學習中常用的熵控制方法,看它們是否適用于大語言模型。

在傳統(tǒng)強化學習中,研究者通常會在損失函數(shù)中添加熵正則化項(entropy regularization)或KL懲罰項(KL penalty)來控制策略熵。熵正則化通過獎勵高熵(即多樣化的行為)來鼓勵模型探索,而KL懲罰則通過限制策略與參考策略的偏離程度來防止過度更新。

然而,研究者發(fā)現(xiàn)這些方法在大語言模型上表現(xiàn)不佳。添加熵損失項(Lent = L - α·H(πθ))時,調(diào)節(jié)系數(shù)α非常敏感:較小的系數(shù)(如0.0001或0.001)幾乎沒有影響,而較大的系數(shù)(如0.01)則會導致熵爆炸,模型變得過度隨機。雖然設(shè)置α=0.005能夠穩(wěn)定熵值,但并沒有帶來性能提升。

同樣,添加KL懲罰項也面臨類似問題。雖然可以穩(wěn)定熵值,但往往會降低模型性能而非提升。這表明,簡單套用傳統(tǒng)強化學習中的熵控制方法并不適合大語言模型。

這些實驗結(jié)果解釋了為何最近的許多大語言模型強化學習研究并沒有包含熵正則化或KL懲罰項。傳統(tǒng)方法要么對超參數(shù)過度敏感,要么會損害模型性能,這促使研究團隊開發(fā)更適合大語言模型特點的熵控制方法。

四、基于協(xié)方差的熵控制方法:Clip-Cov和KL-Cov

既然傳統(tǒng)方法行不通,研究團隊基于前述熵動態(tài)分析提出了兩種新的熵控制方法:Clip-Cov和KL-Cov。這兩種方法都著眼于控制高協(xié)方差token的更新,以維持適當?shù)牟呗造亍?/p>

首先,研究團隊發(fā)現(xiàn),在訓練過程中,只有極小部分token(約0.02%)具有極高的協(xié)方差(平均值5.654),遠超平均水平(0.003)。這些"異常值"對熵崩塌起著決定性作用。控制這些token的更新,就可能有效緩解熵崩塌問題。

Clip-Cov方法的核心思想是,隨機選擇一小部分具有高協(xié)方差的token,并切斷它們的梯度。具體來說,研究者計算每個token的協(xié)方差,然后隨機選擇r·N個協(xié)方差在預設(shè)范圍[ωlow, ωhigh]內(nèi)的token(r為裁剪比例,N為總token數(shù)),將這些token從策略梯度更新中排除。這就像是告訴模型:"不要過度確信這些看似很確定的判斷,保留一些不確定性。"

KL-Cov方法則采取不同策略,它識別協(xié)方差最高的一部分token(比例為k),并對這些token應(yīng)用KL懲罰。這相當于告訴模型:"你可以更新這些判斷,但不要偏離太遠。"KL懲罰的系數(shù)β控制懲罰的強度。

實驗表明,這兩種方法都能有效控制策略熵,并帶來實質(zhì)性的性能提升。以Qwen2.5-7B模型為例,與基線GRPO算法相比,Clip-Cov和KL-Cov在數(shù)學推理任務(wù)上分別提高了1.8%和2.0%的平均性能;對于Qwen2.5-32B模型,提升更加顯著,分別達到4.5%和6.4%。

特別值得注意的是,這些方法在更具挑戰(zhàn)性的任務(wù)上表現(xiàn)更好。例如,在AIME24和AIME25等困難數(shù)學題上,KL-Cov使Qwen2.5-32B模型的性能分別提高了15.0%和14.6%。這表明,當我們解除熵崩塌帶來的"探索詛咒"后,大模型能夠更充分地發(fā)揮其潛力。

研究者還發(fā)現(xiàn),通過調(diào)整KL-Cov中的KL系數(shù)β或Clip-Cov中的裁剪比例r,可以精確控制策略熵的水平。這為未來的研究提供了一個重要工具,讓研究者能夠探索不同熵水平對模型性能的影響。

這兩種方法實現(xiàn)起來非常簡單,只需在現(xiàn)有強化學習算法的基礎(chǔ)上添加幾行代碼。然而,它們對模型性能的影響卻相當顯著,這體現(xiàn)了"小改動,大影響"的原則。

五、研究啟示與未來展望

這項研究為我們理解和改進大語言模型的強化學習過程提供了重要啟示。首先,策略熵的崩塌不僅是一個普遍現(xiàn)象,而且會限制模型性能的提升。研究揭示的R = -a·exp(H) + b關(guān)系表明,模型性能和策略熵之間存在可預測的"交易",而熵耗盡后性能也就達到了天花板。

第二,研究揭示了熵變化的內(nèi)在機制,即高協(xié)方差token主導了熵的下降。這一發(fā)現(xiàn)讓我們能夠設(shè)計更有針對性的干預方法,而不是盲目應(yīng)用傳統(tǒng)的熵正則化。

第三,基于協(xié)方差的熵控制方法(Clip-Cov和KL-Cov)證明了通過適當?shù)撵毓芾恚梢燥@著提升模型性能,特別是在困難任務(wù)上。這表明,保持適當?shù)奶剿髂芰τ谀P统浞职l(fā)揮潛力至關(guān)重要。

這項研究也引發(fā)了一些有趣的思考。例如,最佳的策略熵水平可能因任務(wù)而異,研究者發(fā)現(xiàn)熵和性能之間并沒有簡單的線性關(guān)系。此外,模型對超參數(shù)設(shè)置非常敏感,即使只干預極小比例的token(10^-4到10^-3),也能完全改變熵曲線,這表明有幾個"關(guān)鍵"token對LLM的熵至關(guān)重要。

未來研究可以沿著幾個方向進一步探索: 1. 探究不同任務(wù)和模型架構(gòu)下的最佳熵水平 2. 開發(fā)更智能的自適應(yīng)熵管理方法,根據(jù)任務(wù)難度和訓練階段動態(tài)調(diào)整 3. 研究策略熵與模型可解釋性、魯棒性之間的關(guān)系

正如論文結(jié)尾引用物理學家普朗克的名言:"自然界不會進行任何變化,除非其利益是通過熵的增加而得到服務(wù)。"在大語言模型的強化學習領(lǐng)域,適當?shù)撵毓芾砜赡苁谴蚱菩阅芴旎ò?、實現(xiàn)持續(xù)進步的關(guān)鍵。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-