大模型的推理能力在近年來取得了顯著進(jìn)步,但這些進(jìn)步背后的機制我們卻知之甚少。來自阿里巴巴Qwen團隊和清華大學(xué)LeapLab的研究人員在2025年6月的最新研究中,通過探索一個全新視角——詞元(token)熵模式,揭示了強化學(xué)習(xí)在提升大模型推理能力過程中的工作原理。這項發(fā)表在arXiv(arXiv:2506.01939v1)的研究由Shenzhi Wang、Le Yu、Chang Gao等人完成,項目由Bowen Yu領(lǐng)導(dǎo),Gao Huang和Junyang Lin擔(dān)任通訊作者。
當(dāng)我們觀察大模型的思維鏈(Chain-of-Thought, CoT)推理過程時,你可能會驚訝地發(fā)現(xiàn):并非所有詞元都同等重要。想象一下在森林中徒步,大部分路徑是明確的小道,但偶爾會遇到岔路口,這些岔路口決定了你接下來的行進(jìn)方向。在大模型的思維中也存在類似現(xiàn)象——研究團隊發(fā)現(xiàn),只有約20%的詞元具有高熵值(表示高不確定性),這些"高熵少數(shù)派"詞元就像思維路徑上的"岔路口",決定著推理的方向。而剩余80%的低熵詞元則像是沿著已確定道路前進(jìn)的"跟隨者"。
通過分析詞元熵模式,研究人員發(fā)現(xiàn)當(dāng)使用強化學(xué)習(xí)訓(xùn)練模型(即RLVR,帶可驗證獎勵的強化學(xué)習(xí))時,模型基本保持了基礎(chǔ)模型的熵模式,主要調(diào)整的是那些高熵詞元。這一發(fā)現(xiàn)促使研究團隊提出了一個革命性的想法:如果強化學(xué)習(xí)只針對這些"岔路口"詞元進(jìn)行優(yōu)化,會發(fā)生什么?
令人驚訝的是,僅對20%的高熵詞元應(yīng)用強化學(xué)習(xí),不僅保持了與完全訓(xùn)練相當(dāng)?shù)男阅?,在大模型上甚至取得了更好的效果。在Qwen3-32B模型上,這種方法比傳統(tǒng)方法在AIME'25測試集上提高了11.04分,在AIME'24測試集上提高了7.71分。相比之下,如果僅對80%的低熵詞元應(yīng)用強化學(xué)習(xí),性能則顯著下降。這一發(fā)現(xiàn)甚至超越了經(jīng)典的80/20法則,表明在大模型的推理能力提升中,真正起決定性作用的是那些關(guān)鍵的"高熵少數(shù)派"詞元。
隨著模型規(guī)模增大,這種方法的效果更加明顯,暗示了強化學(xué)習(xí)在大模型上的縮放規(guī)律。這項研究不僅幫助我們理解大模型的推理機制,也為未來如何更高效地優(yōu)化大模型提供了新思路。
讓我們一起深入了解這項突破性研究的細(xì)節(jié),看看"高熵少數(shù)派"詞元如何引領(lǐng)大模型的推理革命。
一、研究背景:為何需要理解大模型的推理機制?
在人工智能的發(fā)展歷程中,大型語言模型(LLM)的推理能力已經(jīng)取得了長足進(jìn)步,特別是在數(shù)學(xué)和編程等領(lǐng)域。這些進(jìn)步很大程度上歸功于OpenAI的o1、Anthropic的Claude 3.7、DeepSeek R1、Kimi K1.5和Qwen3等模型采用的測試時縮放方法。這些模型的一個共同關(guān)鍵技術(shù)是"帶可驗證獎勵的強化學(xué)習(xí)"(Reinforcement Learning with Verifiable Rewards,簡稱RLVR),該方法通過與自動化正確性驗證相結(jié)合的強化學(xué)習(xí)目標(biāo)來優(yōu)化模型輸出。
雖然RLVR已經(jīng)取得了顯著成功,但其背后的工作原理卻仍然是個謎。目前的實現(xiàn)方式通常是直接對所有詞元進(jìn)行訓(xùn)練,而不理解哪些詞元真正促進(jìn)了推理能力的提升。這種方法忽略了詞元在推理過程中可能扮演的不同功能角色,可能阻礙了進(jìn)一步的性能提升。
想象一下,如果你在教一個孩子解數(shù)學(xué)題,你會發(fā)現(xiàn)孩子在某些關(guān)鍵決策點上容易犯錯——比如選擇使用加法還是乘法,或者是否需要考慮負(fù)數(shù)情況。而在其他步驟,如簡單的計算執(zhí)行上,孩子可能相對輕松。那么,更有效的教學(xué)方法不是全面重復(fù)每一步,而是集中精力指導(dǎo)那些關(guān)鍵決策點。
這正是Shenzhi Wang和他的研究團隊的核心洞察。他們提出了一個新穎的視角:通過詞元熵模式來分析RLVR,研究不同熵值的詞元如何影響推理性能。詞元熵反映了模型在生成該詞元時的不確定性程度——高熵表示模型有多種可能的選擇且不確定選哪一個,低熵則表示模型對選擇非常確定。
就像在迷宮中,有些交叉路口(高熵點)決定了你最終能否到達(dá)目的地,而大部分直路(低熵點)只是執(zhí)行已經(jīng)決定的方向。理解這些"關(guān)鍵路口"的作用,可能是解鎖大模型推理能力的鑰匙。
二、詞元熵揭示的思維鏈奧秘
當(dāng)我們觀察大模型生成的思維鏈時,會發(fā)現(xiàn)一個有趣的現(xiàn)象:不是所有詞元都是平等的。研究團隊使用Qwen3-8B模型生成了AIME'24和AIME'25測試集的回答,收集了超過100萬個響應(yīng)詞元,然后分析了每個詞元的熵值分布。
這種分析揭示了兩個重要的熵模式:
首先,只有少數(shù)詞元具有高熵值,而大多數(shù)詞元的熵值很低。具體來說,超過50%的詞元熵值低于0.01,而只有20%的詞元熵值高于0.672。這就像一本書中,大多數(shù)句子都是按照語法規(guī)則和上下文流暢地展開,但偶爾會出現(xiàn)需要作者創(chuàng)造性決策的關(guān)鍵點。
其次,最高熵的詞元往往充當(dāng)邏輯連接的橋梁,而最低熵的詞元則傾向于完成當(dāng)前句子部分或構(gòu)詞。通過分析出現(xiàn)頻率超過100次的詞元,研究人員發(fā)現(xiàn)高熵詞元通常是像"wait"(等等)、"however"(然而)、"unless"(除非)這樣表示轉(zhuǎn)折或轉(zhuǎn)變的連接詞,或者像"thus"(因此)、"also"(也)這樣表示進(jìn)展或添加的詞,又或者像"since"(因為)、"because"(因為)這樣表示因果關(guān)系的詞。同樣,"suppose"(假設(shè))、"assume"(假定)、"given"(給定)和"define"(定義)等詞在數(shù)學(xué)推導(dǎo)中經(jīng)常出現(xiàn),用于引入假設(shè)、已知條件或定義。
相比之下,低熵詞元通常是單詞后綴、源代碼片段或數(shù)學(xué)表達(dá)式組件,這些都表現(xiàn)出高度確定性。
這種分布模式讓研究人員想到了一個形象的比喻:高熵詞元就像是思維路徑上的"岔路口"(fork),在這些點上模型需要在多個可能的推理方向之間做出選擇。而低熵詞元則是在已經(jīng)選定的路徑上前進(jìn)。
為了驗證高熵詞元作為"岔路口"的角色,研究團隊進(jìn)行了一個巧妙的實驗:他們在生成過程中對高熵詞元和其他詞元分配不同的解碼溫度。溫度參數(shù)控制著生成過程的隨機性——溫度越高,生成越多樣;溫度越低,生成越確定。
實驗結(jié)果非常有說服力:降低高熵詞元的溫度會顯著降低性能,而降低低熵詞元的溫度影響較小。相反,提高高熵詞元的溫度會帶來明顯的性能提升,而提高低熵詞元的溫度甚至?xí)?dǎo)致模型生成無意義的輸出。這表明高熵"岔路口"詞元確實需要較高的探索性,而低熵"跟隨"詞元則需要保持確定性。
這就像在森林中徒步時,你希望在岔路口有足夠的探索精神去嘗試不同道路,但在確定的路徑上則希望穩(wěn)步前進(jìn)而不是隨意游蕩。
三、強化學(xué)習(xí)如何塑造詞元熵模式
既然理解了思維鏈中的詞元熵模式,研究團隊進(jìn)一步探索了RLVR訓(xùn)練如何影響這些模式。他們對Qwen3-14B基礎(chǔ)模型應(yīng)用DAPO(一種先進(jìn)的RLVR算法)進(jìn)行訓(xùn)練,然后分析訓(xùn)練過程中熵模式的演變。
研究發(fā)現(xiàn),雖然訓(xùn)練會逐漸改變模型的熵模式,但基礎(chǔ)模型的熵模式大體上得到了保留。即使在訓(xùn)練收斂后,基礎(chǔ)模型的高熵詞元位置與RLVR模型的重疊率仍然高達(dá)86.67%。這表明RLVR主要是在基礎(chǔ)模型已建立的熵模式框架內(nèi)工作,而不是創(chuàng)建全新的模式。
更有趣的是,RLVR主要調(diào)整的是高熵詞元,而低熵詞元的熵值變化相對較小。研究人員計算了RLVR前后每個5%熵百分位范圍內(nèi)的平均熵變化,發(fā)現(xiàn)基礎(chǔ)模型中熵值較高的詞元在RLVR后熵值增加更多。這就像是強化學(xué)習(xí)主要關(guān)注那些關(guān)鍵的決策點,而對于已經(jīng)相當(dāng)確定的執(zhí)行步驟則較少干預(yù)。
這些觀察結(jié)果啟發(fā)研究人員提出了一個大膽的假設(shè):如果RLVR主要影響高熵詞元,那么是否可以只針對這些"岔路口"詞元進(jìn)行優(yōu)化,而忽略其他低熵詞元?
四、只優(yōu)化高熵少數(shù)派:突破性的RLVR改進(jìn)
基于對高熵"岔路口"詞元重要性的認(rèn)識,研究團隊開發(fā)了一種改進(jìn)的RLVR方法。傳統(tǒng)RLVR對所有詞元的策略梯度進(jìn)行更新,而改進(jìn)后的方法只保留熵值最高的20%詞元的策略梯度,屏蔽其余80%詞元的梯度。
實驗設(shè)置遵循DAPO(Dynamic sAmpling Policy Optimization)的訓(xùn)練方案,這是當(dāng)前最先進(jìn)的RLVR算法之一。為了公平比較,兩種方法使用相同的超參數(shù),包括clip-higher、動態(tài)采樣、詞元級策略梯度損失和超長獎勵塑形。研究使用DAPO-Math-17K作為訓(xùn)練數(shù)據(jù)集,并在6個標(biāo)準(zhǔn)數(shù)學(xué)推理基準(zhǔn)上進(jìn)行評估:AIME'24、AIME'25、AMC'23、MATH500、Minerva和OlympiadBench。
實驗結(jié)果令人驚訝:只保留20%高熵詞元的策略梯度不僅沒有降低性能,反而在多個基準(zhǔn)測試上帶來了性能提升。在Qwen3-32B基礎(chǔ)模型上,這種方法在AIME'24上提高了7.71分,在AIME'25上提高了11.04分。類似地,在Qwen3-14B上也觀察到了性能提升:AIME'24提高了5.21分,AIME'25提高了4.79分。而在Qwen3-8B上,性能基本保持不變。
相比之下,如果只對80%的低熵詞元應(yīng)用強化學(xué)習(xí),性能會顯著下降,這進(jìn)一步證明了高熵詞元在推理能力提升中的關(guān)鍵作用。
研究團隊還嘗試了不同比例的高熵詞元,發(fā)現(xiàn)在合理范圍內(nèi),性能對比例的選擇相對不敏感。將比例從20%降低到10%會導(dǎo)致性能輕微下降,而將比例提高到100%(即傳統(tǒng)RLVR)則會導(dǎo)致明顯性能下降。這表明選擇適當(dāng)比例的高熵詞元可以在探索和訓(xùn)練穩(wěn)定性之間取得平衡。
通過分析訓(xùn)練過程中的整體熵,研究人員發(fā)現(xiàn)保留約20%的高熵詞元可以促進(jìn)有效的探索。將比例調(diào)整到10%、50%或100%都會導(dǎo)致整體熵較低,探索減少,性能下降。這表明只有一個關(guān)鍵子集的高熵詞元對強化學(xué)習(xí)中的探索有意義貢獻(xiàn),而其他詞元可能中性或甚至有害。
更令人興奮的是,這種方法表現(xiàn)出強烈的規(guī)模擴展趨勢——隨著模型大小增加,性能提升越明顯。這暗示著只關(guān)注高熵"岔路口"詞元的策略在更大的模型上可能更加有效。
研究團隊還探索了這種方法在其他領(lǐng)域的泛化能力。雖然訓(xùn)練主要在數(shù)學(xué)數(shù)據(jù)集上進(jìn)行,但在對域外測試集如LiveCodeBench的評估中,僅保留10%或20%高熵詞元的DAPO仍然顯著優(yōu)于傳統(tǒng)DAPO。這表明高熵詞元可能與推理模型的泛化能力相關(guān)。
最后,研究人員將Qwen3-32B模型的最大響應(yīng)長度從20480增加到29696,這進(jìn)一步提高了AIME'24的得分,從63.54提升到68.12。這表明該方法的潛力可能尚未完全發(fā)揮,更長的上下文長度或更具挑戰(zhàn)性的訓(xùn)練數(shù)據(jù)可能帶來更大的性能提升。
五、理解高熵少數(shù)派的重要性及其啟示
這項研究不僅提出了一種改進(jìn)RLVR的方法,還為我們理解大模型的推理機制提供了新視角。研究團隊在論文討論部分提出了幾個有趣的見解:
首先,高熵少數(shù)派詞元可能是解釋為什么強化學(xué)習(xí)能夠泛化而監(jiān)督微調(diào)(SFT)容易記憶的關(guān)鍵因素。Chu等人的研究表明,強化學(xué)習(xí)對未見過的基于規(guī)則的任務(wù)表現(xiàn)出強大的泛化能力,而SFT傾向于記憶訓(xùn)練數(shù)據(jù)。一個可能的原因是強化學(xué)習(xí)傾向于保持或增加岔路口詞元的熵,維持推理路徑的靈活性。相比之下,SFT將輸出逼向單一分布,降低了岔路口詞元的熵,導(dǎo)致推理路徑靈活性的喪失。
其次,與傳統(tǒng)強化學(xué)習(xí)不同,大模型推理融合了先驗知識并需要產(chǎn)生可讀輸出。這導(dǎo)致了思維鏈中低熵多數(shù)詞元和高熵少數(shù)詞元的混合,而傳統(tǒng)強化學(xué)習(xí)可以假設(shè)整個軌跡中的動作熵均勻。這種獨特的熵模式可能源于大模型對大規(guī)模先驗知識的預(yù)訓(xùn)練和語言流暢性的需求,迫使大多數(shù)詞元與記憶的語言結(jié)構(gòu)保持一致,產(chǎn)生低熵。只有預(yù)訓(xùn)練語料庫中本來就不確定的少數(shù)詞元允許探索,因此表現(xiàn)出高熵。
第三,在RLVR中,熵獎勵可能并不是最佳選擇,因為它會增加低熵多數(shù)詞元的熵。相比之下,clip-higher機制(提高εhigh值)能更有效地提升高熵少數(shù)詞元的熵。實驗表明,具有高重要性比率的詞元往往具有更高的熵。通過在訓(xùn)練中包含更多這些詞元,clip-higher增加了整體熵,而不顯著影響低熵詞元。
這些發(fā)現(xiàn)不僅幫助我們理解大模型的推理機制,也為未來的RLVR算法設(shè)計提供了指導(dǎo)。通過關(guān)注那些真正影響推理方向的高熵"岔路口"詞元,我們可能能夠開發(fā)出更高效、更有效的訓(xùn)練方法。
六、研究局限性與未來方向
盡管這項研究取得了顯著成果,研究團隊也坦誠地指出了幾點局限性。首先,實驗主要集中在Qwen系列模型上,雖然他們嘗試在LLaMA-3.1-8B上進(jìn)行了驗證,但該模型在AIME基準(zhǔn)測試上的表現(xiàn)相對較差,使得結(jié)果不太具有說服力。
其次,實驗主要在數(shù)學(xué)領(lǐng)域進(jìn)行,未來可以擴展到編程或更復(fù)雜的任務(wù)如ARC-AGI。此外,研究發(fā)現(xiàn)基于特定實驗設(shè)置,在不同RLVR場景中,觀察到的20%有效比例可能需要調(diào)整為不同的值。
未來研究方向包括開發(fā)新的RLVR算法以更好地利用高熵少數(shù)派詞元,并探索這些見解如何增強不僅是RLVR,還有監(jiān)督微調(diào)、蒸餾、推理和多模態(tài)訓(xùn)練等其他方法。
七、結(jié)論:高熵少數(shù)派如何重塑大模型推理
這項研究強調(diào)了高熵少數(shù)派詞元在塑造大模型推理能力中的關(guān)鍵作用。通過詳細(xì)分析詞元熵模式,研究人員發(fā)現(xiàn)只有一小部分詞元表現(xiàn)出高熵,這些詞元充當(dāng)推理路徑中的關(guān)鍵決策點或"岔路口"。
研究還揭示了RLVR訓(xùn)練過程中熵模式的演變,發(fā)現(xiàn)強化學(xué)習(xí)主要是在基礎(chǔ)模型建立的熵模式框架內(nèi)工作,主要調(diào)整高熵詞元的熵值。基于這些發(fā)現(xiàn),研究團隊開發(fā)了一種改進(jìn)的RLVR方法,只針對20%的高熵詞元進(jìn)行優(yōu)化,不僅保持了與傳統(tǒng)方法相當(dāng)?shù)男阅?,在大模型上甚至取得了更好的效果?/p>
這些發(fā)現(xiàn)超越了經(jīng)典的80/20法則,表明在大模型的推理能力提升中,真正起決定性作用的是那些關(guān)鍵的"高熵少數(shù)派"詞元。這不僅幫助我們理解大模型的推理機制,也為未來如何更高效地優(yōu)化大模型提供了新思路。
研究團隊的工作強調(diào)了從詞元熵角度理解RLVR的潛力,并展示了如何通過利用高熵少數(shù)派詞元來進(jìn)一步提升大模型的推理能力。這一視角可能為大模型訓(xùn)練帶來范式轉(zhuǎn)變,使我們能夠更有針對性地優(yōu)化那些真正影響推理質(zhì)量的關(guān)鍵決策點。
好文章,需要你的鼓勵
新加坡國立大學(xué)研究團隊開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實驗顯示,僅訓(xùn)練AI玩簡單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟大學(xué)團隊開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實現(xiàn)37.9%的精度提升,并在真實設(shè)備上展現(xiàn)出色泛化能力,為機器人、AR和自動駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團隊通過對比實驗發(fā)現(xiàn),經(jīng)過強化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時刻"現(xiàn)象,但這些自我糾錯行為并不能實際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗證差距",即生成答案的能力強于驗證答案質(zhì)量的能力,且模型在自我驗證時無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動態(tài)稀疏性實現(xiàn)大語言模型訓(xùn)練加速1.6倍,計算成本降低2.2倍。該方法使用SVD稀疏性估計器智能選擇重要計算部分,在保持模型性能的同時顯著提升訓(xùn)練效率,已在多個任務(wù)上驗證有效性。