在人工智能研究的最前沿,一項(xiàng)創(chuàng)新研究正在改變我們訓(xùn)練大語(yǔ)言模型(LLM)推理能力的方式。來(lái)自國(guó)立新加坡大學(xué)和上海英飛睿(INFLY TECH)的研究團(tuán)隊(duì)于2025年5月30日在arXiv預(yù)印本平臺(tái)發(fā)表了一篇題為《從負(fù)面信號(hào)中獲益:利用教師數(shù)據(jù)的強(qiáng)化蒸餾提升LLM推理能力》(Harnessing Negative Signals: Reinforcement Distillation from Teacher Data for LLM Reasoning)的研究論文。這項(xiàng)由Shuyao Xu、Cheng Peng、Jiangxuan Long、Weidi Xu、Wei Chu和Yuan Qi領(lǐng)導(dǎo)的工作,提出了一種名為"強(qiáng)化蒸餾"(REDI)的創(chuàng)新方法,使小型語(yǔ)言模型能夠更高效地學(xué)習(xí)復(fù)雜推理能力。有興趣深入了解的讀者可以通過(guò)GitHub(https://github.com/Tim-Siu/reinforcement-distillation)獲取代碼和模型。
一、為什么我們需要更高效的語(yǔ)言模型訓(xùn)練方法?
想象一下,你有一位數(shù)學(xué)天才朋友和一位普通的學(xué)生。這位天才能夠解決復(fù)雜的數(shù)學(xué)問(wèn)題,而學(xué)生則希望學(xué)習(xí)這些技能。傳統(tǒng)的教學(xué)方法是:天才解決一系列問(wèn)題,只把正確的解答過(guò)程教給學(xué)生,丟棄所有錯(cuò)誤的嘗試。但我們知道,在現(xiàn)實(shí)學(xué)習(xí)中,了解"為什么某種方法行不通"和"哪里容易出錯(cuò)"同樣重要。
這正是當(dāng)前大語(yǔ)言模型訓(xùn)練中面臨的情況。像DeepSeek-R1和OpenAI的o1這樣的先進(jìn)推理模型展示了令人印象深刻的推理能力,尤其是在數(shù)學(xué)等領(lǐng)域。但如何將這些能力高效地傳遞給更小、更經(jīng)濟(jì)的模型呢?
目前有兩種主要方法:一種是大規(guī)模強(qiáng)化學(xué)習(xí),直接對(duì)基礎(chǔ)模型應(yīng)用強(qiáng)化學(xué)習(xí)算法,通過(guò)在線探索不斷優(yōu)化。但這種方法通常需要強(qiáng)大的基礎(chǔ)模型才能發(fā)揮全部潛力,而且計(jì)算成本高昂。另一種方法是知識(shí)蒸餾——從大型"教師"模型生成的推理過(guò)程(如思維鏈)中學(xué)習(xí),這為更小、更高效的"學(xué)生"模型提供了一條實(shí)用且經(jīng)濟(jì)的路徑。
然而,標(biāo)準(zhǔn)的蒸餾實(shí)踐通常采用拒絕采樣,只保留正確的推理示例,丟棄不正確的示例。這些被丟棄的示例實(shí)際上包含了寶貴的信息!這就像只告訴學(xué)生正確答案,而不告訴他們常見(jiàn)的陷阱和細(xì)微的錯(cuò)誤。這引出了本研究的核心問(wèn)題:
**如何在離線環(huán)境中有效利用正面和負(fù)面的蒸餾推理軌跡,最大化LLM的推理性能?**
二、強(qiáng)化蒸餾:一種兩階段的創(chuàng)新方法
研究團(tuán)隊(duì)提出的強(qiáng)化蒸餾(REDI)框架像是給語(yǔ)言模型設(shè)計(jì)了一套更全面的學(xué)習(xí)課程。這個(gè)課程分為兩個(gè)階段:
**第一階段:監(jiān)督微調(diào)(SFT)**
想象一個(gè)學(xué)生先觀看教師成功解題的視頻。在這個(gè)階段,模型通過(guò)標(biāo)準(zhǔn)的監(jiān)督微調(diào)(SFT)學(xué)習(xí)正確的推理軌跡。這就像打下良好的基礎(chǔ),學(xué)習(xí)"正確的做法是什么"。模型學(xué)習(xí)如何從問(wèn)題到解決方案,掌握基本的推理模式和格式。
**第二階段:利用正負(fù)樣本的強(qiáng)化**
這是REDI方法的核心創(chuàng)新。在建立了基礎(chǔ)之后,模型現(xiàn)在不僅學(xué)習(xí)成功案例,還學(xué)習(xí)失敗案例中的教訓(xùn)。這就像學(xué)生不僅學(xué)習(xí)正確答案,還特別分析錯(cuò)誤解法中的陷阱和缺陷。
研究團(tuán)隊(duì)首先探索了現(xiàn)有的離線偏好優(yōu)化方法,如直接偏好優(yōu)化(DPO)和簡(jiǎn)單偏好優(yōu)化(SimPO)。他們發(fā)現(xiàn)這些方法中的正則化參數(shù)β雖然有助于穩(wěn)定離線訓(xùn)練并允許更大的梯度步長(zhǎng),但往往會(huì)限制測(cè)試時(shí)的性能。
基于這一發(fā)現(xiàn),團(tuán)隊(duì)探索了替代訓(xùn)練目標(biāo),消除了這些正則化項(xiàng)。他們發(fā)現(xiàn)一個(gè)簡(jiǎn)單的、無(wú)參考的目標(biāo)函數(shù)——類(lèi)似于β→0極限下的DPO/SimPO目標(biāo)——可以在這種蒸餾環(huán)境中優(yōu)于已建立的方法。這個(gè)函數(shù)直接最大化正面軌跡的似然度,同時(shí)最小化負(fù)面軌跡的似然度。
然而,平衡性能和穩(wěn)定性的挑戰(zhàn)依然存在。為解決這一問(wèn)題,REDI引入了一種非對(duì)稱(chēng)加權(quán)策略:通過(guò)降低負(fù)面樣本的梯度貢獻(xiàn),框架實(shí)現(xiàn)了增強(qiáng)的穩(wěn)定性和優(yōu)越的測(cè)試時(shí)性能。
REDI的目標(biāo)函數(shù)可以表達(dá)為:
``` LREDI(θ) = E_(x,yw,yl)~DPref [ -(log πθ(yw|x))/|yw| + α·(log πθ(yl|x))/|yl| ] ```
其中α∈[0,1]控制對(duì)負(fù)面軌跡的懲罰強(qiáng)度: - 當(dāng)α=0時(shí),相當(dāng)于只對(duì)正面軌跡進(jìn)行SFT(忽略負(fù)面樣本) - 當(dāng)α=1時(shí),恢復(fù)對(duì)稱(chēng)目標(biāo)
研究表明,設(shè)置α=0.8提供了最佳平衡,實(shí)現(xiàn)了強(qiáng)大的測(cè)試時(shí)性能,同時(shí)保持訓(xùn)練穩(wěn)定性。
三、實(shí)驗(yàn)設(shè)置:如何評(píng)估REDI的有效性?
研究團(tuán)隊(duì)像科學(xué)實(shí)驗(yàn)一樣嚴(yán)謹(jǐn)?shù)卦O(shè)計(jì)了評(píng)估方法。他們從OpenR1-Math-Raw語(yǔ)料庫(kù)中提取數(shù)據(jù),并構(gòu)建了兩個(gè)數(shù)據(jù)集:
1. **正面軌跡數(shù)據(jù)集(DSFT)**:包含78k個(gè)問(wèn)題-解決方案對(duì),每對(duì)由問(wèn)題和相應(yīng)的正確推理軌跡組成。這用于第一階段的SFT訓(xùn)練。
2. **偏好對(duì)數(shù)據(jù)集(DPref)**:包含53k個(gè)三元組,每個(gè)三元組由問(wèn)題、正確軌跡和不正確軌跡組成。這用于第二階段的訓(xùn)練。
在訓(xùn)練配置方面,團(tuán)隊(duì)使用了Qwen2.5-Math-1.5B模型作為基礎(chǔ)模型,并建立了兩個(gè)SFT基線:
- **Qwen-SFT-1.5B-3ep**:在DSFT上訓(xùn)練3個(gè)輪次。作為DPO、SimPO和各種REDI配置的起點(diǎn)。 - **Qwen-SFT-1.5B-5ep**:在DSFT上訓(xùn)練5個(gè)輪次。作為最終Qwen-REDI-1.5B模型的起點(diǎn)。
所有評(píng)估都采用溫度為0.6的解碼策略,使用Top P采樣(p=0.95),最大生成長(zhǎng)度為32,768個(gè)標(biāo)記。評(píng)估在多個(gè)數(shù)學(xué)推理基準(zhǔn)上進(jìn)行,包括MATH-500、AIME24、AMC23、Minerva和OlympiadBench。
四、研究結(jié)果:強(qiáng)化蒸餾的驚人效果
研究結(jié)果就像一次成功的教學(xué)實(shí)驗(yàn),證明了從錯(cuò)誤中學(xué)習(xí)的價(jià)值。
**SFT基線的性能極限**
首先,團(tuán)隊(duì)確定了僅使用正面蒸餾數(shù)據(jù)通過(guò)監(jiān)督微調(diào)(SFT)可達(dá)到的性能。如圖2所示,性能在大約5個(gè)輪次后達(dá)到平臺(tái)期。這一觀察突顯了僅從正面軌跡學(xué)習(xí)的局限性,并激發(fā)了利用負(fù)面信號(hào)的動(dòng)力。
**DPO中的性能-穩(wěn)定性權(quán)衡**
研究團(tuán)隊(duì)發(fā)現(xiàn),DPO的β參數(shù)(控制KL正則化)呈現(xiàn)出一個(gè)關(guān)鍵的權(quán)衡。更高的β值增強(qiáng)了訓(xùn)練穩(wěn)定性,通常允許更激進(jìn)的學(xué)習(xí)率。然而,即使使用調(diào)整過(guò)的學(xué)習(xí)率,較高的β可能會(huì)限制峰值性能。相反,較低的β值可以釋放更高的峰值準(zhǔn)確性。
這就像教師在指導(dǎo)學(xué)生時(shí)面臨的權(quán)衡:過(guò)于嚴(yán)格的框架(高β)可能會(huì)限制創(chuàng)新思維,而過(guò)于寬松的指導(dǎo)(低β)可能導(dǎo)致方向不明確。
**通過(guò)非對(duì)稱(chēng)加權(quán)實(shí)現(xiàn)穩(wěn)定性和性能**
REDI方法直接優(yōu)化對(duì)數(shù)似然,而不依賴(lài)于KL正則化,而是通過(guò)非對(duì)稱(chēng)加權(quán)來(lái)管理穩(wěn)定性。研究表明,REDI與α=0.8和學(xué)習(xí)率1×10^-6的配置實(shí)現(xiàn)了快速學(xué)習(xí),類(lèi)似于對(duì)稱(chēng)α=1.0高學(xué)習(xí)率配置,但關(guān)鍵的是,它不會(huì)崩潰。它達(dá)到了高峰值性能并保持這一水平,證明了非對(duì)稱(chēng)加權(quán)策略的效果。
**最終模型性能的比較**
表1展示了這些努力的最終成果。Qwen-REDI-1.5B模型,僅在131k個(gè)開(kāi)放數(shù)據(jù)點(diǎn)上訓(xùn)練,實(shí)現(xiàn)了83.1%的MATH-500分?jǐn)?shù)(pass@1)。這一性能與在800k專(zhuān)有數(shù)據(jù)上訓(xùn)練的DeepSeek-R1-Distill-Qwen-1.5B相當(dāng)或超過(guò),在各種數(shù)學(xué)推理基準(zhǔn)測(cè)試中取得了優(yōu)異成績(jī),為使用公開(kāi)可用數(shù)據(jù)離線后訓(xùn)練的1.5B模型樹(shù)立了新的標(biāo)準(zhǔn)。
值得注意的是,REDI不僅提高了pass@1性能,還維持或提高了多個(gè)基準(zhǔn)測(cè)試的pass@16分?jǐn)?shù)。這表明REDI的離線優(yōu)化并不僅僅過(guò)度優(yōu)化一組高概率解決方案,而是真正提高了模型的整體問(wèn)題解決能力。
五、REDI如何改變游戲規(guī)則?
強(qiáng)化蒸餾(REDI)方法就像給語(yǔ)言模型提供了一個(gè)更全面的學(xué)習(xí)課程,不僅教它"正確的做法",還教它"避免常見(jiàn)錯(cuò)誤"。這種方法的創(chuàng)新之處在于:
1. **高效利用數(shù)據(jù)**:REDI充分利用了傳統(tǒng)方法中被丟棄的負(fù)面示例,從教師模型生成的每一條數(shù)據(jù)中提取價(jià)值。
2. **平衡性能與穩(wěn)定性**:通過(guò)非對(duì)稱(chēng)加權(quán)(α<1.0),REDI找到了一種在保持訓(xùn)練穩(wěn)定性的同時(shí)提高峰值性能的方法。
3. **無(wú)需在線交互**:與需要昂貴在線交互的強(qiáng)化學(xué)習(xí)方法不同,REDI在離線環(huán)境中工作,使其更經(jīng)濟(jì)且易于實(shí)施。
4. **更小模型的強(qiáng)大性能**:研究表明,即使是較小的1.5B參數(shù)模型,通過(guò)REDI也能實(shí)現(xiàn)與更大模型相當(dāng)?shù)耐评砟芰Α?/p>
5. **更好的未來(lái)在線RL準(zhǔn)備**:通過(guò)保持或提高pass@16分?jǐn)?shù),REDI訓(xùn)練的模型似乎更適合后續(xù)通過(guò)在線強(qiáng)化學(xué)習(xí)獲得性能提升。
這種方法不僅提高了模型性能,還可能影響我們對(duì)知識(shí)傳遞的思考方式。就像在人類(lèi)教育中,了解常見(jiàn)錯(cuò)誤和失敗案例可以深化理解,REDI展示了在AI訓(xùn)練中負(fù)面例子的教育價(jià)值。
六、未來(lái)展望與結(jié)論
強(qiáng)化蒸餾(REDI)為訓(xùn)練更小、更高效的語(yǔ)言模型開(kāi)辟了一條新路徑。通過(guò)有效利用正面和負(fù)面蒸餾推理軌跡,REDI使小型模型能夠更接近大型推理模型的能力,但計(jì)算需求顯著降低。
雖然本研究主要集中在數(shù)學(xué)推理上,但REDI框架可能適用于更廣泛的推理任務(wù),如科學(xué)問(wèn)題解決、邏輯推理或復(fù)雜決策制定。未來(lái)的研究可能會(huì)探索REDI在其他領(lǐng)域的應(yīng)用,以及與在線RL方法的結(jié)合可能性。
這項(xiàng)研究的關(guān)鍵貢獻(xiàn)在于揭示了失敗案例中蘊(yùn)含的價(jià)值。通過(guò)將曾經(jīng)被丟棄的"錯(cuò)誤"轉(zhuǎn)化為有價(jià)值的學(xué)習(xí)信號(hào),REDI框架提供了一種更高效、更全面的知識(shí)傳遞方法。這不僅是一項(xiàng)技術(shù)創(chuàng)新,也是對(duì)教與學(xué)本質(zhì)的深刻洞察——有時(shí),知道"為什么不行"與知道"怎樣做對(duì)"同樣重要。
對(duì)于AI研究社區(qū)和更廣泛的科技領(lǐng)域,這一發(fā)現(xiàn)提示我們重新思考如何看待失敗和錯(cuò)誤。也許,就像REDI所證明的那樣,我們最大的進(jìn)步可能來(lái)自于我們?nèi)绾翁幚砗蛯W(xué)習(xí)失敗的經(jīng)驗(yàn)。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語(yǔ)言模型的敘事推理能力與音頻生成技術(shù),通過(guò)交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開(kāi)辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過(guò)讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問(wèn)題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語(yǔ)言模型人性化對(duì)話(huà)問(wèn)題。該研究創(chuàng)建了包含20萬(wàn)高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過(guò)創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開(kāi)發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過(guò)學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來(lái)了效率和精度的雙重突破。