研究背景與核心發(fā)現(xiàn)
在人工智能的廣闊天地中,大型語言模型(LLM)如同一位位博學(xué)多識的智者,為我們解答各種復(fù)雜問題,完成各類困難任務(wù)。不過,要培養(yǎng)這樣一位"智者",可不是一件容易的事——它需要海量的計(jì)算資源和漫長的訓(xùn)練時間。最近,來自字節(jié)跳動Seed團(tuán)隊(duì)的研究人員發(fā)表了一篇題為《Model Merging in Pre-training of Large Language Models》(大型語言模型預(yù)訓(xùn)練中的模型合并)的論文,探索了一種名為"模型合并"的技術(shù),這項(xiàng)技術(shù)就像是一種神奇的"智慧融合術(shù)",可以大幅提升模型訓(xùn)練效率和性能。這篇研究論文于2025年5月18日發(fā)布在arXiv預(yù)印本平臺(arXiv:2505.12082v1),由Yunshui Li領(lǐng)導(dǎo)的字節(jié)跳動Seed團(tuán)隊(duì)完成。
想象你正在烤制一個精美的蛋糕。通常的做法是嚴(yán)格按照食譜,經(jīng)過預(yù)熱、攪拌、烘焙等一系列完整步驟。而模型合并技術(shù)相當(dāng)于發(fā)現(xiàn)了一個巧妙的烘焙捷徑——你可以把幾個半成品的蛋糕按特定比例混合,居然能得到一個比單獨(dú)烤制更美味的成品!這不僅節(jié)省了時間和能源,還提高了蛋糕的品質(zhì)。
在人工智能領(lǐng)域,模型合并并不是全新概念,此前已在模型微調(diào)階段得到應(yīng)用。例如,研究人員曾將專門解答問題的WizardLM模型與專攻數(shù)學(xué)的WizardMath模型合并,結(jié)果在GSM8K數(shù)學(xué)測試上的成績從2.2分飆升至66.3分。然而,在預(yù)訓(xùn)練階段應(yīng)用模型合并的研究卻相對稀少,主要是因?yàn)榇笠?guī)模模型預(yù)訓(xùn)練需要龐大的計(jì)算資源,普通研究者難以進(jìn)行系統(tǒng)性實(shí)驗(yàn)。雖然DeepSeek和LLaMA-3等知名模型也提到使用了模型合并技術(shù),但并未詳細(xì)公開其具體方法。
字節(jié)跳動Seed團(tuán)隊(duì)的研究彌補(bǔ)了這一空白。他們提出了一種名為"預(yù)訓(xùn)練模型平均"(Pre-trained Model Average,簡稱PMA)的策略,并在從百萬到千億參數(shù)級別的各種模型架構(gòu)上進(jìn)行了系統(tǒng)性驗(yàn)證。研究結(jié)果令人振奮:在訓(xùn)練穩(wěn)定階段合并檢查點(diǎn)不僅能顯著提升模型性能,還能準(zhǔn)確預(yù)測后期學(xué)習(xí)率衰減的效果。這意味著研究人員可以使用恒定學(xué)習(xí)率訓(xùn)練模型,然后通過簡單的模型合并就能獲得相當(dāng)于完成了學(xué)習(xí)率衰減階段的優(yōu)秀模型,大大節(jié)省了計(jì)算資源和時間。
模型合并的基本原理:智慧的融合之道
在深入了解研究細(xì)節(jié)前,讓我們先弄清楚什么是模型合并。簡單來說,模型合并就像是多位專家的智慧結(jié)晶。想象你有幾位經(jīng)驗(yàn)豐富的老師,每位老師都有自己的教學(xué)方法和長處。模型合并就相當(dāng)于把這些老師的知識和經(jīng)驗(yàn)按照某種比例融合在一起,形成一套更全面、更有效的教學(xué)方案。
在技術(shù)層面,模型合并指的是將多個模型的權(quán)重(可以理解為模型的"知識")按照特定公式合并成一個新模型。如果用數(shù)學(xué)公式表示,合并后的模型Mavg是這樣得到的:
Mavg = 求和(w?M? + w?M? + ... + w?M?)
其中,M?到M?是要合并的模型,w?到w?是每個模型的權(quán)重系數(shù)。這些系數(shù)決定了各個模型對最終結(jié)果的貢獻(xiàn)程度,就像配方中各種配料的比例。
研究團(tuán)隊(duì)探索了三種主要的模型合并方法:
1. 簡單移動平均(SMA):這種方法就像平均分配投票權(quán),每個模型獲得相同的權(quán)重。比如合并10個模型,每個模型的權(quán)重都是0.1。
2. 指數(shù)移動平均(EMA):這方法更重視"新鮮"的模型,給予訓(xùn)練較多的模型更高的權(quán)重,類似于我們更信任最新消息而非舊聞。
3. 加權(quán)移動平均(WMA):這種方法也偏向較新的模型,但權(quán)重分配方式不同,可以設(shè)定為線性增長的權(quán)重。
這三種方法就像三種不同的融合配方,每種都有其特點(diǎn)和適用場景。
實(shí)驗(yàn)設(shè)計(jì):全方位的探索歷程
為了驗(yàn)證模型合并的效果,研究團(tuán)隊(duì)設(shè)計(jì)了一系列精心的實(shí)驗(yàn)。他們訓(xùn)練了多種規(guī)模和架構(gòu)的語言模型,包括參數(shù)量從411M到70B的Dense模型,以及有效/總參數(shù)從0.7B/7B到20B/200B的混合專家模型(MoE)。
訓(xùn)練過程采用了目前流行的"預(yù)熱-穩(wěn)定-衰減"(Warmup-Stable-Decay,WSD)學(xué)習(xí)率調(diào)度策略。這就像烹飪時的火候控制:先用小火預(yù)熱,然后保持穩(wěn)定的中火烹煮一段時間,最后慢慢轉(zhuǎn)小火收尾。在AI訓(xùn)練中,這對應(yīng)著學(xué)習(xí)率先緩慢增加(預(yù)熱),然后保持一段恒定值(穩(wěn)定),最后逐漸降低(衰減)。
研究團(tuán)隊(duì)在不同的訓(xùn)練階段進(jìn)行了模型合并實(shí)驗(yàn),主要關(guān)注穩(wěn)定階段和衰減階段。他們評估模型性能時使用了多種開源基準(zhǔn)測試,包括編程能力測試(HumanEval)、通用知識測試(MMLU)、推理能力測試(BBH)以及數(shù)學(xué)問題求解(GSM8K)等。
研究發(fā)現(xiàn)一:模型合并顯著提升性能
首個重要發(fā)現(xiàn)是,在恒定學(xué)習(xí)率的穩(wěn)定訓(xùn)練階段合并模型可以一致且顯著地提高模型性能。以MoE-1.3B/13B模型為例,在HumanEval測試中,性能從31.1提升到36.6;更大的MoE-10B/100B模型在同一測試中從54.3提升到61.6。雖然較大模型在某些測試上改進(jìn)幅度較小,但這很可能是因?yàn)樗鼈円呀?jīng)接近飽和狀態(tài)。
更令人驚喜的是,在衰減階段初期合并的模型表現(xiàn)往往與完全衰減階段訓(xùn)練的模型相當(dāng),甚至有時更優(yōu)。這就像發(fā)現(xiàn)了一條烹飪捷徑——不必等待菜肴完全燉煮,在中途就能通過某種方法預(yù)覽最終成品的味道!
為了驗(yàn)證這一發(fā)現(xiàn),研究團(tuán)隊(duì)進(jìn)行了一個特別實(shí)驗(yàn):他們從MoE-1.3B/13B模型的穩(wěn)定階段(1.4T tokens位置)分出兩條訓(xùn)練路徑,一條繼續(xù)使用恒定學(xué)習(xí)率訓(xùn)練,另一條進(jìn)入衰減階段,各自再訓(xùn)練250B tokens。隨后,他們對恒定學(xué)習(xí)率訓(xùn)練的模型進(jìn)行合并。結(jié)果表明,合并后的模型在訓(xùn)練早期顯著優(yōu)于單個恒定學(xué)習(xí)率模型和衰減模型,在訓(xùn)練后期也能與衰減模型相媲美。
這一發(fā)現(xiàn)意義重大:研究人員可以只用恒定學(xué)習(xí)率訓(xùn)練,然后通過模型合并獲得相當(dāng)于完成衰減訓(xùn)練的效果,大大加速模型驗(yàn)證周期并節(jié)省計(jì)算資源。
研究發(fā)現(xiàn)二:不同合并方法的比較
研究團(tuán)隊(duì)還比較了不同合并方法的效果。在訓(xùn)練早期(204B tokens),所有合并方法都能提升性能,但WMA方法表現(xiàn)最佳。這表明,在模型權(quán)重變化較大的訓(xùn)練早期,給予訓(xùn)練更多的模型更高權(quán)重是有益的。這一點(diǎn)從EMAα=0.2優(yōu)于EMAα=0.1的結(jié)果也能看出。
然而,隨著訓(xùn)練進(jìn)行到后期,模型權(quán)重趨于穩(wěn)定,不同合并方法的性能差異逐漸縮小?;诤唵涡院头€(wěn)定性考慮,團(tuán)隊(duì)在后續(xù)實(shí)驗(yàn)中主要使用SMA方法。
研究發(fā)現(xiàn)三:最佳合并間隔與數(shù)量
除了合并方法本身,合并間隔V(選擇模型之間的訓(xùn)練量差異)和合并模型數(shù)量N也是重要因素。
關(guān)于合并間隔,研究團(tuán)隊(duì)發(fā)現(xiàn),在訓(xùn)練早期(204B tokens),使用太大的間隔(V=16B或32B)會導(dǎo)致合并效果不佳,可能是因?yàn)檩^大間隔會引入訓(xùn)練初期不穩(wěn)定的權(quán)重。隨著訓(xùn)練進(jìn)行和權(quán)重穩(wěn)定,不同間隔設(shè)置的性能差距逐漸縮小。
實(shí)踐中,最佳間隔與模型大小有關(guān):1.3B/13B模型約為8B tokens,0.7B/7B模型約為4B tokens,10B/100B模型約為80B tokens。這一規(guī)律與較大模型傾向使用更大批次大小的趨勢一致。
關(guān)于合并模型數(shù)量,團(tuán)隊(duì)設(shè)置V=8B,測試了N=3、6、10和15的效果。發(fā)現(xiàn)訓(xùn)練早期,合并更多模型會引入不穩(wěn)定權(quán)重,反而降低性能。但完成訓(xùn)練后,合并更多模型能顯著提升性能,N=3的整體性能比N=15低近1個點(diǎn)。為平衡計(jì)算成本和性能提升,團(tuán)隊(duì)在后續(xù)實(shí)驗(yàn)中選擇N=10。
研究發(fā)現(xiàn)四:PMA對下游訓(xùn)練的影響
一個完整的大型語言模型訓(xùn)練通常包括預(yù)訓(xùn)練、持續(xù)訓(xùn)練(CT)、監(jiān)督微調(diào)(SFT)和強(qiáng)化學(xué)習(xí)(RL)階段。研究團(tuán)隊(duì)探索了PMA在預(yù)訓(xùn)練后的持續(xù)訓(xùn)練和監(jiān)督微調(diào)階段的應(yīng)用。
他們提出了"PMA初始化"(PMA-init)技術(shù),即用合并模型作為后續(xù)訓(xùn)練階段的初始權(quán)重。在持續(xù)訓(xùn)練階段,PMA-init模型在訓(xùn)練初期顯示出略低的損失值,隨著訓(xùn)練進(jìn)行,不同初始化權(quán)重的模型性能趨于相似水平。在MMLU測試中,PMA-init模型在訓(xùn)練早期優(yōu)于基線,但后期優(yōu)勢不明顯。
在監(jiān)督微調(diào)階段,使用相同學(xué)習(xí)率時,PMA-init顯著優(yōu)于基線,特別是在內(nèi)部評估集上,OOD和指令遵循測試提高超過兩點(diǎn),推理能力提高1.9點(diǎn)。不過,這種顯著改進(jìn)在其他模型規(guī)模上的實(shí)驗(yàn)中并不總是能復(fù)現(xiàn)。
總體而言,PMA-init作為一種低成本方法,值得嘗試用于增強(qiáng)下游模型性能。
研究發(fā)現(xiàn)五:PMA提高訓(xùn)練穩(wěn)定性
大規(guī)模語言模型訓(xùn)練中,基礎(chǔ)設(shè)施問題幾乎不可避免,常導(dǎo)致訓(xùn)練不穩(wěn)定,如損失值突增或發(fā)散。研究發(fā)現(xiàn),使用PMA-init初始化的模型在監(jiān)督微調(diào)階段展示出更穩(wěn)定的梯度范數(shù)(GradNorm)指標(biāo),損失值突增現(xiàn)象也減少。
為深入研究這一現(xiàn)象,團(tuán)隊(duì)在一個330M/3.3B MoE模型上使用極高學(xué)習(xí)率(6e-3)復(fù)現(xiàn)了訓(xùn)練不穩(wěn)定現(xiàn)象。當(dāng)模型訓(xùn)練崩潰時,他們采用PMA-init合并崩潰前的三個檢查點(diǎn)恢復(fù)訓(xùn)練,結(jié)果訓(xùn)練過程成功穩(wěn)定,順利通過崩潰點(diǎn)并沿原軌跡繼續(xù)。
這表明PMA-init能可靠增強(qiáng)多階段訓(xùn)練穩(wěn)定性。當(dāng)出現(xiàn)損失值突增時,可以合并突增前的模型檢查點(diǎn)并從那里恢復(fù)訓(xùn)練,避免從頭重新訓(xùn)練,大大節(jié)省計(jì)算資源。
研究發(fā)現(xiàn)六:模型合并的工作機(jī)制探索
為了深入理解模型合并為何有效,研究團(tuán)隊(duì)進(jìn)行了理論分析和可視化研究。
從理論角度,他們使用泰勒展開式分析了損失函數(shù)。簡單來說,合并模型的損失值低于單個模型平均損失的條件在于,不同模型的"偏差向量"在損失函數(shù)曲率(海森矩陣)背景下呈現(xiàn)某種互補(bǔ)性或"負(fù)相關(guān)"。
通俗理解就是,不同訓(xùn)練檢查點(diǎn)探索了參數(shù)空間的不同區(qū)域或方向,當(dāng)這些探索在損失函數(shù)幾何結(jié)構(gòu)上形成互補(bǔ)時,它們的平均位置能比單個模型更接近最優(yōu)點(diǎn)。
研究團(tuán)隊(duì)還選取了幾個預(yù)訓(xùn)練檢查點(diǎn),可視化了特定層兩個參數(shù)的平均分布并生成MMLU性能等高線。結(jié)果顯示,單個模型的權(quán)重位置(黑點(diǎn))分布在MMLU得分等高線上,呈現(xiàn)出明顯的"互補(bǔ)"模式。合并后的權(quán)重位置(圖中的紅星)通常更接近更高M(jìn)MLU得分區(qū)域。
這也解釋了為何在學(xué)習(xí)率降至很低的衰減后期,模型合并改進(jìn)效果減弱——此時要合并的模型已經(jīng)緊密收斂在特定局部最優(yōu)區(qū)域內(nèi),合并它們基本上就是在這個狹窄區(qū)域內(nèi)平均,難以跳出到顯著更好的區(qū)域。
實(shí)際應(yīng)用指南與建議
基于研究發(fā)現(xiàn),字節(jié)跳動Seed團(tuán)隊(duì)為開源社區(qū)提供了一些實(shí)用的預(yù)訓(xùn)練模型合并指南:
1. 在穩(wěn)定訓(xùn)練階段進(jìn)行模型合并是一種簡單有效的性能提升方法,特別適合資源有限的研究團(tuán)隊(duì)。
2. 合并間隔應(yīng)根據(jù)模型大小適當(dāng)調(diào)整,較大模型需要較大間隔。
3. 合并更多模型通常能獲得更好性能,但計(jì)算成本也更高,N=10是較好的平衡點(diǎn)。
4. 對于性能驗(yàn)證,可以在穩(wěn)定階段用恒定學(xué)習(xí)率訓(xùn)練,然后通過模型合并預(yù)測最終性能,避免完整的學(xué)習(xí)率衰減階段,大大加速開發(fā)周期。
5. 當(dāng)訓(xùn)練出現(xiàn)不可恢復(fù)的損失值突增時,可以嘗試PMA-init技術(shù),合并突增前的檢查點(diǎn)恢復(fù)訓(xùn)練,而非從頭重來。
6. 簡單移動平均(SMA)方法因其簡單性和穩(wěn)定性,是實(shí)踐中的推薦選擇。
這些指南如同一份"模型合并食譜",幫助研究人員在實(shí)際工作中更有效地應(yīng)用這一技術(shù)。
總結(jié)與展望
字節(jié)跳動Seed團(tuán)隊(duì)的這項(xiàng)研究深入探索了模型合并在大型語言模型預(yù)訓(xùn)練中的應(yīng)用,開創(chuàng)性地證明了這一技術(shù)在大規(guī)模預(yù)訓(xùn)練場景的有效性和優(yōu)勢。
通過在百萬到千億參數(shù)級別的各種模型架構(gòu)上的系統(tǒng)實(shí)驗(yàn),研究團(tuán)隊(duì)發(fā)現(xiàn):穩(wěn)定訓(xùn)練階段的模型合并不僅能顯著提升性能,還能準(zhǔn)確預(yù)測學(xué)習(xí)率衰減效果;合并更多模型通常帶來更好性能;最佳合并間隔與模型大小有明確的縮放關(guān)系;模型合并還能有效提高訓(xùn)練穩(wěn)定性,避免因損失值突增導(dǎo)致的訓(xùn)練崩潰。
這些發(fā)現(xiàn)為大規(guī)模語言模型的高效開發(fā)提供了寶貴工具。研究人員可以通過模型合并技術(shù)加速驗(yàn)證周期,減少計(jì)算資源消耗,同時獲得更高質(zhì)量的模型。
未來研究方向可能包括:探索更多樣化的合并策略;研究不同學(xué)習(xí)率下模型合并的效果;將模型合并擴(kuò)展到強(qiáng)化學(xué)習(xí)等后訓(xùn)練階段;以及深入理解模型合并的理論基礎(chǔ)。
正如研究團(tuán)隊(duì)所展示的,模型合并不僅是一種技術(shù)手段,更是一種思維方式——通過巧妙組合已有資源,創(chuàng)造超越個體總和的價值。這種"1+1>2"的智慧,或許正是人工智能發(fā)展的重要思路之一。
好文章,需要你的鼓勵
北航團(tuán)隊(duì)推出Easy Dataset框架,通過直觀的圖形界面和角色驅(qū)動的生成方法,讓普通用戶能夠輕松將各種格式文檔轉(zhuǎn)換為高質(zhì)量的AI訓(xùn)練數(shù)據(jù)。該工具集成了智能文檔解析、混合分塊策略和個性化問答生成功能,在金融領(lǐng)域?qū)嶒?yàn)中顯著提升了AI模型的專業(yè)表現(xiàn),同時保持通用能力。項(xiàng)目已開源并獲得超過9000顆GitHub星標(biāo)。
盧森堡計(jì)算機(jī)事件響應(yīng)中心開發(fā)的VLAI系統(tǒng),基于RoBERTa模型,能夠通過閱讀漏洞描述自動判斷危險(xiǎn)等級。該系統(tǒng)在60萬個真實(shí)漏洞數(shù)據(jù)上訓(xùn)練,準(zhǔn)確率達(dá)82.8%,已集成到實(shí)際安全服務(wù)中。研究采用開源方式,為網(wǎng)絡(luò)安全專家提供快速漏洞風(fēng)險(xiǎn)評估工具,有效解決了官方評分發(fā)布前的安全決策難題。
中國電信研究院等機(jī)構(gòu)聯(lián)合開發(fā)的xVerify系統(tǒng),專門解決復(fù)雜AI推理模型的評估難題。該系統(tǒng)能夠準(zhǔn)確判斷包含多步推理過程的AI輸出,在準(zhǔn)確率和效率方面均超越現(xiàn)有方法,為AI評估領(lǐng)域提供了重要突破。
昆侖公司Skywork AI團(tuán)隊(duì)開發(fā)的Skywork R1V模型,成功將文本推理能力擴(kuò)展到視覺領(lǐng)域。該模型僅用380億參數(shù)就實(shí)現(xiàn)了與大型閉源模型相媲美的多模態(tài)推理性能,在MMMU測試中達(dá)到69.0分,在MathVista獲得67.5分,同時保持了優(yōu)秀的文本推理能力。研究團(tuán)隊(duì)采用高效的多模態(tài)遷移、混合優(yōu)化框架和自適應(yīng)推理鏈蒸餾三項(xiàng)核心技術(shù),成功實(shí)現(xiàn)了視覺理解與邏輯推理的完美結(jié)合,并將所有代碼和權(quán)重完全開源。