這項(xiàng)研究是由復(fù)旦大學(xué)的梁景聰、南加州大學(xué)的王思遠(yuǎn)、華為技術(shù)有限公司的田米仁、李毅桐、唐度宇以及復(fù)旦大學(xué)的魏忠鈺共同完成的,發(fā)表于2025年5月21日的arXiv預(yù)印本平臺(tái)(arXiv:2505.16056v1)。有興趣深入了解的讀者可以通過GitHub倉(cāng)庫(kù)(https://github.com/ljcleo/moe-lrc)獲取研究的代碼實(shí)現(xiàn)。
一、研究背景:大模型的"省錢秘訣"與內(nèi)存困境
想象一下,你有一個(gè)龐大的專家團(tuán)隊(duì),但每次解決問題時(shí)只需要叫醒其中幾位專家就夠了。這就是混合專家模型(Mixture-of-Experts,簡(jiǎn)稱MoE)的核心思想。在大語(yǔ)言模型(LLM)領(lǐng)域,MoE技術(shù)就像是一種"省錢秘訣",它讓模型可以擁有海量參數(shù),但在實(shí)際運(yùn)行時(shí)只激活其中一小部分,大大降低了計(jì)算成本。
不過,這種省錢方式也帶來了一個(gè)難題:即使只需激活少量專家,所有專家的參數(shù)仍然需要存儲(chǔ)在內(nèi)存中。想象一下,雖然你只需要叫醒幾位專家工作,但你必須為整個(gè)專家團(tuán)隊(duì)準(zhǔn)備住宿房間。這對(duì)于內(nèi)存有限的設(shè)備(比如手機(jī))來說是個(gè)大問題。
為了解決這個(gè)問題,研究人員提出了"專家卸載"(expert offloading)技術(shù)。這就像是讓一部分常用專家住在高級(jí)酒店(快速內(nèi)存,如GPU內(nèi)存),而其他不常用的專家則住在經(jīng)濟(jì)型旅館(慢速內(nèi)存,如CPU內(nèi)存或硬盤)。當(dāng)需要不常用專家時(shí),可以采取兩種方式:一是直接讓他們?cè)诮?jīng)濟(jì)型旅館工作(CPU計(jì)算),二是臨時(shí)將他們接到高級(jí)酒店(按需加載),同時(shí)可能需要安排一些常用專家暫時(shí)搬出去。
過去的研究發(fā)現(xiàn),在實(shí)際使用中,連續(xù)處理的詞元(tokens)往往會(huì)激活相似的專家。這就像是處理同一類問題時(shí),往往需要同一組專家的幫助。這種現(xiàn)象被稱為專家激活的"局部性",可以幫助我們更高效地管理專家資源。然而,不同的MoE模型表現(xiàn)出的這種連續(xù)路由特性各不相同,有些模型經(jīng)常需要切換專家,而有些則能長(zhǎng)時(shí)間使用相同的專家團(tuán)隊(duì)。
本研究正是聚焦于這一問題:不同MoE模型在多大程度上表現(xiàn)出"局部路由一致性"(local routing consistency),以及這種特性如何影響專家卸載的效率。
二、如何衡量局部路由一致性?
要判斷一個(gè)MoE模型是否適合專家卸載,研究團(tuán)隊(duì)提出了兩種測(cè)量方法,就像是給模型做"體檢"一樣,檢測(cè)它們?cè)诰植柯酚梢恢滦苑矫娴?健康狀況"。
首先是"段路由最佳性能"(Segment Routing Best Performance,簡(jiǎn)稱SRP)。想象你正在看一本書,每一頁(yè)(段)都需要一組專家來理解。SRP測(cè)量的是:如果我們?yōu)檎?yè)內(nèi)容固定使用同一組專家(而不是按詞逐個(gè)選擇專家),與原始的逐詞選擇專家相比,效果會(huì)差多少?如果差別很小,說明這個(gè)模型的局部路由一致性很高,非常適合段級(jí)別的專家緩存。
第二個(gè)指標(biāo)是"段緩存最佳命中率"(Segment Cache Best Hit Rate,簡(jiǎn)稱SCH)。這個(gè)指標(biāo)更貼近實(shí)際應(yīng)用場(chǎng)景,它考慮了緩存大小的限制。SCH測(cè)量的是:在給定緩存大小的限制下,如果我們?yōu)橐徽挝谋具x擇固定的專家組合進(jìn)行緩存,最高能達(dá)到多少緩存命中率?命中率越高,說明模型的局部路由一致性越好,專家卸載的效果也就越好。
研究團(tuán)隊(duì)通過數(shù)學(xué)公式精確定義了這兩個(gè)指標(biāo),并展示了它們之間的關(guān)系。簡(jiǎn)單來說,這兩個(gè)指標(biāo)就像是從不同角度觀察同一件事物,SRP更關(guān)注模型的內(nèi)在特性,而SCH則更關(guān)注實(shí)際應(yīng)用中的效果。
三、模型大比拼:誰(shuí)的局部路由一致性更高?
研究團(tuán)隊(duì)對(duì)20個(gè)不同的MoE語(yǔ)言模型進(jìn)行了全面分析,這些模型的參數(shù)規(guī)模從30億到540億不等,覆蓋了各種不同的架構(gòu)設(shè)計(jì)。就像是對(duì)不同品牌的汽車進(jìn)行道路測(cè)試,看看哪種設(shè)計(jì)更適合特定的駕駛環(huán)境。
實(shí)驗(yàn)結(jié)果顯示,模型在短段(4個(gè)詞元)上的局部路由一致性相對(duì)接近,但隨著段長(zhǎng)的增加(16、64甚至256個(gè)詞元),差異逐漸顯現(xiàn)。研究者將這些模型按照局部路由一致性(以SRP為衡量標(biāo)準(zhǔn))分為四組:
第一組(如LLaMA-MoE-v2、OLMoE等)表現(xiàn)最優(yōu),即使在長(zhǎng)段上也保持很高的局部路由一致性。想象一下,這些模型就像是有著穩(wěn)定專業(yè)傾向的專家,無(wú)論問題如何變化,他們的專業(yè)分工都很清晰,很少需要臨時(shí)調(diào)整團(tuán)隊(duì)成員。
第二組(如Mixtral-8x7B、LLaMA-MoE-v1等)局部路由一致性略低,但仍然表現(xiàn)不錯(cuò)。
第三組(如XVERSE-MoE、DeepSeekMoE等)在長(zhǎng)段上的局部路由一致性明顯下降。
第四組(如NLLB-MoE、SwitchTransformers等)局部路由一致性最低,即使在短段上也需要頻繁切換專家。
那么,是什么因素導(dǎo)致了這些差異呢?研究發(fā)現(xiàn),最關(guān)鍵的兩個(gè)因素是:(1)在每一層都應(yīng)用MoE結(jié)構(gòu)(而不是跳過某些層);(2)不使用共享專家。符合這兩個(gè)特點(diǎn)的模型通常具有更高的局部路由一致性。
有趣的是,研究還發(fā)現(xiàn)高局部路由一致性并不一定與負(fù)載均衡(各專家被均勻激活)沖突。例如,Qwen3和GRIN-MoE這樣的模型既有較好的局部路由一致性,又能保持合理的負(fù)載均衡,主要是通過領(lǐng)域?qū)I(yè)化的專家實(shí)現(xiàn)的。
四、專家們的專業(yè)分工:領(lǐng)域?qū)I(yè)化vs詞匯專業(yè)化
在現(xiàn)實(shí)世界中,有些專家擅長(zhǎng)特定領(lǐng)域(如醫(yī)學(xué)、法律),而有些則專精于特定工具或技能。在MoE模型中也存在類似的專業(yè)化現(xiàn)象。研究團(tuán)隊(duì)分析了不同模型在7個(gè)不同領(lǐng)域(C4、CommonCrawl、Books、Wikipedia、ArXiv、StackExchange和GitHub)的表現(xiàn)。
結(jié)果顯示,有些模型(如Phi-3.5-MoE、GRIN-MoE和OLMoE)在專業(yè)性領(lǐng)域(如Wikipedia、ArXiv、StackExchange和GitHub)表現(xiàn)出更高的局部路由一致性。這就像是這些模型中的專家對(duì)專業(yè)知識(shí)有著更清晰的分工,處理同一領(lǐng)域的問題時(shí)往往由相同的專家團(tuán)隊(duì)負(fù)責(zé)。
其他模型(如Yuan2.0、Qwen3和Qwen1.5-MoE)則在Wikipedia上表現(xiàn)出特別高的局部路由一致性,可能是因?yàn)閃ikipedia包含大量多語(yǔ)言文本,需要特定的語(yǔ)言專家。
還有一些模型(如Mixtral-8x7B、MiniCPM-MoE和JetMoE)在各個(gè)領(lǐng)域的局部路由一致性相對(duì)均衡,沒有明顯的領(lǐng)域偏好。
研究團(tuán)隊(duì)進(jìn)一步分析了專家的專業(yè)化類型,發(fā)現(xiàn)兩種主要的專業(yè)化方式:(1)領(lǐng)域?qū)I(yè)化:某些專家專門處理特定領(lǐng)域的內(nèi)容;(2)詞匯專業(yè)化:某些專家專門處理特定類型的詞匯。
實(shí)驗(yàn)結(jié)果表明,領(lǐng)域?qū)I(yè)化對(duì)局部路由一致性的貢獻(xiàn)更大。這就像是專業(yè)領(lǐng)域的專家分工更加穩(wěn)定,而處理特定詞匯的專家則需要根據(jù)上下文頻繁切換。模型如Qwen3、Phi-3.5-MoE、GRIN-MoE和OLMoE同時(shí)具有高度的領(lǐng)域?qū)I(yè)化、較高的局部路由一致性,以及它們之間的強(qiáng)相關(guān)性,證明了這一點(diǎn)。
五、緩存大小的黃金比例:專家數(shù)量的兩倍最佳
在實(shí)際應(yīng)用中,一個(gè)關(guān)鍵問題是:我們應(yīng)該為多少專家準(zhǔn)備"高級(jí)酒店"房間(快速內(nèi)存)?太少會(huì)導(dǎo)致頻繁的專家切換,太多則浪費(fèi)寶貴的內(nèi)存資源。
研究團(tuán)隊(duì)通過分析段緩存最佳命中率(SCH)在不同緩存大小下的變化,發(fā)現(xiàn)了一個(gè)實(shí)用的規(guī)律:對(duì)于大多數(shù)MoE模型,當(dāng)緩存大小是激活專家數(shù)量的2倍時(shí),可以在緩存效果和內(nèi)存效率之間取得最佳平衡。
具體來說,第一組模型(局部路由一致性最高的模型)在緩存大小為激活專家數(shù)量2倍時(shí),緩存命中率就能達(dá)到60%以上,并且繼續(xù)增加緩存大小對(duì)性能提升有限。第二組和第三組模型也能在這個(gè)緩存大小下取得不錯(cuò)的性能,而第四組模型則需要更大的緩存大小才能達(dá)到滿意的效果。
這一發(fā)現(xiàn)為MoE模型的實(shí)際部署提供了重要參考。簡(jiǎn)單來說,如果一個(gè)模型每次激活2個(gè)專家,那么為4個(gè)專家準(zhǔn)備快速內(nèi)存空間就是一個(gè)較為理想的選擇。
六、研究啟示與未來方向
這項(xiàng)研究的結(jié)果對(duì)MoE模型的設(shè)計(jì)和部署都具有重要意義。首先,它告訴我們不是所有MoE模型都同樣適合專家卸載。在設(shè)計(jì)需要部署到內(nèi)存受限設(shè)備的MoE模型時(shí),應(yīng)該優(yōu)先考慮在每一層都應(yīng)用MoE結(jié)構(gòu),并避免使用共享專家,這樣可以獲得更高的局部路由一致性。
此外,研究還表明,通過適當(dāng)?shù)脑O(shè)計(jì),可以同時(shí)實(shí)現(xiàn)高局部路由一致性和良好的負(fù)載均衡,主要是依靠領(lǐng)域?qū)I(yè)化的專家。這為未來MoE模型的優(yōu)化提供了明確方向。
對(duì)于已有MoE模型的部署,研究建議將緩存大小設(shè)為激活專家數(shù)量的2倍,這個(gè)"黃金比例"在大多數(shù)情況下能夠平衡緩存效果和內(nèi)存效率。
需要注意的是,研究也存在一些局限性,比如實(shí)驗(yàn)中的MoE模型參數(shù)規(guī)模僅達(dá)到60B,而未來可能會(huì)有更大規(guī)模的模型出現(xiàn)。此外,研究中的SRP和SCH指標(biāo)關(guān)注的是純粹的段路由/緩存,而實(shí)際的專家卸載系統(tǒng)可能會(huì)更加復(fù)雜。未來的研究可以探索這些理論發(fā)現(xiàn)在實(shí)際專家卸載系統(tǒng)中的應(yīng)用效果。
總的來說,這項(xiàng)研究為我們揭示了MoE模型中一個(gè)重要但之前被忽視的特性——局部路由一致性,并提供了測(cè)量和優(yōu)化這一特性的方法。這些發(fā)現(xiàn)不僅有助于設(shè)計(jì)更適合內(nèi)存受限設(shè)備的MoE模型,也為現(xiàn)有模型的高效部署提供了實(shí)用指導(dǎo)。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語(yǔ)言模型的敘事推理能力與音頻生成技術(shù),通過交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語(yǔ)言模型人性化對(duì)話問題。該研究創(chuàng)建了包含20萬(wàn)高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。