這項(xiàng)由香港中文大學(xué)的裴澤華、潘烜嘉林、余北和華為諾亞方舟實(shí)驗(yàn)室的張穎、甄慧玲、余顯志、劉五龍、袁明軒等研究人員共同完成的研究,發(fā)表于2025年5月的預(yù)印本論文平臺arXiv(論文編號:2505.17639v1)。有興趣深入了解的讀者可通過GitHub鏈接(https://github.com/JarvisPei/PreMoe)獲取源代碼。
**大型語言模型的記憶困境**
想象一下,你有一支由數(shù)百位專家組成的顧問團(tuán)隊(duì),每次只需要其中幾位專家來解答特定問題,但卻必須支付全部專家的出場費(fèi)和食宿費(fèi)。這基本上就是當(dāng)前大型混合專家模型(Mixture-of-Experts,簡稱MoE)面臨的困境。
近年來,從DeepSeek-R1(671B參數(shù))到Mixtral 8×7B,再到Qwen-MoE等大型語言模型展現(xiàn)出了驚人的能力。它們采用了"混合專家"架構(gòu),這種設(shè)計(jì)非常聰明:模型中包含大量"專家"模塊,但處理每個(gè)輸入時(shí)只激活其中幾個(gè)最相關(guān)的專家,既保持了大模型的強(qiáng)大能力,又減少了計(jì)算成本。
然而,這種設(shè)計(jì)存在一個(gè)重大缺陷:雖然計(jì)算時(shí)只用少數(shù)專家,但所有專家的參數(shù)仍需常駐內(nèi)存。以DeepSeek-R1為例,它聲稱擁有671B參數(shù),理論上需要超過1.3TB的內(nèi)存才能完整加載(按16位精度計(jì)算)。這使得這類模型只能在特定的高端計(jì)算設(shè)施上運(yùn)行,極大限制了它們的應(yīng)用范圍。
**專家不是都一樣的:任務(wù)專業(yè)化的發(fā)現(xiàn)**
香港中文大學(xué)和華為的研究團(tuán)隊(duì)在研究中發(fā)現(xiàn)了一個(gè)關(guān)鍵現(xiàn)象:MoE模型中的專家表現(xiàn)出明顯的"任務(wù)專業(yè)化"特征。簡單來說,不同的專家擅長不同類型的任務(wù)。
想象一下,如果你有一群醫(yī)生,有些擅長心臟病,有些擅長骨科,還有些擅長兒科。當(dāng)一個(gè)心臟病患者就診時(shí),你只需要心臟科專家,而不需要骨科醫(yī)生在場。研究人員通過分析DeepSeek-R1模型在不同任務(wù)上的表現(xiàn),發(fā)現(xiàn)模型中的"專家"也有類似的專業(yè)分工。
通過分析路由器邏輯(模型中決定激活哪些專家的組件)分布熱圖,他們清晰地看到:對于任何特定任務(wù),只有少數(shù)專家會(huì)被頻繁激活并產(chǎn)生高度正向的貢獻(xiàn),而大多數(shù)專家要么很少被激活,要么即使被激活也貢獻(xiàn)有限。
這一發(fā)現(xiàn)啟發(fā)了研究團(tuán)隊(duì):如果我們能提前識別出對特定任務(wù)至關(guān)重要的專家,并只加載這些專家,是否就能顯著減少內(nèi)存需求,同時(shí)保持模型性能?
**PreMoe:專家精簡與檢索的雙劍合璧**
基于上述發(fā)現(xiàn),研究團(tuán)隊(duì)提出了名為PreMoe(Pruning Retrieval MoE)的框架,它由兩個(gè)核心組件組成:概率專家精簡(PEP)和任務(wù)自適應(yīng)專家檢索(TAER)。
**概率專家精簡:找出真正重要的專家**
想象你要舉辦一場派對,但預(yù)算有限,必須從一百多位朋友中只邀請十幾位。你會(huì)怎么選?可能會(huì)邀請那些最了解派對主題、最能帶動(dòng)氣氛的朋友。
概率專家精簡(PEP)也是類似的思路。它引入了一個(gè)名為"任務(wù)條件期望選擇分?jǐn)?shù)"(TCESS)的指標(biāo),通過分析路由器邏輯模式來量化每個(gè)專家對特定任務(wù)的重要性。
具體來說,這個(gè)過程有點(diǎn)像投票系統(tǒng)。首先,對于一個(gè)輸入標(biāo)記,系統(tǒng)會(huì)選出前Ka個(gè)"候選專家"(由原始路由器邏輯決定)。然后,對這些候選專家進(jìn)行本地概率歸一化(類似于初選)。接下來,只有那些本地概率超過閾值r的專家才會(huì)被視為"高置信度"專家,其原始邏輯值將被收集用于計(jì)算TCESS分?jǐn)?shù)。
這樣,TCESS分?jǐn)?shù)實(shí)際上反映了一個(gè)專家在特定任務(wù)上被高置信度選中的平均強(qiáng)度。分?jǐn)?shù)越高,意味著該專家對任務(wù)越重要。通過選擇TCESS分?jǐn)?shù)最高的M個(gè)專家,我們就能找到對特定任務(wù)最關(guān)鍵的專家子集。
**任務(wù)自適應(yīng)專家檢索:動(dòng)態(tài)加載適合的專家**
雖然概率專家精簡提供了一種原則性方法來識別關(guān)鍵專家,但每次用戶查詢都重新計(jì)算TCESS值在部署環(huán)境中顯然不夠高效。為解決這個(gè)問題,研究團(tuán)隊(duì)提出了任務(wù)自適應(yīng)專家檢索(TAER)機(jī)制。
想象你是一家餐廳的經(jīng)理,為不同類型的聚會(huì)(商務(wù)會(huì)議、生日派對、婚禮等)都準(zhǔn)備了一份最佳員工配置清單。當(dāng)客人預(yù)訂時(shí),你只需快速識別聚會(huì)類型,然后根據(jù)預(yù)設(shè)的清單調(diào)配人員,而不需要每次都重新評估所有員工。
TAER的工作方式也很類似:
1. **離線存儲(chǔ)階段**:預(yù)先計(jì)算并存儲(chǔ)各種代表性任務(wù)的專家重要性模式。為了節(jié)省存儲(chǔ)空間,只完整保存第一個(gè)MoE層的TCESS模式,而對后續(xù)層則保存與第一層對應(yīng)的排列向量。
2. **基于查詢的檢索**:當(dāng)收到新查詢時(shí),模型會(huì)計(jì)算查詢的TCESS模式,并找到存儲(chǔ)庫中最相似的任務(wù)模式(使用L2距離計(jì)算)。
3. **模型重建**:根據(jù)檢索到的模式,系統(tǒng)只加載對特定任務(wù)至關(guān)重要的專家,大大減少內(nèi)存需求。
這種方法的獨(dú)特之處在于,完整模型及其所有專家無需一開始就加載到內(nèi)存中。相反,系統(tǒng)維護(hù)一個(gè)輕量級的模型骨架,在任務(wù)識別后動(dòng)態(tài)加載必要的專家。
**實(shí)驗(yàn)驗(yàn)證:性能驚人保持,內(nèi)存大幅節(jié)省**
研究團(tuán)隊(duì)在多個(gè)MoE架構(gòu)上進(jìn)行了全面測試,結(jié)果令人印象深刻:
**DeepSeek-R1 671B**: - 完整模型(8/256配置,即每層8個(gè)激活專家,從256個(gè)專家中選擇)需要1.3TB內(nèi)存,在MATH500上準(zhǔn)確率為96.8%。 - 使用PreMoe精簡到8/128配置(減少50%專家)后,內(nèi)存需求降至688GB,MATH500準(zhǔn)確率反而提高到97.2%。 - 進(jìn)一步激進(jìn)精簡至8/32配置(減少87.5%專家),內(nèi)存需求降至196GB,仍保持72.0%的MATH500準(zhǔn)確率。
**Pangu-Ultra-MoE 718B**: - 從8/256配置(1.36TB內(nèi)存)精簡到8/128配置(738GB內(nèi)存),MATH500準(zhǔn)確率從97.4%輕微下降至97.15%,AIME24準(zhǔn)確率完全保持在81.3%。 - 更激進(jìn)地精簡到4/64配置(僅390GB內(nèi)存),MATH500準(zhǔn)確率仍達(dá)96.95%,AIME24為79.7%。
**內(nèi)存高效部署**: - 結(jié)合4位量化技術(shù),進(jìn)一步降低內(nèi)存需求。 - DeepSeek-R1-W4(4位量化)在8/32配置下,僅需70GB內(nèi)存,在GPQA Biology上的表現(xiàn)(43.56%)甚至超過了原始完整模型(42.57%)。
值得注意的是,PreMoe不僅節(jié)省內(nèi)存,還提高了吞吐量。例如,Pangu-Ultra-MoE在從8/256減少到8/128(BF16精度)時(shí)吞吐量提升10%,在4/64 W4配置下提升35%。
**案例分析:看看精簡模型的推理能力**
為了直觀展示模型精簡后的性能,研究團(tuán)隊(duì)提供了DeepSeek-R1在不同精簡比例下解決數(shù)學(xué)問題的示例。令人驚訝的是,即使在大幅減少專家數(shù)量的情況下(如8/32配置),模型仍能保持正確的推理軌跡。這證明了PreMoe能夠有效保留模型的核心推理能力,盡管采用了激進(jìn)的精簡策略。
**精心設(shè)計(jì)的消融實(shí)驗(yàn)**
為驗(yàn)證PreMoe各組件的有效性,研究團(tuán)隊(duì)進(jìn)行了一系列消融實(shí)驗(yàn):
1. **與隨機(jī)選擇專家對比**:在相同精簡比例下,PreMoe的TCESS專家選擇方法在所有測試任務(wù)中都顯著優(yōu)于隨機(jī)選擇專家。例如,在8/16設(shè)置下,PreMoe在GPQA Biology上達(dá)到34.15%準(zhǔn)確率,而隨機(jī)選擇僅為26.73%。
2. **輸出模式收集策略**:研究發(fā)現(xiàn),同時(shí)考慮輸入查詢和模型推理輸出來收集TCESS模式,比僅使用輸入查詢效果更好。當(dāng)只基于查詢收集模式時(shí),精簡后的模型可能會(huì)出現(xiàn)重復(fù)循環(huán)或不完整解決方案,這凸顯了在整個(gè)生成過程中捕捉專家動(dòng)態(tài)的重要性。
**總結(jié):MoE模型民主化的一大步**
PreMoe框架通過利用MoE模型中的任務(wù)專家專業(yè)化特性,成功解決了大型MoE模型在內(nèi)存受限環(huán)境中部署的關(guān)鍵挑戰(zhàn)。通過概率專家精簡和任務(wù)自適應(yīng)專家檢索,PreMoe能夠顯著減少內(nèi)存占用,同時(shí)保持模型性能,使這些強(qiáng)大的AI系統(tǒng)可以在更廣泛的計(jì)算環(huán)境中運(yùn)行。
這項(xiàng)研究不僅為大型MoE模型的高效部署提供了實(shí)用解決方案,還展示了一個(gè)重要的研究方向:通過理解和利用模型內(nèi)部的專業(yè)化模式,我們可以更智能地優(yōu)化AI系統(tǒng),使其同時(shí)兼顧性能和資源效率。
無論是云服務(wù)器、邊緣設(shè)備還是消費(fèi)級硬件,PreMoe都為將強(qiáng)大的AI能力帶入多樣化計(jì)算環(huán)境鋪平了道路,朝著AI民主化邁出了重要一步。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。