av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 專家精簡大法:香港中文大學與華為諾亞方舟實驗室聯(lián)手助力大型混合專家模型在內(nèi)存受限設(shè)備上高效運行

專家精簡大法:香港中文大學與華為諾亞方舟實驗室聯(lián)手助力大型混合專家模型在內(nèi)存受限設(shè)備上高效運行

2025-06-01 11:29
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-01 11:29 ? 科技行者

這項由香港中文大學的裴澤華、潘烜嘉林、余北和華為諾亞方舟實驗室的張穎、甄慧玲、余顯志、劉五龍、袁明軒等研究人員共同完成的研究,發(fā)表于2025年5月的預印本論文平臺arXiv(論文編號:2505.17639v1)。有興趣深入了解的讀者可通過GitHub鏈接(https://github.com/JarvisPei/PreMoe)獲取源代碼。

**大型語言模型的記憶困境**

想象一下,你有一支由數(shù)百位專家組成的顧問團隊,每次只需要其中幾位專家來解答特定問題,但卻必須支付全部專家的出場費和食宿費。這基本上就是當前大型混合專家模型(Mixture-of-Experts,簡稱MoE)面臨的困境。

近年來,從DeepSeek-R1(671B參數(shù))到Mixtral 8×7B,再到Qwen-MoE等大型語言模型展現(xiàn)出了驚人的能力。它們采用了"混合專家"架構(gòu),這種設(shè)計非常聰明:模型中包含大量"專家"模塊,但處理每個輸入時只激活其中幾個最相關(guān)的專家,既保持了大模型的強大能力,又減少了計算成本。

然而,這種設(shè)計存在一個重大缺陷:雖然計算時只用少數(shù)專家,但所有專家的參數(shù)仍需常駐內(nèi)存。以DeepSeek-R1為例,它聲稱擁有671B參數(shù),理論上需要超過1.3TB的內(nèi)存才能完整加載(按16位精度計算)。這使得這類模型只能在特定的高端計算設(shè)施上運行,極大限制了它們的應(yīng)用范圍。

**專家不是都一樣的:任務(wù)專業(yè)化的發(fā)現(xiàn)**

香港中文大學和華為的研究團隊在研究中發(fā)現(xiàn)了一個關(guān)鍵現(xiàn)象:MoE模型中的專家表現(xiàn)出明顯的"任務(wù)專業(yè)化"特征。簡單來說,不同的專家擅長不同類型的任務(wù)。

想象一下,如果你有一群醫(yī)生,有些擅長心臟病,有些擅長骨科,還有些擅長兒科。當一個心臟病患者就診時,你只需要心臟科專家,而不需要骨科醫(yī)生在場。研究人員通過分析DeepSeek-R1模型在不同任務(wù)上的表現(xiàn),發(fā)現(xiàn)模型中的"專家"也有類似的專業(yè)分工。

通過分析路由器邏輯(模型中決定激活哪些專家的組件)分布熱圖,他們清晰地看到:對于任何特定任務(wù),只有少數(shù)專家會被頻繁激活并產(chǎn)生高度正向的貢獻,而大多數(shù)專家要么很少被激活,要么即使被激活也貢獻有限。

這一發(fā)現(xiàn)啟發(fā)了研究團隊:如果我們能提前識別出對特定任務(wù)至關(guān)重要的專家,并只加載這些專家,是否就能顯著減少內(nèi)存需求,同時保持模型性能?

**PreMoe:專家精簡與檢索的雙劍合璧**

基于上述發(fā)現(xiàn),研究團隊提出了名為PreMoe(Pruning Retrieval MoE)的框架,它由兩個核心組件組成:概率專家精簡(PEP)和任務(wù)自適應(yīng)專家檢索(TAER)。

**概率專家精簡:找出真正重要的專家**

想象你要舉辦一場派對,但預算有限,必須從一百多位朋友中只邀請十幾位。你會怎么選?可能會邀請那些最了解派對主題、最能帶動氣氛的朋友。

概率專家精簡(PEP)也是類似的思路。它引入了一個名為"任務(wù)條件期望選擇分數(shù)"(TCESS)的指標,通過分析路由器邏輯模式來量化每個專家對特定任務(wù)的重要性。

具體來說,這個過程有點像投票系統(tǒng)。首先,對于一個輸入標記,系統(tǒng)會選出前Ka個"候選專家"(由原始路由器邏輯決定)。然后,對這些候選專家進行本地概率歸一化(類似于初選)。接下來,只有那些本地概率超過閾值r的專家才會被視為"高置信度"專家,其原始邏輯值將被收集用于計算TCESS分數(shù)。

這樣,TCESS分數(shù)實際上反映了一個專家在特定任務(wù)上被高置信度選中的平均強度。分數(shù)越高,意味著該專家對任務(wù)越重要。通過選擇TCESS分數(shù)最高的M個專家,我們就能找到對特定任務(wù)最關(guān)鍵的專家子集。

**任務(wù)自適應(yīng)專家檢索:動態(tài)加載適合的專家**

雖然概率專家精簡提供了一種原則性方法來識別關(guān)鍵專家,但每次用戶查詢都重新計算TCESS值在部署環(huán)境中顯然不夠高效。為解決這個問題,研究團隊提出了任務(wù)自適應(yīng)專家檢索(TAER)機制。

想象你是一家餐廳的經(jīng)理,為不同類型的聚會(商務(wù)會議、生日派對、婚禮等)都準備了一份最佳員工配置清單。當客人預訂時,你只需快速識別聚會類型,然后根據(jù)預設(shè)的清單調(diào)配人員,而不需要每次都重新評估所有員工。

TAER的工作方式也很類似:

1. **離線存儲階段**:預先計算并存儲各種代表性任務(wù)的專家重要性模式。為了節(jié)省存儲空間,只完整保存第一個MoE層的TCESS模式,而對后續(xù)層則保存與第一層對應(yīng)的排列向量。

2. **基于查詢的檢索**:當收到新查詢時,模型會計算查詢的TCESS模式,并找到存儲庫中最相似的任務(wù)模式(使用L2距離計算)。

3. **模型重建**:根據(jù)檢索到的模式,系統(tǒng)只加載對特定任務(wù)至關(guān)重要的專家,大大減少內(nèi)存需求。

這種方法的獨特之處在于,完整模型及其所有專家無需一開始就加載到內(nèi)存中。相反,系統(tǒng)維護一個輕量級的模型骨架,在任務(wù)識別后動態(tài)加載必要的專家。

**實驗驗證:性能驚人保持,內(nèi)存大幅節(jié)省**

研究團隊在多個MoE架構(gòu)上進行了全面測試,結(jié)果令人印象深刻:

**DeepSeek-R1 671B**: - 完整模型(8/256配置,即每層8個激活專家,從256個專家中選擇)需要1.3TB內(nèi)存,在MATH500上準確率為96.8%。 - 使用PreMoe精簡到8/128配置(減少50%專家)后,內(nèi)存需求降至688GB,MATH500準確率反而提高到97.2%。 - 進一步激進精簡至8/32配置(減少87.5%專家),內(nèi)存需求降至196GB,仍保持72.0%的MATH500準確率。

**Pangu-Ultra-MoE 718B**: - 從8/256配置(1.36TB內(nèi)存)精簡到8/128配置(738GB內(nèi)存),MATH500準確率從97.4%輕微下降至97.15%,AIME24準確率完全保持在81.3%。 - 更激進地精簡到4/64配置(僅390GB內(nèi)存),MATH500準確率仍達96.95%,AIME24為79.7%。

**內(nèi)存高效部署**: - 結(jié)合4位量化技術(shù),進一步降低內(nèi)存需求。 - DeepSeek-R1-W4(4位量化)在8/32配置下,僅需70GB內(nèi)存,在GPQA Biology上的表現(xiàn)(43.56%)甚至超過了原始完整模型(42.57%)。

值得注意的是,PreMoe不僅節(jié)省內(nèi)存,還提高了吞吐量。例如,Pangu-Ultra-MoE在從8/256減少到8/128(BF16精度)時吞吐量提升10%,在4/64 W4配置下提升35%。

**案例分析:看看精簡模型的推理能力**

為了直觀展示模型精簡后的性能,研究團隊提供了DeepSeek-R1在不同精簡比例下解決數(shù)學問題的示例。令人驚訝的是,即使在大幅減少專家數(shù)量的情況下(如8/32配置),模型仍能保持正確的推理軌跡。這證明了PreMoe能夠有效保留模型的核心推理能力,盡管采用了激進的精簡策略。

**精心設(shè)計的消融實驗**

為驗證PreMoe各組件的有效性,研究團隊進行了一系列消融實驗:

1. **與隨機選擇專家對比**:在相同精簡比例下,PreMoe的TCESS專家選擇方法在所有測試任務(wù)中都顯著優(yōu)于隨機選擇專家。例如,在8/16設(shè)置下,PreMoe在GPQA Biology上達到34.15%準確率,而隨機選擇僅為26.73%。

2. **輸出模式收集策略**:研究發(fā)現(xiàn),同時考慮輸入查詢和模型推理輸出來收集TCESS模式,比僅使用輸入查詢效果更好。當只基于查詢收集模式時,精簡后的模型可能會出現(xiàn)重復循環(huán)或不完整解決方案,這凸顯了在整個生成過程中捕捉專家動態(tài)的重要性。

**總結(jié):MoE模型民主化的一大步**

PreMoe框架通過利用MoE模型中的任務(wù)專家專業(yè)化特性,成功解決了大型MoE模型在內(nèi)存受限環(huán)境中部署的關(guān)鍵挑戰(zhàn)。通過概率專家精簡和任務(wù)自適應(yīng)專家檢索,PreMoe能夠顯著減少內(nèi)存占用,同時保持模型性能,使這些強大的AI系統(tǒng)可以在更廣泛的計算環(huán)境中運行。

這項研究不僅為大型MoE模型的高效部署提供了實用解決方案,還展示了一個重要的研究方向:通過理解和利用模型內(nèi)部的專業(yè)化模式,我們可以更智能地優(yōu)化AI系統(tǒng),使其同時兼顧性能和資源效率。

無論是云服務(wù)器、邊緣設(shè)備還是消費級硬件,PreMoe都為將強大的AI能力帶入多樣化計算環(huán)境鋪平了道路,朝著AI民主化邁出了重要一步。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-