av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 華為發(fā)布Pangu Pro MoE:全球首個72B參數(shù)稀疏語言模型,專為昇騰NPU優(yōu)化設(shè)計

華為發(fā)布Pangu Pro MoE:全球首個72B參數(shù)稀疏語言模型,專為昇騰NPU優(yōu)化設(shè)計

2025-07-02 09:08
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-07-02 09:08 ? 科技行者

這項由華為昇騰團隊開發(fā)的突破性研究于2025年5月發(fā)表在arXiv平臺上,有興趣深入了解的讀者可以通過arXiv:2505.21411v2訪問完整論文。

站在人工智能發(fā)展的十字路口,我們見證了大語言模型規(guī)模的驚人增長。然而,隨著模型變得越來越龐大,一個關(guān)鍵問題日益突出:如何在保持強大性能的同時,避免計算資源的浪費?華為昇騰團隊提出的Pangu Pro MoE就像是為這個難題量身定制的解決方案。

傳統(tǒng)的大語言模型就像一個巨大的工廠,無論生產(chǎn)什么產(chǎn)品,都要啟動全部生產(chǎn)線。而MoE(混合專家)模型則更像一個智能工廠,根據(jù)不同的任務(wù)只啟動相關(guān)的生產(chǎn)線。雖然這種設(shè)計聽起來很聰明,但在實際運行中卻面臨一個棘手問題:有些生產(chǎn)線總是忙得不可開交,而有些卻經(jīng)常閑置,導(dǎo)致整個工廠效率低下。

華為研究團隊敏銳地觀察到,現(xiàn)有MoE模型在分布式部署時存在嚴(yán)重的負載不均衡問題。當(dāng)模型的不同專家分布在多個計算設(shè)備上時,某些設(shè)備會因為承擔(dān)過多計算任務(wù)而成為瓶頸,就像高速公路上的擁堵路段一樣,拖慢了整個系統(tǒng)的運行速度。

為了解決這個問題,研究團隊提出了一種全新的架構(gòu)——混合分組專家(MoGE)。這種設(shè)計就像將所有專家重新組織成若干個均衡的工作小組,確保每個設(shè)備都分配到相同數(shù)量的活躍專家。通過這種巧妙的設(shè)計,Pangu Pro MoE天生就具備了完美的負載均衡能力。

更令人印象深刻的是,這個擁有720億參數(shù)的龐然大物,在處理每個輸入時只需要激活其中的160億參數(shù)。這就好比一個擁有72個部門的超級公司,但每次只需要16個部門協(xié)同工作就能完成任務(wù),大大提高了運營效率。

研究團隊還針對華為自主研發(fā)的昇騰NPU進行了深度優(yōu)化。他們不僅重新設(shè)計了并行策略和通信機制,還開發(fā)了專門的計算核心,包括MulAttention和SwiftGMM,這些就像為昇騰NPU量身定制的高性能引擎。

在13萬億個訓(xùn)練數(shù)據(jù)的滋養(yǎng)下,Pangu Pro MoE在多個基準(zhǔn)測試中展現(xiàn)出了卓越的性能。更重要的是,在推理階段,它在昇騰800I A2上達到了每卡1148個token/秒的驚人速度,通過投機解碼技術(shù)甚至可以提升到1528個token/秒。這樣的表現(xiàn)不僅超越了同等規(guī)模的密集模型,還證明了稀疏模型與專用硬件深度融合的巨大潛力。

一、創(chuàng)新架構(gòu):混合分組專家的智慧設(shè)計

傳統(tǒng)MoE模型面臨的負載均衡問題,就像一個繁忙餐廳里的服務(wù)員分配難題。假設(shè)餐廳有8個服務(wù)員分布在4個區(qū)域,每個區(qū)域2人。當(dāng)客人點餐時,系統(tǒng)會選擇最合適的服務(wù)員來服務(wù)。然而問題是,某些明星服務(wù)員總是被頻繁選中,他們所在的區(qū)域變得異常忙碌,而其他區(qū)域的服務(wù)員卻相對清閑。這種不均衡導(dǎo)致整個餐廳的服務(wù)效率下降,客人等待時間延長。

華為研究團隊深入分析了這個問題的根源。他們發(fā)現(xiàn),在傳統(tǒng)的Top-K路由機制中,模型會簡單地選擇得分最高的K個專家,完全不考慮這些專家在不同設(shè)備上的分布情況。這就像顧客總是選擇同一批明星服務(wù)員,導(dǎo)致服務(wù)分配極不均勻。

為了量化這種不均衡程度,研究團隊引入了"不均衡分?jǐn)?shù)"這一概念。這個分?jǐn)?shù)衡量的是在一批處理任務(wù)中,最忙設(shè)備和最閑設(shè)備之間的工作量差異。分?jǐn)?shù)越高,說明不均衡越嚴(yán)重。通過蒙特卡洛模擬,他們發(fā)現(xiàn)傳統(tǒng)MoE模型的不均衡分?jǐn)?shù)幾乎總是大于零,意味著負載不均衡幾乎是不可避免的。

面對這個挑戰(zhàn),MoGE架構(gòu)提出了一個優(yōu)雅的解決方案。它將所有專家按照設(shè)備分布重新組織成若干個組,每個組對應(yīng)一個計算設(shè)備。當(dāng)處理輸入時,系統(tǒng)不再全局選擇最優(yōu)專家,而是在每個組內(nèi)選擇固定數(shù)量的專家。這就像重新制定餐廳服務(wù)規(guī)則:無論客人有什么需求,每個區(qū)域都必須派出相同數(shù)量的服務(wù)員,確保工作量的完美平衡。

具體而言,MoGE將N個專家均勻分成M個組,每組包含N/M個專家。對于每個輸入token,系統(tǒng)會從每個組中選擇K'=K/M個專家。這種設(shè)計天然保證了每個設(shè)備承擔(dān)相同的計算負載,不均衡分?jǐn)?shù)永遠為零。

實現(xiàn)這種均衡的關(guān)鍵在于改進的路由機制。傳統(tǒng)方法直接對所有專家的得分進行全局Top-K選擇,而MoGE首先計算所有專家的全局softmax得分,然后在每個組內(nèi)進行局部Top-K'選擇。這種方法既保持了專家選擇的質(zhì)量,又確保了負載的均衡分布。

研究團隊還設(shè)計了輔助的負載均衡損失函數(shù),用于訓(xùn)練過程中的進一步優(yōu)化。這個損失函數(shù)鼓勵模型在專家使用上保持均衡,就像給餐廳經(jīng)理提供一個實時的工作量監(jiān)控系統(tǒng),幫助優(yōu)化長期的服務(wù)分配策略。

通過大量的模擬實驗,研究團隊驗證了MoGE架構(gòu)的有效性。結(jié)果顯示,相比傳統(tǒng)MoE模型經(jīng)常出現(xiàn)的嚴(yán)重負載不均衡,MoGE能夠?qū)崿F(xiàn)完美的負載平衡,大大提高了分布式部署的效率。

二、硬件協(xié)同設(shè)計:為昇騰NPU量身定制

Pangu Pro MoE的另一個重要創(chuàng)新在于與華為昇騰NPU的深度協(xié)同設(shè)計。這種協(xié)同就像為一位鋼琴家量身定制一架鋼琴,不僅要考慮演奏者的手型和習(xí)慣,還要優(yōu)化每一個細節(jié)以發(fā)揮最佳性能。

研究團隊首先通過系統(tǒng)仿真確定了最優(yōu)的模型配置。他們測試了多種參數(shù)組合,包括隱藏維度(4096-8192)、查詢頭數(shù)(32-64)、鍵值頭數(shù)(8-16)、層數(shù)(40-64)和專家數(shù)量(32-64)。這個過程就像為不同的演出場地調(diào)試音響設(shè)備,需要在多個參數(shù)之間找到最佳平衡點。

最終確定的配置包括5120的隱藏維度、48層網(wǎng)絡(luò)結(jié)構(gòu)、64個路由專家和4個共享專家。這種配置在昇騰300I Duo和800I A2平臺上都能實現(xiàn)最優(yōu)性能。隱藏維度的選擇特別關(guān)鍵,因為它直接影響通信效率。更大的隱藏維度意味著每次通信傳輸更多數(shù)據(jù),而更多的層數(shù)則增加通信頻率。研究團隊通過考慮系統(tǒng)的靜態(tài)通信延遲和可用帶寬,找到了這兩個因素的最佳權(quán)衡。

在訓(xùn)練系統(tǒng)優(yōu)化方面,團隊采用了精心調(diào)優(yōu)的并行策略。他們使用張量并行(TP)=8、專家并行(EP)=2、流水線并行(PP)=5、虛擬流水線并行(VPP)=5的配置。這種配置就像為一個大型管弦樂隊安排座位,每個聲部的位置都經(jīng)過精心設(shè)計,以實現(xiàn)最佳的協(xié)調(diào)效果。

相比之前的配置,新的EP大小從8減少到2,顯著降低了專家間的通信量。同時,由于模型規(guī)模的減小,訓(xùn)練過程中的激活內(nèi)存需求大幅下降,使得系統(tǒng)可以在不使用復(fù)雜內(nèi)存優(yōu)化策略的情況下穩(wěn)定訓(xùn)練,進一步提升了訓(xùn)練速度。

推理系統(tǒng)的優(yōu)化更是體現(xiàn)了硬件協(xié)同設(shè)計的精髓。研究團隊提出了分層混合并行(H?P)策略,針對模型的不同部分采用不同的并行方法。對于注意力模塊,使用DP2+TP4的混合策略,將請求按批次維度分組,平衡CPU域之間的計算負載。對于專家模塊,采用TP2+EP4的組合,既保持了計算效率,又實現(xiàn)了負載均衡。

通信策略的優(yōu)化同樣令人矚目。團隊將傳統(tǒng)的AllReduce操作替換為Reduce-Scatter操作,將通信數(shù)據(jù)量減少了50%。他們還巧妙地重新安排了通信操作的時序,使得RMSNorm計算可以并行執(zhí)行,進一步減少了75%的計算負載。

三、推理性能優(yōu)化:速度與效率的雙重突破

在推理性能優(yōu)化方面,Pangu Pro MoE展現(xiàn)了多層次的創(chuàng)新思維。整個優(yōu)化過程就像為一輛賽車進行全方位改裝,從引擎到輪胎,從空氣動力學(xué)到燃油系統(tǒng),每個細節(jié)都經(jīng)過精心調(diào)優(yōu)。

量化壓縮技術(shù)是性能優(yōu)化的重要組成部分。研究團隊針對MoE模型的特殊需求,開發(fā)了專家感知的量化方法。傳統(tǒng)的量化方法在處理MoE模型時面臨三大挑戰(zhàn):激活值異常值的專家特異性分布、路由機制對量化誤差的敏感性,以及稀疏激活導(dǎo)致的校準(zhǔn)瓶頸。

為了解決這些問題,團隊提出了專家感知的平滑聚合策略。這種方法就像為不同類型的樂器設(shè)計專門的調(diào)音方法,通過構(gòu)建統(tǒng)一的通道級平滑向量,重新分配異常值的幅度,同時保持?jǐn)?shù)學(xué)等價性。他們還引入了路由logits分布對齊技術(shù),通過雙目標(biāo)校準(zhǔn)過程確保量化后的專家選擇穩(wěn)定性。

核心算子融合是另一個重要的優(yōu)化方向。研究團隊開發(fā)了兩個關(guān)鍵的融合算子:MulAttention和SwiftGMM,專門針對昇騰硬件架構(gòu)進行了優(yōu)化。

MulAttention算子主要解決了注意力計算中的內(nèi)存訪問瓶頸。隨著并發(fā)級別的提高和序列長度的擴展,鍵值緩存的內(nèi)存占用呈線性增長,導(dǎo)致注意力操作延遲占總推理時間的30%-50%。分析顯示,鍵值向量數(shù)據(jù)傳輸占注意力計算時間的約70%。

為了優(yōu)化這個瓶頸,MulAttention采用了大包鍵值傳輸策略,利用MTE2傳輸單元將鍵值向量塊加載到向量計算單元的統(tǒng)一緩沖區(qū)中,同時執(zhí)行NZ布局轉(zhuǎn)置。更重要的是,團隊設(shè)計了雙循環(huán)流水線和乒乓調(diào)度器,將具有不同計算模式的操作分離到不同的循環(huán)中,消除了鍵、softmax和值計算交錯執(zhí)行導(dǎo)致的流水線氣泡。這種優(yōu)化使得MTE2流水線利用率超過89%,實現(xiàn)了4.5倍的端到端注意力加速。

SwiftGMM算子專門優(yōu)化了高并發(fā)場景下的群組矩陣乘法操作。在高并發(fā)情況下,GroupMatmul操作占端到端延遲的50%以上,動態(tài)工作負載進一步加劇了保持計算效率的挑戰(zhàn)。SwiftGMM引入了針對動態(tài)工作負載的分塊緩存策略,利用歷史分析數(shù)據(jù)預(yù)測最優(yōu)分塊參數(shù),減少了負載不均衡導(dǎo)致的頻繁重計算開銷。

算子還動態(tài)選擇GEMV和GEMM執(zhí)行模式,根據(jù)工作負載強度最大化計算吞吐量。通過充分利用昇騰300I Duo NPU的大L1緩存,SwiftGMM能夠在單次傳輸中加載整個矩陣,大幅減少冗余內(nèi)存?zhèn)鬏敗kp緩沖機制的實現(xiàn)使得數(shù)據(jù)移動與計算重疊,將MTE2流水線利用率提升到95%,使算子性能接近權(quán)重數(shù)據(jù)傳輸帶寬限制的理論上界。

預(yù)填充和解碼階段的分析也展現(xiàn)了模型設(shè)計的深思熟慮。在計算密集的預(yù)填充階段,每個token只激活Top-8專家,有效將模型規(guī)模降低到等效16B密集模型的水平。這種稀疏激活機制顯著降低了計算成本和通信開銷。采用最小卡部署策略可以進一步提升預(yù)填充階段的計算效率。

在內(nèi)存密集的解碼階段,Pangu Pro MoE在小批次規(guī)模下保持了幾十毫秒內(nèi)的低延遲。對于64等大批次規(guī)模,模型通過維度壓縮和深度縮減與稀疏專家激活范式的協(xié)同作用,有效降低了KV緩存內(nèi)存占用和節(jié)點間通信開銷,緩解了計算瓶頸,在100毫秒延遲約束內(nèi)實現(xiàn)了顯著更高的輸出吞吐量。

四、訓(xùn)練策略與數(shù)據(jù)處理:構(gòu)建高質(zhì)量語言模型的基石

Pangu Pro MoE的訓(xùn)練過程就像培養(yǎng)一位博學(xué)的學(xué)者,需要經(jīng)歷從廣泛學(xué)習(xí)到專業(yè)深化,再到精細調(diào)優(yōu)的完整歷程。整個訓(xùn)練策略體現(xiàn)了認知發(fā)展的漸進性和系統(tǒng)性。

預(yù)訓(xùn)練階段采用了130萬億token的高質(zhì)量多樣化語料庫,這個規(guī)模相當(dāng)于讓模型閱讀了人類歷史上絕大部分的文字記錄。訓(xùn)練數(shù)據(jù)涵蓋了網(wǎng)頁內(nèi)容、書籍、多語言資料、代碼、STEM學(xué)科、工業(yè)領(lǐng)域、推理和合成數(shù)據(jù)等多個來源。這種多樣性確保了模型具備廣泛的知識基礎(chǔ)和強大的泛化能力。

訓(xùn)練過程被精心設(shè)計為三個遞進階段,每個階段都有明確的學(xué)習(xí)目標(biāo)。第一個通用階段(9.6萬億token)主要發(fā)展模型的基礎(chǔ)知識和語言能力,就像學(xué)生的基礎(chǔ)教育階段,需要掌握各個學(xué)科的基本概念。這個階段使用4K序列長度進行訓(xùn)練,特別強調(diào)了多個工業(yè)領(lǐng)域的高質(zhì)量數(shù)據(jù)。

第二個推理階段(3萬億token)專門針對模型的推理能力進行強化訓(xùn)練。這個階段大幅增加了STEM、編程和內(nèi)部數(shù)據(jù)等復(fù)雜內(nèi)容的比例,就像進入專業(yè)深造階段,需要掌握更高層次的思維能力。研究團隊特別注重推理數(shù)據(jù)的數(shù)量和質(zhì)量,通過優(yōu)化數(shù)據(jù)清洗、數(shù)據(jù)生成和數(shù)據(jù)評估流水線,為困難樣本設(shè)計了合成的短鏈和長鏈思維鏈。為了更好地適應(yīng)長思維鏈響應(yīng),這個階段使用32K序列長度進行訓(xùn)練。

第三個退火階段(0.4萬億token)主要用于預(yù)訓(xùn)練到后訓(xùn)練的過渡,指令式數(shù)據(jù)增加到約20%。這個階段優(yōu)先使用質(zhì)量和難度分?jǐn)?shù)極高的數(shù)據(jù),遵循基于課程的采樣策略。團隊還有意增加了高級STEM教育數(shù)據(jù)的比例,達到語料庫的18%。

數(shù)據(jù)評估系統(tǒng)體現(xiàn)了精細化管理的理念。研究團隊使用領(lǐng)域感知的基于模型的評估方法,針對不同領(lǐng)域微調(diào)了多個昇騰系列模型作為評估器。這種方法比使用單一統(tǒng)一評估器產(chǎn)生更好的評估性能。所有數(shù)據(jù)樣本都通過這個評估系統(tǒng),在清潔度、流暢性、教育價值和豐富性等多個維度獲得評分,這些評分用于數(shù)據(jù)選擇和采樣策略。

后訓(xùn)練對齊階段同樣體現(xiàn)了精心的設(shè)計。監(jiān)督微調(diào)數(shù)據(jù)被分為推理和非推理兩個子集,采樣比例為3:1,向推理任務(wù)傾斜。推理樣本主要包括數(shù)學(xué)問題解決、代碼生成和邏輯推理等任務(wù),而非推理樣本則專注于通用語言指令遵循、問答、文本生成、長上下文理解、語義分類和工具使用。

強化學(xué)習(xí)階段采用了群組相對策略優(yōu)化(GRPO)算法,并引入了創(chuàng)新的"零優(yōu)勢掩碼"機制。當(dāng)給定提示的所有響應(yīng)都收到相同獎勵時,歸一化優(yōu)勢變?yōu)榱悖赡軐?dǎo)致GRPO目標(biāo)退化為簡單的行為克隆損失。零優(yōu)勢掩碼機制通過將優(yōu)勢為零的樣本的損失貢獻置零,確保策略更新僅由展現(xiàn)明確學(xué)習(xí)信號的有效數(shù)據(jù)驅(qū)動。

多源獎勵系統(tǒng)的設(shè)計特別值得關(guān)注。系統(tǒng)包括正確性獎勵、偏好獎勵和輔助獎勵三個模塊。正確性獎勵針對具有可驗證真實答案的任務(wù),數(shù)學(xué)問題通過規(guī)則驗證器和LLM驗證器的混合系統(tǒng)評估,代碼響應(yīng)經(jīng)歷提取、語法驗證、在線解釋器執(zhí)行和測試用例比較的多階段評估。偏好獎勵針對沒有真實答案的開放域任務(wù),使用另一個LLM作為評判者模擬人類偏好。輔助獎勵包括格式驗證器和輕量級重復(fù)懲罰等組件。

五、性能評估與對比:全方位驗證模型能力

Pangu Pro MoE的性能評估就像對一位全才學(xué)者進行全面考核,不僅要測試其在各個專業(yè)領(lǐng)域的知識水平,還要驗證其實際應(yīng)用能力和效率表現(xiàn)。

在預(yù)訓(xùn)練模型的評估中,研究團隊構(gòu)建了覆蓋英語、中文和推理三大核心領(lǐng)域的綜合評估套件。英語能力測試包括通用推理(Big-Bench-Hard、MMLU、MMLU-Pro)、閱讀理解(DROP、RACE-M/H)和常識推理(HellaSwag、PIQA、WinoGrande)等多個維度。中文能力測試涵蓋了通用知識(C-Eval、CMMLU)、閱讀理解(CMRC、C3)和文化語境(CCPM、CLUEWSC)等方面。推理能力測試則專注于復(fù)雜推理任務(wù),包括代碼生成(HumanEval)和數(shù)學(xué)問題解決(GSM8K、MATH、MGSM、CMath)。

評估結(jié)果顯示,Pangu Pro MoE在多個關(guān)鍵基準(zhǔn)測試中取得了領(lǐng)先性能。特別是在MMLU和HellaSwag等英語基準(zhǔn)測試中建立了新的性能標(biāo)準(zhǔn),同時在大多數(shù)中文評估任務(wù)(C-Eval、C3、CCPM)中占據(jù)主導(dǎo)地位。數(shù)學(xué)推理能力通過GSM8K基準(zhǔn)測試得到驗證,進一步確認了模型的跨領(lǐng)域能力。

與同期基礎(chǔ)模型的對比分析更加突出了Pangu Pro MoE的優(yōu)勢。相比Qwen3-32B-base、GLM4-32B-base、Gemma3-27B-base和Llama-4-Scout-base等模型,Pangu Pro MoE在激活參數(shù)數(shù)量更少的情況下,實現(xiàn)了持續(xù)的性能優(yōu)勢。這種效率優(yōu)勢特別體現(xiàn)在計算資源利用率上,展現(xiàn)了MoGE架構(gòu)和稀疏激活機制的有效性。

指令模型的評估結(jié)果同樣令人印象深刻。在英語推理任務(wù)中,特別是MMLU-PRO基準(zhǔn)測試上,Pangu Pro MoE顯著超越了主流密集模型和MoE模型。在DROP閱讀理解任務(wù)中獲得91.2分的成績,幾乎與Qwen3-32B的91.3分持平,證明了其在復(fù)雜英語語境下的語義理解能力達到了領(lǐng)先水平。

中文評估同樣表現(xiàn)出色,在C-Eval上獲得91.1分,超過了Qwen3-32B的89.2分。在中文常識推理方面,CLUEWSC測試中取得94.7分,比Gemma3-27B高出3.4分,與Qwen3-32B的94.6分相當(dāng),驗證了模型在中文語義理解和常識推理方面的強大能力。

推理能力的評估結(jié)果特別突出了模型的邏輯思維能力。在代碼生成方面,MBPP+測試達到80.2分,與Qwen3-32B的82.0分相當(dāng)。數(shù)學(xué)推理方面,MATH-500測試獲得96.8分,超過了Qwen3-32B的96.6分,CNMO2024測試達到70.8分,與Qwen3-32B的70.4分相當(dāng)。特別值得注意的是,在SuperGPQA測試中獲得54.8分,顯著超越了GLM-Z1-32B的52.6分等密集模型。

推理效率的測試結(jié)果展現(xiàn)了硬件協(xié)同優(yōu)化的巨大價值。在昇騰800I A2平臺上,預(yù)填充階段的表現(xiàn)格外突出。批次大小為2、序列長度為2K的配置下,模型達到了每卡4828 token/秒的平均輸入吞吐量,相比72B密集模型和32B密集模型分別實現(xiàn)了203%和42%的性能提升。

解碼階段的性能同樣令人矚目。在低并發(fā)場景下,批次大小為1、序列長度為2K的配置實現(xiàn)了超低延遲,而在高并發(fā)場景下,數(shù)百個批次規(guī)模在100毫秒延遲約束內(nèi)達到每卡1148 token/秒的平均輸出吞吐量,相比72B密集模型和32B密集模型分別提升了97%和18%。通過多token預(yù)測解碼和相關(guān)優(yōu)化,模型的輸出吞吐量可以進一步提升到每卡1528 token/秒。

昇騰300I Duo平臺的測試結(jié)果展現(xiàn)了出色的成本效益比。預(yù)填充階段使用兩張昇騰300I Duo加速卡,批次大小為2的配置下,72BA16B MoE在2K長度輸入序列上實現(xiàn)1.94秒延遲,每卡輸入吞吐量達到1055 token/秒。解碼階段使用四張昇騰300I Duo加速卡的分層混合并行部署,在低并發(fā)場景下實現(xiàn)約50毫秒的延遲,在批次大小為80的高并發(fā)設(shè)置下保持每卡201 token/秒的吞吐量,延遲為99.5毫秒。通過多token預(yù)測解碼和相關(guān)優(yōu)化的加速,模型輸出吞吐量可以提升到321 token/秒。

六、專家特性分析:深入理解模型內(nèi)部機制

對Pangu Pro MoE內(nèi)部專家特性的分析就像解剖一個復(fù)雜的生態(tài)系統(tǒng),需要觀察不同物種(專家)之間的分工協(xié)作和相互關(guān)系。這種分析不僅驗證了MoGE架構(gòu)的有效性,還揭示了模型學(xué)習(xí)和決策的內(nèi)在規(guī)律。

領(lǐng)域?qū)I(yè)化分析展現(xiàn)了專家分工的精妙之處。研究團隊選擇了C-Eval、MMLU、GSM8K和HumanEval四個代表性數(shù)據(jù)集,分別對應(yīng)中文語言能力、英文語言能力、數(shù)學(xué)推理和編程能力。通過分析三個代表性層次(淺層、中層、深層,即第0層、第23層和第47層)的token到專家分配模式,發(fā)現(xiàn)了令人著迷的專業(yè)化模式。

在淺層(第0層),專家表現(xiàn)出高度均勻的激活模式,就像新入職的員工,大家的工作分配相對平均。然而隨著網(wǎng)絡(luò)深度的增加,專家展現(xiàn)出越來越強的專業(yè)化特征。深層專家比中層專家表現(xiàn)出更高的專業(yè)化程度,而中層專家又超過淺層專家。這種漸進的專業(yè)化趨勢表明,專家分工隨著網(wǎng)絡(luò)深度而加強,這與深度神經(jīng)網(wǎng)絡(luò)從一般特征到特定特征的學(xué)習(xí)模式完全吻合。

更有趣的是,不同類型任務(wù)展現(xiàn)出不同的專家激活分布特征。對于主要評估一般語言理解的任務(wù)(如C-Eval和MMLU),專家激活分布趨向于在專家集合中更加平衡。相比之下,對于推理密集型任務(wù)(如GSM8K和HumanEval),專家激活表現(xiàn)出更高的專業(yè)化程度,表明更加選擇性和任務(wù)特定的路由行為。這種差異化的專業(yè)化模式證明了Pangu Pro MoE已經(jīng)發(fā)展出實質(zhì)性的任務(wù)特定專家分化,增強了模型的表征能力。

專家協(xié)同激活分析揭示了專家之間的協(xié)作模式。通過可視化專家協(xié)同激活矩陣,研究團隊發(fā)現(xiàn)了幾個重要規(guī)律。首先,同組內(nèi)專家之間的協(xié)同激活分?jǐn)?shù)沿對角線的空白區(qū)域表明組內(nèi)專家之間不存在協(xié)同激活。這種稀疏性直接源于群組路由策略,該策略在組級別強制實現(xiàn)互斥的專家選擇,從而促進模塊化并減少學(xué)習(xí)表征中的潛在重疊。

其次,來自不同組的專家之間的協(xié)同激活分?jǐn)?shù)在所有層次中都保持一致的低水平,表明組間交互最小。這一觀察支持了模型實現(xiàn)低專家冗余度和鼓勵專業(yè)化的假設(shè),不同專家負責(zé)表征學(xué)習(xí)的不同方面。

特別有趣的是,協(xié)同激活分?jǐn)?shù)在不同層次呈現(xiàn)出非均勻趨勢:淺層和深層的協(xié)同激活分?jǐn)?shù)相對于中層略有升高。這種模式可能反映了模型在早期階段特征提取期間受益于更廣泛的專家協(xié)作(學(xué)習(xí)通用模式),在后期階段集成期間也需要專家協(xié)作(將多樣化信號結(jié)合用于復(fù)雜的任務(wù)特定預(yù)測)。相比之下,中層可能優(yōu)先進行更細粒度的孤立處理,導(dǎo)致更大的專業(yè)化和減少的專家間依賴。

組內(nèi)專家分布分析驗證了MoGE架構(gòu)的均衡性設(shè)計。通過可視化前四個組在三個代表性層次中的專家激活頻率,研究發(fā)現(xiàn)組內(nèi)專家之間的token分布大致均勻,每個專家接收接近12.5%的token,這與8個專家組中top-1激活的理論平均值一致。這種觀察證實了MoGE架構(gòu)不僅在組間實現(xiàn)負載均衡,在組內(nèi)也保持了平衡的專家利用,使其本質(zhì)上有利于均衡的專家利用。

值得注意的是,在更深的層次中觀察到了與完美均勻性的輕微偏差,token分配變得稍微傾斜。這種趨勢與專家路由在更大模型深度處觀察到的增強專業(yè)化一致,表明更深的層次可能自適應(yīng)地調(diào)節(jié)專家使用以捕獲更多任務(wù)特定或抽象表征。

全局專家分布的對比分析進一步突出了Pangu Pro MoE的優(yōu)勢。與DeepSeek-V2的對比顯示了顯著差異。DeepSeek-V2表現(xiàn)出明顯的不平衡,最重負載的專家處理多達30%的總token。相比之下,Pangu Pro MoE在專家間展現(xiàn)出幾乎均勻的分布,每個專家處理大約12.5%的token,與理論理想值密切一致。

這種平衡的激活模式反映了對專家容量的更有效利用,可能有助于增強訓(xùn)練穩(wěn)定性和泛化能力。這種對比突出了在實現(xiàn)大規(guī)模MoE模型中高效和可擴展性能時負載均衡的重要性。

通過這些深入的專家特性分析,我們可以看到Pangu Pro MoE不僅在架構(gòu)設(shè)計上具有創(chuàng)新性,在實際運行中也表現(xiàn)出了理想的專家分工和協(xié)作模式。這種內(nèi)在的均衡性和專業(yè)化為模型的優(yōu)異性能提供了堅實的理論基礎(chǔ)。

七、技術(shù)創(chuàng)新與工程實現(xiàn):從理論到實踐的完美轉(zhuǎn)化

Pangu Pro MoE的成功不僅體現(xiàn)在理論創(chuàng)新上,更在于其出色的工程實現(xiàn)能力。整個項目就像建造一座精密的現(xiàn)代化工廠,需要將先進的設(shè)計理念轉(zhuǎn)化為高效運行的實際系統(tǒng)。

訓(xùn)練系統(tǒng)的優(yōu)化展現(xiàn)了工程技術(shù)的精湛水平。相比基礎(chǔ)配置,優(yōu)化后的訓(xùn)練系統(tǒng)在模型FLOPs利用率(MFU)方面實現(xiàn)了35%的相對提升。這種改進主要來自于三個方面的優(yōu)化:精細化的分層專家全通信、自適應(yīng)流水線重疊機制以及融合操作符。

分層專家全通信優(yōu)化重新設(shè)計了通信模式,減少了通信數(shù)據(jù)量。傳統(tǒng)的專家并行通信往往存在大量冗余,就像在多個部門之間傳遞文件時,每次都要復(fù)制全部內(nèi)容。優(yōu)化后的方案只傳遞必要的信息,大大提高了通信效率。

自適應(yīng)流水線重疊機制則通過更精細的操作調(diào)度和更有效的重疊策略,最大化了計算與通信的并行度。這就像在裝配線上重新安排工序,讓每個環(huán)節(jié)都能充分利用時間,避免出現(xiàn)閑置等待的情況。

訓(xùn)練并行策略的選擇體現(xiàn)了對系統(tǒng)特性的深度理解。張量并行(TP)=8、專家并行(EP)=2的配置專門針對分層專家全通信方案進行了優(yōu)化。相比之前的配置,EP規(guī)模減少到2,在內(nèi)存容量允許的情況下最小化了專家通信量。流水線并行和虛擬流水線并行的5×5配置確保了跨設(shè)備的平衡計算和通信開銷,提升了訓(xùn)練過程的整體可擴展性和吞吐量。

內(nèi)存優(yōu)化策略的簡化是另一個重要改進。由于Pangu Pro MoE規(guī)模的減小以及PP-VPP配置的調(diào)整,預(yù)熱階段累積的激活內(nèi)存顯著減少。這種內(nèi)存需求的降低使得系統(tǒng)能夠在不依賴之前所需的細粒度重計算和張量交換策略的情況下穩(wěn)定訓(xùn)練,進一步通過消除冗余開銷加速了訓(xùn)練過程。

推理系統(tǒng)的優(yōu)化同樣展現(xiàn)了工程實現(xiàn)的精妙之處。量化壓縮技術(shù)針對MoE模型的特殊挑戰(zhàn)進行了專門設(shè)計。專家感知的量化方法解決了三個關(guān)鍵問題:專家特異性的激活異常值分布、路由機制對量化擾動的敏感性,以及稀疏激活導(dǎo)致的校準(zhǔn)瓶頸。

KV緩存的量化和稀疏化技術(shù)進一步優(yōu)化了推理效率。KVTuner算法通過硬件友好的混精度量化,為粗粒度KV緩存段導(dǎo)出Pareto最優(yōu)的逐層量化配置。這種方法的適應(yīng)性確保了在MoGE架構(gòu)中的有效KV緩存壓縮,通過解決逐層敏感性和動態(tài)token-專家交互來實現(xiàn)。

算子級別的優(yōu)化展現(xiàn)了對硬件特性的深度挖掘。MulAttention和SwiftGMM兩個關(guān)鍵融合算子都是專門為昇騰硬件架構(gòu)定制的。MulAttention通過大包KV傳輸策略和雙循環(huán)流水線設(shè)計,將注意力操作的延遲降低了4.5倍。SwiftGMM通過分塊緩存策略和雙緩沖機制,使得GroupMatmul操作的MTE2利用率達到95%,性能接近理論上界。

這些技術(shù)創(chuàng)新的成功實現(xiàn),不僅驗證了理論設(shè)計的正確性,更展現(xiàn)了華為研究團隊在系統(tǒng)工程方面的深厚功底。每一個優(yōu)化都經(jīng)過了精心的設(shè)計和嚴(yán)格的驗證,確保了從實驗室到生產(chǎn)環(huán)境的平滑過渡。

說到底,Pangu Pro MoE的成功為人工智能領(lǐng)域帶來了多重啟示。從技術(shù)角度看,MoGE架構(gòu)證明了通過巧妙的設(shè)計可以同時實現(xiàn)性能提升和效率優(yōu)化。這種思路不僅適用于語言模型,對其他需要分布式部署的大規(guī)模模型同樣具有借鑒價值。

從工程角度看,硬件協(xié)同設(shè)計的重要性得到了充分驗證。在算力日益成為AI發(fā)展瓶頸的今天,如何充分發(fā)揮硬件潛力變得越來越關(guān)鍵。Pangu Pro MoE與昇騰NPU的深度融合,為其他AI硬件和軟件的協(xié)同發(fā)展提供了優(yōu)秀范例。

從生態(tài)角度看,這項研究展現(xiàn)了自主創(chuàng)新的巨大潛力。在全球AI競爭日趨激烈的背景下,擁有從硬件到軟件的完整技術(shù)棧,不僅能夠?qū)崿F(xiàn)更好的性能優(yōu)化,更能夠確保技術(shù)發(fā)展的自主可控。

當(dāng)然,這項研究也面臨一些挑戰(zhàn)和限制。MoGE架構(gòu)雖然解決了負載均衡問題,但在某些特定任務(wù)上可能會限制專家選擇的靈活性。如何在保持負載均衡的同時進一步提升專家選擇的質(zhì)量,仍然是值得探索的方向。另外,當(dāng)前的實驗主要在昇騰NPU上進行,在其他硬件平臺上的表現(xiàn)還需要進一步驗證。

展望未來,Pangu Pro MoE的成功為大規(guī)模稀疏模型的發(fā)展指明了新的方向。隨著計算需求的不斷增長和硬件技術(shù)的持續(xù)演進,類似的硬件協(xié)同設(shè)計思路有望在更多場景中發(fā)揮作用。同時,MoGE架構(gòu)的理念也可能啟發(fā)更多創(chuàng)新的專家組織和路由方法,推動整個領(lǐng)域的持續(xù)發(fā)展。

這項研究的另一個重要意義在于,它為中文AI技術(shù)的發(fā)展注入了新的活力。在英文主導(dǎo)的AI研究環(huán)境中,Pangu Pro MoE在中文任務(wù)上的出色表現(xiàn),證明了針對特定語言和文化背景進行優(yōu)化的重要性。這不僅有助于提升中文AI應(yīng)用的質(zhì)量,更為其他非英語語言的AI發(fā)展提供了有益參考。

華為昇騰團隊的這項工作,不僅是技術(shù)層面的突破,更是對AI民主化的重要貢獻。通過開源代碼和詳細的技術(shù)文檔,研究團隊為整個社區(qū)提供了寶貴的資源。這種開放的態(tài)度有助于推動整個行業(yè)的共同進步,讓更多的研究者和開發(fā)者能夠站在巨人的肩膀上繼續(xù)創(chuàng)新。

有興趣深入了解技術(shù)細節(jié)的讀者,可以訪問團隊提供的開源代碼庫(https://gitcode.com/ascend-tribe/pangu-pro-moe)獲取完整的實現(xiàn)代碼,或者查閱原始論文(arXiv:2505.21411v2)了解更多理論細節(jié)。

Q&A

Q1:什么是MoGE架構(gòu)?它和傳統(tǒng)MoE有什么區(qū)別? A:MoGE是混合分組專家架構(gòu),它將所有專家分成若干組,每個組分配到一個計算設(shè)備上。與傳統(tǒng)MoE隨意選擇專家不同,MoGE強制從每個組中選擇相同數(shù)量的專家,就像餐廳規(guī)定每個區(qū)域必須派出相同數(shù)量的服務(wù)員一樣,天然實現(xiàn)了完美的負載均衡。

Q2:Pangu Pro MoE的推理速度為什么這么快? A:主要有三個原因:首先,稀疏激活機制讓720億參數(shù)的模型每次只需激活160億參數(shù);其次,專門為昇騰NPU開發(fā)的MulAttention和SwiftGMM算子大幅提升了計算效率;最后,精心設(shè)計的并行策略和通信優(yōu)化減少了設(shè)備間的數(shù)據(jù)傳輸開銷。

Q3:這個模型在實際應(yīng)用中有什么優(yōu)勢? A:Pangu Pro MoE在保持大模型能力的同時大幅降低了推理成本。在昇騰800I A2上每卡可達1148 token/秒的吞吐量,在昇騰300I Duo上實現(xiàn)了優(yōu)秀的成本效益比。對于需要大規(guī)模部署AI服務(wù)的企業(yè)來說,這意味著用更少的硬件資源就能提供更好的服務(wù)。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-