av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁(yè) 華為發(fā)布Pangu Pro MoE:全球首個(gè)72B參數(shù)稀疏語(yǔ)言模型,專為昇騰NPU優(yōu)化設(shè)計(jì)

華為發(fā)布Pangu Pro MoE:全球首個(gè)72B參數(shù)稀疏語(yǔ)言模型,專為昇騰NPU優(yōu)化設(shè)計(jì)

2025-07-02 09:08
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-07-02 09:08 ? 科技行者

這項(xiàng)由華為昇騰團(tuán)隊(duì)開發(fā)的突破性研究于2025年5月發(fā)表在arXiv平臺(tái)上,有興趣深入了解的讀者可以通過(guò)arXiv:2505.21411v2訪問(wèn)完整論文。

站在人工智能發(fā)展的十字路口,我們見證了大語(yǔ)言模型規(guī)模的驚人增長(zhǎng)。然而,隨著模型變得越來(lái)越龐大,一個(gè)關(guān)鍵問(wèn)題日益突出:如何在保持強(qiáng)大性能的同時(shí),避免計(jì)算資源的浪費(fèi)?華為昇騰團(tuán)隊(duì)提出的Pangu Pro MoE就像是為這個(gè)難題量身定制的解決方案。

傳統(tǒng)的大語(yǔ)言模型就像一個(gè)巨大的工廠,無(wú)論生產(chǎn)什么產(chǎn)品,都要啟動(dòng)全部生產(chǎn)線。而MoE(混合專家)模型則更像一個(gè)智能工廠,根據(jù)不同的任務(wù)只啟動(dòng)相關(guān)的生產(chǎn)線。雖然這種設(shè)計(jì)聽起來(lái)很聰明,但在實(shí)際運(yùn)行中卻面臨一個(gè)棘手問(wèn)題:有些生產(chǎn)線總是忙得不可開交,而有些卻經(jīng)常閑置,導(dǎo)致整個(gè)工廠效率低下。

華為研究團(tuán)隊(duì)敏銳地觀察到,現(xiàn)有MoE模型在分布式部署時(shí)存在嚴(yán)重的負(fù)載不均衡問(wèn)題。當(dāng)模型的不同專家分布在多個(gè)計(jì)算設(shè)備上時(shí),某些設(shè)備會(huì)因?yàn)槌袚?dān)過(guò)多計(jì)算任務(wù)而成為瓶頸,就像高速公路上的擁堵路段一樣,拖慢了整個(gè)系統(tǒng)的運(yùn)行速度。

為了解決這個(gè)問(wèn)題,研究團(tuán)隊(duì)提出了一種全新的架構(gòu)——混合分組專家(MoGE)。這種設(shè)計(jì)就像將所有專家重新組織成若干個(gè)均衡的工作小組,確保每個(gè)設(shè)備都分配到相同數(shù)量的活躍專家。通過(guò)這種巧妙的設(shè)計(jì),Pangu Pro MoE天生就具備了完美的負(fù)載均衡能力。

更令人印象深刻的是,這個(gè)擁有720億參數(shù)的龐然大物,在處理每個(gè)輸入時(shí)只需要激活其中的160億參數(shù)。這就好比一個(gè)擁有72個(gè)部門的超級(jí)公司,但每次只需要16個(gè)部門協(xié)同工作就能完成任務(wù),大大提高了運(yùn)營(yíng)效率。

研究團(tuán)隊(duì)還針對(duì)華為自主研發(fā)的昇騰NPU進(jìn)行了深度優(yōu)化。他們不僅重新設(shè)計(jì)了并行策略和通信機(jī)制,還開發(fā)了專門的計(jì)算核心,包括MulAttention和SwiftGMM,這些就像為昇騰NPU量身定制的高性能引擎。

在13萬(wàn)億個(gè)訓(xùn)練數(shù)據(jù)的滋養(yǎng)下,Pangu Pro MoE在多個(gè)基準(zhǔn)測(cè)試中展現(xiàn)出了卓越的性能。更重要的是,在推理階段,它在昇騰800I A2上達(dá)到了每卡1148個(gè)token/秒的驚人速度,通過(guò)投機(jī)解碼技術(shù)甚至可以提升到1528個(gè)token/秒。這樣的表現(xiàn)不僅超越了同等規(guī)模的密集模型,還證明了稀疏模型與專用硬件深度融合的巨大潛力。

一、創(chuàng)新架構(gòu):混合分組專家的智慧設(shè)計(jì)

傳統(tǒng)MoE模型面臨的負(fù)載均衡問(wèn)題,就像一個(gè)繁忙餐廳里的服務(wù)員分配難題。假設(shè)餐廳有8個(gè)服務(wù)員分布在4個(gè)區(qū)域,每個(gè)區(qū)域2人。當(dāng)客人點(diǎn)餐時(shí),系統(tǒng)會(huì)選擇最合適的服務(wù)員來(lái)服務(wù)。然而問(wèn)題是,某些明星服務(wù)員總是被頻繁選中,他們所在的區(qū)域變得異常忙碌,而其他區(qū)域的服務(wù)員卻相對(duì)清閑。這種不均衡導(dǎo)致整個(gè)餐廳的服務(wù)效率下降,客人等待時(shí)間延長(zhǎng)。

華為研究團(tuán)隊(duì)深入分析了這個(gè)問(wèn)題的根源。他們發(fā)現(xiàn),在傳統(tǒng)的Top-K路由機(jī)制中,模型會(huì)簡(jiǎn)單地選擇得分最高的K個(gè)專家,完全不考慮這些專家在不同設(shè)備上的分布情況。這就像顧客總是選擇同一批明星服務(wù)員,導(dǎo)致服務(wù)分配極不均勻。

為了量化這種不均衡程度,研究團(tuán)隊(duì)引入了"不均衡分?jǐn)?shù)"這一概念。這個(gè)分?jǐn)?shù)衡量的是在一批處理任務(wù)中,最忙設(shè)備和最閑設(shè)備之間的工作量差異。分?jǐn)?shù)越高,說(shuō)明不均衡越嚴(yán)重。通過(guò)蒙特卡洛模擬,他們發(fā)現(xiàn)傳統(tǒng)MoE模型的不均衡分?jǐn)?shù)幾乎總是大于零,意味著負(fù)載不均衡幾乎是不可避免的。

面對(duì)這個(gè)挑戰(zhàn),MoGE架構(gòu)提出了一個(gè)優(yōu)雅的解決方案。它將所有專家按照設(shè)備分布重新組織成若干個(gè)組,每個(gè)組對(duì)應(yīng)一個(gè)計(jì)算設(shè)備。當(dāng)處理輸入時(shí),系統(tǒng)不再全局選擇最優(yōu)專家,而是在每個(gè)組內(nèi)選擇固定數(shù)量的專家。這就像重新制定餐廳服務(wù)規(guī)則:無(wú)論客人有什么需求,每個(gè)區(qū)域都必須派出相同數(shù)量的服務(wù)員,確保工作量的完美平衡。

具體而言,MoGE將N個(gè)專家均勻分成M個(gè)組,每組包含N/M個(gè)專家。對(duì)于每個(gè)輸入token,系統(tǒng)會(huì)從每個(gè)組中選擇K'=K/M個(gè)專家。這種設(shè)計(jì)天然保證了每個(gè)設(shè)備承擔(dān)相同的計(jì)算負(fù)載,不均衡分?jǐn)?shù)永遠(yuǎn)為零。

實(shí)現(xiàn)這種均衡的關(guān)鍵在于改進(jìn)的路由機(jī)制。傳統(tǒng)方法直接對(duì)所有專家的得分進(jìn)行全局Top-K選擇,而MoGE首先計(jì)算所有專家的全局softmax得分,然后在每個(gè)組內(nèi)進(jìn)行局部Top-K'選擇。這種方法既保持了專家選擇的質(zhì)量,又確保了負(fù)載的均衡分布。

研究團(tuán)隊(duì)還設(shè)計(jì)了輔助的負(fù)載均衡損失函數(shù),用于訓(xùn)練過(guò)程中的進(jìn)一步優(yōu)化。這個(gè)損失函數(shù)鼓勵(lì)模型在專家使用上保持均衡,就像給餐廳經(jīng)理提供一個(gè)實(shí)時(shí)的工作量監(jiān)控系統(tǒng),幫助優(yōu)化長(zhǎng)期的服務(wù)分配策略。

通過(guò)大量的模擬實(shí)驗(yàn),研究團(tuán)隊(duì)驗(yàn)證了MoGE架構(gòu)的有效性。結(jié)果顯示,相比傳統(tǒng)MoE模型經(jīng)常出現(xiàn)的嚴(yán)重負(fù)載不均衡,MoGE能夠?qū)崿F(xiàn)完美的負(fù)載平衡,大大提高了分布式部署的效率。

二、硬件協(xié)同設(shè)計(jì):為昇騰NPU量身定制

Pangu Pro MoE的另一個(gè)重要?jiǎng)?chuàng)新在于與華為昇騰NPU的深度協(xié)同設(shè)計(jì)。這種協(xié)同就像為一位鋼琴家量身定制一架鋼琴,不僅要考慮演奏者的手型和習(xí)慣,還要優(yōu)化每一個(gè)細(xì)節(jié)以發(fā)揮最佳性能。

研究團(tuán)隊(duì)首先通過(guò)系統(tǒng)仿真確定了最優(yōu)的模型配置。他們測(cè)試了多種參數(shù)組合,包括隱藏維度(4096-8192)、查詢頭數(shù)(32-64)、鍵值頭數(shù)(8-16)、層數(shù)(40-64)和專家數(shù)量(32-64)。這個(gè)過(guò)程就像為不同的演出場(chǎng)地調(diào)試音響設(shè)備,需要在多個(gè)參數(shù)之間找到最佳平衡點(diǎn)。

最終確定的配置包括5120的隱藏維度、48層網(wǎng)絡(luò)結(jié)構(gòu)、64個(gè)路由專家和4個(gè)共享專家。這種配置在昇騰300I Duo和800I A2平臺(tái)上都能實(shí)現(xiàn)最優(yōu)性能。隱藏維度的選擇特別關(guān)鍵,因?yàn)樗苯佑绊懲ㄐ判?。更大的隱藏維度意味著每次通信傳輸更多數(shù)據(jù),而更多的層數(shù)則增加通信頻率。研究團(tuán)隊(duì)通過(guò)考慮系統(tǒng)的靜態(tài)通信延遲和可用帶寬,找到了這兩個(gè)因素的最佳權(quán)衡。

在訓(xùn)練系統(tǒng)優(yōu)化方面,團(tuán)隊(duì)采用了精心調(diào)優(yōu)的并行策略。他們使用張量并行(TP)=8、專家并行(EP)=2、流水線并行(PP)=5、虛擬流水線并行(VPP)=5的配置。這種配置就像為一個(gè)大型管弦樂(lè)隊(duì)安排座位,每個(gè)聲部的位置都經(jīng)過(guò)精心設(shè)計(jì),以實(shí)現(xiàn)最佳的協(xié)調(diào)效果。

相比之前的配置,新的EP大小從8減少到2,顯著降低了專家間的通信量。同時(shí),由于模型規(guī)模的減小,訓(xùn)練過(guò)程中的激活內(nèi)存需求大幅下降,使得系統(tǒng)可以在不使用復(fù)雜內(nèi)存優(yōu)化策略的情況下穩(wěn)定訓(xùn)練,進(jìn)一步提升了訓(xùn)練速度。

推理系統(tǒng)的優(yōu)化更是體現(xiàn)了硬件協(xié)同設(shè)計(jì)的精髓。研究團(tuán)隊(duì)提出了分層混合并行(H?P)策略,針對(duì)模型的不同部分采用不同的并行方法。對(duì)于注意力模塊,使用DP2+TP4的混合策略,將請(qǐng)求按批次維度分組,平衡CPU域之間的計(jì)算負(fù)載。對(duì)于專家模塊,采用TP2+EP4的組合,既保持了計(jì)算效率,又實(shí)現(xiàn)了負(fù)載均衡。

通信策略的優(yōu)化同樣令人矚目。團(tuán)隊(duì)將傳統(tǒng)的AllReduce操作替換為Reduce-Scatter操作,將通信數(shù)據(jù)量減少了50%。他們還巧妙地重新安排了通信操作的時(shí)序,使得RMSNorm計(jì)算可以并行執(zhí)行,進(jìn)一步減少了75%的計(jì)算負(fù)載。

三、推理性能優(yōu)化:速度與效率的雙重突破

在推理性能優(yōu)化方面,Pangu Pro MoE展現(xiàn)了多層次的創(chuàng)新思維。整個(gè)優(yōu)化過(guò)程就像為一輛賽車進(jìn)行全方位改裝,從引擎到輪胎,從空氣動(dòng)力學(xué)到燃油系統(tǒng),每個(gè)細(xì)節(jié)都經(jīng)過(guò)精心調(diào)優(yōu)。

量化壓縮技術(shù)是性能優(yōu)化的重要組成部分。研究團(tuán)隊(duì)針對(duì)MoE模型的特殊需求,開發(fā)了專家感知的量化方法。傳統(tǒng)的量化方法在處理MoE模型時(shí)面臨三大挑戰(zhàn):激活值異常值的專家特異性分布、路由機(jī)制對(duì)量化誤差的敏感性,以及稀疏激活導(dǎo)致的校準(zhǔn)瓶頸。

為了解決這些問(wèn)題,團(tuán)隊(duì)提出了專家感知的平滑聚合策略。這種方法就像為不同類型的樂(lè)器設(shè)計(jì)專門的調(diào)音方法,通過(guò)構(gòu)建統(tǒng)一的通道級(jí)平滑向量,重新分配異常值的幅度,同時(shí)保持?jǐn)?shù)學(xué)等價(jià)性。他們還引入了路由logits分布對(duì)齊技術(shù),通過(guò)雙目標(biāo)校準(zhǔn)過(guò)程確保量化后的專家選擇穩(wěn)定性。

核心算子融合是另一個(gè)重要的優(yōu)化方向。研究團(tuán)隊(duì)開發(fā)了兩個(gè)關(guān)鍵的融合算子:MulAttention和SwiftGMM,專門針對(duì)昇騰硬件架構(gòu)進(jìn)行了優(yōu)化。

MulAttention算子主要解決了注意力計(jì)算中的內(nèi)存訪問(wèn)瓶頸。隨著并發(fā)級(jí)別的提高和序列長(zhǎng)度的擴(kuò)展,鍵值緩存的內(nèi)存占用呈線性增長(zhǎng),導(dǎo)致注意力操作延遲占總推理時(shí)間的30%-50%。分析顯示,鍵值向量數(shù)據(jù)傳輸占注意力計(jì)算時(shí)間的約70%。

為了優(yōu)化這個(gè)瓶頸,MulAttention采用了大包鍵值傳輸策略,利用MTE2傳輸單元將鍵值向量塊加載到向量計(jì)算單元的統(tǒng)一緩沖區(qū)中,同時(shí)執(zhí)行NZ布局轉(zhuǎn)置。更重要的是,團(tuán)隊(duì)設(shè)計(jì)了雙循環(huán)流水線和乒乓調(diào)度器,將具有不同計(jì)算模式的操作分離到不同的循環(huán)中,消除了鍵、softmax和值計(jì)算交錯(cuò)執(zhí)行導(dǎo)致的流水線氣泡。這種優(yōu)化使得MTE2流水線利用率超過(guò)89%,實(shí)現(xiàn)了4.5倍的端到端注意力加速。

SwiftGMM算子專門優(yōu)化了高并發(fā)場(chǎng)景下的群組矩陣乘法操作。在高并發(fā)情況下,GroupMatmul操作占端到端延遲的50%以上,動(dòng)態(tài)工作負(fù)載進(jìn)一步加劇了保持計(jì)算效率的挑戰(zhàn)。SwiftGMM引入了針對(duì)動(dòng)態(tài)工作負(fù)載的分塊緩存策略,利用歷史分析數(shù)據(jù)預(yù)測(cè)最優(yōu)分塊參數(shù),減少了負(fù)載不均衡導(dǎo)致的頻繁重計(jì)算開銷。

算子還動(dòng)態(tài)選擇GEMV和GEMM執(zhí)行模式,根據(jù)工作負(fù)載強(qiáng)度最大化計(jì)算吞吐量。通過(guò)充分利用昇騰300I Duo NPU的大L1緩存,SwiftGMM能夠在單次傳輸中加載整個(gè)矩陣,大幅減少冗余內(nèi)存?zhèn)鬏?。雙緩沖機(jī)制的實(shí)現(xiàn)使得數(shù)據(jù)移動(dòng)與計(jì)算重疊,將MTE2流水線利用率提升到95%,使算子性能接近權(quán)重?cái)?shù)據(jù)傳輸帶寬限制的理論上界。

預(yù)填充和解碼階段的分析也展現(xiàn)了模型設(shè)計(jì)的深思熟慮。在計(jì)算密集的預(yù)填充階段,每個(gè)token只激活Top-8專家,有效將模型規(guī)模降低到等效16B密集模型的水平。這種稀疏激活機(jī)制顯著降低了計(jì)算成本和通信開銷。采用最小卡部署策略可以進(jìn)一步提升預(yù)填充階段的計(jì)算效率。

在內(nèi)存密集的解碼階段,Pangu Pro MoE在小批次規(guī)模下保持了幾十毫秒內(nèi)的低延遲。對(duì)于64等大批次規(guī)模,模型通過(guò)維度壓縮和深度縮減與稀疏專家激活范式的協(xié)同作用,有效降低了KV緩存內(nèi)存占用和節(jié)點(diǎn)間通信開銷,緩解了計(jì)算瓶頸,在100毫秒延遲約束內(nèi)實(shí)現(xiàn)了顯著更高的輸出吞吐量。

四、訓(xùn)練策略與數(shù)據(jù)處理:構(gòu)建高質(zhì)量語(yǔ)言模型的基石

Pangu Pro MoE的訓(xùn)練過(guò)程就像培養(yǎng)一位博學(xué)的學(xué)者,需要經(jīng)歷從廣泛學(xué)習(xí)到專業(yè)深化,再到精細(xì)調(diào)優(yōu)的完整歷程。整個(gè)訓(xùn)練策略體現(xiàn)了認(rèn)知發(fā)展的漸進(jìn)性和系統(tǒng)性。

預(yù)訓(xùn)練階段采用了130萬(wàn)億token的高質(zhì)量多樣化語(yǔ)料庫(kù),這個(gè)規(guī)模相當(dāng)于讓模型閱讀了人類歷史上絕大部分的文字記錄。訓(xùn)練數(shù)據(jù)涵蓋了網(wǎng)頁(yè)內(nèi)容、書籍、多語(yǔ)言資料、代碼、STEM學(xué)科、工業(yè)領(lǐng)域、推理和合成數(shù)據(jù)等多個(gè)來(lái)源。這種多樣性確保了模型具備廣泛的知識(shí)基礎(chǔ)和強(qiáng)大的泛化能力。

訓(xùn)練過(guò)程被精心設(shè)計(jì)為三個(gè)遞進(jìn)階段,每個(gè)階段都有明確的學(xué)習(xí)目標(biāo)。第一個(gè)通用階段(9.6萬(wàn)億token)主要發(fā)展模型的基礎(chǔ)知識(shí)和語(yǔ)言能力,就像學(xué)生的基礎(chǔ)教育階段,需要掌握各個(gè)學(xué)科的基本概念。這個(gè)階段使用4K序列長(zhǎng)度進(jìn)行訓(xùn)練,特別強(qiáng)調(diào)了多個(gè)工業(yè)領(lǐng)域的高質(zhì)量數(shù)據(jù)。

第二個(gè)推理階段(3萬(wàn)億token)專門針對(duì)模型的推理能力進(jìn)行強(qiáng)化訓(xùn)練。這個(gè)階段大幅增加了STEM、編程和內(nèi)部數(shù)據(jù)等復(fù)雜內(nèi)容的比例,就像進(jìn)入專業(yè)深造階段,需要掌握更高層次的思維能力。研究團(tuán)隊(duì)特別注重推理數(shù)據(jù)的數(shù)量和質(zhì)量,通過(guò)優(yōu)化數(shù)據(jù)清洗、數(shù)據(jù)生成和數(shù)據(jù)評(píng)估流水線,為困難樣本設(shè)計(jì)了合成的短鏈和長(zhǎng)鏈思維鏈。為了更好地適應(yīng)長(zhǎng)思維鏈響應(yīng),這個(gè)階段使用32K序列長(zhǎng)度進(jìn)行訓(xùn)練。

第三個(gè)退火階段(0.4萬(wàn)億token)主要用于預(yù)訓(xùn)練到后訓(xùn)練的過(guò)渡,指令式數(shù)據(jù)增加到約20%。這個(gè)階段優(yōu)先使用質(zhì)量和難度分?jǐn)?shù)極高的數(shù)據(jù),遵循基于課程的采樣策略。團(tuán)隊(duì)還有意增加了高級(jí)STEM教育數(shù)據(jù)的比例,達(dá)到語(yǔ)料庫(kù)的18%。

數(shù)據(jù)評(píng)估系統(tǒng)體現(xiàn)了精細(xì)化管理的理念。研究團(tuán)隊(duì)使用領(lǐng)域感知的基于模型的評(píng)估方法,針對(duì)不同領(lǐng)域微調(diào)了多個(gè)昇騰系列模型作為評(píng)估器。這種方法比使用單一統(tǒng)一評(píng)估器產(chǎn)生更好的評(píng)估性能。所有數(shù)據(jù)樣本都通過(guò)這個(gè)評(píng)估系統(tǒng),在清潔度、流暢性、教育價(jià)值和豐富性等多個(gè)維度獲得評(píng)分,這些評(píng)分用于數(shù)據(jù)選擇和采樣策略。

后訓(xùn)練對(duì)齊階段同樣體現(xiàn)了精心的設(shè)計(jì)。監(jiān)督微調(diào)數(shù)據(jù)被分為推理和非推理兩個(gè)子集,采樣比例為3:1,向推理任務(wù)傾斜。推理樣本主要包括數(shù)學(xué)問(wèn)題解決、代碼生成和邏輯推理等任務(wù),而非推理樣本則專注于通用語(yǔ)言指令遵循、問(wèn)答、文本生成、長(zhǎng)上下文理解、語(yǔ)義分類和工具使用。

強(qiáng)化學(xué)習(xí)階段采用了群組相對(duì)策略優(yōu)化(GRPO)算法,并引入了創(chuàng)新的"零優(yōu)勢(shì)掩碼"機(jī)制。當(dāng)給定提示的所有響應(yīng)都收到相同獎(jiǎng)勵(lì)時(shí),歸一化優(yōu)勢(shì)變?yōu)榱悖赡軐?dǎo)致GRPO目標(biāo)退化為簡(jiǎn)單的行為克隆損失。零優(yōu)勢(shì)掩碼機(jī)制通過(guò)將優(yōu)勢(shì)為零的樣本的損失貢獻(xiàn)置零,確保策略更新僅由展現(xiàn)明確學(xué)習(xí)信號(hào)的有效數(shù)據(jù)驅(qū)動(dòng)。

多源獎(jiǎng)勵(lì)系統(tǒng)的設(shè)計(jì)特別值得關(guān)注。系統(tǒng)包括正確性獎(jiǎng)勵(lì)、偏好獎(jiǎng)勵(lì)和輔助獎(jiǎng)勵(lì)三個(gè)模塊。正確性獎(jiǎng)勵(lì)針對(duì)具有可驗(yàn)證真實(shí)答案的任務(wù),數(shù)學(xué)問(wèn)題通過(guò)規(guī)則驗(yàn)證器和LLM驗(yàn)證器的混合系統(tǒng)評(píng)估,代碼響應(yīng)經(jīng)歷提取、語(yǔ)法驗(yàn)證、在線解釋器執(zhí)行和測(cè)試用例比較的多階段評(píng)估。偏好獎(jiǎng)勵(lì)針對(duì)沒有真實(shí)答案的開放域任務(wù),使用另一個(gè)LLM作為評(píng)判者模擬人類偏好。輔助獎(jiǎng)勵(lì)包括格式驗(yàn)證器和輕量級(jí)重復(fù)懲罰等組件。

五、性能評(píng)估與對(duì)比:全方位驗(yàn)證模型能力

Pangu Pro MoE的性能評(píng)估就像對(duì)一位全才學(xué)者進(jìn)行全面考核,不僅要測(cè)試其在各個(gè)專業(yè)領(lǐng)域的知識(shí)水平,還要驗(yàn)證其實(shí)際應(yīng)用能力和效率表現(xiàn)。

在預(yù)訓(xùn)練模型的評(píng)估中,研究團(tuán)隊(duì)構(gòu)建了覆蓋英語(yǔ)、中文和推理三大核心領(lǐng)域的綜合評(píng)估套件。英語(yǔ)能力測(cè)試包括通用推理(Big-Bench-Hard、MMLU、MMLU-Pro)、閱讀理解(DROP、RACE-M/H)和常識(shí)推理(HellaSwag、PIQA、WinoGrande)等多個(gè)維度。中文能力測(cè)試涵蓋了通用知識(shí)(C-Eval、CMMLU)、閱讀理解(CMRC、C3)和文化語(yǔ)境(CCPM、CLUEWSC)等方面。推理能力測(cè)試則專注于復(fù)雜推理任務(wù),包括代碼生成(HumanEval)和數(shù)學(xué)問(wèn)題解決(GSM8K、MATH、MGSM、CMath)。

評(píng)估結(jié)果顯示,Pangu Pro MoE在多個(gè)關(guān)鍵基準(zhǔn)測(cè)試中取得了領(lǐng)先性能。特別是在MMLU和HellaSwag等英語(yǔ)基準(zhǔn)測(cè)試中建立了新的性能標(biāo)準(zhǔn),同時(shí)在大多數(shù)中文評(píng)估任務(wù)(C-Eval、C3、CCPM)中占據(jù)主導(dǎo)地位。數(shù)學(xué)推理能力通過(guò)GSM8K基準(zhǔn)測(cè)試得到驗(yàn)證,進(jìn)一步確認(rèn)了模型的跨領(lǐng)域能力。

與同期基礎(chǔ)模型的對(duì)比分析更加突出了Pangu Pro MoE的優(yōu)勢(shì)。相比Qwen3-32B-base、GLM4-32B-base、Gemma3-27B-base和Llama-4-Scout-base等模型,Pangu Pro MoE在激活參數(shù)數(shù)量更少的情況下,實(shí)現(xiàn)了持續(xù)的性能優(yōu)勢(shì)。這種效率優(yōu)勢(shì)特別體現(xiàn)在計(jì)算資源利用率上,展現(xiàn)了MoGE架構(gòu)和稀疏激活機(jī)制的有效性。

指令模型的評(píng)估結(jié)果同樣令人印象深刻。在英語(yǔ)推理任務(wù)中,特別是MMLU-PRO基準(zhǔn)測(cè)試上,Pangu Pro MoE顯著超越了主流密集模型和MoE模型。在DROP閱讀理解任務(wù)中獲得91.2分的成績(jī),幾乎與Qwen3-32B的91.3分持平,證明了其在復(fù)雜英語(yǔ)語(yǔ)境下的語(yǔ)義理解能力達(dá)到了領(lǐng)先水平。

中文評(píng)估同樣表現(xiàn)出色,在C-Eval上獲得91.1分,超過(guò)了Qwen3-32B的89.2分。在中文常識(shí)推理方面,CLUEWSC測(cè)試中取得94.7分,比Gemma3-27B高出3.4分,與Qwen3-32B的94.6分相當(dāng),驗(yàn)證了模型在中文語(yǔ)義理解和常識(shí)推理方面的強(qiáng)大能力。

推理能力的評(píng)估結(jié)果特別突出了模型的邏輯思維能力。在代碼生成方面,MBPP+測(cè)試達(dá)到80.2分,與Qwen3-32B的82.0分相當(dāng)。數(shù)學(xué)推理方面,MATH-500測(cè)試獲得96.8分,超過(guò)了Qwen3-32B的96.6分,CNMO2024測(cè)試達(dá)到70.8分,與Qwen3-32B的70.4分相當(dāng)。特別值得注意的是,在SuperGPQA測(cè)試中獲得54.8分,顯著超越了GLM-Z1-32B的52.6分等密集模型。

推理效率的測(cè)試結(jié)果展現(xiàn)了硬件協(xié)同優(yōu)化的巨大價(jià)值。在昇騰800I A2平臺(tái)上,預(yù)填充階段的表現(xiàn)格外突出。批次大小為2、序列長(zhǎng)度為2K的配置下,模型達(dá)到了每卡4828 token/秒的平均輸入吞吐量,相比72B密集模型和32B密集模型分別實(shí)現(xiàn)了203%和42%的性能提升。

解碼階段的性能同樣令人矚目。在低并發(fā)場(chǎng)景下,批次大小為1、序列長(zhǎng)度為2K的配置實(shí)現(xiàn)了超低延遲,而在高并發(fā)場(chǎng)景下,數(shù)百個(gè)批次規(guī)模在100毫秒延遲約束內(nèi)達(dá)到每卡1148 token/秒的平均輸出吞吐量,相比72B密集模型和32B密集模型分別提升了97%和18%。通過(guò)多token預(yù)測(cè)解碼和相關(guān)優(yōu)化,模型的輸出吞吐量可以進(jìn)一步提升到每卡1528 token/秒。

昇騰300I Duo平臺(tái)的測(cè)試結(jié)果展現(xiàn)了出色的成本效益比。預(yù)填充階段使用兩張昇騰300I Duo加速卡,批次大小為2的配置下,72BA16B MoE在2K長(zhǎng)度輸入序列上實(shí)現(xiàn)1.94秒延遲,每卡輸入吞吐量達(dá)到1055 token/秒。解碼階段使用四張昇騰300I Duo加速卡的分層混合并行部署,在低并發(fā)場(chǎng)景下實(shí)現(xiàn)約50毫秒的延遲,在批次大小為80的高并發(fā)設(shè)置下保持每卡201 token/秒的吞吐量,延遲為99.5毫秒。通過(guò)多token預(yù)測(cè)解碼和相關(guān)優(yōu)化的加速,模型輸出吞吐量可以提升到321 token/秒。

六、專家特性分析:深入理解模型內(nèi)部機(jī)制

對(duì)Pangu Pro MoE內(nèi)部專家特性的分析就像解剖一個(gè)復(fù)雜的生態(tài)系統(tǒng),需要觀察不同物種(專家)之間的分工協(xié)作和相互關(guān)系。這種分析不僅驗(yàn)證了MoGE架構(gòu)的有效性,還揭示了模型學(xué)習(xí)和決策的內(nèi)在規(guī)律。

領(lǐng)域?qū)I(yè)化分析展現(xiàn)了專家分工的精妙之處。研究團(tuán)隊(duì)選擇了C-Eval、MMLU、GSM8K和HumanEval四個(gè)代表性數(shù)據(jù)集,分別對(duì)應(yīng)中文語(yǔ)言能力、英文語(yǔ)言能力、數(shù)學(xué)推理和編程能力。通過(guò)分析三個(gè)代表性層次(淺層、中層、深層,即第0層、第23層和第47層)的token到專家分配模式,發(fā)現(xiàn)了令人著迷的專業(yè)化模式。

在淺層(第0層),專家表現(xiàn)出高度均勻的激活模式,就像新入職的員工,大家的工作分配相對(duì)平均。然而隨著網(wǎng)絡(luò)深度的增加,專家展現(xiàn)出越來(lái)越強(qiáng)的專業(yè)化特征。深層專家比中層專家表現(xiàn)出更高的專業(yè)化程度,而中層專家又超過(guò)淺層專家。這種漸進(jìn)的專業(yè)化趨勢(shì)表明,專家分工隨著網(wǎng)絡(luò)深度而加強(qiáng),這與深度神經(jīng)網(wǎng)絡(luò)從一般特征到特定特征的學(xué)習(xí)模式完全吻合。

更有趣的是,不同類型任務(wù)展現(xiàn)出不同的專家激活分布特征。對(duì)于主要評(píng)估一般語(yǔ)言理解的任務(wù)(如C-Eval和MMLU),專家激活分布趨向于在專家集合中更加平衡。相比之下,對(duì)于推理密集型任務(wù)(如GSM8K和HumanEval),專家激活表現(xiàn)出更高的專業(yè)化程度,表明更加選擇性和任務(wù)特定的路由行為。這種差異化的專業(yè)化模式證明了Pangu Pro MoE已經(jīng)發(fā)展出實(shí)質(zhì)性的任務(wù)特定專家分化,增強(qiáng)了模型的表征能力。

專家協(xié)同激活分析揭示了專家之間的協(xié)作模式。通過(guò)可視化專家協(xié)同激活矩陣,研究團(tuán)隊(duì)發(fā)現(xiàn)了幾個(gè)重要規(guī)律。首先,同組內(nèi)專家之間的協(xié)同激活分?jǐn)?shù)沿對(duì)角線的空白區(qū)域表明組內(nèi)專家之間不存在協(xié)同激活。這種稀疏性直接源于群組路由策略,該策略在組級(jí)別強(qiáng)制實(shí)現(xiàn)互斥的專家選擇,從而促進(jìn)模塊化并減少學(xué)習(xí)表征中的潛在重疊。

其次,來(lái)自不同組的專家之間的協(xié)同激活分?jǐn)?shù)在所有層次中都保持一致的低水平,表明組間交互最小。這一觀察支持了模型實(shí)現(xiàn)低專家冗余度和鼓勵(lì)專業(yè)化的假設(shè),不同專家負(fù)責(zé)表征學(xué)習(xí)的不同方面。

特別有趣的是,協(xié)同激活分?jǐn)?shù)在不同層次呈現(xiàn)出非均勻趨勢(shì):淺層和深層的協(xié)同激活分?jǐn)?shù)相對(duì)于中層略有升高。這種模式可能反映了模型在早期階段特征提取期間受益于更廣泛的專家協(xié)作(學(xué)習(xí)通用模式),在后期階段集成期間也需要專家協(xié)作(將多樣化信號(hào)結(jié)合用于復(fù)雜的任務(wù)特定預(yù)測(cè))。相比之下,中層可能優(yōu)先進(jìn)行更細(xì)粒度的孤立處理,導(dǎo)致更大的專業(yè)化和減少的專家間依賴。

組內(nèi)專家分布分析驗(yàn)證了MoGE架構(gòu)的均衡性設(shè)計(jì)。通過(guò)可視化前四個(gè)組在三個(gè)代表性層次中的專家激活頻率,研究發(fā)現(xiàn)組內(nèi)專家之間的token分布大致均勻,每個(gè)專家接收接近12.5%的token,這與8個(gè)專家組中top-1激活的理論平均值一致。這種觀察證實(shí)了MoGE架構(gòu)不僅在組間實(shí)現(xiàn)負(fù)載均衡,在組內(nèi)也保持了平衡的專家利用,使其本質(zhì)上有利于均衡的專家利用。

值得注意的是,在更深的層次中觀察到了與完美均勻性的輕微偏差,token分配變得稍微傾斜。這種趨勢(shì)與專家路由在更大模型深度處觀察到的增強(qiáng)專業(yè)化一致,表明更深的層次可能自適應(yīng)地調(diào)節(jié)專家使用以捕獲更多任務(wù)特定或抽象表征。

全局專家分布的對(duì)比分析進(jìn)一步突出了Pangu Pro MoE的優(yōu)勢(shì)。與DeepSeek-V2的對(duì)比顯示了顯著差異。DeepSeek-V2表現(xiàn)出明顯的不平衡,最重負(fù)載的專家處理多達(dá)30%的總token。相比之下,Pangu Pro MoE在專家間展現(xiàn)出幾乎均勻的分布,每個(gè)專家處理大約12.5%的token,與理論理想值密切一致。

這種平衡的激活模式反映了對(duì)專家容量的更有效利用,可能有助于增強(qiáng)訓(xùn)練穩(wěn)定性和泛化能力。這種對(duì)比突出了在實(shí)現(xiàn)大規(guī)模MoE模型中高效和可擴(kuò)展性能時(shí)負(fù)載均衡的重要性。

通過(guò)這些深入的專家特性分析,我們可以看到Pangu Pro MoE不僅在架構(gòu)設(shè)計(jì)上具有創(chuàng)新性,在實(shí)際運(yùn)行中也表現(xiàn)出了理想的專家分工和協(xié)作模式。這種內(nèi)在的均衡性和專業(yè)化為模型的優(yōu)異性能提供了堅(jiān)實(shí)的理論基礎(chǔ)。

七、技術(shù)創(chuàng)新與工程實(shí)現(xiàn):從理論到實(shí)踐的完美轉(zhuǎn)化

Pangu Pro MoE的成功不僅體現(xiàn)在理論創(chuàng)新上,更在于其出色的工程實(shí)現(xiàn)能力。整個(gè)項(xiàng)目就像建造一座精密的現(xiàn)代化工廠,需要將先進(jìn)的設(shè)計(jì)理念轉(zhuǎn)化為高效運(yùn)行的實(shí)際系統(tǒng)。

訓(xùn)練系統(tǒng)的優(yōu)化展現(xiàn)了工程技術(shù)的精湛水平。相比基礎(chǔ)配置,優(yōu)化后的訓(xùn)練系統(tǒng)在模型FLOPs利用率(MFU)方面實(shí)現(xiàn)了35%的相對(duì)提升。這種改進(jìn)主要來(lái)自于三個(gè)方面的優(yōu)化:精細(xì)化的分層專家全通信、自適應(yīng)流水線重疊機(jī)制以及融合操作符。

分層專家全通信優(yōu)化重新設(shè)計(jì)了通信模式,減少了通信數(shù)據(jù)量。傳統(tǒng)的專家并行通信往往存在大量冗余,就像在多個(gè)部門之間傳遞文件時(shí),每次都要復(fù)制全部?jī)?nèi)容。優(yōu)化后的方案只傳遞必要的信息,大大提高了通信效率。

自適應(yīng)流水線重疊機(jī)制則通過(guò)更精細(xì)的操作調(diào)度和更有效的重疊策略,最大化了計(jì)算與通信的并行度。這就像在裝配線上重新安排工序,讓每個(gè)環(huán)節(jié)都能充分利用時(shí)間,避免出現(xiàn)閑置等待的情況。

訓(xùn)練并行策略的選擇體現(xiàn)了對(duì)系統(tǒng)特性的深度理解。張量并行(TP)=8、專家并行(EP)=2的配置專門針對(duì)分層專家全通信方案進(jìn)行了優(yōu)化。相比之前的配置,EP規(guī)模減少到2,在內(nèi)存容量允許的情況下最小化了專家通信量。流水線并行和虛擬流水線并行的5×5配置確保了跨設(shè)備的平衡計(jì)算和通信開銷,提升了訓(xùn)練過(guò)程的整體可擴(kuò)展性和吞吐量。

內(nèi)存優(yōu)化策略的簡(jiǎn)化是另一個(gè)重要改進(jìn)。由于Pangu Pro MoE規(guī)模的減小以及PP-VPP配置的調(diào)整,預(yù)熱階段累積的激活內(nèi)存顯著減少。這種內(nèi)存需求的降低使得系統(tǒng)能夠在不依賴之前所需的細(xì)粒度重計(jì)算和張量交換策略的情況下穩(wěn)定訓(xùn)練,進(jìn)一步通過(guò)消除冗余開銷加速了訓(xùn)練過(guò)程。

推理系統(tǒng)的優(yōu)化同樣展現(xiàn)了工程實(shí)現(xiàn)的精妙之處。量化壓縮技術(shù)針對(duì)MoE模型的特殊挑戰(zhàn)進(jìn)行了專門設(shè)計(jì)。專家感知的量化方法解決了三個(gè)關(guān)鍵問(wèn)題:專家特異性的激活異常值分布、路由機(jī)制對(duì)量化擾動(dòng)的敏感性,以及稀疏激活導(dǎo)致的校準(zhǔn)瓶頸。

KV緩存的量化和稀疏化技術(shù)進(jìn)一步優(yōu)化了推理效率。KVTuner算法通過(guò)硬件友好的混精度量化,為粗粒度KV緩存段導(dǎo)出Pareto最優(yōu)的逐層量化配置。這種方法的適應(yīng)性確保了在MoGE架構(gòu)中的有效KV緩存壓縮,通過(guò)解決逐層敏感性和動(dòng)態(tài)token-專家交互來(lái)實(shí)現(xiàn)。

算子級(jí)別的優(yōu)化展現(xiàn)了對(duì)硬件特性的深度挖掘。MulAttention和SwiftGMM兩個(gè)關(guān)鍵融合算子都是專門為昇騰硬件架構(gòu)定制的。MulAttention通過(guò)大包KV傳輸策略和雙循環(huán)流水線設(shè)計(jì),將注意力操作的延遲降低了4.5倍。SwiftGMM通過(guò)分塊緩存策略和雙緩沖機(jī)制,使得GroupMatmul操作的MTE2利用率達(dá)到95%,性能接近理論上界。

這些技術(shù)創(chuàng)新的成功實(shí)現(xiàn),不僅驗(yàn)證了理論設(shè)計(jì)的正確性,更展現(xiàn)了華為研究團(tuán)隊(duì)在系統(tǒng)工程方面的深厚功底。每一個(gè)優(yōu)化都經(jīng)過(guò)了精心的設(shè)計(jì)和嚴(yán)格的驗(yàn)證,確保了從實(shí)驗(yàn)室到生產(chǎn)環(huán)境的平滑過(guò)渡。

說(shuō)到底,Pangu Pro MoE的成功為人工智能領(lǐng)域帶來(lái)了多重啟示。從技術(shù)角度看,MoGE架構(gòu)證明了通過(guò)巧妙的設(shè)計(jì)可以同時(shí)實(shí)現(xiàn)性能提升和效率優(yōu)化。這種思路不僅適用于語(yǔ)言模型,對(duì)其他需要分布式部署的大規(guī)模模型同樣具有借鑒價(jià)值。

從工程角度看,硬件協(xié)同設(shè)計(jì)的重要性得到了充分驗(yàn)證。在算力日益成為AI發(fā)展瓶頸的今天,如何充分發(fā)揮硬件潛力變得越來(lái)越關(guān)鍵。Pangu Pro MoE與昇騰NPU的深度融合,為其他AI硬件和軟件的協(xié)同發(fā)展提供了優(yōu)秀范例。

從生態(tài)角度看,這項(xiàng)研究展現(xiàn)了自主創(chuàng)新的巨大潛力。在全球AI競(jìng)爭(zhēng)日趨激烈的背景下,擁有從硬件到軟件的完整技術(shù)棧,不僅能夠?qū)崿F(xiàn)更好的性能優(yōu)化,更能夠確保技術(shù)發(fā)展的自主可控。

當(dāng)然,這項(xiàng)研究也面臨一些挑戰(zhàn)和限制。MoGE架構(gòu)雖然解決了負(fù)載均衡問(wèn)題,但在某些特定任務(wù)上可能會(huì)限制專家選擇的靈活性。如何在保持負(fù)載均衡的同時(shí)進(jìn)一步提升專家選擇的質(zhì)量,仍然是值得探索的方向。另外,當(dāng)前的實(shí)驗(yàn)主要在昇騰NPU上進(jìn)行,在其他硬件平臺(tái)上的表現(xiàn)還需要進(jìn)一步驗(yàn)證。

展望未來(lái),Pangu Pro MoE的成功為大規(guī)模稀疏模型的發(fā)展指明了新的方向。隨著計(jì)算需求的不斷增長(zhǎng)和硬件技術(shù)的持續(xù)演進(jìn),類似的硬件協(xié)同設(shè)計(jì)思路有望在更多場(chǎng)景中發(fā)揮作用。同時(shí),MoGE架構(gòu)的理念也可能啟發(fā)更多創(chuàng)新的專家組織和路由方法,推動(dòng)整個(gè)領(lǐng)域的持續(xù)發(fā)展。

這項(xiàng)研究的另一個(gè)重要意義在于,它為中文AI技術(shù)的發(fā)展注入了新的活力。在英文主導(dǎo)的AI研究環(huán)境中,Pangu Pro MoE在中文任務(wù)上的出色表現(xiàn),證明了針對(duì)特定語(yǔ)言和文化背景進(jìn)行優(yōu)化的重要性。這不僅有助于提升中文AI應(yīng)用的質(zhì)量,更為其他非英語(yǔ)語(yǔ)言的AI發(fā)展提供了有益參考。

華為昇騰團(tuán)隊(duì)的這項(xiàng)工作,不僅是技術(shù)層面的突破,更是對(duì)AI民主化的重要貢獻(xiàn)。通過(guò)開源代碼和詳細(xì)的技術(shù)文檔,研究團(tuán)隊(duì)為整個(gè)社區(qū)提供了寶貴的資源。這種開放的態(tài)度有助于推動(dòng)整個(gè)行業(yè)的共同進(jìn)步,讓更多的研究者和開發(fā)者能夠站在巨人的肩膀上繼續(xù)創(chuàng)新。

有興趣深入了解技術(shù)細(xì)節(jié)的讀者,可以訪問(wèn)團(tuán)隊(duì)提供的開源代碼庫(kù)(https://gitcode.com/ascend-tribe/pangu-pro-moe)獲取完整的實(shí)現(xiàn)代碼,或者查閱原始論文(arXiv:2505.21411v2)了解更多理論細(xì)節(jié)。

Q&A

Q1:什么是MoGE架構(gòu)?它和傳統(tǒng)MoE有什么區(qū)別? A:MoGE是混合分組專家架構(gòu),它將所有專家分成若干組,每個(gè)組分配到一個(gè)計(jì)算設(shè)備上。與傳統(tǒng)MoE隨意選擇專家不同,MoGE強(qiáng)制從每個(gè)組中選擇相同數(shù)量的專家,就像餐廳規(guī)定每個(gè)區(qū)域必須派出相同數(shù)量的服務(wù)員一樣,天然實(shí)現(xiàn)了完美的負(fù)載均衡。

Q2:Pangu Pro MoE的推理速度為什么這么快? A:主要有三個(gè)原因:首先,稀疏激活機(jī)制讓720億參數(shù)的模型每次只需激活160億參數(shù);其次,專門為昇騰NPU開發(fā)的MulAttention和SwiftGMM算子大幅提升了計(jì)算效率;最后,精心設(shè)計(jì)的并行策略和通信優(yōu)化減少了設(shè)備間的數(shù)據(jù)傳輸開銷。

Q3:這個(gè)模型在實(shí)際應(yīng)用中有什么優(yōu)勢(shì)? A:Pangu Pro MoE在保持大模型能力的同時(shí)大幅降低了推理成本。在昇騰800I A2上每卡可達(dá)1148 token/秒的吞吐量,在昇騰300I Duo上實(shí)現(xiàn)了優(yōu)秀的成本效益比。對(duì)于需要大規(guī)模部署AI服務(wù)的企業(yè)來(lái)說(shuō),這意味著用更少的硬件資源就能提供更好的服務(wù)。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-