av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 WINA:微軟推出權(quán)重感知神經(jīng)元激活技術(shù),讓大語言模型推理速度提升60%以上

WINA:微軟推出權(quán)重感知神經(jīng)元激活技術(shù),讓大語言模型推理速度提升60%以上

2025-05-29 15:53
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-29 15:53 ? 科技行者

當(dāng)我們談?wù)撊斯ぶ悄艽笳Z言模型(如ChatGPT)時,往往聚焦于它們能做什么,卻很少關(guān)注這些技術(shù)奇跡背后的運(yùn)行成本。來自微軟、人民大學(xué)、紐約大學(xué)和華南理工大學(xué)的研究團(tuán)隊在2025年5月26日發(fā)布的一項新研究中,提出了一個名為"WINA"(Weight Informed Neuron Activation)的創(chuàng)新方法,這項技術(shù)可以顯著加速大語言模型的推理過程,同時保持模型性能幾乎不變。該研究論文已發(fā)表在arXiv預(yù)印本平臺(arXiv:2505.19427v1),其源代碼也已在GitHub上公開(https://github.com/microsoft/wina)。

想象一下,如果大語言模型是一座巨大的圖書館,傳統(tǒng)方法是每次查詢都需要檢索整個圖書館的每一本書。而像MoE(Mixture-of-Experts)這樣的技術(shù)則類似于雇傭?qū)<茵^員,他們知道哪些書架與你的問題最相關(guān)。但問題是,培訓(xùn)這些"專家館員"需要大量時間和資源。WINA則提供了一種不需要額外培訓(xùn)的方法,它就像一個聰明的圖書管理系統(tǒng),可以立即判斷哪些書架(神經(jīng)元)對回答當(dāng)前問題最重要,而暫時忽略其他不太相關(guān)的書架,從而大大提高檢索效率。

當(dāng)今大型語言模型規(guī)模龐大,計算需求驚人,特別是在推理階段,控制計算成本同時保持輸出質(zhì)量成為關(guān)鍵挑戰(zhàn)。雖然已有一些方法,如專家混合(MoE)架構(gòu)和模型蒸餾等技術(shù),可以減少推理時的計算量,但它們通常需要大量的訓(xùn)練或再訓(xùn)練。相比之下,無訓(xùn)練稀疏激活方法則更具廣泛適用性,因?yàn)樗鼈兛梢约床寮从?,無需額外訓(xùn)練即可應(yīng)用于現(xiàn)成的模型。

然而,現(xiàn)有的無訓(xùn)練方法如TEAL和CATS僅依靠隱藏狀態(tài)的大小來決定激活,導(dǎo)致高估計誤差和次優(yōu)推理準(zhǔn)確性。正如研究的第一作者、人民大學(xué)的陳思漢和微軟的陳天毅(共同第一作者)所指出的,這些方法忽略了權(quán)重矩陣在誤差傳播中的影響,未能考慮輸入元素與權(quán)重矩陣在前向傳播過程中的交互如何影響模型輸出。

WINA的核心創(chuàng)新在于同時考慮隱藏狀態(tài)大小和權(quán)重矩陣的列式l2范數(shù)。這聽起來很專業(yè),但可以簡單理解為:WINA不僅看神經(jīng)元當(dāng)前的"活躍度"有多高,還考慮每個神經(jīng)元對下游層影響的"重要性權(quán)重"。這就像在決定去聽哪場講座時,不僅考慮講座的熱度,還要考慮講者的專業(yè)水平和影響力。

這種方法創(chuàng)建了一個稀疏激活框架,允許模型在推理時僅激活最具影響力的神經(jīng)元,從而構(gòu)建一個能保持原始模型表達(dá)能力的稀疏子網(wǎng)絡(luò)。理論分析表明,在溫和假設(shè)下(如權(quán)重的列式正交性和單調(diào)激活函數(shù)),WINA的輸出誤差期望值低于其他可比方法,這一保證可擴(kuò)展到多層架構(gòu)。

研究團(tuán)隊在多個流行的大語言模型上評估了WINA,包括Qwen-2.5(7B參數(shù))、LLaMA系列(7B和8B)以及Phi-4(14B)。實(shí)驗(yàn)顯示,WINA在相同稀疏度水平下比最先進(jìn)的無訓(xùn)練方法(如TEAL)的平均性能高出最多2.94%,同時減少了高達(dá)60-65%的計算量。

一、權(quán)重感知激活:WINA如何工作?

想象你是一位電影導(dǎo)演,需要從一個大型演員陣容中選擇合適的演員出演一場特定的戲。傳統(tǒng)方法(如TEAL)只關(guān)注演員的個人能力(隱藏狀態(tài)大小),但WINA不僅考慮演員的能力,還考慮這場戲在整部電影中的重要性(權(quán)重矩陣的影響)。

WINA的工作原理可以分為幾個關(guān)鍵步驟。首先,對于每一層神經(jīng)網(wǎng)絡(luò),它會計算輸入張量(即隱藏狀態(tài))的大小,這類似于測量每個演員的個人表演能力。接著,它計算相關(guān)權(quán)重矩陣的列式l2范數(shù),這相當(dāng)于評估每個角色對整部電影的重要性。然后,WINA將這兩個因素結(jié)合起來(通過元素乘積),找出影響最大的輸入維度,即那些既有高激活強(qiáng)度又有高權(quán)重重要性的神經(jīng)元。

在數(shù)學(xué)上,WINA構(gòu)建二進(jìn)制激活門,通過選擇特定標(biāo)準(zhǔn)的前K個組件:如果|xici|在|x⊙c|中是前K個值之一,則mi=1,否則mi=0。這里,c∈R?表示W(wǎng)的列式l2范數(shù),⊙表示Hadamard或元素乘積。K的選擇可以靈活調(diào)整,從粗粒度的通用標(biāo)準(zhǔn)(所有層共享同一個K)到細(xì)粒度的層特定策略(為每層單獨(dú)分配K以更好地最小化近似誤差)。

這種方法的優(yōu)勢在于,它不僅考慮了神經(jīng)元的當(dāng)前激活狀態(tài),還考慮了每個神經(jīng)元對網(wǎng)絡(luò)整體輸出的潛在貢獻(xiàn)。這就像在組建一個高效團(tuán)隊時,不僅看個人能力,還要看每個人如何與團(tuán)隊互補(bǔ)并對最終目標(biāo)做出貢獻(xiàn)。

二、理論基礎(chǔ):為什么WINA比其他方法更優(yōu)?

為了理解WINA的理論優(yōu)勢,讓我們想象一個簡單的類比。假設(shè)你正在整理一個大型書架,但只有有限的時間,因此需要決定保留哪些書籍。傳統(tǒng)方法可能只考慮書的受歡迎程度(隱藏狀態(tài)大?。鳺INA同時考慮書的受歡迎程度和它在整個藏書系統(tǒng)中的獨(dú)特價值(權(quán)重矩陣的影響)。

研究團(tuán)隊證明,在單層網(wǎng)絡(luò)的情況下,WINA的激活策略可以獲得比TEAL更緊的近似誤差界。具體來說,當(dāng)權(quán)重矩陣W滿足列式正交性(即W^TW=I,其中I是單位矩陣)時,WINA保留具有最大|xj·‖W·,j‖2|值的k個元素,其期望輸出誤差小于或等于TEAL(保留具有最大|xj|值的k個元素)的誤差。

這一理論結(jié)果可以擴(kuò)展到具有L個線性層的網(wǎng)絡(luò)。研究表明,如果網(wǎng)絡(luò)中存在一個子集S?{1,...,N},使得每個矩陣W^(l)(l∈S)是列式正交的,那么WINA的期望偏差仍小于TEAL的偏差。

更重要的是,這些結(jié)果對于配備各種激活函數(shù)的真實(shí)深度神經(jīng)網(wǎng)絡(luò)仍然有效,只要這些函數(shù)滿足單調(diào)遞增特性(如ReLU及其變體、sigmoid和softmax等)。這一事實(shí)確保了WINA在各種深度神經(jīng)網(wǎng)絡(luò)架構(gòu)中的廣泛適用性。

為了彌合理論和實(shí)踐之間的差距,研究團(tuán)隊還提出了一個張量變換框架,在不改變模型輸出的情況下,強(qiáng)制相關(guān)權(quán)重矩陣滿足列正交性。具體地,他們通過奇異值分解(SVD)對權(quán)重矩陣W進(jìn)行變換,使得變換后的矩陣滿足列正交性條件。然后,他們通過計算不變性來補(bǔ)償這種變換的影響,確保模型的最終輸出保持不變。

三、實(shí)驗(yàn)結(jié)果:WINA在現(xiàn)實(shí)中的表現(xiàn)如何?

想象你正在比較不同的交通路線,希望找到一條既快速又安全的路線。類似地,研究團(tuán)隊在多個主流大語言模型上評估了WINA,以測試它在現(xiàn)實(shí)世界中的性能和效率。

實(shí)驗(yàn)設(shè)置非常全面。研究團(tuán)隊使用了四個不同的模型:Qwen-2.5-7B、Llama-2-7B、Llama-3-8B和Phi-4-14B,覆蓋了從7B到14B參數(shù)的模型范圍。他們使用Alpaca數(shù)據(jù)集(包含52,000條指令和演示)來構(gòu)建隱藏狀態(tài)分布并計算每層的閾值。評估則基于廣泛的下游任務(wù),包括PIQA、WinoGrande、HellaSwag、Arc Challenge、MMLU和GSM8K,這些任務(wù)涵蓋了從常識推理到數(shù)學(xué)問題解決的多種能力。

為了確保公平比較,研究團(tuán)隊采用了基于top-k的門控策略,并引入了一個額外的基線TEAL-Transform,即在變換后的模型上應(yīng)用TEAL方法。他們還使用TEAL中提出的貪婪算法為每層分配特定的稀疏比率,而不是跨模型使用統(tǒng)一的稀疏度。

結(jié)果令人印象深刻。在Qwen-2.5-7B上,WINA在所有稀疏度水平(25%-65%)上始終匹配或優(yōu)于TEAL和TEAL-transform。隨著稀疏度的增加,WINA與基線之間的性能差距變得更加明顯。例如,在65%稀疏度下,WINA比TEAL平均高出2.94%,比TEAL-transform高出1.41%。這表明WINA在高稀疏度下更加穩(wěn)健,可能是因?yàn)樗軌蛲ㄟ^同時考慮隱藏狀態(tài)大小和權(quán)重范數(shù)來保留最具影響力的激活。

在Llama-2-7B上,WINA在25%稀疏度下實(shí)現(xiàn)了最高的平均準(zhǔn)確率,優(yōu)于基于TEAL的基線甚至全模型。雖然在極端的65%稀疏度下性能自然下降,但WINA仍然提供了最佳準(zhǔn)確率,表明其在激進(jìn)剪枝下的魯棒性。

對于Llama-3-8B,雖然TEAL在25%稀疏度下略微領(lǐng)先,但WINA在所有剩余稀疏配置中都領(lǐng)先,在50%稀疏度和65%稀疏度下分別領(lǐng)先TEAL +1.06%和+2.41%。值得注意的是,WINA在GSM8K和ARC Challenge等推理密集型任務(wù)上保持特別強(qiáng)勁的性能,而其他方法在壓縮下顯示出顯著下降。

在Phi-4-14B上,WINA在所有測試的稀疏度水平上始終匹配或超過TEAL和TEAL-transform的準(zhǔn)確性,并在每個稀疏度設(shè)置下實(shí)現(xiàn)最高的平均分?jǐn)?shù)。在最高65%稀疏度下,WINA比TEAL和TEAL-transform分別提高了+2.01%和+0.86%。它能夠在GSM8K和MMLU等復(fù)雜基準(zhǔn)測試上保持高性能,即使在嚴(yán)格剪枝下也是如此,這凸顯了它的穩(wěn)定性。

除了性能提升外,WINA在所有評估的大語言模型中都實(shí)現(xiàn)了顯著的計算加速。在65%稀疏度下,WINA將總體FLOP減少了:在Qwen-2.5-7B上減少60.0%,在Llama-2-7B上減少63.7%,在Llama-3-8B上減少60.4%,在Phi-4-14B上減少62.7%。這些浮點(diǎn)運(yùn)算的一致減少可能轉(zhuǎn)化為更快的推理速度和更低的計算成本,證明WINA作為在緊張資源約束下部署的實(shí)用解決方案的有效性。

四、WINA與現(xiàn)有方法的比較:為什么它更勝一籌?

為了理解WINA的獨(dú)特優(yōu)勢,讓我們把不同的稀疏激活方法比作不同的旅行規(guī)劃策略。傳統(tǒng)的稠密模型就像是一次周密計劃的旅行,訪問所有可能的景點(diǎn),但耗時且昂貴。MoE等訓(xùn)練型方法則類似于提前聘請當(dāng)?shù)貙?dǎo)游,他們知道哪些景點(diǎn)最值得一看,但培訓(xùn)這些"導(dǎo)游"本身就需要大量資源。

WINA與其他無訓(xùn)練方法(如TEAL和CATS)的關(guān)鍵區(qū)別在于如何選擇要訪問的"景點(diǎn)"(即要激活的神經(jīng)元)。TEAL僅基于隱藏狀態(tài)大?。ň包c(diǎn)的受歡迎度)來決定保留哪些激活,而WINA同時考慮隱藏狀態(tài)大小和權(quán)重矩陣(景點(diǎn)的獨(dú)特價值和與旅行整體主題的相關(guān)性)。

研究團(tuán)隊創(chuàng)建了一個簡潔的對比表,突出了WINA相對于TEAL和CATS的三個關(guān)鍵優(yōu)勢:

首先,WINA提供了更緊的近似誤差界,這意味著它在稀疏激活過程中能更準(zhǔn)確地保持原始模型的輸出。其次,WINA具有層通用性,可以應(yīng)用于網(wǎng)絡(luò)的所有層,而不僅限于特定類型的層(如CATS主要應(yīng)用于門控MLP層)。最后,WINA支持異構(gòu)稀疏性,允許不同層有不同的稀疏度,從而更靈活地分配計算資源。

這些優(yōu)勢的實(shí)際意義是顯著的。在高稀疏度(如65%)下,WINA比TEAL在Qwen-2.5-7B上平均高出2.94%,在Llama-3-8B上高出2.41%,在Phi-4-14B上高出2.01%。這些改進(jìn)不僅僅是百分點(diǎn)的小幅提升,而是在保持模型功能性的同時,顯著降低了計算需求,對于部署在資源受限環(huán)境中的大型語言模型特別重要。

五、從理論到實(shí)踐:如何將WINA應(yīng)用于真實(shí)世界?

將WINA從理論轉(zhuǎn)化為實(shí)際應(yīng)用需要解決一個關(guān)鍵挑戰(zhàn):現(xiàn)實(shí)中的大語言模型往往不滿足列式正交性條件,這是WINA理論分析的基礎(chǔ)假設(shè)。

為了彌合這一差距,研究團(tuán)隊提出了一個張量變換框架,強(qiáng)制相關(guān)權(quán)重矩陣滿足列正交性,同時保持模型的最終輸出不變。具體來說,他們對權(quán)重矩陣W進(jìn)行奇異值分解(SVD):W = UΣV^T,其中U和V是正交矩陣,Σ是包含W奇異值的對角矩陣。

為了實(shí)現(xiàn)列正交性,他們設(shè)置Q = V并將W變換為:W = WV。這種變換保證了結(jié)果矩陣W'滿足列正交性:(W)^TW = Σ^TU^TUΣ = Σ^2。

為確保模型在這種變換后的最終輸出保持不變,研究團(tuán)隊使用了計算不變性;具體來說,他們通過SVD變換對自注意力層中的鍵投影矩陣Wk和MLP層中的門投影矩陣Wgate實(shí)施列式正交性約束。然后,他們將這些變換傳播到相鄰層,并相應(yīng)地調(diào)整殘差連接,以保持計算不變性。

在推理過程中,他們對這些變換后的列正交矩陣應(yīng)用所提出的激活標(biāo)準(zhǔn),同時對剩余矩陣使用傳統(tǒng)的基于輸入的激活標(biāo)準(zhǔn),就像在稀疏建模中通常做的那樣。

這種從理論到實(shí)踐的橋接方法確保了WINA不僅在理論上是合理的,而且在現(xiàn)實(shí)世界的大語言模型上也是有效的,即使這些模型的原始權(quán)重矩陣可能不滿足理論假設(shè)。

六、總結(jié)與展望:WINA對大型語言模型的未來意味著什么?

WINA代表了訓(xùn)練無關(guān)稀疏激活領(lǐng)域的重要進(jìn)步,為在推理階段加速大型語言模型提供了一種新的方法。通過同時考慮隱藏狀態(tài)大小和權(quán)重矩陣的列式l2范數(shù),WINA創(chuàng)建了一個能更準(zhǔn)確捕捉每個激活對下游層影響的稀疏化策略。

這種方法在理論上是有根據(jù)的,提供了比現(xiàn)有技術(shù)更緊的近似誤差界。這些理論保證在實(shí)踐中得到了驗(yàn)證,WINA在多種大型語言模型架構(gòu)和基準(zhǔn)測試中的表現(xiàn)優(yōu)于TEAL等最先進(jìn)的方法,在相同稀疏度水平下平均性能提高了最多2.94%。

這些發(fā)現(xiàn)的實(shí)際意義是顯著的。通過減少高達(dá)65%的計算量,同時保持相對較高的性能,WINA為在資源受限或延遲敏感環(huán)境中部署大型語言模型開辟了新的可能性。這可能意味著更快的響應(yīng)時間、更低的能耗和更廣泛的大型語言模型應(yīng)用。

然而,盡管WINA取得了令人印象深刻的成果,研究團(tuán)隊承認(rèn)仍有改進(jìn)的空間。未來的研究可以探索更先進(jìn)的權(quán)重正交化技術(shù)、開發(fā)適應(yīng)性稀疏度策略,或?qū)INA與其他模型壓縮方法(如量化或蒸餾)結(jié)合起來,進(jìn)一步提高推理效率。

歸根結(jié)底,WINA代表了一種實(shí)用且高效的方法,可以在不損失太多性能的情況下加速大型語言模型推理。隨著這些模型繼續(xù)增長并滲透到更多領(lǐng)域,像WINA這樣的創(chuàng)新將變得越來越重要,確保AI系統(tǒng)既強(qiáng)大又高效。

對于希望進(jìn)一步了解WINA的讀者,研究團(tuán)隊已在GitHub(https://github.com/microsoft/wina)上發(fā)布了源代碼,而完整論文可在arXiv(arXiv:2505.19427v1)上獲取。隨著大型語言模型繼續(xù)發(fā)展,WINA可能會成為使這些強(qiáng)大系統(tǒng)更加高效和可訪問的重要工具。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-