北京郵電大學(xué)和香港科技大學(xué)聯(lián)合研究團(tuán)隊(duì)的重大突破!減肥也要講究方法,大型語言模型也是如此
你是否曾想過,那些能夠與人類對話、寫作和解決問題的人工智能大模型,背后隱藏著怎樣龐大的"身軀"?今天要介紹的這項(xiàng)研究,就像是為這些"體型臃腫"的AI模型量身定制了一套科學(xué)的"減肥計(jì)劃"。這項(xiàng)由北京郵電大學(xué)的陳宇立、程波、張瑩瑩、李穎婷、張樹豪和香港科技大學(xué)的韓家樂共同完成的研究成果,以論文《DLP: Dynamic Layerwise Pruning in Large Language Models》的形式發(fā)表在2025年的第42屆國際機(jī)器學(xué)習(xí)會(huì)議(ICML 2025)上。研究代碼已在GitHub上開源,有興趣的讀者可通過https://github.com/ironartisan/DLP獲取。
想象一下,如果我們把大型語言模型(LLM)比作一本厚重的百科全書,傳統(tǒng)的"減重"方法就像是對每一頁都均勻地刪減內(nèi)容。這樣做雖然減輕了重量,但可能會(huì)讓某些重要章節(jié)信息不足,而一些不那么重要的章節(jié)卻保留了過多內(nèi)容。北京郵電大學(xué)和香港科技大學(xué)的研究團(tuán)隊(duì)提出了一種更聰明的方法——動(dòng)態(tài)分層剪枝(Dynamic Layerwise Pruning,簡稱DLP),就好比他們發(fā)明了一種能夠識(shí)別每個(gè)章節(jié)重要性的智能工具,對重要章節(jié)輕度刪減,對次要章節(jié)大刀闊斧地精簡。
這項(xiàng)研究的意義不僅在于理論創(chuàng)新,更在于它能夠讓那些需要數(shù)十億甚至數(shù)千億參數(shù)的龐大AI模型變得更加"苗條",同時(shí)保持其強(qiáng)大的能力。這就像是幫助一位體重超標(biāo)的運(yùn)動(dòng)員減掉多余脂肪,但保留甚至強(qiáng)化了肌肉,使其性能更加出色。對普通用戶來說,這意味著未來我們可能能在個(gè)人電腦甚至手機(jī)上運(yùn)行強(qiáng)大的AI助手,而不必依賴云服務(wù)器的強(qiáng)大算力。
一、大模型減肥的困境與突破
大型語言模型就像現(xiàn)代社會(huì)中的"知識(shí)巨人",它們通過學(xué)習(xí)海量文本數(shù)據(jù),獲得了令人驚嘆的語言理解和生成能力。然而,這些"巨人"也面臨著一個(gè)明顯的問題——它們太"胖"了。以O(shè)penAI的GPT模型或Meta的LLaMA模型為例,它們擁有數(shù)十億甚至數(shù)千億的參數(shù),這些參數(shù)就像是構(gòu)成巨人肌肉和骨骼的基本單元。如此龐大的"體型"帶來了巨大的計(jì)算資源消耗,使得普通設(shè)備難以運(yùn)行這些模型。
面對這一挑戰(zhàn),研究人員提出了"剪枝"(Pruning)技術(shù)作為解決方案。所謂剪枝,就像園丁修剪花木一樣,去除模型中那些對最終結(jié)果貢獻(xiàn)較小的參數(shù),從而減小模型體積并提高推理效率。傳統(tǒng)的剪枝方法主要有兩類:一種是結(jié)構(gòu)化剪枝(Structured Pruning),它會(huì)刪除模型中整塊的參數(shù),就像從一本書中刪除整個(gè)章節(jié);另一種是非結(jié)構(gòu)化剪枝(Unstructured Pruning),它會(huì)選擇性地刪除分散的單個(gè)參數(shù),就像從一本書中零星地刪除一些不那么重要的句子。
在非結(jié)構(gòu)化剪枝領(lǐng)域,已有多種方法被提出。比如,基于參數(shù)大小的剪枝(Magnitude)會(huì)保留那些絕對值較大的參數(shù);SparseGPT會(huì)采用逐層、逐行的貪婪剪枝策略;而Wanda則會(huì)同時(shí)考慮權(quán)重值和對應(yīng)輸入激活的范數(shù)來評估參數(shù)重要性。這些方法雖然取得了不錯(cuò)的效果,但它們都忽視了一個(gè)關(guān)鍵問題:模型中不同層的重要性是不同的。它們對所有層都使用相同的剪枝率,就好比對一本書的每一章都刪減相同比例的內(nèi)容,而不考慮章節(jié)的重要性差異。
針對這一問題,近期有研究提出了非均勻?qū)蛹糁Φ母拍?。例如,OWL(Outlier Weighed Layerwise Sparsity)方法認(rèn)為,含有更多"異常值"(即特別重要的參數(shù))的層更為關(guān)鍵,應(yīng)該被賦予更低的剪枝率。這種方法取得了比均勻?qū)蛹糁Ω玫男Ч?,但它也存在局限性:它依賴于預(yù)定義的標(biāo)準(zhǔn)來選擇異常值,這不僅限制了其適應(yīng)模型動(dòng)態(tài)需求的能力,也妨礙了實(shí)現(xiàn)最佳性能。
二、DLP:動(dòng)態(tài)評估層重要性的新方法
面對上述挑戰(zhàn),陳宇立等研究者提出了動(dòng)態(tài)分層剪枝(DLP)方法。這種方法就像是一位經(jīng)驗(yàn)豐富的編輯,能夠自動(dòng)判斷書中每一章的重要性,并據(jù)此決定應(yīng)該刪減多少內(nèi)容。DLP的核心理念是從反向角度計(jì)算每一層的"不重要性",然后轉(zhuǎn)化為層與層之間的相對重要性?;?重要層應(yīng)該有更低剪枝率"的原則,DLP為每一層分配適當(dāng)?shù)募糁β省?/p>
那么,DLP是如何確定層的重要性的呢?研究團(tuán)隊(duì)采用了一種巧妙的方法——中位數(shù)(Median)。一些早期研究表明,在模型中,中位數(shù)附近的元素通常是冗余的,可以被同一層中的其他元素替代。研究團(tuán)隊(duì)通過三項(xiàng)實(shí)證研究證明了中位數(shù)在大型語言模型中的有效性。
中位數(shù)的一個(gè)重要特性是它對異常值不敏感。想象一下,如果一個(gè)班級有29名學(xué)生的身高都在170厘米左右,但有一名學(xué)生身高達(dá)到了210厘米,計(jì)算平均身高會(huì)受到這個(gè)異常值的顯著影響,但中位數(shù)則幾乎不受影響。這使得中位數(shù)能夠更準(zhǔn)確地反映一個(gè)層中大多數(shù)參數(shù)的中心趨勢,特別是當(dāng)該層包含異常值時(shí)。
DLP算法的工作流程如下:首先,它計(jì)算每個(gè)Transformer塊的"不重要性",這是基于模型權(quán)重和輸入激活值的中位數(shù);然后,它評估層與層之間的相對"不重要性",進(jìn)而確定模型的相對重要性;最后,它根據(jù)"重要層應(yīng)有更低剪枝率"的原則為每一層分配剪枝率。
三、實(shí)驗(yàn)結(jié)果:證明DLP的有效性
為了驗(yàn)證DLP的有效性,研究團(tuán)隊(duì)在多種主流大型語言模型上進(jìn)行了全面的實(shí)驗(yàn)評估,這些模型參數(shù)規(guī)模從7B到30B不等,架構(gòu)包括LLaMA、Vicuna、Mistral等。實(shí)驗(yàn)結(jié)果令人振奮:DLP方法始終優(yōu)于現(xiàn)有的最先進(jìn)的大型語言模型剪枝技術(shù),特別是在高稀疏度(即高剪枝率)水平下。
舉個(gè)例子,當(dāng)剪枝率達(dá)到70%時(shí),DLP將LLaMA2-7B的困惑度(perplexity,這是衡量語言模型性能的指標(biāo),越低越好)降低了7.79,并將平均準(zhǔn)確率提高了2.7%,相比于現(xiàn)有最先進(jìn)的方法。這就像是通過更科學(xué)的減肥方法,不僅讓運(yùn)動(dòng)員減輕了體重,還提高了他的運(yùn)動(dòng)表現(xiàn)。
在實(shí)際推理加速方面,DLP也表現(xiàn)出色。當(dāng)在CPU上使用DeepSparse推理引擎時(shí),在70%-90%的稀疏度下,DLP實(shí)現(xiàn)了2.8x-3.7x的端到端加速。這意味著,原本可能需要一秒鐘處理的任務(wù),現(xiàn)在只需不到半秒就能完成,大大提高了效率。
此外,研究人員還發(fā)現(xiàn),經(jīng)過短暫的微調(diào),高稀疏度剪枝后的模型性能可以恢復(fù)到合理范圍。這就像是運(yùn)動(dòng)員在減重后通過適當(dāng)?shù)挠?xùn)練,很快就能恢復(fù)甚至提升運(yùn)動(dòng)能力。
四、DLP的廣泛兼容性:不只是一種剪枝方法
作為一種通用方法,DLP不僅適用于非結(jié)構(gòu)化剪枝,還可應(yīng)用于N:M稀疏度(其中N指的是非零權(quán)重的數(shù)量,M是總權(quán)重?cái)?shù)量)和結(jié)構(gòu)化剪枝,并且始終優(yōu)于分層方法。更重要的是,DLP與量化技術(shù)正交,也可以擴(kuò)展到奇異值分解(SVD)和參數(shù)高效微調(diào)(PEFT)等方法,實(shí)現(xiàn)顯著的性能提升。
例如,研究團(tuán)隊(duì)將DLP應(yīng)用于結(jié)構(gòu)化剪枝方法LLM-Pruner,結(jié)果表明,非均勻分層稀疏度允許LLM-Pruner在不同稀疏度水平下更好地保持性能。在N:M稀疏度配置中,DLP也取得了優(yōu)于均勻N:M稀疏度的性能。特別是在1:4和2:8的高稀疏度場景下,DLP方法分別將困惑度降低了240倍和41倍。
此外,研究人員還將DLP與量化技術(shù)結(jié)合,評估剪枝后模型在量化前后的性能。結(jié)果表明,使用DLP剪枝的模型在量化后始終優(yōu)于使用均勻稀疏度剪枝的模型。值得注意的是,4位量化模型的性能幾乎與16位量化模型相同,這表明應(yīng)用DLP可以在保持性能的同時(shí)實(shí)現(xiàn)4倍的模型大小減少。
五、實(shí)際應(yīng)用價(jià)值與未來展望
DLP方法的提出不僅是學(xué)術(shù)上的突破,更具有重要的實(shí)際應(yīng)用價(jià)值。隨著人工智能技術(shù)的普及,大型語言模型正在越來越多地融入我們的日常生活。然而,這些模型的龐大規(guī)模限制了它們在資源受限設(shè)備上的應(yīng)用,如個(gè)人電腦、智能手機(jī)等。DLP通過顯著減少模型參數(shù)量并提高推理效率,為大型語言模型在邊緣設(shè)備上的部署鋪平了道路。
想象一下,在不久的將來,我們可能能夠在個(gè)人設(shè)備上運(yùn)行經(jīng)過DLP優(yōu)化的大型語言模型,無需依賴云服務(wù)器,這將大大提高用戶體驗(yàn),減少延遲,并增強(qiáng)隱私保護(hù)。例如,一個(gè)經(jīng)過DLP優(yōu)化的助手可以在你的智能手機(jī)上本地運(yùn)行,即使在沒有網(wǎng)絡(luò)連接的情況下也能幫助你撰寫郵件、回答問題或提供建議。
此外,DLP方法的通用性和靈活性使其能夠與其他模型壓縮和優(yōu)化技術(shù)相結(jié)合,進(jìn)一步提升性能和效率。這為未來的研究和應(yīng)用打開了廣闊的空間。例如,將DLP與其他創(chuàng)新的剪枝、量化或知識(shí)蒸餾方法結(jié)合,可能會(huì)產(chǎn)生更加高效和強(qiáng)大的大型語言模型。
總的來說,陳宇立等研究者提出的DLP方法為大型語言模型的優(yōu)化提供了一種新的、更加有效的方法。通過動(dòng)態(tài)評估層重要性并據(jù)此分配剪枝率,DLP能夠在保持模型性能的同時(shí)顯著減少參數(shù)量,提高推理效率。這項(xiàng)研究不僅推動(dòng)了學(xué)術(shù)領(lǐng)域的進(jìn)步,也為大型語言模型的實(shí)際應(yīng)用帶來了新的可能性。
當(dāng)然,盡管DLP取得了顯著的成果,但大型語言模型的優(yōu)化仍然是一個(gè)充滿挑戰(zhàn)的研究領(lǐng)域。未來的研究可能會(huì)探索更加精細(xì)和高效的層重要性評估方法,或者將DLP與其他創(chuàng)新技術(shù)相結(jié)合,進(jìn)一步提升大型語言模型的性能和效率。但無論如何,DLP已經(jīng)為我們提供了一種更加智能和高效的大型語言模型"減肥"方法,讓這些"知識(shí)巨人"變得更加"苗條"而不失其強(qiáng)大能力。
好文章,需要你的鼓勵(lì)
新加坡國立大學(xué)研究團(tuán)隊(duì)開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過對比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。