近日,一項(xiàng)關(guān)于大語(yǔ)言模型壓縮技術(shù)的創(chuàng)新研究引起了業(yè)界關(guān)注。這項(xiàng)由香港大學(xué)的郭鵬昕和王怡濃、南方科技大學(xué)的李偉、中山大學(xué)的劉夢(mèng)婷、廣明實(shí)驗(yàn)室的李明以及杭州電子科技大學(xué)的鄭金凱共同完成的研究,由香港大學(xué)的曲良瓊教授擔(dān)任通訊作者,于2025年5月19日在arXiv(arXiv:2505.13547v1)上發(fā)表。研究團(tuán)隊(duì)提出了一種名為FedPrLLM的聯(lián)邦修剪框架,為在隱私保護(hù)情境下壓縮大語(yǔ)言模型提供了全新解決方案。有興趣深入了解的讀者可以通過(guò)https://github.com/Pengxin-Guo/FedPrLLM訪(fǎng)問(wèn)完整代碼。
在我們開(kāi)始深入這項(xiàng)研究之前,讓我們先簡(jiǎn)單了解一下背景。想象一下,你有一個(gè)超級(jí)聰明但體型巨大的助手,它能幫你完成各種任務(wù),但卻因?yàn)樘蠖鵁o(wú)法隨身攜帶。大語(yǔ)言模型(LLMs)就是這樣的"大塊頭"——雖然功能強(qiáng)大,但需要龐大的計(jì)算資源和存儲(chǔ)空間,這使得它們難以在普通設(shè)備上運(yùn)行。為了解決這個(gè)問(wèn)題,研究人員一直在尋找方法來(lái)"瘦身"這些模型,使它們保持聰明的同時(shí),減少資源需求。
其中,模型修剪(pruning)是一種有效的"瘦身"方法,就像裁剪一棵過(guò)于茂盛的樹(shù)木一樣,移除那些不太重要的"枝葉"(即模型中的冗余參數(shù)),同時(shí)盡可能保持模型的整體性能。然而,傳統(tǒng)的修剪方法通常需要使用公開(kāi)的校準(zhǔn)數(shù)據(jù)來(lái)指導(dǎo)修剪過(guò)程,判斷哪些參數(shù)可以安全移除。這在醫(yī)療、金融等隱私敏感的領(lǐng)域帶來(lái)了挑戰(zhàn),因?yàn)檫@些領(lǐng)域的數(shù)據(jù)往往不能公開(kāi)共享。
聯(lián)邦學(xué)習(xí)(Federated Learning)提供了一種在不共享原始數(shù)據(jù)的情況下進(jìn)行協(xié)作訓(xùn)練的方法。研究團(tuán)隊(duì)創(chuàng)造性地將聯(lián)邦學(xué)習(xí)與大語(yǔ)言模型修剪結(jié)合,提出了FedPrLLM框架,使多個(gè)客戶(hù)端能夠在保護(hù)數(shù)據(jù)隱私的同時(shí),共同參與修剪一個(gè)全局的大語(yǔ)言模型。
一、FedPrLLM框架的工作原理
想象一下,有多個(gè)醫(yī)院希望共同優(yōu)化一個(gè)醫(yī)療輔助診斷的大語(yǔ)言模型,但每家醫(yī)院的患者數(shù)據(jù)都是高度私密的,不能直接共享。使用FedPrLLM,每家醫(yī)院(客戶(hù)端)可以分別使用自己的私有數(shù)據(jù)計(jì)算一個(gè)"修剪掩碼矩陣"——這就像每家醫(yī)院各自做了一份"可以被裁剪的模型參數(shù)清單"。
關(guān)鍵的是,這些醫(yī)院只需要分享這個(gè)"清單"(掩碼矩陣),而不是原始的患者數(shù)據(jù)或模型參數(shù)。中央服務(wù)器收集所有醫(yī)院提供的"清單",匯總起來(lái)形成一個(gè)"綜合清單",并選擇那些被大多數(shù)醫(yī)院認(rèn)為可以移除的參數(shù)(即選擇綜合清單中的前k個(gè)值)。然后,服務(wù)器使用這個(gè)最終的修剪掩碼矩陣來(lái)修剪全局模型。
這個(gè)過(guò)程確保了數(shù)據(jù)隱私,同時(shí)利用了所有參與者的知識(shí)來(lái)做出更好的修剪決策。然而,在實(shí)際實(shí)施這個(gè)框架時(shí),研究團(tuán)隊(duì)面臨了三個(gè)關(guān)鍵挑戰(zhàn):
第一個(gè)挑戰(zhàn)是如何比較參數(shù)重要性。想象你在整理一個(gè)大衣柜,有三種方式可以決定哪些衣物要丟棄:你可以把所有衣物放在一起比較(層比較),或者在每個(gè)抽屜內(nèi)單獨(dú)比較(行比較),或者對(duì)每種類(lèi)型的衣物分別比較(列比較)。在FedPrLLM中,這對(duì)應(yīng)著三種不同的參數(shù)比較方式,但哪種最有效呢?
第二個(gè)挑戰(zhàn)是關(guān)于是否要調(diào)整保留參數(shù)的權(quán)重。想象在投票決定保留哪些衣物時(shí),有些衣物幾乎一致被認(rèn)為應(yīng)該保留,而有些則勉強(qiáng)過(guò)關(guān)。是否應(yīng)該對(duì)那些"勉強(qiáng)過(guò)關(guān)"的衣物打個(gè)折扣,按照它們獲得支持的程度來(lái)調(diào)整它們的"重要性"?
第三個(gè)挑戰(zhàn)涉及修剪策略:一次性修剪還是迭代修剪?一次性修剪就像一次性整理完整個(gè)衣柜,而迭代修剪則是一層一層地整理。迭代方法可能更精確,但也會(huì)帶來(lái)更高的通信成本,尤其是對(duì)于有很多層的深度模型來(lái)說(shuō)。
二、實(shí)驗(yàn)設(shè)計(jì)與方法
為了回答上述三個(gè)關(guān)鍵問(wèn)題,研究團(tuán)隊(duì)設(shè)計(jì)了一系列全面的實(shí)驗(yàn),投入了數(shù)千小時(shí)的GPU計(jì)算資源。他們?cè)诹N開(kāi)源大語(yǔ)言模型上進(jìn)行了測(cè)試,包括LLaMA(7B/13B/30B)、LLaMA-2(7B/13B)和LLaMA-3(8B)。測(cè)試涵蓋了三種不同的稀疏率(即移除參數(shù)的比例,分別為50%、60%和70%),三種比較組,以及兩種修剪策略,并在三個(gè)常用數(shù)據(jù)集(WikiText2、C4和PTB)上評(píng)估了模型性能。
在實(shí)驗(yàn)中,研究人員將每個(gè)客戶(hù)端配置為使用Wanda方法(一種基于權(quán)重大小與輸入激活相乘的修剪方法)來(lái)進(jìn)行本地修剪并計(jì)算修剪掩碼矩陣。為了模擬聯(lián)邦學(xué)習(xí)環(huán)境,他們?cè)O(shè)置了64個(gè)客戶(hù)端,每個(gè)客戶(hù)端只有2個(gè)校準(zhǔn)樣本。除了提出的FedPrLLM框架外,研究人員還實(shí)現(xiàn)了兩個(gè)基線(xiàn)方法進(jìn)行比較:
1. 本地修剪(Local-only):每個(gè)客戶(hù)端僅使用自己的私有數(shù)據(jù)修剪模型。 2. 中心化修剪(Centralized):服務(wù)器使用所有校準(zhǔn)數(shù)據(jù)修剪模型,這可以看作是聯(lián)邦設(shè)置下修剪性能的上限。
所有實(shí)驗(yàn)都在NVIDIA L40S GPU上進(jìn)行,性能評(píng)估主要基于模型在語(yǔ)言建模任務(wù)上的困惑度(perplexity)——這是評(píng)估語(yǔ)言模型質(zhì)量的標(biāo)準(zhǔn)指標(biāo),數(shù)值越低表示模型性能越好。
三、關(guān)鍵發(fā)現(xiàn)與啟示
經(jīng)過(guò)大量實(shí)驗(yàn),研究團(tuán)隊(duì)獲得了三個(gè)重要發(fā)現(xiàn),這些發(fā)現(xiàn)不僅回答了他們最初提出的問(wèn)題,也為實(shí)際應(yīng)用提供了寶貴指導(dǎo)。
首先,關(guān)于參數(shù)比較方式,研究發(fā)現(xiàn)層比較是一種簡(jiǎn)單而有效的方法。想象一下,無(wú)論你的朋友們用什么方法(按抽屜或按類(lèi)型)來(lái)整理自己的衣柜,當(dāng)你需要綜合他們的建議時(shí),最簡(jiǎn)單有效的方法就是將所有衣物放在一起比較。在實(shí)驗(yàn)中,無(wú)論本地修剪方法使用何種比較組,層比較在FedPrLLM中始終表現(xiàn)良好。相比之下,當(dāng)本地修剪方法與服務(wù)器使用的比較組不一致時(shí),性能會(huì)顯著下降。
其次,對(duì)于是否應(yīng)該按照客戶(hù)端的"支持度"來(lái)調(diào)整保留參數(shù)的權(quán)重,研究發(fā)現(xiàn)出乎意料的是,不縮放權(quán)重反而效果更好。這就像是雖然某些衣物只是勉強(qiáng)過(guò)關(guān),但如果你降低它們的"地位",反而會(huì)影響整個(gè)衣柜的協(xié)調(diào)性。研究人員推測(cè),這可能是因?yàn)楸镜匦藜艉蟮哪P托阅鼙旧砭筒粔蚝?,使用?lián)邦平均(FedAvg)算法聚合這些修剪后的模型權(quán)重會(huì)導(dǎo)致次優(yōu)性能。
最后,關(guān)于修剪策略,研究顯示一次性修剪的性能與迭代修剪相當(dāng),但前者的通信成本要低得多。想象一下,如果整理衣柜的最終結(jié)果差不多,你肯定會(huì)選擇一次性完成而不是反復(fù)多次返工,尤其是當(dāng)每次返工都需要咨詢(xún)所有朋友的意見(jiàn)時(shí)。對(duì)于深度的大語(yǔ)言模型來(lái)說(shuō),迭代修剪需要多輪通信,這在實(shí)際應(yīng)用中可能會(huì)帶來(lái)很大的開(kāi)銷(xiāo)。
此外,研究人員還進(jìn)行了敏感性分析,研究了客戶(hù)端數(shù)量和校準(zhǔn)樣本數(shù)量對(duì)聯(lián)邦修剪效果的影響。結(jié)果表明,無(wú)論客戶(hù)端數(shù)量如何變化(從2到64),或者校準(zhǔn)樣本總數(shù)如何變化(從4到128),F(xiàn)edPrLLM都始終優(yōu)于本地修剪方法,顯示了該框架的魯棒性和實(shí)用性。
四、實(shí)際應(yīng)用與未來(lái)展望
FedPrLLM框架的提出為隱私敏感領(lǐng)域的大語(yǔ)言模型部署開(kāi)辟了新的可能性。想象一下,在醫(yī)療領(lǐng)域,多家醫(yī)院可以共同參與修剪一個(gè)專(zhuān)門(mén)的醫(yī)療大語(yǔ)言模型,而無(wú)需共享患者的敏感數(shù)據(jù)。在金融領(lǐng)域,不同的金融機(jī)構(gòu)可以協(xié)作優(yōu)化一個(gè)金融咨詢(xún)大語(yǔ)言模型,同時(shí)保護(hù)各自客戶(hù)的隱私數(shù)據(jù)。
基于研究結(jié)果,作者為實(shí)際應(yīng)用提出了以下建議:使用一次性修剪搭配層比較,并且不對(duì)保留參數(shù)進(jìn)行權(quán)重縮放。這種策略不僅簡(jiǎn)單直觀(guān),而且能夠在保護(hù)數(shù)據(jù)隱私的同時(shí)取得接近中心化修剪的性能。
未來(lái)的研究方向可能包括探索更復(fù)雜的聯(lián)邦修剪算法,考慮客戶(hù)端數(shù)據(jù)異質(zhì)性的影響,以及將FedPrLLM與其他模型壓縮技術(shù)(如量化、知識(shí)蒸餾等)結(jié)合使用的可能性。
總的來(lái)說(shuō),F(xiàn)edPrLLM為解決大語(yǔ)言模型在隱私敏感領(lǐng)域的部署挑戰(zhàn)提供了一種可行的解決方案。隨著大語(yǔ)言模型應(yīng)用范圍的不斷擴(kuò)大,這種能夠在保護(hù)數(shù)據(jù)隱私的同時(shí)實(shí)現(xiàn)模型壓縮的方法將變得越來(lái)越重要。
好文章,需要你的鼓勵(lì)
新加坡國(guó)立大學(xué)研究團(tuán)隊(duì)開(kāi)發(fā)了SPIRAL框架,通過(guò)讓AI與自己對(duì)弈零和游戲來(lái)提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡(jiǎn)單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無(wú)需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開(kāi)發(fā)的GIGA-ToF技術(shù)通過(guò)融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問(wèn)題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺(jué)解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過(guò)對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺(jué)語(yǔ)言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無(wú)法有效利用視覺(jué)信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過(guò)動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語(yǔ)言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。