av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁 GraLoRA:解決大型語言模型微調(diào)瓶頸的突破性方法 — SqueezeBits和POSTECH聯(lián)合研究

GraLoRA:解決大型語言模型微調(diào)瓶頸的突破性方法 — SqueezeBits和POSTECH聯(lián)合研究

2025-05-31 11:41
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-31 11:41 ? 科技行者

在人工智能快速發(fā)展的今天,大型語言模型(LLM)已經(jīng)成為各種智能應(yīng)用的核心。但隨著模型規(guī)模的不斷擴(kuò)大,如何高效地對這些龐然大物進(jìn)行定制化訓(xùn)練成為了一個(gè)棘手的問題。想象一下,你有一個(gè)功能強(qiáng)大的通用工具,但你希望它能更好地完成特定任務(wù)——比如寫代碼或解決常識性問題。這就像擁有一把瑞士軍刀,但你需要它的螺絲刀功能更加精準(zhǔn)。如何在不更換整把軍刀的情況下,只精確調(diào)整螺絲刀部分?這正是參數(shù)高效微調(diào)(PEFT)方法嘗試解決的問題。

由SqueezeBits公司的Yeonjoon Jung、Daehyun Ahn、Hyungjun Kim、Taesu Kim和POSTECH大學(xué)的Eunhyeok Park共同完成的這項(xiàng)研究發(fā)表于2025年5月的預(yù)印本,提出了一種名為"GraLoRA"(Granular Low-Rank Adaptation,顆?;椭冗m應(yīng))的新方法,致力于解決現(xiàn)有PEFT方法中的核心限制。該論文可通過arXiv:2505.20355v1獲取。

在深入了解GraLoRA之前,我們需要先理解目前最流行的PEFT方法——LoRA(Low-Rank Adaptation,低秩適應(yīng))。LoRA的核心思想非常巧妙:不去修改原始模型的全部參數(shù)(這可能高達(dá)數(shù)十億甚至數(shù)千億),而是在原始權(quán)重旁邊添加一些小型的"適配器"矩陣。這些適配器通過低秩分解大大減少了需要訓(xùn)練的參數(shù)數(shù)量,就像是在不改變主體結(jié)構(gòu)的情況下,添加了一些微小但精確的調(diào)整裝置。

然而,研究團(tuán)隊(duì)發(fā)現(xiàn)LoRA存在一個(gè)根本性的局限:當(dāng)我們嘗試增加適配器的"秩"(可以理解為這些微調(diào)裝置的容量或表達(dá)能力)時(shí),模型性能并不會(huì)一直提升,反而會(huì)在某個(gè)點(diǎn)后開始下降。具體來說,LoRA在秩為32-64時(shí)表現(xiàn)最佳,但當(dāng)秩繼續(xù)增加時(shí),準(zhǔn)確率開始停滯甚至下降,始終無法達(dá)到全參數(shù)微調(diào)(FFT)的性能水平。

那么,為什么會(huì)出現(xiàn)這種現(xiàn)象呢?研究團(tuán)隊(duì)通過理論分析找到了答案:LoRA的結(jié)構(gòu)設(shè)計(jì)導(dǎo)致了"梯度糾纏"問題。想象一下,如果你的螺絲刀調(diào)整裝置與鋸子調(diào)整裝置意外地連接在一起,那么當(dāng)你調(diào)整螺絲刀時(shí),鋸子也會(huì)不由自主地發(fā)生變化。在LoRA中,當(dāng)輸入數(shù)據(jù)中出現(xiàn)一些"異常值"(極端數(shù)值)時(shí),這些異常值會(huì)對整個(gè)適配器的梯度更新產(chǎn)生不成比例的影響,導(dǎo)致訓(xùn)練信號被扭曲。

為了解決這個(gè)問題,研究團(tuán)隊(duì)提出了GraLoRA方法。與其使用一個(gè)整體的適配器,GraLoRA將權(quán)重矩陣劃分為多個(gè)獨(dú)立的小塊(想象將一張大餐桌分成多個(gè)小餐桌),每個(gè)小塊配備自己的低秩適配器。這種設(shè)計(jì)有兩個(gè)關(guān)鍵優(yōu)勢:首先,它提高了表達(dá)能力,因?yàn)檎w的有效秩從r增加到了kr(k是劃分的塊數(shù));其次,它局部化了梯度更新,使得輸入異常值只會(huì)影響與之直接相關(guān)的塊,而不會(huì)擾亂整個(gè)適配器的訓(xùn)練。

這就像是將一個(gè)大型餐廳的管理分解為多個(gè)小型區(qū)域,每個(gè)區(qū)域都有自己的經(jīng)理。當(dāng)某個(gè)區(qū)域出現(xiàn)問題時(shí),只有該區(qū)域的經(jīng)理需要處理,而不會(huì)影響整個(gè)餐廳的運(yùn)營。通過這種方式,GraLoRA能夠更好地處理復(fù)雜、多面向的模式,特別是在高秩設(shè)置下。

研究團(tuán)隊(duì)在代碼生成和常識推理兩個(gè)具有挑戰(zhàn)性的任務(wù)上對GraLoRA進(jìn)行了全面評估。在代碼生成任務(wù)上,GraLoRA在所有測試的秩設(shè)置中都優(yōu)于LoRA和其他基線方法。特別是在秩為128時(shí),GraLoRA在HumanEval+基準(zhǔn)測試的Pass@1指標(biāo)上取得了相對于LoRA絕對提升8.5%的顯著成果。在常識推理任務(wù)上,GraLoRA同樣展現(xiàn)出優(yōu)異性能,在各種模型規(guī)模和任務(wù)上一致超越了現(xiàn)有方法。

值得注意的是,GraLoRA實(shí)現(xiàn)了這些改進(jìn)的同時(shí),并沒有增加計(jì)算或存儲(chǔ)成本。雖然在訓(xùn)練過程中會(huì)有輕微的內(nèi)存開銷增加(由于中間表示變大),但這可以通過梯度檢查點(diǎn)等技術(shù)有效緩解。在推理階段,GraLoRA可以像傳統(tǒng)LoRA一樣合并到原始權(quán)重中,不會(huì)帶來任何額外開銷。

研究團(tuán)隊(duì)還針對不同的秩設(shè)置探索了最佳的塊數(shù)選擇策略。他們發(fā)現(xiàn),在低秩設(shè)置(如16和32)下,k=2效果最好;而在高秩設(shè)置(如64和128)下,k=4表現(xiàn)最佳。對于非常低的秩(16或更低),他們還提出了一種混合方法,將部分秩分配給傳統(tǒng)LoRA,部分分配給GraLoRA,以維持足夠的表達(dá)能力。

一、GraLoRA方法的原理與設(shè)計(jì)

想象一下,你正在管理一個(gè)大型圖書館。傳統(tǒng)的全參數(shù)微調(diào)就像是重新排列整個(gè)圖書館的每一本書,非常耗時(shí)且成本高昂。而LoRA則相當(dāng)于只在主要書架旁邊添加一些小型展示架,放置一些特別需要強(qiáng)調(diào)的書籍。這種方法雖然高效,但存在一個(gè)問題:當(dāng)某個(gè)展示架上放了一本特別突出的書(比如一本特別厚重或色彩鮮艷的書),它會(huì)吸引所有人的注意力,導(dǎo)致其他書籍被忽視。

GraLoRA采用了一種不同的方法。它不是設(shè)置一個(gè)大型展示架,而是將圖書館劃分為多個(gè)獨(dú)立的區(qū)域,每個(gè)區(qū)域都有自己的小型展示架。這樣,即使某個(gè)區(qū)域有一本特別引人注目的書,它也只會(huì)影響該區(qū)域的參觀者,而不會(huì)干擾其他區(qū)域的正常瀏覽體驗(yàn)。

從技術(shù)角度來看,GraLoRA將原始權(quán)重矩陣W?∈R???(M和N分別代表輸出和輸入通道維度)劃分為k×k個(gè)獨(dú)立的塊,每個(gè)塊都配備自己的低秩適配器。具體來說,對于輸入X,GraLoRA的更新可以表示為:

RGraLoRA = [[B?,?A?,??, ..., B?,?A?,??], [..., ..., ...], [B?,?A?,??, ..., B?,?A?,??]]

其中,A_i,j ∈ R^(N/k × r/k),B_i,j ∈ R^(M/k × r/k)是每個(gè)塊的適配器參數(shù)。

這種設(shè)計(jì)帶來了兩個(gè)關(guān)鍵優(yōu)勢。首先,通過表達(dá)能力分析,研究團(tuán)隊(duì)證明了GraLoRA的有效秩為kr,是傳統(tǒng)LoRA的k倍。這意味著GraLoRA能夠捕捉更復(fù)雜、更細(xì)粒度的模式。其次,在面對輸入異常值時(shí),GraLoRA能夠有效地局部化梯度影響。當(dāng)輸入中出現(xiàn)異常值時(shí),只有與該異常值直接相關(guān)的k個(gè)適配器對會(huì)受到放大的梯度影響,而其余的k?-k個(gè)適配器對則保持在基線水平附近,這與全參數(shù)微調(diào)的行為更為相似。

研究人員通過分析LLaMA3.1-8B模型的第一層下投影矩陣發(fā)現(xiàn),輸入激活值存在嚴(yán)重的通道不平衡現(xiàn)象。某些通道的值異常高,這些"異常值通道"在傳統(tǒng)LoRA中會(huì)不成比例地影響整個(gè)適配器的梯度更新,導(dǎo)致訓(xùn)練信號扭曲。通過可視化梯度分布,研究團(tuán)隊(duì)清晰地展示了GraLoRA如何有效減少梯度偏差,限制異常值通道的影響。

二、GraLoRA的計(jì)算與內(nèi)存開銷分析

你可能會(huì)擔(dān)心,這種細(xì)粒度的適配器設(shè)計(jì)是否會(huì)帶來額外的計(jì)算或存儲(chǔ)開銷?研究團(tuán)隊(duì)進(jìn)行了詳細(xì)的分析,結(jié)果令人驚喜。

在計(jì)算復(fù)雜度方面,傳統(tǒng)LoRA將計(jì)算分為兩個(gè)順序步驟:首先計(jì)算A^TX ∈ R^(r×T),然后重構(gòu)B(A^TX) ∈ R^(M×T)。這兩個(gè)步驟分別需要2NrT和2rMT的浮點(diǎn)運(yùn)算(FLOPs),總體復(fù)雜度為O(r(M+N)T)。

同樣,GraLoRA也將計(jì)算分為兩個(gè)步驟,涉及k?個(gè)適配器塊。在第一步中,每個(gè)塊計(jì)算A_i,j^TX_j ∈ R^(r/k×T),總計(jì)算成本為2NrT。在第二步中,每個(gè)中間輸出由相應(yīng)的B_i,j處理,產(chǎn)生B_i,j(A_i,j^TX_j) ∈ R^(M/k×T),這一步增加了2rMT的FLOPs。因此,GraLoRA的整體計(jì)算復(fù)雜度仍然是O(r(M+N)T),與傳統(tǒng)LoRA相當(dāng)。

在存儲(chǔ)開銷方面,GraLoRA與LoRA一樣,可以在推理階段合并到原始權(quán)重矩陣中。在訓(xùn)練過程中,雖然中間潛在表示A_GraLoRA^TX變?yōu)閭鹘y(tǒng)LoRA中A^TX的k倍,但考慮到秩r通常遠(yuǎn)小于輸入和輸出維度,這種額外的內(nèi)存消耗在實(shí)際應(yīng)用中可以忽略不計(jì)。研究團(tuán)隊(duì)的實(shí)驗(yàn)表明,即使對于較大的k值,GraLoRA的額外內(nèi)存需求也很小,而且可以通過梯度檢查點(diǎn)等技術(shù)進(jìn)一步減少。

三、混合GraLoRA:平衡表達(dá)能力與精度

研究團(tuán)隊(duì)注意到,雖然GraLoRA在高秩設(shè)置下表現(xiàn)優(yōu)異,但在非常低的秩(如16或更低)時(shí),可能會(huì)出現(xiàn)性能下降或僅帶來微小的收益。這是因?yàn)閷⒚總€(gè)塊的秩限制為r/k可能會(huì)削弱單個(gè)塊的表達(dá)能力。

為了解決這個(gè)問題,研究團(tuán)隊(duì)提出了一種混合方法,結(jié)合了LoRA和GraLoRA的優(yōu)勢。這種方法保留了GraLoRA的細(xì)粒度輸入處理和增加的總秩,同時(shí)通過LoRA保持了較大塊單元的表達(dá)能力。由于LoRA在行和列之間共享相同的參數(shù),它可以自然地以級聯(lián)形式與GraLoRA集成,這被稱為混合GraLoRA。

通過實(shí)驗(yàn),研究團(tuán)隊(duì)發(fā)現(xiàn),在低秩場景(γ <= 16)中,將總秩的最多1/2分配給LoRA組件可以緩解GraLoRA的局限性;而在高秩情況下,將全部秩分配給GraLoRA表現(xiàn)更好。這種靈活的方法使得GraLoRA能夠適應(yīng)不同的任務(wù)和模型大小。

四、實(shí)驗(yàn)結(jié)果:代碼生成與常識推理

為了驗(yàn)證GraLoRA的有效性,研究團(tuán)隊(duì)在兩個(gè)具有挑戰(zhàn)性的領(lǐng)域進(jìn)行了廣泛的實(shí)驗(yàn):代碼生成和常識推理。他們使用了不同架構(gòu)和規(guī)模的開源LLM,包括LLaMA3.1-8B、LLaMA3.1-70B、Qwen-2.5-1.5B和Qwen-2.5-7B。

在代碼生成任務(wù)中,研究團(tuán)隊(duì)在Magicoder-Evol-Instruct-110k數(shù)據(jù)集上對各個(gè)模型進(jìn)行了微調(diào),并在HumanEval+測試集上進(jìn)行評估。結(jié)果顯示,GraLoRA在所有測試的秩設(shè)置中都優(yōu)于LoRA、MoRA和RaSA。在秩為64時(shí),GraLoRA在Pass@1上取得了相對于LoRA的+2.4%的絕對提升,在Pass@5和Pass@10上分別提高了+4.8%和+4.1%。在秩為128時(shí),提升更為顯著,Pass@1增加了+8.5%,Pass@5增加了+6.9%,Pass@10增加了+5.1%。

值得注意的是,雖然其他方法在增加秩時(shí)往往會(huì)遇到性能瓶頸(通常在較低的秩處達(dá)到性能平臺),但GraLoRA能夠保持一致的上升軌跡,有效克服了LoRA的局限性。即使在低秩設(shè)置(如秩為16)下,混合變體的GraLoRA也表現(xiàn)出色,證明了這種方法在表達(dá)能力受限的情況下的有效性。

在常識推理任務(wù)中,研究團(tuán)隊(duì)評估了各種模型在8個(gè)基準(zhǔn)測試上的表現(xiàn):BoolQ、PIQA、SIQA、HellaSwag、WinoGrande、ARC-Challenge、ARC-Easy和OpenBookQA。實(shí)驗(yàn)結(jié)果表明,GraLoRA在不同規(guī)模的模型上都取得了一致的優(yōu)勢,在Qwen2.5-1.5B和LLaMA3.1-70B上平均準(zhǔn)確率提高了1.1%,在Qwen2.5-7B上提高了0.9%。

更令人印象深刻的是,GraLoRA在24個(gè)任務(wù)中的20個(gè)上取得了最佳結(jié)果,一致地超越了其他方法。這些結(jié)果支持了研究團(tuán)隊(duì)的分析,表明GraLoRA的局部化更新增強(qiáng)了與全參數(shù)微調(diào)的對齊,促進(jìn)了在多方面推理任務(wù)中的穩(wěn)健泛化。

五、消融研究:參數(shù)選擇與模型行為

為了更深入地理解GraLoRA的行為,研究團(tuán)隊(duì)進(jìn)行了詳細(xì)的消融研究。他們評估了不同k值對代碼生成準(zhǔn)確率的影響,發(fā)現(xiàn)在秩為32時(shí),k=2效果最好;而在秩為128時(shí),k=4表現(xiàn)最佳。這些結(jié)果與理論預(yù)測一致,即在較低的秩時(shí),較小的k值更可取,因?yàn)闇p少的子塊秩在總體秩有限時(shí)尤其不利。

研究團(tuán)隊(duì)還評估了混合GraLoRA中不同LoRA-GraLoRA秩分配比例的性能。在秩為16時(shí),部分將秩分配給LoRA導(dǎo)致最佳準(zhǔn)確率。然而,對于更大的秩,將秩分配給LoRA會(huì)導(dǎo)致性能下降。這表明混合GraLoRA在低秩場景中更具優(yōu)勢,在這種情況下,GraLoRA的子塊秩可能不足。相比之下,在高秩設(shè)置下,GraLoRA的子塊足夠表達(dá)豐富,引入LoRA組件可能會(huì)導(dǎo)致梯度糾纏,從而阻礙有效學(xué)習(xí)。

總的來說,GraLoRA代表了參數(shù)高效微調(diào)方法設(shè)計(jì)的一個(gè)原則性和實(shí)用性的進(jìn)步。通過解決傳統(tǒng)LoRA中的表達(dá)性瓶頸,GraLoRA提供了一種更靈活、更強(qiáng)大的適應(yīng)機(jī)制,特別是在處理需要細(xì)粒度、本地化或多面向模式的任務(wù)時(shí)。它的設(shè)計(jì)不僅提高了性能,還保持了LoRA的計(jì)算效率和部署簡便性,使其成為實(shí)際應(yīng)用中的理想選擇。

六、GraLoRA的意義與未來方向

GraLoRA的提出不僅解決了LoRA的根本局限性,還為參數(shù)高效微調(diào)的研究打開了新的方向。通過引入細(xì)粒度、局部化的適應(yīng)機(jī)制,GraLoRA更接近于全參數(shù)微調(diào)的行為,同時(shí)保持了LoRA的參數(shù)效率。

研究團(tuán)隊(duì)指出,雖然GraLoRA提高了梯度局部性和表達(dá)能力,但其當(dāng)前設(shè)計(jì)假設(shè)均勻分區(qū)。未來的擴(kuò)展可能探索自適應(yīng)或?qū)W習(xí)的分區(qū)方案,稀疏感知塊激活,或任務(wù)驅(qū)動(dòng)的動(dòng)態(tài)秩分配。此外,將GraLoRA應(yīng)用于視覺Transformer、多模態(tài)架構(gòu)或持續(xù)學(xué)習(xí)設(shè)置可能進(jìn)一步突顯其在穩(wěn)健和高效模型適應(yīng)中的潛力。

總體而言,GraLoRA代表了PEFT方法設(shè)計(jì)中的一個(gè)原則性和實(shí)用性步驟,填補(bǔ)了全局低秩重參數(shù)化與局部、細(xì)粒度適應(yīng)之間的差距。它不僅在當(dāng)前的任務(wù)上表現(xiàn)出色,還為未來更復(fù)雜、更高效的模型適應(yīng)方法鋪平了道路。

通過這項(xiàng)突破性的研究,我們可以預(yù)見,大型語言模型的定制化將變得更加高效和有效,使更多人能夠利用這些強(qiáng)大的工具來解決特定領(lǐng)域的問題,無論是代碼生成、常識推理還是其他尚未探索的應(yīng)用領(lǐng)域。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-