av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<meter id="zyiuj"></meter>

微信掃一掃，關注公眾號

科技行者
算力行者

見證連接與計算的「力量」

GraLoRA：解決大型語言模型微調瓶頸的突破性方法 — SqueezeBits和POSTECH聯(lián)合研究

人工智能低秩適應參數(shù)高效微調

GraLoRA：解決大型語言模型微調瓶頸的突破性方法 — SqueezeBits和POSTECH聯(lián)合研究

作者：科技行者

2025-05-31 11:41

分享至：

SqueezeBits和POSTECH聯(lián)合研究團隊提出了GraLoRA，一種改進的參數(shù)高效微調方法，解決了傳統(tǒng)LoRA在高秩設置下的表現(xiàn)瓶頸。通過將權重矩陣分解成多個獨立的子塊，每塊配備自己的低秩適配器，GraLoRA有效增加了表達能力并減少了梯度糾纏問題。實驗證明，這種方法在代碼生成任務中提升了高達8.5%的Pass@1準確率，并在常識推理任務中持續(xù)優(yōu)于現(xiàn)有方法。GraLoRA無需額外計算成本，為大型語言模型的定制化提供了更高效的解決方案。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-05-31 11:41 ? 科技行者

在人工智能快速發(fā)展的今天，大型語言模型(LLM)已經成為各種智能應用的核心。但隨著模型規(guī)模的不斷擴大，如何高效地對這些龐然大物進行定制化訓練成為了一個棘手的問題。想象一下，你有一個功能強大的通用工具，但你希望它能更好地完成特定任務——比如寫代碼或解決常識性問題。這就像擁有一把瑞士軍刀，但你需要它的螺絲刀功能更加精準。如何在不更換整把軍刀的情況下，只精確調整螺絲刀部分？這正是參數(shù)高效微調(PEFT)方法嘗試解決的問題。

由SqueezeBits公司的Yeonjoon Jung、Daehyun Ahn、Hyungjun Kim、Taesu Kim和POSTECH大學的Eunhyeok Park共同完成的這項研究發(fā)表于2025年5月的預印本，提出了一種名為"GraLoRA"(Granular Low-Rank Adaptation，顆粒化低秩適應)的新方法，致力于解決現(xiàn)有PEFT方法中的核心限制。該論文可通過arXiv:2505.20355v1獲取。

在深入了解GraLoRA之前，我們需要先理解目前最流行的PEFT方法——LoRA(Low-Rank Adaptation，低秩適應)。LoRA的核心思想非常巧妙：不去修改原始模型的全部參數(shù)（這可能高達數(shù)十億甚至數(shù)千億），而是在原始權重旁邊添加一些小型的"適配器"矩陣。這些適配器通過低秩分解大大減少了需要訓練的參數(shù)數(shù)量，就像是在不改變主體結構的情況下，添加了一些微小但精確的調整裝置。

然而，研究團隊發(fā)現(xiàn)LoRA存在一個根本性的局限：當我們嘗試增加適配器的"秩"（可以理解為這些微調裝置的容量或表達能力）時，模型性能并不會一直提升，反而會在某個點后開始下降。具體來說，LoRA在秩為32-64時表現(xiàn)最佳，但當秩繼續(xù)增加時，準確率開始停滯甚至下降，始終無法達到全參數(shù)微調(FFT)的性能水平。

那么，為什么會出現(xiàn)這種現(xiàn)象呢？研究團隊通過理論分析找到了答案：LoRA的結構設計導致了"梯度糾纏"問題。想象一下，如果你的螺絲刀調整裝置與鋸子調整裝置意外地連接在一起，那么當你調整螺絲刀時，鋸子也會不由自主地發(fā)生變化。在LoRA中，當輸入數(shù)據(jù)中出現(xiàn)一些"異常值"（極端數(shù)值）時，這些異常值會對整個適配器的梯度更新產生不成比例的影響，導致訓練信號被扭曲。

為了解決這個問題，研究團隊提出了GraLoRA方法。與其使用一個整體的適配器，GraLoRA將權重矩陣劃分為多個獨立的小塊（想象將一張大餐桌分成多個小餐桌），每個小塊配備自己的低秩適配器。這種設計有兩個關鍵優(yōu)勢：首先，它提高了表達能力，因為整體的有效秩從r增加到了kr（k是劃分的塊數(shù)）；其次，它局部化了梯度更新，使得輸入異常值只會影響與之直接相關的塊，而不會擾亂整個適配器的訓練。

這就像是將一個大型餐廳的管理分解為多個小型區(qū)域，每個區(qū)域都有自己的經理。當某個區(qū)域出現(xiàn)問題時，只有該區(qū)域的經理需要處理，而不會影響整個餐廳的運營。通過這種方式，GraLoRA能夠更好地處理復雜、多面向的模式，特別是在高秩設置下。

研究團隊在代碼生成和常識推理兩個具有挑戰(zhàn)性的任務上對GraLoRA進行了全面評估。在代碼生成任務上，GraLoRA在所有測試的秩設置中都優(yōu)于LoRA和其他基線方法。特別是在秩為128時，GraLoRA在HumanEval+基準測試的Pass@1指標上取得了相對于LoRA絕對提升8.5%的顯著成果。在常識推理任務上，GraLoRA同樣展現(xiàn)出優(yōu)異性能，在各種模型規(guī)模和任務上一致超越了現(xiàn)有方法。

值得注意的是，GraLoRA實現(xiàn)了這些改進的同時，并沒有增加計算或存儲成本。雖然在訓練過程中會有輕微的內存開銷增加（由于中間表示變大），但這可以通過梯度檢查點等技術有效緩解。在推理階段，GraLoRA可以像傳統(tǒng)LoRA一樣合并到原始權重中，不會帶來任何額外開銷。

研究團隊還針對不同的秩設置探索了最佳的塊數(shù)選擇策略。他們發(fā)現(xiàn)，在低秩設置（如16和32）下，k=2效果最好；而在高秩設置（如64和128）下，k=4表現(xiàn)最佳。對于非常低的秩（16或更低），他們還提出了一種混合方法，將部分秩分配給傳統(tǒng)LoRA，部分分配給GraLoRA，以維持足夠的表達能力。

一、GraLoRA方法的原理與設計

想象一下，你正在管理一個大型圖書館。傳統(tǒng)的全參數(shù)微調就像是重新排列整個圖書館的每一本書，非常耗時且成本高昂。而LoRA則相當于只在主要書架旁邊添加一些小型展示架，放置一些特別需要強調的書籍。這種方法雖然高效，但存在一個問題：當某個展示架上放了一本特別突出的書（比如一本特別厚重或色彩鮮艷的書），它會吸引所有人的注意力，導致其他書籍被忽視。

GraLoRA采用了一種不同的方法。它不是設置一個大型展示架，而是將圖書館劃分為多個獨立的區(qū)域，每個區(qū)域都有自己的小型展示架。這樣，即使某個區(qū)域有一本特別引人注目的書，它也只會影響該區(qū)域的參觀者，而不會干擾其他區(qū)域的正常瀏覽體驗。

從技術角度來看，GraLoRA將原始權重矩陣W?∈R???（M和N分別代表輸出和輸入通道維度）劃分為k×k個獨立的塊，每個塊都配備自己的低秩適配器。具體來說，對于輸入X，GraLoRA的更新可以表示為：

RGraLoRA = [[B?,?A?,??, ..., B?,?A?,??], [..., ..., ...], [B?,?A?,??, ..., B?,?A?,??]]

其中，A_i,j ∈ R^(N/k × r/k)，B_i,j ∈ R^(M/k × r/k)是每個塊的適配器參數(shù)。

這種設計帶來了兩個關鍵優(yōu)勢。首先，通過表達能力分析，研究團隊證明了GraLoRA的有效秩為kr，是傳統(tǒng)LoRA的k倍。這意味著GraLoRA能夠捕捉更復雜、更細粒度的模式。其次，在面對輸入異常值時，GraLoRA能夠有效地局部化梯度影響。當輸入中出現(xiàn)異常值時，只有與該異常值直接相關的k個適配器對會受到放大的梯度影響，而其余的k?-k個適配器對則保持在基線水平附近，這與全參數(shù)微調的行為更為相似。

研究人員通過分析LLaMA3.1-8B模型的第一層下投影矩陣發(fā)現(xiàn)，輸入激活值存在嚴重的通道不平衡現(xiàn)象。某些通道的值異常高，這些"異常值通道"在傳統(tǒng)LoRA中會不成比例地影響整個適配器的梯度更新，導致訓練信號扭曲。通過可視化梯度分布，研究團隊清晰地展示了GraLoRA如何有效減少梯度偏差，限制異常值通道的影響。

二、GraLoRA的計算與內存開銷分析

你可能會擔心，這種細粒度的適配器設計是否會帶來額外的計算或存儲開銷？研究團隊進行了詳細的分析，結果令人驚喜。

在計算復雜度方面，傳統(tǒng)LoRA將計算分為兩個順序步驟：首先計算A^TX ∈ R^(r×T)，然后重構B(A^TX) ∈ R^(M×T)。這兩個步驟分別需要2NrT和2rMT的浮點運算（FLOPs），總體復雜度為O(r(M+N)T)。

同樣，GraLoRA也將計算分為兩個步驟，涉及k?個適配器塊。在第一步中，每個塊計算A_i,j^TX_j ∈ R^(r/k×T)，總計算成本為2NrT。在第二步中，每個中間輸出由相應的B_i,j處理，產生B_i,j(A_i,j^TX_j) ∈ R^(M/k×T)，這一步增加了2rMT的FLOPs。因此，GraLoRA的整體計算復雜度仍然是O(r(M+N)T)，與傳統(tǒng)LoRA相當。

在存儲開銷方面，GraLoRA與LoRA一樣，可以在推理階段合并到原始權重矩陣中。在訓練過程中，雖然中間潛在表示A_GraLoRA^TX變?yōu)閭鹘y(tǒng)LoRA中A^TX的k倍，但考慮到秩r通常遠小于輸入和輸出維度，這種額外的內存消耗在實際應用中可以忽略不計。研究團隊的實驗表明，即使對于較大的k值，GraLoRA的額外內存需求也很小，而且可以通過梯度檢查點等技術進一步減少。

三、混合GraLoRA：平衡表達能力與精度

研究團隊注意到，雖然GraLoRA在高秩設置下表現(xiàn)優(yōu)異，但在非常低的秩（如16或更低）時，可能會出現(xiàn)性能下降或僅帶來微小的收益。這是因為將每個塊的秩限制為r/k可能會削弱單個塊的表達能力。

為了解決這個問題，研究團隊提出了一種混合方法，結合了LoRA和GraLoRA的優(yōu)勢。這種方法保留了GraLoRA的細粒度輸入處理和增加的總秩，同時通過LoRA保持了較大塊單元的表達能力。由于LoRA在行和列之間共享相同的參數(shù)，它可以自然地以級聯(lián)形式與GraLoRA集成，這被稱為混合GraLoRA。

通過實驗，研究團隊發(fā)現(xiàn)，在低秩場景（γ <= 16）中，將總秩的最多1/2分配給LoRA組件可以緩解GraLoRA的局限性；而在高秩情況下，將全部秩分配給GraLoRA表現(xiàn)更好。這種靈活的方法使得GraLoRA能夠適應不同的任務和模型大小。

四、實驗結果：代碼生成與常識推理

為了驗證GraLoRA的有效性，研究團隊在兩個具有挑戰(zhàn)性的領域進行了廣泛的實驗：代碼生成和常識推理。他們使用了不同架構和規(guī)模的開源LLM，包括LLaMA3.1-8B、LLaMA3.1-70B、Qwen-2.5-1.5B和Qwen-2.5-7B。

在代碼生成任務中，研究團隊在Magicoder-Evol-Instruct-110k數(shù)據(jù)集上對各個模型進行了微調，并在HumanEval+測試集上進行評估。結果顯示，GraLoRA在所有測試的秩設置中都優(yōu)于LoRA、MoRA和RaSA。在秩為64時，GraLoRA在Pass@1上取得了相對于LoRA的+2.4%的絕對提升，在Pass@5和Pass@10上分別提高了+4.8%和+4.1%。在秩為128時，提升更為顯著，Pass@1增加了+8.5%，Pass@5增加了+6.9%，Pass@10增加了+5.1%。

值得注意的是，雖然其他方法在增加秩時往往會遇到性能瓶頸（通常在較低的秩處達到性能平臺），但GraLoRA能夠保持一致的上升軌跡，有效克服了LoRA的局限性。即使在低秩設置（如秩為16）下，混合變體的GraLoRA也表現(xiàn)出色，證明了這種方法在表達能力受限的情況下的有效性。

在常識推理任務中，研究團隊評估了各種模型在8個基準測試上的表現(xiàn)：BoolQ、PIQA、SIQA、HellaSwag、WinoGrande、ARC-Challenge、ARC-Easy和OpenBookQA。實驗結果表明，GraLoRA在不同規(guī)模的模型上都取得了一致的優(yōu)勢，在Qwen2.5-1.5B和LLaMA3.1-70B上平均準確率提高了1.1%，在Qwen2.5-7B上提高了0.9%。

更令人印象深刻的是，GraLoRA在24個任務中的20個上取得了最佳結果，一致地超越了其他方法。這些結果支持了研究團隊的分析，表明GraLoRA的局部化更新增強了與全參數(shù)微調的對齊，促進了在多方面推理任務中的穩(wěn)健泛化。

五、消融研究：參數(shù)選擇與模型行為

為了更深入地理解GraLoRA的行為，研究團隊進行了詳細的消融研究。他們評估了不同k值對代碼生成準確率的影響，發(fā)現(xiàn)在秩為32時，k=2效果最好；而在秩為128時，k=4表現(xiàn)最佳。這些結果與理論預測一致，即在較低的秩時，較小的k值更可取，因為減少的子塊秩在總體秩有限時尤其不利。

研究團隊還評估了混合GraLoRA中不同LoRA-GraLoRA秩分配比例的性能。在秩為16時，部分將秩分配給LoRA導致最佳準確率。然而，對于更大的秩，將秩分配給LoRA會導致性能下降。這表明混合GraLoRA在低秩場景中更具優(yōu)勢，在這種情況下，GraLoRA的子塊秩可能不足。相比之下，在高秩設置下，GraLoRA的子塊足夠表達豐富，引入LoRA組件可能會導致梯度糾纏，從而阻礙有效學習。

總的來說，GraLoRA代表了參數(shù)高效微調方法設計的一個原則性和實用性的進步。通過解決傳統(tǒng)LoRA中的表達性瓶頸，GraLoRA提供了一種更靈活、更強大的適應機制，特別是在處理需要細粒度、本地化或多面向模式的任務時。它的設計不僅提高了性能，還保持了LoRA的計算效率和部署簡便性，使其成為實際應用中的理想選擇。

六、GraLoRA的意義與未來方向

GraLoRA的提出不僅解決了LoRA的根本局限性，還為參數(shù)高效微調的研究打開了新的方向。通過引入細粒度、局部化的適應機制，GraLoRA更接近于全參數(shù)微調的行為，同時保持了LoRA的參數(shù)效率。

研究團隊指出，雖然GraLoRA提高了梯度局部性和表達能力，但其當前設計假設均勻分區(qū)。未來的擴展可能探索自適應或學習的分區(qū)方案，稀疏感知塊激活，或任務驅動的動態(tài)秩分配。此外，將GraLoRA應用于視覺Transformer、多模態(tài)架構或持續(xù)學習設置可能進一步突顯其在穩(wěn)健和高效模型適應中的潛力。

總體而言，GraLoRA代表了PEFT方法設計中的一個原則性和實用性步驟，填補了全局低秩重參數(shù)化與局部、細粒度適應之間的差距。它不僅在當前的任務上表現(xiàn)出色，還為未來更復雜、更高效的模型適應方法鋪平了道路。

通過這項突破性的研究，我們可以預見，大型語言模型的定制化將變得更加高效和有效，使更多人能夠利用這些強大的工具來解決特定領域的問題，無論是代碼生成、常識推理還是其他尚未探索的應用領域。

人工智能低秩適應參數(shù)高效微調

分享至

0贊

好文章，需要你的鼓勵

推薦文章

音頻生成
大語言模型
多模態(tài)AI

2025-09-10 09:47

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實驗室團隊AudioStory突破性進展

騰訊ARC實驗室推出AudioStory系統(tǒng)，首次實現(xiàn)AI根據(jù)復雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結合大語言模型的敘事推理能力與音頻生成技術，通過交錯式推理生成、解耦橋接機制和漸進式訓練，能夠將復雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準測試中表現(xiàn)優(yōu)異，為AI音頻創(chuàng)作開辟新方向。
視頻生成
深度學習
多模態(tài)學習

2025-09-09 13:57

Meta與特拉維夫大學聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

Meta與特拉維夫大學聯(lián)合研發(fā)的VideoJAM技術，通過讓AI同時學習外觀和運動信息，顯著解決了當前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術僅需添加兩個線性層就能大幅提升運動質量，在多項測試中超越包括Sora在內的商業(yè)模型，為AI視頻生成的實用化應用奠定了重要基礎。
多模態(tài)AI
人類價值觀對齊
數(shù)據(jù)集構建

2025-09-09 13:56

上海AI實驗室重磅發(fā)布：讓AI看圖"說人話"的神奇訓練法，解決多模態(tài)AI與人類價值觀對齊難題

上海AI實驗室發(fā)布OmniAlign-V研究，首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質量樣本的訓練數(shù)據(jù)集和MM-AlignBench評測基準，通過創(chuàng)新的數(shù)據(jù)生成和質量管控方法，讓AI在保持技術能力的同時顯著提升人性化交互水平，為AI價值觀對齊提供了可行技術路徑。
人工智能
圖神經網(wǎng)絡
天氣預報

2025-09-09 10:56

谷歌研究團隊發(fā)布超級預測模型：讓AI像天氣預報員一樣預測全球大氣變化

谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預測模型，能夠在不到一分鐘內完成10天全球天氣預報，準確性超越傳統(tǒng)方法90%的指標。該模型采用圖神經網(wǎng)絡技術，通過學習40年歷史數(shù)據(jù)掌握天氣變化規(guī)律，在極端天氣預測方面表現(xiàn)卓越，能耗僅為傳統(tǒng)方法的千分之一，為氣象學領域帶來了效率和精度的雙重突破。

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實驗室團隊AudioStory突破性進展

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實驗室團隊AudioStory突破性進展

2025-09-10 09:47

Meta與特拉維夫大學聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

Meta與特拉維夫大學聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

2025-09-09 13:57

上海AI實驗室重磅發(fā)布：讓AI看圖"說人話"的神奇訓練法，解決多模態(tài)AI與人類價值觀對齊難題

上海AI實驗室重磅發(fā)布：讓AI看圖"說人話"的神奇訓練法，解決多模態(tài)AI與人類價值觀對齊難題

2025-09-09 13:56

谷歌研究團隊發(fā)布超級預測模型：讓AI像天氣預報員一樣預測全球大氣變化

谷歌研究團隊發(fā)布超級預測模型：讓AI像天氣預報員一樣預測全球大氣變化

2025-09-09 10:56

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時代

京ICP證15039648號京ICP備15039648號-9 京公網(wǎng)安備 11010802021500號

北京第二十六維信息技術有限公司（至頂網(wǎng)）版權所有。 | 聯(lián)絡我們

舉報電話：010-62641205　涉未成年人舉報專線：010-62641208 舉報郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報專區(qū)：https://www.12377.cn

<sub id="tz368"></sub>

<blockquote id="tz368"><p id="tz368"></p></blockquote>

<legend id="tz368"></legend>