近日,由浙江大學(xué)、西湖大學(xué)、香港科技大學(xué)和北京大學(xué)的研究團隊聯(lián)合發(fā)表了一篇創(chuàng)新性論文《Taming LLMs by Scaling Learning Rates with Gradient Grouping》。這項研究由西湖大學(xué)的劉子成教授擔(dān)任通訊作者,論文第一作者包括李思遠、田雋熙和王澤東(三位為共同第一作者)。該論文于2025年6月1日發(fā)布在arXiv預(yù)印本平臺上(arXiv:2506.01049v1),為大語言模型的訓(xùn)練優(yōu)化提供了一種全新思路。
一、大型語言模型的訓(xùn)練難題與傳統(tǒng)解決方案
想象一下,你是一位教育者,面對一個有著數(shù)千名學(xué)生的超大班級。每個學(xué)生(就像模型中的參數(shù))都有著不同的學(xué)習(xí)速度和能力。如何高效地教授這樣一個龐大且差異巨大的班級?這就是大語言模型(LLM)訓(xùn)練面臨的核心挑戰(zhàn)。
目前的大語言模型往往包含數(shù)十億甚至數(shù)千億個參數(shù),這些參數(shù)分布在不同的網(wǎng)絡(luò)層次和結(jié)構(gòu)中,就像那個超大班級的學(xué)生來自不同的年級和專業(yè)。雖然Adam和AdamW等自適應(yīng)優(yōu)化器能夠為每個參數(shù)單獨調(diào)整學(xué)習(xí)速度(就像為每個學(xué)生定制個性化教學(xué)計劃),但這種做法面臨著兩個主要問題:一是消耗大量內(nèi)存資源(想象要為每個學(xué)生準備完全不同的教材需要多少紙張),二是難以準確估計每個參數(shù)最佳的學(xué)習(xí)速率(難以精確評估每個學(xué)生的最佳學(xué)習(xí)節(jié)奏)。
行業(yè)內(nèi)已有多種應(yīng)對方案。一種是參數(shù)高效微調(diào)(PEFT)方法,如LoRA,它通過只訓(xùn)練少量參數(shù)來減少計算負擔(dān),就像只選擇班級里的少數(shù)代表進行重點培訓(xùn)。另一種是優(yōu)化器狀態(tài)壓縮方法,如量化或梯度統(tǒng)計近似,就像將詳細的學(xué)生檔案簡化為概要信息。然而,這些方法往往會帶來性能下降或在不同任務(wù)中表現(xiàn)不一致的問題。
最近的研究發(fā)現(xiàn),大語言模型中不同層的參數(shù)(比如注意力層和MLP層)展現(xiàn)出不同但內(nèi)部一致的優(yōu)化行為模式?;谶@一發(fā)現(xiàn),Adam-mini等方法將模型參數(shù)分為預(yù)定義的組,每組使用一個平均學(xué)習(xí)率,而不是為每個參數(shù)單獨設(shè)置。這種方法雖然減少了計算負擔(dān),但也可能損失優(yōu)化精度。
二、SGG方法:集體與個性的平衡藝術(shù)
西湖大學(xué)團隊提出的解決方案名為"梯度分組縮放"(Scaling with Gradient Grouping,簡稱SGG),它采取了一種巧妙的平衡策略:既保留了參數(shù)級別的個性化優(yōu)化,又引入了組級別的集體約束。
想象一下,我們不是簡單地將班級分成固定的小組,而是根據(jù)學(xué)生們的實時學(xué)習(xí)狀態(tài)動態(tài)調(diào)整分組,然后為每個組制定不同的教學(xué)策略,同時仍然關(guān)注每個學(xué)生的個體差異。這就是SGG的核心思想。
具體而言,SGG的工作流程包括兩個關(guān)鍵步驟:
首先,SGG會在每一層網(wǎng)絡(luò)中動態(tài)地將參數(shù)(確切地說是梯度動量向量)聚類成若干組。這種聚類是基于參數(shù)優(yōu)化行為的相似性,而不是預(yù)先定義的固定分組。就像一位敏銳的教師根據(jù)學(xué)生的實時表現(xiàn)動態(tài)調(diào)整學(xué)習(xí)小組,而不是按照固定的座位表或?qū)W號分組。
其次,SGG為每個聚類組計算特定的縮放因子,用于調(diào)整該組內(nèi)所有參數(shù)的學(xué)習(xí)率。這種縮放是基于該組與該層平均水平以及整個模型全局統(tǒng)計數(shù)據(jù)的偏差程度來確定的??梢韵胂鬄椋喝绻唤M學(xué)生的學(xué)習(xí)速度明顯快于班級平均水平,教師會適當(dāng)放慢他們的學(xué)習(xí)節(jié)奏,讓他們能更深入地消化知識;反之,對于學(xué)習(xí)較慢的小組,則會適當(dāng)加快節(jié)奏,幫助他們趕上進度。
重要的是,SGG并不是替換現(xiàn)有的自適應(yīng)學(xué)習(xí)率,而是對其進行縮放調(diào)整。這就像教師在保留個性化教學(xué)計劃的同時,增加了班級層面和學(xué)校層面的整體協(xié)調(diào)機制,既尊重個體差異,又確保整體進度的一致性。
通過實驗,研究團隊發(fā)現(xiàn),使用動量向量而非原始梯度進行聚類,以及采用層內(nèi)參數(shù)與層平均值的偏差中位數(shù)(Median of Deviation to Average,簡稱MDA)作為縮放依據(jù),能夠取得最佳效果。
三、實驗驗證:讓數(shù)據(jù)說話
SGG的效果如何?研究團隊在多種大語言模型任務(wù)上進行了全面驗證,包括C4數(shù)據(jù)集上的預(yù)訓(xùn)練、GLUE基準測試上的監(jiān)督微調(diào)、常識推理任務(wù)上的參數(shù)高效微調(diào),以及基于人類偏好的直接優(yōu)化(DPO)等任務(wù)。
在C4預(yù)訓(xùn)練任務(wù)中,SGG與Adam結(jié)合使用時,在各種模型規(guī)模(從6000萬到10億參數(shù))上都取得了顯著的性能提升。例如,在60M參數(shù)的模型上,Adam+SGG比原始Adam降低了3.75%的驗證困惑度;在10億參數(shù)的模型上,降低了1.26%。更令人驚訝的是,SGG與LoRA結(jié)合使用時,使得低秩預(yù)訓(xùn)練的性能首次達到了全秩訓(xùn)練的水平,在130M參數(shù)模型上驗證困惑度降低了驚人的10.30%。
在GLUE基準測試中,AdamW+SGG在全秩訓(xùn)練中平均提升了1.00%的準確率,在低秩訓(xùn)練(LoRA)中提升了更多,達到1.27%。特別是在MNLI和RTE等任務(wù)上,性能提升尤為顯著。
在常識推理任務(wù)上,SGG使LoRA的平均準確率提高了2.9%,在特定任務(wù)如OBQA上甚至提高了4.2%。這一性能水平超過了許多現(xiàn)有的PEFT方法,如Prefix、Series和Parallel,甚至接近或超過了最新的DoRA、GaLore和Fira方法。
在DPO任務(wù)中,AdamW+SGG在LoRA訓(xùn)練中將Qwen2.5 0.5B模型的準確率提高了1.80%,達到72.02%,不僅超過了基線方法,甚至超過了其全秩訓(xùn)練的對應(yīng)版本(71.85%)。
在多模態(tài)大語言模型(MLLM)驗證中,SGG同樣表現(xiàn)出色。在LLaVA-v1.5上,AdamW+SGG在視覺問答基準測試上平均提高了1.0%的準確率,在VizWiz上甚至提高了3.0%。當(dāng)與Adafactor結(jié)合時,SGG也能帶來0.6%的平均收益。在LoRA微調(diào)中,SGG提供了平均1.0%的性能提升;在8位量化LoRA(Q-LoRA)中,也帶來了0.6%的提升。
四、SGG的強大穩(wěn)定性與實用性
除了性能提升外,SGG還展現(xiàn)出了令人印象深刻的穩(wěn)定性。在不同批次大?。◤?28到4096)和學(xué)習(xí)率(從1e-5到1e-1)的實驗中,SGG始終保持穩(wěn)定的驗證損失,即使在極端條件下(如批次大小4096和學(xué)習(xí)率0.1)也能正常工作。這表明SGG能有效地緩解梯度異常值,動態(tài)調(diào)整學(xué)習(xí)率,確保在各種配置下的訓(xùn)練穩(wěn)定性。
在實際應(yīng)用方面,SGG的設(shè)計非常靈活,可以無縫集成到現(xiàn)有的優(yōu)化器和PEFT技術(shù)中,無需更改訓(xùn)練流程或模型架構(gòu)。研究團隊提供了CPU、GPU和混合實現(xiàn)版本,以滿足不同的需求。雖然在GPU上進行在線聚類會增加顯存負擔(dān),但將聚類索引和縮放因子存儲在CPU上的實現(xiàn)方式幾乎不會增加GPU內(nèi)存消耗,且對訓(xùn)練時間的影響可以忽略不計。
在超參數(shù)選擇方面,SGG也表現(xiàn)出了良好的魯棒性。聚類數(shù)量K可以根據(jù)任務(wù)特點設(shè)為2或3;重聚類間隔T可以設(shè)為總訓(xùn)練迭代次數(shù)的5%左右;縮放衰減率β?=0.99是一個穩(wěn)健的選擇。
五、SGG的工作原理深度解析
為什么SGG能夠如此有效地提升大語言模型的訓(xùn)練效果?研究團隊的分析揭示了幾個關(guān)鍵因素:
首先,大語言模型中的梯度分布往往呈現(xiàn)聚類現(xiàn)象,不同層內(nèi)的參數(shù)展現(xiàn)出不同但內(nèi)部一致的優(yōu)化行為。SGG通過動態(tài)聚類捕捉這種自然分組特性,而不是使用預(yù)定義的固定分組。
其次,雖然參數(shù)在組內(nèi)表現(xiàn)出相似性,但它們?nèi)匀淮嬖陲@著的參數(shù)級差異。SGG不是簡單地用單一學(xué)習(xí)率替換組內(nèi)所有參數(shù)的學(xué)習(xí)率,而是保留參數(shù)級自適應(yīng)學(xué)習(xí)率,同時應(yīng)用組級縮放進行調(diào)整,從而兼顧了個體差異和集體一致性。
第三,SGG的全局視角幫助緩解了大語言模型訓(xùn)練中常見的問題,如不同層之間訓(xùn)練動態(tài)的嚴重差異、梯度爆炸/消失等問題。通過引入全局中位數(shù)偏差作為參考,SGG促進了訓(xùn)練的同質(zhì)化,抑制了可能導(dǎo)致破壞性更新的發(fā)散行為。
最后,SGG的動態(tài)聚類策略比固定分組更靈活,能夠適應(yīng)訓(xùn)練過程中參數(shù)行為的變化,就像一位優(yōu)秀教師能夠根據(jù)學(xué)生的實時表現(xiàn)調(diào)整教學(xué)策略一樣。
六、研究意義與未來展望
這項研究的意義遠不止于提出一種新的優(yōu)化器包裝器。它揭示了一種全新的思路:通過梯度分組約束來縮放自適應(yīng)學(xué)習(xí)率,而不是簡單地替換它們。這種方法在保持參數(shù)級適應(yīng)性的同時,引入了組級和全局約束,實現(xiàn)了微觀優(yōu)化和宏觀協(xié)調(diào)的平衡。
SGG的成功表明,大語言模型訓(xùn)練中存在大量冗余信息,通過適當(dāng)?shù)姆纸M和縮放策略,可以顯著提高訓(xùn)練效率和效果。特別是它使低秩預(yù)訓(xùn)練首次達到了全秩訓(xùn)練的性能水平,這對于資源受限場景下的大模型訓(xùn)練具有重要意義。
展望未來,SGG提供的框架具有高度靈活性,可以探索不同的分組和縮放策略。例如,可以嘗試更精確的在線聚類、基于啟發(fā)式的靜態(tài)分區(qū),或者甚至是學(xué)習(xí)型的分組函數(shù)。此外,SGG的思想也可能擴展到更廣泛的應(yīng)用場景,如圖像生成、多模態(tài)學(xué)習(xí)、視覺骨干網(wǎng)絡(luò)和專家混合體系結(jié)構(gòu)等。
對于大語言模型訓(xùn)練的從業(yè)者來說,SGG提供了一種幾乎"免費"的性能提升方案,無需更改模型架構(gòu)或訓(xùn)練流程,就能獲得更好的訓(xùn)練效果和更快的收斂速度。這種簡單易用但效果顯著的方法,有望在未來的大模型訓(xùn)練中得到廣泛應(yīng)用。
總的來說,這項由西湖大學(xué)團隊領(lǐng)導(dǎo)的研究不僅提供了一種實用的技術(shù)解決方案,還為我們理解和優(yōu)化大語言模型訓(xùn)練過程提供了新的視角。它再次證明,有時候最有效的改進不是來自復(fù)雜的算法創(chuàng)新,而是來自對問題本質(zhì)的深刻理解和巧妙的平衡策略。
好文章,需要你的鼓勵
新加坡國立大學(xué)研究團隊開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實驗顯示,僅訓(xùn)練AI玩簡單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟大學(xué)團隊開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實現(xiàn)37.9%的精度提升,并在真實設(shè)備上展現(xiàn)出色泛化能力,為機器人、AR和自動駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團隊通過對比實驗發(fā)現(xiàn),經(jīng)過強化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時刻"現(xiàn)象,但這些自我糾錯行為并不能實際提升推理準確率。研究揭示了AI模型存在"生成-驗證差距",即生成答案的能力強于驗證答案質(zhì)量的能力,且模型在自我驗證時無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動態(tài)稀疏性實現(xiàn)大語言模型訓(xùn)練加速1.6倍,計算成本降低2.2倍。該方法使用SVD稀疏性估計器智能選擇重要計算部分,在保持模型性能的同時顯著提升訓(xùn)練效率,已在多個任務(wù)上驗證有效性。