近日,由浙江大學(xué)、西湖大學(xué)、香港科技大學(xué)和北京大學(xué)的研究團(tuán)隊(duì)聯(lián)合發(fā)表了一篇?jiǎng)?chuàng)新性論文《Taming LLMs by Scaling Learning Rates with Gradient Grouping》。這項(xiàng)研究由西湖大學(xué)的劉子成教授擔(dān)任通訊作者,論文第一作者包括李思遠(yuǎn)、田雋熙和王澤東(三位為共同第一作者)。該論文于2025年6月1日發(fā)布在arXiv預(yù)印本平臺(tái)上(arXiv:2506.01049v1),為大語(yǔ)言模型的訓(xùn)練優(yōu)化提供了一種全新思路。
一、大型語(yǔ)言模型的訓(xùn)練難題與傳統(tǒng)解決方案
想象一下,你是一位教育者,面對(duì)一個(gè)有著數(shù)千名學(xué)生的超大班級(jí)。每個(gè)學(xué)生(就像模型中的參數(shù))都有著不同的學(xué)習(xí)速度和能力。如何高效地教授這樣一個(gè)龐大且差異巨大的班級(jí)?這就是大語(yǔ)言模型(LLM)訓(xùn)練面臨的核心挑戰(zhàn)。
目前的大語(yǔ)言模型往往包含數(shù)十億甚至數(shù)千億個(gè)參數(shù),這些參數(shù)分布在不同的網(wǎng)絡(luò)層次和結(jié)構(gòu)中,就像那個(gè)超大班級(jí)的學(xué)生來(lái)自不同的年級(jí)和專業(yè)。雖然Adam和AdamW等自適應(yīng)優(yōu)化器能夠?yàn)槊總€(gè)參數(shù)單獨(dú)調(diào)整學(xué)習(xí)速度(就像為每個(gè)學(xué)生定制個(gè)性化教學(xué)計(jì)劃),但這種做法面臨著兩個(gè)主要問(wèn)題:一是消耗大量?jī)?nèi)存資源(想象要為每個(gè)學(xué)生準(zhǔn)備完全不同的教材需要多少紙張),二是難以準(zhǔn)確估計(jì)每個(gè)參數(shù)最佳的學(xué)習(xí)速率(難以精確評(píng)估每個(gè)學(xué)生的最佳學(xué)習(xí)節(jié)奏)。
行業(yè)內(nèi)已有多種應(yīng)對(duì)方案。一種是參數(shù)高效微調(diào)(PEFT)方法,如LoRA,它通過(guò)只訓(xùn)練少量參數(shù)來(lái)減少計(jì)算負(fù)擔(dān),就像只選擇班級(jí)里的少數(shù)代表進(jìn)行重點(diǎn)培訓(xùn)。另一種是優(yōu)化器狀態(tài)壓縮方法,如量化或梯度統(tǒng)計(jì)近似,就像將詳細(xì)的學(xué)生檔案簡(jiǎn)化為概要信息。然而,這些方法往往會(huì)帶來(lái)性能下降或在不同任務(wù)中表現(xiàn)不一致的問(wèn)題。
最近的研究發(fā)現(xiàn),大語(yǔ)言模型中不同層的參數(shù)(比如注意力層和MLP層)展現(xiàn)出不同但內(nèi)部一致的優(yōu)化行為模式?;谶@一發(fā)現(xiàn),Adam-mini等方法將模型參數(shù)分為預(yù)定義的組,每組使用一個(gè)平均學(xué)習(xí)率,而不是為每個(gè)參數(shù)單獨(dú)設(shè)置。這種方法雖然減少了計(jì)算負(fù)擔(dān),但也可能損失優(yōu)化精度。
二、SGG方法:集體與個(gè)性的平衡藝術(shù)
西湖大學(xué)團(tuán)隊(duì)提出的解決方案名為"梯度分組縮放"(Scaling with Gradient Grouping,簡(jiǎn)稱SGG),它采取了一種巧妙的平衡策略:既保留了參數(shù)級(jí)別的個(gè)性化優(yōu)化,又引入了組級(jí)別的集體約束。
想象一下,我們不是簡(jiǎn)單地將班級(jí)分成固定的小組,而是根據(jù)學(xué)生們的實(shí)時(shí)學(xué)習(xí)狀態(tài)動(dòng)態(tài)調(diào)整分組,然后為每個(gè)組制定不同的教學(xué)策略,同時(shí)仍然關(guān)注每個(gè)學(xué)生的個(gè)體差異。這就是SGG的核心思想。
具體而言,SGG的工作流程包括兩個(gè)關(guān)鍵步驟:
首先,SGG會(huì)在每一層網(wǎng)絡(luò)中動(dòng)態(tài)地將參數(shù)(確切地說(shuō)是梯度動(dòng)量向量)聚類成若干組。這種聚類是基于參數(shù)優(yōu)化行為的相似性,而不是預(yù)先定義的固定分組。就像一位敏銳的教師根據(jù)學(xué)生的實(shí)時(shí)表現(xiàn)動(dòng)態(tài)調(diào)整學(xué)習(xí)小組,而不是按照固定的座位表或?qū)W號(hào)分組。
其次,SGG為每個(gè)聚類組計(jì)算特定的縮放因子,用于調(diào)整該組內(nèi)所有參數(shù)的學(xué)習(xí)率。這種縮放是基于該組與該層平均水平以及整個(gè)模型全局統(tǒng)計(jì)數(shù)據(jù)的偏差程度來(lái)確定的??梢韵胂鬄椋喝绻唤M學(xué)生的學(xué)習(xí)速度明顯快于班級(jí)平均水平,教師會(huì)適當(dāng)放慢他們的學(xué)習(xí)節(jié)奏,讓他們能更深入地消化知識(shí);反之,對(duì)于學(xué)習(xí)較慢的小組,則會(huì)適當(dāng)加快節(jié)奏,幫助他們趕上進(jìn)度。
重要的是,SGG并不是替換現(xiàn)有的自適應(yīng)學(xué)習(xí)率,而是對(duì)其進(jìn)行縮放調(diào)整。這就像教師在保留個(gè)性化教學(xué)計(jì)劃的同時(shí),增加了班級(jí)層面和學(xué)校層面的整體協(xié)調(diào)機(jī)制,既尊重個(gè)體差異,又確保整體進(jìn)度的一致性。
通過(guò)實(shí)驗(yàn),研究團(tuán)隊(duì)發(fā)現(xiàn),使用動(dòng)量向量而非原始梯度進(jìn)行聚類,以及采用層內(nèi)參數(shù)與層平均值的偏差中位數(shù)(Median of Deviation to Average,簡(jiǎn)稱MDA)作為縮放依據(jù),能夠取得最佳效果。
三、實(shí)驗(yàn)驗(yàn)證:讓數(shù)據(jù)說(shuō)話
SGG的效果如何?研究團(tuán)隊(duì)在多種大語(yǔ)言模型任務(wù)上進(jìn)行了全面驗(yàn)證,包括C4數(shù)據(jù)集上的預(yù)訓(xùn)練、GLUE基準(zhǔn)測(cè)試上的監(jiān)督微調(diào)、常識(shí)推理任務(wù)上的參數(shù)高效微調(diào),以及基于人類偏好的直接優(yōu)化(DPO)等任務(wù)。
在C4預(yù)訓(xùn)練任務(wù)中,SGG與Adam結(jié)合使用時(shí),在各種模型規(guī)模(從6000萬(wàn)到10億參數(shù))上都取得了顯著的性能提升。例如,在60M參數(shù)的模型上,Adam+SGG比原始Adam降低了3.75%的驗(yàn)證困惑度;在10億參數(shù)的模型上,降低了1.26%。更令人驚訝的是,SGG與LoRA結(jié)合使用時(shí),使得低秩預(yù)訓(xùn)練的性能首次達(dá)到了全秩訓(xùn)練的水平,在130M參數(shù)模型上驗(yàn)證困惑度降低了驚人的10.30%。
在GLUE基準(zhǔn)測(cè)試中,AdamW+SGG在全秩訓(xùn)練中平均提升了1.00%的準(zhǔn)確率,在低秩訓(xùn)練(LoRA)中提升了更多,達(dá)到1.27%。特別是在MNLI和RTE等任務(wù)上,性能提升尤為顯著。
在常識(shí)推理任務(wù)上,SGG使LoRA的平均準(zhǔn)確率提高了2.9%,在特定任務(wù)如OBQA上甚至提高了4.2%。這一性能水平超過(guò)了許多現(xiàn)有的PEFT方法,如Prefix、Series和Parallel,甚至接近或超過(guò)了最新的DoRA、GaLore和Fira方法。
在DPO任務(wù)中,AdamW+SGG在LoRA訓(xùn)練中將Qwen2.5 0.5B模型的準(zhǔn)確率提高了1.80%,達(dá)到72.02%,不僅超過(guò)了基線方法,甚至超過(guò)了其全秩訓(xùn)練的對(duì)應(yīng)版本(71.85%)。
在多模態(tài)大語(yǔ)言模型(MLLM)驗(yàn)證中,SGG同樣表現(xiàn)出色。在LLaVA-v1.5上,AdamW+SGG在視覺(jué)問(wèn)答基準(zhǔn)測(cè)試上平均提高了1.0%的準(zhǔn)確率,在VizWiz上甚至提高了3.0%。當(dāng)與Adafactor結(jié)合時(shí),SGG也能帶來(lái)0.6%的平均收益。在LoRA微調(diào)中,SGG提供了平均1.0%的性能提升;在8位量化LoRA(Q-LoRA)中,也帶來(lái)了0.6%的提升。
四、SGG的強(qiáng)大穩(wěn)定性與實(shí)用性
除了性能提升外,SGG還展現(xiàn)出了令人印象深刻的穩(wěn)定性。在不同批次大?。◤?28到4096)和學(xué)習(xí)率(從1e-5到1e-1)的實(shí)驗(yàn)中,SGG始終保持穩(wěn)定的驗(yàn)證損失,即使在極端條件下(如批次大小4096和學(xué)習(xí)率0.1)也能正常工作。這表明SGG能有效地緩解梯度異常值,動(dòng)態(tài)調(diào)整學(xué)習(xí)率,確保在各種配置下的訓(xùn)練穩(wěn)定性。
在實(shí)際應(yīng)用方面,SGG的設(shè)計(jì)非常靈活,可以無(wú)縫集成到現(xiàn)有的優(yōu)化器和PEFT技術(shù)中,無(wú)需更改訓(xùn)練流程或模型架構(gòu)。研究團(tuán)隊(duì)提供了CPU、GPU和混合實(shí)現(xiàn)版本,以滿足不同的需求。雖然在GPU上進(jìn)行在線聚類會(huì)增加顯存負(fù)擔(dān),但將聚類索引和縮放因子存儲(chǔ)在CPU上的實(shí)現(xiàn)方式幾乎不會(huì)增加GPU內(nèi)存消耗,且對(duì)訓(xùn)練時(shí)間的影響可以忽略不計(jì)。
在超參數(shù)選擇方面,SGG也表現(xiàn)出了良好的魯棒性。聚類數(shù)量K可以根據(jù)任務(wù)特點(diǎn)設(shè)為2或3;重聚類間隔T可以設(shè)為總訓(xùn)練迭代次數(shù)的5%左右;縮放衰減率β?=0.99是一個(gè)穩(wěn)健的選擇。
五、SGG的工作原理深度解析
為什么SGG能夠如此有效地提升大語(yǔ)言模型的訓(xùn)練效果?研究團(tuán)隊(duì)的分析揭示了幾個(gè)關(guān)鍵因素:
首先,大語(yǔ)言模型中的梯度分布往往呈現(xiàn)聚類現(xiàn)象,不同層內(nèi)的參數(shù)展現(xiàn)出不同但內(nèi)部一致的優(yōu)化行為。SGG通過(guò)動(dòng)態(tài)聚類捕捉這種自然分組特性,而不是使用預(yù)定義的固定分組。
其次,雖然參數(shù)在組內(nèi)表現(xiàn)出相似性,但它們?nèi)匀淮嬖陲@著的參數(shù)級(jí)差異。SGG不是簡(jiǎn)單地用單一學(xué)習(xí)率替換組內(nèi)所有參數(shù)的學(xué)習(xí)率,而是保留參數(shù)級(jí)自適應(yīng)學(xué)習(xí)率,同時(shí)應(yīng)用組級(jí)縮放進(jìn)行調(diào)整,從而兼顧了個(gè)體差異和集體一致性。
第三,SGG的全局視角幫助緩解了大語(yǔ)言模型訓(xùn)練中常見(jiàn)的問(wèn)題,如不同層之間訓(xùn)練動(dòng)態(tài)的嚴(yán)重差異、梯度爆炸/消失等問(wèn)題。通過(guò)引入全局中位數(shù)偏差作為參考,SGG促進(jìn)了訓(xùn)練的同質(zhì)化,抑制了可能導(dǎo)致破壞性更新的發(fā)散行為。
最后,SGG的動(dòng)態(tài)聚類策略比固定分組更靈活,能夠適應(yīng)訓(xùn)練過(guò)程中參數(shù)行為的變化,就像一位優(yōu)秀教師能夠根據(jù)學(xué)生的實(shí)時(shí)表現(xiàn)調(diào)整教學(xué)策略一樣。
六、研究意義與未來(lái)展望
這項(xiàng)研究的意義遠(yuǎn)不止于提出一種新的優(yōu)化器包裝器。它揭示了一種全新的思路:通過(guò)梯度分組約束來(lái)縮放自適應(yīng)學(xué)習(xí)率,而不是簡(jiǎn)單地替換它們。這種方法在保持參數(shù)級(jí)適應(yīng)性的同時(shí),引入了組級(jí)和全局約束,實(shí)現(xiàn)了微觀優(yōu)化和宏觀協(xié)調(diào)的平衡。
SGG的成功表明,大語(yǔ)言模型訓(xùn)練中存在大量冗余信息,通過(guò)適當(dāng)?shù)姆纸M和縮放策略,可以顯著提高訓(xùn)練效率和效果。特別是它使低秩預(yù)訓(xùn)練首次達(dá)到了全秩訓(xùn)練的性能水平,這對(duì)于資源受限場(chǎng)景下的大模型訓(xùn)練具有重要意義。
展望未來(lái),SGG提供的框架具有高度靈活性,可以探索不同的分組和縮放策略。例如,可以嘗試更精確的在線聚類、基于啟發(fā)式的靜態(tài)分區(qū),或者甚至是學(xué)習(xí)型的分組函數(shù)。此外,SGG的思想也可能擴(kuò)展到更廣泛的應(yīng)用場(chǎng)景,如圖像生成、多模態(tài)學(xué)習(xí)、視覺(jué)骨干網(wǎng)絡(luò)和專家混合體系結(jié)構(gòu)等。
對(duì)于大語(yǔ)言模型訓(xùn)練的從業(yè)者來(lái)說(shuō),SGG提供了一種幾乎"免費(fèi)"的性能提升方案,無(wú)需更改模型架構(gòu)或訓(xùn)練流程,就能獲得更好的訓(xùn)練效果和更快的收斂速度。這種簡(jiǎn)單易用但效果顯著的方法,有望在未來(lái)的大模型訓(xùn)練中得到廣泛應(yīng)用。
總的來(lái)說(shuō),這項(xiàng)由西湖大學(xué)團(tuán)隊(duì)領(lǐng)導(dǎo)的研究不僅提供了一種實(shí)用的技術(shù)解決方案,還為我們理解和優(yōu)化大語(yǔ)言模型訓(xùn)練過(guò)程提供了新的視角。它再次證明,有時(shí)候最有效的改進(jìn)不是來(lái)自復(fù)雜的算法創(chuàng)新,而是來(lái)自對(duì)問(wèn)題本質(zhì)的深刻理解和巧妙的平衡策略。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語(yǔ)言模型的敘事推理能力與音頻生成技術(shù),通過(guò)交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開(kāi)辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過(guò)讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問(wèn)題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語(yǔ)言模型人性化對(duì)話問(wèn)題。該研究創(chuàng)建了包含20萬(wàn)高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過(guò)創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開(kāi)發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過(guò)學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來(lái)了效率和精度的雙重突破。