在人工智能領(lǐng)域,一個引人注目的問題正困擾著研究人員和企業(yè):如何讓小型語言模型(SLM)擁有大型語言模型(LLM)的聰明頭腦,同時又不需要消耗天量的計算資源?這就像是想讓一輛緊湊型汽車擁有跑車的性能,卻不需要耗費(fèi)昂貴的燃油。近日,來自哈爾濱工業(yè)大學(xué)深圳校區(qū)的賈泰浩、黃強(qiáng)和于軍,聯(lián)合百度公司的劉浩、肖新燕以及萊頓大學(xué)的任召春發(fā)表了一篇題為《一個字值上千個字:通過低秩克隆實現(xiàn)高效知識蒸餾》的研究論文,為這個問題提供了一個創(chuàng)新的解決方案。該論文已提交審閱,將可能在2025年5月發(fā)表。
想象一下,現(xiàn)在最先進(jìn)的小型語言模型如Llama-3.2-3B和Qwen3-1.7B,需要分別處理9萬億和36萬億個文本單元(稱為"token")才能達(dá)到令人滿意的性能。這就像是要讀完地球上所有圖書館的書才能獲得足夠的知識。而這篇研究的神奇之處在于,研究團(tuán)隊開發(fā)的"低秩克隆"(Low-Rank Clone,簡稱LRC)技術(shù)只需要處理100億至200億個文本單元,就能達(dá)到甚至超越這些模型的性能,效率提升了驚人的1000倍以上!
現(xiàn)有的知識蒸餾方法(從大模型向小模型轉(zhuǎn)移知識的技術(shù))面臨三個主要挑戰(zhàn):一是硬剪枝(直接刪除模型中"不重要"的神經(jīng)元)會導(dǎo)致信息丟失;二是表示對齊效率低下(需要額外的映射層來匹配大小模型的內(nèi)部狀態(tài));三是信息豐富的前饋網(wǎng)絡(luò)(FFN)激活信號被嚴(yán)重忽視。就像一個學(xué)生試圖從老師那里學(xué)習(xí),但是只能聽到老師講話的一半,還需要一個翻譯來解釋老師的話,同時還忽略了老師寫在黑板上的重要內(nèi)容。
研究團(tuán)隊提出的低秩克隆技術(shù)巧妙地解決了這些問題。LRC不是簡單地刪減神經(jīng)元,而是通過一組可訓(xùn)練的低秩投影矩陣,將教師模型的權(quán)重壓縮到學(xué)生模型的空間中,同時確保學(xué)生模型的中間激活與教師模型的相匹配。這就像給學(xué)生配備了一個特殊的學(xué)習(xí)設(shè)備,既能完整捕捉老師所有的講解內(nèi)容,又能將復(fù)雜的知識轉(zhuǎn)化為學(xué)生能理解的形式,而且不會丟失任何重要信息。
最令人印象深刻的是,使用LRC技術(shù)訓(xùn)練的模型在標(biāo)準(zhǔn)基準(zhǔn)測試中表現(xiàn)出色。例如,LRC-1.7B模型(使用Qwen2.5-3B作為教師)在僅處理200億個文本單元后,就在平均準(zhǔn)確率上超過了Qwen3-1.7B(64.98% vs 63.17%),而后者需要處理36萬億個文本單元。同樣,LRC-4B模型(使用Qwen2.5-7B作為教師)也達(dá)到了與Qwen3-4B相當(dāng)?shù)男阅堋?/p>
接下來,讓我們深入了解這項突破性技術(shù)的工作原理和詳細(xì)研究結(jié)果。
一、低秩克隆:如何讓小模型學(xué)會大模型的本領(lǐng)
低秩克?。↙RC)可以類比為一種高效的知識傳授過程,在這個過程中,一個經(jīng)驗豐富的教師(大型語言模型)將其所有知識傳授給一個年輕的學(xué)生(小型語言模型)。與傳統(tǒng)教學(xué)不同,LRC采用了兩個關(guān)鍵步驟確保知識傳遞的高效性和完整性。
首先是"低秩投影"步驟。傳統(tǒng)方法通常是直接刪除模型中被認(rèn)為不重要的部分,就像從厚厚的教科書中撕掉一些"不太重要"的章節(jié)。這種做法顯然會導(dǎo)致信息丟失。而LRC采用了完全不同的方法:它訓(xùn)練一組低秩投影矩陣,這些矩陣能夠?qū)⒔處熌P偷臋?quán)重壓縮到更小的空間,同時保留關(guān)鍵信息。這就像是把一部厚重的百科全書濃縮成一本精簡版,但不是簡單地刪除內(nèi)容,而是通過巧妙的編排,確保所有重要知識都以更緊湊的形式保留下來。
具體來說,對于教師模型中的每一層(包括注意力機(jī)制和前饋網(wǎng)絡(luò)),LRC都會通過相應(yīng)的低秩投影矩陣生成學(xué)生模型的權(quán)重:W^S_{m,i} = W^T_{m,i}W^p_{m,i},其中W^T_{m,i}是教師模型在第i層的權(quán)重矩陣,W^p_{m,i}是相應(yīng)的低秩投影矩陣,而W^S_{m,i}是生成的學(xué)生模型權(quán)重。同樣的方法也適用于詞嵌入和語言模型頭部的權(quán)重。
第二個關(guān)鍵步驟是"激活克隆"。在傳統(tǒng)方法中,研究人員主要關(guān)注對齊模型的注意力分?jǐn)?shù),而忽略了前饋網(wǎng)絡(luò)中包含的豐富信息。LRC通過對齊多種中間激活來克服這一限制,包括注意力機(jī)制和前饋網(wǎng)絡(luò)的輸入投影和輸出。這就像不僅要學(xué)習(xí)老師的結(jié)論,還要理解老師的思考過程。LRC使用均方誤差損失來確保學(xué)生模型的激活與教師模型的激活盡可能相似。
值得一提的是,LRC具有一個獨(dú)特的"無需對齊"特性。傳統(tǒng)的特征蒸餾方法需要額外的對齊矩陣來處理學(xué)生和教師模型之間的維度不匹配問題。而在LRC中,用于生成學(xué)生權(quán)重的相同低秩投影矩陣也可以直接用于對齊激活,無需額外的對齊模塊。這大大簡化了訓(xùn)練過程,并提高了蒸餾效率。
研究團(tuán)隊以數(shù)學(xué)方式證明了這一特性。以前饋網(wǎng)絡(luò)為例,當(dāng)學(xué)生模型的中間激活(h^S_{up,i}和h^S_{gate,i})與教師模型的相應(yīng)激活完全匹配時,學(xué)生的前饋網(wǎng)絡(luò)輸出將與教師輸出通過同一投影矩陣傳遞的結(jié)果完全相同。這種"無需對齊"的設(shè)計不僅提高了訓(xùn)練效率,還增強(qiáng)了知識轉(zhuǎn)移的質(zhì)量。
綜合這兩個關(guān)鍵步驟,LRC創(chuàng)建了一個統(tǒng)一的框架,同時執(zhí)行軟剪枝(通過壓縮教師權(quán)重)和知識蒸餾(通過對齊激活)。這種方法能夠保留教師模型的大部分知識,同時顯著減少訓(xùn)練開銷。
二、實驗設(shè)置與模型訓(xùn)練:如何讓理論變?yōu)楝F(xiàn)實
研究團(tuán)隊設(shè)計了一系列實驗來評估LRC的有效性。他們訓(xùn)練了多個LRC模型,使用不同的開源教師模型:Llama-3.2-3B-Instruct用于訓(xùn)練LRC-1.5B,Qwen2.5-3B-Instruct用于訓(xùn)練LRC-1.7B,Qwen2.5-7B-Instruct用于訓(xùn)練LRC-4B。為了與Sheared-Llama進(jìn)行公平比較,他們還使用Llama-2-7B-chat作為教師訓(xùn)練了LRC-2.7B。
訓(xùn)練過程采用了監(jiān)督微調(diào)(SFT)來獲得指令版本的LRC模型。所有模型都使用長度為2,048的打包序列進(jìn)行訓(xùn)練,以提高計算效率。研究團(tuán)隊使用Adam優(yōu)化器,參數(shù)β1=0.9,β2=0.999,KL散度溫度設(shè)置為40。訓(xùn)練在8個NVIDIA H800 GPU上進(jìn)行,使用PyTorch、Transformers和Deepspeed框架實現(xiàn)分布式并行計算。
訓(xùn)練數(shù)據(jù)集是由Fineweb-Edu、DCLM和CosmopiediaV2混合構(gòu)成的。Fineweb-Edu是主要組成部分,因其高質(zhì)量的教育內(nèi)容而被選用。為了豐富預(yù)訓(xùn)練數(shù)據(jù)分布,研究團(tuán)隊還納入了DCLM和CosmopiediaV2,并使用OpenHermes。此外,他們還利用UltraChat作為監(jiān)督微調(diào)數(shù)據(jù)集進(jìn)行指令調(diào)整。預(yù)訓(xùn)練數(shù)據(jù)集經(jīng)過隨機(jī)打亂,沒有使用課程設(shè)置。
為了全面評估LRC的性能,研究團(tuán)隊與多個代表性和競爭性的基線進(jìn)行了比較:Sheared Llama(使用相同的教師和訓(xùn)練數(shù)據(jù)進(jìn)行公平比較);Minitron(通過其發(fā)布的檢查點進(jìn)行評估);TinyBERT(一種特征蒸餾方法,已適配到Llama架構(gòu))。此外,他們還將LRC與類似規(guī)模的最先進(jìn)開源小型語言模型進(jìn)行了對比,包括MiniCPM、SmolLM2、Gemma3、InternLM和Qwen3系列模型。
在評估中,所有模型都在零樣本(zero-shot)設(shè)置下使用lm-evaluation-harness框架進(jìn)行評估,以Transformers作為推理后端。評估涵蓋了一系列下游任務(wù),涉及多種語言理解技能:科學(xué)和邏輯推理(ARC-E、ARC-C和LogiQA);常識理解(CommonsenseQA、PIQA和WinoGrande);閱讀理解(BoolQ);以及世界知識(SciQ和MMLU)。這些多樣化的任務(wù)能夠全面評估模型的各方面能力。
三、實驗結(jié)果:小模型也能有大智慧
研究團(tuán)隊首先比較了參數(shù)少于2B的LRC模型與領(lǐng)先的小型語言模型。結(jié)果令人驚喜:LRC-1.5B,從Llama-3.2-3B-Instruct蒸餾而來,僅使用100億個文本單元,就在性能上超過了SmolLM2-1.7B(該模型訓(xùn)練了11萬億個文本單元)。同樣,LRC-1.7B,從Qwen2.5-3B-Instruct蒸餾而來,在參數(shù)少于2B的所有模型中取得了最佳性能,超過了Qwen3-1.7B,而后者需要處理36萬億個文本單元。這些結(jié)果突顯了LRC令人矚目的蒸餾效率,僅使用1000倍更少的訓(xùn)練數(shù)據(jù)就實現(xiàn)了卓越的性能。
為了評估LRC的可擴(kuò)展性,研究團(tuán)隊進(jìn)一步評估了更大的模型。LRC-4B,從Qwen2.5-7B-Instruct蒸餾而來,僅使用100億個文本單元,就實現(xiàn)了與Qwen3-4B(訓(xùn)練了36萬億個文本單元)相當(dāng)?shù)男阅?,并且超過了Minitron-4B,后者使用了5倍多的數(shù)據(jù)進(jìn)行訓(xùn)練。研究團(tuán)隊還通過復(fù)制其設(shè)置,使用Llama2-7B作為教師和相同的訓(xùn)練數(shù)據(jù)集,與Sheared-Llama-2.7B-B進(jìn)行了公平比較。他們的LRC-2.7B-B仍然取得了可比的性能,同時使用了5倍更少的文本單元。
這些發(fā)現(xiàn)證明了LRC在各種教師-學(xué)生配置中的穩(wěn)健性和通用性。值得注意的是,所有報告的LRC模型都經(jīng)過了SFT。
四、深入分析:為什么低秩克隆如此有效
為了深入了解LRC的兩個核心組件(低秩投影和激活克?。┑呢暙I(xiàn),研究團(tuán)隊進(jìn)行了一系列消融研究。所有實驗都使用Llama-3.2-3B-Instruct作為教師,在25億個文本單元上訓(xùn)練,不進(jìn)行SFT。他們使用訓(xùn)練語言模型損失作為評估指標(biāo),因為數(shù)據(jù)包含最小的重復(fù),并且訓(xùn)練僅運(yùn)行一個周期。
首先,他們評估了低秩投影的影響,將LRC與TinyBERT風(fēng)格的蒸餾進(jìn)行比較,后者將學(xué)生隨機(jī)初始化并從頭開始訓(xùn)練,使用MSE損失與每層的注意力激活和輸出對齊。由于TinyBERT依賴于注意力分?jǐn)?shù)圖,難以擴(kuò)展到更長的上下文,因為它無法使用FlashAttention。結(jié)果顯示,LRC比TinyBERT快2.7倍達(dá)到3.0的語言模型損失,這凸顯了通過投影傳遞結(jié)構(gòu)化權(quán)重信息的好處,而不是從頭開始學(xué)習(xí)。
接著,研究團(tuán)隊衡量了克隆損失Lclone中不同激活信號的貢獻(xiàn),進(jìn)行了項級別和模塊級別的消融研究。項級別結(jié)果顯示,當(dāng)移除單個激活項時,移除與前饋網(wǎng)絡(luò)相關(guān)的項,特別是FFN門,會顯著降低性能,將語言模型損失從2.639增加到2.677。這證實了前饋網(wǎng)絡(luò)激活攜帶了基本信息,對齊它們對有效的行為克隆至關(guān)重要。
模塊級別結(jié)果展示了刪除所有注意力相關(guān)與前饋網(wǎng)絡(luò)相關(guān)的克隆損失的影響,以及完全移除所有克隆信號的影響。觀察發(fā)現(xiàn),雖然在早期訓(xùn)練階段LRC w/o Attn顯著影響性能,但它在后期階段逐漸恢復(fù),并趨向于完整LRC的性能。然而,LRC w/o FFN產(chǎn)生了貫穿整個訓(xùn)練過程的實質(zhì)性性能下降,進(jìn)一步確認(rèn)了前饋網(wǎng)絡(luò)激活的關(guān)鍵重要性。此外,當(dāng)LRC和LRC w/o All Clone Loss達(dá)到3.0的語言模型損失時,LRC實現(xiàn)了超過2倍的訓(xùn)練時間使用減少,證明了激活克隆的有效性。
最后,研究團(tuán)隊評估了LRC的無需對齊特性,將其與一個變體(LRC w/o Alignment Free)進(jìn)行比較,后者為注意力和前饋網(wǎng)絡(luò)輸出訓(xùn)練額外的對齊矩陣。結(jié)果顯示,這個變體增加了可訓(xùn)練參數(shù)的大小,延長了訓(xùn)練時間,并導(dǎo)致更差的最終性能。這些結(jié)果確認(rèn)了LRC基于投影的對齊不僅足以有效傳遞知識,而且更高效和穩(wěn)定。
五、模型分析:數(shù)據(jù)質(zhì)量比數(shù)量更重要
為了更好地理解LRC的設(shè)計選擇和行為,研究團(tuán)隊進(jìn)行了一系列深入分析,重點關(guān)注兩個方面:訓(xùn)練期間的性能趨勢和訓(xùn)練數(shù)據(jù)質(zhì)量的影響。
研究團(tuán)隊在整個訓(xùn)練過程中監(jiān)控模型檢查點,以檢查性能軌跡。結(jié)果顯示,LRC使用僅50%的訓(xùn)練文本單元就已達(dá)到了有競爭力的性能。此外,隨著更多訓(xùn)練,模型性能繼續(xù)穩(wěn)步提高,確認(rèn)了LRC的可擴(kuò)展性和高效的學(xué)習(xí)動態(tài)。
由于LRC僅需要少量訓(xùn)練數(shù)據(jù)就能達(dá)到強(qiáng)大的性能,研究團(tuán)隊進(jìn)一步檢驗了訓(xùn)練數(shù)據(jù)質(zhì)量如何影響性能。Fineweb-Edu為每個樣本提供教育價值分?jǐn)?shù)。為了評估高質(zhì)量輸入的影響,他們構(gòu)建了一個過濾數(shù)據(jù)集,只保留分?jǐn)?shù)≥4的樣本,并使用Llama-3.2-3B-Instruct作為教師重新訓(xùn)練LRC-1.5B。結(jié)果表明,在這個過濾數(shù)據(jù)上訓(xùn)練,僅使用100億個文本單元(Mixed-1.1)就超過了200億個文本單元設(shè)置(Mixed-2.0)的性能,兩者都沒有SFT。這一結(jié)果證明了LRC能夠放大高質(zhì)量數(shù)據(jù)的好處,進(jìn)一步增強(qiáng)其樣本效率。
為了提高訓(xùn)練效率,研究團(tuán)隊還探索了低秩投影矩陣的權(quán)重共享策略。具體來說,他們實驗了將注意力和前饋網(wǎng)絡(luò)模塊內(nèi)的投影矩陣進(jìn)行綁定。對于注意力,他們設(shè)置了Wp_q = Wp_k = Wp_v,對于前饋網(wǎng)絡(luò),設(shè)置了Wp_gate = Wp_up。他們使用Mixed-1.0數(shù)據(jù)集上的100億個文本單元,以Llama-3.2-3B-Instruct作為教師,α=1.0訓(xùn)練LRC-1.5B,不應(yīng)用SFT。
結(jié)果顯示,全參數(shù)設(shè)置(All, All)提供了最佳性能,但也有最高的內(nèi)存成本。值得注意的是,在前饋網(wǎng)絡(luò)中共享投影導(dǎo)致的性能下降大于在注意力中共享它們。這一發(fā)現(xiàn)也佐證了激活克隆實驗的觀察結(jié)果,表明前饋網(wǎng)絡(luò)編碼了更豐富的信息,并從專用容量中獲益更多。
六、效率分析:低秩克隆的超高效訓(xùn)練
最后,研究團(tuán)隊分析了LRC在內(nèi)存使用和吞吐量方面的訓(xùn)練效率,重點關(guān)注權(quán)重共享策略和整體訓(xùn)練速度。實驗表明,即使與計算教師模型的隱藏狀態(tài)相關(guān)的開銷,LRC仍然保持了標(biāo)準(zhǔn)訓(xùn)練吞吐量的50%以上。相比之下,改編到Llama架構(gòu)的TinyBERT在吞吐量方面顯著落后,特別是因為它依賴于注意力圖作為監(jiān)督,這阻止了使用FlashAttention,限制了序列長度和訓(xùn)練速度。
研究團(tuán)隊還在vLLM上進(jìn)行了推理吞吐量測試,結(jié)果證實LRC不僅樣本高效,而且在實際應(yīng)用中也具有很強(qiáng)的可擴(kuò)展性,為大規(guī)模訓(xùn)練和部署提供了可能性。
總結(jié)來說,這項由哈爾濱工業(yè)大學(xué)和百度研究團(tuán)隊開發(fā)的低秩克隆技術(shù)為訓(xùn)練高性能的小型語言模型開辟了一條全新的道路。通過巧妙地結(jié)合軟剪枝和知識蒸餾于一個統(tǒng)一的框架中,LRC能夠保留大型教師模型的大部分知識,同時顯著減少訓(xùn)練資源需求。實驗結(jié)果表明,LRC模型能夠匹配或超越那些在萬億級文本單元上訓(xùn)練的最先進(jìn)模型的性能,同時僅需要百億級的訓(xùn)練量,實現(xiàn)了1000倍以上的訓(xùn)練效率。
這項技術(shù)的發(fā)展對AI領(lǐng)域具有深遠(yuǎn)的影響,它使得小型研究團(tuán)隊和組織也能開發(fā)出高性能的語言模型,推動AI技術(shù)的民主化。隨著更多研究探索LRC的上限和應(yīng)用場景,我們可能會看到更多高效、高性能的小型語言模型問世,為資源受限的設(shè)備帶來先進(jìn)的AI能力。
好文章,需要你的鼓勵
新加坡國立大學(xué)研究團(tuán)隊開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實驗顯示,僅訓(xùn)練AI玩簡單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實現(xiàn)37.9%的精度提升,并在真實設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊通過對比實驗發(fā)現(xiàn),經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時刻"現(xiàn)象,但這些自我糾錯行為并不能實際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗證差距",即生成答案的能力強(qiáng)于驗證答案質(zhì)量的能力,且模型在自我驗證時無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動態(tài)稀疏性實現(xiàn)大語言模型訓(xùn)練加速1.6倍,計算成本降低2.2倍。該方法使用SVD稀疏性估計器智能選擇重要計算部分,在保持模型性能的同時顯著提升訓(xùn)練效率,已在多個任務(wù)上驗證有效性。