在人工智能發(fā)展日新月異的今天,大語(yǔ)言模型(LLMs)已經(jīng)成為了推動(dòng)自然語(yǔ)言處理技術(shù)進(jìn)步的重要力量。然而,這些模型越來(lái)越龐大的體積和計(jì)算需求,也給它們的部署和應(yīng)用帶來(lái)了巨大挑戰(zhàn)。2025年5月21日,來(lái)自香港大學(xué)和字節(jié)跳動(dòng)Seed團(tuán)隊(duì)的研究人員,包括陳夢(mèng)昭、張超逸、劉靜等多位學(xué)者,在一篇題為《量化感知訓(xùn)練的縮放定律》(Scaling Law for Quantization-Aware Training)的論文中,為解決這一難題提供了全新的理論框架。有興趣深入了解的讀者可以通過(guò)arXiv:2505.14302v1查閱完整論文。
想象一下,如果大語(yǔ)言模型是一本厚重的百科全書(shū),那么量化就像是將這本書(shū)以更緊湊的方式重新編排,使得同樣的內(nèi)容可以用更少的紙張表達(dá)出來(lái)。這種壓縮雖然節(jié)省了資源,但如果處理不當(dāng),就可能導(dǎo)致內(nèi)容失真。這正是模型量化所面臨的挑戰(zhàn):如何在減少存儲(chǔ)和計(jì)算需求的同時(shí),盡可能保持模型的性能不下降。
傳統(tǒng)的方法主要有兩種:一種是訓(xùn)練后量化(PTQ),就像在寫(xiě)完整本書(shū)之后才進(jìn)行壓縮,這種方法在8位精度(W8A8)下表現(xiàn)尚可,但降到4位精度(W4A4)時(shí)性能就會(huì)大幅下降;另一種是量化感知訓(xùn)練(QAT),這相當(dāng)于在寫(xiě)書(shū)的過(guò)程中就考慮到后續(xù)的壓縮需求,從而在低位精度下也能保持較好的性能。然而,對(duì)于QAT在超低位(如W4A4)下的表現(xiàn)規(guī)律,學(xué)術(shù)界一直缺乏系統(tǒng)的理解。
正是這一空白,促使研究團(tuán)隊(duì)開(kāi)展了這項(xiàng)開(kāi)創(chuàng)性研究。他們通過(guò)268組QAT實(shí)驗(yàn),系統(tǒng)地探索了模型大小、訓(xùn)練數(shù)據(jù)量以及量化粒度三大因素對(duì)量化誤差的影響,并首次提出了一個(gè)統(tǒng)一的QAT縮放定律。這個(gè)定律不僅能夠準(zhǔn)確預(yù)測(cè)不同設(shè)置下的量化誤差,還深入揭示了W4A4量化誤差的主要來(lái)源。
讓我們一起深入這項(xiàng)研究,看看研究團(tuán)隊(duì)是如何揭開(kāi)大語(yǔ)言模型量化訓(xùn)練的神秘面紗,以及這些發(fā)現(xiàn)對(duì)未來(lái)AI技術(shù)發(fā)展可能帶來(lái)的深遠(yuǎn)影響。
一、量化訓(xùn)練的挑戰(zhàn)與現(xiàn)狀
想象一下,你正在嘗試用有限的詞匯量翻譯一本外文小說(shuō)。如果你只能使用1000個(gè)最常見(jiàn)的詞,那么許多細(xì)微的表達(dá)和專(zhuān)業(yè)術(shù)語(yǔ)就無(wú)法準(zhǔn)確傳達(dá),這就是"量化"在語(yǔ)言模型中面臨的挑戰(zhàn)。在計(jì)算機(jī)世界里,我們通常使用32位或16位的浮點(diǎn)數(shù)來(lái)表示模型中的參數(shù),但這需要大量的存儲(chǔ)空間和計(jì)算資源。為了解決這個(gè)問(wèn)題,研究者們嘗試使用更少的位數(shù)(比如8位或4位)來(lái)表示這些參數(shù),這就是所謂的"量化"過(guò)程。
傳統(tǒng)的模型量化主要有兩種方法:訓(xùn)練后量化(PTQ)和量化感知訓(xùn)練(QAT)。PTQ就像是在你寫(xiě)完整本書(shū)后再進(jìn)行編輯壓縮,它的優(yōu)點(diǎn)是簡(jiǎn)單直接,但當(dāng)壓縮過(guò)于激進(jìn)時(shí)(比如壓縮到4位),書(shū)中的重要信息可能會(huì)丟失。而QAT則是從一開(kāi)始就考慮到壓縮因素,就像在寫(xiě)作過(guò)程中就注意使用簡(jiǎn)潔明了的表達(dá)方式,這樣最終的壓縮效果會(huì)更好。
雖然已有研究探索了模型大小對(duì)量化性能的影響,但對(duì)于訓(xùn)練數(shù)據(jù)量和量化粒度這兩個(gè)關(guān)鍵因素,學(xué)術(shù)界的理解還很有限。例如,當(dāng)你使用更多的訓(xùn)練數(shù)據(jù)時(shí),模型的量化誤差會(huì)如何變化?當(dāng)你改變量化的粒度(即一次量化多少數(shù)據(jù))時(shí),性能又會(huì)有何不同?這些問(wèn)題在現(xiàn)有的QAT縮放定律中都沒(méi)有得到充分解答。
"量化粒度"是一個(gè)重要概念,它決定了我們?cè)诙啻蟮姆秶鷥?nèi)共享一個(gè)量化參數(shù)。想象你在給一幅畫(huà)壓縮存儲(chǔ)空間:你可以對(duì)整幅畫(huà)使用同一套壓縮參數(shù)(粗粒度),也可以對(duì)每個(gè)區(qū)域使用不同的參數(shù)(細(xì)粒度)。顯然,細(xì)粒度壓縮能更好地保留細(xì)節(jié),但需要更多的額外信息來(lái)記錄這些參數(shù)。在模型量化中也是如此,研究團(tuán)隊(duì)發(fā)現(xiàn),量化粒度對(duì)最終的量化誤差有顯著影響。
二、統(tǒng)一的QAT縮放定律:揭示模型量化的內(nèi)在規(guī)律
在數(shù)學(xué)和物理學(xué)中,縮放定律(Scaling Law)是描述系統(tǒng)在不同尺度下行為規(guī)律的重要工具。比如,我們知道動(dòng)物體重增加時(shí),它的骨骼強(qiáng)度必須以更快的速度增長(zhǎng),否則會(huì)在自身重量下崩潰。類(lèi)似地,對(duì)于語(yǔ)言模型,研究者們發(fā)現(xiàn)模型性能會(huì)隨著模型大小、訓(xùn)練數(shù)據(jù)量和計(jì)算資源的增加而提升,但這種提升遵循特定的數(shù)學(xué)規(guī)律。
早期的Kaplan縮放定律和后來(lái)改進(jìn)的Chinchilla縮放定律分別揭示了全精度(不量化)條件下,模型性能如何隨這些因素變化。然而,當(dāng)我們考慮量化后的模型時(shí),這些規(guī)律是否仍然適用?又或者,量化會(huì)引入新的規(guī)律?這正是香港大學(xué)和字節(jié)跳動(dòng)研究團(tuán)隊(duì)試圖解答的問(wèn)題。
通過(guò)268組精心設(shè)計(jì)的QAT實(shí)驗(yàn),研究團(tuán)隊(duì)首次提出了一個(gè)統(tǒng)一的QAT縮放定律,它可以表示為:
δp(N, D, G) = k · DγD · (log?(G))γG / NγN
在這個(gè)公式中: - δp代表p位QAT的量化誤差 - N是模型大?。▍?shù)數(shù)量) - D是訓(xùn)練數(shù)據(jù)量(token數(shù)量) - G是量化粒度 - k、γN、γD和γG是擬合參數(shù)
這個(gè)公式揭示了三個(gè)重要發(fā)現(xiàn):
首先,量化誤差會(huì)隨著模型大小的增加而減少。就像更大的容器能夠更好地存儲(chǔ)復(fù)雜信息一樣,更大的模型對(duì)量化的"抵抗力"也更強(qiáng)。例如,當(dāng)模型從74M參數(shù)增加到594M參數(shù)時(shí),W4A4的量化誤差平均減少了34%。
其次,量化誤差會(huì)隨著訓(xùn)練數(shù)據(jù)量的增加而增加。這可能會(huì)讓人感到意外,因?yàn)橥ǔN覀冋J(rèn)為更多的訓(xùn)練數(shù)據(jù)會(huì)帶來(lái)更好的性能。但在量化場(chǎng)景下,情況有所不同。當(dāng)訓(xùn)練數(shù)據(jù)從10B增加到100B時(shí),W4A4的量化誤差平均增加了22%。這可能是因?yàn)楦嗟挠?xùn)練數(shù)據(jù)使模型學(xué)習(xí)到更復(fù)雜的表示,這些表示在低位精度下更難以準(zhǔn)確捕捉。
第三,量化誤差會(huì)隨著量化粒度的增大而增加。就像使用更粗的刻度尺測(cè)量物體會(huì)導(dǎo)致更大的誤差一樣,使用更粗的量化粒度也會(huì)導(dǎo)致更多的信息丟失。研究發(fā)現(xiàn),在最粗和最細(xì)的粒度之間,W4A4的量化誤差差距高達(dá)0.037,這幾乎是最粗粒度量化誤差的一半。
這個(gè)統(tǒng)一的縮放定律不僅能夠準(zhǔn)確預(yù)測(cè)不同設(shè)置下的量化誤差,還揭示了模型量化中的基本規(guī)律,為未來(lái)的QAT算法設(shè)計(jì)提供了重要理論指導(dǎo)。
三、權(quán)重與激活:量化誤差的兩大來(lái)源
當(dāng)我們深入研究W4A4量化誤差的來(lái)源時(shí),一個(gè)自然的問(wèn)題是:誤差主要來(lái)自權(quán)重量化還是激活量化?要回答這個(gè)問(wèn)題,研究團(tuán)隊(duì)進(jìn)行了兩組額外的QAT實(shí)驗(yàn):W4A16(只量化權(quán)重到4位,激活保持16位)和W16A4(只量化激活到4位,權(quán)重保持16位)。
通過(guò)對(duì)比這兩組實(shí)驗(yàn)的結(jié)果,研究團(tuán)隊(duì)發(fā)現(xiàn)W4A4的量化誤差可以近似地表示為W4A16和W16A4量化誤差的總和,兩者之間的相關(guān)系數(shù)高達(dá)0.906。這意味著我們可以通過(guò)分別分析權(quán)重量化誤差和激活量化誤差,來(lái)理解W4A4量化誤差的完整圖景。
研究發(fā)現(xiàn),雖然權(quán)重量化誤差和激活量化誤差都隨著模型大小的增加而減少,隨著訓(xùn)練數(shù)據(jù)量和量化粒度的增加而增加,但它們的敏感度不同:
權(quán)重量化誤差對(duì)模型大小更敏感(γN = 0.3589,高于激活量化的0.1816),意味著增大模型對(duì)減少權(quán)重量化誤差更有效。當(dāng)模型從74M增加到594M時(shí),權(quán)重量化誤差平均下降51%,而激活量化誤差僅下降34%。
權(quán)重量化誤差對(duì)訓(xùn)練數(shù)據(jù)量也更敏感(γD = 0.1610,遠(yuǎn)高于激活量化的0.0331)。當(dāng)訓(xùn)練數(shù)據(jù)從10B增加到100B時(shí),權(quán)重量化誤差平均增加43%,而激活量化誤差僅增加12%。
激活量化誤差對(duì)量化粒度極為敏感(γG = 0.9821,遠(yuǎn)高于權(quán)重量化的0.3533)。這可能是因?yàn)榧せ钪抵写嬖谳^多的離群值,這些值在粗粒度量化下更難以準(zhǔn)確表示。
通過(guò)計(jì)算R = δW16A4/δW4A16(激活量化誤差與權(quán)重量化誤差的比值),研究團(tuán)隊(duì)發(fā)現(xiàn)在大多數(shù)情況下R > 1,意味著激活量化誤差通常大于權(quán)重量化誤差,是W4A4量化的主要瓶頸。然而,當(dāng)數(shù)據(jù)與參數(shù)比(D/N)增加時(shí),R值會(huì)下降,表明隨著訓(xùn)練數(shù)據(jù)量的增加,權(quán)重量化誤差的相對(duì)重要性會(huì)上升。
四、FC2層輸入:量化的關(guān)鍵瓶頸
在深入分析激活量化誤差的來(lái)源時(shí),研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:在Transformer塊的四個(gè)線性層(QKV Proj、O Proj、FC1 Proj和FC2 Proj)中,F(xiàn)C2 Proj層的輸入激活值是量化誤差的主要來(lái)源。
為了理解這一現(xiàn)象,研究團(tuán)隊(duì)測(cè)量了各層輸入激活值的峰度(Kurtosis),這是一個(gè)衡量分布"尾部厚度"的統(tǒng)計(jì)量,值越大表示分布中存在越多的離群值。結(jié)果顯示,雖然QAT能有效降低大多數(shù)層的峰度,但FC2 Proj輸入的峰度仍然異常高(從BF16訓(xùn)練的123降至W4A4訓(xùn)練的89,但仍遠(yuǎn)高于其他層)。
這主要是因?yàn)镕C2 Proj的輸入來(lái)自SwiGLU模塊的輸出。SwiGLU中的門(mén)控機(jī)制和非線性變換會(huì)產(chǎn)生復(fù)雜的激活分布,導(dǎo)致更多的離群值。這些離群值在4位精度下難以準(zhǔn)確表示,成為了W4A4 QAT的主要瓶頸。
為了驗(yàn)證這一發(fā)現(xiàn),研究團(tuán)隊(duì)采用了一種簡(jiǎn)單的混合精度方法:將FC2 Proj的輸入量化到8位,而其他部分仍保持4位。這一改變顯著降低了量化誤差,尤其是在粗粒度量化場(chǎng)景下:對(duì)于G = 32,量化誤差降低了20.5%;對(duì)于G = 256,量化誤差降低了42.9%。
更重要的是,當(dāng)FC2輸入使用8位量化后,激活量化誤差和權(quán)重量化誤差變得相當(dāng),它們的比值R在數(shù)據(jù)參數(shù)比D/N = 100到1000的范圍內(nèi)接近1(約為0.85到1.10)。這表明,一旦解決了FC2輸入的激活量化瓶頸,權(quán)重量化和激活量化對(duì)總誤差的貢獻(xiàn)基本相當(dāng)。
這一發(fā)現(xiàn)有重要的實(shí)踐意義:在設(shè)計(jì)4位QAT算法時(shí),不應(yīng)只關(guān)注激活量化,也應(yīng)同時(shí)優(yōu)化權(quán)重量化,尤其是在大數(shù)據(jù)訓(xùn)練場(chǎng)景下。同時(shí),針對(duì)FC2輸入的特殊處理(如使用更高的精度或更有效的離群值抑制方法)可以顯著提升W4A4 QAT的性能。
五、與現(xiàn)有QAT縮放定律的比較
研究團(tuán)隊(duì)將提出的統(tǒng)一QAT縮放定律與現(xiàn)有方法進(jìn)行了對(duì)比?,F(xiàn)有的QAT縮放定律主要考慮模型大小N,忽略了訓(xùn)練數(shù)據(jù)量D和量化粒度G的影響,因此需要為每種量化粒度擬合單獨(dú)的曲線。
相比之下,提出的統(tǒng)一縮放定律能夠用單一公式同時(shí)建模不同的量化粒度,并考慮訓(xùn)練數(shù)據(jù)量的影響,大大提高了預(yù)測(cè)精度。對(duì)于W4A16 QAT,相對(duì)誤差從19.3%降至5.2%;對(duì)于W4A4 QAT,相對(duì)誤差從8.5%降至4.7%。W4A16的改進(jìn)更為顯著,這是因?yàn)闄?quán)重量化誤差對(duì)訓(xùn)練數(shù)據(jù)量的敏感度高于激活量化誤差。
這個(gè)統(tǒng)一的縮放定律不僅提高了預(yù)測(cè)精度,還揭示了模型量化中的基本規(guī)律,為未來(lái)的QAT算法設(shè)計(jì)提供了重要理論指導(dǎo)。
六、研究意義與未來(lái)方向
這項(xiàng)研究的意義遠(yuǎn)不止于提出一個(gè)新的數(shù)學(xué)公式。它深入揭示了大語(yǔ)言模型量化訓(xùn)練中的基本規(guī)律,為未來(lái)的模型設(shè)計(jì)和訓(xùn)練策略提供了重要指導(dǎo)。
首先,研究表明,并非所有的量化誤差都是平等的。FC2層輸入的激活量化是最主要的瓶頸,針對(duì)性地處理這一部分(例如使用混合精度量化)可以顯著提升整體性能。這就像在減肥過(guò)程中,了解到大部分脂肪集中在腹部,那么針對(duì)腹部的鍛煉會(huì)比全身運(yùn)動(dòng)更有效。
其次,研究發(fā)現(xiàn),隨著訓(xùn)練數(shù)據(jù)量的增加,權(quán)重量化誤差的重要性會(huì)上升。這意味著未來(lái)的QAT算法不應(yīng)只關(guān)注激活量化,也應(yīng)同時(shí)優(yōu)化權(quán)重量化,尤其是在大數(shù)據(jù)訓(xùn)練場(chǎng)景下。
第三,量化粒度對(duì)激活量化誤差的影響遠(yuǎn)大于對(duì)權(quán)重量化誤差的影響。這提示我們,在設(shè)計(jì)混合精度量化策略時(shí),可以對(duì)權(quán)重使用相對(duì)粗糙的量化粒度,而對(duì)激活(尤其是FC2輸入)使用更細(xì)的量化粒度,從而在保持性能的同時(shí)降低計(jì)算和存儲(chǔ)開(kāi)銷(xiāo)。
最后,統(tǒng)一的QAT縮放定律為模型設(shè)計(jì)者提供了一個(gè)強(qiáng)大的工具,可以在不進(jìn)行大量實(shí)驗(yàn)的情況下,預(yù)測(cè)不同設(shè)置(模型大小、訓(xùn)練數(shù)據(jù)量、量化粒度)下的量化誤差,從而做出更明智的設(shè)計(jì)決策。
展望未來(lái),這項(xiàng)研究為多個(gè)方向的進(jìn)一步探索奠定了基礎(chǔ):
一方面,研究團(tuán)隊(duì)只探索了4位量化,未來(lái)可以擴(kuò)展到更低位精度(如3位、2位或二值化)的縮放定律。
另一方面,可以探索針對(duì)FC2輸入的更高效離群值處理方法,而不是簡(jiǎn)單地提高精度,從而在保持性能的同時(shí)進(jìn)一步降低計(jì)算和存儲(chǔ)開(kāi)銷(xiāo)。
此外,研究主要關(guān)注了密集模型,未來(lái)可以將縮放定律擴(kuò)展到混合專(zhuān)家模型(MoE)等更復(fù)雜的架構(gòu)上。
最后,該研究為全量化訓(xùn)練(FQT,同時(shí)量化前向和反向傳播)提供了理論基礎(chǔ),這對(duì)于進(jìn)一步加速大模型訓(xùn)練具有重要意義。
總的來(lái)說(shuō),這項(xiàng)研究不僅提出了一個(gè)統(tǒng)一的QAT縮放定律,還深入揭示了大語(yǔ)言模型量化訓(xùn)練中的基本規(guī)律,為未來(lái)的模型設(shè)計(jì)和訓(xùn)練策略提供了重要指導(dǎo),推動(dòng)了大模型高效部署和應(yīng)用的發(fā)展。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語(yǔ)言模型的敘事推理能力與音頻生成技術(shù),通過(guò)交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開(kāi)辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過(guò)讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問(wèn)題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語(yǔ)言模型人性化對(duì)話問(wèn)題。該研究創(chuàng)建了包含20萬(wàn)高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過(guò)創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開(kāi)發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過(guò)學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來(lái)了效率和精度的雙重突破。