在人工智能快速發(fā)展的今天,大型語言模型(LLM)變得越來越龐大,它們的訓練和調(diào)整需要耗費巨大的計算資源。2025年5月,由香港浸會大學的商思峰、周嘉怡、林晨宇和南京理工大學的李敏賢,以及香港浸會大學的周凱陽教授共同發(fā)表了一篇創(chuàng)新性論文《使用零階優(yōu)化微調(diào)量化神經(jīng)網(wǎng)絡(luò)》(Fine-tuning Quantized Neural Networks with Zeroth-order Optimization)。這篇論文提出了一種名為"量化零階優(yōu)化"(QZO)的新方法,旨在大幅降低微調(diào)大型語言模型所需的內(nèi)存消耗。有興趣深入了解的讀者可以通過arXiv:2505.13430v1在arXiv上訪問完整論文。
想象一下,你有一輛非常耗油的豪華汽車(比如大型語言模型),但你只想在城市中短途使用它。傳統(tǒng)上,即使是短程駕駛,這輛車也會消耗大量燃油。香港浸會大學的研究團隊相當于發(fā)明了一種方法,可以讓這輛豪華車在保持基本性能的同時,大幅降低油耗,使普通人也能負擔得起日常使用。
讓我們深入理解一下這項研究的背景?,F(xiàn)代的大型語言模型規(guī)模越來越大,參數(shù)數(shù)量呈指數(shù)級增長。以Llama-7B模型為例,如果使用bfloat16(一種存儲數(shù)字的格式)存儲,僅僅是微調(diào)這個模型就需要56GB的GPU內(nèi)存:14GB用于模型權(quán)重,14GB用于梯度,另外28GB用于優(yōu)化器狀態(tài)(如AdamW中的一階矩和二階矩,它們占用了梯度兩倍的空間)。這使得擁有有限計算資源的研究人員和開發(fā)者幾乎不可能微調(diào)大型語言模型。
簡單地說,微調(diào)大型語言模型就像是想要改裝一輛復雜的賽車,但需要一個巨大的車庫和昂貴的專業(yè)工具。絕大多數(shù)人沒有這樣的條件,于是許多潛在的創(chuàng)新應(yīng)用就被卡在了起跑線上。香港浸會大學的研究團隊提出的QZO方法,就像是發(fā)明了一種方法,可以在普通家庭車庫中用常見工具改裝這輛賽車,讓普通開發(fā)者也能參與到人工智能的創(chuàng)新中來。
一、內(nèi)存瓶頸與現(xiàn)有解決方案
當我們談?wù)撐⒄{(diào)大型語言模型時,主要有四個組件會占用GPU內(nèi)存:模型權(quán)重、梯度、優(yōu)化器狀態(tài)和用于計算梯度的激活值。其中,激活值主要受批量大小的影響,而前三個組件則是目前內(nèi)存效率訓練方法主要關(guān)注的目標。
想象一下,模型權(quán)重就像是一本巨大的食譜書,記錄了AI模型如何"烹飪"輸入數(shù)據(jù)得到輸出結(jié)果。梯度則是對這本食譜的修改建議,記錄了應(yīng)該如何調(diào)整每個步驟。優(yōu)化器狀態(tài)則像是廚師的筆記本,記錄了之前所有的修改建議,以便做出更明智的調(diào)整。當我們微調(diào)模型時,需要同時保存這本食譜書、修改建議和筆記本,這就占用了大量的內(nèi)存空間。
現(xiàn)有的解決方案各有側(cè)重。例如,LoRA(低秩適應(yīng))方法就像是只修改食譜中的關(guān)鍵步驟,而不是整本食譜,從而減少了需要修改的內(nèi)容。GaLore方法則像是把復雜的修改建議簡化,只保留最重要的部分。MeZO(內(nèi)存高效零階優(yōu)化)通過直接嘗試不同的調(diào)整并觀察結(jié)果(而不是計算精確的修改建議),消除了對梯度和優(yōu)化器狀態(tài)的需求。
然而,這些方法都沒有同時解決三個主要內(nèi)存占用因素:模型權(quán)重、梯度和優(yōu)化器狀態(tài)。香港浸會大學的研究團隊提出的QZO方法,就是要在統(tǒng)一的框架下同時解決這三個問題。
二、QZO:量化零階優(yōu)化的創(chuàng)新之處
QZO方法的核心思想可以用一個簡單的類比來解釋:想象你正在微調(diào)一個巨大的音樂盒。傳統(tǒng)方法需要保存整個音樂盒的精確結(jié)構(gòu)(模型權(quán)重)、每個齒輪應(yīng)該如何調(diào)整的詳細說明(梯度)以及之前所有調(diào)整的歷史記錄(優(yōu)化器狀態(tài))。QZO則采取了完全不同的方法。
首先,QZO使用了"量化"技術(shù)來壓縮模型權(quán)重。這就像是把音樂盒的精細結(jié)構(gòu)簡化,用更粗略但足夠準確的表示方式記錄下來。具體來說,它將模型參數(shù)從bfloat16格式(占用16位)轉(zhuǎn)換為int4格式(只占用4位),從而將存儲空間減少了4倍。
其次,QZO采用了"零階優(yōu)化"方法,完全消除了對梯度和優(yōu)化器狀態(tài)的需求。傳統(tǒng)的優(yōu)化方法(如梯度下降)需要通過復雜的反向傳播計算梯度。而零階優(yōu)化則像是通過"試錯"來找到正確方向:它通過在前向傳遞過程中擾動權(quán)重,觀察結(jié)果變化來估計梯度方向。這就像是不需要知道齒輪的精確結(jié)構(gòu),只需要知道"向左轉(zhuǎn)會讓音樂變得更好聽,向右轉(zhuǎn)則會變差",從而調(diào)整音樂盒。
然而,直接將零階優(yōu)化應(yīng)用于量化后的模型是不可行的,因為量化后的權(quán)重是離散的,而梯度估計是連續(xù)的。這就像是無法用連續(xù)的旋轉(zhuǎn)來調(diào)整只能固定在特定位置的齒輪。研究團隊創(chuàng)新性地提出了解決方案:不直接擾動離散的權(quán)重,而是擾動連續(xù)的量化比例因子(quantization scale)。
想象一下,量化比例因子就像是音樂盒的"音量旋鈕",雖然齒輪結(jié)構(gòu)是固定的,但通過調(diào)整這個旋鈕,我們可以改變整體的聲音效果。QZO正是通過擾動這個連續(xù)的"旋鈕"來估計梯度并優(yōu)化模型。
此外,研究團隊還提出了一種"方向?qū)?shù)裁剪"方法來穩(wěn)定訓練過程。他們證明了這種裁剪方法本質(zhì)上減少了梯度估計的方差,從而使訓練更加穩(wěn)定。這就像是在調(diào)整音樂盒時,避免做出過于劇烈的調(diào)整,而是采取更加平穩(wěn)、可控的微調(diào)策略。
三、技術(shù)深入解析:從SPSA到Q-SPSA
為了理解QZO的技術(shù)細節(jié),我們需要先了解零階優(yōu)化的基礎(chǔ)——同步擾動隨機近似(SPSA)。SPSA是一種在無法直接計算或不可靠的目標函數(shù)梯度情況下使用的優(yōu)化方法。
想象你在完全黑暗中試圖找到一個山谷的最低點。傳統(tǒng)的方法是計算地形的斜率(即梯度),然后朝著下坡的方向移動。但在黑暗中,你無法直接看到斜率。SPSA相當于你隨機選擇一個方向,向前走一小步,再向后走一小步,比較這兩個位置的高度差。如果向前時高度降低,向后時高度增加,那么向前的方向很可能是下坡方向。
具體來說,SPSA通過以下公式估計梯度:
將模型參數(shù)θ沿著隨機方向z擾動一個小量ε,計算損失函數(shù)L在θ+εz和θ-εz處的值,然后通過差分近似計算梯度。
然而,這種方法無法直接應(yīng)用于量化后的神經(jīng)網(wǎng)絡(luò),因為量化后的權(quán)重是離散的,無法在連續(xù)空間中進行擾動,而且估計出的連續(xù)梯度也無法用于更新離散的量化權(quán)重。
研究團隊的創(chuàng)新在于提出了量化同步擾動隨機近似(Q-SPSA)。Q-SPSA不直接擾動離散的權(quán)重,而是擾動連續(xù)的量化比例因子。這就像是不改變音樂盒的基本結(jié)構(gòu),而只調(diào)整它的整體"音量"或"速度"。
具體來說,對于每個權(quán)重元素w,量化和反量化過程可以表示為:
w = ?w/Δ?(量化) w = Δ·w(反量化)
其中Δ是逐元素的量化比例因子,w是存儲在更低位中的量化對應(yīng)物。
Q-SPSA的核心思想是將模型參數(shù)分解為Δ⊙θ,然后擾動縮放分量Δ,同時保持離散權(quán)重θ不變。這樣,就可以在連續(xù)空間中進行擾動和優(yōu)化,同時保持量化的結(jié)構(gòu)。
此外,研究團隊還提出了方向?qū)?shù)裁剪(DDC)方法,用于穩(wěn)定訓練過程。DDC可以看作是對估計出的方向?qū)?shù)進行限制,避免出現(xiàn)過大的更新步長。研究團隊證明了DDC本質(zhì)上減少了梯度估計的方差,從而使訓練更加穩(wěn)定。
通過結(jié)合Q-SPSA和DDC,QZO成功地在統(tǒng)一框架下同時解決了模型權(quán)重、梯度和優(yōu)化器狀態(tài)的內(nèi)存消耗問題,大大降低了微調(diào)大型語言模型的內(nèi)存需求。
四、實驗驗證與性能對比
那么,QZO在實際應(yīng)用中表現(xiàn)如何呢?研究團隊在OPT-6.7B、Llama-2-7B和Llama-3.1-8B等不同的大型語言模型上進行了實驗,使用了多種量化方法,并在包括SST2、RTE、CB、BoolQ和SQuAD在內(nèi)的五個流行的自然語言處理基準測試上進行了評估。
實驗結(jié)果令人印象深刻。使用4位量化的QZO與使用16位的MeZO相比,在大多數(shù)數(shù)據(jù)集上性能相當,有時甚至表現(xiàn)更好,同時內(nèi)存使用量減少了3倍。例如,在使用Llama-2-7B模型的SQuAD數(shù)據(jù)集上,QZO達到了85.5分,超過了MeZO的80.7分。
更令人驚訝的是,QZO在極端量化情況下也表現(xiàn)出色。研究團隊成功地對Llama-2-13B模型進行了2位量化,并通過QZO進行了微調(diào),在各種自然語言處理任務(wù)上顯著優(yōu)于零樣本基線。
在內(nèi)存使用方面,與傳統(tǒng)的16位全參數(shù)微調(diào)相比,QZO在4位量化的大型語言模型上將總內(nèi)存成本降低了18倍以上。這使得在單個24GB的GPU上微調(diào)Llama-2-13B和Stable Diffusion 3.5 Large等大型模型成為可能。
以Stable Diffusion 3.5 Large為例,這個模型包含VAE、DiT和三個文本編碼器(CLIP-ViT/G、CLIP-ViT/L和T5-XXL)。使用fp16/bf16進行常規(guī)訓練需要0.37GB用于VAE,21.26GB用于文本編碼器,16.2GB用于DiT,16.2GB用于梯度,32.4GB用于優(yōu)化器狀態(tài),總共需要86.43GB的內(nèi)存。而QZO只需要12.4GB的內(nèi)存就可以微調(diào)這個模型,可以輕松地在單個NVIDIA RTX 4090 GPU(24GB)上運行。這是首次證明可以在消費級GPU上微調(diào)Stable Diffusion 3.5 Large。
五、局限性與未來展望
盡管QZO取得了顯著的成果,但研究團隊也坦率地指出了一些局限性和未來的研究方向。
首先,QZO的性能在很大程度上依賴于量化方法的質(zhì)量。如果量化方法存在較大的量化誤差,會使零階優(yōu)化中的前向傳遞變得嘈雜,從而使梯度估計不那么準確。不過,改進量化方法超出了本研究的范圍。
其次,QZO在擴散模型(如Stable Diffusion)上的表現(xiàn)不如在大型語言模型上那么出色。這可能是由于零階優(yōu)化中的噪聲擾動與擴散過程中的噪聲調(diào)度之間的不匹配造成的。一個潛在的解決方案是重新設(shè)計零階優(yōu)化中的噪聲調(diào)度,使其與擴散過程保持一致。
最后,QZO與全精度微調(diào)之間的性能差距仍然存在。為了縮小這個差距,需要顯著提高零階優(yōu)化中的梯度估計準確性。
展望未來,研究團隊認為QZO有潛力應(yīng)用于邊緣設(shè)備的在線學習場景,使得即使是計算資源有限的設(shè)備也能進行模型微調(diào)和適應(yīng)。此外,隨著量化方法的不斷改進和零階優(yōu)化技術(shù)的發(fā)展,QZO的性能有望進一步提升。
六、結(jié)論與啟示
QZO為微調(diào)量化神經(jīng)網(wǎng)絡(luò)提供了一種新的范式,通過零階優(yōu)化大大減少了與模型權(quán)重、梯度和優(yōu)化器狀態(tài)相關(guān)的內(nèi)存使用。實驗結(jié)果表明,QZO適用于各種大型語言模型,并且與標量為基礎(chǔ)和基于碼本的量化方法都兼容。
對于研究人員和開發(fā)者來說,QZO的意義在于它打破了計算資源的限制,使得即使是資源有限的團隊也能參與到大型語言模型的微調(diào)和創(chuàng)新中來。這就像是民主化了人工智能技術(shù),讓更多人能夠參與到前沿的AI研究和應(yīng)用中。
對于普通用戶來說,QZO的意義在于它可能會加速AI技術(shù)的普及和應(yīng)用。當更多的開發(fā)者能夠微調(diào)大型語言模型時,我們可能會看到更多針對特定領(lǐng)域和任務(wù)的優(yōu)化AI應(yīng)用出現(xiàn),從而使AI技術(shù)在日常生活中變得更加有用和易于獲取。
歸根結(jié)底,QZO代表了一種思維方式的轉(zhuǎn)變:不是簡單地追求更大、更復雜的模型,而是尋找更聰明、更高效的方法來利用現(xiàn)有的計算資源。在AI技術(shù)快速發(fā)展的今天,這種思維方式尤為重要,因為它可以確保AI技術(shù)的發(fā)展方向不僅是更強大,還是更加可持續(xù)和包容的。
如果你對這項研究感興趣,可以通過arXiv:2505.13430v1查閱完整論文,或者訪問研究團隊的GitHub倉庫:https://github.com/maifoundations/QZO。
好文章,需要你的鼓勵
新加坡國立大學研究團隊開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實驗顯示,僅訓練AI玩簡單撲克游戲就能讓其數(shù)學推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學題目作為訓練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學解題中,為AI訓練提供了新思路。
同濟大學團隊開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學習和數(shù)學優(yōu)化方法,在合成數(shù)據(jù)集上實現(xiàn)37.9%的精度提升,并在真實設(shè)備上展現(xiàn)出色泛化能力,為機器人、AR和自動駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學研究團隊通過對比實驗發(fā)現(xiàn),經(jīng)過強化學習訓練的視覺語言模型雖然表現(xiàn)出"頓悟時刻"現(xiàn)象,但這些自我糾錯行為并不能實際提升推理準確率。研究揭示了AI模型存在"生成-驗證差距",即生成答案的能力強于驗證答案質(zhì)量的能力,且模型在自我驗證時無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動態(tài)稀疏性實現(xiàn)大語言模型訓練加速1.6倍,計算成本降低2.2倍。該方法使用SVD稀疏性估計器智能選擇重要計算部分,在保持模型性能的同時顯著提升訓練效率,已在多個任務(wù)上驗證有效性。