av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 讓AI模型"瘦身"學習新技能:香港浸會大學開創(chuàng)量化神經(jīng)網(wǎng)絡(luò)零階優(yōu)化新方法

讓AI模型"瘦身"學習新技能:香港浸會大學開創(chuàng)量化神經(jīng)網(wǎng)絡(luò)零階優(yōu)化新方法

2025-05-26 17:03
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-26 17:03 ? 科技行者

在人工智能快速發(fā)展的今天,大型語言模型(LLM)變得越來越龐大,它們的訓練和調(diào)整需要耗費巨大的計算資源。2025年5月,由香港浸會大學的商思峰、周嘉怡、林晨宇和南京理工大學的李敏賢,以及香港浸會大學的周凱陽教授共同發(fā)表了一篇創(chuàng)新性論文《使用零階優(yōu)化微調(diào)量化神經(jīng)網(wǎng)絡(luò)》(Fine-tuning Quantized Neural Networks with Zeroth-order Optimization)。這篇論文提出了一種名為"量化零階優(yōu)化"(QZO)的新方法,旨在大幅降低微調(diào)大型語言模型所需的內(nèi)存消耗。有興趣深入了解的讀者可以通過arXiv:2505.13430v1在arXiv上訪問完整論文。

想象一下,你有一輛非常耗油的豪華汽車(比如大型語言模型),但你只想在城市中短途使用它。傳統(tǒng)上,即使是短程駕駛,這輛車也會消耗大量燃油。香港浸會大學的研究團隊相當于發(fā)明了一種方法,可以讓這輛豪華車在保持基本性能的同時,大幅降低油耗,使普通人也能負擔得起日常使用。

讓我們深入理解一下這項研究的背景?,F(xiàn)代的大型語言模型規(guī)模越來越大,參數(shù)數(shù)量呈指數(shù)級增長。以Llama-7B模型為例,如果使用bfloat16(一種存儲數(shù)字的格式)存儲,僅僅是微調(diào)這個模型就需要56GB的GPU內(nèi)存:14GB用于模型權(quán)重,14GB用于梯度,另外28GB用于優(yōu)化器狀態(tài)(如AdamW中的一階矩和二階矩,它們占用了梯度兩倍的空間)。這使得擁有有限計算資源的研究人員和開發(fā)者幾乎不可能微調(diào)大型語言模型。

簡單地說,微調(diào)大型語言模型就像是想要改裝一輛復雜的賽車,但需要一個巨大的車庫和昂貴的專業(yè)工具。絕大多數(shù)人沒有這樣的條件,于是許多潛在的創(chuàng)新應(yīng)用就被卡在了起跑線上。香港浸會大學的研究團隊提出的QZO方法,就像是發(fā)明了一種方法,可以在普通家庭車庫中用常見工具改裝這輛賽車,讓普通開發(fā)者也能參與到人工智能的創(chuàng)新中來。

一、內(nèi)存瓶頸與現(xiàn)有解決方案

當我們談?wù)撐⒄{(diào)大型語言模型時,主要有四個組件會占用GPU內(nèi)存:模型權(quán)重、梯度、優(yōu)化器狀態(tài)和用于計算梯度的激活值。其中,激活值主要受批量大小的影響,而前三個組件則是目前內(nèi)存效率訓練方法主要關(guān)注的目標。

想象一下,模型權(quán)重就像是一本巨大的食譜書,記錄了AI模型如何"烹飪"輸入數(shù)據(jù)得到輸出結(jié)果。梯度則是對這本食譜的修改建議,記錄了應(yīng)該如何調(diào)整每個步驟。優(yōu)化器狀態(tài)則像是廚師的筆記本,記錄了之前所有的修改建議,以便做出更明智的調(diào)整。當我們微調(diào)模型時,需要同時保存這本食譜書、修改建議和筆記本,這就占用了大量的內(nèi)存空間。

現(xiàn)有的解決方案各有側(cè)重。例如,LoRA(低秩適應(yīng))方法就像是只修改食譜中的關(guān)鍵步驟,而不是整本食譜,從而減少了需要修改的內(nèi)容。GaLore方法則像是把復雜的修改建議簡化,只保留最重要的部分。MeZO(內(nèi)存高效零階優(yōu)化)通過直接嘗試不同的調(diào)整并觀察結(jié)果(而不是計算精確的修改建議),消除了對梯度和優(yōu)化器狀態(tài)的需求。

然而,這些方法都沒有同時解決三個主要內(nèi)存占用因素:模型權(quán)重、梯度和優(yōu)化器狀態(tài)。香港浸會大學的研究團隊提出的QZO方法,就是要在統(tǒng)一的框架下同時解決這三個問題。

二、QZO:量化零階優(yōu)化的創(chuàng)新之處

QZO方法的核心思想可以用一個簡單的類比來解釋:想象你正在微調(diào)一個巨大的音樂盒。傳統(tǒng)方法需要保存整個音樂盒的精確結(jié)構(gòu)(模型權(quán)重)、每個齒輪應(yīng)該如何調(diào)整的詳細說明(梯度)以及之前所有調(diào)整的歷史記錄(優(yōu)化器狀態(tài))。QZO則采取了完全不同的方法。

首先,QZO使用了"量化"技術(shù)來壓縮模型權(quán)重。這就像是把音樂盒的精細結(jié)構(gòu)簡化,用更粗略但足夠準確的表示方式記錄下來。具體來說,它將模型參數(shù)從bfloat16格式(占用16位)轉(zhuǎn)換為int4格式(只占用4位),從而將存儲空間減少了4倍。

其次,QZO采用了"零階優(yōu)化"方法,完全消除了對梯度和優(yōu)化器狀態(tài)的需求。傳統(tǒng)的優(yōu)化方法(如梯度下降)需要通過復雜的反向傳播計算梯度。而零階優(yōu)化則像是通過"試錯"來找到正確方向:它通過在前向傳遞過程中擾動權(quán)重,觀察結(jié)果變化來估計梯度方向。這就像是不需要知道齒輪的精確結(jié)構(gòu),只需要知道"向左轉(zhuǎn)會讓音樂變得更好聽,向右轉(zhuǎn)則會變差",從而調(diào)整音樂盒。

然而,直接將零階優(yōu)化應(yīng)用于量化后的模型是不可行的,因為量化后的權(quán)重是離散的,而梯度估計是連續(xù)的。這就像是無法用連續(xù)的旋轉(zhuǎn)來調(diào)整只能固定在特定位置的齒輪。研究團隊創(chuàng)新性地提出了解決方案:不直接擾動離散的權(quán)重,而是擾動連續(xù)的量化比例因子(quantization scale)。

想象一下,量化比例因子就像是音樂盒的"音量旋鈕",雖然齒輪結(jié)構(gòu)是固定的,但通過調(diào)整這個旋鈕,我們可以改變整體的聲音效果。QZO正是通過擾動這個連續(xù)的"旋鈕"來估計梯度并優(yōu)化模型。

此外,研究團隊還提出了一種"方向?qū)?shù)裁剪"方法來穩(wěn)定訓練過程。他們證明了這種裁剪方法本質(zhì)上減少了梯度估計的方差,從而使訓練更加穩(wěn)定。這就像是在調(diào)整音樂盒時,避免做出過于劇烈的調(diào)整,而是采取更加平穩(wěn)、可控的微調(diào)策略。

三、技術(shù)深入解析:從SPSA到Q-SPSA

為了理解QZO的技術(shù)細節(jié),我們需要先了解零階優(yōu)化的基礎(chǔ)——同步擾動隨機近似(SPSA)。SPSA是一種在無法直接計算或不可靠的目標函數(shù)梯度情況下使用的優(yōu)化方法。

想象你在完全黑暗中試圖找到一個山谷的最低點。傳統(tǒng)的方法是計算地形的斜率(即梯度),然后朝著下坡的方向移動。但在黑暗中,你無法直接看到斜率。SPSA相當于你隨機選擇一個方向,向前走一小步,再向后走一小步,比較這兩個位置的高度差。如果向前時高度降低,向后時高度增加,那么向前的方向很可能是下坡方向。

具體來說,SPSA通過以下公式估計梯度:

將模型參數(shù)θ沿著隨機方向z擾動一個小量ε,計算損失函數(shù)L在θ+εz和θ-εz處的值,然后通過差分近似計算梯度。

然而,這種方法無法直接應(yīng)用于量化后的神經(jīng)網(wǎng)絡(luò),因為量化后的權(quán)重是離散的,無法在連續(xù)空間中進行擾動,而且估計出的連續(xù)梯度也無法用于更新離散的量化權(quán)重。

研究團隊的創(chuàng)新在于提出了量化同步擾動隨機近似(Q-SPSA)。Q-SPSA不直接擾動離散的權(quán)重,而是擾動連續(xù)的量化比例因子。這就像是不改變音樂盒的基本結(jié)構(gòu),而只調(diào)整它的整體"音量"或"速度"。

具體來說,對于每個權(quán)重元素w,量化和反量化過程可以表示為:

w = ?w/Δ?(量化) w = Δ·w(反量化)

其中Δ是逐元素的量化比例因子,w是存儲在更低位中的量化對應(yīng)物。

Q-SPSA的核心思想是將模型參數(shù)分解為Δ⊙θ,然后擾動縮放分量Δ,同時保持離散權(quán)重θ不變。這樣,就可以在連續(xù)空間中進行擾動和優(yōu)化,同時保持量化的結(jié)構(gòu)。

此外,研究團隊還提出了方向?qū)?shù)裁剪(DDC)方法,用于穩(wěn)定訓練過程。DDC可以看作是對估計出的方向?qū)?shù)進行限制,避免出現(xiàn)過大的更新步長。研究團隊證明了DDC本質(zhì)上減少了梯度估計的方差,從而使訓練更加穩(wěn)定。

通過結(jié)合Q-SPSA和DDC,QZO成功地在統(tǒng)一框架下同時解決了模型權(quán)重、梯度和優(yōu)化器狀態(tài)的內(nèi)存消耗問題,大大降低了微調(diào)大型語言模型的內(nèi)存需求。

四、實驗驗證與性能對比

那么,QZO在實際應(yīng)用中表現(xiàn)如何呢?研究團隊在OPT-6.7B、Llama-2-7B和Llama-3.1-8B等不同的大型語言模型上進行了實驗,使用了多種量化方法,并在包括SST2、RTE、CB、BoolQ和SQuAD在內(nèi)的五個流行的自然語言處理基準測試上進行了評估。

實驗結(jié)果令人印象深刻。使用4位量化的QZO與使用16位的MeZO相比,在大多數(shù)數(shù)據(jù)集上性能相當,有時甚至表現(xiàn)更好,同時內(nèi)存使用量減少了3倍。例如,在使用Llama-2-7B模型的SQuAD數(shù)據(jù)集上,QZO達到了85.5分,超過了MeZO的80.7分。

更令人驚訝的是,QZO在極端量化情況下也表現(xiàn)出色。研究團隊成功地對Llama-2-13B模型進行了2位量化,并通過QZO進行了微調(diào),在各種自然語言處理任務(wù)上顯著優(yōu)于零樣本基線。

在內(nèi)存使用方面,與傳統(tǒng)的16位全參數(shù)微調(diào)相比,QZO在4位量化的大型語言模型上將總內(nèi)存成本降低了18倍以上。這使得在單個24GB的GPU上微調(diào)Llama-2-13B和Stable Diffusion 3.5 Large等大型模型成為可能。

以Stable Diffusion 3.5 Large為例,這個模型包含VAE、DiT和三個文本編碼器(CLIP-ViT/G、CLIP-ViT/L和T5-XXL)。使用fp16/bf16進行常規(guī)訓練需要0.37GB用于VAE,21.26GB用于文本編碼器,16.2GB用于DiT,16.2GB用于梯度,32.4GB用于優(yōu)化器狀態(tài),總共需要86.43GB的內(nèi)存。而QZO只需要12.4GB的內(nèi)存就可以微調(diào)這個模型,可以輕松地在單個NVIDIA RTX 4090 GPU(24GB)上運行。這是首次證明可以在消費級GPU上微調(diào)Stable Diffusion 3.5 Large。

五、局限性與未來展望

盡管QZO取得了顯著的成果,但研究團隊也坦率地指出了一些局限性和未來的研究方向。

首先,QZO的性能在很大程度上依賴于量化方法的質(zhì)量。如果量化方法存在較大的量化誤差,會使零階優(yōu)化中的前向傳遞變得嘈雜,從而使梯度估計不那么準確。不過,改進量化方法超出了本研究的范圍。

其次,QZO在擴散模型(如Stable Diffusion)上的表現(xiàn)不如在大型語言模型上那么出色。這可能是由于零階優(yōu)化中的噪聲擾動與擴散過程中的噪聲調(diào)度之間的不匹配造成的。一個潛在的解決方案是重新設(shè)計零階優(yōu)化中的噪聲調(diào)度,使其與擴散過程保持一致。

最后,QZO與全精度微調(diào)之間的性能差距仍然存在。為了縮小這個差距,需要顯著提高零階優(yōu)化中的梯度估計準確性。

展望未來,研究團隊認為QZO有潛力應(yīng)用于邊緣設(shè)備的在線學習場景,使得即使是計算資源有限的設(shè)備也能進行模型微調(diào)和適應(yīng)。此外,隨著量化方法的不斷改進和零階優(yōu)化技術(shù)的發(fā)展,QZO的性能有望進一步提升。

六、結(jié)論與啟示

QZO為微調(diào)量化神經(jīng)網(wǎng)絡(luò)提供了一種新的范式,通過零階優(yōu)化大大減少了與模型權(quán)重、梯度和優(yōu)化器狀態(tài)相關(guān)的內(nèi)存使用。實驗結(jié)果表明,QZO適用于各種大型語言模型,并且與標量為基礎(chǔ)和基于碼本的量化方法都兼容。

對于研究人員和開發(fā)者來說,QZO的意義在于它打破了計算資源的限制,使得即使是資源有限的團隊也能參與到大型語言模型的微調(diào)和創(chuàng)新中來。這就像是民主化了人工智能技術(shù),讓更多人能夠參與到前沿的AI研究和應(yīng)用中。

對于普通用戶來說,QZO的意義在于它可能會加速AI技術(shù)的普及和應(yīng)用。當更多的開發(fā)者能夠微調(diào)大型語言模型時,我們可能會看到更多針對特定領(lǐng)域和任務(wù)的優(yōu)化AI應(yīng)用出現(xiàn),從而使AI技術(shù)在日常生活中變得更加有用和易于獲取。

歸根結(jié)底,QZO代表了一種思維方式的轉(zhuǎn)變:不是簡單地追求更大、更復雜的模型,而是尋找更聰明、更高效的方法來利用現(xiàn)有的計算資源。在AI技術(shù)快速發(fā)展的今天,這種思維方式尤為重要,因為它可以確保AI技術(shù)的發(fā)展方向不僅是更強大,還是更加可持續(xù)和包容的。

如果你對這項研究感興趣,可以通過arXiv:2505.13430v1查閱完整論文,或者訪問研究團隊的GitHub倉庫:https://github.com/maifoundations/QZO。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-