av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁(yè) 讓AI模型"瘦身"學(xué)習(xí)新技能:香港浸會(huì)大學(xué)開創(chuàng)量化神經(jīng)網(wǎng)絡(luò)零階優(yōu)化新方法

讓AI模型"瘦身"學(xué)習(xí)新技能:香港浸會(huì)大學(xué)開創(chuàng)量化神經(jīng)網(wǎng)絡(luò)零階優(yōu)化新方法

2025-05-26 17:03
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-26 17:03 ? 科技行者

在人工智能快速發(fā)展的今天,大型語言模型(LLM)變得越來越龐大,它們的訓(xùn)練和調(diào)整需要耗費(fèi)巨大的計(jì)算資源。2025年5月,由香港浸會(huì)大學(xué)的商思峰、周嘉怡、林晨宇和南京理工大學(xué)的李敏賢,以及香港浸會(huì)大學(xué)的周凱陽(yáng)教授共同發(fā)表了一篇?jiǎng)?chuàng)新性論文《使用零階優(yōu)化微調(diào)量化神經(jīng)網(wǎng)絡(luò)》(Fine-tuning Quantized Neural Networks with Zeroth-order Optimization)。這篇論文提出了一種名為"量化零階優(yōu)化"(QZO)的新方法,旨在大幅降低微調(diào)大型語言模型所需的內(nèi)存消耗。有興趣深入了解的讀者可以通過arXiv:2505.13430v1在arXiv上訪問完整論文。

想象一下,你有一輛非常耗油的豪華汽車(比如大型語言模型),但你只想在城市中短途使用它。傳統(tǒng)上,即使是短程駕駛,這輛車也會(huì)消耗大量燃油。香港浸會(huì)大學(xué)的研究團(tuán)隊(duì)相當(dāng)于發(fā)明了一種方法,可以讓這輛豪華車在保持基本性能的同時(shí),大幅降低油耗,使普通人也能負(fù)擔(dān)得起日常使用。

讓我們深入理解一下這項(xiàng)研究的背景?,F(xiàn)代的大型語言模型規(guī)模越來越大,參數(shù)數(shù)量呈指數(shù)級(jí)增長(zhǎng)。以Llama-7B模型為例,如果使用bfloat16(一種存儲(chǔ)數(shù)字的格式)存儲(chǔ),僅僅是微調(diào)這個(gè)模型就需要56GB的GPU內(nèi)存:14GB用于模型權(quán)重,14GB用于梯度,另外28GB用于優(yōu)化器狀態(tài)(如AdamW中的一階矩和二階矩,它們占用了梯度兩倍的空間)。這使得擁有有限計(jì)算資源的研究人員和開發(fā)者幾乎不可能微調(diào)大型語言模型。

簡(jiǎn)單地說,微調(diào)大型語言模型就像是想要改裝一輛復(fù)雜的賽車,但需要一個(gè)巨大的車庫(kù)和昂貴的專業(yè)工具。絕大多數(shù)人沒有這樣的條件,于是許多潛在的創(chuàng)新應(yīng)用就被卡在了起跑線上。香港浸會(huì)大學(xué)的研究團(tuán)隊(duì)提出的QZO方法,就像是發(fā)明了一種方法,可以在普通家庭車庫(kù)中用常見工具改裝這輛賽車,讓普通開發(fā)者也能參與到人工智能的創(chuàng)新中來。

一、內(nèi)存瓶頸與現(xiàn)有解決方案

當(dāng)我們談?wù)撐⒄{(diào)大型語言模型時(shí),主要有四個(gè)組件會(huì)占用GPU內(nèi)存:模型權(quán)重、梯度、優(yōu)化器狀態(tài)和用于計(jì)算梯度的激活值。其中,激活值主要受批量大小的影響,而前三個(gè)組件則是目前內(nèi)存效率訓(xùn)練方法主要關(guān)注的目標(biāo)。

想象一下,模型權(quán)重就像是一本巨大的食譜書,記錄了AI模型如何"烹飪"輸入數(shù)據(jù)得到輸出結(jié)果。梯度則是對(duì)這本食譜的修改建議,記錄了應(yīng)該如何調(diào)整每個(gè)步驟。優(yōu)化器狀態(tài)則像是廚師的筆記本,記錄了之前所有的修改建議,以便做出更明智的調(diào)整。當(dāng)我們微調(diào)模型時(shí),需要同時(shí)保存這本食譜書、修改建議和筆記本,這就占用了大量的內(nèi)存空間。

現(xiàn)有的解決方案各有側(cè)重。例如,LoRA(低秩適應(yīng))方法就像是只修改食譜中的關(guān)鍵步驟,而不是整本食譜,從而減少了需要修改的內(nèi)容。GaLore方法則像是把復(fù)雜的修改建議簡(jiǎn)化,只保留最重要的部分。MeZO(內(nèi)存高效零階優(yōu)化)通過直接嘗試不同的調(diào)整并觀察結(jié)果(而不是計(jì)算精確的修改建議),消除了對(duì)梯度和優(yōu)化器狀態(tài)的需求。

然而,這些方法都沒有同時(shí)解決三個(gè)主要內(nèi)存占用因素:模型權(quán)重、梯度和優(yōu)化器狀態(tài)。香港浸會(huì)大學(xué)的研究團(tuán)隊(duì)提出的QZO方法,就是要在統(tǒng)一的框架下同時(shí)解決這三個(gè)問題。

二、QZO:量化零階優(yōu)化的創(chuàng)新之處

QZO方法的核心思想可以用一個(gè)簡(jiǎn)單的類比來解釋:想象你正在微調(diào)一個(gè)巨大的音樂盒。傳統(tǒng)方法需要保存整個(gè)音樂盒的精確結(jié)構(gòu)(模型權(quán)重)、每個(gè)齒輪應(yīng)該如何調(diào)整的詳細(xì)說明(梯度)以及之前所有調(diào)整的歷史記錄(優(yōu)化器狀態(tài))。QZO則采取了完全不同的方法。

首先,QZO使用了"量化"技術(shù)來壓縮模型權(quán)重。這就像是把音樂盒的精細(xì)結(jié)構(gòu)簡(jiǎn)化,用更粗略但足夠準(zhǔn)確的表示方式記錄下來。具體來說,它將模型參數(shù)從bfloat16格式(占用16位)轉(zhuǎn)換為int4格式(只占用4位),從而將存儲(chǔ)空間減少了4倍。

其次,QZO采用了"零階優(yōu)化"方法,完全消除了對(duì)梯度和優(yōu)化器狀態(tài)的需求。傳統(tǒng)的優(yōu)化方法(如梯度下降)需要通過復(fù)雜的反向傳播計(jì)算梯度。而零階優(yōu)化則像是通過"試錯(cuò)"來找到正確方向:它通過在前向傳遞過程中擾動(dòng)權(quán)重,觀察結(jié)果變化來估計(jì)梯度方向。這就像是不需要知道齒輪的精確結(jié)構(gòu),只需要知道"向左轉(zhuǎn)會(huì)讓音樂變得更好聽,向右轉(zhuǎn)則會(huì)變差",從而調(diào)整音樂盒。

然而,直接將零階優(yōu)化應(yīng)用于量化后的模型是不可行的,因?yàn)榱炕蟮臋?quán)重是離散的,而梯度估計(jì)是連續(xù)的。這就像是無法用連續(xù)的旋轉(zhuǎn)來調(diào)整只能固定在特定位置的齒輪。研究團(tuán)隊(duì)創(chuàng)新性地提出了解決方案:不直接擾動(dòng)離散的權(quán)重,而是擾動(dòng)連續(xù)的量化比例因子(quantization scale)。

想象一下,量化比例因子就像是音樂盒的"音量旋鈕",雖然齒輪結(jié)構(gòu)是固定的,但通過調(diào)整這個(gè)旋鈕,我們可以改變整體的聲音效果。QZO正是通過擾動(dòng)這個(gè)連續(xù)的"旋鈕"來估計(jì)梯度并優(yōu)化模型。

此外,研究團(tuán)隊(duì)還提出了一種"方向?qū)?shù)裁剪"方法來穩(wěn)定訓(xùn)練過程。他們證明了這種裁剪方法本質(zhì)上減少了梯度估計(jì)的方差,從而使訓(xùn)練更加穩(wěn)定。這就像是在調(diào)整音樂盒時(shí),避免做出過于劇烈的調(diào)整,而是采取更加平穩(wěn)、可控的微調(diào)策略。

三、技術(shù)深入解析:從SPSA到Q-SPSA

為了理解QZO的技術(shù)細(xì)節(jié),我們需要先了解零階優(yōu)化的基礎(chǔ)——同步擾動(dòng)隨機(jī)近似(SPSA)。SPSA是一種在無法直接計(jì)算或不可靠的目標(biāo)函數(shù)梯度情況下使用的優(yōu)化方法。

想象你在完全黑暗中試圖找到一個(gè)山谷的最低點(diǎn)。傳統(tǒng)的方法是計(jì)算地形的斜率(即梯度),然后朝著下坡的方向移動(dòng)。但在黑暗中,你無法直接看到斜率。SPSA相當(dāng)于你隨機(jī)選擇一個(gè)方向,向前走一小步,再向后走一小步,比較這兩個(gè)位置的高度差。如果向前時(shí)高度降低,向后時(shí)高度增加,那么向前的方向很可能是下坡方向。

具體來說,SPSA通過以下公式估計(jì)梯度:

將模型參數(shù)θ沿著隨機(jī)方向z擾動(dòng)一個(gè)小量ε,計(jì)算損失函數(shù)L在θ+εz和θ-εz處的值,然后通過差分近似計(jì)算梯度。

然而,這種方法無法直接應(yīng)用于量化后的神經(jīng)網(wǎng)絡(luò),因?yàn)榱炕蟮臋?quán)重是離散的,無法在連續(xù)空間中進(jìn)行擾動(dòng),而且估計(jì)出的連續(xù)梯度也無法用于更新離散的量化權(quán)重。

研究團(tuán)隊(duì)的創(chuàng)新在于提出了量化同步擾動(dòng)隨機(jī)近似(Q-SPSA)。Q-SPSA不直接擾動(dòng)離散的權(quán)重,而是擾動(dòng)連續(xù)的量化比例因子。這就像是不改變音樂盒的基本結(jié)構(gòu),而只調(diào)整它的整體"音量"或"速度"。

具體來說,對(duì)于每個(gè)權(quán)重元素w,量化和反量化過程可以表示為:

w = ?w/Δ?(量化) w = Δ·w(反量化)

其中Δ是逐元素的量化比例因子,w是存儲(chǔ)在更低位中的量化對(duì)應(yīng)物。

Q-SPSA的核心思想是將模型參數(shù)分解為Δ⊙θ,然后擾動(dòng)縮放分量Δ,同時(shí)保持離散權(quán)重θ不變。這樣,就可以在連續(xù)空間中進(jìn)行擾動(dòng)和優(yōu)化,同時(shí)保持量化的結(jié)構(gòu)。

此外,研究團(tuán)隊(duì)還提出了方向?qū)?shù)裁剪(DDC)方法,用于穩(wěn)定訓(xùn)練過程。DDC可以看作是對(duì)估計(jì)出的方向?qū)?shù)進(jìn)行限制,避免出現(xiàn)過大的更新步長(zhǎng)。研究團(tuán)隊(duì)證明了DDC本質(zhì)上減少了梯度估計(jì)的方差,從而使訓(xùn)練更加穩(wěn)定。

通過結(jié)合Q-SPSA和DDC,QZO成功地在統(tǒng)一框架下同時(shí)解決了模型權(quán)重、梯度和優(yōu)化器狀態(tài)的內(nèi)存消耗問題,大大降低了微調(diào)大型語言模型的內(nèi)存需求。

四、實(shí)驗(yàn)驗(yàn)證與性能對(duì)比

那么,QZO在實(shí)際應(yīng)用中表現(xiàn)如何呢?研究團(tuán)隊(duì)在OPT-6.7B、Llama-2-7B和Llama-3.1-8B等不同的大型語言模型上進(jìn)行了實(shí)驗(yàn),使用了多種量化方法,并在包括SST2、RTE、CB、BoolQ和SQuAD在內(nèi)的五個(gè)流行的自然語言處理基準(zhǔn)測(cè)試上進(jìn)行了評(píng)估。

實(shí)驗(yàn)結(jié)果令人印象深刻。使用4位量化的QZO與使用16位的MeZO相比,在大多數(shù)數(shù)據(jù)集上性能相當(dāng),有時(shí)甚至表現(xiàn)更好,同時(shí)內(nèi)存使用量減少了3倍。例如,在使用Llama-2-7B模型的SQuAD數(shù)據(jù)集上,QZO達(dá)到了85.5分,超過了MeZO的80.7分。

更令人驚訝的是,QZO在極端量化情況下也表現(xiàn)出色。研究團(tuán)隊(duì)成功地對(duì)Llama-2-13B模型進(jìn)行了2位量化,并通過QZO進(jìn)行了微調(diào),在各種自然語言處理任務(wù)上顯著優(yōu)于零樣本基線。

在內(nèi)存使用方面,與傳統(tǒng)的16位全參數(shù)微調(diào)相比,QZO在4位量化的大型語言模型上將總內(nèi)存成本降低了18倍以上。這使得在單個(gè)24GB的GPU上微調(diào)Llama-2-13B和Stable Diffusion 3.5 Large等大型模型成為可能。

以Stable Diffusion 3.5 Large為例,這個(gè)模型包含VAE、DiT和三個(gè)文本編碼器(CLIP-ViT/G、CLIP-ViT/L和T5-XXL)。使用fp16/bf16進(jìn)行常規(guī)訓(xùn)練需要0.37GB用于VAE,21.26GB用于文本編碼器,16.2GB用于DiT,16.2GB用于梯度,32.4GB用于優(yōu)化器狀態(tài),總共需要86.43GB的內(nèi)存。而QZO只需要12.4GB的內(nèi)存就可以微調(diào)這個(gè)模型,可以輕松地在單個(gè)NVIDIA RTX 4090 GPU(24GB)上運(yùn)行。這是首次證明可以在消費(fèi)級(jí)GPU上微調(diào)Stable Diffusion 3.5 Large。

五、局限性與未來展望

盡管QZO取得了顯著的成果,但研究團(tuán)隊(duì)也坦率地指出了一些局限性和未來的研究方向。

首先,QZO的性能在很大程度上依賴于量化方法的質(zhì)量。如果量化方法存在較大的量化誤差,會(huì)使零階優(yōu)化中的前向傳遞變得嘈雜,從而使梯度估計(jì)不那么準(zhǔn)確。不過,改進(jìn)量化方法超出了本研究的范圍。

其次,QZO在擴(kuò)散模型(如Stable Diffusion)上的表現(xiàn)不如在大型語言模型上那么出色。這可能是由于零階優(yōu)化中的噪聲擾動(dòng)與擴(kuò)散過程中的噪聲調(diào)度之間的不匹配造成的。一個(gè)潛在的解決方案是重新設(shè)計(jì)零階優(yōu)化中的噪聲調(diào)度,使其與擴(kuò)散過程保持一致。

最后,QZO與全精度微調(diào)之間的性能差距仍然存在。為了縮小這個(gè)差距,需要顯著提高零階優(yōu)化中的梯度估計(jì)準(zhǔn)確性。

展望未來,研究團(tuán)隊(duì)認(rèn)為QZO有潛力應(yīng)用于邊緣設(shè)備的在線學(xué)習(xí)場(chǎng)景,使得即使是計(jì)算資源有限的設(shè)備也能進(jìn)行模型微調(diào)和適應(yīng)。此外,隨著量化方法的不斷改進(jìn)和零階優(yōu)化技術(shù)的發(fā)展,QZO的性能有望進(jìn)一步提升。

六、結(jié)論與啟示

QZO為微調(diào)量化神經(jīng)網(wǎng)絡(luò)提供了一種新的范式,通過零階優(yōu)化大大減少了與模型權(quán)重、梯度和優(yōu)化器狀態(tài)相關(guān)的內(nèi)存使用。實(shí)驗(yàn)結(jié)果表明,QZO適用于各種大型語言模型,并且與標(biāo)量為基礎(chǔ)和基于碼本的量化方法都兼容。

對(duì)于研究人員和開發(fā)者來說,QZO的意義在于它打破了計(jì)算資源的限制,使得即使是資源有限的團(tuán)隊(duì)也能參與到大型語言模型的微調(diào)和創(chuàng)新中來。這就像是民主化了人工智能技術(shù),讓更多人能夠參與到前沿的AI研究和應(yīng)用中。

對(duì)于普通用戶來說,QZO的意義在于它可能會(huì)加速AI技術(shù)的普及和應(yīng)用。當(dāng)更多的開發(fā)者能夠微調(diào)大型語言模型時(shí),我們可能會(huì)看到更多針對(duì)特定領(lǐng)域和任務(wù)的優(yōu)化AI應(yīng)用出現(xiàn),從而使AI技術(shù)在日常生活中變得更加有用和易于獲取。

歸根結(jié)底,QZO代表了一種思維方式的轉(zhuǎn)變:不是簡(jiǎn)單地追求更大、更復(fù)雜的模型,而是尋找更聰明、更高效的方法來利用現(xiàn)有的計(jì)算資源。在AI技術(shù)快速發(fā)展的今天,這種思維方式尤為重要,因?yàn)樗梢源_保AI技術(shù)的發(fā)展方向不僅是更強(qiáng)大,還是更加可持續(xù)和包容的。

如果你對(duì)這項(xiàng)研究感興趣,可以通過arXiv:2505.13430v1查閱完整論文,或者訪問研究團(tuán)隊(duì)的GitHub倉(cāng)庫(kù):https://github.com/maifoundations/QZO。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-