在我們使用ChatGPT、Claude或文心一言這樣的大語言模型時,你是否注意到它們在生成文本時有時會有點"卡頓"?這種延遲不是因為這些AI不夠聰明,而是因為它們生成文本的方式存在內(nèi)在瓶頸。2025年5月,來自中國科學(xué)院深圳先進(jìn)技術(shù)研究院、中國科學(xué)院大學(xué)、新加坡科技設(shè)計大學(xué)、新南威爾士大學(xué)和Ritzz-AI的研究團(tuán)隊聯(lián)合發(fā)表了一項名為"CLaSp:用于自我推測解碼的上下文層跳過"的研究,旨在解決這一問題。論文發(fā)表于arXiv預(yù)印本平臺,編號為2505.24196v1。
想象一下,當(dāng)你使用ChatGPT時,AI需要一個一個地生成單詞,就像一個人一次只能寫一個字一樣。這種方式雖然確保了文本質(zhì)量,但速度較慢。研究人員發(fā)現(xiàn),如果AI能夠"猜測"接下來的幾個單詞,然后一次性驗證這些猜測,就能大大提高生成速度。這就是所謂的"推測解碼"技術(shù)。
傳統(tǒng)的推測解碼需要兩個模型:一個負(fù)責(zé)"猜測"(草稿模型),另一個負(fù)責(zé)"驗證"(驗證模型)。問題在于,為每個大語言模型專門訓(xùn)練一個匹配的草稿模型既費時又費力。這就像為每個廚師配備一個專門的助手,而且這個助手必須完全了解廚師的烹飪風(fēng)格才能有效協(xié)助。
CLaSp提出了一個聰明的解決方案:不需要額外的助手,而是讓廚師(大語言模型)自己"偷懶",在某些步驟中跳過一些烹飪程序,從而加快整個過程。更專業(yè)地說,CLaSp讓AI在生成草稿文本時略過原始模型中的一些中間層計算,然后在驗證階段使用完整模型。關(guān)鍵創(chuàng)新在于,CLaSp能夠根據(jù)當(dāng)前生成的文本內(nèi)容實時調(diào)整哪些層可以被跳過,就像廚師根據(jù)當(dāng)前烹飪的菜肴自動決定哪些步驟可以簡化一樣。
這種方法不需要額外訓(xùn)練,可以即插即用,適用于各種大語言模型。研究團(tuán)隊在LLaMA3系列模型上進(jìn)行了測試,發(fā)現(xiàn)CLaSp能夠?qū)⑽谋旧伤俣忍岣?.3到1.7倍,而且不會改變生成文本的質(zhì)量。這意味著用戶能夠獲得更快的AI響應(yīng),同時保持回答的準(zhǔn)確性和連貫性。
一、推測解碼:加速AI文本生成的關(guān)鍵技術(shù)
首先,我們需要理解為什么大語言模型生成文本會有延遲。想象一下一個自動售票機,每次只能處理一個人的票務(wù)。如果有100個人排隊,那么第100個人必須等待前面99個人都完成才能買到票。大語言模型也是如此,它們采用"自回歸"方式生成文本,即一次只能生成一個單詞(或稱為"標(biāo)記"),然后基于已生成的內(nèi)容繼續(xù)生成下一個。
這種方式導(dǎo)致了一個問題:即使擁有強大的計算資源,大部分GPU(圖形處理單元,AI的計算引擎)在處理過程中也處于"閑置"狀態(tài),因為它們在等待前一個單詞生成完畢。就像一個多車道高速公路上只有一輛車在行駛,其他車道完全空著,這是對資源的巨大浪費。
推測解碼技術(shù)借鑒了計算機系統(tǒng)中的"推測執(zhí)行"概念,它允許AI"預(yù)測"接下來可能出現(xiàn)的多個單詞,然后一次性驗證這些預(yù)測。想象一個餐廳服務(wù)員不等你點完所有菜就預(yù)先猜測你可能想點的幾道菜,然后一次性確認(rèn)——如果猜對了,就節(jié)省了來回多次確認(rèn)的時間。
傳統(tǒng)的推測解碼需要兩個模型:一個輕量級的"草稿模型"快速生成候選單詞,一個完整的"驗證模型"檢查這些單詞是否正確。如果驗證通過,那么這些單詞就被接受;如果驗證失敗,則從失敗點重新開始生成。
這種方法的挑戰(zhàn)在于找到或訓(xùn)練一個與驗證模型行為一致的草稿模型。對于開源模型(如LLaMA系列),可以專門訓(xùn)練匹配的草稿模型。但對于那些專業(yè)或閉源的模型,找到合適的草稿模型變得異常困難。
二、CLaSp:動態(tài)層跳過的創(chuàng)新方法
CLaSp提出了一個巧妙的解決方案:不需要額外的模型,而是讓原始模型自己充當(dāng)"草稿模型",方法是跳過部分中間計算層。這就像一個熟練的廚師在準(zhǔn)備簡單菜肴時,可以跳過一些不必要的準(zhǔn)備步驟,直接進(jìn)入關(guān)鍵烹飪環(huán)節(jié)。
傳統(tǒng)的自我推測解碼方法(Self-SD)也采用了類似的層跳過策略,但它們依賴于耗時的貝葉斯優(yōu)化過程來預(yù)先確定一組固定的層跳過配置。這就像廚師需要提前嚴(yán)格規(guī)定每道菜都跳過哪些步驟,無法根據(jù)實際烹飪過程進(jìn)行調(diào)整。而實際上,不同的菜肴(或在AI中,不同的生成內(nèi)容)可能需要不同的簡化策略。
CLaSp的關(guān)鍵創(chuàng)新在于它能夠在生成過程中動態(tài)調(diào)整跳過哪些層。想象一個廚師在烹飪過程中,根據(jù)當(dāng)前做的菜肴和進(jìn)展情況,實時決定哪些步驟可以簡化,哪些步驟必須仔細(xì)執(zhí)行。具體來說,CLaSp使用動態(tài)規(guī)劃算法,通過利用上一次驗證階段的完整隱藏狀態(tài)作為目標(biāo),優(yōu)化層跳過過程。
這種方法帶來了兩個主要挑戰(zhàn):一是如何確定哪些層應(yīng)該被跳過,二是如何減少層優(yōu)化引入的額外延遲。為解決這些問題,研究團(tuán)隊設(shè)計了一個近似動態(tài)規(guī)劃算法,并實現(xiàn)了序列并行化以提高效率。
對于第一個挑戰(zhàn),CLaSp利用了一個重要觀察:transformer模型的嵌入在不同層之間變化緩慢。這就像烹飪過程中,某些步驟對最終菜肴的影響較小,可以被簡化或跳過。基于這一觀察,CLaSp在驗證階段后,使用上一個被接受的標(biāo)記的完整隱藏狀態(tài)作為"地面真相",預(yù)測并調(diào)整下一輪草稿階段的最佳層跳過策略。
對于第二個挑戰(zhàn),CLaSp采用了兩種優(yōu)化策略:序列并行化和降低優(yōu)化頻率。序列并行化允許在單個前向傳遞中處理多個狀態(tài),而降低優(yōu)化頻率則基于"稀疏持久性"觀察——相鄰標(biāo)記所需的層跳過策略通常非常相似,因此不需要在每個驗證步驟后都更新策略。
三、CLaSp的工作流程:三步走的加速方案
CLaSp的工作流程可以分為三個階段:草稿生成、驗證和層優(yōu)化。
第一階段是草稿生成。在這一階段,模型跳過預(yù)先確定的一些中間層,快速生成一系列候選標(biāo)記。想象一個作家在創(chuàng)作初稿時,不過多關(guān)注語法和措辭的精確性,而是快速將想法轉(zhuǎn)化為文字。
第二階段是驗證。在這一階段,完整模型對草稿階段生成的標(biāo)記進(jìn)行驗證。它在單個前向傳遞中預(yù)測每個草稿標(biāo)記的概率分布,并評估它們是否與完整模型的預(yù)測一致。一旦某個草稿標(biāo)記被拒絕,完整模型的預(yù)測將覆蓋該標(biāo)記,并從該點重新開始草稿生成。這就像編輯審查初稿,發(fā)現(xiàn)問題后修正并繼續(xù)向前。
第三階段是層優(yōu)化。使用最后一個被接受的標(biāo)記的隱藏狀態(tài)作為優(yōu)化目標(biāo),CLaSp更新最佳層跳過策略,指導(dǎo)下一輪草稿生成。這就像作家根據(jù)編輯的反饋,調(diào)整自己的寫作策略以提高初稿質(zhì)量。
CLaSp的動態(tài)規(guī)劃算法是其核心創(chuàng)新。該算法定義了一個轉(zhuǎn)移方程,用于計算在前i個transformer層中跳過j層的情況下,所得隱藏狀態(tài)與最優(yōu)隱藏狀態(tài)之間的最大余弦相似度。通過維護(hù)一個狀態(tài)矩陣,算法能夠高效地找到近似最優(yōu)的層跳過策略。
盡管動態(tài)規(guī)劃通常要求滿足"無后效性"(當(dāng)前決策只依賴于當(dāng)前狀態(tài),而非歷史狀態(tài)),但研究團(tuán)隊發(fā)現(xiàn),由于transformer模型的嵌入在層間變化緩慢的特性,CLaSp的近似算法表現(xiàn)接近于暴力搜索的最優(yōu)解,遠(yuǎn)優(yōu)于隨機選擇層的效果。
為了進(jìn)一步提高效率,CLaSp實現(xiàn)了序列并行化,利用GPU并行計算的能力。當(dāng)計算狀態(tài)(i,j)時,只需要(i-1,·)的狀態(tài),這使得對于相同i值的不同j值的計算可以獨立進(jìn)行。此外,研究團(tuán)隊設(shè)計了一個專門的掩碼矩陣,允許將這些狀態(tài)作為序列并行化,而無需重復(fù)KV緩存,顯著提高了內(nèi)存效率。
四、實驗結(jié)果:速度與質(zhì)量的完美平衡
研究團(tuán)隊在LLaMA3系列模型上使用Spec-Bench評估了CLaSp的性能。Spec-Bench是一個綜合性推測解碼評估基準(zhǔn),涵蓋了多種不同場景的數(shù)據(jù)集,包括多輪對話、翻譯、摘要、問答、數(shù)學(xué)推理和檢索增強生成等任務(wù)。
實驗結(jié)果表明,CLaSp在不同模型和任務(wù)上始終如一地實現(xiàn)了1.3到1.7倍的加速,同時保持了生成文本的原始分布不變。與現(xiàn)有的訓(xùn)練自由層跳過方法(如Self-SD和SWIFT)相比,CLaSp展現(xiàn)出更優(yōu)的性能,尤其是在處理數(shù)據(jù)量有限的情況下。
CLaSp的效率主要歸功于其有效利用模型層稀疏性的能力。在實驗中,通過跳過50%到60%的層,CLaSp能夠同時保持高平均接受長度和接受率,從而實現(xiàn)更高的加速比。一般來說,更長的接受長度會導(dǎo)致更高的加速比。不過,研究團(tuán)隊也觀察到,在某些情況下,盡管接受長度較長,但加速比依然較低,這是因為生成額外的標(biāo)記增加了時間消耗,降低了接受率和整體加速比。
CLaSp在較大模型(如LLaMA3-70B)上的性能優(yōu)勢更為明顯,相比于較小模型(如LLaMA2-13B和LLaMA3-8B)。這表明CLaSp能夠更好地利用較大模型中存在的更大層稀疏性,提高適應(yīng)性和效率。
研究團(tuán)隊還分析了三個關(guān)鍵超參數(shù)對加速效果的影響:跳過層數(shù)、層優(yōu)化間隔和草稿退出閾值。
對于跳過層數(shù),研究團(tuán)隊發(fā)現(xiàn),對于由80層組成的LLaMA3-70B模型,隨著跳過層數(shù)的增加,加速比逐漸上升,在跳過44層時達(dá)到最優(yōu)值1.64倍。超過這一點,更長的平均接受長度帶來的好處被生成高質(zhì)量草稿的增加成本所抵消,導(dǎo)致加速比下降。
對于層優(yōu)化間隔,延長優(yōu)化間隔可以減少動態(tài)規(guī)劃引入的額外延遲,同時對平均接受長度的影響較小。實驗表明,隨著優(yōu)化間隔的增加,加速比先上升后下降,在間隔為128時開始明顯下降,這是由于平均接受長度的顯著下降對整體加速比產(chǎn)生了負(fù)面影響。
對于草稿退出閾值,研究團(tuán)隊發(fā)現(xiàn)調(diào)整閾值在0.7左右時能獲得最高加速比。即使在較高閾值下,加速比仍然保持較高水平,這表明該參數(shù)對于實現(xiàn)加速效果具有較強的魯棒性。
五、CLaSp的擴展性與未來展望
為了評估CLaSp的可擴展性,研究團(tuán)隊在不同規(guī)模的模型上進(jìn)行了測試,包括LLaMA2-13B和LLaMA3.1-405B,以及LLaMA3-8B和LLaMA3-70B。對于LLaMA2-13B,模型部署在單個A800 GPU上使用FP16精度;對于LLaMA3.1-405B,則使用INT8量化在8個A800 GPU上部署。
實驗結(jié)果表明,隨著模型規(guī)模的增加,在各種任務(wù)上的加速比都有所提高。具體來說,在MT-bench上,加速比從LLaMA3-8B的1.24倍提高到LLaMA3.1-405B的1.73倍;在GSM8K基準(zhǔn)測試上,加速比從1.26倍提高到1.81倍;在Natural Questions基準(zhǔn)測試上,加速比從1.27倍提高到1.82倍。這些結(jié)果表明,更大的模型展現(xiàn)出更強的層稀疏性,使CLaSp能夠更有效地發(fā)揮其能力并實現(xiàn)更大的加速。
總的來說,CLaSp的出色表現(xiàn)證明了它作為一種即插即用解決方案的有效性,為各種大語言模型提供了一種通用的推理加速方法。它不需要額外的訓(xùn)練或復(fù)雜的模塊,只需要簡單地調(diào)整現(xiàn)有模型的計算流程,就能顯著提高推理速度,同時保持生成質(zhì)量。
未來的研究方向可能包括進(jìn)一步探索如何更好地利用大語言模型的層稀疏性,以在更大規(guī)模的模型中進(jìn)一步降低推理延遲。此外,CLaSp與其他推測解碼創(chuàng)新的結(jié)合也是一個有潛力的研究方向,可能帶來更顯著的加速效果。
CLaSp的研究不僅為大語言模型的推理加速提供了一種實用的解決方案,也為我們理解大型神經(jīng)網(wǎng)絡(luò)的內(nèi)部工作機制提供了新的視角。它揭示了大語言模型中存在的層冗余現(xiàn)象,以及如何利用這種冗余來提高計算效率。這些發(fā)現(xiàn)對于未來設(shè)計更高效的神經(jīng)網(wǎng)絡(luò)架構(gòu)具有重要啟示。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學(xué)習(xí)外觀和運動信息,顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報,準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。