近日,來自華盛頓圣路易斯大學(xué)和卡內(nèi)基梅隆大學(xué)的研究團隊發(fā)表了一項關(guān)于大型語言模型(LLM)加速技術(shù)的重要研究。這項由Langlin Huang、Chengsong Huang、Jixuan Leng、Di Huang和Jiaxin Huang共同完成的研究,于2025年6月4日發(fā)表在arXiv預(yù)印本平臺上,論文編號為2506.03566v1,提出了名為"位置專家"(PosS)的創(chuàng)新技術(shù),旨在提高推測性解碼的效率。有興趣深入了解的讀者可通過GitHub(https://github.com/shrango/PosS)獲取相關(guān)代碼。
想象一下,你正在等待一個人說一個很長的句子。但這個人說話特別慢,你經(jīng)常能猜到他接下來要說的幾個詞。如果你能快速地說出你猜的內(nèi)容,而他只需要點頭或搖頭確認(rèn),整個對話就會變得更加高效。這正是"推測性解碼"技術(shù)的核心理念——使用一個小型、快速的"草稿模型"來預(yù)測大型語言模型可能生成的下一批詞匯,然后讓大模型一次性驗證這些預(yù)測是否正確,從而加速整個生成過程。
然而,現(xiàn)有技術(shù)面臨一個棘手的問題:隨著預(yù)測位置的深入,草稿模型的準(zhǔn)確率會迅速下降。就像猜別人的話,猜第一個詞可能相對容易,但要連續(xù)猜對五六個詞就變得非常困難了。這個問題限制了推測性解碼的效率,也是本研究著力解決的核心挑戰(zhàn)。
華盛頓大學(xué)和卡內(nèi)基梅隆大學(xué)的研究團隊提出了一個創(chuàng)新解決方案:為什么不讓不同的專家負(fù)責(zé)不同位置的預(yù)測呢?這就像在猜測一個人接下來要說的話時,有一個專家特別擅長猜第一個詞,另一個專家擅長猜第二個詞,以此類推。這就是"位置專家"(Position Specialists,簡稱PosS)技術(shù)的核心思想。
一、什么是推測性解碼以及現(xiàn)有技術(shù)的局限性
推測性解碼是一種通過"先草擬后驗證"的框架來加速大型語言模型(LLM)解碼過程的技術(shù)。在傳統(tǒng)的自回歸生成中,大模型需要一個接一個地生成詞匯,這個過程相對耗時。而推測性解碼則采用一個輕量級的草稿模型來生成多個候選詞匯,然后讓大模型并行驗證這些詞匯,從而減少總體解碼時間。
近期的研究如EAGLE和EAGLE-2利用了目標(biāo)模型(即大模型)的隱藏狀態(tài)作為輸入來提升草稿模型的預(yù)測準(zhǔn)確性。這些隱藏狀態(tài)(也稱為特征)可以看作是模型對上下文的深層理解。然而,這些方法存在一個關(guān)鍵問題:訓(xùn)練和推理之間的不一致性。
想象你在學(xué)習(xí)預(yù)測天氣。在訓(xùn)練階段,你可能使用了真實的歷史氣象數(shù)據(jù)來學(xué)習(xí)如何預(yù)測明天的天氣。但在實際預(yù)測時,你只能基于自己之前的預(yù)測結(jié)果(可能已經(jīng)有一些誤差)來預(yù)測后天、大后天的天氣。這種"誤差累積"會導(dǎo)致預(yù)測質(zhì)量隨著時間推移而迅速下降。
EAGLE在訓(xùn)練時使用目標(biāo)模型的真實特征來預(yù)測下一個詞匯,但在推理階段,它不得不依賴草稿模型生成的特征,這些特征與真實特征有所偏差。HASS通過在訓(xùn)練草稿模型時使用之前草稿步驟的特征來部分解決這個問題。然而,兩種方法都受限于使用單一的草稿模型來預(yù)測多個位置的詞匯,這就像期望一個氣象學(xué)家同樣擅長預(yù)測明天和一個月后的天氣,這顯然是不現(xiàn)實的。
二、位置專家(PosS):針對不同位置設(shè)計專門的預(yù)測專家
研究團隊提出了一個關(guān)鍵指標(biāo):位置接受率(pos-acc)。這個指標(biāo)衡量了在前一個位置的詞匯被接受的條件下,特定位置的詞匯被接受的概率。通過分析,研究人員發(fā)現(xiàn)EAGLE和HASS的位置接受率在前幾個預(yù)測詞匯之后迅速下降,這證實了單一草稿模型在應(yīng)對不同位置時的局限性。
為了解決這個問題,研究團隊提出了"位置專家"(PosS)框架。這個框架包含多個位置專門化的草稿層,每層負(fù)責(zé)預(yù)測特定位置的詞匯。就像一個籃球隊中,有人專攻三分球,有人擅長內(nèi)線,而不是期望每個隊員在所有位置都表現(xiàn)出色。
位置專家的工作原理如下:
每個位置專家僅負(fù)責(zé)預(yù)測其指定位置的詞匯,因此它只需要處理該位置預(yù)期的特征偏差水平。這就像有專門的預(yù)報員分別負(fù)責(zé)預(yù)測明天、后天和大后天的天氣,每個預(yù)報員只需專注于處理特定時間范圍內(nèi)的不確定性。
在訓(xùn)練階段,每個專家學(xué)習(xí)使用前一步專家生成的特征來預(yù)測當(dāng)前位置的詞匯。這樣,位置專家就能更好地適應(yīng)和緩解特定位置的特征偏差,從而實現(xiàn)更準(zhǔn)確的草稿詞匯預(yù)測。
研究者們設(shè)計了三種配置:PosS-1(每個專家負(fù)責(zé)一個位置)、PosS-2(每個專家負(fù)責(zé)兩個位置)和PosS-3(每個專家負(fù)責(zé)三個位置)。不同配置在效率和內(nèi)存使用之間提供了靈活的權(quán)衡。
三、實驗驗證:PosS如何提升推測性解碼效率
為了全面評估PosS的性能,研究團隊在兩種模型大?。↙lama-3-8B-Instruct和Llama-2-13B-chat)上進行了廣泛實驗,并使用了六個基準(zhǔn)數(shù)據(jù)集:MT-Bench(多輪對話)、Alpaca(指令跟隨)、GSM8K(數(shù)學(xué)推理)、Natural Questions(問答)、CNN/Daily Mail(摘要生成)和HumanEval(代碼生成)。
評估主要關(guān)注兩個關(guān)鍵指標(biāo):
1. 平均接受長度(τ):每輪草稿中被接受的平均詞匯數(shù)量。這個指標(biāo)反映了草稿模型預(yù)測長序列的有效性。 2. 加速比:與傳統(tǒng)目標(biāo)模型解碼相比,推測性解碼方法的生成效率提升程度。
實驗結(jié)果令人印象深刻。在Llama-3-8B-Instruct上,PosS的平均接受長度比HASS提高了最多4.5%(從4.62提高到4.83),加速比提高了最多5.7%(從2.97x提高到3.14x)。即使在更強大的Llama-2-13B-chat模型上,PosS-3仍然實現(xiàn)了最高的加速比。
研究人員進一步分析了位置接受率(pos-acc),發(fā)現(xiàn)EAGLE-2在第五個位置之后的接受率低于65%,HASS只能在前四個位置保持足夠的接受率,而PosS方法即使在第八個位置也能保持相對較高的接受率。
四、計算效率與內(nèi)存使用權(quán)衡
雖然PosS引入了額外的位置專家層,可能會增加一些計算開銷,但研究者們通過全面分析證明這些額外開銷是微不足道的。
首先,GPU內(nèi)存使用量確實會隨著位置專家的數(shù)量線性增加。不過,與目標(biāo)模型的大小相比,這種額外成本可以忽略不計——在8B參數(shù)的目標(biāo)模型中,每個專家僅需約218M參數(shù)。
其次,位置專家之間的切換會帶來一點額外延遲,主要來自兩個方面: 1. 不同層之間不共享的KV緩存:每個位置專家需要為前一個專家生成的草稿詞匯計算鍵值緩存。 2. 參數(shù)切換開銷:頻繁在專家之間切換可能會因為硬件級參數(shù)加載而引入額外延遲。
然而,研究表明PosS帶來的額外計算開銷與整體計算時間相比微不足道,而且這種開銷很大程度上被增加的平均接受長度帶來的好處所抵消,因為更長的接受長度意味著需要更少的草稿輪次。
實驗分析顯示,PosS-2和PosS-3一致地需要比基線方法更少的生成輪次,這得益于位置專家準(zhǔn)確的草稿詞匯預(yù)測。解碼的總時間成本主要由每輪時間成本和總輪次數(shù)決定。實驗證明,PosS-2和PosS-3實現(xiàn)了比EAGLE-2和HASS更低的總體時間成本,這證實了減少輪次帶來的效率提升遠(yuǎn)遠(yuǎn)超過了位置專家?guī)淼奈⑿∶枯嗛_銷。
五、研究意義與未來展望
這項研究為推測性解碼技術(shù)帶來了一個全新的視角。通過引入位置專家概念,研究團隊成功解決了草稿模型在預(yù)測多位置詞匯時面臨的挑戰(zhàn)。這種"分工協(xié)作"的方法與我們?nèi)粘I钪械膶I(yè)分工理念不謀而合——每個專家只需專注于自己最擅長的任務(wù),整體效率自然會提升。
對于大型語言模型的實際應(yīng)用而言,這項研究具有重要意義。隨著模型規(guī)模的不斷增長,推理加速成為一個越來越關(guān)鍵的問題。PosS技術(shù)不僅提供了一種有效的加速方法,還為未來的推測性解碼研究提供了新的思路——專注于位置特定的優(yōu)化可能是一個富有成效的方向。
此外,這項研究也啟示我們,有時候解決復(fù)雜問題的方法不一定是構(gòu)建更復(fù)雜的模型,而是通過合理的任務(wù)分解和專業(yè)化設(shè)計,讓每個組件專注于自己最擅長的部分。這種思路不僅適用于推測性解碼,也可能對其他機器學(xué)習(xí)和人工智能任務(wù)有所啟發(fā)。
總的來說,PosS為大型語言模型的高效推理提供了一種優(yōu)雅而有效的解決方案,展示了專業(yè)化設(shè)計在解決復(fù)雜問題中的潛力。隨著大型語言模型在各個領(lǐng)域的應(yīng)用越來越廣泛,這種加速技術(shù)將為更多實際應(yīng)用場景提供支持,使大型語言模型的能力能夠更高效地服務(wù)于各類需求。
好文章,需要你的鼓勵
新加坡國立大學(xué)研究團隊開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實驗顯示,僅訓(xùn)練AI玩簡單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟大學(xué)團隊開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實現(xiàn)37.9%的精度提升,并在真實設(shè)備上展現(xiàn)出色泛化能力,為機器人、AR和自動駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團隊通過對比實驗發(fā)現(xiàn),經(jīng)過強化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時刻"現(xiàn)象,但這些自我糾錯行為并不能實際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗證差距",即生成答案的能力強于驗證答案質(zhì)量的能力,且模型在自我驗證時無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動態(tài)稀疏性實現(xiàn)大語言模型訓(xùn)練加速1.6倍,計算成本降低2.2倍。該方法使用SVD稀疏性估計器智能選擇重要計算部分,在保持模型性能的同時顯著提升訓(xùn)練效率,已在多個任務(wù)上驗證有效性。