當(dāng)我們使用大語言模型(LLM)時,是否曾因生成速度太慢而感到不耐煩?加利福尼亞大學(xué)洛杉磯分校(UCLA)的研究團隊正面臨著這一挑戰(zhàn)。2025年5月31日,由Daniel Israel、Guy Van den Broeck和Aditya Grover組成的UCLA計算機科學(xué)系研究團隊在arXiv上發(fā)表了題為《Accelerating Diffusion LLMs via Adaptive Parallel Decoding》的研究論文(arXiv:2506.00413v1),提出了一種名為"自適應(yīng)并行解碼"(APD)的新方法,旨在大幅提升擴散大語言模型的生成速度。
現(xiàn)今的大語言模型面臨著一個根本性的瓶頸:生成速度。主流的自回歸模型采用一次生成一個詞的順序解碼方式,這種方法雖然質(zhì)量高,但速度慢。想象一下你在寫一封信,但每次只能寫一個字,然后等待幾秒鐘才能寫下一個——這基本上就是自回歸模型的工作方式。而擴散大語言模型(dLLM)理論上允許同時生成多個詞,就像你可以一次性寫下整句話那樣,應(yīng)該能顯著提高速度。
然而,實際情況卻不盡人意。研究團隊發(fā)現(xiàn),開源的擴散模型如Dream和Llada在沒有額外改進的情況下,無法同時兼顧速度和質(zhì)量。如果嘗試一次性生成多個詞(并行生成),生成質(zhì)量就會大幅下降;如果堅持高質(zhì)量生成,則不得不降低并行度,一次只生成一個詞,速度優(yōu)勢蕩然無存。這就像是擁有了一輛跑車,卻只能以自行車的速度行駛,否則就會偏離道路。
為什么會出現(xiàn)這種情況呢?簡單來說,當(dāng)并行生成多個詞時,模型只能獲取每個位置的"孤立"概率分布,而無法考慮詞與詞之間的關(guān)聯(lián)性。這就像是幾個人各自單獨創(chuàng)作一個句子,然后強行把它們拼在一起——結(jié)果通常不會連貫。
針對這一問題,UCLA團隊提出了自適應(yīng)并行解碼(APD)方法。這種方法不是固定一次生成多少個詞,而是動態(tài)調(diào)整并行生成的詞數(shù)。它的核心思想是:當(dāng)模型有信心能正確預(yù)測連續(xù)多個詞時,就一次性生成這些詞;當(dāng)預(yù)測不確定時,就退回到逐個生成的方式。這就像是一個老練的作家,在寫熟悉的內(nèi)容時可以一氣呵成寫下整段文字,而遇到需要深思熟慮的部分時,則會放慢速度,字斟句酌。
研究團隊的創(chuàng)新不僅體現(xiàn)在理論上,還包括一系列實用的技術(shù)改進,如引入鍵值緩存(KV caching)和限制掩碼輸入大小。這些優(yōu)化大大提高了模型的計算效率。他們還引入了三個可調(diào)參數(shù),讓用戶能夠根據(jù)需求靈活地在速度和質(zhì)量之間找到平衡點。
實驗結(jié)果令人振奮。在GSM8K等基準(zhǔn)測試中,使用APD的擴散模型能夠以接近原質(zhì)量的表現(xiàn),將生成速度提高近6倍。更令人驚訝的是,優(yōu)化后的Dream 7B模型甚至比自回歸的Qwen 7B和Qwen 0.5B模型更快,同時保持了較高的準(zhǔn)確率。這就像是一輛既能高速行駛又能保持穩(wěn)定的新型汽車,徹底改變了我們對擴散模型速度與質(zhì)量不可兼得的認(rèn)知。
這項研究不僅對擴散大語言模型的實用性有重大意義,也為未來的模型設(shè)計提供了新的思路。隨著這些技術(shù)的應(yīng)用,我們可能很快就能享受到更快、更流暢的AI文本生成體驗。
一、擴散大語言模型的速度困境
當(dāng)今的大語言模型世界中,自回歸模型如同一個一絲不茍的書法家,一筆一畫地完成作品。雖然結(jié)果精美,但過程緩慢。這種逐詞生成的方式成為了實時應(yīng)用的主要障礙,特別是隨著模型規(guī)模不斷擴大,這個問題變得更加突出。
擴散大語言模型(dLLM)本應(yīng)像一個能同時控制多支畫筆的魔術(shù)師,理論上可以并行生成多個詞,大幅提升速度。這些模型受到圖像生成領(lǐng)域成功經(jīng)驗的啟發(fā),應(yīng)該能夠打破順序生成的限制。然而,UCLA研究團隊通過實驗發(fā)現(xiàn),現(xiàn)實與理論存在顯著差距。
他們對兩個開源擴散模型Dream和Llada進行了詳細測試。結(jié)果顯示,這些模型要達到最佳質(zhì)量,必須采用"一次一詞"的生成方式(每個時間步生成一個詞)。任何嘗試?yán)貌⑿心芰Φ呐Χ紩?dǎo)致質(zhì)量下降。具體來說,在GSM8K數(shù)學(xué)推理任務(wù)上,當(dāng)使用從左到右的順序生成時,Dream 7B模型能達到83.2%的準(zhǔn)確率,但吞吐量只有每秒10.1個詞。相比之下,自回歸的Qwen2.5 7B模型不僅準(zhǔn)確率達到85.4%,吞吐量還高達每秒38.6個詞。
這種狀況就像擁有一臺設(shè)計時速200公里的跑車,但實際上只能以50公里的速度行駛,否則就會偏離道路或引擎過熱。問題的核心在于,當(dāng)并行預(yù)測多個詞時,模型只能獲取每個位置的邊緣概率分布,而忽略了詞與詞之間的依賴關(guān)系。這就像幾個廚師各自準(zhǔn)備一道菜而不知道其他人在做什么,最終拼湊成的菜單可能毫無協(xié)調(diào)性。
為了量化這種質(zhì)量與速度的權(quán)衡關(guān)系,研究團隊進行了一系列實驗,固定每次迭代并行生成的詞數(shù)(K)。實驗表明,隨著K值的增加,生成速度確實提高了,但準(zhǔn)確率呈現(xiàn)斷崖式下降。例如,當(dāng)K=7時,Dream 7B的GSM8K準(zhǔn)確率從約80%降至不足20%,這種犧牲顯然是不可接受的。
這一困境引發(fā)了一個關(guān)鍵問題:是否存在一種方法,能夠智能地決定何時并行生成多個詞,何時退回到逐個生成,從而在保持質(zhì)量的同時提高速度?這正是UCLA團隊提出的自適應(yīng)并行解碼(APD)方法要解決的核心問題。
二、自適應(yīng)并行解碼:突破速度與質(zhì)量的平衡點
自適應(yīng)并行解碼(APD)的核心思想可以用一個熟練鋼琴家的例子來理解。當(dāng)演奏簡單、熟悉的曲目時,鋼琴家能夠流暢快速地彈奏;而遇到復(fù)雜段落時,則會放慢速度,確保每個音符的精準(zhǔn)。APD就是讓語言模型像這樣"知道"何時可以加速,何時需要謹(jǐn)慎。
具體來說,APD首先將擴散模型的生成順序固定為從左到右,這看似是退回到自回歸模型的做法,但研究者發(fā)現(xiàn)這種方式不僅能保持生成質(zhì)量,有時甚至能提高質(zhì)量。這就像是讓一個本可以四處張望的人專注于向前看,反而讓他避免了分心,能更好地預(yù)測前方的路況。
接下來,APD引入了一個小型的輔助自回歸模型。這個小模型就像是主模型的"參謀",幫助判斷哪些并行生成的詞可以被接受。研究團隊設(shè)計了一個巧妙的機制:將擴散模型的邊緣概率與小型自回歸模型的聯(lián)合概率進行乘法混合,形成一個目標(biāo)分布。這種混合使用了一個可調(diào)參數(shù)R,當(dāng)R值較高時,系統(tǒng)更信任擴散模型;當(dāng)R值較低時,則更依賴輔助自回歸模型的判斷。
為什么要使用小型輔助模型呢?因為小模型雖然精確度不如大模型,但能夠快速并行計算序列的聯(lián)合概率,幫助大模型做出更好的決策。這有點像登山時,經(jīng)驗豐富的向?qū)Вㄐ∧P停╇m然力氣不如年輕的登山者(大模型),但能夠更快地判斷哪條路徑安全可行。
值得注意的是,APD與目前流行的推測解碼(speculative decoding)方法有著本質(zhì)區(qū)別。推測解碼是用小模型生成初步內(nèi)容,再由大模型驗證;而APD則是用大模型生成內(nèi)容,小模型幫助判斷質(zhì)量。這就像是推測解碼中,學(xué)徒(小模型)先畫草圖,大師(大模型)再修改完善;而在APD中,大師直接作畫,學(xué)徒只是在旁邊提供建議,幫助大師決定何時可以一氣呵成畫完某個部分。
UCLA團隊還對算法實現(xiàn)進行了多項優(yōu)化。例如,他們引入了鍵值緩存(KV caching)技術(shù),這一技術(shù)通常用于自回歸模型,能夠避免重復(fù)計算,大大提高效率。想象一下,如果你在解一道復(fù)雜的數(shù)學(xué)題,已經(jīng)計算過的中間結(jié)果可以記錄下來,下次用到時直接查表,而不是重新計算,這就是KV緩存的作用。
另一個重要優(yōu)化是限制掩碼輸入的大小。由于擴散模型是從左到右自回歸生成,輸入中會包含大塊連續(xù)的[MASK]標(biāo)記作為后綴。研究者設(shè)置了一個最大長度M參數(shù),限制這個后綴的大小。這一簡單改變能顯著提高計算速度,因為注意力計算的復(fù)雜度與序列長度的平方成正比。減小輸入大小就像是減少了廚師需要關(guān)注的食材數(shù)量,自然能加快烹飪速度。
最終,APD提供了三個可調(diào)參數(shù):乘法混合權(quán)重R、重新計算KV窗口大小W和最大掩碼前瞻長度M。這些參數(shù)給用戶提供了在速度和質(zhì)量之間進行靈活權(quán)衡的能力,就像是一輛汽車的不同駕駛模式,可以根據(jù)需要在經(jīng)濟模式和運動模式之間切換。
三、實驗驗證:速度與質(zhì)量的最佳平衡
為了驗證自適應(yīng)并行解碼的效果,UCLA研究團隊進行了一系列詳細實驗。他們選擇了Dream 7B Instruct作為擴散模型,Qwen2.5 0.5B作為輔助自回歸模型。這兩個模型都在數(shù)學(xué)、科學(xué)和推理基準(zhǔn)測試上表現(xiàn)出色,而且它們共享相同的分詞器,這使得它們能夠更好地協(xié)同工作。
研究團隊首先分析了混合權(quán)重參數(shù)R對性能的影響。在GSM8K數(shù)學(xué)推理任務(wù)上,當(dāng)R值較小時(如0.1-0.5),模型每次迭代接受的詞數(shù)較少,但維持了較高的準(zhǔn)確率。隨著R值增加,并行生成的詞數(shù)顯著提升,但準(zhǔn)確率開始下降。有趣的是,當(dāng)R=0.6時,模型平均每次迭代能接受約5.75個詞,同時保持接近80%的GSM8K準(zhǔn)確率。這意味著模型速度提升了近6倍,而質(zhì)量只有微小降低。
相比之下,如果簡單地固定每次迭代生成K個詞,當(dāng)K=5時,GSM8K準(zhǔn)確率會降至約40%,這一差距充分說明了自適應(yīng)方法的優(yōu)勢。APD就像是一個懂得何時加速、何時放慢的老練司機,能夠在彎道前適當(dāng)減速,直道上全速前進,整體行程既快速又安全。
研究者還探索了重新計算KV窗口大小W的影響。他們發(fā)現(xiàn),即使將W值從無限(即每次都重新計算所有鍵值)降至16,準(zhǔn)確率也只有很小的下降,但吞吐量能提高約50%。這表明擴散模型在自回歸生成時,遠距離的詞對當(dāng)前生成的影響較小,可以通過緩存來提高效率。
最大掩碼前瞻長度M的實驗也顯示了明顯的速度-質(zhì)量權(quán)衡。當(dāng)M值從無限減小到16時,吞吐量顯著提升,但準(zhǔn)確率開始下降。有趣的是,這種下降不僅是因為計算質(zhì)量降低,還因為生成長度縮短。研究表明,較長的"思考時間"(即生成更多詞)通常能提高推理能力,因此過度限制M值可能會傷害模型在復(fù)雜推理任務(wù)上的表現(xiàn)。
將這三個參數(shù)組合在一起,研究團隊繪制了一個"帕累托前沿"圖,展示了不同配置下的速度-質(zhì)量權(quán)衡。令人驚訝的是,使用APD的Dream 7B在某些配置下,不僅比其基線版本(K=1)快得多,甚至超過了自回歸的Qwen 7B和Qwen 0.5B的速度。在保持相當(dāng)質(zhì)量的同時,APD配置的Dream能夠達到每秒59個詞的吞吐量,而Qwen 7B只有每秒38個詞。
這一成果令人振奮,因為它表明經(jīng)過優(yōu)化的擴散模型可以在速度和質(zhì)量的"帕累托前沿"上占據(jù)有利位置——也就是說,沒有其他模型能在兩個維度上同時超越它。這就像是發(fā)現(xiàn)了一種既經(jīng)濟又性能出色的新型發(fā)動機,可能徹底改變?nèi)藗儗U散模型的認(rèn)知。
除了標(biāo)準(zhǔn)基準(zhǔn)測試,研究團隊還在開放式任務(wù)上進行了測試。例如,在生成有說服力的論證時,使用R=0.7的APD配置,Dream 7B能夠平均每次迭代并行生成約3個詞,大大提高了生成速度,同時保持了輸出質(zhì)量。
四、技術(shù)創(chuàng)新與實用意義
自適應(yīng)并行解碼的核心創(chuàng)新在于它解決了一個看似矛盾的問題:如何在不犧牲質(zhì)量的前提下提高擴散模型的速度。這個問題在技術(shù)上相當(dāng)棘手,因為傳統(tǒng)的并行加速方法往往會導(dǎo)致質(zhì)量大幅下降。
研究團隊的第一個關(guān)鍵創(chuàng)新是將問題重新定義為動態(tài)確定最優(yōu)并行長度。不同于固定每次迭代生成K個詞,APD讓模型自己"決定"何時可以并行生成多個詞,何時應(yīng)該謹(jǐn)慎地一個一個生成。這就像是熟練的音樂家能夠根據(jù)樂曲的難度自動調(diào)整演奏速度,而不是機械地按照固定節(jié)拍演奏。
第二個創(chuàng)新是引入了一個乘法混合目標(biāo)分布,結(jié)合了擴散模型的邊緣概率和輔助自回歸模型的聯(lián)合概率。這種混合方式滿足了兩個重要特性:當(dāng)擴散模型對某個詞有100%的確定性時,該詞應(yīng)該被接受;當(dāng)輔助模型認(rèn)為某個序列有100%的可能性時,也應(yīng)該被接受。這種設(shè)計使得系統(tǒng)能夠在保持高質(zhì)量的同時最大化并行度。
第三個創(chuàng)新是使用通用耦合(universal coupling)技術(shù)進行采樣。這種技術(shù)使用相同的隨機源從兩個不同的分布中采樣,并比較結(jié)果來決定接受多少個詞。這一方法避免了傳統(tǒng)拒絕采樣需要重新計算條件分布的問題,使得并行采樣變得可行。
從實用角度看,APD為擴散大語言模型的應(yīng)用打開了新的可能性。以前,盡管擴散模型在理論上具有并行生成的潛力,但由于速度限制,它們在實際應(yīng)用中難以與自回歸模型競爭。現(xiàn)在,通過APD,擴散模型不僅能保持高質(zhì)量,還能達到甚至超過自回歸模型的速度。
這種突破特別適用于對實時性有要求的應(yīng)用場景,如即時通訊助手、實時翻譯系統(tǒng)或交互式教育工具。例如,在客服聊天機器人中,快速響應(yīng)對用戶體驗至關(guān)重要;在實時翻譯中,延遲越低,對話越自然流暢;在教育應(yīng)用中,快速的反饋能保持學(xué)生的注意力和參與度。
此外,APD的三個可調(diào)參數(shù)(R、W和M)為不同應(yīng)用場景提供了靈活的配置選項。對于需要高準(zhǔn)確性的任務(wù)(如醫(yī)療診斷輔助),可以選擇較低的R值和較大的M值;對于對速度要求較高的任務(wù)(如社交媒體內(nèi)容生成),則可以增加R值,減小M值,以獲得更高的吞吐量。
值得一提的是,APD方法不需要重新訓(xùn)練模型,可以直接應(yīng)用于現(xiàn)有的擴散模型。這意味著現(xiàn)有的Dream和Llada等模型可以立即受益于這一技術(shù),無需額外的計算資源投入。這就像是通過軟件更新就能提升汽車性能,而不需要更換發(fā)動機。
五、未來展望與局限性
盡管自適應(yīng)并行解碼取得了顯著成果,研究團隊也坦誠地指出了它的局限性。首先,APD提供的是一種權(quán)衡,而非免費的午餐。提高吞吐量仍然會導(dǎo)致一定程度的質(zhì)量下降,盡管這種下降遠小于簡單并行方法。其次,APD并不能提高基礎(chǔ)擴散模型本身的能力——如果Dream 7B在某個領(lǐng)域表現(xiàn)不佳,使用APD也無法改變這一點。
未來的研究方向可能包括進一步優(yōu)化混合分布的設(shè)計、探索更復(fù)雜的動態(tài)調(diào)整策略,以及將APD與其他加速技術(shù)(如量化)結(jié)合。特別是量化技術(shù)已被證明能提供強大的速度-質(zhì)量權(quán)衡,將其與APD結(jié)合可能帶來更顯著的性能提升。
另一個有趣的方向是探索APD在不同類型任務(wù)上的表現(xiàn)差異。研究已經(jīng)表明,在數(shù)學(xué)推理等高度結(jié)構(gòu)化的任務(wù)上,APD能獲得高并行度;而在開放式生成任務(wù)上,并行度較低。理解這種差異的原因,可能有助于設(shè)計針對特定任務(wù)優(yōu)化的解碼策略。
此外,將APD的思想擴展到其他模型架構(gòu)也是一個潛在方向。雖然當(dāng)前研究聚焦于擴散模型,但類似的自適應(yīng)并行思想可能適用于其他非自回歸模型,甚至是混合架構(gòu)模型。
最后,隨著模型規(guī)模不斷增長,生成速度將成為更加關(guān)鍵的瓶頸。研究表明,通過增加推理時計算資源(所謂的"test-time scaling")和強化推理能力,可以進一步提高大語言模型的性能。這些趨勢使得APD這類加速技術(shù)的重要性將進一步提升。
總的來說,UCLA研究團隊的這項工作代表了一個重要的技術(shù)突破,為解決大語言模型生成速度的瓶頸問題提供了新的思路。通過智能地調(diào)整并行生成的詞數(shù),APD成功地在速度和質(zhì)量之間找到了更優(yōu)的平衡點,為擴散大語言模型的實際應(yīng)用鋪平了道路。
研究團隊表示,這項工作部分受到了美國國防高級研究計劃局(DARPA)的ANSR、CODORD和SAFRON項目以及美國國家科學(xué)基金會(NSF)的資助,同時也得到了Adobe Research、Cisco Research和Amazon的支持。對于有興趣了解更多技術(shù)細節(jié)的讀者,可以通過arXiv訪問完整論文(arXiv:2506.00413v1)。
好文章,需要你的鼓勵
北航團隊推出Easy Dataset框架,通過直觀的圖形界面和角色驅(qū)動的生成方法,讓普通用戶能夠輕松將各種格式文檔轉(zhuǎn)換為高質(zhì)量的AI訓(xùn)練數(shù)據(jù)。該工具集成了智能文檔解析、混合分塊策略和個性化問答生成功能,在金融領(lǐng)域?qū)嶒炛酗@著提升了AI模型的專業(yè)表現(xiàn),同時保持通用能力。項目已開源并獲得超過9000顆GitHub星標(biāo)。
盧森堡計算機事件響應(yīng)中心開發(fā)的VLAI系統(tǒng),基于RoBERTa模型,能夠通過閱讀漏洞描述自動判斷危險等級。該系統(tǒng)在60萬個真實漏洞數(shù)據(jù)上訓(xùn)練,準(zhǔn)確率達82.8%,已集成到實際安全服務(wù)中。研究采用開源方式,為網(wǎng)絡(luò)安全專家提供快速漏洞風(fēng)險評估工具,有效解決了官方評分發(fā)布前的安全決策難題。
中國電信研究院等機構(gòu)聯(lián)合開發(fā)的xVerify系統(tǒng),專門解決復(fù)雜AI推理模型的評估難題。該系統(tǒng)能夠準(zhǔn)確判斷包含多步推理過程的AI輸出,在準(zhǔn)確率和效率方面均超越現(xiàn)有方法,為AI評估領(lǐng)域提供了重要突破。
昆侖公司Skywork AI團隊開發(fā)的Skywork R1V模型,成功將文本推理能力擴展到視覺領(lǐng)域。該模型僅用380億參數(shù)就實現(xiàn)了與大型閉源模型相媲美的多模態(tài)推理性能,在MMMU測試中達到69.0分,在MathVista獲得67.5分,同時保持了優(yōu)秀的文本推理能力。研究團隊采用高效的多模態(tài)遷移、混合優(yōu)化框架和自適應(yīng)推理鏈蒸餾三項核心技術(shù),成功實現(xiàn)了視覺理解與邏輯推理的完美結(jié)合,并將所有代碼和權(quán)重完全開源。