近日,首爾國立大學(xué)的宋志元(Jiwon Song)、趙東元(Dongwon Jo)、金在準(Jae-Joon Kim)與成均館大學(xué)的金律華(Yulhwa Kim)共同發(fā)表了一項突破性研究《推理路徑壓縮:壓縮生成軌跡實現(xiàn)高效LLM推理》(Reasoning Path Compression: Compressing Generation Trajectories for Efficient LLM Reasoning)。這項研究發(fā)表于2025年5月20日的arXiv預(yù)印本平臺(arXiv:2505.13866v1),源代碼已在GitHub開源(https://github.com/jiwonsong-dev/ReasoningPathCompression)。
想象一下,你是一位數(shù)學(xué)老師,讓學(xué)生解答復(fù)雜問題時,他們需要寫下詳細的解題步驟。這些步驟對思考過程至關(guān)重要,但有時會包含大量重復(fù)內(nèi)容——比如檢查已經(jīng)驗證過的結(jié)果或重新推導(dǎo)相同的公式。這正是現(xiàn)代推理型大語言模型(LLM)面臨的情況。像OpenAI的o1、DeepSeek-R1這樣的推理型LLM通過生成詳細的思考過程來解決復(fù)雜問題,而這些"推理路徑"往往超過數(shù)萬個詞元(token),占用大量內(nèi)存并降低生成速度。
研究團隊提出了一個有趣的發(fā)現(xiàn):這些推理路徑中存在"語義稀疏性"——大量生成的內(nèi)容實際上是重復(fù)或冗余的。就像學(xué)生解題時反復(fù)檢查某些步驟一樣,模型也會重復(fù)驗證或重新推導(dǎo)已經(jīng)得出的結(jié)論?;谶@一發(fā)現(xiàn),他們開發(fā)了"推理路徑壓縮"(Reasoning Path Compression,簡稱RPC)技術(shù),這是一種無需額外訓(xùn)練的方法,能在推理過程中動態(tài)壓縮KV緩存(存儲模型生成內(nèi)容的內(nèi)存區(qū)域)。
RPC的工作原理就像一個聰明的編輯,它會定期回顧模型正在寫的"草稿",找出哪些部分是真正重要的,哪些部分可以安全地省略。通過巧妙利用注意力機制,RPC能識別出對當前推理最關(guān)鍵的信息,并優(yōu)先保留這些內(nèi)容。實驗結(jié)果令人振奮:在應(yīng)用于QwQ-32B模型后,推理吞吐量提高了最多1.60倍,同時在AIME 2024基準測試中的準確率僅下降了1.2%。
讓我們深入了解這項研究如何解決大型推理模型的效率難題,以及它對未來AI應(yīng)用的潛在影響。
一、推理型LLM的挑戰(zhàn):思考需要時間和空間
現(xiàn)代大語言模型正逐漸掌握復(fù)雜的推理能力,這意味著它們不再只是簡單地生成文本,而是能夠像人類一樣,通過逐步思考來解決復(fù)雜問題。想象一下,當你解決一道數(shù)學(xué)題或編寫一段復(fù)雜代碼時,你會在紙上寫下思考步驟,通過這種方式逐漸接近最終答案。推理型LLM也采用類似的方法,它們會生成所謂的"推理路徑"——詳細記錄從問題到解決方案的每一步思考過程。
OpenAI的o1、DeepSeek-R1和QwQ等模型都采用了這種"邊思考邊寫"的方式。這些模型通過生成詳細的中間推理步驟,顯著提高了解決復(fù)雜問題的準確率。這種方法在科學(xué)、技術(shù)、工程和數(shù)學(xué)(STEM)問題以及代碼生成任務(wù)中特別有效。
然而,這種詳細的推理過程也帶來了嚴重的資源消耗問題。研究團隊通過實驗發(fā)現(xiàn),當生成長度從1024個詞元增加到32768個詞元時,QwQ-32B模型的吞吐量從每秒242.5個詞元急劇下降到接近零,而峰值內(nèi)存使用量則從75.4GB飆升至接近300GB。在許多情況下,模型甚至?xí)騼?nèi)存不足而無法完成推理。
"想象一下,如果你的大腦在思考復(fù)雜問題時,必須同時記住每一個思考步驟的所有細節(jié),"研究團隊解釋道,"最終,你的'工作記憶'會被填滿,思考速度也會大大減慢。這正是推理型LLM面臨的困境。"
雖然已有一些方法試圖通過訓(xùn)練模型生成更簡潔的推理路徑來解決這個問題,如LightThinker等,但它們在復(fù)雜推理任務(wù)上的表現(xiàn)往往不盡如人意。這是因為訓(xùn)練目標之間存在沖突:一方面希望模型生成詳細的推理步驟以提高準確率,另一方面又希望它生成簡短的輸出以提高效率。這種沖突使得僅依靠訓(xùn)練很難同時實現(xiàn)高準確率和高效率。
二、發(fā)現(xiàn)推理路徑的"語義稀疏性"
研究團隊的關(guān)鍵發(fā)現(xiàn)是推理路徑中存在"語義稀疏性"。這個概念可以這樣理解:當我們解決復(fù)雜問題時,并非思考過程中的每一步都提供了同等價值的信息。有些步驟可能只是重復(fù)驗證已經(jīng)確認的結(jié)果,或者重新推導(dǎo)已經(jīng)得出的公式。
為了直觀理解這一點,可以看看論文中的一個例子:當QwQ-32B模型解決一個量子力學(xué)問題時,它會重復(fù)核對能量計算,反復(fù)確認相同的公式,甚至多次得出相同的答案。這些重復(fù)內(nèi)容在最終解決問題時并不都是必要的。
研究團隊通過計算n-gram香農(nóng)熵(一種衡量文本復(fù)雜度的方法)來量化這種語義稀疏性。他們比較了推理型LLM(DeepSeek-R1-Distill-Llama-8B)和非推理型LLM(LongWriter-8B)生成的文本,發(fā)現(xiàn)推理型模型生成的內(nèi)容確實存在更多重復(fù)模式,熵值明顯更低。
"這就像比較兩種寫作風(fēng)格:一種是步步為營、不斷回顧和重復(fù)檢查的解題過程,另一種是流暢連貫、較少重復(fù)的敘事文本。我們發(fā)現(xiàn)推理型模型的輸出更像前者,"研究者解釋道。
這一發(fā)現(xiàn)為優(yōu)化推理過程提供了重要線索:如果能夠識別并壓縮這些冗余信息,就可能在不顯著影響準確率的情況下,大幅提高模型的運行效率。
三、推理路徑壓縮:聰明地保留重要信息
基于對推理路徑語義稀疏性的理解,研究團隊提出了推理路徑壓縮(RPC)方法。這種方法的核心思想是:在模型生成推理路徑的過程中,定期評估已生成內(nèi)容的重要性,只保留最關(guān)鍵的部分,從而減少內(nèi)存占用并提高生成速度。
想象RPC就像一位經(jīng)驗豐富的編輯,定期回顧作者(模型)正在寫的草稿,保留關(guān)鍵的推理步驟,刪除不必要的重復(fù)內(nèi)容。與傳統(tǒng)的KV緩存壓縮方法不同,RPC專門為推理型LLM設(shè)計,充分利用了推理路徑的特殊結(jié)構(gòu)。
RPC的工作流程可以分為三個關(guān)鍵步驟:
首先,RPC采用周期性壓縮策略,而不是在每個生成步驟都進行壓縮。這大大降低了計算開銷。具體來說,RPC設(shè)定一個"壓縮間隔"P(如1024或4096個詞元),每當生成這么多新詞元后,就觸發(fā)一次壓縮操作。
其次,RPC使用"選擇器窗口"來評估詞元的重要性。選擇器窗口由最近生成的R個詞元(如32個)組成,基于一個簡單而合理的假設(shè):最近生成的內(nèi)容更能反映當前推理的關(guān)注點。RPC分析這些近期詞元如何"關(guān)注"先前生成的內(nèi)容,計算出每個歷史詞元的重要性分數(shù)。
最后,基于設(shè)定的壓縮比率(如4倍),RPC保留重要性分數(shù)最高的詞元,丟棄其余部分。隨著推理的進行,RPC會重復(fù)這個過程,動態(tài)調(diào)整保留的內(nèi)容,確保模型始終能訪問到最相關(guān)的歷史信息。
"這有點像整理筆記本:隨著筆記越寫越多,我們定期回顧,保留重要的見解,刪除不必要的重復(fù)內(nèi)容,"研究者解釋道,"但關(guān)鍵是,我們不需要修改模型本身,也不需要額外的訓(xùn)練。RPC可以直接應(yīng)用于現(xiàn)有的推理型LLM。"
在實際實現(xiàn)中,RPC通過巧妙設(shè)計的算法,計算每個歷史詞元的重要性分數(shù),并使用局部平均池化來促進連貫的詞元選擇,減少詞元級別的噪聲。這種方法能夠有效識別語義相關(guān)的詞元群組,保證壓縮后的推理路徑仍然連貫有意義。
四、實驗結(jié)果:更快的思考,相似的準確度
為了驗證RPC的有效性,研究團隊在多個基準測試和不同規(guī)模的模型上進行了全面評估。他們主要使用了兩個開源的推理型LLM:DeepSeek-R1-Distill-Qwen-7B(7B參數(shù))和QwQ-32B(32B參數(shù))。評估包括三個推理密集型基準測試:美國邀請數(shù)學(xué)考試(AIME)2024、LiveCodeBench編程任務(wù)和IFEval指令遵循測試。
研究團隊首先將RPC與現(xiàn)有方法進行比較,包括訓(xùn)練型推理路徑壓縮方法LightThinker和通用KV緩存壓縮技術(shù)H2O、TOVA。結(jié)果令人印象深刻:在AIME 2024測試中,使用RPC的DeepSeek-R1-Distill-Qwen-7B達到了52.9%的準確率,僅比完整KV緩存的55.5%低2.6個百分點,同時實現(xiàn)了4倍的壓縮比。相比之下,LightThinker的準確率僅為6.7%,而且只能實現(xiàn)1.4倍的壓縮比;H2O和TOVA分別達到45.0%和31.7%的準確率,雖然也實現(xiàn)了4倍壓縮,但準確率損失明顯更大。
在更大規(guī)模的QwQ-32B模型上,RPC表現(xiàn)更加穩(wěn)定:在AIME 2024上,準確率從79.5%輕微下降到78.3%;在LiveCodeBench上,從63.4%下降到62.2%;在IFEval上,從83.9%下降到82.6%。這表明RPC在較大模型上的性能更加穩(wěn)健,可能是因為大模型的冗余度更高,壓縮空間更大。
效率提升方面,RPC帶來了顯著的性能改善。對于DeepSeek-R1-Distill-Qwen-7B,當生成32768個詞元時,RPC將吞吐量提高了1.68倍,將峰值內(nèi)存使用量從75.7GB減少到36.2GB,節(jié)省了50%以上的內(nèi)存。對于QwQ-32B,RPC不僅將16384詞元生成時的吞吐量提高了1.60倍,還成功解決了32768詞元生成時的內(nèi)存不足問題,使之成為可能。
"就像給思考過程裝上了一個智能壓縮器,"研究者形象地解釋道,"模型可以以幾乎相同的準確度思考同樣的問題,但思考速度快了一倍多,所需空間也減少了一半以上。"
研究團隊還對RPC的關(guān)鍵超參數(shù)進行了消融研究,包括壓縮間隔P和選擇器窗口大小R。他們發(fā)現(xiàn),P=4096提供了最佳的準確率-效率平衡,而R=32則是評估詞元重要性的最佳窗口大小。這些發(fā)現(xiàn)為實際部署RPC提供了有價值的指導(dǎo)。
五、未來展望:更高效的AI推理系統(tǒng)
推理路徑壓縮(RPC)技術(shù)的出現(xiàn),為解決推理型LLM的效率問題開辟了一條新路徑。與傳統(tǒng)方法不同,RPC不需要重新訓(xùn)練模型,也不需要預(yù)先知道生成長度,這使它易于集成到現(xiàn)有的推理管道中。
更重要的是,RPC揭示了推理路徑中存在大量冗余信息的現(xiàn)象,這一發(fā)現(xiàn)本身就具有重要價值。它提示我們,未來的推理型LLM可能需要更智能的注意力機制,能夠自動識別和忽略不必要的重復(fù)內(nèi)容,從而提高推理效率。
研究團隊也嘗試了更激進的8倍壓縮比,雖然在復(fù)雜推理任務(wù)上準確率下降明顯,但在簡單任務(wù)如IFEval上表現(xiàn)依然穩(wěn)定。這表明壓縮比可以根據(jù)任務(wù)難度動態(tài)調(diào)整,為不同應(yīng)用場景提供更靈活的效率-準確率平衡。
"我們的工作只是第一步,"研究團隊在結(jié)論中指出,"未來可能會出現(xiàn)更多針對推理型LLM的專用優(yōu)化技術(shù),進一步提高它們的效率和可擴展性。"
隨著推理型LLM在科學(xué)研究、教育、醫(yī)療和工程設(shè)計等領(lǐng)域的應(yīng)用日益廣泛,提高它們的運行效率變得至關(guān)重要。推理路徑壓縮技術(shù)為我們提供了一種實用的解決方案,讓這些強大的AI助手能夠以更快的速度、更低的資源消耗來解決復(fù)雜問題,從而為更廣泛的應(yīng)用鋪平道路。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機制和漸進式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學(xué)習(xí)外觀和運動信息,顯著解決了當前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準,通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報,準確性超越傳統(tǒng)方法90%的指標。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。