av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<form id="ffnvq"></form>

微信掃一掃，關(guān)注公眾號

科技行者
算力行者

見證連接與計算的「力量」

解鎖長文推理效率：首爾國立大學(xué)和成均館大學(xué)開發(fā)的"推理路徑壓縮"技術(shù)讓LLM思考更快更省資源

人工智能KV緩存壓縮大型語言模型推理

解鎖長文推理效率：首爾國立大學(xué)和成均館大學(xué)開發(fā)的"推理路徑壓縮"技術(shù)讓LLM思考更快更省資源

作者：科技行者

2025-05-26 08:03

分享至：

首爾國立大學(xué)和成均館大學(xué)的研究者提出了"推理路徑壓縮"(RPC)技術(shù)，一種無需訓(xùn)練的方法，能夠?qū)Υ笳Z言模型在推理過程中生成的冗余內(nèi)容進行壓縮。研究發(fā)現(xiàn)推理路徑存在"語義稀疏性"——大量重復(fù)或多余的內(nèi)容。RPC通過定期評估詞元重要性并保留最關(guān)鍵部分，將QwQ-32B模型的推理吞吐量提高了1.60倍，同時準確率僅下降1.2%，并顯著減少了內(nèi)存消耗，解決了長序列生成的內(nèi)存溢出問題。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-05-26 08:03 ? 科技行者

近日，首爾國立大學(xué)的宋志元(Jiwon Song)、趙東元(Dongwon Jo)、金在準(Jae-Joon Kim)與成均館大學(xué)的金律華(Yulhwa Kim)共同發(fā)表了一項突破性研究《推理路徑壓縮：壓縮生成軌跡實現(xiàn)高效LLM推理》（Reasoning Path Compression: Compressing Generation Trajectories for Efficient LLM Reasoning）。這項研究發(fā)表于2025年5月20日的arXiv預(yù)印本平臺（arXiv:2505.13866v1），源代碼已在GitHub開源（https://github.com/jiwonsong-dev/ReasoningPathCompression）。

想象一下，你是一位數(shù)學(xué)老師，讓學(xué)生解答復(fù)雜問題時，他們需要寫下詳細的解題步驟。這些步驟對思考過程至關(guān)重要，但有時會包含大量重復(fù)內(nèi)容——比如檢查已經(jīng)驗證過的結(jié)果或重新推導(dǎo)相同的公式。這正是現(xiàn)代推理型大語言模型（LLM）面臨的情況。像OpenAI的o1、DeepSeek-R1這樣的推理型LLM通過生成詳細的思考過程來解決復(fù)雜問題，而這些"推理路徑"往往超過數(shù)萬個詞元（token），占用大量內(nèi)存并降低生成速度。

研究團隊提出了一個有趣的發(fā)現(xiàn)：這些推理路徑中存在"語義稀疏性"——大量生成的內(nèi)容實際上是重復(fù)或冗余的。就像學(xué)生解題時反復(fù)檢查某些步驟一樣，模型也會重復(fù)驗證或重新推導(dǎo)已經(jīng)得出的結(jié)論?；谶@一發(fā)現(xiàn)，他們開發(fā)了"推理路徑壓縮"（Reasoning Path Compression，簡稱RPC）技術(shù)，這是一種無需額外訓(xùn)練的方法，能在推理過程中動態(tài)壓縮KV緩存（存儲模型生成內(nèi)容的內(nèi)存區(qū)域）。

RPC的工作原理就像一個聰明的編輯，它會定期回顧模型正在寫的"草稿"，找出哪些部分是真正重要的，哪些部分可以安全地省略。通過巧妙利用注意力機制，RPC能識別出對當前推理最關(guān)鍵的信息，并優(yōu)先保留這些內(nèi)容。實驗結(jié)果令人振奮：在應(yīng)用于QwQ-32B模型后，推理吞吐量提高了最多1.60倍，同時在AIME 2024基準測試中的準確率僅下降了1.2%。

讓我們深入了解這項研究如何解決大型推理模型的效率難題，以及它對未來AI應(yīng)用的潛在影響。

一、推理型LLM的挑戰(zhàn)：思考需要時間和空間

現(xiàn)代大語言模型正逐漸掌握復(fù)雜的推理能力，這意味著它們不再只是簡單地生成文本，而是能夠像人類一樣，通過逐步思考來解決復(fù)雜問題。想象一下，當你解決一道數(shù)學(xué)題或編寫一段復(fù)雜代碼時，你會在紙上寫下思考步驟，通過這種方式逐漸接近最終答案。推理型LLM也采用類似的方法，它們會生成所謂的"推理路徑"——詳細記錄從問題到解決方案的每一步思考過程。

OpenAI的o1、DeepSeek-R1和QwQ等模型都采用了這種"邊思考邊寫"的方式。這些模型通過生成詳細的中間推理步驟，顯著提高了解決復(fù)雜問題的準確率。這種方法在科學(xué)、技術(shù)、工程和數(shù)學(xué)（STEM）問題以及代碼生成任務(wù)中特別有效。

然而，這種詳細的推理過程也帶來了嚴重的資源消耗問題。研究團隊通過實驗發(fā)現(xiàn)，當生成長度從1024個詞元增加到32768個詞元時，QwQ-32B模型的吞吐量從每秒242.5個詞元急劇下降到接近零，而峰值內(nèi)存使用量則從75.4GB飆升至接近300GB。在許多情況下，模型甚至?xí)騼?nèi)存不足而無法完成推理。

"想象一下，如果你的大腦在思考復(fù)雜問題時，必須同時記住每一個思考步驟的所有細節(jié)，"研究團隊解釋道，"最終，你的'工作記憶'會被填滿，思考速度也會大大減慢。這正是推理型LLM面臨的困境。"

雖然已有一些方法試圖通過訓(xùn)練模型生成更簡潔的推理路徑來解決這個問題，如LightThinker等，但它們在復(fù)雜推理任務(wù)上的表現(xiàn)往往不盡如人意。這是因為訓(xùn)練目標之間存在沖突：一方面希望模型生成詳細的推理步驟以提高準確率，另一方面又希望它生成簡短的輸出以提高效率。這種沖突使得僅依靠訓(xùn)練很難同時實現(xiàn)高準確率和高效率。

二、發(fā)現(xiàn)推理路徑的"語義稀疏性"

研究團隊的關(guān)鍵發(fā)現(xiàn)是推理路徑中存在"語義稀疏性"。這個概念可以這樣理解：當我們解決復(fù)雜問題時，并非思考過程中的每一步都提供了同等價值的信息。有些步驟可能只是重復(fù)驗證已經(jīng)確認的結(jié)果，或者重新推導(dǎo)已經(jīng)得出的公式。

為了直觀理解這一點，可以看看論文中的一個例子：當QwQ-32B模型解決一個量子力學(xué)問題時，它會重復(fù)核對能量計算，反復(fù)確認相同的公式，甚至多次得出相同的答案。這些重復(fù)內(nèi)容在最終解決問題時并不都是必要的。

研究團隊通過計算n-gram香農(nóng)熵（一種衡量文本復(fù)雜度的方法）來量化這種語義稀疏性。他們比較了推理型LLM（DeepSeek-R1-Distill-Llama-8B）和非推理型LLM（LongWriter-8B）生成的文本，發(fā)現(xiàn)推理型模型生成的內(nèi)容確實存在更多重復(fù)模式，熵值明顯更低。

"這就像比較兩種寫作風(fēng)格：一種是步步為營、不斷回顧和重復(fù)檢查的解題過程，另一種是流暢連貫、較少重復(fù)的敘事文本。我們發(fā)現(xiàn)推理型模型的輸出更像前者，"研究者解釋道。

這一發(fā)現(xiàn)為優(yōu)化推理過程提供了重要線索：如果能夠識別并壓縮這些冗余信息，就可能在不顯著影響準確率的情況下，大幅提高模型的運行效率。

三、推理路徑壓縮：聰明地保留重要信息

基于對推理路徑語義稀疏性的理解，研究團隊提出了推理路徑壓縮（RPC）方法。這種方法的核心思想是：在模型生成推理路徑的過程中，定期評估已生成內(nèi)容的重要性，只保留最關(guān)鍵的部分，從而減少內(nèi)存占用并提高生成速度。

想象RPC就像一位經(jīng)驗豐富的編輯，定期回顧作者（模型）正在寫的草稿，保留關(guān)鍵的推理步驟，刪除不必要的重復(fù)內(nèi)容。與傳統(tǒng)的KV緩存壓縮方法不同，RPC專門為推理型LLM設(shè)計，充分利用了推理路徑的特殊結(jié)構(gòu)。

RPC的工作流程可以分為三個關(guān)鍵步驟：

首先，RPC采用周期性壓縮策略，而不是在每個生成步驟都進行壓縮。這大大降低了計算開銷。具體來說，RPC設(shè)定一個"壓縮間隔"P（如1024或4096個詞元），每當生成這么多新詞元后，就觸發(fā)一次壓縮操作。

其次，RPC使用"選擇器窗口"來評估詞元的重要性。選擇器窗口由最近生成的R個詞元（如32個）組成，基于一個簡單而合理的假設(shè)：最近生成的內(nèi)容更能反映當前推理的關(guān)注點。RPC分析這些近期詞元如何"關(guān)注"先前生成的內(nèi)容，計算出每個歷史詞元的重要性分數(shù)。

最后，基于設(shè)定的壓縮比率（如4倍），RPC保留重要性分數(shù)最高的詞元，丟棄其余部分。隨著推理的進行，RPC會重復(fù)這個過程，動態(tài)調(diào)整保留的內(nèi)容，確保模型始終能訪問到最相關(guān)的歷史信息。

"這有點像整理筆記本：隨著筆記越寫越多，我們定期回顧，保留重要的見解，刪除不必要的重復(fù)內(nèi)容，"研究者解釋道，"但關(guān)鍵是，我們不需要修改模型本身，也不需要額外的訓(xùn)練。RPC可以直接應(yīng)用于現(xiàn)有的推理型LLM。"

在實際實現(xiàn)中，RPC通過巧妙設(shè)計的算法，計算每個歷史詞元的重要性分數(shù)，并使用局部平均池化來促進連貫的詞元選擇，減少詞元級別的噪聲。這種方法能夠有效識別語義相關(guān)的詞元群組，保證壓縮后的推理路徑仍然連貫有意義。

四、實驗結(jié)果：更快的思考，相似的準確度

為了驗證RPC的有效性，研究團隊在多個基準測試和不同規(guī)模的模型上進行了全面評估。他們主要使用了兩個開源的推理型LLM：DeepSeek-R1-Distill-Qwen-7B（7B參數(shù)）和QwQ-32B（32B參數(shù)）。評估包括三個推理密集型基準測試：美國邀請數(shù)學(xué)考試（AIME）2024、LiveCodeBench編程任務(wù)和IFEval指令遵循測試。

研究團隊首先將RPC與現(xiàn)有方法進行比較，包括訓(xùn)練型推理路徑壓縮方法LightThinker和通用KV緩存壓縮技術(shù)H2O、TOVA。結(jié)果令人印象深刻：在AIME 2024測試中，使用RPC的DeepSeek-R1-Distill-Qwen-7B達到了52.9%的準確率，僅比完整KV緩存的55.5%低2.6個百分點，同時實現(xiàn)了4倍的壓縮比。相比之下，LightThinker的準確率僅為6.7%，而且只能實現(xiàn)1.4倍的壓縮比；H2O和TOVA分別達到45.0%和31.7%的準確率，雖然也實現(xiàn)了4倍壓縮，但準確率損失明顯更大。

在更大規(guī)模的QwQ-32B模型上，RPC表現(xiàn)更加穩(wěn)定：在AIME 2024上，準確率從79.5%輕微下降到78.3%；在LiveCodeBench上，從63.4%下降到62.2%；在IFEval上，從83.9%下降到82.6%。這表明RPC在較大模型上的性能更加穩(wěn)健，可能是因為大模型的冗余度更高，壓縮空間更大。

效率提升方面，RPC帶來了顯著的性能改善。對于DeepSeek-R1-Distill-Qwen-7B，當生成32768個詞元時，RPC將吞吐量提高了1.68倍，將峰值內(nèi)存使用量從75.7GB減少到36.2GB，節(jié)省了50%以上的內(nèi)存。對于QwQ-32B，RPC不僅將16384詞元生成時的吞吐量提高了1.60倍，還成功解決了32768詞元生成時的內(nèi)存不足問題，使之成為可能。

"就像給思考過程裝上了一個智能壓縮器，"研究者形象地解釋道，"模型可以以幾乎相同的準確度思考同樣的問題，但思考速度快了一倍多，所需空間也減少了一半以上。"

研究團隊還對RPC的關(guān)鍵超參數(shù)進行了消融研究，包括壓縮間隔P和選擇器窗口大小R。他們發(fā)現(xiàn)，P=4096提供了最佳的準確率-效率平衡，而R=32則是評估詞元重要性的最佳窗口大小。這些發(fā)現(xiàn)為實際部署RPC提供了有價值的指導(dǎo)。

五、未來展望：更高效的AI推理系統(tǒng)

推理路徑壓縮（RPC）技術(shù)的出現(xiàn)，為解決推理型LLM的效率問題開辟了一條新路徑。與傳統(tǒng)方法不同，RPC不需要重新訓(xùn)練模型，也不需要預(yù)先知道生成長度，這使它易于集成到現(xiàn)有的推理管道中。

更重要的是，RPC揭示了推理路徑中存在大量冗余信息的現(xiàn)象，這一發(fā)現(xiàn)本身就具有重要價值。它提示我們，未來的推理型LLM可能需要更智能的注意力機制，能夠自動識別和忽略不必要的重復(fù)內(nèi)容，從而提高推理效率。

研究團隊也嘗試了更激進的8倍壓縮比，雖然在復(fù)雜推理任務(wù)上準確率下降明顯，但在簡單任務(wù)如IFEval上表現(xiàn)依然穩(wěn)定。這表明壓縮比可以根據(jù)任務(wù)難度動態(tài)調(diào)整，為不同應(yīng)用場景提供更靈活的效率-準確率平衡。

"我們的工作只是第一步，"研究團隊在結(jié)論中指出，"未來可能會出現(xiàn)更多針對推理型LLM的專用優(yōu)化技術(shù)，進一步提高它們的效率和可擴展性。"

隨著推理型LLM在科學(xué)研究、教育、醫(yī)療和工程設(shè)計等領(lǐng)域的應(yīng)用日益廣泛，提高它們的運行效率變得至關(guān)重要。推理路徑壓縮技術(shù)為我們提供了一種實用的解決方案，讓這些強大的AI助手能夠以更快的速度、更低的資源消耗來解決復(fù)雜問題，從而為更廣泛的應(yīng)用鋪平道路。

人工智能KV緩存壓縮大型語言模型推理

分享至

0贊

好文章，需要你的鼓勵

推薦文章

音頻生成
大語言模型
多模態(tài)AI

2025-09-10 09:47

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實驗室團隊AudioStory突破性進展

騰訊ARC實驗室推出AudioStory系統(tǒng)，首次實現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù)，通過交錯式推理生成、解耦橋接機制和漸進式訓(xùn)練，能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準測試中表現(xiàn)優(yōu)異，為AI音頻創(chuàng)作開辟新方向。
視頻生成
深度學(xué)習(xí)
多模態(tài)學(xué)習(xí)

2025-09-09 13:57

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù)，通過讓AI同時學(xué)習(xí)外觀和運動信息，顯著解決了當前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運動質(zhì)量，在多項測試中超越包括Sora在內(nèi)的商業(yè)模型，為AI視頻生成的實用化應(yīng)用奠定了重要基礎(chǔ)。
多模態(tài)AI
人類價值觀對齊
數(shù)據(jù)集構(gòu)建

2025-09-09 13:56

上海AI實驗室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價值觀對齊難題

上海AI實驗室發(fā)布OmniAlign-V研究，首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準，通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法，讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平，為AI價值觀對齊提供了可行技術(shù)路徑。
人工智能
圖神經(jīng)網(wǎng)絡(luò)
天氣預(yù)報

2025-09-09 10:56

谷歌研究團隊發(fā)布超級預(yù)測模型：讓AI像天氣預(yù)報員一樣預(yù)測全球大氣變化

谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型，能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報，準確性超越傳統(tǒng)方法90%的指標。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù)，通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律，在極端天氣預(yù)測方面表現(xiàn)卓越，能耗僅為傳統(tǒng)方法的千分之一，為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實驗室團隊AudioStory突破性進展

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實驗室團隊AudioStory突破性進展

2025-09-10 09:47

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

2025-09-09 13:57

上海AI實驗室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價值觀對齊難題

上海AI實驗室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價值觀對齊難題

2025-09-09 13:56

谷歌研究團隊發(fā)布超級預(yù)測模型：讓AI像天氣預(yù)報員一樣預(yù)測全球大氣變化

谷歌研究團隊發(fā)布超級預(yù)測模型：讓AI像天氣預(yù)報員一樣預(yù)測全球大氣變化

2025-09-09 10:56

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時代

京ICP證15039648號京ICP備15039648號-9 京公網(wǎng)安備 11010802021500號

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報電話：010-62641205　涉未成年人舉報專線：010-62641208 舉報郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報專區(qū)：https://www.12377.cn

<del id="nv65v"></del>