這項(xiàng)由馬里蘭大學(xué)的程正祥、陳東平、傅明洋和周天怡團(tuán)隊(duì)完成的研究發(fā)表于2025年6月17日的預(yù)印本arXiv:2506.14755v1,專門針對(duì)大型推理模型的效率優(yōu)化問題。有興趣深入了解的讀者可以通過GitHub代碼庫https://github.com/zxiangx/LC-R1訪問完整研究成果。
當(dāng)下最先進(jìn)的AI推理模型,比如OpenAI的o1和DeepSeek-R1,就像那些特別愛鉆牛角尖的學(xué)霸朋友。你問他們一個(gè)數(shù)學(xué)題,他們明明在開頭幾句話就給出了正確答案,但接下來卻要花大量時(shí)間反復(fù)檢查、質(zhì)疑自己、重新驗(yàn)證,最終生成一大堆冗長的"思考過程"。這種現(xiàn)象被研究團(tuán)隊(duì)稱為"無效思考"——模型在找到正確答案后,還要進(jìn)行大量不必要的自我驗(yàn)證。
為了解決這個(gè)問題,馬里蘭大學(xué)的研究團(tuán)隊(duì)深入分析了當(dāng)前頂尖推理模型的"思考習(xí)慣"。他們發(fā)現(xiàn)了一個(gè)普遍存在的現(xiàn)象:這些模型通常只用35%到45%的"思考時(shí)間"來真正解決問題,剩下的大部分時(shí)間都在做重復(fù)性的檢查工作。這就好比一個(gè)廚師已經(jīng)做好了一道完美的菜,卻要花三倍的時(shí)間反復(fù)品嘗、調(diào)味,即使菜品本身已經(jīng)無可挑剔。
基于這個(gè)發(fā)現(xiàn),研究團(tuán)隊(duì)提出了兩個(gè)核心原則來指導(dǎo)AI模型的優(yōu)化。第一個(gè)原則叫做"簡(jiǎn)潔性",要求模型學(xué)會(huì)在得出正確答案后立即停止思考,就像解數(shù)學(xué)題時(shí)寫完最后一步就放下筆,而不是繼續(xù)驗(yàn)算已經(jīng)確認(rèn)無誤的計(jì)算。第二個(gè)原則是"充分性",確保模型在追求簡(jiǎn)潔的同時(shí),不會(huì)遺漏任何關(guān)鍵的推理步驟,就像做菜時(shí)不能為了節(jié)省時(shí)間而跳過必要的步驟。
圍繞這兩個(gè)原則,團(tuán)隊(duì)開發(fā)了一套名為LC-R1的訓(xùn)練方法。這套方法的巧妙之處在于采用了雙重獎(jiǎng)勵(lì)機(jī)制。第一重獎(jiǎng)勵(lì)針對(duì)整體長度控制,鼓勵(lì)模型生成更簡(jiǎn)潔的回答。第二重獎(jiǎng)勵(lì)更加精準(zhǔn),專門針對(duì)"無效思考"部分進(jìn)行懲罰。當(dāng)模型在找到正確答案后還要繼續(xù)啰嗦時(shí),系統(tǒng)會(huì)給予負(fù)面反饋;而當(dāng)模型恰到好處地在正確答案處停筆時(shí),則會(huì)獲得正面鼓勵(lì)。
這種訓(xùn)練策略的核心思想類似于訓(xùn)練一個(gè)演講者。優(yōu)秀的演講者知道什么時(shí)候該詳細(xì)闡述,什么時(shí)候該適可而止。LC-R1方法教會(huì)AI模型識(shí)別"該停下來"的時(shí)機(jī),避免畫蛇添足式的過度解釋。
研究團(tuán)隊(duì)的實(shí)驗(yàn)過程相當(dāng)全面。他們選擇了兩個(gè)代表性的推理模型——DeepSeek-R1-Distill-Qwen-7B和1.5B版本作為測(cè)試對(duì)象,并在七個(gè)不同的基準(zhǔn)測(cè)試上驗(yàn)證方法的有效性。這些測(cè)試涵蓋了數(shù)學(xué)推理、編程和通用知識(shí)等多個(gè)領(lǐng)域,包括AIME25數(shù)學(xué)競(jìng)賽題目、MATH500數(shù)學(xué)問題集、GSM8K小學(xué)數(shù)學(xué)、奧林匹克數(shù)學(xué)競(jìng)賽、美國數(shù)學(xué)競(jìng)賽AMC、研究生級(jí)別的GPQA-Diamond以及編程測(cè)試LiveCodeBench。
為了準(zhǔn)確測(cè)量模型的"思考效率",研究團(tuán)隊(duì)還開發(fā)了一個(gè)專門的分析工具LC-Extractor。這個(gè)工具能夠自動(dòng)識(shí)別模型推理過程中的"有效思考"部分和"無效思考"部分,就像一個(gè)編輯能夠識(shí)別文章中的核心觀點(diǎn)和冗余內(nèi)容。通過這個(gè)工具,研究人員發(fā)現(xiàn)當(dāng)前最先進(jìn)的推理模型普遍存在"思考效率"偏低的問題。
實(shí)驗(yàn)結(jié)果令人印象深刻。在保持推理準(zhǔn)確性基本不變的前提下(僅下降約2%),LC-R1方法成功將模型的輸出長度壓縮了大約50%。這意味著模型能夠用一半的"話"說清楚同樣的問題,大大提高了計(jì)算效率。更重要的是,這種壓縮并不是簡(jiǎn)單的刪減,而是精準(zhǔn)地移除了那些真正無用的重復(fù)驗(yàn)證部分。
研究團(tuán)隊(duì)還進(jìn)行了詳細(xì)的對(duì)比分析,將他們的方法與其他幾種現(xiàn)有的壓縮技術(shù)進(jìn)行比較。結(jié)果顯示,LC-R1在效率和準(zhǔn)確性的平衡方面表現(xiàn)最佳。其他方法要么壓縮效果有限,要么會(huì)顯著損害模型的推理能力,而LC-R1能夠?qū)崿F(xiàn)兩者的最佳平衡。
特別值得關(guān)注的是,研究團(tuán)隊(duì)發(fā)現(xiàn)他們的方法對(duì)不同難度的問題都能保持一致的壓縮效果。無論是簡(jiǎn)單的算術(shù)題還是復(fù)雜的數(shù)學(xué)證明,模型都能夠在保持解題能力的同時(shí)實(shí)現(xiàn)相似程度的效率提升。這表明LC-R1方法具有很好的普適性,不會(huì)因?yàn)閱栴}的復(fù)雜程度而失效。
為了驗(yàn)證壓縮后的模型是否仍然保持原有的"探索能力",研究團(tuán)隊(duì)進(jìn)行了多次采樣測(cè)試。他們讓模型對(duì)同一個(gè)問題生成多個(gè)不同的解答,然后比較壓縮前后模型的表現(xiàn)。結(jié)果表明,即使經(jīng)過大幅壓縮,模型在多次嘗試中找到正確答案的能力并沒有下降,這說明壓縮過程確實(shí)只是移除了冗余部分,而沒有損害模型的核心推理能力。
從技術(shù)實(shí)現(xiàn)的角度來看,LC-R1方法采用了一種稱為Group Relative Policy Optimization(GRPO)的強(qiáng)化學(xué)習(xí)框架。這個(gè)框架的特點(diǎn)是能夠同時(shí)處理多個(gè)候選答案,通過比較不同答案的質(zhì)量來調(diào)整模型的行為。研究團(tuán)隊(duì)在這個(gè)基礎(chǔ)框架上添加了他們的雙重獎(jiǎng)勵(lì)機(jī)制,使得模型能夠在學(xué)習(xí)生成正確答案的同時(shí),也學(xué)會(huì)控制輸出的長度和冗余度。
整個(gè)訓(xùn)練過程分為三個(gè)主要階段。首先是"有效片段提取"階段,使用LC-Extractor工具識(shí)別推理過程中的關(guān)鍵部分。接著是"獎(jiǎng)勵(lì)計(jì)算"階段,根據(jù)輸出的長度和冗余程度計(jì)算相應(yīng)的獎(jiǎng)勵(lì)分?jǐn)?shù)。最后是"策略優(yōu)化"階段,使用計(jì)算得到的獎(jiǎng)勵(lì)來更新模型的參數(shù),使其逐步學(xué)會(huì)更高效的推理方式。
研究團(tuán)隊(duì)還進(jìn)行了細(xì)致的消融實(shí)驗(yàn),分別測(cè)試了兩種獎(jiǎng)勵(lì)機(jī)制的獨(dú)立效果。結(jié)果顯示,雖然單獨(dú)使用長度獎(jiǎng)勵(lì)或壓縮獎(jiǎng)勵(lì)都能帶來一定的改善,但只有將兩者結(jié)合使用才能達(dá)到最佳效果。這驗(yàn)證了雙重獎(jiǎng)勵(lì)設(shè)計(jì)的必要性和有效性。
在實(shí)際應(yīng)用的角度考慮,這項(xiàng)研究的意義遠(yuǎn)不止于學(xué)術(shù)層面。隨著AI推理模型在教育、科研、商業(yè)咨詢等領(lǐng)域的廣泛應(yīng)用,計(jì)算效率的提升直接關(guān)系到使用成本和響應(yīng)速度。一個(gè)能夠用更少的計(jì)算資源提供同樣質(zhì)量推理結(jié)果的模型,意味著更低的運(yùn)營成本和更好的用戶體驗(yàn)。
此外,這種效率提升還有助于推理模型在資源受限的環(huán)境中部署。比如在移動(dòng)設(shè)備上運(yùn)行推理模型,或者在網(wǎng)絡(luò)帶寬有限的情況下提供AI服務(wù)。通過減少不必要的輸出內(nèi)容,模型能夠更快地響應(yīng)用戶請(qǐng)求,提供更流暢的交互體驗(yàn)。
研究團(tuán)隊(duì)還指出,他們的方法具有很好的可擴(kuò)展性。目前的實(shí)驗(yàn)主要集中在7B和1.5B參數(shù)規(guī)模的模型上,但理論上這種方法可以應(yīng)用到更大規(guī)模的模型中。隨著模型規(guī)模的增大,"無效思考"問題可能會(huì)變得更加嚴(yán)重,因此LC-R1方法的價(jià)值也會(huì)更加突出。
從更廣闊的視角來看,這項(xiàng)研究揭示了當(dāng)前AI推理模型訓(xùn)練過程中的一個(gè)重要盲點(diǎn)。傳統(tǒng)的訓(xùn)練方法往往只關(guān)注推理結(jié)果的正確性,而忽略了推理過程的效率。LC-R1方法的成功表明,在追求推理能力的同時(shí),我們同樣需要關(guān)注推理效率,這為未來的AI模型設(shè)計(jì)提供了新的思路。
研究團(tuán)隊(duì)也坦誠地討論了他們方法的局限性。目前的驗(yàn)證主要集中在數(shù)學(xué)和編程領(lǐng)域,對(duì)于其他類型的推理任務(wù)(如常識(shí)推理、創(chuàng)意寫作等)的效果還需要進(jìn)一步驗(yàn)證。另外,如何在保持推理深度的同時(shí)實(shí)現(xiàn)效率提升,仍然是一個(gè)需要持續(xù)探索的問題。
值得一提的是,研究團(tuán)隊(duì)已經(jīng)將他們的代碼和數(shù)據(jù)公開發(fā)布,這為其他研究者驗(yàn)證和改進(jìn)這一方法提供了便利。這種開放的研究態(tài)度有助于推動(dòng)整個(gè)領(lǐng)域的快速發(fā)展,讓更多的研究團(tuán)隊(duì)能夠在此基礎(chǔ)上繼續(xù)探索AI推理效率的優(yōu)化問題。
展望未來,這項(xiàng)研究可能會(huì)催生更多關(guān)于AI推理效率的研究。隨著對(duì)"無效思考"現(xiàn)象認(rèn)識(shí)的深入,可能會(huì)出現(xiàn)更加精細(xì)的效率優(yōu)化方法。同時(shí),這種效率導(dǎo)向的思維方式也可能會(huì)影響到AI模型的整體設(shè)計(jì)理念,促使研究者在追求性能的同時(shí),更加重視資源利用的效率。
說到底,這項(xiàng)研究解決的是一個(gè)非常實(shí)際的問題:如何讓強(qiáng)大的AI推理模型變得更加"經(jīng)濟(jì)實(shí)用"。通過巧妙的訓(xùn)練策略,研究團(tuán)隊(duì)成功地讓模型學(xué)會(huì)了"話不多說,直擊要點(diǎn)"的能力。這不僅提高了計(jì)算效率,也為AI技術(shù)的普及應(yīng)用掃除了一個(gè)重要障礙。對(duì)于普通用戶而言,這意味著未來我們能夠以更低的成本享受到更高質(zhì)量的AI推理服務(wù)。對(duì)于研究者和開發(fā)者來說,這項(xiàng)工作為優(yōu)化AI模型性能提供了新的視角和工具。歸根結(jié)底,這是一項(xiàng)讓AI變得更聰明、更高效的研究,值得我們持續(xù)關(guān)注其后續(xù)發(fā)展。
Q&A
Q1:什么是"無效思考"?為什么AI模型會(huì)出現(xiàn)這種現(xiàn)象? A:無效思考是指AI推理模型在已經(jīng)得出正確答案后,還繼續(xù)進(jìn)行大量重復(fù)性驗(yàn)證和檢查的現(xiàn)象。這類似于一個(gè)人解完數(shù)學(xué)題后反復(fù)驗(yàn)算已經(jīng)確認(rèn)無誤的計(jì)算。這種現(xiàn)象的出現(xiàn)主要是因?yàn)楝F(xiàn)有的訓(xùn)練方法只關(guān)注答案的正確性,而沒有教會(huì)模型何時(shí)應(yīng)該停止思考。
Q2:LC-R1方法會(huì)不會(huì)影響AI模型的推理準(zhǔn)確性? A:根據(jù)實(shí)驗(yàn)結(jié)果,LC-R1方法在大幅壓縮輸出長度(約50%)的同時(shí),準(zhǔn)確性僅下降約2%。研究團(tuán)隊(duì)通過多次采樣測(cè)試驗(yàn)證了壓縮后的模型仍然保持原有的探索能力和解題能力,說明該方法主要移除的是真正無用的冗余部分。
Q3:普通用戶能體驗(yàn)到這項(xiàng)技術(shù)帶來的改進(jìn)嗎? A:目前這項(xiàng)技術(shù)主要在學(xué)術(shù)研究階段,但其影響將逐步體現(xiàn)在AI產(chǎn)品中。未來使用AI推理服務(wù)時(shí),用戶將享受到更快的響應(yīng)速度、更低的使用成本以及更簡(jiǎn)潔明了的答案,特別是在數(shù)學(xué)輔導(dǎo)、編程幫助等需要邏輯推理的應(yīng)用場(chǎng)景中。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對(duì)話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。