這項(xiàng)由東南大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院的岳林南教授領(lǐng)導(dǎo)的研究團(tuán)隊(duì)完成的研究發(fā)表于2025年8月,論文題目為《Don't Overthink It: A Survey of Efficient R1-style Large Reasoning Models》。該研究的完整論文可以通過arXiv預(yù)印本平臺(tái)訪問,論文編號(hào)為arXiv:2508.02120v1。有興趣深入了解的讀者可以在GitHub上找到相關(guān)代碼和資源,網(wǎng)址為https://github.com/yuelinan/Awesome-Efficient-R1-style-LRMs。
當(dāng)我們面對一道數(shù)學(xué)題時(shí),有些人會(huì)快速找到解題思路并直接給出答案,而有些人卻會(huì)反復(fù)檢查、不斷懷疑自己的答案,最終可能因?yàn)橄氲锰喾炊鲥e(cuò)了。如今的人工智能也面臨著同樣的問題。
近年來,隨著OpenAI的o1模型和DeepSeek的R1模型的出現(xiàn),一類新的AI模型嶄露頭角,它們被稱為大型推理模型。這些模型就像是AI界的"深度思考者",在回答問題之前會(huì)進(jìn)行長時(shí)間的內(nèi)部思考,通常用<think>和</think>標(biāo)簽來標(biāo)記這個(gè)思考過程。這種思考方式確實(shí)讓AI在處理復(fù)雜問題時(shí)表現(xiàn)得更加出色,就好比一個(gè)學(xué)生在考試時(shí)會(huì)在草稿紙上寫下詳細(xì)的解題步驟。
然而,問題隨之而來。這些AI模型在思考時(shí)經(jīng)常會(huì)陷入"過度思考"的陷阱,就像一個(gè)人在做決定時(shí)反復(fù)糾結(jié),明明一個(gè)簡單的問題,AI卻可能產(chǎn)生長達(dá)幾千個(gè)字的思考過程,其中充滿了重復(fù)、自我懷疑和無關(guān)緊要的內(nèi)容。這不僅大大增加了計(jì)算成本和響應(yīng)時(shí)間,有時(shí)反而會(huì)因?yàn)橄氲锰珡?fù)雜而影響最終答案的準(zhǔn)確性。
為了解決這個(gè)"AI加班狂魔"的問題,東南大學(xué)的研究團(tuán)隊(duì)對當(dāng)前的高效推理方法進(jìn)行了全面而深入的調(diào)研。他們發(fā)現(xiàn),現(xiàn)有的解決方案可以分為兩大類:單模型優(yōu)化和多模型協(xié)作。這就好比解決工作效率問題時(shí),既可以讓一個(gè)員工提高工作方法,也可以通過團(tuán)隊(duì)合作來提升整體效率。
一、單模型優(yōu)化:讓AI學(xué)會(huì)"適可而止"
在單模型優(yōu)化方面,研究團(tuán)隊(duì)發(fā)現(xiàn)了四種主要的策略,每一種都像是給AI裝上了不同類型的"剎車系統(tǒng)"。
首先是早期退出策略,這就像給AI設(shè)置了一個(gè)智能鬧鐘。當(dāng)AI在思考過程中達(dá)到了足夠的信心水平,或者已經(jīng)找到了合理的答案時(shí),系統(tǒng)就會(huì)提醒它停止繼續(xù)思考。比如DEER方法會(huì)在AI的思考鏈中尋找關(guān)鍵的轉(zhuǎn)折點(diǎn),如"等等"或"讓我重新考慮"這樣的詞語,然后在這些點(diǎn)上讓AI給出一個(gè)臨時(shí)答案。如果這個(gè)答案的可信度足夠高,AI就會(huì)直接輸出,而不是繼續(xù)糾結(jié)下去。
思維鏈壓縮是另一種有效的方法,它的工作原理就像編輯一篇冗長的文章。AI首先會(huì)生成完整的思考過程,然后通過各種技術(shù)手段去掉其中的冗余部分,保留最核心的推理步驟。有些方法會(huì)在詞語層面進(jìn)行壓縮,刪除不重要的詞匯;有些則會(huì)在步驟層面進(jìn)行整合,將多個(gè)類似的推理步驟合并成一個(gè)。這就像把一本厚重的教科書壓縮成精華版,保留所有重要內(nèi)容但大幅減少篇幅。
自適應(yīng)推理則更加智能,它讓AI學(xué)會(huì)根據(jù)問題的復(fù)雜程度來決定思考的深度。就像一個(gè)經(jīng)驗(yàn)豐富的醫(yī)生,面對簡單的感冒會(huì)快速開藥,但遇到復(fù)雜病癥時(shí)會(huì)進(jìn)行詳細(xì)檢查。AI通過強(qiáng)化學(xué)習(xí)訓(xùn)練,能夠判斷什么時(shí)候需要深度思考,什么時(shí)候可以快速給出答案。這種方法的關(guān)鍵在于訓(xùn)練AI形成良好的"直覺",知道何時(shí)應(yīng)該停止思考。
表示工程是一種更加技術(shù)性的方法,它直接干預(yù)AI的內(nèi)部表示過程。研究人員發(fā)現(xiàn),AI在進(jìn)行長時(shí)間思考時(shí),其內(nèi)部的數(shù)字表示會(huì)呈現(xiàn)出特定的模式。通過分析這些模式,他們可以在AI即將陷入過度思考時(shí)及時(shí)進(jìn)行干預(yù),就像給即將失控的汽車及時(shí)踩剎車。
二、多模型協(xié)作:團(tuán)隊(duì)合作提升效率
除了優(yōu)化單個(gè)模型,研究團(tuán)隊(duì)還探索了多個(gè)AI模型協(xié)作的可能性。這種方法就像組建一個(gè)高效的工作團(tuán)隊(duì),每個(gè)成員都有自己的專長。
長短模型協(xié)作是其中最直觀的方法。研究人員發(fā)現(xiàn),可以讓一個(gè)"快思考"的小模型和一個(gè)"深思考"的大模型配合工作。小模型負(fù)責(zé)處理簡單問題,當(dāng)遇到復(fù)雜問題時(shí)再把任務(wù)交給大模型。這就像在醫(yī)院里,護(hù)士先進(jìn)行初步診斷,復(fù)雜病例才需要專家醫(yī)生介入。有些系統(tǒng)甚至實(shí)現(xiàn)了更精細(xì)的協(xié)作,讓小模型負(fù)責(zé)制定思考計(jì)劃,大模型負(fù)責(zé)執(zhí)行具體的推理過程。
模型路由技術(shù)則更像一個(gè)智能的任務(wù)分配系統(tǒng)。當(dāng)用戶提出問題時(shí),路由器會(huì)快速分析問題的特點(diǎn)和難度,然后決定派給哪個(gè)模型來處理。簡單的數(shù)學(xué)計(jì)算可能直接交給輕量級(jí)模型,而復(fù)雜的邏輯推理則會(huì)分配給更強(qiáng)大的模型。這種方法的關(guān)鍵在于準(zhǔn)確判斷問題的復(fù)雜程度,避免"大材小用"或"小材大用"的情況。
模型整合技術(shù)采用了一種更加根本的方法,它將多個(gè)不同特長的模型的能力整合到一個(gè)新的模型中。這就像培養(yǎng)一個(gè)多才多藝的員工,既具備快速處理簡單任務(wù)的能力,也能應(yīng)對復(fù)雜挑戰(zhàn)。研究人員通過知識(shí)蒸餾和參數(shù)合并等技術(shù),成功創(chuàng)建了這樣的"全能"模型。
推測解碼是一種特別巧妙的協(xié)作方式,它讓小模型先"打草稿",大模型再進(jìn)行"審核"。小模型會(huì)快速生成一段可能的答案,然后大模型會(huì)檢查這個(gè)答案是否正確。如果正確,就直接采用;如果有問題,大模型會(huì)進(jìn)行修正。這種方法既保證了答案質(zhì)量,又大幅提升了生成速度。
三、實(shí)際應(yīng)用前景:從實(shí)驗(yàn)室到現(xiàn)實(shí)世界
研究團(tuán)隊(duì)還展望了這些技術(shù)在實(shí)際應(yīng)用中的前景。他們發(fā)現(xiàn),高效推理技術(shù)在多個(gè)領(lǐng)域都有廣闊的應(yīng)用空間。
在多模態(tài)推理方面,當(dāng)AI需要同時(shí)處理文字、圖片和聲音時(shí),過度思考的問題會(huì)變得更加嚴(yán)重。研究人員提出可以將推理過程分為感知、理解和推理三個(gè)階段,每個(gè)階段都有不同的效率要求。這就像人類在看電影時(shí),我們不需要對每一幀畫面都進(jìn)行深度分析,只需要在關(guān)鍵情節(jié)處集中注意力。
工具集成推理是另一個(gè)重要應(yīng)用方向。現(xiàn)代AI系統(tǒng)經(jīng)常需要調(diào)用各種外部工具,如搜索引擎、計(jì)算器或數(shù)據(jù)庫。過度思考可能導(dǎo)致AI反復(fù)調(diào)用同樣的工具或獲取冗余信息。高效推理技術(shù)可以幫助AI更加精準(zhǔn)地使用這些工具,避免不必要的資源浪費(fèi)。
在多智能體系統(tǒng)中,當(dāng)多個(gè)AI需要協(xié)作完成復(fù)雜任務(wù)時(shí),如果每個(gè)AI都陷入過度思考,整個(gè)系統(tǒng)的效率會(huì)大幅下降。通過合理的任務(wù)分配和推理控制,可以讓整個(gè)AI團(tuán)隊(duì)更加高效地工作。
真實(shí)性和安全性也是研究團(tuán)隊(duì)關(guān)注的重點(diǎn)。他們發(fā)現(xiàn),過度思考不僅會(huì)影響效率,有時(shí)還可能導(dǎo)致AI產(chǎn)生更多錯(cuò)誤信息或暴露安全漏洞。因此,在追求效率的同時(shí),確保AI輸出的可靠性和安全性同樣重要。
四、技術(shù)細(xì)節(jié):深入理解工作原理
為了讓普通讀者更好地理解這些技術(shù),研究團(tuán)隊(duì)提供了豐富的技術(shù)細(xì)節(jié)。他們發(fā)現(xiàn),AI的過度思考主要表現(xiàn)在兩個(gè)方面:一是對簡單問題進(jìn)行復(fù)雜分析,就像用手術(shù)刀切豆腐;二是在推理過程中反復(fù)自我質(zhì)疑,就像一個(gè)缺乏自信的學(xué)生不斷擦掉重寫答案。
針對第一個(gè)問題,研究人員開發(fā)了問題復(fù)雜度評(píng)估技術(shù)。這些技術(shù)可以快速分析用戶提出的問題,判斷是否需要啟動(dòng)復(fù)雜的推理過程。評(píng)估指標(biāo)包括問題的語言復(fù)雜度、涉及的知識(shí)領(lǐng)域數(shù)量、需要的推理步驟等。
對于第二個(gè)問題,研究人員提出了置信度監(jiān)控技術(shù)。這些技術(shù)可以實(shí)時(shí)監(jiān)測AI在推理過程中的置信度變化,當(dāng)發(fā)現(xiàn)AI開始自我懷疑或陷入重復(fù)思考時(shí),及時(shí)介入并引導(dǎo)其得出結(jié)論。
研究還發(fā)現(xiàn),不同類型的問題需要不同的推理策略。數(shù)學(xué)計(jì)算問題通常有明確的步驟和答案,適合使用結(jié)構(gòu)化的推理方法;而創(chuàng)意寫作或開放性討論則需要更加靈活的思考方式。因此,高效推理系統(tǒng)需要具備根據(jù)問題類型調(diào)整策略的能力。
五、評(píng)估與驗(yàn)證:如何衡量成功
研究團(tuán)隊(duì)還詳細(xì)介紹了如何評(píng)估這些高效推理方法的效果。傳統(tǒng)的評(píng)估只關(guān)注最終答案的準(zhǔn)確性,但在推理效率研究中,還需要考慮思考時(shí)間、計(jì)算資源消耗、推理步驟數(shù)量等多個(gè)維度。
他們提出了一個(gè)綜合評(píng)估框架,就像給學(xué)生評(píng)分時(shí)不僅要看考試成績,還要考慮答題速度和過程規(guī)范性。這個(gè)框架包括準(zhǔn)確性指標(biāo)(答案是否正確)、效率指標(biāo)(消耗的時(shí)間和資源)、簡潔性指標(biāo)(推理過程是否冗余)等。
在實(shí)際測試中,研究人員使用了多個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集,涵蓋數(shù)學(xué)問題、邏輯推理、常識(shí)問答等不同領(lǐng)域。結(jié)果顯示,采用高效推理技術(shù)的AI系統(tǒng)在保持相似準(zhǔn)確性的情況下,推理速度平均提升了2-5倍,計(jì)算資源消耗減少了30-70%。
六、挑戰(zhàn)與局限:仍需解決的問題
盡管取得了顯著進(jìn)展,研究團(tuán)隊(duì)也坦誠地指出了當(dāng)前技術(shù)面臨的挑戰(zhàn)。最大的挑戰(zhàn)是如何平衡效率和準(zhǔn)確性。有時(shí)候,看似冗余的思考過程實(shí)際上對得出正確答案很重要。就像解決復(fù)雜問題時(shí),表面上的"繞彎路"可能是必要的探索過程。
另一個(gè)挑戰(zhàn)是個(gè)體差異問題。不同的問題、不同的用戶、不同的應(yīng)用場景都可能需要不同的推理策略。開發(fā)一個(gè)能夠適應(yīng)所有情況的通用高效推理系統(tǒng)仍然是一個(gè)開放性問題。
研究人員還發(fā)現(xiàn),當(dāng)前的評(píng)估方法可能還不夠全面。如何定義"最優(yōu)"的推理過程,如何在復(fù)雜的實(shí)際應(yīng)用中驗(yàn)證這些技術(shù)的效果,都需要進(jìn)一步的研究。
此外,這些技術(shù)的可解釋性也是一個(gè)重要問題。當(dāng)AI采用高效推理策略時(shí),用戶可能更難理解其推理過程,這在某些需要高度透明度的應(yīng)用場景中可能成為障礙。
說到底,這項(xiàng)研究為我們揭示了AI推理領(lǐng)域的一個(gè)重要發(fā)展方向。隨著AI系統(tǒng)變得越來越強(qiáng)大,如何讓它們不僅聰明而且高效,已經(jīng)成為一個(gè)迫切需要解決的問題。東南大學(xué)團(tuán)隊(duì)的這項(xiàng)綜述性研究不僅為我們梳理了當(dāng)前的技術(shù)現(xiàn)狀,更為未來的發(fā)展指明了方向。
對于普通用戶來說,這意味著我們將很快看到更加快速、經(jīng)濟(jì)的AI助手。這些AI不會(huì)再讓我們等待幾分鐘才給出一個(gè)簡單問題的答案,也不會(huì)因?yàn)檫^度思考而產(chǎn)生冗長無用的回復(fù)。相反,它們會(huì)變得更加精準(zhǔn)和高效,就像一個(gè)經(jīng)驗(yàn)豐富的專家,能夠迅速抓住問題的要害并給出恰到好處的回答。
這項(xiàng)研究還告訴我們,AI的發(fā)展不僅僅是讓機(jī)器變得更聰明,更重要的是讓它們學(xué)會(huì)什么時(shí)候該思考、思考多深、何時(shí)停止。這種"適度思考"的能力,恰恰是人類智慧的重要體現(xiàn),現(xiàn)在我們正在努力讓AI也具備這種智慧。
Q&A
Q1:什么是R1風(fēng)格的大型推理模型?它們有什么特點(diǎn)?
A:R1風(fēng)格的大型推理模型是以DeepSeek R1為代表的一類AI模型,它們的特點(diǎn)是在回答問題前會(huì)進(jìn)行長時(shí)間的內(nèi)部思考,這個(gè)思考過程通常用<think>和</think>標(biāo)簽標(biāo)記。這些模型通過強(qiáng)化學(xué)習(xí)訓(xùn)練,能夠進(jìn)行復(fù)雜的逐步推理和自我反思,在處理復(fù)雜問題時(shí)表現(xiàn)更出色,但也容易陷入過度思考的問題。
Q2:AI過度思考會(huì)帶來什么問題?
A:AI過度思考主要帶來三個(gè)問題:首先是大幅增加計(jì)算成本和響應(yīng)時(shí)間,讓用戶等待時(shí)間過長;其次是可能因?yàn)橄氲锰珡?fù)雜反而影響最終答案的準(zhǔn)確性;最后是增加安全風(fēng)險(xiǎn),過長的思考過程可能暴露更多漏洞。就像人類考試時(shí)想得太多可能會(huì)改錯(cuò)答案一樣,AI也會(huì)因?yàn)檫^度糾結(jié)而降低表現(xiàn)。
Q3:高效推理技術(shù)如何解決AI過度思考問題?
A:高效推理技術(shù)主要通過兩大類方法解決:單模型優(yōu)化包括早期退出(設(shè)置智能停止點(diǎn))、思維鏈壓縮(刪除冗余推理步驟)、自適應(yīng)推理(根據(jù)問題難度調(diào)整思考深度)等;多模型協(xié)作則通過讓不同能力的AI模型分工合作,簡單問題用小模型快速處理,復(fù)雜問題才動(dòng)用大模型深度思考,從而在保證準(zhǔn)確性的同時(shí)大幅提升效率。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。