av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<meter id="tzdt1"><td id="tzdt1"></td></meter>

<ruby id="tzdt1"><samp id="tzdt1"></samp></ruby>

首頁(yè)
對(duì)話創(chuàng)新
對(duì)話科技行者
機(jī)器人新紀(jì)元
AI論文解讀
聯(lián)系我們

微信掃一掃，關(guān)注公眾號(hào)

科技行者
算力行者

見(jiàn)證連接與計(jì)算的「力量」

思考到什么時(shí)候?yàn)楹?？美團(tuán)AI研究團(tuán)隊(duì)提出自適應(yīng)思考模式切換方法，讓大型推理模型更高效

人工智能大型推理模型自適應(yīng)推理

思考到什么時(shí)候?yàn)楹?？美團(tuán)AI研究團(tuán)隊(duì)提出自適應(yīng)思考模式切換方法，讓大型推理模型更高效

作者：科技行者

2025-05-27 16:58

分享至：

這篇論文介紹了美團(tuán)研究團(tuán)隊(duì)開(kāi)發(fā)的"自適應(yīng)自恢復(fù)推理"（ASRR）框架，解決了大型推理模型在簡(jiǎn)單問(wèn)題上過(guò)度思考的效率問(wèn)題。研究發(fā)現(xiàn)模型具有"內(nèi)部自恢復(fù)機(jī)制"，能在生成答案時(shí)隱式補(bǔ)充推理。ASRR通過(guò)無(wú)思考模式抑制不必要推理，并引入基于準(zhǔn)確率閾值的動(dòng)態(tài)長(zhǎng)度懲罰，使模型根據(jù)問(wèn)題難度自適應(yīng)分配推理資源。實(shí)驗(yàn)表明，ASRR在保持高準(zhǔn)確率的同時(shí)，大幅減少了推理長(zhǎng)度（最高減少32.5%），并顯著提升了安全性（無(wú)害率提高21.7%）。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-05-27 16:58 ? 科技行者

在2025年5月21日發(fā)表于arXiv的論文《When to Continue Thinking: Adaptive Thinking Mode Switching for Efficient Reasoning》中，來(lái)自美團(tuán)的研究團(tuán)隊(duì)包括張曉云、阮靜青（通訊作者）、馬星、朱雅文、趙昊東、李昊、陳建松（通訊作者）、曾科和蔡訓(xùn)良提出了一種名為"自適應(yīng)自恢復(fù)推理"（Adaptive Self-Recovery Reasoning，簡(jiǎn)稱(chēng)ASRR）的框架，用于解決大型推理模型在推理過(guò)程中過(guò)度思考的問(wèn)題。

想象一下，你平時(shí)解決問(wèn)題的方式：對(duì)于簡(jiǎn)單問(wèn)題（比如"0.9和0.11哪個(gè)更大？"），你可能一眼就能得出答案；而對(duì)于復(fù)雜問(wèn)題（比如高等數(shù)學(xué)證明），你可能需要仔細(xì)思考，一步步推導(dǎo)。但如果有人不管問(wèn)題難易，都要絞盡腦汁從基本原理推導(dǎo)，豈不是太浪費(fèi)時(shí)間了？

這正是當(dāng)前大型推理模型（LRMs）面臨的問(wèn)題。這些模型通過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練后，往往會(huì)生成不必要的長(zhǎng)推理鏈，特別是在處理簡(jiǎn)單問(wèn)題時(shí)，造成大量計(jì)算資源的浪費(fèi)。理想情況下，模型應(yīng)該能夠動(dòng)態(tài)調(diào)整推理長(zhǎng)度，對(duì)復(fù)雜問(wèn)題進(jìn)行詳細(xì)推理，對(duì)簡(jiǎn)單問(wèn)題只需簡(jiǎn)單或無(wú)推理就能給出答案，從而實(shí)現(xiàn)效率最大化。

美團(tuán)研究團(tuán)隊(duì)通過(guò)系統(tǒng)分析，發(fā)現(xiàn)了LRMs具有一種"內(nèi)部自恢復(fù)機(jī)制"，即模型在被抑制明確推理時(shí)，有時(shí)會(huì)在生成答案的過(guò)程中隱式地補(bǔ)充推理步驟，特別是在處理具有挑戰(zhàn)性的問(wèn)題時(shí)。研究人員將這種現(xiàn)象稱(chēng)為"繼續(xù)思考"（Continue-Thinking）。

然而，雖然這種自適應(yīng)行為很有前途，但研究分析表明，它有兩個(gè)主要限制： 1. 模型在處理更困難的問(wèn)題時(shí)，往往無(wú)法充分進(jìn)行繼續(xù)思考行為，導(dǎo)致推理不完整，準(zhǔn)確率降低 2. 模型可能在簡(jiǎn)單問(wèn)題上不必要地調(diào)用繼續(xù)思考，導(dǎo)致過(guò)度思考和效率低下

為了解決這些挑戰(zhàn)，研究團(tuán)隊(duì)提出了自適應(yīng)自恢復(fù)推理（ASRR）框架，指導(dǎo)LRMs根據(jù)問(wèn)題難度動(dòng)態(tài)調(diào)整推理長(zhǎng)度。ASRR引入了一種基于準(zhǔn)確率閾值的獎(jiǎng)勵(lì)機(jī)制：只有當(dāng)組內(nèi)達(dá)到足夠的準(zhǔn)確率時(shí)，才應(yīng)用長(zhǎng)度懲罰，從而平衡效率和正確性。

讓我們通過(guò)一個(gè)簡(jiǎn)單的比喻來(lái)理解ASRR框架的工作方式：想象一個(gè)學(xué)生在做不同難度的題目。對(duì)于簡(jiǎn)單題，他可以直接寫(xiě)出答案；對(duì)于難題，他需要詳細(xì)思考和推導(dǎo)。ASRR就像是一個(gè)聰明的教練，它教會(huì)模型判斷題目難度，簡(jiǎn)單題直接答，難題詳細(xì)思考，從而節(jié)省整體解題時(shí)間，同時(shí)保證答題質(zhì)量。

在各種模型和基準(zhǔn)測(cè)試的實(shí)驗(yàn)中，ASRR顯著減少了推理長(zhǎng)度，同時(shí)保持了高性能。此外，ASRR增強(qiáng)了"繼續(xù)思考"頻率與問(wèn)題難度之間的相關(guān)性，反映了模型難度感知和預(yù)算分配能力的提升。

接下來(lái)，我們將深入了解這項(xiàng)研究的具體方法、實(shí)驗(yàn)設(shè)計(jì)和重要發(fā)現(xiàn)。無(wú)論你是AI領(lǐng)域的愛(ài)好者還是對(duì)高效推理感興趣的普通讀者，這項(xiàng)研究都提供了對(duì)大型語(yǔ)言模型思考過(guò)程的有趣見(jiàn)解。

一、研究背景和動(dòng)機(jī)

想象你有一個(gè)非常聰明的朋友，他解決任何問(wèn)題都要從宇宙大爆炸開(kāi)始推導(dǎo)，即使是"1+1=？"這樣的簡(jiǎn)單問(wèn)題。雖然他總能得出正確答案，但這種過(guò)度思考的習(xí)慣會(huì)浪費(fèi)大量時(shí)間和精力。這正是當(dāng)前大型推理模型（LRMs）面臨的問(wèn)題。

近年來(lái)，像OpenAI-o1和DeepSeek-R1這樣的大型推理模型在復(fù)雜推理任務(wù)上取得了顯著進(jìn)步。它們通過(guò)生成長(zhǎng)推理鏈來(lái)解決問(wèn)題，效果確實(shí)很好。但問(wèn)題在于，這些模型被強(qiáng)化學(xué)習(xí)訓(xùn)練后，往往會(huì)不管問(wèn)題難易，都生成不必要的長(zhǎng)推理鏈。先前的研究已經(jīng)指出了這種"過(guò)度思考"現(xiàn)象，即使對(duì)于"0.9和0.11哪個(gè)更大？"這樣的簡(jiǎn)單問(wèn)題，模型也會(huì)進(jìn)行冗長(zhǎng)的推理。

理想情況下，推理模型應(yīng)該像人類(lèi)一樣，能夠根據(jù)問(wèn)題難度動(dòng)態(tài)調(diào)整思考深度：復(fù)雜問(wèn)題詳細(xì)分析，簡(jiǎn)單問(wèn)題快速解答。最近的研究探索了LRMs在"無(wú)思考模式"（No-Thinking）下的表現(xiàn)，這種模式下模型不生成明確的推理鏈，直接給出答案。這些研究表明，在無(wú)思考模式下，LRMs仍然能夠達(dá)到高準(zhǔn)確率，尤其是當(dāng)并行樣本數(shù)量增加時(shí)。

美團(tuán)研究團(tuán)隊(duì)的實(shí)證分析揭示了一個(gè)有趣的現(xiàn)象：這部分是因?yàn)槟Ｐ陀袝r(shí)會(huì)在生成答案的過(guò)程中隱式地補(bǔ)充推理步驟，特別是對(duì)于具有挑戰(zhàn)性的問(wèn)題。研究團(tuán)隊(duì)將這種現(xiàn)象稱(chēng)為"繼續(xù)思考"（Continue-Thinking）。

如圖1所示，當(dāng)模型進(jìn)行繼續(xù)思考時(shí)，它能夠成功解答一個(gè)具有挑戰(zhàn)性的問(wèn)題；而在模型未能繼續(xù)思考的情況下，它無(wú)法給出正確答案。研究團(tuán)隊(duì)將這種繼續(xù)思考現(xiàn)象稱(chēng)為"內(nèi)部自恢復(fù)機(jī)制"，這表明模型具有初步的難度感知能力和推理預(yù)算分配能力。

然而，雖然這種自適應(yīng)行為很有前途，但研究分析表明它有兩個(gè)主要限制：

首先，模型往往無(wú)法在更困難的問(wèn)題上充分進(jìn)行繼續(xù)思考行為，導(dǎo)致推理不完整，準(zhǔn)確率降低；其次，模型可能在簡(jiǎn)單問(wèn)題上不必要地調(diào)用繼續(xù)思考，導(dǎo)致過(guò)度思考和效率低下。這些問(wèn)題突顯了對(duì)更準(zhǔn)確的難度感知和更合理的推理資源分配的需求。

為了解決這些挑戰(zhàn)，研究團(tuán)隊(duì)提出了自適應(yīng)自恢復(fù)推理（ASRR）框架，引導(dǎo)LRMs根據(jù)問(wèn)題難度動(dòng)態(tài)調(diào)整推理長(zhǎng)度。ASRR引入了一種基于準(zhǔn)確率閾值的獎(jiǎng)勵(lì)機(jī)制：只有當(dāng)組內(nèi)達(dá)到足夠的準(zhǔn)確率時(shí)，才應(yīng)用長(zhǎng)度懲罰，平衡效率和正確性。

二、方法論：自適應(yīng)自恢復(fù)推理框架

研究團(tuán)隊(duì)首先進(jìn)行了系統(tǒng)分析，揭示了LRMs具有潛在能力，可以在答案生成過(guò)程中補(bǔ)充缺失的推理步驟，這一現(xiàn)象被稱(chēng)為"內(nèi)部自恢復(fù)機(jī)制"?；谶@一觀察，他們提出了自適應(yīng)自恢復(fù)推理（ASRR）框架。

### 觀察與動(dòng)機(jī)

研究團(tuán)隊(duì)分析了LRMs的"內(nèi)部自恢復(fù)機(jī)制"，并探索了無(wú)思考前綴對(duì)模型性能的影響。他們?cè)谒膫€(gè)基準(zhǔn)測(cè)試上進(jìn)行了探索性實(shí)驗(yàn)和定量分析：AIME 2024、OlympiadBench、AMC 2023和MATH500。

他們?cè)u(píng)估了模型在兩種設(shè)置下的表現(xiàn)：（1）長(zhǎng)思考模式，包括完整推理過(guò)程和答案總結(jié)的響應(yīng)；（2）無(wú)思考模式，在提示中附加非推理前綴（如"好的，我想我已經(jīng)完成思考"）以阻止顯式推理。對(duì)于這兩種設(shè)置，他們進(jìn)行了256次并行前向傳播，并計(jì)算pass@256指標(biāo)。

令人驚訝的是，長(zhǎng)思考和無(wú)思考模式在四個(gè)基準(zhǔn)測(cè)試中實(shí)現(xiàn)了幾乎相同的性能，平均pass@256分別為86.4%和84.98%。進(jìn)一步分析表明，這主要是由于在無(wú)思考模式下出現(xiàn)了繼續(xù)思考行為。

為了更好地理解這一效果，研究團(tuán)隊(duì)排除了表現(xiàn)出繼續(xù)思考行為的樣本，觀察到無(wú)思考模式的pass@256分?jǐn)?shù)顯著下降，平均從84.98%降至74.98%。最大降幅出現(xiàn)在AIME 2024上，從73.33%降至46.66%。此外，他們觀察到繼續(xù)思考行為的頻率與基準(zhǔn)測(cè)試的難度之間存在強(qiáng)烈的正相關(guān)性：在最困難的AIME 2024上，繼續(xù)思考比率為42.6%；在OlympiadBench上為19.7%；在AMC 2023上為22.2%；在最簡(jiǎn)單的MATH500上僅為9.4%。

這些結(jié)果表明，模型固有地具有初步的難度感知和答案驗(yàn)證能力，繼續(xù)思考行為構(gòu)成了LRMs的"內(nèi)部自恢復(fù)機(jī)制"。

然而，LRMs當(dāng)前的難度感知和預(yù)算分配能力仍存在明顯局限性。研究團(tuán)隊(duì)分析了不同推理模式下的pass@1指標(biāo)。pass@256和pass@1的比較揭示了一個(gè)關(guān)鍵限制：雖然無(wú)思考模式在困難問(wèn)題上的pass@256與長(zhǎng)思考模式相近（例如，在AIME 2024上僅下降3.4%），但其pass@1性能下降更為顯著（下降16.9%）。這表明模型在單次通過(guò)設(shè)置中難以為困難問(wèn)題持續(xù)補(bǔ)充推理。同時(shí)，在較簡(jiǎn)單的基準(zhǔn)上，模型仍然生成不必要的冗長(zhǎng)輸出，反映了持續(xù)的過(guò)度思考。

這些結(jié)果強(qiáng)調(diào)了需要機(jī)制使LRMs能夠根據(jù)問(wèn)題難度動(dòng)態(tài)調(diào)整推理深度，同時(shí)不犧牲整體性能。

### 自適應(yīng)自恢復(fù)推理框架

為了解決上述問(wèn)題，研究團(tuán)隊(duì)提出了自適應(yīng)自恢復(fù)推理（ASRR）框架，這是一種動(dòng)態(tài)推理優(yōu)化框架，利用LRMs的"內(nèi)部自恢復(fù)機(jī)制"。ASRR的核心目標(biāo)是在難度感知和推理預(yù)算分配之間取得平衡，通過(guò)顯式抑制不必要的推理，同時(shí)在需要時(shí)允許隱式恢復(fù)。

ASRR包括兩個(gè)主要組件：

第一個(gè)組件是在無(wú)思考模式下的顯式推理抑制和隱式自恢復(fù)。這個(gè)模塊使用特殊的輸出前綴激活簡(jiǎn)化的推理模式，鼓勵(lì)模型跳過(guò)簡(jiǎn)單問(wèn)題的冗余推理步驟，但允許在更具挑戰(zhàn)性的情況下進(jìn)行隱式恢復(fù)。

第二個(gè)組件是動(dòng)態(tài)長(zhǎng)度懲罰（DLP）。這個(gè)模塊基于準(zhǔn)確率閾值應(yīng)用動(dòng)態(tài)長(zhǎng)度懲罰，僅當(dāng)模型在組級(jí)別達(dá)到足夠準(zhǔn)確率時(shí)，才自適應(yīng)地懲罰過(guò)度推理。

這個(gè)框架旨在增強(qiáng)LRMs在不同復(fù)雜性任務(wù)中的效率和準(zhǔn)確性。

#### 無(wú)思考模式下的顯式推理抑制和隱式自恢復(fù)

受模型繼續(xù)思考行為的觀察啟發(fā)，研究團(tuán)隊(duì)發(fā)現(xiàn)LRMs即使在顯式推理被抑制時(shí)也能內(nèi)部恢復(fù)推理步驟。為了利用這一能力，他們引入了一種在無(wú)思考模式下的訓(xùn)練策略，通過(guò)在輸入提示中附加特殊前綴顯式抑制推理，同時(shí)仍然啟用隱式自恢復(fù)。

形式上，給定一個(gè)預(yù)訓(xùn)練的推理語(yǔ)言模型LLMθ和一個(gè)數(shù)據(jù)集D = {(xi, yi)}，其中每個(gè)實(shí)例由輸入提示xi和最終答案yi（不包含中間推理痕跡）組成。對(duì)于每個(gè)輸入xi，他們通過(guò)無(wú)思考前綴注入構(gòu)建增強(qiáng)提示：

xi = xi ⊕ pterm, pterm = "好的，我已經(jīng)完成思考。"

其中⊕表示字符串連接，pterm表示無(wú)思考前綴。給定增強(qiáng)提示，模型根據(jù)條件概率生成輸出序列：

Pθ(y|xi) = ∏T Pθ(yt|xi, y<t)

通過(guò)這種設(shè)計(jì)，研究團(tuán)隊(duì)期望無(wú)思考模式能夠?qū)崿F(xiàn)高效推理：

對(duì)于簡(jiǎn)單輸入，前綴pterm旨在使模型偏向于生成直接答案，最小化預(yù)期的推理標(biāo)記數(shù)量；對(duì)于更困難的輸入，預(yù)期模型內(nèi)部激活潛在推理路徑，導(dǎo)致更長(zhǎng)但必要的答案生成序列。

#### 動(dòng)態(tài)長(zhǎng)度懲罰（DLP）：基于準(zhǔn)確率的獎(jiǎng)勵(lì)調(diào)節(jié)

傳統(tǒng)的長(zhǎng)度懲罰在所有情況下強(qiáng)制輸出縮短，但這通常會(huì)導(dǎo)致兩個(gè)問(wèn)題：（a）模型為最小化長(zhǎng)度而犧牲正確性，導(dǎo)致"短但錯(cuò)誤"的輸出；（b）懲罰太弱，無(wú)法抑制過(guò)度思考，導(dǎo)致"準(zhǔn)確但冗長(zhǎng)"的推理。

為了解決這一問(wèn)題，研究團(tuán)隊(duì)設(shè)計(jì)了一種條件懲罰機(jī)制，平衡效率和準(zhǔn)確性。具體來(lái)說(shuō)，他們動(dòng)態(tài)調(diào)整長(zhǎng)度懲罰的時(shí)機(jī)和強(qiáng)度：只有當(dāng)模型達(dá)到準(zhǔn)確率閾值τ時(shí)才激活懲罰，且其強(qiáng)度隨性能提高而逐漸增加。

研究團(tuán)隊(duì)將訓(xùn)練數(shù)據(jù)分成組G，并計(jì)算平均組準(zhǔn)確率AccG。只有當(dāng)AccG ≥ τ時(shí)，才激活長(zhǎng)度懲罰，其中τ是預(yù)定義的閾值。

對(duì)于每個(gè)組，計(jì)算每個(gè)樣本i的超長(zhǎng)比率Oi：

Oi = clip((Li - Lcorrect_shortest) / Lwindow, 0, 1)

其中Lcorrect_shortest是組內(nèi)正確回答樣本中的最小生成長(zhǎng)度，Lwindow是常數(shù)長(zhǎng)度懲罰窗口。然后，每個(gè)樣本的總體獎(jiǎng)勵(lì)為：

Ri = I(yi = yi) - α · Oi

其中I(·)是答案正確性的指示函數(shù)，α是懲罰強(qiáng)度系數(shù)。

懲罰系數(shù)α根據(jù)組準(zhǔn)確率動(dòng)態(tài)調(diào)整：

α = { 0 如果 AccG < τ β·(AccG-τ+ε)/(1-τ+ε) 否則 }

其中β是設(shè)置懲罰上限的縮放因子，ε是確保數(shù)值穩(wěn)定性的小常數(shù)。

當(dāng)準(zhǔn)確率AccG低于閾值τ時(shí)，長(zhǎng)度懲罰被禁用（α = 0），允許模型僅專(zhuān)注于最大化正確性，而不會(huì)因過(guò)早的長(zhǎng)度優(yōu)化而承擔(dān)風(fēng)險(xiǎn)。當(dāng)準(zhǔn)確率達(dá)到或超過(guò)閾值（AccG ≥ τ）時(shí)，長(zhǎng)度懲罰逐漸引入，鼓勵(lì)模型減少冗余推理，同時(shí)仍然保持正確性。這種動(dòng)態(tài)平衡機(jī)制允許模型首先掌握答案正確性，然后逐漸優(yōu)化效率，最終實(shí)現(xiàn)"簡(jiǎn)短且準(zhǔn)確"的推理過(guò)程。

三、實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析

研究團(tuán)隊(duì)進(jìn)行了全面的實(shí)驗(yàn)，以評(píng)估ASRR框架在不同模型和基準(zhǔn)測(cè)試上的有效性。實(shí)驗(yàn)結(jié)果表明，ASRR能夠在最小的性能犧牲下顯著減少推理長(zhǎng)度，同時(shí)提高模型對(duì)問(wèn)題難度的感知能力和推理資源的分配效率。

### 實(shí)驗(yàn)設(shè)置

實(shí)驗(yàn)在兩個(gè)模型上進(jìn)行：DeepSeek-R1-Distill-Qwen-1.5B和DeepSeek-R1-Distill-Qwen-7B。這些模型在各種任務(wù)上展示了強(qiáng)大的能力，表明ASRR的通用性。

研究團(tuán)隊(duì)在五個(gè)基準(zhǔn)測(cè)試上進(jìn)行了全面實(shí)驗(yàn)，包括主要結(jié)果和多維驗(yàn)證研究：MATH500、AIME2024、AMC2023、Olympiad Bench和GSM8K。此外，他們還在BeaverTails和HarmfulQA基準(zhǔn)測(cè)試上評(píng)估了模型對(duì)安全相關(guān)查詢(xún)的自適應(yīng)響應(yīng)能力。

基線包括：（1）原始模型，（2）使用GRPO增強(qiáng)的原始模型，（3）同時(shí)使用GRPO和無(wú)思考前綴的原始模型。由于ASRR能夠靈活調(diào)整準(zhǔn)確率閾值以平衡效率和性能，研究團(tuán)隊(duì)還將其與幾種代表性的長(zhǎng)度減少技術(shù)進(jìn)行了比較，包括直接偏好優(yōu)化（DPO）、S1和基于長(zhǎng)度約束的強(qiáng)化學(xué)習(xí)方法（L1、ThinkPrune和Kimi k1.5）。

### 在最小性能犧牲下實(shí)現(xiàn)預(yù)算控制

表1展示了ASRR框架在DeepSeek-R1-Distill-Qwen-1.5B和DeepSeek-R1-Distill-Qwen-7B上的主要結(jié)果。研究團(tuán)隊(duì)比較了四種設(shè)置：原始模型、GRPO長(zhǎng)鏈推理、無(wú)思考提示（零樣本）和提出的ASRR。

結(jié)果顯示，GRPO顯著提高了模型的推理準(zhǔn)確率，但仍然產(chǎn)生長(zhǎng)生成鏈。無(wú)思考提示大幅減少了輸出長(zhǎng)度，但以犧牲大量準(zhǔn)確率為代價(jià)，特別是在具有挑戰(zhàn)性的基準(zhǔn)測(cè)試（如AIME和Olympiad Bench）上。相比之下，ASRR框架在保持高性能的同時(shí)實(shí)現(xiàn)了生成長(zhǎng)度的顯著減少。

具體來(lái)說(shuō)，在1.5B模型上，與GRPO相比，平均生成長(zhǎng)度減少了32.5%，而pass@1準(zhǔn)確率僅下降了1.2個(gè)百分點(diǎn)。對(duì)于7B模型，生成長(zhǎng)度減少了25.7%，而性能下降僅為0.6個(gè)百分點(diǎn)。

這些結(jié)果表明，ASRR能夠通過(guò)利用LRMs的"內(nèi)部自恢復(fù)機(jī)制"實(shí)現(xiàn)高效的預(yù)算分配：它抑制了簡(jiǎn)單問(wèn)題上的不必要推理，同時(shí)在更困難的實(shí)例上靈活觸發(fā)額外的推理步驟，以保持高準(zhǔn)確率。這驗(yàn)證了自適應(yīng)框架在平衡推理效率和性能方面的有效性，展示了其在實(shí)際應(yīng)用中的強(qiáng)大泛化能力和實(shí)用價(jià)值。

### 性能與效率之間的權(quán)衡

圖5展示了各種長(zhǎng)度控制LRMs在推理時(shí)間思考長(zhǎng)度和性能（pass@1準(zhǔn)確率）之間的權(quán)衡，研究團(tuán)隊(duì)在不同準(zhǔn)確率閾值（0%、25%、50%、75%、100%）下評(píng)估了DeepSeek-R1-Distill-Qwen-1.5B上的ASRR方法。圖上的每個(gè)點(diǎn)代表這些準(zhǔn)確率設(shè)置下ASRR方法在基準(zhǔn)測(cè)試上的推理結(jié)果。

研究團(tuán)隊(duì)將他們的方法與其他預(yù)算控制算法在AMC和AIME數(shù)據(jù)集上進(jìn)行了比較。ASRR在受限思考令牌預(yù)算內(nèi)顯著提高了性能。例如，在100%準(zhǔn)確率閾值下，相比其他預(yù)算約束方法，ASRR方法實(shí)現(xiàn)了更高的準(zhǔn)確率水平。這表明ASRR使模型能夠更高效地進(jìn)行推理，最大化有限令牌預(yù)算的有效性。

總之，ASRR不僅提高了準(zhǔn)確率，還通過(guò)根據(jù)任務(wù)需求智能分配令牌資源，優(yōu)化了計(jì)算效率，從而在性能和效率之間取得了平衡。

### 難度感知能力

圖6展示了ASRR方法在不同難度的數(shù)學(xué)推理任務(wù)上的動(dòng)態(tài)思考能力。通過(guò)提出的"內(nèi)部自恢復(fù)機(jī)制"，模型能夠根據(jù)感知到的問(wèn)題復(fù)雜度自主調(diào)整思考鏈：

在最具挑戰(zhàn)性的AIME任務(wù)上，繼續(xù)思考比率達(dá)到了80.6%（1.5B）和81.5%（7B），相應(yīng)地在pass@1準(zhǔn)確率上獲得了75%（1.5B：從24.8%提升到43.3%）和110%（7B：從27.7%提升到58.1%）的相對(duì)改進(jìn)，相比無(wú)思考模式。這證實(shí)了對(duì)復(fù)雜問(wèn)題進(jìn)行延長(zhǎng)思考鏈顯著增強(qiáng)了推理能力。

在基礎(chǔ)的GSM8K問(wèn)題上，模型以85.4%（1.5B）和91.0%（7B）的高pass@1準(zhǔn)確率和最小的繼續(xù)思考比率（分別為2.6%和0.3%）保持高性能，表明有效的計(jì)算成本意識(shí)，不犧牲性能。

這些結(jié)果表明，ASRR方法使模型能夠自適應(yīng)地分配計(jì)算資源，集中資源在更困難的問(wèn)題上，同時(shí)在簡(jiǎn)單任務(wù)上保持高效。

### 安全對(duì)齊的改進(jìn)

最近的研究表明，LRMs在被提示進(jìn)行不必要或無(wú)關(guān)的推理鏈時(shí)，容易生成不安全或有害的輸出。研究團(tuán)隊(duì)提出的方法有選擇地使模型只在必要時(shí)進(jìn)行推理，同時(shí)避免在直接或潛在不安全的查詢(xún)上進(jìn)行擴(kuò)展推理。這種有針對(duì)性的推理機(jī)制顯著增強(qiáng)了LRMs的安全對(duì)齊。

如表2所示，在BeaverTails和HarmfulQA基準(zhǔn)測(cè)試上，ASRR方法在不同模型規(guī)模上實(shí)現(xiàn)了無(wú)害率的顯著提升。具體來(lái)說(shuō)，對(duì)于DeepSeek-R1-Distill-Qwen-1.5B，ASRR方法將BeaverTails上的無(wú)害率從70.1%（GRPO）提高到83.2%，將HarmfulQA上的無(wú)害率從61.7%提高到83.4%，分別增加了+13.1%和+21.7%。同樣，對(duì)于7B模型，ASRR方法將BeaverTails上的無(wú)害率從86.8%提高到91.8%，將HarmfulQA上的無(wú)害率從90.4%提高到96.8%，相應(yīng)的改進(jìn)為+5.0%和+6.4%。

這些結(jié)果表明，ASRR的選擇性推理策略不僅保持或增強(qiáng)了任務(wù)性能，還是提高安全對(duì)齊的有效手段。通過(guò)減少不必要的推理，ASRR方法使LRMs在實(shí)際應(yīng)用中更加健壯和可信，有效降低了與過(guò)度思考或?qū)剐蕴崾鞠嚓P(guān)的潛在安全風(fēng)險(xiǎn)。

四、研究結(jié)論與未來(lái)方向

美團(tuán)研究團(tuán)隊(duì)在這項(xiàng)工作中解決了大型推理模型（LRMs）中性能和效率之間的權(quán)衡問(wèn)題。通過(guò)分析模型在長(zhǎng)思考和無(wú)思考模式下的行為，他們發(fā)現(xiàn)了"內(nèi)部自恢復(fù)機(jī)制"，并據(jù)此提出了自適應(yīng)自恢復(fù)推理（ASRR）框架。

ASRR框架通過(guò)抑制不必要的推理并啟用隱式恢復(fù)，平衡了難度感知和推理預(yù)算分配。通過(guò)引入基于準(zhǔn)確率的長(zhǎng)度獎(jiǎng)勵(lì)調(diào)節(jié)，ASRR根據(jù)問(wèn)題難度自適應(yīng)地分配推理努力，以最小的性能犧牲實(shí)現(xiàn)高效率。

在多個(gè)基準(zhǔn)測(cè)試和模型上的實(shí)驗(yàn)表明，與GRPO相比，ASRR減少了推理預(yù)算（1.5B模型最高減少32.5%，7B模型減少25.7%），同時(shí)保持最小的準(zhǔn)確率損失（pass@1分別減少1.2%和0.6%），并顯著提高了安全基準(zhǔn)測(cè)試上的無(wú)害率（最高提升+21.7%）。

這些結(jié)果突顯了ASRR在實(shí)現(xiàn)高效、自適應(yīng)和更安全的LRMs推理方面的潛力。通過(guò)使模型能夠"知道何時(shí)該繼續(xù)思考"，ASRR為構(gòu)建更加實(shí)用和可靠的推理系統(tǒng)鋪平了道路。

研究團(tuán)隊(duì)也提到了一些局限性，包括準(zhǔn)確率閾值調(diào)整（不同數(shù)據(jù)集或任務(wù)的最佳閾值可能不同，需要額外調(diào)整）、模型規(guī)模和架構(gòu)的有限評(píng)估（主要集中在DeepSeek-R1-Distill-Qwen模型上）以及人類(lèi)評(píng)估的缺乏（目前主要依賴(lài)自動(dòng)評(píng)估指標(biāo)）。

未來(lái)的研究方向可能包括開(kāi)發(fā)自適應(yīng)閾值調(diào)整策略，在更廣泛的模型架構(gòu)和規(guī)模上進(jìn)行系統(tǒng)評(píng)估，以及結(jié)合人類(lèi)評(píng)估以獲得更深入的見(jiàn)解?？傮w而言，這項(xiàng)研究為大型推理模型的高效設(shè)計(jì)提供了重要啟示，特別是在如何根據(jù)任務(wù)難度動(dòng)態(tài)分配計(jì)算資源方面。

人工智能大型推理模型自適應(yīng)推理

分享至

0贊

好文章，需要你的鼓勵(lì)

推薦文章

音頻生成
大語(yǔ)言模型
多模態(tài)AI

2025-09-10 09:47

如何讓AI像電影配樂(lè)師一樣創(chuàng)作完整的長(zhǎng)篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng)，首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語(yǔ)言模型的敘事推理能力與音頻生成技術(shù)，通過(guò)交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練，能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異，為AI音頻創(chuàng)作開(kāi)辟新方向。
視頻生成
深度學(xué)習(xí)
多模態(tài)學(xué)習(xí)

2025-09-09 13:57

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動(dòng)起來(lái)不再是奢望

Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù)，通過(guò)讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息，顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問(wèn)題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量，在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型，為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
多模態(tài)AI
人類(lèi)價(jià)值觀對(duì)齊
數(shù)據(jù)集構(gòu)建

2025-09-09 13:56

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說(shuō)人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類(lèi)價(jià)值觀對(duì)齊難題

上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究，首次系統(tǒng)性解決多模態(tài)大語(yǔ)言模型人性化對(duì)話問(wèn)題。該研究創(chuàng)建了包含20萬(wàn)高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn)，通過(guò)創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法，讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平，為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
人工智能
圖神經(jīng)網(wǎng)絡(luò)
天氣預(yù)報(bào)

2025-09-09 10:56

谷歌研究團(tuán)隊(duì)發(fā)布超級(jí)預(yù)測(cè)模型：讓AI像天氣預(yù)報(bào)員一樣預(yù)測(cè)全球大氣變化

谷歌DeepMind團(tuán)隊(duì)開(kāi)發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型，能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào)，準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù)，通過(guò)學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律，在極端天氣預(yù)測(cè)方面表現(xiàn)卓越，能耗僅為傳統(tǒng)方法的千分之一，為氣象學(xué)領(lǐng)域帶來(lái)了效率和精度的雙重突破。

如何讓AI像電影配樂(lè)師一樣創(chuàng)作完整的長(zhǎng)篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

如何讓AI像電影配樂(lè)師一樣創(chuàng)作完整的長(zhǎng)篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

2025-09-10 09:47

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動(dòng)起來(lái)不再是奢望

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動(dòng)起來(lái)不再是奢望

2025-09-09 13:57

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說(shuō)人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類(lèi)價(jià)值觀對(duì)齊難題

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說(shuō)人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類(lèi)價(jià)值觀對(duì)齊難題

2025-09-09 13:56

谷歌研究團(tuán)隊(duì)發(fā)布超級(jí)預(yù)測(cè)模型：讓AI像天氣預(yù)報(bào)員一樣預(yù)測(cè)全球大氣變化

谷歌研究團(tuán)隊(duì)發(fā)布超級(jí)預(yù)測(cè)模型：讓AI像天氣預(yù)報(bào)員一樣預(yù)測(cè)全球大氣變化

2025-09-09 10:56

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時(shí)代

京ICP證15039648號(hào) 京ICP備15039648號(hào)-9 京公網(wǎng)安備 11010802021500號(hào)

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報(bào)電話：010-62641205　涉未成年人舉報(bào)專(zhuān)線：010-62641208 舉報(bào)郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報(bào)專(zhuān)區(qū)：https://www.12377.cn