av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見(jiàn)證連接與計(jì)算的「力量」

首頁(yè) 思考到什么時(shí)候?yàn)楹??美團(tuán)AI研究團(tuán)隊(duì)提出自適應(yīng)思考模式切換方法,讓大型推理模型更高效

思考到什么時(shí)候?yàn)楹??美團(tuán)AI研究團(tuán)隊(duì)提出自適應(yīng)思考模式切換方法,讓大型推理模型更高效

2025-05-27 16:58
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-27 16:58 ? 科技行者

在2025年5月21日發(fā)表于arXiv的論文《When to Continue Thinking: Adaptive Thinking Mode Switching for Efficient Reasoning》中,來(lái)自美團(tuán)的研究團(tuán)隊(duì)包括張曉云、阮靜青(通訊作者)、馬星、朱雅文、趙昊東、李昊、陳建松(通訊作者)、曾科和蔡訓(xùn)良提出了一種名為"自適應(yīng)自恢復(fù)推理"(Adaptive Self-Recovery Reasoning,簡(jiǎn)稱(chēng)ASRR)的框架,用于解決大型推理模型在推理過(guò)程中過(guò)度思考的問(wèn)題。

想象一下,你平時(shí)解決問(wèn)題的方式:對(duì)于簡(jiǎn)單問(wèn)題(比如"0.9和0.11哪個(gè)更大?"),你可能一眼就能得出答案;而對(duì)于復(fù)雜問(wèn)題(比如高等數(shù)學(xué)證明),你可能需要仔細(xì)思考,一步步推導(dǎo)。但如果有人不管問(wèn)題難易,都要絞盡腦汁從基本原理推導(dǎo),豈不是太浪費(fèi)時(shí)間了?

這正是當(dāng)前大型推理模型(LRMs)面臨的問(wèn)題。這些模型通過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練后,往往會(huì)生成不必要的長(zhǎng)推理鏈,特別是在處理簡(jiǎn)單問(wèn)題時(shí),造成大量計(jì)算資源的浪費(fèi)。理想情況下,模型應(yīng)該能夠動(dòng)態(tài)調(diào)整推理長(zhǎng)度,對(duì)復(fù)雜問(wèn)題進(jìn)行詳細(xì)推理,對(duì)簡(jiǎn)單問(wèn)題只需簡(jiǎn)單或無(wú)推理就能給出答案,從而實(shí)現(xiàn)效率最大化。

美團(tuán)研究團(tuán)隊(duì)通過(guò)系統(tǒng)分析,發(fā)現(xiàn)了LRMs具有一種"內(nèi)部自恢復(fù)機(jī)制",即模型在被抑制明確推理時(shí),有時(shí)會(huì)在生成答案的過(guò)程中隱式地補(bǔ)充推理步驟,特別是在處理具有挑戰(zhàn)性的問(wèn)題時(shí)。研究人員將這種現(xiàn)象稱(chēng)為"繼續(xù)思考"(Continue-Thinking)。

然而,雖然這種自適應(yīng)行為很有前途,但研究分析表明,它有兩個(gè)主要限制: 1. 模型在處理更困難的問(wèn)題時(shí),往往無(wú)法充分進(jìn)行繼續(xù)思考行為,導(dǎo)致推理不完整,準(zhǔn)確率降低 2. 模型可能在簡(jiǎn)單問(wèn)題上不必要地調(diào)用繼續(xù)思考,導(dǎo)致過(guò)度思考和效率低下

為了解決這些挑戰(zhàn),研究團(tuán)隊(duì)提出了自適應(yīng)自恢復(fù)推理(ASRR)框架,指導(dǎo)LRMs根據(jù)問(wèn)題難度動(dòng)態(tài)調(diào)整推理長(zhǎng)度。ASRR引入了一種基于準(zhǔn)確率閾值的獎(jiǎng)勵(lì)機(jī)制:只有當(dāng)組內(nèi)達(dá)到足夠的準(zhǔn)確率時(shí),才應(yīng)用長(zhǎng)度懲罰,從而平衡效率和正確性。

讓我們通過(guò)一個(gè)簡(jiǎn)單的比喻來(lái)理解ASRR框架的工作方式:想象一個(gè)學(xué)生在做不同難度的題目。對(duì)于簡(jiǎn)單題,他可以直接寫(xiě)出答案;對(duì)于難題,他需要詳細(xì)思考和推導(dǎo)。ASRR就像是一個(gè)聰明的教練,它教會(huì)模型判斷題目難度,簡(jiǎn)單題直接答,難題詳細(xì)思考,從而節(jié)省整體解題時(shí)間,同時(shí)保證答題質(zhì)量。

在各種模型和基準(zhǔn)測(cè)試的實(shí)驗(yàn)中,ASRR顯著減少了推理長(zhǎng)度,同時(shí)保持了高性能。此外,ASRR增強(qiáng)了"繼續(xù)思考"頻率與問(wèn)題難度之間的相關(guān)性,反映了模型難度感知和預(yù)算分配能力的提升。

接下來(lái),我們將深入了解這項(xiàng)研究的具體方法、實(shí)驗(yàn)設(shè)計(jì)和重要發(fā)現(xiàn)。無(wú)論你是AI領(lǐng)域的愛(ài)好者還是對(duì)高效推理感興趣的普通讀者,這項(xiàng)研究都提供了對(duì)大型語(yǔ)言模型思考過(guò)程的有趣見(jiàn)解。

一、研究背景和動(dòng)機(jī)

想象你有一個(gè)非常聰明的朋友,他解決任何問(wèn)題都要從宇宙大爆炸開(kāi)始推導(dǎo),即使是"1+1=?"這樣的簡(jiǎn)單問(wèn)題。雖然他總能得出正確答案,但這種過(guò)度思考的習(xí)慣會(huì)浪費(fèi)大量時(shí)間和精力。這正是當(dāng)前大型推理模型(LRMs)面臨的問(wèn)題。

近年來(lái),像OpenAI-o1和DeepSeek-R1這樣的大型推理模型在復(fù)雜推理任務(wù)上取得了顯著進(jìn)步。它們通過(guò)生成長(zhǎng)推理鏈來(lái)解決問(wèn)題,效果確實(shí)很好。但問(wèn)題在于,這些模型被強(qiáng)化學(xué)習(xí)訓(xùn)練后,往往會(huì)不管問(wèn)題難易,都生成不必要的長(zhǎng)推理鏈。先前的研究已經(jīng)指出了這種"過(guò)度思考"現(xiàn)象,即使對(duì)于"0.9和0.11哪個(gè)更大?"這樣的簡(jiǎn)單問(wèn)題,模型也會(huì)進(jìn)行冗長(zhǎng)的推理。

理想情況下,推理模型應(yīng)該像人類(lèi)一樣,能夠根據(jù)問(wèn)題難度動(dòng)態(tài)調(diào)整思考深度:復(fù)雜問(wèn)題詳細(xì)分析,簡(jiǎn)單問(wèn)題快速解答。最近的研究探索了LRMs在"無(wú)思考模式"(No-Thinking)下的表現(xiàn),這種模式下模型不生成明確的推理鏈,直接給出答案。這些研究表明,在無(wú)思考模式下,LRMs仍然能夠達(dá)到高準(zhǔn)確率,尤其是當(dāng)并行樣本數(shù)量增加時(shí)。

美團(tuán)研究團(tuán)隊(duì)的實(shí)證分析揭示了一個(gè)有趣的現(xiàn)象:這部分是因?yàn)槟P陀袝r(shí)會(huì)在生成答案的過(guò)程中隱式地補(bǔ)充推理步驟,特別是對(duì)于具有挑戰(zhàn)性的問(wèn)題。研究團(tuán)隊(duì)將這種現(xiàn)象稱(chēng)為"繼續(xù)思考"(Continue-Thinking)。

如圖1所示,當(dāng)模型進(jìn)行繼續(xù)思考時(shí),它能夠成功解答一個(gè)具有挑戰(zhàn)性的問(wèn)題;而在模型未能繼續(xù)思考的情況下,它無(wú)法給出正確答案。研究團(tuán)隊(duì)將這種繼續(xù)思考現(xiàn)象稱(chēng)為"內(nèi)部自恢復(fù)機(jī)制",這表明模型具有初步的難度感知能力和推理預(yù)算分配能力。

然而,雖然這種自適應(yīng)行為很有前途,但研究分析表明它有兩個(gè)主要限制:

首先,模型往往無(wú)法在更困難的問(wèn)題上充分進(jìn)行繼續(xù)思考行為,導(dǎo)致推理不完整,準(zhǔn)確率降低;其次,模型可能在簡(jiǎn)單問(wèn)題上不必要地調(diào)用繼續(xù)思考,導(dǎo)致過(guò)度思考和效率低下。這些問(wèn)題突顯了對(duì)更準(zhǔn)確的難度感知和更合理的推理資源分配的需求。

為了解決這些挑戰(zhàn),研究團(tuán)隊(duì)提出了自適應(yīng)自恢復(fù)推理(ASRR)框架,引導(dǎo)LRMs根據(jù)問(wèn)題難度動(dòng)態(tài)調(diào)整推理長(zhǎng)度。ASRR引入了一種基于準(zhǔn)確率閾值的獎(jiǎng)勵(lì)機(jī)制:只有當(dāng)組內(nèi)達(dá)到足夠的準(zhǔn)確率時(shí),才應(yīng)用長(zhǎng)度懲罰,平衡效率和正確性。

二、方法論:自適應(yīng)自恢復(fù)推理框架

研究團(tuán)隊(duì)首先進(jìn)行了系統(tǒng)分析,揭示了LRMs具有潛在能力,可以在答案生成過(guò)程中補(bǔ)充缺失的推理步驟,這一現(xiàn)象被稱(chēng)為"內(nèi)部自恢復(fù)機(jī)制"。基于這一觀察,他們提出了自適應(yīng)自恢復(fù)推理(ASRR)框架。

### 觀察與動(dòng)機(jī)

研究團(tuán)隊(duì)分析了LRMs的"內(nèi)部自恢復(fù)機(jī)制",并探索了無(wú)思考前綴對(duì)模型性能的影響。他們?cè)谒膫€(gè)基準(zhǔn)測(cè)試上進(jìn)行了探索性實(shí)驗(yàn)和定量分析:AIME 2024、OlympiadBench、AMC 2023和MATH500。

他們?cè)u(píng)估了模型在兩種設(shè)置下的表現(xiàn):(1)長(zhǎng)思考模式,包括完整推理過(guò)程和答案總結(jié)的響應(yīng);(2)無(wú)思考模式,在提示中附加非推理前綴(如"好的,我想我已經(jīng)完成思考")以阻止顯式推理。對(duì)于這兩種設(shè)置,他們進(jìn)行了256次并行前向傳播,并計(jì)算pass@256指標(biāo)。

令人驚訝的是,長(zhǎng)思考和無(wú)思考模式在四個(gè)基準(zhǔn)測(cè)試中實(shí)現(xiàn)了幾乎相同的性能,平均pass@256分別為86.4%和84.98%。進(jìn)一步分析表明,這主要是由于在無(wú)思考模式下出現(xiàn)了繼續(xù)思考行為。

為了更好地理解這一效果,研究團(tuán)隊(duì)排除了表現(xiàn)出繼續(xù)思考行為的樣本,觀察到無(wú)思考模式的pass@256分?jǐn)?shù)顯著下降,平均從84.98%降至74.98%。最大降幅出現(xiàn)在AIME 2024上,從73.33%降至46.66%。此外,他們觀察到繼續(xù)思考行為的頻率與基準(zhǔn)測(cè)試的難度之間存在強(qiáng)烈的正相關(guān)性:在最困難的AIME 2024上,繼續(xù)思考比率為42.6%;在OlympiadBench上為19.7%;在AMC 2023上為22.2%;在最簡(jiǎn)單的MATH500上僅為9.4%。

這些結(jié)果表明,模型固有地具有初步的難度感知和答案驗(yàn)證能力,繼續(xù)思考行為構(gòu)成了LRMs的"內(nèi)部自恢復(fù)機(jī)制"。

然而,LRMs當(dāng)前的難度感知和預(yù)算分配能力仍存在明顯局限性。研究團(tuán)隊(duì)分析了不同推理模式下的pass@1指標(biāo)。pass@256和pass@1的比較揭示了一個(gè)關(guān)鍵限制:雖然無(wú)思考模式在困難問(wèn)題上的pass@256與長(zhǎng)思考模式相近(例如,在AIME 2024上僅下降3.4%),但其pass@1性能下降更為顯著(下降16.9%)。這表明模型在單次通過(guò)設(shè)置中難以為困難問(wèn)題持續(xù)補(bǔ)充推理。同時(shí),在較簡(jiǎn)單的基準(zhǔn)上,模型仍然生成不必要的冗長(zhǎng)輸出,反映了持續(xù)的過(guò)度思考。

這些結(jié)果強(qiáng)調(diào)了需要機(jī)制使LRMs能夠根據(jù)問(wèn)題難度動(dòng)態(tài)調(diào)整推理深度,同時(shí)不犧牲整體性能。

### 自適應(yīng)自恢復(fù)推理框架

為了解決上述問(wèn)題,研究團(tuán)隊(duì)提出了自適應(yīng)自恢復(fù)推理(ASRR)框架,這是一種動(dòng)態(tài)推理優(yōu)化框架,利用LRMs的"內(nèi)部自恢復(fù)機(jī)制"。ASRR的核心目標(biāo)是在難度感知和推理預(yù)算分配之間取得平衡,通過(guò)顯式抑制不必要的推理,同時(shí)在需要時(shí)允許隱式恢復(fù)。

ASRR包括兩個(gè)主要組件:

第一個(gè)組件是在無(wú)思考模式下的顯式推理抑制和隱式自恢復(fù)。這個(gè)模塊使用特殊的輸出前綴激活簡(jiǎn)化的推理模式,鼓勵(lì)模型跳過(guò)簡(jiǎn)單問(wèn)題的冗余推理步驟,但允許在更具挑戰(zhàn)性的情況下進(jìn)行隱式恢復(fù)。

第二個(gè)組件是動(dòng)態(tài)長(zhǎng)度懲罰(DLP)。這個(gè)模塊基于準(zhǔn)確率閾值應(yīng)用動(dòng)態(tài)長(zhǎng)度懲罰,僅當(dāng)模型在組級(jí)別達(dá)到足夠準(zhǔn)確率時(shí),才自適應(yīng)地懲罰過(guò)度推理。

這個(gè)框架旨在增強(qiáng)LRMs在不同復(fù)雜性任務(wù)中的效率和準(zhǔn)確性。

#### 無(wú)思考模式下的顯式推理抑制和隱式自恢復(fù)

受模型繼續(xù)思考行為的觀察啟發(fā),研究團(tuán)隊(duì)發(fā)現(xiàn)LRMs即使在顯式推理被抑制時(shí)也能內(nèi)部恢復(fù)推理步驟。為了利用這一能力,他們引入了一種在無(wú)思考模式下的訓(xùn)練策略,通過(guò)在輸入提示中附加特殊前綴顯式抑制推理,同時(shí)仍然啟用隱式自恢復(fù)。

形式上,給定一個(gè)預(yù)訓(xùn)練的推理語(yǔ)言模型LLMθ和一個(gè)數(shù)據(jù)集D = {(xi, yi)},其中每個(gè)實(shí)例由輸入提示xi和最終答案yi(不包含中間推理痕跡)組成。對(duì)于每個(gè)輸入xi,他們通過(guò)無(wú)思考前綴注入構(gòu)建增強(qiáng)提示:

xi = xi ⊕ pterm, pterm = "好的,我已經(jīng)完成思考。"

其中⊕表示字符串連接,pterm表示無(wú)思考前綴。給定增強(qiáng)提示,模型根據(jù)條件概率生成輸出序列:

Pθ(y|xi) = ∏T Pθ(yt|xi, y<t)

通過(guò)這種設(shè)計(jì),研究團(tuán)隊(duì)期望無(wú)思考模式能夠?qū)崿F(xiàn)高效推理:

對(duì)于簡(jiǎn)單輸入,前綴pterm旨在使模型偏向于生成直接答案,最小化預(yù)期的推理標(biāo)記數(shù)量;對(duì)于更困難的輸入,預(yù)期模型內(nèi)部激活潛在推理路徑,導(dǎo)致更長(zhǎng)但必要的答案生成序列。

#### 動(dòng)態(tài)長(zhǎng)度懲罰(DLP):基于準(zhǔn)確率的獎(jiǎng)勵(lì)調(diào)節(jié)

傳統(tǒng)的長(zhǎng)度懲罰在所有情況下強(qiáng)制輸出縮短,但這通常會(huì)導(dǎo)致兩個(gè)問(wèn)題:(a)模型為最小化長(zhǎng)度而犧牲正確性,導(dǎo)致"短但錯(cuò)誤"的輸出;(b)懲罰太弱,無(wú)法抑制過(guò)度思考,導(dǎo)致"準(zhǔn)確但冗長(zhǎng)"的推理。

為了解決這一問(wèn)題,研究團(tuán)隊(duì)設(shè)計(jì)了一種條件懲罰機(jī)制,平衡效率和準(zhǔn)確性。具體來(lái)說(shuō),他們動(dòng)態(tài)調(diào)整長(zhǎng)度懲罰的時(shí)機(jī)和強(qiáng)度:只有當(dāng)模型達(dá)到準(zhǔn)確率閾值τ時(shí)才激活懲罰,且其強(qiáng)度隨性能提高而逐漸增加。

研究團(tuán)隊(duì)將訓(xùn)練數(shù)據(jù)分成組G,并計(jì)算平均組準(zhǔn)確率AccG。只有當(dāng)AccG ≥ τ時(shí),才激活長(zhǎng)度懲罰,其中τ是預(yù)定義的閾值。

對(duì)于每個(gè)組,計(jì)算每個(gè)樣本i的超長(zhǎng)比率Oi:

Oi = clip((Li - Lcorrect_shortest) / Lwindow, 0, 1)

其中Lcorrect_shortest是組內(nèi)正確回答樣本中的最小生成長(zhǎng)度,Lwindow是常數(shù)長(zhǎng)度懲罰窗口。然后,每個(gè)樣本的總體獎(jiǎng)勵(lì)為:

Ri = I(yi = yi) - α · Oi

其中I(·)是答案正確性的指示函數(shù),α是懲罰強(qiáng)度系數(shù)。

懲罰系數(shù)α根據(jù)組準(zhǔn)確率動(dòng)態(tài)調(diào)整:

α = { 0 如果 AccG < τ β·(AccG-τ+ε)/(1-τ+ε) 否則 }

其中β是設(shè)置懲罰上限的縮放因子,ε是確保數(shù)值穩(wěn)定性的小常數(shù)。

當(dāng)準(zhǔn)確率AccG低于閾值τ時(shí),長(zhǎng)度懲罰被禁用(α = 0),允許模型僅專(zhuān)注于最大化正確性,而不會(huì)因過(guò)早的長(zhǎng)度優(yōu)化而承擔(dān)風(fēng)險(xiǎn)。當(dāng)準(zhǔn)確率達(dá)到或超過(guò)閾值(AccG ≥ τ)時(shí),長(zhǎng)度懲罰逐漸引入,鼓勵(lì)模型減少冗余推理,同時(shí)仍然保持正確性。這種動(dòng)態(tài)平衡機(jī)制允許模型首先掌握答案正確性,然后逐漸優(yōu)化效率,最終實(shí)現(xiàn)"簡(jiǎn)短且準(zhǔn)確"的推理過(guò)程。

三、實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析

研究團(tuán)隊(duì)進(jìn)行了全面的實(shí)驗(yàn),以評(píng)估ASRR框架在不同模型和基準(zhǔn)測(cè)試上的有效性。實(shí)驗(yàn)結(jié)果表明,ASRR能夠在最小的性能犧牲下顯著減少推理長(zhǎng)度,同時(shí)提高模型對(duì)問(wèn)題難度的感知能力和推理資源的分配效率。

### 實(shí)驗(yàn)設(shè)置

實(shí)驗(yàn)在兩個(gè)模型上進(jìn)行:DeepSeek-R1-Distill-Qwen-1.5B和DeepSeek-R1-Distill-Qwen-7B。這些模型在各種任務(wù)上展示了強(qiáng)大的能力,表明ASRR的通用性。

研究團(tuán)隊(duì)在五個(gè)基準(zhǔn)測(cè)試上進(jìn)行了全面實(shí)驗(yàn),包括主要結(jié)果和多維驗(yàn)證研究:MATH500、AIME2024、AMC2023、Olympiad Bench和GSM8K。此外,他們還在BeaverTails和HarmfulQA基準(zhǔn)測(cè)試上評(píng)估了模型對(duì)安全相關(guān)查詢(xún)的自適應(yīng)響應(yīng)能力。

基線(xiàn)包括:(1)原始模型,(2)使用GRPO增強(qiáng)的原始模型,(3)同時(shí)使用GRPO和無(wú)思考前綴的原始模型。由于ASRR能夠靈活調(diào)整準(zhǔn)確率閾值以平衡效率和性能,研究團(tuán)隊(duì)還將其與幾種代表性的長(zhǎng)度減少技術(shù)進(jìn)行了比較,包括直接偏好優(yōu)化(DPO)、S1和基于長(zhǎng)度約束的強(qiáng)化學(xué)習(xí)方法(L1、ThinkPrune和Kimi k1.5)。

### 在最小性能犧牲下實(shí)現(xiàn)預(yù)算控制

表1展示了ASRR框架在DeepSeek-R1-Distill-Qwen-1.5B和DeepSeek-R1-Distill-Qwen-7B上的主要結(jié)果。研究團(tuán)隊(duì)比較了四種設(shè)置:原始模型、GRPO長(zhǎng)鏈推理、無(wú)思考提示(零樣本)和提出的ASRR。

結(jié)果顯示,GRPO顯著提高了模型的推理準(zhǔn)確率,但仍然產(chǎn)生長(zhǎng)生成鏈。無(wú)思考提示大幅減少了輸出長(zhǎng)度,但以犧牲大量準(zhǔn)確率為代價(jià),特別是在具有挑戰(zhàn)性的基準(zhǔn)測(cè)試(如AIME和Olympiad Bench)上。相比之下,ASRR框架在保持高性能的同時(shí)實(shí)現(xiàn)了生成長(zhǎng)度的顯著減少。

具體來(lái)說(shuō),在1.5B模型上,與GRPO相比,平均生成長(zhǎng)度減少了32.5%,而pass@1準(zhǔn)確率僅下降了1.2個(gè)百分點(diǎn)。對(duì)于7B模型,生成長(zhǎng)度減少了25.7%,而性能下降僅為0.6個(gè)百分點(diǎn)。

這些結(jié)果表明,ASRR能夠通過(guò)利用LRMs的"內(nèi)部自恢復(fù)機(jī)制"實(shí)現(xiàn)高效的預(yù)算分配:它抑制了簡(jiǎn)單問(wèn)題上的不必要推理,同時(shí)在更困難的實(shí)例上靈活觸發(fā)額外的推理步驟,以保持高準(zhǔn)確率。這驗(yàn)證了自適應(yīng)框架在平衡推理效率和性能方面的有效性,展示了其在實(shí)際應(yīng)用中的強(qiáng)大泛化能力和實(shí)用價(jià)值。

### 性能與效率之間的權(quán)衡

圖5展示了各種長(zhǎng)度控制LRMs在推理時(shí)間思考長(zhǎng)度和性能(pass@1準(zhǔn)確率)之間的權(quán)衡,研究團(tuán)隊(duì)在不同準(zhǔn)確率閾值(0%、25%、50%、75%、100%)下評(píng)估了DeepSeek-R1-Distill-Qwen-1.5B上的ASRR方法。圖上的每個(gè)點(diǎn)代表這些準(zhǔn)確率設(shè)置下ASRR方法在基準(zhǔn)測(cè)試上的推理結(jié)果。

研究團(tuán)隊(duì)將他們的方法與其他預(yù)算控制算法在AMC和AIME數(shù)據(jù)集上進(jìn)行了比較。ASRR在受限思考令牌預(yù)算內(nèi)顯著提高了性能。例如,在100%準(zhǔn)確率閾值下,相比其他預(yù)算約束方法,ASRR方法實(shí)現(xiàn)了更高的準(zhǔn)確率水平。這表明ASRR使模型能夠更高效地進(jìn)行推理,最大化有限令牌預(yù)算的有效性。

總之,ASRR不僅提高了準(zhǔn)確率,還通過(guò)根據(jù)任務(wù)需求智能分配令牌資源,優(yōu)化了計(jì)算效率,從而在性能和效率之間取得了平衡。

### 難度感知能力

圖6展示了ASRR方法在不同難度的數(shù)學(xué)推理任務(wù)上的動(dòng)態(tài)思考能力。通過(guò)提出的"內(nèi)部自恢復(fù)機(jī)制",模型能夠根據(jù)感知到的問(wèn)題復(fù)雜度自主調(diào)整思考鏈:

在最具挑戰(zhàn)性的AIME任務(wù)上,繼續(xù)思考比率達(dá)到了80.6%(1.5B)和81.5%(7B),相應(yīng)地在pass@1準(zhǔn)確率上獲得了75%(1.5B:從24.8%提升到43.3%)和110%(7B:從27.7%提升到58.1%)的相對(duì)改進(jìn),相比無(wú)思考模式。這證實(shí)了對(duì)復(fù)雜問(wèn)題進(jìn)行延長(zhǎng)思考鏈顯著增強(qiáng)了推理能力。

在基礎(chǔ)的GSM8K問(wèn)題上,模型以85.4%(1.5B)和91.0%(7B)的高pass@1準(zhǔn)確率和最小的繼續(xù)思考比率(分別為2.6%和0.3%)保持高性能,表明有效的計(jì)算成本意識(shí),不犧牲性能。

這些結(jié)果表明,ASRR方法使模型能夠自適應(yīng)地分配計(jì)算資源,集中資源在更困難的問(wèn)題上,同時(shí)在簡(jiǎn)單任務(wù)上保持高效。

### 安全對(duì)齊的改進(jìn)

最近的研究表明,LRMs在被提示進(jìn)行不必要或無(wú)關(guān)的推理鏈時(shí),容易生成不安全或有害的輸出。研究團(tuán)隊(duì)提出的方法有選擇地使模型只在必要時(shí)進(jìn)行推理,同時(shí)避免在直接或潛在不安全的查詢(xún)上進(jìn)行擴(kuò)展推理。這種有針對(duì)性的推理機(jī)制顯著增強(qiáng)了LRMs的安全對(duì)齊。

如表2所示,在BeaverTails和HarmfulQA基準(zhǔn)測(cè)試上,ASRR方法在不同模型規(guī)模上實(shí)現(xiàn)了無(wú)害率的顯著提升。具體來(lái)說(shuō),對(duì)于DeepSeek-R1-Distill-Qwen-1.5B,ASRR方法將BeaverTails上的無(wú)害率從70.1%(GRPO)提高到83.2%,將HarmfulQA上的無(wú)害率從61.7%提高到83.4%,分別增加了+13.1%和+21.7%。同樣,對(duì)于7B模型,ASRR方法將BeaverTails上的無(wú)害率從86.8%提高到91.8%,將HarmfulQA上的無(wú)害率從90.4%提高到96.8%,相應(yīng)的改進(jìn)為+5.0%和+6.4%。

這些結(jié)果表明,ASRR的選擇性推理策略不僅保持或增強(qiáng)了任務(wù)性能,還是提高安全對(duì)齊的有效手段。通過(guò)減少不必要的推理,ASRR方法使LRMs在實(shí)際應(yīng)用中更加健壯和可信,有效降低了與過(guò)度思考或?qū)剐蕴崾鞠嚓P(guān)的潛在安全風(fēng)險(xiǎn)。

四、研究結(jié)論與未來(lái)方向

美團(tuán)研究團(tuán)隊(duì)在這項(xiàng)工作中解決了大型推理模型(LRMs)中性能和效率之間的權(quán)衡問(wèn)題。通過(guò)分析模型在長(zhǎng)思考和無(wú)思考模式下的行為,他們發(fā)現(xiàn)了"內(nèi)部自恢復(fù)機(jī)制",并據(jù)此提出了自適應(yīng)自恢復(fù)推理(ASRR)框架。

ASRR框架通過(guò)抑制不必要的推理并啟用隱式恢復(fù),平衡了難度感知和推理預(yù)算分配。通過(guò)引入基于準(zhǔn)確率的長(zhǎng)度獎(jiǎng)勵(lì)調(diào)節(jié),ASRR根據(jù)問(wèn)題難度自適應(yīng)地分配推理努力,以最小的性能犧牲實(shí)現(xiàn)高效率。

在多個(gè)基準(zhǔn)測(cè)試和模型上的實(shí)驗(yàn)表明,與GRPO相比,ASRR減少了推理預(yù)算(1.5B模型最高減少32.5%,7B模型減少25.7%),同時(shí)保持最小的準(zhǔn)確率損失(pass@1分別減少1.2%和0.6%),并顯著提高了安全基準(zhǔn)測(cè)試上的無(wú)害率(最高提升+21.7%)。

這些結(jié)果突顯了ASRR在實(shí)現(xiàn)高效、自適應(yīng)和更安全的LRMs推理方面的潛力。通過(guò)使模型能夠"知道何時(shí)該繼續(xù)思考",ASRR為構(gòu)建更加實(shí)用和可靠的推理系統(tǒng)鋪平了道路。

研究團(tuán)隊(duì)也提到了一些局限性,包括準(zhǔn)確率閾值調(diào)整(不同數(shù)據(jù)集或任務(wù)的最佳閾值可能不同,需要額外調(diào)整)、模型規(guī)模和架構(gòu)的有限評(píng)估(主要集中在DeepSeek-R1-Distill-Qwen模型上)以及人類(lèi)評(píng)估的缺乏(目前主要依賴(lài)自動(dòng)評(píng)估指標(biāo))。

未來(lái)的研究方向可能包括開(kāi)發(fā)自適應(yīng)閾值調(diào)整策略,在更廣泛的模型架構(gòu)和規(guī)模上進(jìn)行系統(tǒng)評(píng)估,以及結(jié)合人類(lèi)評(píng)估以獲得更深入的見(jiàn)解??傮w而言,這項(xiàng)研究為大型推理模型的高效設(shè)計(jì)提供了重要啟示,特別是在如何根據(jù)任務(wù)難度動(dòng)態(tài)分配計(jì)算資源方面。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-