大型語(yǔ)言模型(LLMs)在解決復(fù)雜推理任務(wù)方面取得了驚人成就,但它們的推理過(guò)程往往效率低下,像是一位既想炫技又不知如何聚焦的廚師,在烹飪簡(jiǎn)單菜肴時(shí)使用了過(guò)多的食材和步驟。這項(xiàng)由麻省理工學(xué)院計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室的Junhong Lin與Virginia Tech的Xinyue Zeng(共同第一作者)、Virginia Tech的Jie Zhu和Dawei Zhou、弗吉尼亞大學(xué)的Song Wang、麻省理工學(xué)院的Julian Shun以及密歇根州立大學(xué)的Jun Wu共同完成的研究,發(fā)表于2025年5月22日的arXiv預(yù)印本平臺(tái)(arXiv:2505.16122v1)。研究團(tuán)隊(duì)發(fā)現(xiàn)了現(xiàn)今主流大型語(yǔ)言模型存在的一個(gè)普遍失效模式——"過(guò)度思考"(overthinking),即模型即使面對(duì)簡(jiǎn)單問(wèn)題也會(huì)生成冗長(zhǎng)且離題的推理過(guò)程。
想象你請(qǐng)一位朋友幫你計(jì)算1+2+3+4+...+99+100的和。一個(gè)高效的解答可能是使用求和公式n(n+1)/2得出結(jié)果5050。然而,如果這位朋友開(kāi)始詳細(xì)列出每一步加法運(yùn)算,甚至討論各種不同的計(jì)算方法,最后才得出答案,這就是"過(guò)度思考"。反之,如果你的朋友只回答"5050"而不展示任何計(jì)算過(guò)程,這又可能是"思考不足"(underthinking)。
研究團(tuán)隊(duì)通過(guò)實(shí)證分析發(fā)現(xiàn),這種推理效率低下通常源于模型缺乏明確的問(wèn)題解決策略。為了解決這個(gè)問(wèn)題,他們開(kāi)發(fā)了一個(gè)理論模型——貝葉斯預(yù)算分配模型(BBAM),將推理過(guò)程視為一系列具有不同不確定性水平的子問(wèn)題序列,并引入了E?(效率感知有效性評(píng)估)指標(biāo)來(lái)衡量正確性與計(jì)算效率之間的權(quán)衡。
基于BBAM的理論結(jié)果,研究團(tuán)隊(duì)提出了"計(jì)劃與預(yù)算"(PLAN-AND-BUDGET)框架,這是一種模型無(wú)關(guān)的測(cè)試時(shí)框架,它將復(fù)雜問(wèn)題分解為子問(wèn)題,并基于估計(jì)的復(fù)雜度通過(guò)自適應(yīng)調(diào)度分配令牌預(yù)算。就像一個(gè)有經(jīng)驗(yàn)的項(xiàng)目經(jīng)理,他會(huì)先規(guī)劃整個(gè)工作流程,然后根據(jù)每個(gè)任務(wù)的難度和重要性分配資源,確保整個(gè)項(xiàng)目既準(zhǔn)確又高效地完成。
實(shí)驗(yàn)結(jié)果表明,這一框架在各種任務(wù)和模型上顯著提高了推理效率,取得了高達(dá)70%的準(zhǔn)確率提升,39%的令牌(token)使用減少,以及E?指標(biāo)的187.5%改善。特別值得注意的是,這一方法使較小的模型(DS-Qwen-32B)達(dá)到了與較大模型(DS-LLaMA-70B)相當(dāng)?shù)男?,證明了"計(jì)劃與預(yù)算"框架能夠在不需要重新訓(xùn)練的情況下縮小模型間的性能差距。
一、研究背景:大型語(yǔ)言模型的推理效率挑戰(zhàn)
大型語(yǔ)言模型展現(xiàn)出強(qiáng)大的泛化能力,使它們能夠在不需要任務(wù)特定重新訓(xùn)練的情況下執(zhí)行廣泛的任務(wù),從數(shù)學(xué)問(wèn)題求解到科學(xué)問(wèn)答,再到結(jié)構(gòu)化推理。近期在測(cè)試時(shí)計(jì)算方面的進(jìn)展,如思維鏈(Chain-of-Thought)提示、自一致性(self-consistency)和工具增強(qiáng)推理,顯著提高了它們?cè)趶?fù)雜多步推理任務(wù)上的表現(xiàn)。
然而,當(dāng)這些模型應(yīng)用于現(xiàn)實(shí)場(chǎng)景時(shí),特別是在需要在嚴(yán)格的計(jì)算和時(shí)間約束下進(jìn)行深思熟慮推理的場(chǎng)景中,出現(xiàn)了新的挑戰(zhàn)。研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)突出的問(wèn)題:推理行為在推理過(guò)程中缺乏校準(zhǔn)。盡管大型語(yǔ)言模型擅長(zhǎng)多步推理,但它們往往難以調(diào)節(jié)對(duì)給定任務(wù)適當(dāng)?shù)耐评砼Τ潭取?/p>
這種失調(diào)表現(xiàn)為兩種主要失效模式:過(guò)度思考(overthinking)和思考不足(underthinking)。過(guò)度思考就像一位過(guò)于熱心的導(dǎo)游,在帶你參觀一個(gè)簡(jiǎn)單的景點(diǎn)時(shí),詳細(xì)講解每一塊磚的歷史,而不是聚焦于主要景點(diǎn);思考不足則像匆忙的導(dǎo)游,只給你指?jìng)€(gè)大致方向就離開(kāi)了,讓你錯(cuò)過(guò)了許多重要景點(diǎn)。
最近的一些方法嘗試通過(guò)在提示中引入硬性令牌約束(如"使用少于B個(gè)令牌")來(lái)緩解過(guò)度思考。雖然這些策略在較簡(jiǎn)單的任務(wù)上可能有效,但它們往往通過(guò)誘導(dǎo)思考不足而降低了復(fù)雜查詢的性能,突顯了固定的、非自適應(yīng)方法的局限性。
二、推理失調(diào)現(xiàn)象的分析
研究團(tuán)隊(duì)對(duì)從32B到200B參數(shù)的最先進(jìn)大型語(yǔ)言模型的測(cè)試時(shí)推理行為進(jìn)行了全面實(shí)證研究,發(fā)現(xiàn)了一種普遍現(xiàn)象,稱為"推理失調(diào)"(REASONING MISCALIBRATION)——模型在推理過(guò)程中表現(xiàn)出不受調(diào)節(jié)的推理深度。
想象你要爬一座山。過(guò)度思考就像在平坦的山腳花費(fèi)大量時(shí)間研究地質(zhì)和植被,而思考不足則像在陡峭的山頂匆忙通過(guò)而不確保安全。兩種情況都會(huì)影響你成功登頂?shù)男屎桶踩浴?/p>
研究表明,推理失調(diào)通常由兩類查詢觸發(fā):
1. 瑣碎但模糊的查詢:這類問(wèn)題引發(fā)分散的令牌分布,導(dǎo)致猜測(cè)性推理。就像當(dāng)你問(wèn)一個(gè)模糊的問(wèn)題"今天天氣怎么樣?",卻沒(méi)有提供具體地點(diǎn),導(dǎo)致回答者不得不猜測(cè)并提供各種可能情況。
2. 困難且罕見(jiàn)的查詢:在這些情況下,模型進(jìn)行淺層的試錯(cuò),沒(méi)有有意義的收斂。就像面對(duì)一個(gè)從未見(jiàn)過(guò)的復(fù)雜拼圖,不知從何下手,只能隨機(jī)嘗試幾塊拼圖,而沒(méi)有系統(tǒng)性的策略。
研究團(tuán)隊(duì)通過(guò)不確定性視角分析了推理失調(diào)——通過(guò)模型在每一步的邊緣下一個(gè)令牌分布的熵來(lái)量化。這個(gè)分布反映了模型對(duì)可能的后續(xù)內(nèi)容的信念,熵越高表示猶豫或模糊程度越大。研究發(fā)現(xiàn),高熵往往與不必要的深度推理(即過(guò)度思考)相關(guān),而在早期步驟觀察到的低熵往往導(dǎo)致推理過(guò)早截?cái)啵此伎疾蛔悖?/p>
基于這些見(jiàn)解,研究團(tuán)隊(duì)引入了貝葉斯預(yù)算分配模型(BBAM),這是一個(gè)將計(jì)算與不確定性對(duì)齊的理論資源分配模型。BBAM將推理概念化為一系列子問(wèn)題,每個(gè)子問(wèn)題具有不同程度的不確定性,并為具有較高不確定性的子問(wèn)題分配更多的計(jì)算預(yù)算,實(shí)現(xiàn)更加校準(zhǔn)和高效的推理。
從這個(gè)角度出發(fā),他們得出了有效推理的兩個(gè)關(guān)鍵原則:
1. 推理應(yīng)該是結(jié)構(gòu)化的:將復(fù)雜查詢分解為更小、更有針對(duì)性的子問(wèn)題有助于減少猜測(cè)性探索。就像拆解一個(gè)大項(xiàng)目為多個(gè)小任務(wù),每個(gè)任務(wù)都有明確的目標(biāo)和邊界。
2. 計(jì)算應(yīng)該是自適應(yīng)的:早期推理步驟通常具有更高的不確定性,因此值得更多的計(jì)算關(guān)注。就像學(xué)習(xí)一項(xiàng)新技能,初始階段需要更多關(guān)注和練習(xí),而隨著熟練度提高,所需關(guān)注度逐漸減少。
三、貝葉斯預(yù)算分配模型(BBAM)的理論基礎(chǔ)
為了解決推理失調(diào)問(wèn)題,研究團(tuán)隊(duì)需要一種原則性方法來(lái)為具有不同不確定性的子問(wèn)題分配計(jì)算資源?,F(xiàn)有方法缺乏正式機(jī)制進(jìn)行這種自適應(yīng)分配,往往統(tǒng)一對(duì)待所有推理步驟,導(dǎo)致預(yù)算使用效率低下并加劇推理失調(diào)。
BBAM模型就像一位智慧的資源管理者,它知道如何在不同的子任務(wù)之間分配有限的資源,以獲得最大的整體效益。在這個(gè)模型中,研究團(tuán)隊(duì)采用貝葉斯決策理論公式,通過(guò)最小化總不確定性來(lái)最大化推理效用。
模型假設(shè)一個(gè)逆冪律支配著子問(wèn)題sij在令牌分配bij的情況下的認(rèn)知不確定性(epistemic uncertainty)減少:
Uepistemic(sij | bij) = cij / bij^βij
其中cij > 0反映初始認(rèn)知不確定性,βij ≥ 1捕獲減少該不確定性的復(fù)雜性(較高的βij對(duì)應(yīng)于更容易減少不確定性)。
總不確定性被建模為認(rèn)知和偶然(aleatoric)組件的總和:
U(sij | bij) = cij / bij^βij + Ualeatoric(sij)
這里,Ualeatoric被視為相對(duì)于bij的常量,因?yàn)樗从沉藷o(wú)法通過(guò)額外推理努力減輕的不可約不確定性。
成功解決子問(wèn)題sij的效用被定義為與其不確定性成反比:
r(sij | bij) = α · (1 - U(sij | bij))
其中α是基于模型/任務(wù)的縮放因子。查詢xi的總效用則是:
Rtotal = Σ r(sij | bij)
最優(yōu)預(yù)算分配解決了以下約束優(yōu)化問(wèn)題:
max Σ α · (1 - cij/bij^βij - Ualeatoric(sij)) s.t. Σ bij ≤ Bi
通過(guò)引入拉格朗日乘數(shù)λ處理預(yù)算約束并求解得到的拉格朗日函數(shù),研究團(tuán)隊(duì)得出最優(yōu)性原則:
bij = Bi · ((cijβij)^(1/(βij+1))) / (Σk (cikβik)^(1/(βik+1)))
這個(gè)分配規(guī)則揭示了bij和βij之間的單峰關(guān)系,即令牌預(yù)算隨著復(fù)雜性增加到峰值,然后隨著進(jìn)一步努力產(chǎn)生遞減收益而減少。這種關(guān)系是緩解推理失調(diào)的關(guān)鍵:中等難度的子問(wèn)題獲得更多令牌以避免思考不足,而過(guò)于困難的問(wèn)題獲得較少令牌以防止過(guò)度思考。
BBAM因此提供了一種原則性、自我調(diào)節(jié)的機(jī)制,使推理努力與推理價(jià)值保持一致,就像一個(gè)優(yōu)秀的項(xiàng)目經(jīng)理知道何時(shí)深入投入資源,何時(shí)采取更輕量級(jí)的方法。
四、"計(jì)劃與預(yù)算"框架:實(shí)現(xiàn)高效推理的實(shí)用方法
雖然BBAM提供了最優(yōu)令牌分配的原則性方法,但在實(shí)踐中估計(jì)其參數(shù)(如跨子問(wèn)題減少不確定性的復(fù)雜性)具有挑戰(zhàn)性。為了彌合理論見(jiàn)解與實(shí)際應(yīng)用之間的差距,研究團(tuán)隊(duì)引入了"計(jì)劃與預(yù)算"(PLAN-AND-BUDGET)框架,這是一種使用輕量級(jí)、基于衰減的預(yù)算調(diào)度器來(lái)近似BBAM原則的結(jié)構(gòu)化推理框架。
這個(gè)框架就像一個(gè)兩階段的項(xiàng)目管理系統(tǒng):首先制定詳細(xì)計(jì)劃,確定所有需要完成的任務(wù)及其優(yōu)先級(jí);然后根據(jù)每個(gè)任務(wù)的復(fù)雜性和重要性分配資源,確保整個(gè)項(xiàng)目既準(zhǔn)確又高效地完成。
### 計(jì)劃階段:?jiǎn)栴}分解作為引導(dǎo)腳手架
受人類問(wèn)題解決策略的啟發(fā),研究團(tuán)隊(duì)使用查詢分解作為推理腳手架來(lái)提高效率和專注度。計(jì)劃過(guò)程分為兩個(gè)階段:
第一階段是自動(dòng)規(guī)劃。一個(gè)輕量級(jí)規(guī)劃函數(shù)P將xi分解為子問(wèn)題的有序序列πi及其估計(jì)的復(fù)雜度評(píng)分Di:
P(xi) → (πi, Di), πi = ?si1, si2, ..., sim?, Di = ?di1, di2, ..., dim?
其中,πi表示分解計(jì)劃——一個(gè)包含m個(gè)子問(wèn)題的序列,每個(gè)sij是針對(duì)查詢xi的特定子問(wèn)題的自然語(yǔ)言提示。向量Di包含相應(yīng)的復(fù)雜度評(píng)分,每個(gè)dij ∈ R>0反映解決sij的估計(jì)復(fù)雜度。
分解計(jì)劃πi不一定是唯一或保證最優(yōu)的,但充當(dāng)軟腳手架——引導(dǎo)主要大型語(yǔ)言模型的合理高級(jí)推理路徑。規(guī)劃函數(shù)P可以通過(guò)在輕量級(jí)大型語(yǔ)言模型中應(yīng)用分解提示來(lái)實(shí)現(xiàn)。
隨后,這些復(fù)雜度評(píng)分dij被歸一化為權(quán)重向量wi:
wij = dij / Σk dik
這個(gè)歸一化權(quán)重wij代表查詢總"復(fù)雜度"中歸因于第j個(gè)子問(wèn)題的比例。這個(gè)權(quán)重向量在后續(xù)的預(yù)算分配機(jī)制中起關(guān)鍵作用,決定總令牌預(yù)算Bi如何分配給各個(gè)子問(wèn)題。
第二階段是引導(dǎo)推理。在將xi分解為子問(wèn)題?si1, ..., sim?并分配令牌預(yù)算bi1, ..., bim后,主要推理大型語(yǔ)言模型依次在其預(yù)算bij內(nèi)回答每個(gè)sij,產(chǎn)生如下響應(yīng):
aij = fLLM(sij, bij)
其中fLLM表示預(yù)算約束的生成過(guò)程。這一約束通過(guò)防止在個(gè)別步驟上過(guò)度使用令牌來(lái)緩解推理失調(diào)。在所有子問(wèn)題都得到回答后,綜合函數(shù)S匯總響應(yīng),回答原始查詢xi:
yi = S(ai1, ..., aim)
### 預(yù)算階段:基于衰減的預(yù)算分配
雖然貝葉斯公式提供了基于子問(wèn)題特定不確定性參數(shù)(cij和βij)的最優(yōu)分配策略,但在實(shí)踐中可靠地估計(jì)這些值通常是不可行的。為彌補(bǔ)這一差距,研究團(tuán)隊(duì)引入了一系列基于衰減的調(diào)度函數(shù),以輕量級(jí)和實(shí)用的方式近似不確定性感知的預(yù)算分配。
這些函數(shù)為早期子問(wèn)題分配更多令牌,基于這樣的觀察:認(rèn)知不確定性在推理開(kāi)始時(shí)通常最高——此時(shí)發(fā)生基礎(chǔ)理解和策略形成。早期令牌投資產(chǎn)生更大的不確定性減少,與公式1中認(rèn)知不確定性的冪律行為一致。相比之下,后期步驟通常范圍更窄或更確定性,在這些階段過(guò)度分配令牌會(huì)浪費(fèi)推理努力,因?yàn)轭~外計(jì)算無(wú)法減少不可約的偶然不確定性,并在認(rèn)知收益上產(chǎn)生遞減收益。因此,衰減函數(shù)為預(yù)算優(yōu)先級(jí)提供了原則性啟發(fā)式方法,將預(yù)算集中在最有價(jià)值的地方。
給定查詢xi的歸一化復(fù)雜度權(quán)重向量wi = {wi1, ..., wim}和總令牌預(yù)算Bi,令牌分配使用以下公式:
bij = (wij · dij / Σk wik · dik) · Bi
其中dij = schedule(j, m)為子問(wèn)題j在長(zhǎng)度為m的序列中分配位置優(yōu)先級(jí),反映早期步驟通常具有更高認(rèn)知不確定性并值得更多預(yù)算的信念。
研究團(tuán)隊(duì)探索了幾種衰減策略:
1. 無(wú)衰減:對(duì)所有子問(wèn)題給予相等優(yōu)先級(jí);預(yù)算跟隨wij。 2. 線性衰減:優(yōu)先級(jí)隨j線性減少;強(qiáng)調(diào)早期步驟。 3. 多項(xiàng)式衰減:對(duì)早期步驟有更強(qiáng)調(diào);在p > 1時(shí)更陡峭。 4. 指數(shù)衰減:指數(shù)級(jí)優(yōu)先考慮較早的子問(wèn)題;由γ ∈ (0, 1)控制。 5. 余弦退火:具有中序列靈活性的平滑衰減;ε增加穩(wěn)定性。
這些衰減函數(shù)作為BBAM貝葉斯最優(yōu)分配的實(shí)用替代品,啟發(fā)式地針對(duì)推理中最具認(rèn)知影響力的階段。不同的衰減策略產(chǎn)生不同的分配模式,即使在均勻復(fù)雜度下也是如此,多項(xiàng)式衰減和余弦退火偏好早期步驟,線性提供漸進(jìn)下降,指數(shù)衰減提供平衡分布——展示基于衰減的調(diào)度如何靈活地調(diào)整令牌強(qiáng)調(diào)以匹配推理任務(wù)的結(jié)構(gòu)。
五、實(shí)驗(yàn)設(shè)計(jì)與評(píng)估方法
為評(píng)估"計(jì)劃與預(yù)算"框架的有效性和效率,研究團(tuán)隊(duì)在三種推理密集型下游任務(wù)上進(jìn)行了廣泛實(shí)驗(yàn)。他們使用所提出的E?指標(biāo)評(píng)估了原始準(zhǔn)確率和計(jì)算感知推理效率。
### 數(shù)據(jù)集
研究團(tuán)隊(duì)評(píng)估"計(jì)劃與預(yù)算"框架在三個(gè)代表性基準(zhǔn)上的表現(xiàn):
1. MATH-500:一個(gè)包含500個(gè)數(shù)學(xué)問(wèn)題的數(shù)據(jù)集,需要多步符號(hào)推理,通過(guò)準(zhǔn)確率評(píng)估。 2. NaturalInstructions:一個(gè)多樣化的指令跟隨基準(zhǔn),使用ROUGE分?jǐn)?shù)評(píng)估。 3. TravelPlanner:一個(gè)具有挑戰(zhàn)性的智能體規(guī)劃任務(wù),在無(wú)工具設(shè)置中通過(guò)硬約束通過(guò)率評(píng)估。該基準(zhǔn)反映了長(zhǎng)視野、滿足約束推理的挑戰(zhàn),GPT-4-Turbo在最好的情況下也只達(dá)到22.2%。
### 模型
研究團(tuán)隊(duì)測(cè)試了四種最先進(jìn)的、公開(kāi)可用的推理調(diào)優(yōu)大型語(yǔ)言模型:
1. DeepSeek-R1-Distill-Qwen-32B (DS-Qwen-32B) 2. QwQ-32B 3. DeepSeek-R1-Distill-LLaMA-70B (DS-LLaMA-70B) 4. OpenAI o4-mini
這些模型平衡了性能和可訪問(wèn)性,并針對(duì)復(fù)雜推理進(jìn)行了專門優(yōu)化。對(duì)于規(guī)劃和預(yù)算,他們使用非推理大型語(yǔ)言模型LLaMA-3.3-70B-Instruct。為確保它不會(huì)無(wú)意中影響最終答案質(zhì)量,研究團(tuán)隊(duì)評(píng)估了它在三個(gè)基準(zhǔn)上的獨(dú)立表現(xiàn),發(fā)現(xiàn)它的表現(xiàn)不如專業(yè)模型:MATH-500上為75.2±0.68,NaturalInstructions上為41.46±0.41,TravelPlanner上為28.75±2.1。這證實(shí)了它作為中立規(guī)劃者的角色。
### 評(píng)估指標(biāo)
研究團(tuán)隊(duì)報(bào)告了以下指標(biāo):
1. 分?jǐn)?shù)(%):每個(gè)數(shù)據(jù)集中使用的原始評(píng)估指標(biāo); 2. 平均令牌數(shù):每個(gè)查詢計(jì)費(fèi)的完成令牌的平均數(shù)量,包括推理和輸出令牌; 3. E?指標(biāo):捕獲正確性與計(jì)算成本之間的平衡。
E?指標(biāo)被定義為:E? = A · (A/T) = A?/T,其中A表示在一組查詢中達(dá)到的平均準(zhǔn)確率,T表示每個(gè)查詢使用的平均解碼令牌數(shù)。通過(guò)平方準(zhǔn)確率項(xiàng),E?更加強(qiáng)調(diào)正確性,不鼓勵(lì)以犧牲輸出質(zhì)量為代價(jià)減少令牌使用的退化策略。
### 基線
研究團(tuán)隊(duì)將他們提出的框架與幾個(gè)基線進(jìn)行了比較:
1. 原始方法:查詢直接提供給大型語(yǔ)言模型,沒(méi)有規(guī)劃或令牌約束; 2. 全局預(yù)算:與原始方法相同,但帶有令牌限制提示(如"使用少于Bi個(gè)令牌"); 3. 規(guī)劃原始/全局預(yù)算:與上述相同,但提供原始查詢及其分解的子問(wèn)題; 4. 計(jì)劃與預(yù)算:查詢、子問(wèn)題和本地預(yù)算提示都提供。
他們探索了本地分配的幾種調(diào)度策略: a) 均勻:每個(gè)子問(wèn)題相等的令牌數(shù); b) 加權(quán):與估計(jì)難度成比例; c) 線性、多項(xiàng)式、指數(shù)、余弦:按難度加權(quán),帶有額外衰減(使用p = 2和γ = 0.9)。
對(duì)所有模型和基線應(yīng)用8192個(gè)令牌的硬截?cái)?,以防止失控生成。他們?bào)告了所有模型和基線在5次運(yùn)行中的平均值和標(biāo)準(zhǔn)偏差。
六、實(shí)驗(yàn)結(jié)果與分析
實(shí)驗(yàn)結(jié)果表明,"計(jì)劃與預(yù)算"框架在所有數(shù)據(jù)集和模型規(guī)模上始終優(yōu)于原始和全局預(yù)算基線,在E?上實(shí)現(xiàn)高達(dá)187.5%的改進(jìn),同時(shí)保持相當(dāng)甚至更高的準(zhǔn)確率。
### 數(shù)學(xué)推理任務(wù)(MATH-500)
在MATH-500上,研究方法一致地將E?提高了20%以上——例如,在QwQ-32B上從3.20 → 3.93(+22.8%),在o4-mini上從13.25 → 15.95(+20.3%)。重要的是,這一成就是在不影響準(zhǔn)確率的情況下實(shí)現(xiàn)的。雖然全局預(yù)算基線減少了令牌使用,但由于缺乏不確定性感知,其收益有限。
值得注意的是,單獨(dú)規(guī)劃(規(guī)劃全局預(yù)算)已經(jīng)提高了效率4-15%,驗(yàn)證了第一個(gè)關(guān)鍵原則:推理應(yīng)該是結(jié)構(gòu)化的。這種腳手架大大減少了猜測(cè)性探索。此外,E?使跨模型比較變得容易——例如,o4-mini始終實(shí)現(xiàn)了最高的E?,盡管與其他模型相比準(zhǔn)確率相似,因?yàn)樗褂玫牧钆谱钌?。這強(qiáng)調(diào)了E?作為實(shí)用效率指標(biāo)的重要性。
### 指令跟隨任務(wù)(NaturalInstructions)
在NaturalInstructions上,"計(jì)劃與預(yù)算"將E?提高了16.8-36.3%。例如,在QwQ-32B上,它從1.47 → 2.00(+36%),在o4-mini上,從4.88 → 5.62(+15%)。盡管這些任務(wù)更加面向指令,但"計(jì)劃與預(yù)算"仍然有益。
### 智能體規(guī)劃任務(wù)(TravelPlanner)
在最開(kāi)放式和具有挑戰(zhàn)性的基準(zhǔn)TravelPlanner上,研究團(tuán)隊(duì)觀察到最顯著的收益:E?從DS-Qwen-32B上的0.16 → 0.46(+187.5%),從DS-LLaMA-70B上的0.49 → 0.95(+93.8%),從o4-mini上的0.056 → 0.101(+80.3%)。這些結(jié)果強(qiáng)調(diào),任務(wù)越復(fù)雜,結(jié)構(gòu)和適應(yīng)性的好處就越大。
### 主要發(fā)現(xiàn)
1. 研究方法在保持相當(dāng)準(zhǔn)確率的情況下實(shí)現(xiàn)了顯著的效率提升。在NaturalInstructions上,"計(jì)劃與預(yù)算"將E?提高了16.8-36.3%。例如,在QwQ-32B上,它從1.47 → 2.00(+36%),在o4-mini上,從4.88 → 5.62(+15%)。盡管這些任務(wù)更加面向指令,但"計(jì)劃與預(yù)算"仍然有益。
2. 本地預(yù)算一致地提高了效率。雖然單獨(dú)的結(jié)構(gòu)化規(guī)劃就能提高效率,但添加本地預(yù)算會(huì)帶來(lái)顯著的額外收益。例如,在MATH-500上,QwQ-32B的E?從3.34 → 3.93(+17.6%);在NaturalInstructions上,從1.61 → 2.00(+24.2%);在TravelPlanner上,從0.38 → 0.56(+47.3%)。這些結(jié)果證實(shí)了適應(yīng)預(yù)算到子問(wèn)題的重要性,而不是應(yīng)用全局分配。
3. 前加載調(diào)度在復(fù)雜任務(wù)上表現(xiàn)最佳。在本地預(yù)算調(diào)度器中,多項(xiàng)式衰減和余弦退火在數(shù)學(xué)和長(zhǎng)形式規(guī)劃任務(wù)上一致地提供最高的E?。這些策略前加載計(jì)算——為早期、不確定的步驟分配更多預(yù)算,建立推理方向。這種模式在MATH-500和TravelPlanner上特別有效,在這些任務(wù)中,推理開(kāi)始時(shí)的清晰度至關(guān)重要。相比之下,在NaturalInstructions上,加權(quán)或均勻調(diào)度通常表現(xiàn)最佳,表明對(duì)于結(jié)構(gòu)更清晰、模糊性較少的任務(wù),平滑、均勻的推理就足夠了。
4. 縮小小型和大型模型之間的差距。研究方法是模型無(wú)關(guān)的:它不需要重新訓(xùn)練或微調(diào),僅依賴于提示和輕量級(jí)規(guī)劃。研究團(tuán)隊(duì)觀察到跨模型規(guī)模的一致改進(jìn)——從像QwQ-32B這樣的小型模型到像DeepSeek-R1-70B和o4-mini這樣的大型模型。一個(gè)特別值得注意的結(jié)果來(lái)自TravelPlanner,一個(gè)緊湊的模型(DS-Qwen-32B)最初只達(dá)到E? = 0.16,但在應(yīng)用"計(jì)劃與預(yù)算"后達(dá)到E? = 0.46——與沒(méi)有規(guī)劃的更大模型相當(dāng)(DS-LLaMA-70B,E? = 0.50)。這表明規(guī)劃和預(yù)算可以作為強(qiáng)大的推理時(shí)均衡器,通過(guò)更好的計(jì)算利用率縮小小型和大型模型之間的差距。
七、結(jié)論與未來(lái)展望
研究團(tuán)隊(duì)提出了"計(jì)劃與預(yù)算",這是一個(gè)輕量級(jí)的測(cè)試時(shí)框架,通過(guò)結(jié)合結(jié)構(gòu)化規(guī)劃和不確定性感知的令牌預(yù)算來(lái)提高大型語(yǔ)言模型的推理效率。建立在他們的貝葉斯預(yù)算分配模型(BBAM)基礎(chǔ)上,"計(jì)劃與預(yù)算"將推理建模為一系列子問(wèn)題,并基于估計(jì)的難度自適應(yīng)地分配計(jì)算。
在三種不同推理任務(wù)上的實(shí)驗(yàn)表明,"計(jì)劃與預(yù)算"在強(qiáng)基線上實(shí)現(xiàn)了顯著的計(jì)算效率改進(jìn),而不影響準(zhǔn)確率。盡管有效,但他們的方法目前需要額外的大型語(yǔ)言模型調(diào)用來(lái)生成分解計(jì)劃。
在未來(lái)的工作中,研究團(tuán)隊(duì)計(jì)劃微調(diào)和開(kāi)發(fā)專用的規(guī)劃大型語(yǔ)言模型,將計(jì)劃與預(yù)算策略內(nèi)化,實(shí)現(xiàn)單一模型內(nèi)的端到端高效推理。這將進(jìn)一步簡(jiǎn)化推理過(guò)程,消除對(duì)外部規(guī)劃模型的需求,同時(shí)保持計(jì)算效率的提升。
這項(xiàng)研究為更高效、更可擴(kuò)展的大型語(yǔ)言模型推理開(kāi)辟了新的途徑,特別是在資源受限的環(huán)境中。通過(guò)減少不必要的計(jì)算而不犧牲準(zhǔn)確率,"計(jì)劃與預(yù)算"框架使大型語(yǔ)言模型的高級(jí)推理能力變得更加實(shí)用和廣泛可用,有可能將其好處擴(kuò)展到更廣泛的應(yīng)用和用戶群體。
好文章,需要你的鼓勵(lì)
新加坡國(guó)立大學(xué)研究團(tuán)隊(duì)開(kāi)發(fā)了SPIRAL框架,通過(guò)讓AI與自己對(duì)弈零和游戲來(lái)提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡(jiǎn)單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無(wú)需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開(kāi)發(fā)的GIGA-ToF技術(shù)通過(guò)融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問(wèn)題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺(jué)解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過(guò)對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺(jué)語(yǔ)言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無(wú)法有效利用視覺(jué)信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過(guò)動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語(yǔ)言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。