今天要和大家分享一項來自香港科技大學、香港中文大學和北京大學研究團隊的最新研究成果,這篇題為《AdaCtrl: Towards Adaptive and Controllable Reasoning via Difficulty-Aware Budgeting》(通過難度感知預算實現(xiàn)自適應和可控推理)的論文于2025年5月24日發(fā)表在arXiv(arXiv:2505.18822v1)預印本平臺上。研究團隊由香港科技大學的Shijue Huang、Zhaochen Su和Yi R. (May) Fung,香港中文大學的Hongru Wang和Bowen Cao,以及北京大學的Jiazhan Feng共同完成。這項研究正在進行中,代碼將在GitHub上公開發(fā)布。
想象一下,你向朋友提出一個很簡單的問題,比如"2加3等于多少?",但你的朋友卻開始長篇大論,分析各種可能的計算方法,討論加法的數(shù)學原理,最后才告訴你答案是5。這不僅浪費時間,還讓你感到困惑——為什么這么簡單的問題需要如此復雜的回答?
現(xiàn)代的大型AI推理模型就有這樣的"過度思考"問題。當面對簡單問題時,它們傾向于生成不必要的冗長推理鏈,就好像用大炮打蚊子。例如,當你問AI"計算log?(64)的值"這樣簡單的問題時,它可能會生成一大堆推理步驟,詳細解釋對數(shù)的性質、指數(shù)轉換等等,最后才得出答案是6。
來自香港科技大學、香港中文大學和北京大學的研究團隊開發(fā)了一種名為AdaCtrl的新框架,就像是給AI安裝了一個"思考調節(jié)器",讓它能夠根據(jù)問題的難度自動調整思考的深度和長度。更棒的是,用戶還可以手動控制這個"思考調節(jié)器",根據(jù)自己的需求選擇AI思考的深淺。
一、AdaCtrl:思考的智能調節(jié)器
想象一下,如果AI具備了兩種超能力:一是能夠評估問題的難度,二是能夠根據(jù)難度調整回答的詳細程度。這正是AdaCtrl框架帶來的能力。它就像是給AI裝上了一個智能思考調節(jié)器,能夠自動平衡效率和效果。
這個框架通過兩個階段的訓練實現(xiàn)這一目標。首先是"冷啟動微調"階段,讓模型學會對問題難度的自我意識,并據(jù)此調整推理預算。接著是"難度感知強化學習"階段,在這個階段,模型會根據(jù)在線訓練中不斷變化的能力來調整其自適應推理策略并校準難度評估。
為了讓用戶能夠直觀地控制思考長度,研究團隊設計了特殊的長度觸發(fā)標簽——"[Easy]"(簡單)和"[Hard]"(復雜)。這些標簽就像是思考預算的控制開關,用戶可以通過指定這些標簽來控制AI的回答長度。
例如,當你向AI提出"計算log?(64)"這個問題時,根據(jù)不同的模式,AI的回答方式會有很大差異:
在"簡單模式"下,AI會給出簡潔的回答,只包含必要的步驟,大約250個詞左右:"為了計算log?(64),我們需要確定以2為底,多少次方等于64。讓我們逐步分解這個問題。首先,我們知道2的6次方等于64,因此log?(64) = 6。"
在"自適應模式"下,AI會根據(jù)問題難度調整回答長度,大約400個詞左右,包含更多的解釋和推理過程。
而在"復雜模式"下,AI會提供最詳盡的解答,大約1100個詞,不僅包含完整的推理過程,還會考慮多種解法,進行反思和驗證。
二、為什么我們需要AdaCtrl?
想象一下,你有一位非常博學的朋友。無論你問他簡單還是復雜的問題,他總是給出極其詳盡的解答。當你問"今天天氣如何?",他可能會開始講解氣象學原理、氣壓系統(tǒng)和溫度變化。雖然這些信息很全面,但對于簡單問題,這種詳盡解答反而造成了認知負擔和時間浪費。
現(xiàn)代大型推理模型就面臨這樣的挑戰(zhàn)。它們在解決復雜問題時表現(xiàn)出色,但往往難以平衡效率和效果,對簡單問題也生成不必要的冗長推理鏈。這不僅增加了計算開銷,還影響了用戶體驗。
近年來,研究人員嘗試了多種方法來提高推理效率:
有些研究通過提示技術,要求模型生成簡潔的回答。比如告訴AI:"請簡明扼要地回答問題,不超過100個詞。"
另一些研究則通過在更短的推理路徑上微調模型,教它學會更簡潔的表達。這就像是訓練一個作家學會寫短篇小說而非長篇巨著。
還有一些研究利用強化學習,通過懲罰過長的回答來優(yōu)化模型,使其生成既簡潔又準確的輸出。這類似于給AI設定一個"字數(shù)限制",超出就會"扣分"。
然而,現(xiàn)有的方法主要關注于最小化推理長度,忽視了根據(jù)任務難度動態(tài)調整思考深度的需求。此外,從用戶角度來看,能夠明確控制推理預算是一個顯著優(yōu)勢,但這一方面在當前研究中仍相對欠缺探索。
三、AdaCtrl的工作原理:兩階段訓練讓AI學會"量力而行"
AdaCtrl框架通過兩個關鍵階段的訓練,讓AI學會了如何根據(jù)問題難度調整思考深度。
首先,讓我們了解長度觸發(fā)標簽如何作為控制接口。研究團隊引入了兩個特殊的長度觸發(fā)標簽:"[Easy]"(簡單)和"[Hard]"(復雜)。每個由模型生成的回答都以其中一個標簽開頭,表明所需推理的預期復雜度。這些標簽就像是一個信號燈,告訴模型接下來應該以什么樣的思考深度來回答問題。
第一階段:冷啟動微調
這個階段就像是教會AI認識什么是"簡單"和"復雜"的問題。研究團隊從DeepMATH數(shù)據(jù)集中選取了帶有難度標注的數(shù)學問題,將難度級別5及以下的問題歸類為簡單問題,而難度高于5的則歸為復雜問題。
對于簡單問題,研究團隊使用待訓練的模型(Qwen2.5-7B-Instruct)生成簡潔的回答;而對于復雜問題,則使用一個強大的大型推理模型(Deepseek R1)生成詳細的推理過程。然后,研究者過濾出正確的回答,并在簡單問題的回答前加上"[Easy]"標簽,在復雜問題的回答前加上"[Hard]"標簽,從而構建出一個用于監(jiān)督微調的數(shù)據(jù)集。
通過這種方式,模型學會了按照指定的標簽調整回答長度,就像是學會了根據(jù)指令調整思考的深淺。
第二階段:難度感知強化學習
如果說第一階段是教會AI識別問題難度,那么第二階段則是讓AI學會更精確地根據(jù)難度分配計算資源。研究團隊采用了GRPO(一種強化學習算法)作為訓練算法,利用多次生成的結果來評估問題在模型視角下的難度。
在這個階段,研究團隊設計了三種特殊的獎勵函數(shù):
結果準確性獎勵:這是最基本的獎勵,當模型給出正確答案時獲得正向獎勵(+1.0分),錯誤時則獲得負向獎勵(-1.0分)。這就像是告訴AI:"回答對了就有糖吃,回答錯了就要被懲罰。"
難度估計校準獎勵:隨著強化學習訓練的進行,模型的能力會不斷進化,同一個問題在不同訓練階段可能需要不同的難度標簽。通過預定義的準確率閾值,如果多次嘗試的平均準確率超過閾值,問題就被標記為"簡單",否則就是"復雜"。當模型生成的難度標簽與這一評估相符時,就會獲得正向獎勵。這類似于訓練AI學會準確評估自己的能力范圍。
難度感知長度獎勵:與傳統(tǒng)方法不同,AdaCtrl只鼓勵模型在簡單問題上生成簡潔回答,而對復雜問題則保留長思考能力。具體來說,當模型生成的難度標簽是"[Easy]"時,回答越簡潔,獲得的獎勵越高;而對于"[Hard]"標簽的問題,則不對長度施加限制。這就像是教導AI:"對簡單問題,直接了當就好;對復雜問題,則需要深思熟慮。"
通過結合這三種獎勵,模型在訓練過程中學會了更準確地評估問題難度,并根據(jù)難度動態(tài)分配思考資源,實現(xiàn)了自適應和可控的推理能力。
四、實驗結果:"思考調節(jié)器"的驚人效果
研究團隊在四個數(shù)學數(shù)據(jù)集上評估了AdaCtrl的性能:AIME2024、AIME2025、MATH500和GSM8K。前兩個數(shù)據(jù)集包含更具挑戰(zhàn)性的奧林匹克數(shù)學風格問題,而后兩個則主要包含相對簡單的中小學水平問題,其中GSM8K是最簡單的。
實驗結果令人印象深刻。與標準的SFT + RL基線相比,AdaCtrl在AIME2025上將準確率提高了1.67%,在MATH500上提高了7.20%,在GSM8K上提高了2.05%,同時在AIME2024上保持了相當?shù)臏蚀_率。更令人驚訝的是,這些性能提升伴隨著回答長度的大幅減少,在各數(shù)據(jù)集上分別減少了10.06%、12.14%、62.05%和91.04%。
這就像是一位學生不僅考試成績提高了,而且答題時間也大大縮短了!
更有趣的是,AdaCtrl還提供了通過明確的長度觸發(fā)標簽進行增強控制的能力。當指示模型在"簡單"推理模式下操作時,它在AIME2025和AIME2024數(shù)據(jù)集上的回答長度分別減少了90.22%和94.31%(從16k減少到1k詞元)。相反,在"復雜"推理模式下,GSM8K的回答長度增加了86.51%,MATH500增加了489.15%。
這就像是給用戶提供了一個思考深度的調節(jié)旋鈕,可以根據(jù)需要自由調整AI的思考深淺。
五、AdaCtrl的難度評估能力:AI也懂得"量力而行"
為了評估AdaCtrl對問題難度的判斷能力,研究團隊分析了模型在四個數(shù)據(jù)集上生成的長度觸發(fā)標簽的比例。結果顯示,AdaCtrl將AIME2024和AIME2025數(shù)據(jù)集中的大部分問題歸類為"復雜"類別,這些數(shù)據(jù)集包含具有挑戰(zhàn)性的數(shù)學奧林匹克級別問題。
相比之下,對于MATH500數(shù)據(jù)集,該模型將76.2%的問題識別為簡單問題,這與該數(shù)據(jù)集包含各種難度水平的數(shù)學問題的實際情況一致。而對于最簡單的GSM8K數(shù)據(jù)集,超過99%的問題被歸類為簡單問題。
這些結果與數(shù)據(jù)集的實際難度水平相符,表明AdaCtrl通過強化學習發(fā)展出了令人滿意的問題難度評估能力。
進一步研究表明,AdaCtrl能夠根據(jù)自身對問題難度的評估準確調節(jié)其推理預算。在MATH500數(shù)據(jù)集上的分析顯示,隨著難度等級從1上升到5,模型生成的回答長度逐漸增加,從約0.3k詞元增加到6k詞元。這表明AdaCtrl能夠準確地根據(jù)自評估的問題難度調整其推理預算,從而實現(xiàn)計算資源的自動和自適應分配。
六、訓練動態(tài)過程:AI如何學會思考的"張弛有度"
研究團隊還分析了強化學習訓練過程中的性能趨勢和預算動態(tài)。結果顯示,模型在所有四個數(shù)據(jù)集上的性能都呈現(xiàn)上升趨勢,表明推理能力不斷提升。
關于預算動態(tài),在AIME2024、AIME2025和MATH500數(shù)據(jù)集上,平均回答長度在訓練初期快速增加,然后逐漸減少并穩(wěn)定在比訓練前更長的水平。而對于GSM8K,回答長度則保持相對穩(wěn)定,接近訓練前觀察到的水平。
這些發(fā)現(xiàn)表明,在冷啟動微調階段學習的推理預算分配對于更復雜的問題(如AIME2024、AIME2025和MATH500中的問題)是不足的。因此,模型在強化學習階段動態(tài)調整其預算,以響應實際問題難度。相比之下,對于相對簡單的GSM8K數(shù)據(jù)集,模型在冷啟動微調后已經(jīng)能夠有效分配最小預算,表明其能夠區(qū)分和處理更簡單的問題,而無需顯著調整。
七、AdaCtrl的意義:讓AI思考更像人類
AdaCtrl框架的意義不僅在于提升AI的思考效率,還在于讓AI的思考方式更接近人類。人類在面對不同難度的問題時,會自然地調整思考深度——對于簡單問題,我們往往直接給出答案;而對于復雜問題,我們會進行更深入的思考和推理。
通過AdaCtrl,AI也學會了這種"因難而異"的思考方式,不僅提高了推理效率,也增強了用戶體驗。用戶不再需要忍受簡單問題的冗長回答,同時對于復雜問題,AI仍然保持其深度思考能力。
此外,AdaCtrl還為用戶提供了控制AI思考深度的能力,就像是給用戶一個"思考調節(jié)器",可以根據(jù)自己的需求自由調節(jié)。想要簡明扼要的回答?選擇"簡單"模式。需要詳盡解析的思路?選擇"復雜"模式。這種控制能力不僅提升了用戶體驗,也為資源受限的場景提供了靈活的解決方案。
從技術角度看,AdaCtrl的兩階段訓練框架也為未來的AI訓練提供了新的思路。通過結合冷啟動微調和難度感知強化學習,模型不僅學會了難度自我意識,還學會了根據(jù)難度動態(tài)分配計算資源,展現(xiàn)出更智能、更高效的推理能力。
八、未來展望:更智能、更自然的AI思考
AdaCtrl框架為未來的AI推理能力提供了一條有前途的路徑。研究團隊的工作為解決"過度思考"問題提供了有效的解決方案,同時為用戶提供了對推理預算的明確控制。
未來的研究方向可能包括將這種自適應和可控推理擴展到更多領域,如自然語言理解、視覺推理等。此外,進一步優(yōu)化難度評估和預算分配策略,使AI的思考方式更接近人類,也是一個值得探索的方向。
隨著這類技術的不斷發(fā)展,我們可以期待未來的AI不僅能回答問題,還能以更自然、更高效的方式思考,真正實現(xiàn)"人機共鳴"的交互體驗。
九、結語:思考的藝術在于適度
正如愛因斯坦所說:"使事情盡可能簡單,但不要過于簡單。"這句話也適用于AI的推理過程。過度簡化會喪失洞察力,而過度復雜則會模糊核心要點。AdaCtrl框架通過讓AI學會"量力而行"的思考,實現(xiàn)了這種微妙的平衡。
歸根結底,AdaCtrl的核心貢獻在于讓AI的思考方式更接近人類——知道何時該深入思考,何時該簡明扼要。這種能力不僅提升了AI的效率,也增強了其與人類交互的自然性,為未來AI技術的發(fā)展提供了新的可能性。
對于普通用戶來說,這項研究的意義在于未來的AI助手將能夠更加靈活地適應不同的需求場景,既能在需要時提供詳盡的分析,也能在日常簡單問題上給出簡潔的回答,真正成為我們生活和工作中更加智能、更加貼心的伙伴。
如果你對這項研究感興趣,完整的研究論文可以通過arXiv:2505.18822v1查閱,代碼庫將在GitHub上以https://github.com/JoeYing1019/AdaCtrl的地址發(fā)布。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結合大語言模型的敘事推理能力與音頻生成技術,通過交錯式推理生成、解耦橋接機制和漸進式訓練,能夠將復雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學聯(lián)合研發(fā)的VideoJAM技術,通過讓AI同時學習外觀和運動信息,顯著解決了當前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術僅需添加兩個線性層就能大幅提升運動質量,在多項測試中超越包括Sora在內的商業(yè)模型,為AI視頻生成的實用化應用奠定了重要基礎。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質量樣本的訓練數(shù)據(jù)集和MM-AlignBench評測基準,通過創(chuàng)新的數(shù)據(jù)生成和質量管控方法,讓AI在保持技術能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預測模型,能夠在不到一分鐘內完成10天全球天氣預報,準確性超越傳統(tǒng)方法90%的指標。該模型采用圖神經(jīng)網(wǎng)絡技術,通過學習40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學領域帶來了效率和精度的雙重突破。