日常生活中,我們解決問題的方式各不相同。面對簡單的計算如2+3,大多數(shù)人可以直接得出答案;而解決復雜的數(shù)學證明題時,我們往往需要深入思考,推導多個步驟才能得到結果。人工智能領域的大型推理模型(如OpenAI的o1和DeepSeek的R1系列)也是如此——它們通過一種叫做"思考"(Thinking)的過程來解決復雜問題,就像人類一樣先進行長篇推理,然后才給出最終答案。
來自清華大學的研究團隊(包括張嘉杰、林念一、侯磊、馮玲和李娟子)在2025年5月發(fā)布了一項名為"AdaptThink"的研究,探討了一個有趣的問題:大型推理模型是否需要對每個問題都進行冗長的思考?他們的研究成果發(fā)表在arXiv預印本平臺(arXiv:2505.13417v1),并在GitHub(https://github.com/THU-KEG/AdaptThink)上開源了代碼和模型。
想象一下圖書館里的兩種學習者:一位是面對每道題都寫滿草稿紙的細致型學生,另一位則能夠根據(jù)題目難度靈活調(diào)整——簡單題直接寫答案,復雜題才詳細推導。AdaptThink正是教會AI模型成為后者,讓它學會"什么時候該思考,什么時候可以直接給答案"。
研究團隊首先發(fā)現(xiàn),當推理模型面對相對簡單的問題時,跳過思考過程直接給出答案(稱為"NoThinking"模式)不僅能大幅提高效率,有時候準確率反而更高?;谶@一發(fā)現(xiàn),他們開發(fā)了AdaptThink算法,通過強化學習(RL)技術教會模型根據(jù)問題難度自動選擇最合適的思考模式。
實驗結果令人振奮:經(jīng)過AdaptThink訓練的模型在三個數(shù)學數(shù)據(jù)集上,不僅將平均響應長度減少了53%(意味著處理速度大大提升),準確率還提高了2.4%。這就像教會學生不僅解題更快,而且答得更準確!
為什么這項研究如此重要?想象一下,當你問AI助手一個簡單問題時,它不再長篇大論地解釋一個顯而易見的答案,而是像人類一樣,對簡單問題直截了當,對復雜問題才深入分析。這不僅提升了用戶體驗,也大大節(jié)省了計算資源和響應時間。接下來,讓我們深入了解這項研究的細節(jié),看看研究團隊是如何實現(xiàn)這一智能思考轉換的。
一、研究背景:AI推理模型的思考困境
現(xiàn)代大型推理模型,例如OpenAI的o1和DeepSeek的R1系列,具有令人印象深刻的推理能力。但你有沒有注意到,當你向這些模型提問時,它們總是會生成大量的"思考"文本?這些模型就像一個總是把所有解題過程寫下來的學生,即使是回答"1+1=?"這樣的簡單問題也要詳細分析。
研究團隊指出,這種長篇思考過程雖然增強了模型的推理能力,但也帶來了一個明顯的問題:效率低下。想象一下,如果你問AI一個簡單問題,希望得到快速回答,但AI卻給你生成了一大段不必要的詳細分析,用戶體驗會變得很差。
目前解決這個問題的主流方法主要集中在減少模型響應的長度上,比如通過強化學習中加入基于長度的獎勵,或者對長響應進行懲罰。然而,這些方法仍然堅持對所有問題都應用思考過程,無論問題本身是否真的需要思考。
研究人員指出,實際上有一種被稱為"NoThinking"的方法(由Ma等人在2025年提出),允許推理模型跳過思考過程,直接生成最終解決方案。他們對這種方法進行了簡化,只需在提示中添加一個空的思考段(即""),就能讓模型直接給出答案。
研究團隊的重要發(fā)現(xiàn)是:對于相對簡單的問題(高中競賽水平及以下),NoThinking模式不僅能達到與Thinking模式相當或更好的性能,還能顯著減少計算開銷;只有當問題難度足夠高時,Thinking模式的優(yōu)勢才會變得明顯。
這就像我們解決日常問題一樣:簡單的加減法可以直接心算,而復雜的數(shù)學證明則需要一步步推導。那么,能否教會AI模型也具備這種靈活選擇思考方式的能力呢?這就是AdaptThink算法要解決的核心問題。
二、NoThinking與Thinking:何時直接給答案,何時深入思考?
在深入了解AdaptThink算法之前,我們先來看看研究團隊進行的一項有趣初步研究。他們以MATH500數(shù)據(jù)集(一個包含不同難度數(shù)學問題的測試集)為例,比較了推理模型在使用Thinking模式和NoThinking模式時的表現(xiàn)。
想象一下學校里的數(shù)學測試:有些題目非常基礎(Level 1),而有些則極其困難(Level 5)。研究人員發(fā)現(xiàn),在最簡單的Level 1問題上,NoThinking模式(直接給答案)的準確率達到94.9%,實際上比使用Thinking模式(長篇推理)的94.6%還要高一點點!同時,NoThinking模式的平均響應長度只有300個詞,而Thinking模式則需要2033個詞,這意味著效率提高了近7倍!
隨著問題難度的增加,兩種模式的性能差距逐漸顯現(xiàn)。在最難的Level 5問題上,Thinking模式的準確率為57.6%,而NoThinking模式則下降到50%。這說明對于復雜問題,深入思考確實是必要的。
有趣的是,即使在較難的級別(如Level 4),仍有近一半(49.2%)的問題使用NoThinking模式就能正確解答。這就像數(shù)學天才有時不需要寫出所有步驟就能解決看似復雜的問題。
這項發(fā)現(xiàn)帶來了一個重要啟示:如果能讓模型根據(jù)問題難度自動選擇思考模式,就可以在保持準確率的同時大大提高效率。這正是AdaptThink算法的核心理念——教會模型"知道何時需要思考,何時可以直接給答案"。
研究團隊據(jù)此提出了一個關鍵問題:能否讓推理模型學會根據(jù)輸入問題的難度自動選擇Thinking或NoThinking模式,從而實現(xiàn)更高效的推理,同時不犧牲甚至還能提高性能?
三、AdaptThink算法:教會AI靈活思考的技術方案
AdaptThink算法的目標很清晰:讓AI模型學會何時該深入思考,何時可以直接給答案。這就像教一個學生判斷題目難度并選擇合適的解題策略。不過,要實現(xiàn)這一目標,研究團隊面臨兩個主要挑戰(zhàn):
第一個挑戰(zhàn)是如何鼓勵模型選擇更高效的NoThinking模式,同時又不損害整體性能。想象一個學生總是傾向于寫詳細步驟(因為這是他習慣的方式),如何讓他在保證答案正確的前提下,對簡單題嘗試直接寫答案?
第二個挑戰(zhàn)是"冷啟動"問題。原始推理模型已經(jīng)習慣了對所有問題都進行思考,如果一開始就讓它嘗試NoThinking模式,它可能完全不知道如何操作,就像要求一個從未嘗試過心算的學生突然放棄草稿紙一樣困難。
為了解決這些挑戰(zhàn),AdaptThink算法設計了兩個核心組件:
第一個組件是約束優(yōu)化目標。這個目標函數(shù)鼓勵模型盡可能選擇NoThinking模式(因為效率更高),但有一個重要前提:整體性能不能下降。用數(shù)學語言表達,就是在最大化選擇NoThinking的概率的同時,確保新模型的平均準確率不低于原始模型。
這就像給學生設立一個明確目標:盡量減少解題時間,但前提是正確率不能下降。如果學生發(fā)現(xiàn)某類題目直接寫答案會導致錯誤率上升,那么他應該繼續(xù)使用詳細推導。
第二個組件是重要性采樣策略。在訓練過程中,AdaptThink算法不是直接從模型采樣(這樣一開始幾乎不可能得到NoThinking的樣本),而是人為設置一個新的分布,使得一半樣本是Thinking模式,另一半是NoThinking模式。
這就像強制學生練習兩種解題方式:一半題目要求寫詳細步驟,一半題目要求直接給答案。通過這種"強制平衡"的訓練,學生逐漸學會了在兩種模式間自由切換,并根據(jù)題目難度選擇最合適的方式。
從另一個角度理解,AdaptThink算法計算了Thinking和NoThinking模式的平均"優(yōu)勢",并根據(jù)這個優(yōu)勢做出選擇。只有當NoThinking模式的準確率與Thinking模式的差距小于設定閾值時,模型才會選擇更高效的NoThinking模式;對于那些NoThinking模式表現(xiàn)明顯較差的問題,模型會優(yōu)先考慮性能而選擇Thinking模式。
這就像一個聰明的學生,對于自己有把握直接得出答案的題目就不浪費時間寫步驟,而對于復雜的題目則謹慎地進行詳細推導。
四、實驗結果:更快、更準的AI推理模型
AdaptThink算法到底有多有效?研究團隊在多個數(shù)學數(shù)據(jù)集上進行了廣泛實驗,結果令人印象深刻。
他們選擇了DeepSeek-R1-Distill-Qwen-1.5B和DeepSeek-R1-Distill-Qwen-7B這兩個流行的推理模型作為測試對象,并在三個難度遞增的數(shù)學數(shù)據(jù)集上評估了模型表現(xiàn):GSM8K(小學數(shù)學問題)、MATH500(高中競賽數(shù)學問題)和AIME2024(奧賽級數(shù)學問題)。
實驗結果簡直像魔法一樣!以DeepSeek-R1-Distill-Qwen-1.5B模型為例,經(jīng)過AdaptThink訓練后,模型在GSM8K、MATH500和AIME2024上的平均響應長度分別減少了50.9%、63.5%和44.7%,而準確率居然還分別提高了4.1%、1.4%和1.6%!
這就像訓練出了一個既能更快解題,又更容易得出正確答案的學生。平均來看,響應長度減少了53%(意味著計算資源和時間節(jié)省了一半以上),準確率還提高了2.4%。對于DeepSeek-R1-Distill-Qwen-7B模型,效果也同樣顯著,平均響應長度減少了40.1%,準確率提高了2.3%。
更令人驚訝的是,AdaptThink不僅僅是單純地減少了模型響應長度,它真的教會了模型根據(jù)問題難度自適應地選擇思考模式。數(shù)據(jù)顯示,在簡單的GSM8K數(shù)據(jù)集上,模型選擇NoThinking模式的比例高達86.9%(對于1.5B模型)和99.6%(對于7B模型);而在最困難的AIME2024數(shù)據(jù)集上,這一比例下降到了40.4%和6.3%,說明模型確實學會了"困難問題需要思考"的道理。
在MATH500數(shù)據(jù)集的不同難度級別上,模型的選擇更加明顯:對于最簡單的Level 1問題,7B模型選擇NoThinking的比例高達97.7%;而對于最難的Level 5問題,這一比例降至50.7%。這種自適應選擇使得模型在各個難度級別上都能保持較高準確率,有時甚至超過原始的Thinking和NoThinking模式。
研究團隊還比較了AdaptThink與多種現(xiàn)有效率優(yōu)化方法的表現(xiàn),如DPOShortest、OverThink、DAST、O1-Pruner等。結果表明,AdaptThink在平均準確率提升和響應長度減少方面均優(yōu)于這些基線方法,證明了自適應思考模式選擇是一種有前途的提高推理效率的新范式。
五、AdaptThink的更多分析與應用場景
AdaptThink算法中有一個重要參數(shù)δ,它控制著模型選擇NoThinking模式的傾向性。研究團隊對不同δ值進行了實驗,發(fā)現(xiàn)隨著δ增加,模型選擇NoThinking的比例逐漸上升,響應長度相應減少,但準確率提升也逐漸降低。
這就像調(diào)整學生的解題策略:較高的δ值相當于鼓勵學生更多地嘗試心算而不寫步驟,這確實能提高解題速度,但可能會導致某些題目的正確率下降。有趣的是,即使δ=0(不特別鼓勵NoThinking),模型仍然會在超過一半的GSM8K和MATH500問題上選擇NoThinking模式,這說明對于簡單問題,直接給答案可能本身就比詳細推導更有優(yōu)勢。
研究團隊還驗證了重要性采樣策略的效果。如果不使用這種策略,而是直接從模型采樣,那么模型將永遠無法嘗試NoThinking模式,就像一個從未嘗試過心算的學生可能永遠不會主動放棄寫詳細步驟一樣。
另外,研究人員也探討了一個潛在問題:經(jīng)過AdaptThink訓練的模型在選擇NoThinking模式時,是否會在答案中潛入"隱式思考"(即不使用標簽但仍包含推理過程)?分析表明,AdaptThink產(chǎn)生的NoThinking響應中隱式思考的比例并不高,這意味著模型確實學會了直接給出簡潔答案而不是變相地加入思考過程。
更令人驚喜的是,AdaptThink的泛化能力也很強。研究人員在完全不同于訓練數(shù)據(jù)的MMLU測試集(包含多種學科的多選題)上評估了模型表現(xiàn)。結果顯示,即使在這種全新場景中,AdaptThink模型也能減少30%以上的響應長度,同時保持或提高準確率,這證明了該方法的廣泛適用性。
六、AdaptThink如何改變AI推理的未來
AdaptThink研究為AI推理模型帶來了一種全新的思路:不是對所有問題都進行一樣的處理,而是像人類一樣,根據(jù)問題難度自適應地選擇最合適的思考模式。這種方法在提高效率的同時還能提升性能,堪稱一舉兩得。
想象未來的AI助手使用了AdaptThink技術:當你問"今天北京的天氣如何?"這樣的簡單問題時,它會直接給你準確答案,不會浪費時間和資源進行冗長的推理;而當你問"如何證明費馬大定理?"這樣的復雜問題時,它會切換到深度思考模式,展示詳細的推導過程。這種智能切換不僅提升了用戶體驗,也大大節(jié)省了計算資源。
從技術角度看,AdaptThink開創(chuàng)了AI推理效率優(yōu)化的新方向。過去的方法主要關注如何減少Thinking模式下的響應長度,而AdaptThink則從根本上問了一個更深層次的問題:是否所有問題都需要思考?這種"元認知"能力(知道自己何時需要思考)是人類智能的重要特征,讓AI模型具備這種能力是邁向更智能系統(tǒng)的關鍵一步。
雖然當前的AdaptThink算法已經(jīng)取得了顯著成果,但研究還有進一步擴展的空間。例如,除了二元的Thinking/NoThinking選擇外,未來可能發(fā)展出更多樣化的思考模式,適應不同類型和難度的問題;也可以將這種自適應思考能力擴展到更多領域,如自然語言推理、程序合成等。
七、總結與展望
清華大學研究團隊開發(fā)的AdaptThink算法,成功地教會了推理模型根據(jù)問題難度自動選擇最佳思考模式,實現(xiàn)了推理效率和性能的雙重提升。這項研究不僅在技術上取得了突破,也為我們提供了一個關于AI認知能力的深刻啟示:真正的智能不僅在于能夠思考,還在于知道何時需要思考,何時可以直接給出答案。
通過在多個數(shù)學數(shù)據(jù)集上的實驗,AdaptThink證明了自適應思考模式選擇是一種有效的推理優(yōu)化方法,能夠在減少53%響應長度的同時提高2.4%的準確率。這種顯著的效率提升和性能增強使得AdaptThink有望成為未來AI推理系統(tǒng)的標準配置。
從更廣泛的角度看,AdaptThink代表了AI向更加人類化思維方式邁進的一步。就像人類會根據(jù)問題難度靈活調(diào)整思考策略一樣,具備AdaptThink能力的AI也能做到這一點,這使得人工智能系統(tǒng)更加高效、實用,也更符合人類的交互期望。
隨著這項技術的發(fā)展和應用,我們可以期待未來的AI助手將更加智能地處理各種問題,無論是日常詢問還是復雜推理,都能以最適合的方式給出回應。對普通用戶來說,這意味著AI服務將變得更快、更準確、更節(jié)省資源,最終帶來更好的用戶體驗。
如果你對AdaptThink的技術細節(jié)感興趣,可以訪問GitHub(https://github.com/THU-KEG/AdaptThink)查看開源代碼和模型,或閱讀完整論文(arXiv:2505.13417v1)了解更多信息。
好文章,需要你的鼓勵
新加坡國立大學研究團隊開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實驗顯示,僅訓練AI玩簡單撲克游戲就能讓其數(shù)學推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學題目作為訓練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉移到數(shù)學解題中,為AI訓練提供了新思路。
同濟大學團隊開發(fā)的GIGA-ToF技術通過融合多幀圖像的"圖結構"信息,創(chuàng)新性地解決了3D相機噪聲問題。該技術利用圖像間的不變幾何關系,結合深度學習和數(shù)學優(yōu)化方法,在合成數(shù)據(jù)集上實現(xiàn)37.9%的精度提升,并在真實設備上展現(xiàn)出色泛化能力,為機器人、AR和自動駕駛等領域提供更可靠的3D視覺解決方案。
伊利諾伊大學研究團隊通過對比實驗發(fā)現(xiàn),經(jīng)過強化學習訓練的視覺語言模型雖然表現(xiàn)出"頓悟時刻"現(xiàn)象,但這些自我糾錯行為并不能實際提升推理準確率。研究揭示了AI模型存在"生成-驗證差距",即生成答案的能力強于驗證答案質量的能力,且模型在自我驗證時無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機構聯(lián)合提出SparseLoRA技術,通過動態(tài)稀疏性實現(xiàn)大語言模型訓練加速1.6倍,計算成本降低2.2倍。該方法使用SVD稀疏性估計器智能選擇重要計算部分,在保持模型性能的同時顯著提升訓練效率,已在多個任務上驗證有效性。