av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁(yè) AdaptThink:教會(huì)推理模型如何靈活選擇思考方式

AdaptThink:教會(huì)推理模型如何靈活選擇思考方式

2025-05-22 13:58
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-22 13:58 ? 科技行者

日常生活中,我們解決問題的方式各不相同。面對(duì)簡(jiǎn)單的計(jì)算如2+3,大多數(shù)人可以直接得出答案;而解決復(fù)雜的數(shù)學(xué)證明題時(shí),我們往往需要深入思考,推導(dǎo)多個(gè)步驟才能得到結(jié)果。人工智能領(lǐng)域的大型推理模型(如OpenAI的o1和DeepSeek的R1系列)也是如此——它們通過(guò)一種叫做"思考"(Thinking)的過(guò)程來(lái)解決復(fù)雜問題,就像人類一樣先進(jìn)行長(zhǎng)篇推理,然后才給出最終答案。

來(lái)自清華大學(xué)的研究團(tuán)隊(duì)(包括張嘉杰、林念一、侯磊、馮玲和李娟子)在2025年5月發(fā)布了一項(xiàng)名為"AdaptThink"的研究,探討了一個(gè)有趣的問題:大型推理模型是否需要對(duì)每個(gè)問題都進(jìn)行冗長(zhǎng)的思考?他們的研究成果發(fā)表在arXiv預(yù)印本平臺(tái)(arXiv:2505.13417v1),并在GitHub(https://github.com/THU-KEG/AdaptThink)上開源了代碼和模型。

想象一下圖書館里的兩種學(xué)習(xí)者:一位是面對(duì)每道題都寫滿草稿紙的細(xì)致型學(xué)生,另一位則能夠根據(jù)題目難度靈活調(diào)整——簡(jiǎn)單題直接寫答案,復(fù)雜題才詳細(xì)推導(dǎo)。AdaptThink正是教會(huì)AI模型成為后者,讓它學(xué)會(huì)"什么時(shí)候該思考,什么時(shí)候可以直接給答案"。

研究團(tuán)隊(duì)首先發(fā)現(xiàn),當(dāng)推理模型面對(duì)相對(duì)簡(jiǎn)單的問題時(shí),跳過(guò)思考過(guò)程直接給出答案(稱為"NoThinking"模式)不僅能大幅提高效率,有時(shí)候準(zhǔn)確率反而更高。基于這一發(fā)現(xiàn),他們開發(fā)了AdaptThink算法,通過(guò)強(qiáng)化學(xué)習(xí)(RL)技術(shù)教會(huì)模型根據(jù)問題難度自動(dòng)選擇最合適的思考模式。

實(shí)驗(yàn)結(jié)果令人振奮:經(jīng)過(guò)AdaptThink訓(xùn)練的模型在三個(gè)數(shù)學(xué)數(shù)據(jù)集上,不僅將平均響應(yīng)長(zhǎng)度減少了53%(意味著處理速度大大提升),準(zhǔn)確率還提高了2.4%。這就像教會(huì)學(xué)生不僅解題更快,而且答得更準(zhǔn)確!

為什么這項(xiàng)研究如此重要?想象一下,當(dāng)你問AI助手一個(gè)簡(jiǎn)單問題時(shí),它不再長(zhǎng)篇大論地解釋一個(gè)顯而易見的答案,而是像人類一樣,對(duì)簡(jiǎn)單問題直截了當(dāng),對(duì)復(fù)雜問題才深入分析。這不僅提升了用戶體驗(yàn),也大大節(jié)省了計(jì)算資源和響應(yīng)時(shí)間。接下來(lái),讓我們深入了解這項(xiàng)研究的細(xì)節(jié),看看研究團(tuán)隊(duì)是如何實(shí)現(xiàn)這一智能思考轉(zhuǎn)換的。

一、研究背景:AI推理模型的思考困境

現(xiàn)代大型推理模型,例如OpenAI的o1和DeepSeek的R1系列,具有令人印象深刻的推理能力。但你有沒有注意到,當(dāng)你向這些模型提問時(shí),它們總是會(huì)生成大量的"思考"文本?這些模型就像一個(gè)總是把所有解題過(guò)程寫下來(lái)的學(xué)生,即使是回答"1+1=?"這樣的簡(jiǎn)單問題也要詳細(xì)分析。

研究團(tuán)隊(duì)指出,這種長(zhǎng)篇思考過(guò)程雖然增強(qiáng)了模型的推理能力,但也帶來(lái)了一個(gè)明顯的問題:效率低下。想象一下,如果你問AI一個(gè)簡(jiǎn)單問題,希望得到快速回答,但AI卻給你生成了一大段不必要的詳細(xì)分析,用戶體驗(yàn)會(huì)變得很差。

目前解決這個(gè)問題的主流方法主要集中在減少模型響應(yīng)的長(zhǎng)度上,比如通過(guò)強(qiáng)化學(xué)習(xí)中加入基于長(zhǎng)度的獎(jiǎng)勵(lì),或者對(duì)長(zhǎng)響應(yīng)進(jìn)行懲罰。然而,這些方法仍然堅(jiān)持對(duì)所有問題都應(yīng)用思考過(guò)程,無(wú)論問題本身是否真的需要思考。

研究人員指出,實(shí)際上有一種被稱為"NoThinking"的方法(由Ma等人在2025年提出),允許推理模型跳過(guò)思考過(guò)程,直接生成最終解決方案。他們對(duì)這種方法進(jìn)行了簡(jiǎn)化,只需在提示中添加一個(gè)空的思考段(即""),就能讓模型直接給出答案。

研究團(tuán)隊(duì)的重要發(fā)現(xiàn)是:對(duì)于相對(duì)簡(jiǎn)單的問題(高中競(jìng)賽水平及以下),NoThinking模式不僅能達(dá)到與Thinking模式相當(dāng)或更好的性能,還能顯著減少計(jì)算開銷;只有當(dāng)問題難度足夠高時(shí),Thinking模式的優(yōu)勢(shì)才會(huì)變得明顯。

這就像我們解決日常問題一樣:簡(jiǎn)單的加減法可以直接心算,而復(fù)雜的數(shù)學(xué)證明則需要一步步推導(dǎo)。那么,能否教會(huì)AI模型也具備這種靈活選擇思考方式的能力呢?這就是AdaptThink算法要解決的核心問題。

二、NoThinking與Thinking:何時(shí)直接給答案,何時(shí)深入思考?

在深入了解AdaptThink算法之前,我們先來(lái)看看研究團(tuán)隊(duì)進(jìn)行的一項(xiàng)有趣初步研究。他們以MATH500數(shù)據(jù)集(一個(gè)包含不同難度數(shù)學(xué)問題的測(cè)試集)為例,比較了推理模型在使用Thinking模式和NoThinking模式時(shí)的表現(xiàn)。

想象一下學(xué)校里的數(shù)學(xué)測(cè)試:有些題目非常基礎(chǔ)(Level 1),而有些則極其困難(Level 5)。研究人員發(fā)現(xiàn),在最簡(jiǎn)單的Level 1問題上,NoThinking模式(直接給答案)的準(zhǔn)確率達(dá)到94.9%,實(shí)際上比使用Thinking模式(長(zhǎng)篇推理)的94.6%還要高一點(diǎn)點(diǎn)!同時(shí),NoThinking模式的平均響應(yīng)長(zhǎng)度只有300個(gè)詞,而Thinking模式則需要2033個(gè)詞,這意味著效率提高了近7倍!

隨著問題難度的增加,兩種模式的性能差距逐漸顯現(xiàn)。在最難的Level 5問題上,Thinking模式的準(zhǔn)確率為57.6%,而NoThinking模式則下降到50%。這說(shuō)明對(duì)于復(fù)雜問題,深入思考確實(shí)是必要的。

有趣的是,即使在較難的級(jí)別(如Level 4),仍有近一半(49.2%)的問題使用NoThinking模式就能正確解答。這就像數(shù)學(xué)天才有時(shí)不需要寫出所有步驟就能解決看似復(fù)雜的問題。

這項(xiàng)發(fā)現(xiàn)帶來(lái)了一個(gè)重要啟示:如果能讓模型根據(jù)問題難度自動(dòng)選擇思考模式,就可以在保持準(zhǔn)確率的同時(shí)大大提高效率。這正是AdaptThink算法的核心理念——教會(huì)模型"知道何時(shí)需要思考,何時(shí)可以直接給答案"。

研究團(tuán)隊(duì)據(jù)此提出了一個(gè)關(guān)鍵問題:能否讓推理模型學(xué)會(huì)根據(jù)輸入問題的難度自動(dòng)選擇Thinking或NoThinking模式,從而實(shí)現(xiàn)更高效的推理,同時(shí)不犧牲甚至還能提高性能?

三、AdaptThink算法:教會(huì)AI靈活思考的技術(shù)方案

AdaptThink算法的目標(biāo)很清晰:讓AI模型學(xué)會(huì)何時(shí)該深入思考,何時(shí)可以直接給答案。這就像教一個(gè)學(xué)生判斷題目難度并選擇合適的解題策略。不過(guò),要實(shí)現(xiàn)這一目標(biāo),研究團(tuán)隊(duì)面臨兩個(gè)主要挑戰(zhàn):

第一個(gè)挑戰(zhàn)是如何鼓勵(lì)模型選擇更高效的NoThinking模式,同時(shí)又不損害整體性能。想象一個(gè)學(xué)生總是傾向于寫詳細(xì)步驟(因?yàn)檫@是他習(xí)慣的方式),如何讓他在保證答案正確的前提下,對(duì)簡(jiǎn)單題嘗試直接寫答案?

第二個(gè)挑戰(zhàn)是"冷啟動(dòng)"問題。原始推理模型已經(jīng)習(xí)慣了對(duì)所有問題都進(jìn)行思考,如果一開始就讓它嘗試NoThinking模式,它可能完全不知道如何操作,就像要求一個(gè)從未嘗試過(guò)心算的學(xué)生突然放棄草稿紙一樣困難。

為了解決這些挑戰(zhàn),AdaptThink算法設(shè)計(jì)了兩個(gè)核心組件:

第一個(gè)組件是約束優(yōu)化目標(biāo)。這個(gè)目標(biāo)函數(shù)鼓勵(lì)模型盡可能選擇NoThinking模式(因?yàn)樾矢撸幸粋€(gè)重要前提:整體性能不能下降。用數(shù)學(xué)語(yǔ)言表達(dá),就是在最大化選擇NoThinking的概率的同時(shí),確保新模型的平均準(zhǔn)確率不低于原始模型。

這就像給學(xué)生設(shè)立一個(gè)明確目標(biāo):盡量減少解題時(shí)間,但前提是正確率不能下降。如果學(xué)生發(fā)現(xiàn)某類題目直接寫答案會(huì)導(dǎo)致錯(cuò)誤率上升,那么他應(yīng)該繼續(xù)使用詳細(xì)推導(dǎo)。

第二個(gè)組件是重要性采樣策略。在訓(xùn)練過(guò)程中,AdaptThink算法不是直接從模型采樣(這樣一開始幾乎不可能得到NoThinking的樣本),而是人為設(shè)置一個(gè)新的分布,使得一半樣本是Thinking模式,另一半是NoThinking模式。

這就像強(qiáng)制學(xué)生練習(xí)兩種解題方式:一半題目要求寫詳細(xì)步驟,一半題目要求直接給答案。通過(guò)這種"強(qiáng)制平衡"的訓(xùn)練,學(xué)生逐漸學(xué)會(huì)了在兩種模式間自由切換,并根據(jù)題目難度選擇最合適的方式。

從另一個(gè)角度理解,AdaptThink算法計(jì)算了Thinking和NoThinking模式的平均"優(yōu)勢(shì)",并根據(jù)這個(gè)優(yōu)勢(shì)做出選擇。只有當(dāng)NoThinking模式的準(zhǔn)確率與Thinking模式的差距小于設(shè)定閾值時(shí),模型才會(huì)選擇更高效的NoThinking模式;對(duì)于那些NoThinking模式表現(xiàn)明顯較差的問題,模型會(huì)優(yōu)先考慮性能而選擇Thinking模式。

這就像一個(gè)聰明的學(xué)生,對(duì)于自己有把握直接得出答案的題目就不浪費(fèi)時(shí)間寫步驟,而對(duì)于復(fù)雜的題目則謹(jǐn)慎地進(jìn)行詳細(xì)推導(dǎo)。

四、實(shí)驗(yàn)結(jié)果:更快、更準(zhǔn)的AI推理模型

AdaptThink算法到底有多有效?研究團(tuán)隊(duì)在多個(gè)數(shù)學(xué)數(shù)據(jù)集上進(jìn)行了廣泛實(shí)驗(yàn),結(jié)果令人印象深刻。

他們選擇了DeepSeek-R1-Distill-Qwen-1.5B和DeepSeek-R1-Distill-Qwen-7B這兩個(gè)流行的推理模型作為測(cè)試對(duì)象,并在三個(gè)難度遞增的數(shù)學(xué)數(shù)據(jù)集上評(píng)估了模型表現(xiàn):GSM8K(小學(xué)數(shù)學(xué)問題)、MATH500(高中競(jìng)賽數(shù)學(xué)問題)和AIME2024(奧賽級(jí)數(shù)學(xué)問題)。

實(shí)驗(yàn)結(jié)果簡(jiǎn)直像魔法一樣!以DeepSeek-R1-Distill-Qwen-1.5B模型為例,經(jīng)過(guò)AdaptThink訓(xùn)練后,模型在GSM8K、MATH500和AIME2024上的平均響應(yīng)長(zhǎng)度分別減少了50.9%、63.5%和44.7%,而準(zhǔn)確率居然還分別提高了4.1%、1.4%和1.6%!

這就像訓(xùn)練出了一個(gè)既能更快解題,又更容易得出正確答案的學(xué)生。平均來(lái)看,響應(yīng)長(zhǎng)度減少了53%(意味著計(jì)算資源和時(shí)間節(jié)省了一半以上),準(zhǔn)確率還提高了2.4%。對(duì)于DeepSeek-R1-Distill-Qwen-7B模型,效果也同樣顯著,平均響應(yīng)長(zhǎng)度減少了40.1%,準(zhǔn)確率提高了2.3%。

更令人驚訝的是,AdaptThink不僅僅是單純地減少了模型響應(yīng)長(zhǎng)度,它真的教會(huì)了模型根據(jù)問題難度自適應(yīng)地選擇思考模式。數(shù)據(jù)顯示,在簡(jiǎn)單的GSM8K數(shù)據(jù)集上,模型選擇NoThinking模式的比例高達(dá)86.9%(對(duì)于1.5B模型)和99.6%(對(duì)于7B模型);而在最困難的AIME2024數(shù)據(jù)集上,這一比例下降到了40.4%和6.3%,說(shuō)明模型確實(shí)學(xué)會(huì)了"困難問題需要思考"的道理。

在MATH500數(shù)據(jù)集的不同難度級(jí)別上,模型的選擇更加明顯:對(duì)于最簡(jiǎn)單的Level 1問題,7B模型選擇NoThinking的比例高達(dá)97.7%;而對(duì)于最難的Level 5問題,這一比例降至50.7%。這種自適應(yīng)選擇使得模型在各個(gè)難度級(jí)別上都能保持較高準(zhǔn)確率,有時(shí)甚至超過(guò)原始的Thinking和NoThinking模式。

研究團(tuán)隊(duì)還比較了AdaptThink與多種現(xiàn)有效率優(yōu)化方法的表現(xiàn),如DPOShortest、OverThink、DAST、O1-Pruner等。結(jié)果表明,AdaptThink在平均準(zhǔn)確率提升和響應(yīng)長(zhǎng)度減少方面均優(yōu)于這些基線方法,證明了自適應(yīng)思考模式選擇是一種有前途的提高推理效率的新范式。

五、AdaptThink的更多分析與應(yīng)用場(chǎng)景

AdaptThink算法中有一個(gè)重要參數(shù)δ,它控制著模型選擇NoThinking模式的傾向性。研究團(tuán)隊(duì)對(duì)不同δ值進(jìn)行了實(shí)驗(yàn),發(fā)現(xiàn)隨著δ增加,模型選擇NoThinking的比例逐漸上升,響應(yīng)長(zhǎng)度相應(yīng)減少,但準(zhǔn)確率提升也逐漸降低。

這就像調(diào)整學(xué)生的解題策略:較高的δ值相當(dāng)于鼓勵(lì)學(xué)生更多地嘗試心算而不寫步驟,這確實(shí)能提高解題速度,但可能會(huì)導(dǎo)致某些題目的正確率下降。有趣的是,即使δ=0(不特別鼓勵(lì)NoThinking),模型仍然會(huì)在超過(guò)一半的GSM8K和MATH500問題上選擇NoThinking模式,這說(shuō)明對(duì)于簡(jiǎn)單問題,直接給答案可能本身就比詳細(xì)推導(dǎo)更有優(yōu)勢(shì)。

研究團(tuán)隊(duì)還驗(yàn)證了重要性采樣策略的效果。如果不使用這種策略,而是直接從模型采樣,那么模型將永遠(yuǎn)無(wú)法嘗試NoThinking模式,就像一個(gè)從未嘗試過(guò)心算的學(xué)生可能永遠(yuǎn)不會(huì)主動(dòng)放棄寫詳細(xì)步驟一樣。

另外,研究人員也探討了一個(gè)潛在問題:經(jīng)過(guò)AdaptThink訓(xùn)練的模型在選擇NoThinking模式時(shí),是否會(huì)在答案中潛入"隱式思考"(即不使用標(biāo)簽但仍包含推理過(guò)程)?分析表明,AdaptThink產(chǎn)生的NoThinking響應(yīng)中隱式思考的比例并不高,這意味著模型確實(shí)學(xué)會(huì)了直接給出簡(jiǎn)潔答案而不是變相地加入思考過(guò)程。

更令人驚喜的是,AdaptThink的泛化能力也很強(qiáng)。研究人員在完全不同于訓(xùn)練數(shù)據(jù)的MMLU測(cè)試集(包含多種學(xué)科的多選題)上評(píng)估了模型表現(xiàn)。結(jié)果顯示,即使在這種全新場(chǎng)景中,AdaptThink模型也能減少30%以上的響應(yīng)長(zhǎng)度,同時(shí)保持或提高準(zhǔn)確率,這證明了該方法的廣泛適用性。

六、AdaptThink如何改變AI推理的未來(lái)

AdaptThink研究為AI推理模型帶來(lái)了一種全新的思路:不是對(duì)所有問題都進(jìn)行一樣的處理,而是像人類一樣,根據(jù)問題難度自適應(yīng)地選擇最合適的思考模式。這種方法在提高效率的同時(shí)還能提升性能,堪稱一舉兩得。

想象未來(lái)的AI助手使用了AdaptThink技術(shù):當(dāng)你問"今天北京的天氣如何?"這樣的簡(jiǎn)單問題時(shí),它會(huì)直接給你準(zhǔn)確答案,不會(huì)浪費(fèi)時(shí)間和資源進(jìn)行冗長(zhǎng)的推理;而當(dāng)你問"如何證明費(fèi)馬大定理?"這樣的復(fù)雜問題時(shí),它會(huì)切換到深度思考模式,展示詳細(xì)的推導(dǎo)過(guò)程。這種智能切換不僅提升了用戶體驗(yàn),也大大節(jié)省了計(jì)算資源。

從技術(shù)角度看,AdaptThink開創(chuàng)了AI推理效率優(yōu)化的新方向。過(guò)去的方法主要關(guān)注如何減少Thinking模式下的響應(yīng)長(zhǎng)度,而AdaptThink則從根本上問了一個(gè)更深層次的問題:是否所有問題都需要思考?這種"元認(rèn)知"能力(知道自己何時(shí)需要思考)是人類智能的重要特征,讓AI模型具備這種能力是邁向更智能系統(tǒng)的關(guān)鍵一步。

雖然當(dāng)前的AdaptThink算法已經(jīng)取得了顯著成果,但研究還有進(jìn)一步擴(kuò)展的空間。例如,除了二元的Thinking/NoThinking選擇外,未來(lái)可能發(fā)展出更多樣化的思考模式,適應(yīng)不同類型和難度的問題;也可以將這種自適應(yīng)思考能力擴(kuò)展到更多領(lǐng)域,如自然語(yǔ)言推理、程序合成等。

七、總結(jié)與展望

清華大學(xué)研究團(tuán)隊(duì)開發(fā)的AdaptThink算法,成功地教會(huì)了推理模型根據(jù)問題難度自動(dòng)選擇最佳思考模式,實(shí)現(xiàn)了推理效率和性能的雙重提升。這項(xiàng)研究不僅在技術(shù)上取得了突破,也為我們提供了一個(gè)關(guān)于AI認(rèn)知能力的深刻啟示:真正的智能不僅在于能夠思考,還在于知道何時(shí)需要思考,何時(shí)可以直接給出答案。

通過(guò)在多個(gè)數(shù)學(xué)數(shù)據(jù)集上的實(shí)驗(yàn),AdaptThink證明了自適應(yīng)思考模式選擇是一種有效的推理優(yōu)化方法,能夠在減少53%響應(yīng)長(zhǎng)度的同時(shí)提高2.4%的準(zhǔn)確率。這種顯著的效率提升和性能增強(qiáng)使得AdaptThink有望成為未來(lái)AI推理系統(tǒng)的標(biāo)準(zhǔn)配置。

從更廣泛的角度看,AdaptThink代表了AI向更加人類化思維方式邁進(jìn)的一步。就像人類會(huì)根據(jù)問題難度靈活調(diào)整思考策略一樣,具備AdaptThink能力的AI也能做到這一點(diǎn),這使得人工智能系統(tǒng)更加高效、實(shí)用,也更符合人類的交互期望。

隨著這項(xiàng)技術(shù)的發(fā)展和應(yīng)用,我們可以期待未來(lái)的AI助手將更加智能地處理各種問題,無(wú)論是日常詢問還是復(fù)雜推理,都能以最適合的方式給出回應(yīng)。對(duì)普通用戶來(lái)說(shuō),這意味著AI服務(wù)將變得更快、更準(zhǔn)確、更節(jié)省資源,最終帶來(lái)更好的用戶體驗(yàn)。

如果你對(duì)AdaptThink的技術(shù)細(xì)節(jié)感興趣,可以訪問GitHub(https://github.com/THU-KEG/AdaptThink)查看開源代碼和模型,或閱讀完整論文(arXiv:2505.13417v1)了解更多信息。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-