av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁(yè) 自適應(yīng)思維模式切換:南京大學(xué)研究團(tuán)隊(duì)提出進(jìn)程級(jí)思維模式動(dòng)態(tài)調(diào)整方法,讓AI更"聰明"也更"高效"

自適應(yīng)思維模式切換:南京大學(xué)研究團(tuán)隊(duì)提出進(jìn)程級(jí)思維模式動(dòng)態(tài)調(diào)整方法,讓AI更"聰明"也更"高效"

2025-05-30 10:04
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-30 10:04 ? 科技行者

南京大學(xué)軟件新技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室的研究團(tuán)隊(duì),包括Yi Wang、Junxiao Liu、Shimao Zhang、Jiajun Chen和通訊作者Shujian Huang,于2025年5月在arXiv上發(fā)表了一篇題為《PATS: Process-Level Adaptive Thinking Mode Switching》的研究論文(arXiv:2505.19250v1)。這項(xiàng)研究提出了一種全新的推理范式,能夠讓大型語(yǔ)言模型根據(jù)每一步推理的難度動(dòng)態(tài)調(diào)整思維模式,從而在準(zhǔn)確性和效率之間取得更好的平衡。

想象一下,當(dāng)你解決問題時(shí),有些簡(jiǎn)單問題你可以快速思考就得出答案,而復(fù)雜問題則需要你慢慢分析、逐步推理。人類天生就具備這種能力,可以根據(jù)問題的難度靈活切換思考方式。但目前的大型語(yǔ)言模型(LLM)卻往往采用固定的推理策略,無(wú)論問題簡(jiǎn)單還是復(fù)雜,都使用同一種方法去解決。這就像是無(wú)論修理簡(jiǎn)單的燈泡還是復(fù)雜的電路,都拿出全套工具箱一樣——對(duì)簡(jiǎn)單問題而言太過浪費(fèi),對(duì)復(fù)雜問題又可能不夠充分。

南京大學(xué)的研究團(tuán)隊(duì)注意到了這個(gè)問題,他們提出了"進(jìn)程級(jí)自適應(yīng)思維模式切換"(Process-Level Adaptive Thinking Mode Switching,簡(jiǎn)稱PATS)方法。這個(gè)方法的核心思想是,在推理過程中,根據(jù)每一步的難度來(lái)動(dòng)態(tài)調(diào)整思考策略,就像人類在解決問題時(shí)那樣靈活。

當(dāng)模型面對(duì)一個(gè)數(shù)學(xué)問題時(shí),它會(huì)先使用復(fù)雜的思維模式開始解答。如果發(fā)現(xiàn)當(dāng)前步驟比較容易(通過一個(gè)叫做過程獎(jiǎng)勵(lì)模型的評(píng)分機(jī)制判斷),它就會(huì)在下一步切換到更簡(jiǎn)單的思維模式,節(jié)省計(jì)算資源;如果發(fā)現(xiàn)當(dāng)前步驟的解答質(zhì)量不佳,它會(huì)立即切換回復(fù)雜模式,或者重新思考這一步。這就像是一個(gè)聰明的學(xué)生,對(duì)簡(jiǎn)單的計(jì)算題用心算,遇到復(fù)雜問題才拿出計(jì)算器一樣。

研究團(tuán)隊(duì)在多個(gè)數(shù)學(xué)推理基準(zhǔn)測(cè)試上進(jìn)行了實(shí)驗(yàn),結(jié)果表明,PATS方法能夠在保持高準(zhǔn)確率的同時(shí),顯著減少計(jì)算資源的使用。比如,與始終使用復(fù)雜思維模式相比,PATS的準(zhǔn)確率僅僅下降了0.3個(gè)百分點(diǎn),但計(jì)算資源的使用量卻減少了近45%。這就像是既能跑得快,又不會(huì)消耗太多體力的長(zhǎng)跑選手。

一、大型語(yǔ)言模型思維模式的困境

當(dāng)前的大型語(yǔ)言模型(LLM)在推理能力上取得了顯著進(jìn)步,從最初的"快速思考"(直接回答問題)到更復(fù)雜的"慢速思考"(如思維鏈推理、反思機(jī)制等)。這些進(jìn)步讓模型能夠處理更加復(fù)雜的問題,但也帶來(lái)了新的挑戰(zhàn)。

想象一下,你去參加考試,有些題目非常簡(jiǎn)單,有些則需要深思熟慮。如果你對(duì)每一道題目都花同樣多的時(shí)間和精力,那么你可能在簡(jiǎn)單題目上浪費(fèi)了太多時(shí)間,而復(fù)雜題目又因?yàn)闀r(shí)間不足而做不好。大型語(yǔ)言模型也面臨著類似的困境——它們通常采用固定的推理策略,無(wú)論問題的難度如何。

研究人員發(fā)現(xiàn),在數(shù)學(xué)推理任務(wù)中,計(jì)算密集型的子步驟對(duì)有限規(guī)模的監(jiān)督微調(diào)模型構(gòu)成了主要挑戰(zhàn)。例如,在解決一道復(fù)雜的數(shù)學(xué)題時(shí),某些步驟(如復(fù)雜的代數(shù)運(yùn)算)可能特別困難,需要更多的思考;而其他步驟(如簡(jiǎn)單的加減法)則相對(duì)容易。同樣地,在迷宮導(dǎo)航等任務(wù)中,不同子問題的難度也存在差異。

這些發(fā)現(xiàn)表明,推理過程中的難度是動(dòng)態(tài)變化的,需要相應(yīng)地動(dòng)態(tài)分配計(jì)算資源。固定的推理策略無(wú)法適應(yīng)這種變化,導(dǎo)致在簡(jiǎn)單問題上浪費(fèi)資源,在復(fù)雜問題上又表現(xiàn)不佳。

二、從系統(tǒng)切換到進(jìn)程級(jí)適應(yīng)

受到雙重處理理論的啟發(fā),人類可以靈活地在快速思考(系統(tǒng)1)和慢速思考(系統(tǒng)2)之間切換:前者快速高效,適合簡(jiǎn)單任務(wù);后者則慢而深思熟慮,適合復(fù)雜問題。這兩種認(rèn)知風(fēng)格與大型語(yǔ)言模型采用的不同推理策略高度吻合。

之前的研究已經(jīng)探索了在大型語(yǔ)言模型中實(shí)現(xiàn)系統(tǒng)1和系統(tǒng)2切換的機(jī)制,大致可分為基于訓(xùn)練和免訓(xùn)練方法。本研究關(guān)注的是免訓(xùn)練設(shè)置。目前的代表性工作HDFLOW采用了一種固定策略:先使用系統(tǒng)1生成初始解決方案,如果解決方案未通過評(píng)估,則激活更復(fù)雜的系統(tǒng)2重新考慮問題。

然而,這種方法存在明顯的局限性:它只在獲得完整解決方案后才決定是否切換思維策略,這過于粗糙,與當(dāng)前復(fù)雜問題分步推理的背景不符,也缺乏對(duì)推理過程中難度變化的適應(yīng)能力。

為了解決這些問題,南京大學(xué)的研究團(tuán)隊(duì)提出了"進(jìn)程級(jí)自適應(yīng)思維模式切換"(PATS),這是一種全新的推理范式,能夠在每一步推理中根據(jù)難度動(dòng)態(tài)選擇適當(dāng)?shù)乃季S模式,在準(zhǔn)確性和效率之間取得良好平衡。

三、PATS:細(xì)粒度的動(dòng)態(tài)思維模式切換

PATS方法建立在以下核心設(shè)計(jì)上:

首先,研究團(tuán)隊(duì)采用了基于過程獎(jiǎng)勵(lì)模型(PRM)引導(dǎo)的波束搜索框架。在這個(gè)框架中,模型在每一步生成多個(gè)候選步驟,然后使用PRM對(duì)這些候選步驟進(jìn)行評(píng)分,選擇得分最高的一個(gè)作為該步的最終選擇,然后繼續(xù)推理。

關(guān)鍵的創(chuàng)新點(diǎn)在于,研究團(tuán)隊(duì)將思維模式與每一步生成的候選步驟數(shù)量關(guān)聯(lián)起來(lái)。具體來(lái)說,他們定義了三種思維模式:

簡(jiǎn)單思維模式(Simple Thinking Mode):每步生成2個(gè)候選步驟,類似于直接回答風(fēng)格的推理,適合相對(duì)簡(jiǎn)單的問題。 中等思維模式(Medium Thinking Mode):每步生成4個(gè)候選步驟,反映了典型的思維鏈推理,適合中等難度的問題。 復(fù)雜思維模式(Complex Thinking Mode):每步生成8個(gè)候選步驟,反映了o1風(fēng)格的慢思考,更適合具有挑戰(zhàn)性的問題。

這就像是解題時(shí)的不同策略:簡(jiǎn)單模式相當(dāng)于快速心算,中等模式相當(dāng)于用筆和紙計(jì)算,復(fù)雜模式則相當(dāng)于使用計(jì)算器或電腦輔助計(jì)算。

在推理過程中,模型默認(rèn)從復(fù)雜思維模式開始。在每一步推理完成后,系統(tǒng)會(huì)根據(jù)當(dāng)前步驟的PRM得分(反映了推理質(zhì)量)來(lái)動(dòng)態(tài)調(diào)整下一步的思維模式:

如果當(dāng)前步驟的PRM得分很高(≥0.85),表明推理狀態(tài)良好,系統(tǒng)會(huì)逐漸過渡到更簡(jiǎn)單的思維模式,以節(jié)省計(jì)算資源。例如,如果當(dāng)前是復(fù)雜模式,下一步會(huì)切換到中等模式;如果當(dāng)前是中等模式,下一步會(huì)切換到簡(jiǎn)單模式。

如果當(dāng)前步驟的PRM得分較低(<0.75),表明推理狀態(tài)不佳,系統(tǒng)會(huì)立即切換到最復(fù)雜的思維模式,以避免錯(cuò)誤累積。

如果當(dāng)前步驟的PRM得分處于中間狀態(tài),系統(tǒng)會(huì)保持當(dāng)前的思維模式不變。

此外,系統(tǒng)還引入了對(duì)特別糟糕步驟的懲罰機(jī)制。如果某一步的PRM得分非常低(<0.4),系統(tǒng)會(huì)立即懲罰當(dāng)前步驟,并以復(fù)雜模式重新思考這一步,而不是等到下一步再調(diào)整。這就像學(xué)生做題時(shí)發(fā)現(xiàn)一個(gè)明顯錯(cuò)誤,立即擦除重做,而不是繼續(xù)往下做。為了避免在無(wú)法解決的步驟上陷入無(wú)限循環(huán),每個(gè)步驟最多只會(huì)被懲罰一次。

這種細(xì)粒度的控制使得模型能夠根據(jù)推理過程中的實(shí)際難度動(dòng)態(tài)調(diào)整思考策略,既保證了準(zhǔn)確性,又提高了效率。

四、實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析

為了驗(yàn)證PATS方法的有效性,研究團(tuán)隊(duì)在多個(gè)數(shù)學(xué)推理基準(zhǔn)測(cè)試上進(jìn)行了廣泛的實(shí)驗(yàn),包括GSM8k、MATH500、Minerva Math、AMC23和AIME24,這些測(cè)試涵蓋了從基礎(chǔ)到高級(jí)的各種數(shù)學(xué)推理難度。

實(shí)驗(yàn)使用了不同參數(shù)規(guī)模的Qwen2.5系列模型作為策略模型,主要實(shí)驗(yàn)采用Qwen2.5-7B-Instruct模型。過程獎(jiǎng)勵(lì)模型則選用了多種開源PRM,包括Math-Shepherd、Qwen2.5-Math-PRM-7B和Qwen2.5-Math-7B-PRM800K。

評(píng)估指標(biāo)包括兩個(gè)維度:準(zhǔn)確率(解答正確率)和效率(生成的輸出標(biāo)記數(shù)量)。

實(shí)驗(yàn)結(jié)果令人振奮。與固定思維模式的基線相比,PATS在準(zhǔn)確率和計(jì)算效率之間取得了出色的平衡:

平均而言,PATS的準(zhǔn)確率(61.3%)接近于始終使用復(fù)雜思維模式的設(shè)置(61.6%,僅低0.3個(gè)百分點(diǎn)),但標(biāo)記使用量?jī)H為后者的55.4%。 與始終使用中等思維模式的設(shè)置相比,PATS的準(zhǔn)確率高出近3個(gè)百分點(diǎn),而標(biāo)記使用量相當(dāng)。 與始終使用簡(jiǎn)單思維模式的設(shè)置相比,PATS的準(zhǔn)確率高出顯著的5.8個(gè)百分點(diǎn)。 這意味著,PATS能夠在保持高準(zhǔn)確率的同時(shí),顯著降低計(jì)算資源的使用,就像一個(gè)既聰明又高效的問題解決者。

更重要的是,PATS明顯優(yōu)于粗粒度的解決方案級(jí)切換方法。與后者相比,PATS的平均準(zhǔn)確率高出4.4個(gè)百分點(diǎn),同時(shí)標(biāo)記使用量還減少了約7%。這證明了進(jìn)程級(jí)的推理策略調(diào)整優(yōu)于粗粒度的解決方案級(jí)切換,強(qiáng)調(diào)了在整個(gè)推理過程中及時(shí)調(diào)整策略的重要性。

五、深入分析與泛化性驗(yàn)證

研究團(tuán)隊(duì)進(jìn)行了一系列深入分析,以更好地理解PATS的工作機(jī)制和適用性。

首先,他們研究了不同初始思維模式在不同難度任務(wù)上的表現(xiàn)。結(jié)果表明,將初始思維模式與任務(wù)難度對(duì)齊能夠有效平衡準(zhǔn)確率和計(jì)算效率。對(duì)于簡(jiǎn)單任務(wù),以簡(jiǎn)單模式開始能夠達(dá)到最低的標(biāo)記使用量和可比的準(zhǔn)確率;對(duì)于中等難度任務(wù),中等模式能夠達(dá)到最高的準(zhǔn)確率和適中的標(biāo)記使用量;對(duì)于困難任務(wù),復(fù)雜模式明顯優(yōu)于其他模式。

其次,研究團(tuán)隊(duì)比較了不同難度任務(wù)的推理行為。他們選取MATH500作為較簡(jiǎn)單任務(wù)的代表,AMC23作為較困難任務(wù)的代表,并將推理過程標(biāo)準(zhǔn)化為[0, 1]范圍,分為五個(gè)相等的階段。結(jié)果顯示,對(duì)于正確解決的問題,AMC23在推理中期到后期階段表現(xiàn)出更高比例的復(fù)雜思維模式,反映了更大的認(rèn)知努力,與AMC23問題的更高復(fù)雜性一致。這表明,更困難的任務(wù)需要更多的推理努力才能得到正確的解答,強(qiáng)調(diào)了根據(jù)推理難度動(dòng)態(tài)分配計(jì)算資源的必要性。

關(guān)于懲罰糟糕推理步驟的必要性和適度性,研究團(tuán)隊(duì)比較了三種策略:無(wú)懲罰(糟糕步驟不處理)、無(wú)限懲罰(在復(fù)雜模式下反復(fù)重新思考糟糕步驟,直到分?jǐn)?shù)超過閾值)和PATS(一次性懲罰方法)。結(jié)果表明,PATS取得了最佳平衡,在達(dá)到最高準(zhǔn)確率的同時(shí),比無(wú)限懲罰策略節(jié)省了大量標(biāo)記,與無(wú)懲罰策略相比標(biāo)記使用量相當(dāng)。這證明了懲罰次優(yōu)推理步驟對(duì)防止延遲糾正的重要性,同時(shí)也強(qiáng)調(diào)了對(duì)無(wú)法解決步驟避免過度重新思考的必要性。

最后,研究團(tuán)隊(duì)還驗(yàn)證了PATS在不同策略模型和過程獎(jiǎng)勵(lì)模型上的泛化能力。結(jié)果表明,無(wú)論是在不同參數(shù)規(guī)模的策略模型(Qwen2.5-1.5B-Instruct和Qwen2.5-3B-Instruct)上,還是在不同的過程獎(jiǎng)勵(lì)模型(Math-Shepherd和Qwen2.5-Math-7B-PRM800K)上,PATS都表現(xiàn)出強(qiáng)大的泛化能力。在所有情況下,PATS都始終在平均準(zhǔn)確率上優(yōu)于固定的簡(jiǎn)單和中等思維模式,同時(shí)保持接近中等模式的適中標(biāo)記使用量。值得注意的是,在Math-Shepherd設(shè)置中,PATS甚至在準(zhǔn)確率上超過了始終使用復(fù)雜思維模式的設(shè)置。

這些結(jié)果突顯了PATS自適應(yīng)范式在各種策略模型和過程獎(jiǎng)勵(lì)模型上的魯棒性,證明了它的廣泛適用性。

六、總結(jié)與啟示

南京大學(xué)研究團(tuán)隊(duì)提出的"進(jìn)程級(jí)自適應(yīng)思維模式切換"(PATS)方法為大型語(yǔ)言模型的推理過程提供了一種全新的范式。通過在推理過程中根據(jù)每一步的難度動(dòng)態(tài)調(diào)整思維模式,PATS能夠在準(zhǔn)確率和計(jì)算效率之間取得出色的平衡。

這項(xiàng)研究的重要性在于,它摒棄了"一刀切"的固定推理策略,轉(zhuǎn)而采用更加靈活、適應(yīng)性更強(qiáng)的方法,更接近人類的思考方式。就像人類在解決問題時(shí)會(huì)根據(jù)難度靈活調(diào)整思考深度一樣,PATS讓大型語(yǔ)言模型能夠"因地制宜"地分配計(jì)算資源,對(duì)簡(jiǎn)單步驟快速處理,對(duì)復(fù)雜步驟深入思考。

實(shí)驗(yàn)結(jié)果表明,這種方法不僅能夠保持高準(zhǔn)確率,還能顯著降低計(jì)算資源的使用,為大型語(yǔ)言模型的高效推理提供了新的思路。特別是在計(jì)算資源有限的場(chǎng)景下,這種方法的價(jià)值更加凸顯。

不過,研究團(tuán)隊(duì)也指出了一些局限性。由于計(jì)算資源的限制,他們的實(shí)驗(yàn)僅限于相對(duì)較小規(guī)模的策略模型(1.5B、3B和7B),尚未在更大規(guī)模的模型上驗(yàn)證。此外,他們的方法依賴于過程獎(jiǎng)勵(lì)模型作為關(guān)鍵評(píng)估組件,未來(lái)可以考慮融入其他評(píng)估方法,如LLM-as-Judge或生成式獎(jiǎng)勵(lì)模型,以擴(kuò)展實(shí)驗(yàn)的范圍。

這項(xiàng)研究為大型語(yǔ)言模型的推理過程提供了寶貴的見解,強(qiáng)調(diào)了基于過程級(jí)、難度感知的自適應(yīng)推理策略在平衡準(zhǔn)確率和效率方面的重要性。它不僅推動(dòng)了大型語(yǔ)言模型推理技術(shù)的發(fā)展,也為構(gòu)建更加智能、高效的人工智能系統(tǒng)提供了新的思路。

未來(lái),隨著研究的深入,我們可以期待看到更多基于這種思想的創(chuàng)新方法,使大型語(yǔ)言模型能夠更加靈活、高效地解決各種復(fù)雜問題,真正實(shí)現(xiàn)"既聰明又高效"的智能推理。

分享至
1贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-