av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<legend id="wugpz"><track id="wugpz"></track></legend>

微信掃一掃，關(guān)注公眾號

科技行者
算力行者

見證連接與計算的「力量」

自適應(yīng)思維模式切換：南京大學(xué)研究團隊提出進程級思維模式動態(tài)調(diào)整方法，讓AI更"聰明"也更"高效"

人工智能自適應(yīng)推理大型語言模型

自適應(yīng)思維模式切換：南京大學(xué)研究團隊提出進程級思維模式動態(tài)調(diào)整方法，讓AI更"聰明"也更"高效"

作者：科技行者

2025-05-30 10:04

分享至：

南京大學(xué)研究團隊提出了一種新型推理范式：進程級自適應(yīng)思維模式切換（PATS），能讓大型語言模型根據(jù)每步推理的難度動態(tài)調(diào)整思維策略。與傳統(tǒng)固定策略不同，PATS在波束搜索框架中通過控制候選步驟數(shù)量（2/4/8個）模擬不同復(fù)雜度的思維模式，并根據(jù)過程獎勵模型（PRM）評分動態(tài)切換。實驗表明，PATS在多個數(shù)學(xué)推理基準測試上實現(xiàn)了準確率與計算效率的優(yōu)化平衡，僅使用全復(fù)雜模式55.4%的計算資源就達到了相近的準確率，為大模型高效推理提供了新思路。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-05-30 10:04 ? 科技行者

南京大學(xué)軟件新技術(shù)國家重點實驗室的研究團隊，包括Yi Wang、Junxiao Liu、Shimao Zhang、Jiajun Chen和通訊作者Shujian Huang，于2025年5月在arXiv上發(fā)表了一篇題為《PATS: Process-Level Adaptive Thinking Mode Switching》的研究論文（arXiv:2505.19250v1）。這項研究提出了一種全新的推理范式，能夠讓大型語言模型根據(jù)每一步推理的難度動態(tài)調(diào)整思維模式，從而在準確性和效率之間取得更好的平衡。

想象一下，當你解決問題時，有些簡單問題你可以快速思考就得出答案，而復(fù)雜問題則需要你慢慢分析、逐步推理。人類天生就具備這種能力，可以根據(jù)問題的難度靈活切換思考方式。但目前的大型語言模型（LLM）卻往往采用固定的推理策略，無論問題簡單還是復(fù)雜，都使用同一種方法去解決。這就像是無論修理簡單的燈泡還是復(fù)雜的電路，都拿出全套工具箱一樣——對簡單問題而言太過浪費，對復(fù)雜問題又可能不夠充分。

南京大學(xué)的研究團隊注意到了這個問題，他們提出了"進程級自適應(yīng)思維模式切換"（Process-Level Adaptive Thinking Mode Switching，簡稱PATS）方法。這個方法的核心思想是，在推理過程中，根據(jù)每一步的難度來動態(tài)調(diào)整思考策略，就像人類在解決問題時那樣靈活。

當模型面對一個數(shù)學(xué)問題時，它會先使用復(fù)雜的思維模式開始解答。如果發(fā)現(xiàn)當前步驟比較容易（通過一個叫做過程獎勵模型的評分機制判斷），它就會在下一步切換到更簡單的思維模式，節(jié)省計算資源；如果發(fā)現(xiàn)當前步驟的解答質(zhì)量不佳，它會立即切換回復(fù)雜模式，或者重新思考這一步。這就像是一個聰明的學(xué)生，對簡單的計算題用心算，遇到復(fù)雜問題才拿出計算器一樣。

研究團隊在多個數(shù)學(xué)推理基準測試上進行了實驗，結(jié)果表明，PATS方法能夠在保持高準確率的同時，顯著減少計算資源的使用。比如，與始終使用復(fù)雜思維模式相比，PATS的準確率僅僅下降了0.3個百分點，但計算資源的使用量卻減少了近45%。這就像是既能跑得快，又不會消耗太多體力的長跑選手。

一、大型語言模型思維模式的困境

當前的大型語言模型（LLM）在推理能力上取得了顯著進步，從最初的"快速思考"（直接回答問題）到更復(fù)雜的"慢速思考"（如思維鏈推理、反思機制等）。這些進步讓模型能夠處理更加復(fù)雜的問題，但也帶來了新的挑戰(zhàn)。

想象一下，你去參加考試，有些題目非常簡單，有些則需要深思熟慮。如果你對每一道題目都花同樣多的時間和精力，那么你可能在簡單題目上浪費了太多時間，而復(fù)雜題目又因為時間不足而做不好。大型語言模型也面臨著類似的困境——它們通常采用固定的推理策略，無論問題的難度如何。

研究人員發(fā)現(xiàn)，在數(shù)學(xué)推理任務(wù)中，計算密集型的子步驟對有限規(guī)模的監(jiān)督微調(diào)模型構(gòu)成了主要挑戰(zhàn)。例如，在解決一道復(fù)雜的數(shù)學(xué)題時，某些步驟（如復(fù)雜的代數(shù)運算）可能特別困難，需要更多的思考；而其他步驟（如簡單的加減法）則相對容易。同樣地，在迷宮導(dǎo)航等任務(wù)中，不同子問題的難度也存在差異。

這些發(fā)現(xiàn)表明，推理過程中的難度是動態(tài)變化的，需要相應(yīng)地動態(tài)分配計算資源。固定的推理策略無法適應(yīng)這種變化，導(dǎo)致在簡單問題上浪費資源，在復(fù)雜問題上又表現(xiàn)不佳。

二、從系統(tǒng)切換到進程級適應(yīng)

受到雙重處理理論的啟發(fā)，人類可以靈活地在快速思考（系統(tǒng)1）和慢速思考（系統(tǒng)2）之間切換：前者快速高效，適合簡單任務(wù)；后者則慢而深思熟慮，適合復(fù)雜問題。這兩種認知風格與大型語言模型采用的不同推理策略高度吻合。

之前的研究已經(jīng)探索了在大型語言模型中實現(xiàn)系統(tǒng)1和系統(tǒng)2切換的機制，大致可分為基于訓(xùn)練和免訓(xùn)練方法。本研究關(guān)注的是免訓(xùn)練設(shè)置。目前的代表性工作HDFLOW采用了一種固定策略：先使用系統(tǒng)1生成初始解決方案，如果解決方案未通過評估，則激活更復(fù)雜的系統(tǒng)2重新考慮問題。

然而，這種方法存在明顯的局限性：它只在獲得完整解決方案后才決定是否切換思維策略，這過于粗糙，與當前復(fù)雜問題分步推理的背景不符，也缺乏對推理過程中難度變化的適應(yīng)能力。

為了解決這些問題，南京大學(xué)的研究團隊提出了"進程級自適應(yīng)思維模式切換"（PATS），這是一種全新的推理范式，能夠在每一步推理中根據(jù)難度動態(tài)選擇適當?shù)乃季S模式，在準確性和效率之間取得良好平衡。

三、PATS：細粒度的動態(tài)思維模式切換

PATS方法建立在以下核心設(shè)計上：

首先，研究團隊采用了基于過程獎勵模型（PRM）引導(dǎo)的波束搜索框架。在這個框架中，模型在每一步生成多個候選步驟，然后使用PRM對這些候選步驟進行評分，選擇得分最高的一個作為該步的最終選擇，然后繼續(xù)推理。

關(guān)鍵的創(chuàng)新點在于，研究團隊將思維模式與每一步生成的候選步驟數(shù)量關(guān)聯(lián)起來。具體來說，他們定義了三種思維模式：

簡單思維模式（Simple Thinking Mode）：每步生成2個候選步驟，類似于直接回答風格的推理，適合相對簡單的問題。中等思維模式（Medium Thinking Mode）：每步生成4個候選步驟，反映了典型的思維鏈推理，適合中等難度的問題。復(fù)雜思維模式（Complex Thinking Mode）：每步生成8個候選步驟，反映了o1風格的慢思考，更適合具有挑戰(zhàn)性的問題。

這就像是解題時的不同策略：簡單模式相當于快速心算，中等模式相當于用筆和紙計算，復(fù)雜模式則相當于使用計算器或電腦輔助計算。

在推理過程中，模型默認從復(fù)雜思維模式開始。在每一步推理完成后，系統(tǒng)會根據(jù)當前步驟的PRM得分（反映了推理質(zhì)量）來動態(tài)調(diào)整下一步的思維模式：

如果當前步驟的PRM得分很高（≥0.85），表明推理狀態(tài)良好，系統(tǒng)會逐漸過渡到更簡單的思維模式，以節(jié)省計算資源。例如，如果當前是復(fù)雜模式，下一步會切換到中等模式；如果當前是中等模式，下一步會切換到簡單模式。

如果當前步驟的PRM得分較低（<0.75），表明推理狀態(tài)不佳，系統(tǒng)會立即切換到最復(fù)雜的思維模式，以避免錯誤累積。

如果當前步驟的PRM得分處于中間狀態(tài)，系統(tǒng)會保持當前的思維模式不變。

此外，系統(tǒng)還引入了對特別糟糕步驟的懲罰機制。如果某一步的PRM得分非常低（<0.4），系統(tǒng)會立即懲罰當前步驟，并以復(fù)雜模式重新思考這一步，而不是等到下一步再調(diào)整。這就像學(xué)生做題時發(fā)現(xiàn)一個明顯錯誤，立即擦除重做，而不是繼續(xù)往下做。為了避免在無法解決的步驟上陷入無限循環(huán)，每個步驟最多只會被懲罰一次。

這種細粒度的控制使得模型能夠根據(jù)推理過程中的實際難度動態(tài)調(diào)整思考策略，既保證了準確性，又提高了效率。

四、實驗設(shè)計與結(jié)果分析

為了驗證PATS方法的有效性，研究團隊在多個數(shù)學(xué)推理基準測試上進行了廣泛的實驗，包括GSM8k、MATH500、Minerva Math、AMC23和AIME24，這些測試涵蓋了從基礎(chǔ)到高級的各種數(shù)學(xué)推理難度。

實驗使用了不同參數(shù)規(guī)模的Qwen2.5系列模型作為策略模型，主要實驗采用Qwen2.5-7B-Instruct模型。過程獎勵模型則選用了多種開源PRM，包括Math-Shepherd、Qwen2.5-Math-PRM-7B和Qwen2.5-Math-7B-PRM800K。

評估指標包括兩個維度：準確率（解答正確率）和效率（生成的輸出標記數(shù)量）。

實驗結(jié)果令人振奮。與固定思維模式的基線相比，PATS在準確率和計算效率之間取得了出色的平衡：

平均而言，PATS的準確率（61.3%）接近于始終使用復(fù)雜思維模式的設(shè)置（61.6%，僅低0.3個百分點），但標記使用量僅為后者的55.4%。與始終使用中等思維模式的設(shè)置相比，PATS的準確率高出近3個百分點，而標記使用量相當。與始終使用簡單思維模式的設(shè)置相比，PATS的準確率高出顯著的5.8個百分點。這意味著，PATS能夠在保持高準確率的同時，顯著降低計算資源的使用，就像一個既聰明又高效的問題解決者。

更重要的是，PATS明顯優(yōu)于粗粒度的解決方案級切換方法。與后者相比，PATS的平均準確率高出4.4個百分點，同時標記使用量還減少了約7%。這證明了進程級的推理策略調(diào)整優(yōu)于粗粒度的解決方案級切換，強調(diào)了在整個推理過程中及時調(diào)整策略的重要性。

五、深入分析與泛化性驗證

研究團隊進行了一系列深入分析，以更好地理解PATS的工作機制和適用性。

首先，他們研究了不同初始思維模式在不同難度任務(wù)上的表現(xiàn)。結(jié)果表明，將初始思維模式與任務(wù)難度對齊能夠有效平衡準確率和計算效率。對于簡單任務(wù)，以簡單模式開始能夠達到最低的標記使用量和可比的準確率；對于中等難度任務(wù)，中等模式能夠達到最高的準確率和適中的標記使用量；對于困難任務(wù)，復(fù)雜模式明顯優(yōu)于其他模式。

其次，研究團隊比較了不同難度任務(wù)的推理行為。他們選取MATH500作為較簡單任務(wù)的代表，AMC23作為較困難任務(wù)的代表，并將推理過程標準化為[0, 1]范圍，分為五個相等的階段。結(jié)果顯示，對于正確解決的問題，AMC23在推理中期到后期階段表現(xiàn)出更高比例的復(fù)雜思維模式，反映了更大的認知努力，與AMC23問題的更高復(fù)雜性一致。這表明，更困難的任務(wù)需要更多的推理努力才能得到正確的解答，強調(diào)了根據(jù)推理難度動態(tài)分配計算資源的必要性。

關(guān)于懲罰糟糕推理步驟的必要性和適度性，研究團隊比較了三種策略：無懲罰（糟糕步驟不處理）、無限懲罰（在復(fù)雜模式下反復(fù)重新思考糟糕步驟，直到分數(shù)超過閾值）和PATS（一次性懲罰方法）。結(jié)果表明，PATS取得了最佳平衡，在達到最高準確率的同時，比無限懲罰策略節(jié)省了大量標記，與無懲罰策略相比標記使用量相當。這證明了懲罰次優(yōu)推理步驟對防止延遲糾正的重要性，同時也強調(diào)了對無法解決步驟避免過度重新思考的必要性。

最后，研究團隊還驗證了PATS在不同策略模型和過程獎勵模型上的泛化能力。結(jié)果表明，無論是在不同參數(shù)規(guī)模的策略模型（Qwen2.5-1.5B-Instruct和Qwen2.5-3B-Instruct）上，還是在不同的過程獎勵模型（Math-Shepherd和Qwen2.5-Math-7B-PRM800K）上，PATS都表現(xiàn)出強大的泛化能力。在所有情況下，PATS都始終在平均準確率上優(yōu)于固定的簡單和中等思維模式，同時保持接近中等模式的適中標記使用量。值得注意的是，在Math-Shepherd設(shè)置中，PATS甚至在準確率上超過了始終使用復(fù)雜思維模式的設(shè)置。

這些結(jié)果突顯了PATS自適應(yīng)范式在各種策略模型和過程獎勵模型上的魯棒性，證明了它的廣泛適用性。

六、總結(jié)與啟示

南京大學(xué)研究團隊提出的"進程級自適應(yīng)思維模式切換"（PATS）方法為大型語言模型的推理過程提供了一種全新的范式。通過在推理過程中根據(jù)每一步的難度動態(tài)調(diào)整思維模式，PATS能夠在準確率和計算效率之間取得出色的平衡。

這項研究的重要性在于，它摒棄了"一刀切"的固定推理策略，轉(zhuǎn)而采用更加靈活、適應(yīng)性更強的方法，更接近人類的思考方式。就像人類在解決問題時會根據(jù)難度靈活調(diào)整思考深度一樣，PATS讓大型語言模型能夠"因地制宜"地分配計算資源，對簡單步驟快速處理，對復(fù)雜步驟深入思考。

實驗結(jié)果表明，這種方法不僅能夠保持高準確率，還能顯著降低計算資源的使用，為大型語言模型的高效推理提供了新的思路。特別是在計算資源有限的場景下，這種方法的價值更加凸顯。

不過，研究團隊也指出了一些局限性。由于計算資源的限制，他們的實驗僅限于相對較小規(guī)模的策略模型（1.5B、3B和7B），尚未在更大規(guī)模的模型上驗證。此外，他們的方法依賴于過程獎勵模型作為關(guān)鍵評估組件，未來可以考慮融入其他評估方法，如LLM-as-Judge或生成式獎勵模型，以擴展實驗的范圍。

這項研究為大型語言模型的推理過程提供了寶貴的見解，強調(diào)了基于過程級、難度感知的自適應(yīng)推理策略在平衡準確率和效率方面的重要性。它不僅推動了大型語言模型推理技術(shù)的發(fā)展，也為構(gòu)建更加智能、高效的人工智能系統(tǒng)提供了新的思路。

未來，隨著研究的深入，我們可以期待看到更多基于這種思想的創(chuàng)新方法，使大型語言模型能夠更加靈活、高效地解決各種復(fù)雜問題，真正實現(xiàn)"既聰明又高效"的智能推理。

人工智能自適應(yīng)推理大型語言模型

分享至

1贊

好文章，需要你的鼓勵

推薦文章

自對弈訓(xùn)練
推理能力提升
零和游戲?qū)W習

2025-07-02 14:26

AI玩游戲能讓推理變聰明？新加坡國立大學(xué)發(fā)現(xiàn)自對弈訓(xùn)練的神奇效果

新加坡國立大學(xué)研究團隊開發(fā)了SPIRAL框架，通過讓AI與自己對弈零和游戲來提升推理能力。實驗顯示，僅訓(xùn)練AI玩簡單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%，通用推理提升8.4%，且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中，為AI訓(xùn)練提供了新思路。
計算機視覺
圖像降噪
3D相機技術(shù)

2025-07-02 14:26

同濟大學(xué)突破性研究：讓3D相機告別"噪點困擾"的智能降噪新技術(shù)

同濟大學(xué)團隊開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息，創(chuàng)新性地解決了3D相機噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系，結(jié)合深度學(xué)習和數(shù)學(xué)優(yōu)化方法，在合成數(shù)據(jù)集上實現(xiàn)37.9%的精度提升，并在真實設(shè)備上展現(xiàn)出色泛化能力，為機器人、AR和自動駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
人工智能
視覺語言模型
強化學(xué)習

2025-07-02 14:26

AI視覺推理模型的"頓悟時刻"真的存在嗎？伊利諾伊大學(xué)研究揭示令人意外的真相

伊利諾伊大學(xué)研究團隊通過對比實驗發(fā)現(xiàn)，經(jīng)過強化學(xué)習訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時刻"現(xiàn)象，但這些自我糾錯行為并不能實際提升推理準確率。研究揭示了AI模型存在"生成-驗證差距"，即生成答案的能力強于驗證答案質(zhì)量的能力，且模型在自我驗證時無法有效利用視覺信息，為AI多模態(tài)推理發(fā)展提供了重要啟示。
大語言模型
稀疏性訓(xùn)練
計算效率優(yōu)化

2025-07-02 14:25

MIT團隊發(fā)明"智能減肥法"讓AI訓(xùn)練快1.6倍：只需要一半的算力就能教會大模型新技能

MIT等頂尖機構(gòu)聯(lián)合提出SparseLoRA技術(shù)，通過動態(tài)稀疏性實現(xiàn)大語言模型訓(xùn)練加速1.6倍，計算成本降低2.2倍。該方法使用SVD稀疏性估計器智能選擇重要計算部分，在保持模型性能的同時顯著提升訓(xùn)練效率，已在多個任務(wù)上驗證有效性。

AI玩游戲能讓推理變聰明？新加坡國立大學(xué)發(fā)現(xiàn)自對弈訓(xùn)練的神奇效果

AI玩游戲能讓推理變聰明？新加坡國立大學(xué)發(fā)現(xiàn)自對弈訓(xùn)練的神奇效果

2025-07-02 14:26

同濟大學(xué)突破性研究：讓3D相機告別"噪點困擾"的智能降噪新技術(shù)

同濟大學(xué)突破性研究：讓3D相機告別"噪點困擾"的智能降噪新技術(shù)

2025-07-02 14:26

AI視覺推理模型的"頓悟時刻"真的存在嗎？伊利諾伊大學(xué)研究揭示令人意外的真相

AI視覺推理模型的"頓悟時刻"真的存在嗎？伊利諾伊大學(xué)研究揭示令人意外的真相

2025-07-02 14:26

MIT團隊發(fā)明"智能減肥法"讓AI訓(xùn)練快1.6倍：只需要一半的算力就能教會大模型新技能

MIT團隊發(fā)明"智能減肥法"讓AI訓(xùn)練快1.6倍：只需要一半的算力就能教會大模型新技能

2025-07-02 14:25

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時代

京ICP證15039648號京ICP備15039648號-9 京公網(wǎng)安備 11010802021500號

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報電話：010-62641205　涉未成年人舉報專線：010-62641208 舉報郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報專區(qū)：https://www.12377.cn

<center id="kx6qj"><i id="kx6qj"></i></center>

<style id="kx6qj"></style><sub id="kx6qj"></sub>

<sub id="kx6qj"><p id="kx6qj"><li id="kx6qj"></li></p></sub>