av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 大模型如何"思考"?杜克大學研究揭秘回溯思考對LLM推理能力的影響

大模型如何"思考"?杜克大學研究揭秘回溯思考對LLM推理能力的影響

2025-06-06 17:30
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-06 17:30 ? 科技行者

這項由杜克大學的Hongyi James Cai、Junlin Wang、Mila魁北克AI研究所的Xiaoyin Chen以及杜克大學的Bhuwan Dhingra共同完成的研究,發(fā)表于2025年5月30日的arXiv預印本平臺(arXiv:2505.24273v1),主要探討了大型語言模型(LLM)在推理過程中回溯思考的作用。有興趣深入了解的讀者可以通過https://github.com/jchy20/how-much-backtrack訪問相關代碼。

一、研究背景:為什么需要了解大模型的"思考"過程?

想象一下,你在解決一道復雜的數(shù)學題。你可能會沿著某個思路前進,但突然發(fā)現(xiàn)這條路行不通,于是你會說:"等等,讓我換個方法試試",然后回溯到之前的步驟,嘗試新的解題思路。這種"回溯思考"的能力,對于我們?nèi)祟悂碚f是再自然不過的事情。而令人驚訝的是,現(xiàn)在的大型語言模型(如DeepSeek-R1和OpenAI的o1)也展現(xiàn)出了類似的能力!

但問題來了:到底有多少回溯是最合適的?回溯太少可能導致模型陷入死胡同,回溯太多又可能導致模型在各種可能性中反復橫跳而無法得出結論。就像一個迷宮中的探險者,轉(zhuǎn)彎太少可能無法找到出口,轉(zhuǎn)彎太多又可能在迷宮中兜圈子。

杜克大學和Mila研究所的研究團隊正是聚焦于這一問題,他們想弄清楚在訓練大型語言模型時,最佳的回溯量是多少,以及回溯能力如何與不同的訓練方法(如監(jiān)督微調(diào)SFT和強化學習RL)相互影響。

二、研究方法:探索SFT和RL的協(xié)同作用

要理解這項研究,我們需要先了解兩種主要的大模型訓練方法:監(jiān)督微調(diào)(SFT)和強化學習(RL)。

想象你在教一個孩子做飯。監(jiān)督微調(diào)就像是給孩子看烹飪示范,一步步教他如何完成;而強化學習則更像是讓孩子自己嘗試做飯,嘗到美味的結果就給予獎勵,嘗到難吃的結果就給予一些建議以便改進。在訓練大模型時,研究人員經(jīng)常先用SFT給模型打基礎,然后再用RL讓模型進一步提升。

研究團隊選擇了八個需要復雜推理能力的任務來進行實驗:倒計時(Countdown)、數(shù)獨(Sudoku)、一維?。ˋrc 1D)、幾何問題(Geometry)、顏色立方體旋轉(zhuǎn)(Color Cube Rotation)、列表函數(shù)(List Functions)、斑馬謎題(Zebra Puzzles)和自我引用(Self Reference)。這些任務就像是一系列由簡單到復雜的智力挑戰(zhàn),用來測試模型的推理能力。

他們設計了一系列對照實驗,主要關注以下幾個方面:

首先,他們比較了"冷啟動RL"(直接用RL訓練模型)和"SFT預熱+RL"(先用SFT訓練,再用RL)兩種方法的效果。就像比較直接讓孩子下水游泳和先在淺水區(qū)練習再下水游泳的區(qū)別。

其次,他們特別研究了SFT階段中回溯思考的作用。他們通過精心構建包含不同回溯次數(shù)的合成數(shù)據(jù)集,以及使用從更強大模型(QwQ-32B)中蒸餾的數(shù)據(jù),來分析回溯思考對后續(xù)RL訓練的影響。就好比研究在教孩子解題時,示范中包含多少次"重新思考"是最有效的。

最后,他們還研究了SFT訓練數(shù)據(jù)的正確性是否會影響RL的效果,這就像是研究示范中出現(xiàn)錯誤會不會影響孩子的學習。

三、核心發(fā)現(xiàn):回溯思考的奧秘

研究團隊的實驗揭示了幾個令人驚訝的發(fā)現(xiàn):

首先,即使是簡短的思考鏈(CoT)訓練也能對強化學習產(chǎn)生積極影響。與之前認為必須有明確的"等等,讓我重新思考"等標記才能讓強化學習發(fā)揮作用的觀點不同,研究團隊發(fā)現(xiàn),即使是沒有明顯包含回溯行為的簡短CoT,也能為強化學習提供良好的起點。這就像發(fā)現(xiàn)孩子即使只學習了基礎的思考方法,也能在后續(xù)的自主學習中取得更好的進步。

其次,關于SFT階段訓練數(shù)據(jù)正確性的影響,研究團隊做了一個令人意外的發(fā)現(xiàn):訓練數(shù)據(jù)是否正確,對最終RL訓練后的模型性能影響不大。他們比較了使用正確CoT和錯誤CoT進行SFT的模型,發(fā)現(xiàn)兩者在RL訓練后的表現(xiàn)相似。這就像是發(fā)現(xiàn)孩子在學習過程中,即使老師偶爾犯錯,只要基本的思考框架是對的,孩子最終還是能學會正確的方法。

最關鍵的發(fā)現(xiàn)是關于回溯次數(shù)與任務難度之間的關系。研究表明,任務越困難,所需的回溯次數(shù)就越多:

對于相對簡單的Arc 1D任務,零回溯(即直接給出最優(yōu)解)的SFT效果最好,模型在RL訓練后達到了90.8%的準確率,遠超QwQ-32B的24.0%。

對于中等難度的Countdown任務,一次回溯的SFT效果最好,模型在RL訓練后達到了69.7%的準確率,優(yōu)于QwQ-32B的51.5%。

對于困難的Sudoku任務,五次回溯的SFT效果最好,模型在RL訓練后達到了28.9%的準確率,而零回溯模型只有14.4%。

這就像是教孩子解決不同難度的問題:簡單問題只需直接示范解法;中等難度的問題需要展示一些思考過程中的"重新思考";而復雜問題則需要多次展示"思路調(diào)整",才能讓孩子真正掌握解決問題的方法。

研究還發(fā)現(xiàn),強化學習對SFT數(shù)據(jù)的內(nèi)部一致性非常敏感。當研究人員打亂問題和答案的對應關系時,RL訓練變得極其困難。這說明即使RL可以糾正錯誤的推理過程,但它無法處理完全不相關的問題-答案對。這就像是如果教材中的問題和答案完全對不上,即使最聰明的學生也會感到困惑。

四、研究啟示:優(yōu)化大模型的推理能力

這項研究為如何訓練具有更強推理能力的大型語言模型提供了重要啟示:

首先,即使是簡單的思考鏈(CoT)示范也能為強化學習提供有價值的起點。就像是給孩子提供一個基礎的思考框架,哪怕這個框架很簡單,也能幫助孩子在后續(xù)的自主學習中取得更好的進步。

其次,在訓練大模型時,應該根據(jù)任務的難度調(diào)整回溯思考的數(shù)量。簡單任務可以使用直接的示范,復雜任務則需要包含更多回溯步驟的示范。這就像是教導不同年齡段的孩子:對于小孩子,可能需要更直接的指導;而對于大孩子,則可以展示更復雜的思考過程,包括試錯和修正。

最后,模型似乎更關注推理的結構而非內(nèi)容的正確性。這意味著在訓練數(shù)據(jù)中,推理過程的組織方式(如何進行回溯、如何組織思路)可能比每一步推理是否準確更重要。這就像是教孩子解題時,重點不在于示范中的每一步是否都是正確的,而在于是否教會了孩子一種有效的思考方法。

五、未來展望:大模型推理能力的進一步提升

這項研究為未來大型語言模型的發(fā)展指明了方向。研究團隊發(fā)現(xiàn),不同的任務需要不同程度的回溯,這啟示我們未來可能需要更加個性化的訓練方法,根據(jù)具體任務的特點調(diào)整訓練策略。

此外,研究還揭示了大模型在訓練過程中會表現(xiàn)出兩種不同的推理模式:一種是明確表達出來的搜索和回溯,一種是潛在的一次性思考。這兩種模式各有優(yōu)勢,未來的研究可能會進一步探索如何結合這兩種模式的優(yōu)點。

最后,研究表明,強化學習在訓練過程中主要強化了模型中已有的行為模式,而不是創(chuàng)造全新的能力。這意味著預訓練和監(jiān)督微調(diào)階段埋下的"種子"對模型最終的能力至關重要。未來的研究可能會更加關注如何在早期階段就培養(yǎng)模型的多樣化思考能力。

總的來說,這項研究不僅幫助我們更好地理解了大型語言模型的推理機制,還為如何訓練更強大的AI系統(tǒng)提供了實用指導。就像是研究了教導孩子思考的最佳方法,這些發(fā)現(xiàn)將幫助我們培養(yǎng)出更會"思考"的AI助手。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-