這項由杜克大學(xué)的Hongyi James Cai、Junlin Wang、Mila魁北克AI研究所的Xiaoyin Chen以及杜克大學(xué)的Bhuwan Dhingra共同完成的研究,發(fā)表于2025年5月30日的arXiv預(yù)印本平臺(arXiv:2505.24273v1),主要探討了大型語言模型(LLM)在推理過程中回溯思考的作用。有興趣深入了解的讀者可以通過https://github.com/jchy20/how-much-backtrack訪問相關(guān)代碼。
一、研究背景:為什么需要了解大模型的"思考"過程?
想象一下,你在解決一道復(fù)雜的數(shù)學(xué)題。你可能會沿著某個思路前進,但突然發(fā)現(xiàn)這條路行不通,于是你會說:"等等,讓我換個方法試試",然后回溯到之前的步驟,嘗試新的解題思路。這種"回溯思考"的能力,對于我們?nèi)祟悂碚f是再自然不過的事情。而令人驚訝的是,現(xiàn)在的大型語言模型(如DeepSeek-R1和OpenAI的o1)也展現(xiàn)出了類似的能力!
但問題來了:到底有多少回溯是最合適的?回溯太少可能導(dǎo)致模型陷入死胡同,回溯太多又可能導(dǎo)致模型在各種可能性中反復(fù)橫跳而無法得出結(jié)論。就像一個迷宮中的探險者,轉(zhuǎn)彎太少可能無法找到出口,轉(zhuǎn)彎太多又可能在迷宮中兜圈子。
杜克大學(xué)和Mila研究所的研究團隊正是聚焦于這一問題,他們想弄清楚在訓(xùn)練大型語言模型時,最佳的回溯量是多少,以及回溯能力如何與不同的訓(xùn)練方法(如監(jiān)督微調(diào)SFT和強化學(xué)習(xí)RL)相互影響。
二、研究方法:探索SFT和RL的協(xié)同作用
要理解這項研究,我們需要先了解兩種主要的大模型訓(xùn)練方法:監(jiān)督微調(diào)(SFT)和強化學(xué)習(xí)(RL)。
想象你在教一個孩子做飯。監(jiān)督微調(diào)就像是給孩子看烹飪示范,一步步教他如何完成;而強化學(xué)習(xí)則更像是讓孩子自己嘗試做飯,嘗到美味的結(jié)果就給予獎勵,嘗到難吃的結(jié)果就給予一些建議以便改進。在訓(xùn)練大模型時,研究人員經(jīng)常先用SFT給模型打基礎(chǔ),然后再用RL讓模型進一步提升。
研究團隊選擇了八個需要復(fù)雜推理能力的任務(wù)來進行實驗:倒計時(Countdown)、數(shù)獨(Sudoku)、一維?。ˋrc 1D)、幾何問題(Geometry)、顏色立方體旋轉(zhuǎn)(Color Cube Rotation)、列表函數(shù)(List Functions)、斑馬謎題(Zebra Puzzles)和自我引用(Self Reference)。這些任務(wù)就像是一系列由簡單到復(fù)雜的智力挑戰(zhàn),用來測試模型的推理能力。
他們設(shè)計了一系列對照實驗,主要關(guān)注以下幾個方面:
首先,他們比較了"冷啟動RL"(直接用RL訓(xùn)練模型)和"SFT預(yù)熱+RL"(先用SFT訓(xùn)練,再用RL)兩種方法的效果。就像比較直接讓孩子下水游泳和先在淺水區(qū)練習(xí)再下水游泳的區(qū)別。
其次,他們特別研究了SFT階段中回溯思考的作用。他們通過精心構(gòu)建包含不同回溯次數(shù)的合成數(shù)據(jù)集,以及使用從更強大模型(QwQ-32B)中蒸餾的數(shù)據(jù),來分析回溯思考對后續(xù)RL訓(xùn)練的影響。就好比研究在教孩子解題時,示范中包含多少次"重新思考"是最有效的。
最后,他們還研究了SFT訓(xùn)練數(shù)據(jù)的正確性是否會影響RL的效果,這就像是研究示范中出現(xiàn)錯誤會不會影響孩子的學(xué)習(xí)。
三、核心發(fā)現(xiàn):回溯思考的奧秘
研究團隊的實驗揭示了幾個令人驚訝的發(fā)現(xiàn):
首先,即使是簡短的思考鏈(CoT)訓(xùn)練也能對強化學(xué)習(xí)產(chǎn)生積極影響。與之前認為必須有明確的"等等,讓我重新思考"等標記才能讓強化學(xué)習(xí)發(fā)揮作用的觀點不同,研究團隊發(fā)現(xiàn),即使是沒有明顯包含回溯行為的簡短CoT,也能為強化學(xué)習(xí)提供良好的起點。這就像發(fā)現(xiàn)孩子即使只學(xué)習(xí)了基礎(chǔ)的思考方法,也能在后續(xù)的自主學(xué)習(xí)中取得更好的進步。
其次,關(guān)于SFT階段訓(xùn)練數(shù)據(jù)正確性的影響,研究團隊做了一個令人意外的發(fā)現(xiàn):訓(xùn)練數(shù)據(jù)是否正確,對最終RL訓(xùn)練后的模型性能影響不大。他們比較了使用正確CoT和錯誤CoT進行SFT的模型,發(fā)現(xiàn)兩者在RL訓(xùn)練后的表現(xiàn)相似。這就像是發(fā)現(xiàn)孩子在學(xué)習(xí)過程中,即使老師偶爾犯錯,只要基本的思考框架是對的,孩子最終還是能學(xué)會正確的方法。
最關(guān)鍵的發(fā)現(xiàn)是關(guān)于回溯次數(shù)與任務(wù)難度之間的關(guān)系。研究表明,任務(wù)越困難,所需的回溯次數(shù)就越多:
對于相對簡單的Arc 1D任務(wù),零回溯(即直接給出最優(yōu)解)的SFT效果最好,模型在RL訓(xùn)練后達到了90.8%的準確率,遠超QwQ-32B的24.0%。
對于中等難度的Countdown任務(wù),一次回溯的SFT效果最好,模型在RL訓(xùn)練后達到了69.7%的準確率,優(yōu)于QwQ-32B的51.5%。
對于困難的Sudoku任務(wù),五次回溯的SFT效果最好,模型在RL訓(xùn)練后達到了28.9%的準確率,而零回溯模型只有14.4%。
這就像是教孩子解決不同難度的問題:簡單問題只需直接示范解法;中等難度的問題需要展示一些思考過程中的"重新思考";而復(fù)雜問題則需要多次展示"思路調(diào)整",才能讓孩子真正掌握解決問題的方法。
研究還發(fā)現(xiàn),強化學(xué)習(xí)對SFT數(shù)據(jù)的內(nèi)部一致性非常敏感。當研究人員打亂問題和答案的對應(yīng)關(guān)系時,RL訓(xùn)練變得極其困難。這說明即使RL可以糾正錯誤的推理過程,但它無法處理完全不相關(guān)的問題-答案對。這就像是如果教材中的問題和答案完全對不上,即使最聰明的學(xué)生也會感到困惑。
四、研究啟示:優(yōu)化大模型的推理能力
這項研究為如何訓(xùn)練具有更強推理能力的大型語言模型提供了重要啟示:
首先,即使是簡單的思考鏈(CoT)示范也能為強化學(xué)習(xí)提供有價值的起點。就像是給孩子提供一個基礎(chǔ)的思考框架,哪怕這個框架很簡單,也能幫助孩子在后續(xù)的自主學(xué)習(xí)中取得更好的進步。
其次,在訓(xùn)練大模型時,應(yīng)該根據(jù)任務(wù)的難度調(diào)整回溯思考的數(shù)量。簡單任務(wù)可以使用直接的示范,復(fù)雜任務(wù)則需要包含更多回溯步驟的示范。這就像是教導(dǎo)不同年齡段的孩子:對于小孩子,可能需要更直接的指導(dǎo);而對于大孩子,則可以展示更復(fù)雜的思考過程,包括試錯和修正。
最后,模型似乎更關(guān)注推理的結(jié)構(gòu)而非內(nèi)容的正確性。這意味著在訓(xùn)練數(shù)據(jù)中,推理過程的組織方式(如何進行回溯、如何組織思路)可能比每一步推理是否準確更重要。這就像是教孩子解題時,重點不在于示范中的每一步是否都是正確的,而在于是否教會了孩子一種有效的思考方法。
五、未來展望:大模型推理能力的進一步提升
這項研究為未來大型語言模型的發(fā)展指明了方向。研究團隊發(fā)現(xiàn),不同的任務(wù)需要不同程度的回溯,這啟示我們未來可能需要更加個性化的訓(xùn)練方法,根據(jù)具體任務(wù)的特點調(diào)整訓(xùn)練策略。
此外,研究還揭示了大模型在訓(xùn)練過程中會表現(xiàn)出兩種不同的推理模式:一種是明確表達出來的搜索和回溯,一種是潛在的一次性思考。這兩種模式各有優(yōu)勢,未來的研究可能會進一步探索如何結(jié)合這兩種模式的優(yōu)點。
最后,研究表明,強化學(xué)習(xí)在訓(xùn)練過程中主要強化了模型中已有的行為模式,而不是創(chuàng)造全新的能力。這意味著預(yù)訓(xùn)練和監(jiān)督微調(diào)階段埋下的"種子"對模型最終的能力至關(guān)重要。未來的研究可能會更加關(guān)注如何在早期階段就培養(yǎng)模型的多樣化思考能力。
總的來說,這項研究不僅幫助我們更好地理解了大型語言模型的推理機制,還為如何訓(xùn)練更強大的AI系統(tǒng)提供了實用指導(dǎo)。就像是研究了教導(dǎo)孩子思考的最佳方法,這些發(fā)現(xiàn)將幫助我們培養(yǎng)出更會"思考"的AI助手。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機制和漸進式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學(xué)習(xí)外觀和運動信息,顯著解決了當前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準,通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報,準確性超越傳統(tǒng)方法90%的指標。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。