這項由杜克大學的Hongyi James Cai、Junlin Wang、Mila魁北克AI研究所的Xiaoyin Chen以及杜克大學的Bhuwan Dhingra共同完成的研究,發(fā)表于2025年5月30日的arXiv預印本平臺(arXiv:2505.24273v1),主要探討了大型語言模型(LLM)在推理過程中回溯思考的作用。有興趣深入了解的讀者可以通過https://github.com/jchy20/how-much-backtrack訪問相關代碼。
一、研究背景:為什么需要了解大模型的"思考"過程?
想象一下,你在解決一道復雜的數(shù)學題。你可能會沿著某個思路前進,但突然發(fā)現(xiàn)這條路行不通,于是你會說:"等等,讓我換個方法試試",然后回溯到之前的步驟,嘗試新的解題思路。這種"回溯思考"的能力,對于我們?nèi)祟悂碚f是再自然不過的事情。而令人驚訝的是,現(xiàn)在的大型語言模型(如DeepSeek-R1和OpenAI的o1)也展現(xiàn)出了類似的能力!
但問題來了:到底有多少回溯是最合適的?回溯太少可能導致模型陷入死胡同,回溯太多又可能導致模型在各種可能性中反復橫跳而無法得出結論。就像一個迷宮中的探險者,轉(zhuǎn)彎太少可能無法找到出口,轉(zhuǎn)彎太多又可能在迷宮中兜圈子。
杜克大學和Mila研究所的研究團隊正是聚焦于這一問題,他們想弄清楚在訓練大型語言模型時,最佳的回溯量是多少,以及回溯能力如何與不同的訓練方法(如監(jiān)督微調(diào)SFT和強化學習RL)相互影響。
二、研究方法:探索SFT和RL的協(xié)同作用
要理解這項研究,我們需要先了解兩種主要的大模型訓練方法:監(jiān)督微調(diào)(SFT)和強化學習(RL)。
想象你在教一個孩子做飯。監(jiān)督微調(diào)就像是給孩子看烹飪示范,一步步教他如何完成;而強化學習則更像是讓孩子自己嘗試做飯,嘗到美味的結果就給予獎勵,嘗到難吃的結果就給予一些建議以便改進。在訓練大模型時,研究人員經(jīng)常先用SFT給模型打基礎,然后再用RL讓模型進一步提升。
研究團隊選擇了八個需要復雜推理能力的任務來進行實驗:倒計時(Countdown)、數(shù)獨(Sudoku)、一維?。ˋrc 1D)、幾何問題(Geometry)、顏色立方體旋轉(zhuǎn)(Color Cube Rotation)、列表函數(shù)(List Functions)、斑馬謎題(Zebra Puzzles)和自我引用(Self Reference)。這些任務就像是一系列由簡單到復雜的智力挑戰(zhàn),用來測試模型的推理能力。
他們設計了一系列對照實驗,主要關注以下幾個方面:
首先,他們比較了"冷啟動RL"(直接用RL訓練模型)和"SFT預熱+RL"(先用SFT訓練,再用RL)兩種方法的效果。就像比較直接讓孩子下水游泳和先在淺水區(qū)練習再下水游泳的區(qū)別。
其次,他們特別研究了SFT階段中回溯思考的作用。他們通過精心構建包含不同回溯次數(shù)的合成數(shù)據(jù)集,以及使用從更強大模型(QwQ-32B)中蒸餾的數(shù)據(jù),來分析回溯思考對后續(xù)RL訓練的影響。就好比研究在教孩子解題時,示范中包含多少次"重新思考"是最有效的。
最后,他們還研究了SFT訓練數(shù)據(jù)的正確性是否會影響RL的效果,這就像是研究示范中出現(xiàn)錯誤會不會影響孩子的學習。
三、核心發(fā)現(xiàn):回溯思考的奧秘
研究團隊的實驗揭示了幾個令人驚訝的發(fā)現(xiàn):
首先,即使是簡短的思考鏈(CoT)訓練也能對強化學習產(chǎn)生積極影響。與之前認為必須有明確的"等等,讓我重新思考"等標記才能讓強化學習發(fā)揮作用的觀點不同,研究團隊發(fā)現(xiàn),即使是沒有明顯包含回溯行為的簡短CoT,也能為強化學習提供良好的起點。這就像發(fā)現(xiàn)孩子即使只學習了基礎的思考方法,也能在后續(xù)的自主學習中取得更好的進步。
其次,關于SFT階段訓練數(shù)據(jù)正確性的影響,研究團隊做了一個令人意外的發(fā)現(xiàn):訓練數(shù)據(jù)是否正確,對最終RL訓練后的模型性能影響不大。他們比較了使用正確CoT和錯誤CoT進行SFT的模型,發(fā)現(xiàn)兩者在RL訓練后的表現(xiàn)相似。這就像是發(fā)現(xiàn)孩子在學習過程中,即使老師偶爾犯錯,只要基本的思考框架是對的,孩子最終還是能學會正確的方法。
最關鍵的發(fā)現(xiàn)是關于回溯次數(shù)與任務難度之間的關系。研究表明,任務越困難,所需的回溯次數(shù)就越多:
對于相對簡單的Arc 1D任務,零回溯(即直接給出最優(yōu)解)的SFT效果最好,模型在RL訓練后達到了90.8%的準確率,遠超QwQ-32B的24.0%。
對于中等難度的Countdown任務,一次回溯的SFT效果最好,模型在RL訓練后達到了69.7%的準確率,優(yōu)于QwQ-32B的51.5%。
對于困難的Sudoku任務,五次回溯的SFT效果最好,模型在RL訓練后達到了28.9%的準確率,而零回溯模型只有14.4%。
這就像是教孩子解決不同難度的問題:簡單問題只需直接示范解法;中等難度的問題需要展示一些思考過程中的"重新思考";而復雜問題則需要多次展示"思路調(diào)整",才能讓孩子真正掌握解決問題的方法。
研究還發(fā)現(xiàn),強化學習對SFT數(shù)據(jù)的內(nèi)部一致性非常敏感。當研究人員打亂問題和答案的對應關系時,RL訓練變得極其困難。這說明即使RL可以糾正錯誤的推理過程,但它無法處理完全不相關的問題-答案對。這就像是如果教材中的問題和答案完全對不上,即使最聰明的學生也會感到困惑。
四、研究啟示:優(yōu)化大模型的推理能力
這項研究為如何訓練具有更強推理能力的大型語言模型提供了重要啟示:
首先,即使是簡單的思考鏈(CoT)示范也能為強化學習提供有價值的起點。就像是給孩子提供一個基礎的思考框架,哪怕這個框架很簡單,也能幫助孩子在后續(xù)的自主學習中取得更好的進步。
其次,在訓練大模型時,應該根據(jù)任務的難度調(diào)整回溯思考的數(shù)量。簡單任務可以使用直接的示范,復雜任務則需要包含更多回溯步驟的示范。這就像是教導不同年齡段的孩子:對于小孩子,可能需要更直接的指導;而對于大孩子,則可以展示更復雜的思考過程,包括試錯和修正。
最后,模型似乎更關注推理的結構而非內(nèi)容的正確性。這意味著在訓練數(shù)據(jù)中,推理過程的組織方式(如何進行回溯、如何組織思路)可能比每一步推理是否準確更重要。這就像是教孩子解題時,重點不在于示范中的每一步是否都是正確的,而在于是否教會了孩子一種有效的思考方法。
五、未來展望:大模型推理能力的進一步提升
這項研究為未來大型語言模型的發(fā)展指明了方向。研究團隊發(fā)現(xiàn),不同的任務需要不同程度的回溯,這啟示我們未來可能需要更加個性化的訓練方法,根據(jù)具體任務的特點調(diào)整訓練策略。
此外,研究還揭示了大模型在訓練過程中會表現(xiàn)出兩種不同的推理模式:一種是明確表達出來的搜索和回溯,一種是潛在的一次性思考。這兩種模式各有優(yōu)勢,未來的研究可能會進一步探索如何結合這兩種模式的優(yōu)點。
最后,研究表明,強化學習在訓練過程中主要強化了模型中已有的行為模式,而不是創(chuàng)造全新的能力。這意味著預訓練和監(jiān)督微調(diào)階段埋下的"種子"對模型最終的能力至關重要。未來的研究可能會更加關注如何在早期階段就培養(yǎng)模型的多樣化思考能力。
總的來說,這項研究不僅幫助我們更好地理解了大型語言模型的推理機制,還為如何訓練更強大的AI系統(tǒng)提供了實用指導。就像是研究了教導孩子思考的最佳方法,這些發(fā)現(xiàn)將幫助我們培養(yǎng)出更會"思考"的AI助手。
好文章,需要你的鼓勵
新加坡國立大學研究團隊開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實驗顯示,僅訓練AI玩簡單撲克游戲就能讓其數(shù)學推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學題目作為訓練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學解題中,為AI訓練提供了新思路。
同濟大學團隊開發(fā)的GIGA-ToF技術通過融合多幀圖像的"圖結構"信息,創(chuàng)新性地解決了3D相機噪聲問題。該技術利用圖像間的不變幾何關系,結合深度學習和數(shù)學優(yōu)化方法,在合成數(shù)據(jù)集上實現(xiàn)37.9%的精度提升,并在真實設備上展現(xiàn)出色泛化能力,為機器人、AR和自動駕駛等領域提供更可靠的3D視覺解決方案。
伊利諾伊大學研究團隊通過對比實驗發(fā)現(xiàn),經(jīng)過強化學習訓練的視覺語言模型雖然表現(xiàn)出"頓悟時刻"現(xiàn)象,但這些自我糾錯行為并不能實際提升推理準確率。研究揭示了AI模型存在"生成-驗證差距",即生成答案的能力強于驗證答案質(zhì)量的能力,且模型在自我驗證時無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機構聯(lián)合提出SparseLoRA技術,通過動態(tài)稀疏性實現(xiàn)大語言模型訓練加速1.6倍,計算成本降低2.2倍。該方法使用SVD稀疏性估計器智能選擇重要計算部分,在保持模型性能的同時顯著提升訓練效率,已在多個任務上驗證有效性。