av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃，關(guān)注公眾號

科技行者
算力行者

見證連接與計算的「力量」

大模型如何"思考"？杜克大學(xué)研究揭秘回溯思考對LLM推理能力的影響

人工智能推理能力大型語言模型

大模型如何"思考"？杜克大學(xué)研究揭秘回溯思考對LLM推理能力的影響

作者：科技行者

2025-06-06 17:30

分享至：

這篇研究探索了大型語言模型（LLM）中回溯思考對推理能力的影響，以及監(jiān)督微調(diào)（SFT）與強化學(xué)習(xí)（RL）的相互作用。杜克大學(xué)的研究團隊發(fā)現(xiàn)，任務(wù)難度與最優(yōu)回溯次數(shù)成正比：簡單任務(wù)（如Arc 1D）適合零回溯，中等難度任務(wù)（如Countdown）需要一次回溯，而復(fù)雜任務(wù)（如Sudoku）則需要五次回溯。研究還揭示，訓(xùn)練數(shù)據(jù)的結(jié)構(gòu)比內(nèi)容正確性更重要，且簡短思考鏈也能為RL提供有效起點。這些發(fā)現(xiàn)為優(yōu)化AI推理能力提供了實用指導(dǎo)。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-06-06 17:30 ? 科技行者

這項由杜克大學(xué)的Hongyi James Cai、Junlin Wang、Mila魁北克AI研究所的Xiaoyin Chen以及杜克大學(xué)的Bhuwan Dhingra共同完成的研究，發(fā)表于2025年5月30日的arXiv預(yù)印本平臺（arXiv:2505.24273v1），主要探討了大型語言模型（LLM）在推理過程中回溯思考的作用。有興趣深入了解的讀者可以通過https://github.com/jchy20/how-much-backtrack訪問相關(guān)代碼。

一、研究背景：為什么需要了解大模型的"思考"過程？

想象一下，你在解決一道復(fù)雜的數(shù)學(xué)題。你可能會沿著某個思路前進，但突然發(fā)現(xiàn)這條路行不通，于是你會說："等等，讓我換個方法試試"，然后回溯到之前的步驟，嘗試新的解題思路。這種"回溯思考"的能力，對于我們?nèi)祟悂碚f是再自然不過的事情。而令人驚訝的是，現(xiàn)在的大型語言模型（如DeepSeek-R1和OpenAI的o1）也展現(xiàn)出了類似的能力！

但問題來了：到底有多少回溯是最合適的？回溯太少可能導(dǎo)致模型陷入死胡同，回溯太多又可能導(dǎo)致模型在各種可能性中反復(fù)橫跳而無法得出結(jié)論。就像一個迷宮中的探險者，轉(zhuǎn)彎太少可能無法找到出口，轉(zhuǎn)彎太多又可能在迷宮中兜圈子。

杜克大學(xué)和Mila研究所的研究團隊正是聚焦于這一問題，他們想弄清楚在訓(xùn)練大型語言模型時，最佳的回溯量是多少，以及回溯能力如何與不同的訓(xùn)練方法（如監(jiān)督微調(diào)SFT和強化學(xué)習(xí)RL）相互影響。

二、研究方法：探索SFT和RL的協(xié)同作用

要理解這項研究，我們需要先了解兩種主要的大模型訓(xùn)練方法：監(jiān)督微調(diào)（SFT）和強化學(xué)習(xí)（RL）。

想象你在教一個孩子做飯。監(jiān)督微調(diào)就像是給孩子看烹飪示范，一步步教他如何完成；而強化學(xué)習(xí)則更像是讓孩子自己嘗試做飯，嘗到美味的結(jié)果就給予獎勵，嘗到難吃的結(jié)果就給予一些建議以便改進。在訓(xùn)練大模型時，研究人員經(jīng)常先用SFT給模型打基礎(chǔ)，然后再用RL讓模型進一步提升。

研究團隊選擇了八個需要復(fù)雜推理能力的任務(wù)來進行實驗：倒計時（Countdown）、數(shù)獨（Sudoku）、一維?。ˋrc 1D）、幾何問題（Geometry）、顏色立方體旋轉(zhuǎn)（Color Cube Rotation）、列表函數(shù)（List Functions）、斑馬謎題（Zebra Puzzles）和自我引用（Self Reference）。這些任務(wù)就像是一系列由簡單到復(fù)雜的智力挑戰(zhàn)，用來測試模型的推理能力。

他們設(shè)計了一系列對照實驗，主要關(guān)注以下幾個方面：

首先，他們比較了"冷啟動RL"（直接用RL訓(xùn)練模型）和"SFT預(yù)熱+RL"（先用SFT訓(xùn)練，再用RL）兩種方法的效果。就像比較直接讓孩子下水游泳和先在淺水區(qū)練習(xí)再下水游泳的區(qū)別。

其次，他們特別研究了SFT階段中回溯思考的作用。他們通過精心構(gòu)建包含不同回溯次數(shù)的合成數(shù)據(jù)集，以及使用從更強大模型（QwQ-32B）中蒸餾的數(shù)據(jù)，來分析回溯思考對后續(xù)RL訓(xùn)練的影響。就好比研究在教孩子解題時，示范中包含多少次"重新思考"是最有效的。

最后，他們還研究了SFT訓(xùn)練數(shù)據(jù)的正確性是否會影響RL的效果，這就像是研究示范中出現(xiàn)錯誤會不會影響孩子的學(xué)習(xí)。

三、核心發(fā)現(xiàn)：回溯思考的奧秘

研究團隊的實驗揭示了幾個令人驚訝的發(fā)現(xiàn)：

首先，即使是簡短的思考鏈（CoT）訓(xùn)練也能對強化學(xué)習(xí)產(chǎn)生積極影響。與之前認為必須有明確的"等等，讓我重新思考"等標記才能讓強化學(xué)習(xí)發(fā)揮作用的觀點不同，研究團隊發(fā)現(xiàn)，即使是沒有明顯包含回溯行為的簡短CoT，也能為強化學(xué)習(xí)提供良好的起點。這就像發(fā)現(xiàn)孩子即使只學(xué)習(xí)了基礎(chǔ)的思考方法，也能在后續(xù)的自主學(xué)習(xí)中取得更好的進步。

其次，關(guān)于SFT階段訓(xùn)練數(shù)據(jù)正確性的影響，研究團隊做了一個令人意外的發(fā)現(xiàn)：訓(xùn)練數(shù)據(jù)是否正確，對最終RL訓(xùn)練后的模型性能影響不大。他們比較了使用正確CoT和錯誤CoT進行SFT的模型，發(fā)現(xiàn)兩者在RL訓(xùn)練后的表現(xiàn)相似。這就像是發(fā)現(xiàn)孩子在學(xué)習(xí)過程中，即使老師偶爾犯錯，只要基本的思考框架是對的，孩子最終還是能學(xué)會正確的方法。

最關(guān)鍵的發(fā)現(xiàn)是關(guān)于回溯次數(shù)與任務(wù)難度之間的關(guān)系。研究表明，任務(wù)越困難，所需的回溯次數(shù)就越多：

對于相對簡單的Arc 1D任務(wù)，零回溯（即直接給出最優(yōu)解）的SFT效果最好，模型在RL訓(xùn)練后達到了90.8%的準確率，遠超QwQ-32B的24.0%。

對于中等難度的Countdown任務(wù)，一次回溯的SFT效果最好，模型在RL訓(xùn)練后達到了69.7%的準確率，優(yōu)于QwQ-32B的51.5%。

對于困難的Sudoku任務(wù)，五次回溯的SFT效果最好，模型在RL訓(xùn)練后達到了28.9%的準確率，而零回溯模型只有14.4%。

這就像是教孩子解決不同難度的問題：簡單問題只需直接示范解法；中等難度的問題需要展示一些思考過程中的"重新思考"；而復(fù)雜問題則需要多次展示"思路調(diào)整"，才能讓孩子真正掌握解決問題的方法。

研究還發(fā)現(xiàn)，強化學(xué)習(xí)對SFT數(shù)據(jù)的內(nèi)部一致性非常敏感。當研究人員打亂問題和答案的對應(yīng)關(guān)系時，RL訓(xùn)練變得極其困難。這說明即使RL可以糾正錯誤的推理過程，但它無法處理完全不相關(guān)的問題-答案對。這就像是如果教材中的問題和答案完全對不上，即使最聰明的學(xué)生也會感到困惑。

四、研究啟示：優(yōu)化大模型的推理能力

這項研究為如何訓(xùn)練具有更強推理能力的大型語言模型提供了重要啟示：

首先，即使是簡單的思考鏈（CoT）示范也能為強化學(xué)習(xí)提供有價值的起點。就像是給孩子提供一個基礎(chǔ)的思考框架，哪怕這個框架很簡單，也能幫助孩子在后續(xù)的自主學(xué)習(xí)中取得更好的進步。

其次，在訓(xùn)練大模型時，應(yīng)該根據(jù)任務(wù)的難度調(diào)整回溯思考的數(shù)量。簡單任務(wù)可以使用直接的示范，復(fù)雜任務(wù)則需要包含更多回溯步驟的示范。這就像是教導(dǎo)不同年齡段的孩子：對于小孩子，可能需要更直接的指導(dǎo)；而對于大孩子，則可以展示更復(fù)雜的思考過程，包括試錯和修正。

最后，模型似乎更關(guān)注推理的結(jié)構(gòu)而非內(nèi)容的正確性。這意味著在訓(xùn)練數(shù)據(jù)中，推理過程的組織方式（如何進行回溯、如何組織思路）可能比每一步推理是否準確更重要。這就像是教孩子解題時，重點不在于示范中的每一步是否都是正確的，而在于是否教會了孩子一種有效的思考方法。

五、未來展望：大模型推理能力的進一步提升

這項研究為未來大型語言模型的發(fā)展指明了方向。研究團隊發(fā)現(xiàn)，不同的任務(wù)需要不同程度的回溯，這啟示我們未來可能需要更加個性化的訓(xùn)練方法，根據(jù)具體任務(wù)的特點調(diào)整訓(xùn)練策略。

此外，研究還揭示了大模型在訓(xùn)練過程中會表現(xiàn)出兩種不同的推理模式：一種是明確表達出來的搜索和回溯，一種是潛在的一次性思考。這兩種模式各有優(yōu)勢，未來的研究可能會進一步探索如何結(jié)合這兩種模式的優(yōu)點。

最后，研究表明，強化學(xué)習(xí)在訓(xùn)練過程中主要強化了模型中已有的行為模式，而不是創(chuàng)造全新的能力。這意味著預(yù)訓(xùn)練和監(jiān)督微調(diào)階段埋下的"種子"對模型最終的能力至關(guān)重要。未來的研究可能會更加關(guān)注如何在早期階段就培養(yǎng)模型的多樣化思考能力。

總的來說，這項研究不僅幫助我們更好地理解了大型語言模型的推理機制，還為如何訓(xùn)練更強大的AI系統(tǒng)提供了實用指導(dǎo)。就像是研究了教導(dǎo)孩子思考的最佳方法，這些發(fā)現(xiàn)將幫助我們培養(yǎng)出更會"思考"的AI助手。

人工智能推理能力大型語言模型

分享至

0贊

好文章，需要你的鼓勵

推薦文章

音頻生成
大語言模型
多模態(tài)AI

2025-09-10 09:47

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實驗室團隊AudioStory突破性進展

騰訊ARC實驗室推出AudioStory系統(tǒng)，首次實現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù)，通過交錯式推理生成、解耦橋接機制和漸進式訓(xùn)練，能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準測試中表現(xiàn)優(yōu)異，為AI音頻創(chuàng)作開辟新方向。
視頻生成
深度學(xué)習(xí)
多模態(tài)學(xué)習(xí)

2025-09-09 13:57

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù)，通過讓AI同時學(xué)習(xí)外觀和運動信息，顯著解決了當前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運動質(zhì)量，在多項測試中超越包括Sora在內(nèi)的商業(yè)模型，為AI視頻生成的實用化應(yīng)用奠定了重要基礎(chǔ)。
多模態(tài)AI
人類價值觀對齊
數(shù)據(jù)集構(gòu)建

2025-09-09 13:56

上海AI實驗室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價值觀對齊難題

上海AI實驗室發(fā)布OmniAlign-V研究，首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準，通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法，讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平，為AI價值觀對齊提供了可行技術(shù)路徑。
人工智能
圖神經(jīng)網(wǎng)絡(luò)
天氣預(yù)報

2025-09-09 10:56

谷歌研究團隊發(fā)布超級預(yù)測模型：讓AI像天氣預(yù)報員一樣預(yù)測全球大氣變化

谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型，能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報，準確性超越傳統(tǒng)方法90%的指標。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù)，通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律，在極端天氣預(yù)測方面表現(xiàn)卓越，能耗僅為傳統(tǒng)方法的千分之一，為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實驗室團隊AudioStory突破性進展

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實驗室團隊AudioStory突破性進展

2025-09-10 09:47

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

2025-09-09 13:57

上海AI實驗室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價值觀對齊難題

上海AI實驗室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價值觀對齊難題

2025-09-09 13:56

谷歌研究團隊發(fā)布超級預(yù)測模型：讓AI像天氣預(yù)報員一樣預(yù)測全球大氣變化

谷歌研究團隊發(fā)布超級預(yù)測模型：讓AI像天氣預(yù)報員一樣預(yù)測全球大氣變化

2025-09-09 10:56

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時代

京ICP證15039648號京ICP備15039648號-9 京公網(wǎng)安備 11010802021500號

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報電話：010-62641205　涉未成年人舉報專線：010-62641208 舉報郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報專區(qū)：https://www.12377.cn