這項由上海交通大學GAIR實驗室的王增智、周凡、李雪峰和劉鵬飛教授領(lǐng)導(dǎo)的研究發(fā)表于2025年6月,論文標題為《OctoThinker: Mid-training Incentivizes Reinforcement Learning Scaling》。有興趣深入了解技術(shù)細節(jié)的讀者可以通過arXiv:2506.20512v1訪問完整論文。
想象一下,你正在教兩個孩子解數(shù)學題。一個孩子(我們叫他小Q)天生就能靜下心來仔細思考,一步步推理,遇到難題也不急躁。而另一個孩子(我們叫他小L)聰明但性子急,總是想快速給出答案,遇到復(fù)雜問題時容易亂了方寸?,F(xiàn)在你想用獎懲的方式(強化學習)來提高他們的數(shù)學能力,結(jié)果發(fā)現(xiàn)小Q進步神速,而小L卻總是原地打轉(zhuǎn),甚至越來越糟糕。
這個場景完美地反映了當前人工智能領(lǐng)域的一個重要現(xiàn)象。在AI模型的世界里,Qwen系列模型就像那個善于思考的小Q,而Llama系列模型則像那個急性子的小L。當研究人員想要通過強化學習訓練讓這些模型在數(shù)學推理方面變得更強時,他們驚訝地發(fā)現(xiàn)了同樣的問題:Qwen模型能夠穩(wěn)步提升,產(chǎn)生越來越好的推理過程,而Llama模型卻表現(xiàn)得極其糟糕,要么給出極短的答案直接跳到結(jié)論,要么產(chǎn)生大量重復(fù)無意義的文字。
上海交大的研究團隊決定深入探究這個謎團。他們想知道,為什么同樣聰明的AI模型,在接受同樣的"思考訓練"時會有如此不同的表現(xiàn)?更重要的是,有沒有辦法讓那些"急性子"的模型也學會深度思考?
通過大量實驗,研究團隊發(fā)現(xiàn)了一個關(guān)鍵洞察:問題的根源在于這些模型的"成長經(jīng)歷"不同。就像人的性格很大程度上由童年經(jīng)歷塑造一樣,AI模型的"思考習慣"主要由它們的預(yù)訓練過程決定。Qwen模型在訓練過程中接觸了大量高質(zhì)量的數(shù)學推理內(nèi)容,養(yǎng)成了良好的思考習慣,而Llama模型雖然也很聰明,但在數(shù)學推理方面的基礎(chǔ)訓練不夠扎實。
研究團隊提出了一個創(chuàng)新的解決方案:中期訓練(mid-training)。這就像是給已經(jīng)長大的孩子重新進行"思維習慣矯正訓練"。他們設(shè)計了一個兩階段的訓練策略,第一階段讓模型在大量高質(zhì)量數(shù)學內(nèi)容上穩(wěn)定學習,建立扎實的數(shù)學基礎(chǔ);第二階段則針對不同的思維模式進行專門訓練,就像培養(yǎng)不同的"思考風格"。
具體來說,研究團隊首先讓Llama模型在超過700億個高質(zhì)量數(shù)學文本片段上進行學習,這些內(nèi)容都經(jīng)過精心篩選和處理,確保質(zhì)量上乘。在這個過程中,模型逐漸學會了如何處理數(shù)學概念和推理過程。然后,他們將訓練分成三個分支:一個專門學習簡潔的推理過程,一個學習詳細的長推理過程,還有一個學習兩者的結(jié)合。這種設(shè)計讓最終的模型具備了多種思考模式,就像章魚有多條手臂一樣靈活多樣,因此他們將這個模型家族命名為"OctoThinker"(章魚思考者)。
實驗結(jié)果令人振奮。經(jīng)過這種特殊訓練的OctoThinker模型在數(shù)學推理任務(wù)上的表現(xiàn)發(fā)生了質(zhì)的飛躍。在標準的數(shù)學測試中,原本表現(xiàn)平平的Llama模型經(jīng)過OctoThinker訓練后,不僅能夠產(chǎn)生合理的推理過程,其最終性能甚至達到了與Qwen模型相當?shù)乃?。這就像那個急性子的孩子經(jīng)過耐心的習慣矯正訓練后,終于也能靜下心來深入思考復(fù)雜問題了。
更有趣的是,研究團隊發(fā)現(xiàn)了幾個重要的訓練原則。首先,數(shù)據(jù)質(zhì)量至關(guān)重要。他們比較了不同數(shù)學訓練材料的效果,發(fā)現(xiàn)只有真正高質(zhì)量的數(shù)學內(nèi)容才能帶來顯著提升,而那些看似相關(guān)但質(zhì)量一般的材料反而可能起到反作用。這就像學習做菜,跟著名廚的精確食譜能學到真本事,而隨便看看網(wǎng)上的粗糙教程可能反而學壞了手藝。
其次,他們發(fā)現(xiàn)問答格式的數(shù)據(jù)確實有幫助,特別是那些包含詳細推理過程的長答案。但這種長推理過程也帶來了新的挑戰(zhàn):模型有時會變得過于"話癆",產(chǎn)生冗長而重復(fù)的回答。為了解決這個問題,研究團隊設(shè)計了巧妙的訓練策略,包括漸進式的回答長度控制和改進的提示模板,確保模型既能深入思考又不會偏離主題。
第三個重要發(fā)現(xiàn)是,適量的通用指令跟隨訓練數(shù)據(jù)能夠起到"潤滑劑"的作用。就像在專業(yè)技能訓練中適當加入一些基礎(chǔ)素質(zhì)訓練一樣,這些通用數(shù)據(jù)幫助模型更好地理解和執(zhí)行各種指令,從而在強化學習階段表現(xiàn)更加穩(wěn)定。
最令人印象深刻的是,研究團隊還發(fā)現(xiàn)訓練規(guī)模的重要性。他們進行了高達1000億個文本片段的大規(guī)模訓練實驗,發(fā)現(xiàn)即使在基礎(chǔ)模型評測中看不出明顯差異,更大規(guī)模的中期訓練仍然能在后續(xù)的強化學習階段帶來顯著收益。這說明模型的"思考能力"和常規(guī)的"知識水平"可能是兩個不同的維度,需要用不同的方法來評估和提升。
為了驗證他們方法的有效性,研究團隊進行了全面的對比實驗。他們讓經(jīng)過OctoThinker訓練的Llama模型與原版Qwen模型在相同條件下接受強化學習訓練,然后在多個數(shù)學推理測試中進行比較。結(jié)果顯示,OctoThinker不僅消除了Llama模型原有的問題(如產(chǎn)生重復(fù)文本或過早跳到結(jié)論),還讓其在推理質(zhì)量上達到了與Qwen相當?shù)乃?。這就像通過系統(tǒng)訓練,原本急躁的學生最終也能像那些天生沉穩(wěn)的學生一樣優(yōu)秀地解決復(fù)雜問題。
特別值得一提的是,研究團隊還觀察到了不同訓練分支產(chǎn)生的有趣行為差異。專注于長推理的分支會產(chǎn)生更詳細的思考過程,適合處理復(fù)雜問題;專注于短推理的分支則更加簡潔高效,適合相對簡單的問題;而混合分支則在兩者之間取得了良好的平衡。這種多樣性讓OctoThinker就像一個擁有多種思考模式的智能助手,能夠根據(jù)問題的復(fù)雜程度選擇合適的推理策略。
研究團隊還解決了一個技術(shù)難題:如何穩(wěn)定地訓練這些具有長推理能力的模型。他們發(fā)現(xiàn),直接訓練容易導(dǎo)致模型在強化學習過程中產(chǎn)生不穩(wěn)定的行為,比如突然開始產(chǎn)生超長的無意義回答。為了解決這個問題,他們開發(fā)了漸進式長度控制策略,就像教孩子寫作文時先要求寫短文,再逐步提高字數(shù)要求一樣,讓模型逐步適應(yīng)產(chǎn)生更長更復(fù)雜的推理過程。
這項研究的意義遠不止于解決Llama模型的特定問題。它揭示了一個更深層的原理:AI模型的推理能力不僅取決于其基礎(chǔ)架構(gòu)和參數(shù)量,更重要的是其訓練過程中形成的"思維習慣"。這為未來設(shè)計更好的AI訓練方法提供了重要啟示。就像教育學中強調(diào)培養(yǎng)學生的思維方式一樣,訓練AI模型也需要特別關(guān)注其思考過程的質(zhì)量,而不僅僅是最終答案的正確性。
此外,研究團隊還慷慨地分享了他們精心整理的訓練數(shù)據(jù)集,包含超過700億個高質(zhì)量數(shù)學文本片段。這個名為MegaMath-Web-Pro-Max的數(shù)據(jù)集將為整個AI研究社區(qū)提供寶貴資源,幫助更多研究者探索和改進AI模型的數(shù)學推理能力。
從更廣闊的視角來看,這項研究預(yù)示著AI發(fā)展的一個重要趨勢:我們正在從追求模型的規(guī)模和速度,轉(zhuǎn)向更加關(guān)注模型的思考質(zhì)量和推理能力。這種變化可能會深刻影響未來AI系統(tǒng)的設(shè)計哲學,讓AI不僅能夠快速處理信息,更能像人類專家一樣進行深入的分析和推理。
對于普通用戶來說,這項研究的成果最終可能體現(xiàn)在更智能的AI助手上。這些助手不僅能夠回答問題,還能清晰地解釋其推理過程,幫助用戶理解復(fù)雜概念,甚至在學習和解決問題時提供有價值的思路指導(dǎo)。特別是在教育領(lǐng)域,這種能夠展示詳細推理過程的AI系統(tǒng)可能成為強大的學習伙伴,幫助學生不僅獲得正確答案,更重要的是學會正確的思考方法。
研究團隊在論文中也誠實地指出了當前方法的局限性和未來的研究方向。比如,目前的訓練方法主要針對數(shù)學推理,如何將類似的思路擴展到其他領(lǐng)域(如科學推理、邏輯分析等)還需要進一步探索。同時,如何更好地平衡模型的推理深度和效率,以及如何設(shè)計更加智能的訓練策略來避免模型產(chǎn)生冗余信息,都是值得繼續(xù)研究的重要問題。
總的來說,這項研究為AI領(lǐng)域貢獻了一個重要的突破:它不僅解決了一個具體的技術(shù)問題,更重要的是提供了一種新的思路來理解和改進AI模型的推理能力。通過精心設(shè)計的中期訓練策略,原本在推理任務(wù)上表現(xiàn)不佳的模型也能夠獲得與頂尖模型相當?shù)乃伎寄芰?。這就像發(fā)現(xiàn)了一種有效的"智力開發(fā)"方法,讓我們對于培養(yǎng)更智能、更可靠的AI系統(tǒng)有了更大的信心和更清晰的方向。
Q&A
Q1:OctoThinker是什么?它解決了什么問題? A:OctoThinker是上海交大團隊開發(fā)的AI模型訓練方法,專門解決Llama等模型在數(shù)學推理訓練中表現(xiàn)不佳的問題。它通過特殊的兩階段訓練讓這些模型學會像Qwen模型一樣進行深度思考和推理。
Q2:為什么有些AI模型在強化學習訓練中表現(xiàn)很差? A:主要原因是模型的"成長經(jīng)歷"不同。一些模型(如Qwen)在基礎(chǔ)訓練中接觸了更多高質(zhì)量的數(shù)學推理內(nèi)容,養(yǎng)成了良好的思考習慣,而另一些模型(如Llama)雖然聰明但在數(shù)學推理方面的基礎(chǔ)訓練不夠扎實。
Q3:普通用戶能從這項研究中獲得什么好處? A:未來可能會有更智能的AI助手,不僅能給出正確答案,還能清晰解釋推理過程,特別是在數(shù)學學習和問題解決方面提供更好的幫助。這對學生和需要邏輯推理的工作者特別有價值。
好文章,需要你的鼓勵
新加坡國立大學研究團隊開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實驗顯示,僅訓練AI玩簡單撲克游戲就能讓其數(shù)學推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學題目作為訓練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學解題中,為AI訓練提供了新思路。
同濟大學團隊開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學習和數(shù)學優(yōu)化方法,在合成數(shù)據(jù)集上實現(xiàn)37.9%的精度提升,并在真實設(shè)備上展現(xiàn)出色泛化能力,為機器人、AR和自動駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學研究團隊通過對比實驗發(fā)現(xiàn),經(jīng)過強化學習訓練的視覺語言模型雖然表現(xiàn)出"頓悟時刻"現(xiàn)象,但這些自我糾錯行為并不能實際提升推理準確率。研究揭示了AI模型存在"生成-驗證差距",即生成答案的能力強于驗證答案質(zhì)量的能力,且模型在自我驗證時無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動態(tài)稀疏性實現(xiàn)大語言模型訓練加速1.6倍,計算成本降低2.2倍。該方法使用SVD稀疏性估計器智能選擇重要計算部分,在保持模型性能的同時顯著提升訓練效率,已在多個任務(wù)上驗證有效性。