2025年5月26日,來(lái)自上海人工智能實(shí)驗(yàn)室的研究團(tuán)隊(duì),包括劉俊男、劉宏偉、肖林辰、劉書(shū)東、張濤林、馬子寒等研究人員,在論文預(yù)印本平臺(tái)arXiv上發(fā)布了一項(xiàng)突破性研究《Deciphering Trajectory-Aided LLM Reasoning: An Optimization Perspective》(解構(gòu)軌跡輔助的大語(yǔ)言模型推理:優(yōu)化視角)。這項(xiàng)研究由張松陽(yáng)和陳凱擔(dān)任通訊作者,為我們理解大語(yǔ)言模型(LLM)如何進(jìn)行推理提供了全新視角。
從思路軌跡到元學(xué)習(xí):大模型推理的新理解
想象一下,當(dāng)你面對(duì)一道復(fù)雜的數(shù)學(xué)題時(shí),你通常會(huì)怎么做?大多數(shù)人會(huì)在紙上寫(xiě)下思考過(guò)程,一步步推導(dǎo),最終得出答案。大語(yǔ)言模型也是如此,它們通過(guò)生成所謂的"思維鏈"(Chain of Thought,CoT)或"推理軌跡"來(lái)解決復(fù)雜問(wèn)題。但一個(gè)關(guān)鍵問(wèn)題是:這些推理軌跡到底如何幫助模型得出正確答案?
上海人工智能實(shí)驗(yàn)室的研究團(tuán)隊(duì)提出了一個(gè)全新且頗具啟發(fā)性的視角:將大語(yǔ)言模型的推理過(guò)程視為一種"元學(xué)習(xí)"(Meta-Learning)機(jī)制。簡(jiǎn)單來(lái)說(shuō),元學(xué)習(xí)就是"學(xué)習(xí)如何學(xué)習(xí)"的能力。研究團(tuán)隊(duì)創(chuàng)造性地提出了"RaML"(Reasoning as Meta-Learning)框架,將推理軌跡解讀為模型參數(shù)的"偽梯度下降更新"。
你可以這樣理解:當(dāng)我們寫(xiě)下解題思路時(shí),每寫(xiě)一步,我們的大腦就在不斷調(diào)整對(duì)問(wèn)題的理解和解決方案。對(duì)大語(yǔ)言模型來(lái)說(shuō),每生成一個(gè)推理軌跡中的詞元(token),就相當(dāng)于微調(diào)了一次模型的內(nèi)部參數(shù),使其逐漸靠近正確答案的方向。
推理軌跡如何"更新"模型參數(shù)?
研究團(tuán)隊(duì)將推理過(guò)程形式化為一個(gè)元學(xué)習(xí)設(shè)置,其中: - 每個(gè)問(wèn)題被視為一個(gè)獨(dú)立的任務(wù) - 推理軌跡充當(dāng)"內(nèi)循環(huán)優(yōu)化",用于調(diào)整模型參數(shù) - 最終答案則是"查詢(xún)集",用于優(yōu)化整個(gè)語(yǔ)言模型
假設(shè)你在解一道復(fù)雜的數(shù)學(xué)題。當(dāng)你寫(xiě)下"首先,我們需要計(jì)算..."這樣的思考步驟時(shí),你實(shí)際上是在調(diào)整自己解決問(wèn)題的方法。類(lèi)似地,當(dāng)大語(yǔ)言模型生成"讓我們先分析..."這樣的推理軌跡時(shí),它也在微調(diào)自己的參數(shù),使自己更接近正確答案。
研究團(tuán)隊(duì)通過(guò)理論推導(dǎo)證明,推理軌跡中的每個(gè)詞元都可以被視為模型參數(shù)的一次更新。團(tuán)隊(duì)還使用了QwQ-32B模型在美國(guó)高中數(shù)學(xué)邀請(qǐng)賽(AIME24)上的實(shí)驗(yàn)數(shù)據(jù),通過(guò)可視化顯示,隨著推理軌跡的展開(kāi),模型對(duì)正確答案的確信度(即負(fù)對(duì)數(shù)概率)確實(shí)在逐步降低,這就像是模型在不斷優(yōu)化自己的"內(nèi)部參數(shù)",向正確答案靠近。
元學(xué)習(xí)視角下的大模型訓(xùn)練方法
當(dāng)我們理解了推理軌跡相當(dāng)于模型參數(shù)的更新后,不同的大模型訓(xùn)練方法也就有了新的解讀。研究團(tuán)隊(duì)分析了三種主要的訓(xùn)練技術(shù):
1. 監(jiān)督微調(diào)(SFT):使用人工標(biāo)注或合成的高質(zhì)量推理軌跡訓(xùn)練模型。從元學(xué)習(xí)角度看,這相當(dāng)于讓模型學(xué)習(xí)一個(gè)"最優(yōu)內(nèi)循環(huán)優(yōu)化器"提供的更新路徑。就像一個(gè)數(shù)學(xué)老師手把手教你解題一樣,模型通過(guò)觀察專(zhuān)家解題過(guò)程來(lái)學(xué)習(xí)如何更新自己的參數(shù)。
2. 離線(xiàn)偏好優(yōu)化(Off-Policy PO):使用人類(lèi)偏好數(shù)據(jù)調(diào)整模型。從元學(xué)習(xí)角度看,這也相當(dāng)于提供一個(gè)優(yōu)化過(guò)的更新路徑。
3. 在線(xiàn)強(qiáng)化學(xué)習(xí)(On-Policy RL):模型自行生成多個(gè)推理軌跡,并根據(jù)獎(jiǎng)勵(lì)信號(hào)優(yōu)化生成過(guò)程。從元學(xué)習(xí)角度看,這相當(dāng)于模型自己探索內(nèi)循環(huán)優(yōu)化路徑,盡管挑戰(zhàn)更大,但理論上可以達(dá)到更高的上限。
研究團(tuán)隊(duì)通過(guò)實(shí)驗(yàn)發(fā)現(xiàn),監(jiān)督微調(diào)(SFT)提供了更穩(wěn)定的內(nèi)循環(huán)優(yōu)化,而強(qiáng)化學(xué)習(xí)(RL)則提供了更大的探索空間。兩者結(jié)合使用時(shí),效果最佳——先用SFT提供穩(wěn)定的初始化,再用RL進(jìn)一步探索和優(yōu)化。
推理軌跡長(zhǎng)度與更新步數(shù)的關(guān)系
如果把推理軌跡中的每個(gè)詞元看作是一步參數(shù)更新,那么推理軌跡的長(zhǎng)度就直接關(guān)系到更新的步數(shù)。研究表明,更長(zhǎng)的推理軌跡確實(shí)帶來(lái)了更好的性能,這與元學(xué)習(xí)理論中"更多內(nèi)循環(huán)更新步數(shù)提高性能"的發(fā)現(xiàn)一致。
研究團(tuán)隊(duì)還發(fā)現(xiàn),推理軌跡中的不同詞元扮演著不同的角色:
- 反思性詞元(如"等等"、"另一種方法"、"讓我思考一下"):這些詞元在優(yōu)化過(guò)程中產(chǎn)生較大的目標(biāo)函數(shù)變化,就像是幫助模型跳出局部最優(yōu)解的"擺脫鞍點(diǎn)"機(jī)制。 - 結(jié)束思考的分隔符(如"因此"、""):這些特殊詞元促進(jìn)模型參數(shù)快速收斂,類(lèi)似于優(yōu)化中的"動(dòng)量"機(jī)制,讓模型更快地到達(dá)一個(gè)穩(wěn)定狀態(tài)。
這解釋了為什么最近的長(zhǎng)鏈思維模型(如DeepSeek-R1、QwQ等)能夠在復(fù)雜數(shù)學(xué)和編程任務(wù)上表現(xiàn)出色——它們?cè)试S更多的"內(nèi)循環(huán)更新步驟",從而獲得更優(yōu)的解題能力。
推理能力的泛化性
元學(xué)習(xí)的一個(gè)關(guān)鍵特性是能夠在相似任務(wù)之間泛化。研究團(tuán)隊(duì)發(fā)現(xiàn),通過(guò)推理軌跡訓(xùn)練的大語(yǔ)言模型確實(shí)表現(xiàn)出了這種泛化能力:
- 領(lǐng)域內(nèi)泛化:在AIME24和LiveMathBench-Hard等數(shù)學(xué)推理基準(zhǔn)測(cè)試上,訓(xùn)練后的模型性能顯著提升。 - 跨領(lǐng)域泛化:更有趣的是,在科學(xué)推理(GPQA)和代碼推理(LiveCodeBench)等完全不同領(lǐng)域的任務(wù)上,模型也展現(xiàn)出了明顯的性能提升。
這表明,通過(guò)推理軌跡訓(xùn)練獲得的能力不僅限于特定領(lǐng)域,而是一種更加普遍的推理技能,就像人類(lèi)掌握了基本的解題方法后可以應(yīng)用到不同類(lèi)型的問(wèn)題上一樣。
基于元學(xué)習(xí)的大模型推理優(yōu)化建議
基于對(duì)大模型推理的元學(xué)習(xí)理解,研究團(tuán)隊(duì)提出了幾個(gè)優(yōu)化建議:
1. 每個(gè)問(wèn)題使用多個(gè)訓(xùn)練推理軌跡:實(shí)驗(yàn)表明,為每個(gè)問(wèn)題提供更多的推理軌跡(相當(dāng)于擴(kuò)大"支持集")能顯著提高模型性能和穩(wěn)定性。就像人類(lèi)學(xué)習(xí)時(shí),看到同一問(wèn)題的多種解法會(huì)加深理解一樣。
2. 推理效率優(yōu)化:研究團(tuán)隊(duì)發(fā)現(xiàn),對(duì)于長(zhǎng)推理軌跡,存在一個(gè)"最優(yōu)軌跡",可以用更少的詞元達(dá)到相同的推理效果。團(tuán)隊(duì)使用Qwen3-32B模型演示了如何通過(guò)總結(jié)原始推理軌跡來(lái)獲得這種優(yōu)化的軌跡,在大幅減少詞元數(shù)量的同時(shí)保持推理性能。
3. 結(jié)合SFT和RL:先用SFT提供穩(wěn)定的內(nèi)循環(huán)優(yōu)化初始化,再用RL進(jìn)一步探索更優(yōu)的優(yōu)化路徑,這種組合方式能顯著提升模型性能。
研究成果與未來(lái)方向
這項(xiàng)研究不僅提供了理解大語(yǔ)言模型推理機(jī)制的新視角,還為進(jìn)一步提升模型推理能力指明了方向。研究團(tuán)隊(duì)建議未來(lái)工作可以:
1. 深入研究推理軌跡的形成機(jī)制:大語(yǔ)言模型如何學(xué)會(huì)生成有效的推理軌跡? 2. 分析不同詞元對(duì)參數(shù)更新的貢獻(xiàn):為什么某些詞元比其他詞元更重要? 3. 探索基于任務(wù)比例的跨域泛化增強(qiáng):如何優(yōu)化不同領(lǐng)域任務(wù)的訓(xùn)練比例,以獲得最佳的泛化能力?
總的來(lái)說(shuō),上海人工智能實(shí)驗(yàn)室的這項(xiàng)研究為大語(yǔ)言模型的推理機(jī)制提供了一個(gè)全新的解釋框架,將推理軌跡視為參數(shù)更新的過(guò)程,不僅深化了我們對(duì)大模型工作原理的理解,也為未來(lái)的模型優(yōu)化提供了實(shí)用的指導(dǎo)。這種將復(fù)雜的推理過(guò)程簡(jiǎn)化為直觀的優(yōu)化過(guò)程的視角,有望推動(dòng)大語(yǔ)言模型在更多復(fù)雜推理任務(wù)中取得突破。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語(yǔ)言模型的敘事推理能力與音頻生成技術(shù),通過(guò)交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開(kāi)辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過(guò)讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問(wèn)題。該技術(shù)僅需添加兩個(gè)線(xiàn)性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語(yǔ)言模型人性化對(duì)話(huà)問(wèn)題。該研究創(chuàng)建了包含20萬(wàn)高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過(guò)創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開(kāi)發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過(guò)學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來(lái)了效率和精度的雙重突破。