av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見(jiàn)證連接與計(jì)算的「力量」

首頁(yè) 解構(gòu)大模型的推理軌跡:上海人工智能實(shí)驗(yàn)室揭示大語(yǔ)言模型推理背后的優(yōu)化機(jī)制

解構(gòu)大模型的推理軌跡:上海人工智能實(shí)驗(yàn)室揭示大語(yǔ)言模型推理背后的優(yōu)化機(jī)制

2025-05-29 17:19
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-29 17:19 ? 科技行者

2025年5月26日,來(lái)自上海人工智能實(shí)驗(yàn)室的研究團(tuán)隊(duì),包括劉俊男、劉宏偉、肖林辰、劉書(shū)東、張濤林、馬子寒等研究人員,在論文預(yù)印本平臺(tái)arXiv上發(fā)布了一項(xiàng)突破性研究《Deciphering Trajectory-Aided LLM Reasoning: An Optimization Perspective》(解構(gòu)軌跡輔助的大語(yǔ)言模型推理:優(yōu)化視角)。這項(xiàng)研究由張松陽(yáng)和陳凱擔(dān)任通訊作者,為我們理解大語(yǔ)言模型(LLM)如何進(jìn)行推理提供了全新視角。

從思路軌跡到元學(xué)習(xí):大模型推理的新理解

想象一下,當(dāng)你面對(duì)一道復(fù)雜的數(shù)學(xué)題時(shí),你通常會(huì)怎么做?大多數(shù)人會(huì)在紙上寫(xiě)下思考過(guò)程,一步步推導(dǎo),最終得出答案。大語(yǔ)言模型也是如此,它們通過(guò)生成所謂的"思維鏈"(Chain of Thought,CoT)或"推理軌跡"來(lái)解決復(fù)雜問(wèn)題。但一個(gè)關(guān)鍵問(wèn)題是:這些推理軌跡到底如何幫助模型得出正確答案?

上海人工智能實(shí)驗(yàn)室的研究團(tuán)隊(duì)提出了一個(gè)全新且頗具啟發(fā)性的視角:將大語(yǔ)言模型的推理過(guò)程視為一種"元學(xué)習(xí)"(Meta-Learning)機(jī)制。簡(jiǎn)單來(lái)說(shuō),元學(xué)習(xí)就是"學(xué)習(xí)如何學(xué)習(xí)"的能力。研究團(tuán)隊(duì)創(chuàng)造性地提出了"RaML"(Reasoning as Meta-Learning)框架,將推理軌跡解讀為模型參數(shù)的"偽梯度下降更新"。

你可以這樣理解:當(dāng)我們寫(xiě)下解題思路時(shí),每寫(xiě)一步,我們的大腦就在不斷調(diào)整對(duì)問(wèn)題的理解和解決方案。對(duì)大語(yǔ)言模型來(lái)說(shuō),每生成一個(gè)推理軌跡中的詞元(token),就相當(dāng)于微調(diào)了一次模型的內(nèi)部參數(shù),使其逐漸靠近正確答案的方向。

推理軌跡如何"更新"模型參數(shù)?

研究團(tuán)隊(duì)將推理過(guò)程形式化為一個(gè)元學(xué)習(xí)設(shè)置,其中: - 每個(gè)問(wèn)題被視為一個(gè)獨(dú)立的任務(wù) - 推理軌跡充當(dāng)"內(nèi)循環(huán)優(yōu)化",用于調(diào)整模型參數(shù) - 最終答案則是"查詢(xún)集",用于優(yōu)化整個(gè)語(yǔ)言模型

假設(shè)你在解一道復(fù)雜的數(shù)學(xué)題。當(dāng)你寫(xiě)下"首先,我們需要計(jì)算..."這樣的思考步驟時(shí),你實(shí)際上是在調(diào)整自己解決問(wèn)題的方法。類(lèi)似地,當(dāng)大語(yǔ)言模型生成"讓我們先分析..."這樣的推理軌跡時(shí),它也在微調(diào)自己的參數(shù),使自己更接近正確答案。

研究團(tuán)隊(duì)通過(guò)理論推導(dǎo)證明,推理軌跡中的每個(gè)詞元都可以被視為模型參數(shù)的一次更新。團(tuán)隊(duì)還使用了QwQ-32B模型在美國(guó)高中數(shù)學(xué)邀請(qǐng)賽(AIME24)上的實(shí)驗(yàn)數(shù)據(jù),通過(guò)可視化顯示,隨著推理軌跡的展開(kāi),模型對(duì)正確答案的確信度(即負(fù)對(duì)數(shù)概率)確實(shí)在逐步降低,這就像是模型在不斷優(yōu)化自己的"內(nèi)部參數(shù)",向正確答案靠近。

元學(xué)習(xí)視角下的大模型訓(xùn)練方法

當(dāng)我們理解了推理軌跡相當(dāng)于模型參數(shù)的更新后,不同的大模型訓(xùn)練方法也就有了新的解讀。研究團(tuán)隊(duì)分析了三種主要的訓(xùn)練技術(shù):

1. 監(jiān)督微調(diào)(SFT):使用人工標(biāo)注或合成的高質(zhì)量推理軌跡訓(xùn)練模型。從元學(xué)習(xí)角度看,這相當(dāng)于讓模型學(xué)習(xí)一個(gè)"最優(yōu)內(nèi)循環(huán)優(yōu)化器"提供的更新路徑。就像一個(gè)數(shù)學(xué)老師手把手教你解題一樣,模型通過(guò)觀察專(zhuān)家解題過(guò)程來(lái)學(xué)習(xí)如何更新自己的參數(shù)。

2. 離線(xiàn)偏好優(yōu)化(Off-Policy PO):使用人類(lèi)偏好數(shù)據(jù)調(diào)整模型。從元學(xué)習(xí)角度看,這也相當(dāng)于提供一個(gè)優(yōu)化過(guò)的更新路徑。

3. 在線(xiàn)強(qiáng)化學(xué)習(xí)(On-Policy RL):模型自行生成多個(gè)推理軌跡,并根據(jù)獎(jiǎng)勵(lì)信號(hào)優(yōu)化生成過(guò)程。從元學(xué)習(xí)角度看,這相當(dāng)于模型自己探索內(nèi)循環(huán)優(yōu)化路徑,盡管挑戰(zhàn)更大,但理論上可以達(dá)到更高的上限。

研究團(tuán)隊(duì)通過(guò)實(shí)驗(yàn)發(fā)現(xiàn),監(jiān)督微調(diào)(SFT)提供了更穩(wěn)定的內(nèi)循環(huán)優(yōu)化,而強(qiáng)化學(xué)習(xí)(RL)則提供了更大的探索空間。兩者結(jié)合使用時(shí),效果最佳——先用SFT提供穩(wěn)定的初始化,再用RL進(jìn)一步探索和優(yōu)化。

推理軌跡長(zhǎng)度與更新步數(shù)的關(guān)系

如果把推理軌跡中的每個(gè)詞元看作是一步參數(shù)更新,那么推理軌跡的長(zhǎng)度就直接關(guān)系到更新的步數(shù)。研究表明,更長(zhǎng)的推理軌跡確實(shí)帶來(lái)了更好的性能,這與元學(xué)習(xí)理論中"更多內(nèi)循環(huán)更新步數(shù)提高性能"的發(fā)現(xiàn)一致。

研究團(tuán)隊(duì)還發(fā)現(xiàn),推理軌跡中的不同詞元扮演著不同的角色:

- 反思性詞元(如"等等"、"另一種方法"、"讓我思考一下"):這些詞元在優(yōu)化過(guò)程中產(chǎn)生較大的目標(biāo)函數(shù)變化,就像是幫助模型跳出局部最優(yōu)解的"擺脫鞍點(diǎn)"機(jī)制。 - 結(jié)束思考的分隔符(如"因此"、""):這些特殊詞元促進(jìn)模型參數(shù)快速收斂,類(lèi)似于優(yōu)化中的"動(dòng)量"機(jī)制,讓模型更快地到達(dá)一個(gè)穩(wěn)定狀態(tài)。

這解釋了為什么最近的長(zhǎng)鏈思維模型(如DeepSeek-R1、QwQ等)能夠在復(fù)雜數(shù)學(xué)和編程任務(wù)上表現(xiàn)出色——它們?cè)试S更多的"內(nèi)循環(huán)更新步驟",從而獲得更優(yōu)的解題能力。

推理能力的泛化性

元學(xué)習(xí)的一個(gè)關(guān)鍵特性是能夠在相似任務(wù)之間泛化。研究團(tuán)隊(duì)發(fā)現(xiàn),通過(guò)推理軌跡訓(xùn)練的大語(yǔ)言模型確實(shí)表現(xiàn)出了這種泛化能力:

- 領(lǐng)域內(nèi)泛化:在AIME24和LiveMathBench-Hard等數(shù)學(xué)推理基準(zhǔn)測(cè)試上,訓(xùn)練后的模型性能顯著提升。 - 跨領(lǐng)域泛化:更有趣的是,在科學(xué)推理(GPQA)和代碼推理(LiveCodeBench)等完全不同領(lǐng)域的任務(wù)上,模型也展現(xiàn)出了明顯的性能提升。

這表明,通過(guò)推理軌跡訓(xùn)練獲得的能力不僅限于特定領(lǐng)域,而是一種更加普遍的推理技能,就像人類(lèi)掌握了基本的解題方法后可以應(yīng)用到不同類(lèi)型的問(wèn)題上一樣。

基于元學(xué)習(xí)的大模型推理優(yōu)化建議

基于對(duì)大模型推理的元學(xué)習(xí)理解,研究團(tuán)隊(duì)提出了幾個(gè)優(yōu)化建議:

1. 每個(gè)問(wèn)題使用多個(gè)訓(xùn)練推理軌跡:實(shí)驗(yàn)表明,為每個(gè)問(wèn)題提供更多的推理軌跡(相當(dāng)于擴(kuò)大"支持集")能顯著提高模型性能和穩(wěn)定性。就像人類(lèi)學(xué)習(xí)時(shí),看到同一問(wèn)題的多種解法會(huì)加深理解一樣。

2. 推理效率優(yōu)化:研究團(tuán)隊(duì)發(fā)現(xiàn),對(duì)于長(zhǎng)推理軌跡,存在一個(gè)"最優(yōu)軌跡",可以用更少的詞元達(dá)到相同的推理效果。團(tuán)隊(duì)使用Qwen3-32B模型演示了如何通過(guò)總結(jié)原始推理軌跡來(lái)獲得這種優(yōu)化的軌跡,在大幅減少詞元數(shù)量的同時(shí)保持推理性能。

3. 結(jié)合SFT和RL:先用SFT提供穩(wěn)定的內(nèi)循環(huán)優(yōu)化初始化,再用RL進(jìn)一步探索更優(yōu)的優(yōu)化路徑,這種組合方式能顯著提升模型性能。

研究成果與未來(lái)方向

這項(xiàng)研究不僅提供了理解大語(yǔ)言模型推理機(jī)制的新視角,還為進(jìn)一步提升模型推理能力指明了方向。研究團(tuán)隊(duì)建議未來(lái)工作可以:

1. 深入研究推理軌跡的形成機(jī)制:大語(yǔ)言模型如何學(xué)會(huì)生成有效的推理軌跡? 2. 分析不同詞元對(duì)參數(shù)更新的貢獻(xiàn):為什么某些詞元比其他詞元更重要? 3. 探索基于任務(wù)比例的跨域泛化增強(qiáng):如何優(yōu)化不同領(lǐng)域任務(wù)的訓(xùn)練比例,以獲得最佳的泛化能力?

總的來(lái)說(shuō),上海人工智能實(shí)驗(yàn)室的這項(xiàng)研究為大語(yǔ)言模型的推理機(jī)制提供了一個(gè)全新的解釋框架,將推理軌跡視為參數(shù)更新的過(guò)程,不僅深化了我們對(duì)大模型工作原理的理解,也為未來(lái)的模型優(yōu)化提供了實(shí)用的指導(dǎo)。這種將復(fù)雜的推理過(guò)程簡(jiǎn)化為直觀的優(yōu)化過(guò)程的視角,有望推動(dòng)大語(yǔ)言模型在更多復(fù)雜推理任務(wù)中取得突破。

分享至
1贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-