av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<code id="azrz4"><acronym id="azrz4"><del id="azrz4"></del></acronym></code>

首頁(yè)
對(duì)話(huà)創(chuàng)新
對(duì)話(huà)科技行者
機(jī)器人新紀(jì)元
AI論文解讀
聯(lián)系我們

微信掃一掃，關(guān)注公眾號(hào)

科技行者
算力行者

見(jiàn)證連接與計(jì)算的「力量」

解構(gòu)大模型的推理軌跡：上海人工智能實(shí)驗(yàn)室揭示大語(yǔ)言模型推理背后的優(yōu)化機(jī)制

人工智能元學(xué)習(xí)大語(yǔ)言模型推理

解構(gòu)大模型的推理軌跡：上海人工智能實(shí)驗(yàn)室揭示大語(yǔ)言模型推理背后的優(yōu)化機(jī)制

作者：科技行者

2025-05-29 17:19

分享至：

上海人工智能實(shí)驗(yàn)室研究團(tuán)隊(duì)提出了"RaML"框架，首次從元學(xué)習(xí)視角解釋大語(yǔ)言模型的推理機(jī)制。研究將推理軌跡解析為模型參數(shù)的"偽梯度下降"更新，揭示了不同訓(xùn)練方法的內(nèi)在聯(lián)系，并證明了更長(zhǎng)推理軌跡和多樣化訓(xùn)練能顯著提升模型性能與泛化能力。這一理論框架不僅深化了對(duì)大模型工作原理的理解，還為推理效率優(yōu)化和能力提升提供了實(shí)用指導(dǎo)。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-05-29 17:19 ? 科技行者

2025年5月26日，來(lái)自上海人工智能實(shí)驗(yàn)室的研究團(tuán)隊(duì)，包括劉俊男、劉宏偉、肖林辰、劉書(shū)東、張濤林、馬子寒等研究人員，在論文預(yù)印本平臺(tái)arXiv上發(fā)布了一項(xiàng)突破性研究《Deciphering Trajectory-Aided LLM Reasoning: An Optimization Perspective》（解構(gòu)軌跡輔助的大語(yǔ)言模型推理：優(yōu)化視角）。這項(xiàng)研究由張松陽(yáng)和陳凱擔(dān)任通訊作者，為我們理解大語(yǔ)言模型（LLM）如何進(jìn)行推理提供了全新視角。

從思路軌跡到元學(xué)習(xí)：大模型推理的新理解

想象一下，當(dāng)你面對(duì)一道復(fù)雜的數(shù)學(xué)題時(shí)，你通常會(huì)怎么做？大多數(shù)人會(huì)在紙上寫(xiě)下思考過(guò)程，一步步推導(dǎo)，最終得出答案。大語(yǔ)言模型也是如此，它們通過(guò)生成所謂的"思維鏈"（Chain of Thought，CoT）或"推理軌跡"來(lái)解決復(fù)雜問(wèn)題。但一個(gè)關(guān)鍵問(wèn)題是：這些推理軌跡到底如何幫助模型得出正確答案？

上海人工智能實(shí)驗(yàn)室的研究團(tuán)隊(duì)提出了一個(gè)全新且頗具啟發(fā)性的視角：將大語(yǔ)言模型的推理過(guò)程視為一種"元學(xué)習(xí)"（Meta-Learning）機(jī)制。簡(jiǎn)單來(lái)說(shuō)，元學(xué)習(xí)就是"學(xué)習(xí)如何學(xué)習(xí)"的能力。研究團(tuán)隊(duì)創(chuàng)造性地提出了"RaML"（Reasoning as Meta-Learning）框架，將推理軌跡解讀為模型參數(shù)的"偽梯度下降更新"。

你可以這樣理解：當(dāng)我們寫(xiě)下解題思路時(shí)，每寫(xiě)一步，我們的大腦就在不斷調(diào)整對(duì)問(wèn)題的理解和解決方案。對(duì)大語(yǔ)言模型來(lái)說(shuō)，每生成一個(gè)推理軌跡中的詞元（token），就相當(dāng)于微調(diào)了一次模型的內(nèi)部參數(shù)，使其逐漸靠近正確答案的方向。

推理軌跡如何"更新"模型參數(shù)？

研究團(tuán)隊(duì)將推理過(guò)程形式化為一個(gè)元學(xué)習(xí)設(shè)置，其中： - 每個(gè)問(wèn)題被視為一個(gè)獨(dú)立的任務(wù) - 推理軌跡充當(dāng)"內(nèi)循環(huán)優(yōu)化"，用于調(diào)整模型參數(shù) - 最終答案則是"查詢(xún)集"，用于優(yōu)化整個(gè)語(yǔ)言模型

假設(shè)你在解一道復(fù)雜的數(shù)學(xué)題。當(dāng)你寫(xiě)下"首先，我們需要計(jì)算..."這樣的思考步驟時(shí)，你實(shí)際上是在調(diào)整自己解決問(wèn)題的方法。類(lèi)似地，當(dāng)大語(yǔ)言模型生成"讓我們先分析..."這樣的推理軌跡時(shí)，它也在微調(diào)自己的參數(shù)，使自己更接近正確答案。

研究團(tuán)隊(duì)通過(guò)理論推導(dǎo)證明，推理軌跡中的每個(gè)詞元都可以被視為模型參數(shù)的一次更新。團(tuán)隊(duì)還使用了QwQ-32B模型在美國(guó)高中數(shù)學(xué)邀請(qǐng)賽（AIME24）上的實(shí)驗(yàn)數(shù)據(jù)，通過(guò)可視化顯示，隨著推理軌跡的展開(kāi)，模型對(duì)正確答案的確信度（即負(fù)對(duì)數(shù)概率）確實(shí)在逐步降低，這就像是模型在不斷優(yōu)化自己的"內(nèi)部參數(shù)"，向正確答案靠近。

元學(xué)習(xí)視角下的大模型訓(xùn)練方法

當(dāng)我們理解了推理軌跡相當(dāng)于模型參數(shù)的更新后，不同的大模型訓(xùn)練方法也就有了新的解讀。研究團(tuán)隊(duì)分析了三種主要的訓(xùn)練技術(shù)：

1. 監(jiān)督微調(diào)（SFT）：使用人工標(biāo)注或合成的高質(zhì)量推理軌跡訓(xùn)練模型。從元學(xué)習(xí)角度看，這相當(dāng)于讓模型學(xué)習(xí)一個(gè)"最優(yōu)內(nèi)循環(huán)優(yōu)化器"提供的更新路徑。就像一個(gè)數(shù)學(xué)老師手把手教你解題一樣，模型通過(guò)觀察專(zhuān)家解題過(guò)程來(lái)學(xué)習(xí)如何更新自己的參數(shù)。

2. 離線(xiàn)偏好優(yōu)化（Off-Policy PO）：使用人類(lèi)偏好數(shù)據(jù)調(diào)整模型。從元學(xué)習(xí)角度看，這也相當(dāng)于提供一個(gè)優(yōu)化過(guò)的更新路徑。

3. 在線(xiàn)強(qiáng)化學(xué)習(xí)（On-Policy RL）：模型自行生成多個(gè)推理軌跡，并根據(jù)獎(jiǎng)勵(lì)信號(hào)優(yōu)化生成過(guò)程。從元學(xué)習(xí)角度看，這相當(dāng)于模型自己探索內(nèi)循環(huán)優(yōu)化路徑，盡管挑戰(zhàn)更大，但理論上可以達(dá)到更高的上限。

研究團(tuán)隊(duì)通過(guò)實(shí)驗(yàn)發(fā)現(xiàn)，監(jiān)督微調(diào)（SFT）提供了更穩(wěn)定的內(nèi)循環(huán)優(yōu)化，而強(qiáng)化學(xué)習(xí)（RL）則提供了更大的探索空間。兩者結(jié)合使用時(shí)，效果最佳——先用SFT提供穩(wěn)定的初始化，再用RL進(jìn)一步探索和優(yōu)化。

推理軌跡長(zhǎng)度與更新步數(shù)的關(guān)系

如果把推理軌跡中的每個(gè)詞元看作是一步參數(shù)更新，那么推理軌跡的長(zhǎng)度就直接關(guān)系到更新的步數(shù)。研究表明，更長(zhǎng)的推理軌跡確實(shí)帶來(lái)了更好的性能，這與元學(xué)習(xí)理論中"更多內(nèi)循環(huán)更新步數(shù)提高性能"的發(fā)現(xiàn)一致。

研究團(tuán)隊(duì)還發(fā)現(xiàn)，推理軌跡中的不同詞元扮演著不同的角色：

- 反思性詞元（如"等等"、"另一種方法"、"讓我思考一下"）：這些詞元在優(yōu)化過(guò)程中產(chǎn)生較大的目標(biāo)函數(shù)變化，就像是幫助模型跳出局部最優(yōu)解的"擺脫鞍點(diǎn)"機(jī)制。 - 結(jié)束思考的分隔符（如"因此"、""）：這些特殊詞元促進(jìn)模型參數(shù)快速收斂，類(lèi)似于優(yōu)化中的"動(dòng)量"機(jī)制，讓模型更快地到達(dá)一個(gè)穩(wěn)定狀態(tài)。

這解釋了為什么最近的長(zhǎng)鏈思維模型（如DeepSeek-R1、QwQ等）能夠在復(fù)雜數(shù)學(xué)和編程任務(wù)上表現(xiàn)出色——它們?cè)试S更多的"內(nèi)循環(huán)更新步驟"，從而獲得更優(yōu)的解題能力。

推理能力的泛化性

元學(xué)習(xí)的一個(gè)關(guān)鍵特性是能夠在相似任務(wù)之間泛化。研究團(tuán)隊(duì)發(fā)現(xiàn)，通過(guò)推理軌跡訓(xùn)練的大語(yǔ)言模型確實(shí)表現(xiàn)出了這種泛化能力：

- 領(lǐng)域內(nèi)泛化：在AIME24和LiveMathBench-Hard等數(shù)學(xué)推理基準(zhǔn)測(cè)試上，訓(xùn)練后的模型性能顯著提升。 - 跨領(lǐng)域泛化：更有趣的是，在科學(xué)推理（GPQA）和代碼推理（LiveCodeBench）等完全不同領(lǐng)域的任務(wù)上，模型也展現(xiàn)出了明顯的性能提升。

這表明，通過(guò)推理軌跡訓(xùn)練獲得的能力不僅限于特定領(lǐng)域，而是一種更加普遍的推理技能，就像人類(lèi)掌握了基本的解題方法后可以應(yīng)用到不同類(lèi)型的問(wèn)題上一樣。

基于元學(xué)習(xí)的大模型推理優(yōu)化建議

基于對(duì)大模型推理的元學(xué)習(xí)理解，研究團(tuán)隊(duì)提出了幾個(gè)優(yōu)化建議：

1. 每個(gè)問(wèn)題使用多個(gè)訓(xùn)練推理軌跡：實(shí)驗(yàn)表明，為每個(gè)問(wèn)題提供更多的推理軌跡（相當(dāng)于擴(kuò)大"支持集"）能顯著提高模型性能和穩(wěn)定性。就像人類(lèi)學(xué)習(xí)時(shí)，看到同一問(wèn)題的多種解法會(huì)加深理解一樣。

2. 推理效率優(yōu)化：研究團(tuán)隊(duì)發(fā)現(xiàn)，對(duì)于長(zhǎng)推理軌跡，存在一個(gè)"最優(yōu)軌跡"，可以用更少的詞元達(dá)到相同的推理效果。團(tuán)隊(duì)使用Qwen3-32B模型演示了如何通過(guò)總結(jié)原始推理軌跡來(lái)獲得這種優(yōu)化的軌跡，在大幅減少詞元數(shù)量的同時(shí)保持推理性能。

3. 結(jié)合SFT和RL：先用SFT提供穩(wěn)定的內(nèi)循環(huán)優(yōu)化初始化，再用RL進(jìn)一步探索更優(yōu)的優(yōu)化路徑，這種組合方式能顯著提升模型性能。

研究成果與未來(lái)方向

這項(xiàng)研究不僅提供了理解大語(yǔ)言模型推理機(jī)制的新視角，還為進(jìn)一步提升模型推理能力指明了方向。研究團(tuán)隊(duì)建議未來(lái)工作可以：

1. 深入研究推理軌跡的形成機(jī)制：大語(yǔ)言模型如何學(xué)會(huì)生成有效的推理軌跡？ 2. 分析不同詞元對(duì)參數(shù)更新的貢獻(xiàn)：為什么某些詞元比其他詞元更重要？ 3. 探索基于任務(wù)比例的跨域泛化增強(qiáng)：如何優(yōu)化不同領(lǐng)域任務(wù)的訓(xùn)練比例，以獲得最佳的泛化能力？

總的來(lái)說(shuō)，上海人工智能實(shí)驗(yàn)室的這項(xiàng)研究為大語(yǔ)言模型的推理機(jī)制提供了一個(gè)全新的解釋框架，將推理軌跡視為參數(shù)更新的過(guò)程，不僅深化了我們對(duì)大模型工作原理的理解，也為未來(lái)的模型優(yōu)化提供了實(shí)用的指導(dǎo)。這種將復(fù)雜的推理過(guò)程簡(jiǎn)化為直觀的優(yōu)化過(guò)程的視角，有望推動(dòng)大語(yǔ)言模型在更多復(fù)雜推理任務(wù)中取得突破。

人工智能元學(xué)習(xí)大語(yǔ)言模型推理

分享至

1贊

好文章，需要你的鼓勵(lì)

推薦文章

音頻生成
大語(yǔ)言模型
多模態(tài)AI

2025-09-10 09:47

如何讓AI像電影配樂(lè)師一樣創(chuàng)作完整的長(zhǎng)篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng)，首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語(yǔ)言模型的敘事推理能力與音頻生成技術(shù)，通過(guò)交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練，能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異，為AI音頻創(chuàng)作開(kāi)辟新方向。
視頻生成
深度學(xué)習(xí)
多模態(tài)學(xué)習(xí)

2025-09-09 13:57

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動(dòng)起來(lái)不再是奢望

Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù)，通過(guò)讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息，顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問(wèn)題。該技術(shù)僅需添加兩個(gè)線(xiàn)性層就能大幅提升運(yùn)動(dòng)質(zhì)量，在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型，為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
多模態(tài)AI
人類(lèi)價(jià)值觀對(duì)齊
數(shù)據(jù)集構(gòu)建

2025-09-09 13:56

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說(shuō)人話(huà)"的神奇訓(xùn)練法，解決多模態(tài)AI與人類(lèi)價(jià)值觀對(duì)齊難題

上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究，首次系統(tǒng)性解決多模態(tài)大語(yǔ)言模型人性化對(duì)話(huà)問(wèn)題。該研究創(chuàng)建了包含20萬(wàn)高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn)，通過(guò)創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法，讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平，為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
人工智能
圖神經(jīng)網(wǎng)絡(luò)
天氣預(yù)報(bào)

2025-09-09 10:56

谷歌研究團(tuán)隊(duì)發(fā)布超級(jí)預(yù)測(cè)模型：讓AI像天氣預(yù)報(bào)員一樣預(yù)測(cè)全球大氣變化

谷歌DeepMind團(tuán)隊(duì)開(kāi)發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型，能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào)，準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù)，通過(guò)學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律，在極端天氣預(yù)測(cè)方面表現(xiàn)卓越，能耗僅為傳統(tǒng)方法的千分之一，為氣象學(xué)領(lǐng)域帶來(lái)了效率和精度的雙重突破。

如何讓AI像電影配樂(lè)師一樣創(chuàng)作完整的長(zhǎng)篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

如何讓AI像電影配樂(lè)師一樣創(chuàng)作完整的長(zhǎng)篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

2025-09-10 09:47

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動(dòng)起來(lái)不再是奢望

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動(dòng)起來(lái)不再是奢望

2025-09-09 13:57

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說(shuō)人話(huà)"的神奇訓(xùn)練法，解決多模態(tài)AI與人類(lèi)價(jià)值觀對(duì)齊難題

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說(shuō)人話(huà)"的神奇訓(xùn)練法，解決多模態(tài)AI與人類(lèi)價(jià)值觀對(duì)齊難題

2025-09-09 13:56

谷歌研究團(tuán)隊(duì)發(fā)布超級(jí)預(yù)測(cè)模型：讓AI像天氣預(yù)報(bào)員一樣預(yù)測(cè)全球大氣變化

谷歌研究團(tuán)隊(duì)發(fā)布超級(jí)預(yù)測(cè)模型：讓AI像天氣預(yù)報(bào)員一樣預(yù)測(cè)全球大氣變化

2025-09-09 10:56

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時(shí)代

京ICP證15039648號(hào) 京ICP備15039648號(hào)-9 京公網(wǎng)安備 11010802021500號(hào)

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報(bào)電話(huà)：010-62641205　涉未成年人舉報(bào)專(zhuān)線(xiàn)：010-62641208 舉報(bào)郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報(bào)專(zhuān)區(qū)：https://www.12377.cn

<var id="ijcru"></var>