av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見(jiàn)證連接與計(jì)算的「力量」

首頁(yè) 黑暗中探索:北京通用人工智能研究院團(tuán)隊(duì)提出基于潛在空間策略梯度的測(cè)試時(shí)推理新方法

黑暗中探索:北京通用人工智能研究院團(tuán)隊(duì)提出基于潛在空間策略梯度的測(cè)試時(shí)推理新方法

2025-05-23 07:52
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-23 07:52 ? 科技行者

大型語(yǔ)言模型(LLM)的推理能力是人工智能走向通用智能的關(guān)鍵,但仍然面臨著嚴(yán)重的挑戰(zhàn)。近日,來(lái)自北京通用人工智能研究院、北京大學(xué)、清華大學(xué)、上海交通大學(xué)等機(jī)構(gòu)的研究團(tuán)隊(duì)在2025年5月19日發(fā)表了一篇題為《Seek in the Dark: Reasoning via Test-Time Instance-Level Policy Gradient in Latent Space》(《黑暗中探索:潛在空間中基于測(cè)試時(shí)實(shí)例級(jí)策略梯度的推理》)的論文,提出了一種名為L(zhǎng)ATENTSEEK的創(chuàng)新框架,通過(guò)潛在空間的測(cè)試時(shí)實(shí)例級(jí)適應(yīng)(TTIA)來(lái)提升大型語(yǔ)言模型的推理能力。

想象一下,當(dāng)我們?cè)噲D在黑暗中找到通往出口的路時(shí),傳統(tǒng)方法就像是不斷嘗試不同的走法,而每次都要從頭開(kāi)始。而這個(gè)新方法LATENTSEEK則像是在黑暗中帶著一個(gè)能感知周圍環(huán)境的特殊裝置,可以根據(jù)每一步的反饋微調(diào)下一步的方向,不斷接近目標(biāo)。這種方法不需要修改語(yǔ)言模型的任何參數(shù),卻能顯著提升其解決復(fù)雜問(wèn)題的能力。

傳統(tǒng)上,提升大型語(yǔ)言模型的推理能力主要有兩種方式:一是通過(guò)大量數(shù)據(jù)和復(fù)雜算法訓(xùn)練更強(qiáng)大的模型,這需要巨大的計(jì)算資源;二是通過(guò)提示工程(Prompt Engineering)引導(dǎo)模型更好地思考,但這依賴于人工設(shè)計(jì)的提示。LATENTSEEK開(kāi)辟了第三條道路:它不改變模型參數(shù),也不依賴復(fù)雜的提示,而是直接在模型的"思考空間"——潛在空間中進(jìn)行探索和優(yōu)化。

這項(xiàng)研究的核心創(chuàng)新在于將測(cè)試時(shí)的優(yōu)化從詞匯空間(即直接優(yōu)化生成的詞語(yǔ))轉(zhuǎn)移到了潛在空間(模型內(nèi)部的表示空間)。這就像是不再關(guān)注人說(shuō)出的具體句子,而是直接調(diào)整人腦中的思維過(guò)程。研究團(tuán)隊(duì)發(fā)現(xiàn),在這個(gè)潛在空間中進(jìn)行優(yōu)化,能夠更有效地引導(dǎo)模型進(jìn)行推理,并且符合"測(cè)試時(shí)擴(kuò)展定律"(test-time scaling law),即隨著測(cè)試時(shí)計(jì)算量的增加,模型性能會(huì)持續(xù)提升。

研究團(tuán)隊(duì)在多個(gè)推理基準(zhǔn)測(cè)試上評(píng)估了LATENTSEEK,包括GSM8K、MATH-500和AIME2024,并在多種LLM架構(gòu)上進(jìn)行了測(cè)試。結(jié)果表明,LATENTSEEK在所有測(cè)試中都顯著優(yōu)于強(qiáng)基線方法,如思維鏈(Chain-of-Thought)提示和基于微調(diào)的方法。特別是在GSM8K數(shù)據(jù)集上,LATENTSEEK相比思維鏈方法平均提升了10.75%的準(zhǔn)確率;在MATH-500上提升了3.93%;在AIME2024上提升了4.73%。

更令人驚訝的是,當(dāng)使用LlaMA3.1-8B-Instruct作為底層模型時(shí),LATENTSEEK在GSM8K和MATH-500數(shù)據(jù)集上的表現(xiàn)分別超過(guò)了SimpleRL-Zoo(+18.1%)和Genius(+12.7%)等先前的方法。這些結(jié)果充分證明了該方法的有效性。

一、潛在空間測(cè)試時(shí)實(shí)例級(jí)適應(yīng)(TTIA)的基本原理

傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法通常需要更新模型參數(shù),這不僅計(jì)算成本高,還可能導(dǎo)致災(zāi)難性遺忘等問(wèn)題。而LATENTSEEK采用的測(cè)試時(shí)實(shí)例級(jí)適應(yīng)(TTIA)方法則不需要修改模型參數(shù),而是在測(cè)試階段針對(duì)每個(gè)具體問(wèn)題進(jìn)行適應(yīng)。

想象你是一位導(dǎo)航員,在幫助駕駛員找到目的地。傳統(tǒng)方法就像是每次出發(fā)前都要重新培訓(xùn)這位駕駛員的駕駛技術(shù)(更新模型參數(shù))。而LATENTSEEK的做法則是:駕駛員的技術(shù)保持不變,但你作為導(dǎo)航員可以根據(jù)路況實(shí)時(shí)調(diào)整行駛路線(優(yōu)化潛在表示)。

具體來(lái)說(shuō),LATENTSEEK的工作原理可以描述為:給定一個(gè)推理問(wèn)題實(shí)例作為上下文提示c,以及一個(gè)預(yù)訓(xùn)練的自回歸語(yǔ)言模型π,該模型會(huì)生成一個(gè)推理序列x = (x?, x?, ..., x?),其概率分布為π(x|c)。解決問(wèn)題的目標(biāo)是找到一個(gè)推理序列x,使得最終答案a ~ π(·|x, c)與真實(shí)答案一致。然而,在測(cè)試時(shí),真實(shí)答案是未知的,因此引入了一個(gè)獎(jiǎng)勵(lì)函數(shù)R(x, c)來(lái)評(píng)估推理序列。TTIA的目標(biāo)就是找到一個(gè)最大化這個(gè)獎(jiǎng)勵(lì)函數(shù)的推理序列:x* = argmax R(x, c)。

LATENTSEEK的創(chuàng)新之處在于將優(yōu)化目標(biāo)從詞匯空間轉(zhuǎn)移到了潛在空間。對(duì)于給定的輸入序列x,我們可以得到一個(gè)對(duì)應(yīng)的潛在表示序列z = (z?, z?, ..., z?),其中z?是在潛在空間中表示x?的向量。LATENTSEEK的目標(biāo)是找到最優(yōu)的潛在表示序列:z* = argmax E[R(x, c)],其中x是從π(x|z)采樣得到的。

二、LATENTSEEK算法的工作流程

LATENTSEEK算法的工作流程就像一位偵探在黑暗中尋找線索,不斷調(diào)整搜索方向,最終找到真相。整個(gè)流程可以概括為初始化、迭代優(yōu)化和解碼三個(gè)主要步驟。

首先是初始化階段。給定一個(gè)問(wèn)題實(shí)例c,算法使用預(yù)訓(xùn)練模型生成初始的潛在表示z???。這就像偵探根據(jù)初步信息形成的第一個(gè)調(diào)查方向。為了提高效率,研究團(tuán)隊(duì)采用了思維鏈(CoT)推理序列作為初始潛在表示,這相當(dāng)于利用一些已知的調(diào)查經(jīng)驗(yàn)作為起點(diǎn)。

接下來(lái)是迭代優(yōu)化階段。在每次迭代中,算法使用策略梯度方法更新潛在表示:z ← z + η?J(z),其中η是學(xué)習(xí)率,?J(z)是目標(biāo)函數(shù)關(guān)于z的梯度。這個(gè)過(guò)程就像偵探根據(jù)新發(fā)現(xiàn)的線索不斷調(diào)整調(diào)查方向。值得注意的是,由于假設(shè)潛在表示之間是獨(dú)立的(研究團(tuán)隊(duì)在附錄A中提供了理論支持),每個(gè)位置的潛在表示可以獨(dú)立更新。

最后是解碼階段。將優(yōu)化后的潛在表示解碼成詞匯,形成最終的推理序列。這就像偵探最終整理證據(jù),形成完整的案件報(bào)告。

為了提高優(yōu)化效率,研究團(tuán)隊(duì)還引入了兩個(gè)創(chuàng)新技術(shù)。一是分?jǐn)?shù)序列優(yōu)化:不是優(yōu)化整個(gè)序列的潛在表示z = [z?, z?, ..., z?],而是只優(yōu)化其中的一部分[z?, z?, ..., zρ?],其中ρ ∈ (0, 1]是一個(gè)超參數(shù)。二是獎(jiǎng)勵(lì)機(jī)制設(shè)計(jì):使用自獎(jiǎng)勵(lì)機(jī)制,即模型自己評(píng)估生成的答案質(zhì)量,無(wú)需外部信息。

實(shí)際操作中,算法首先將上下文提示輸入預(yù)訓(xùn)練模型,得到初始潛在表示。然后通過(guò)貪婪解碼生成初始推理序列,并計(jì)算獎(jiǎng)勵(lì)。接著進(jìn)入迭代優(yōu)化階段,每次迭代使用策略梯度更新潛在表示,然后解碼生成新的推理序列,再計(jì)算獎(jiǎng)勵(lì)。這個(gè)過(guò)程持續(xù)到達(dá)到最大迭代次數(shù)或獎(jiǎng)勵(lì)超過(guò)預(yù)設(shè)閾值。

三、實(shí)驗(yàn)設(shè)置與實(shí)施細(xì)節(jié)

研究團(tuán)隊(duì)設(shè)計(jì)了一系列實(shí)驗(yàn)來(lái)評(píng)估LATENTSEEK的性能。實(shí)驗(yàn)使用了三個(gè)推理基準(zhǔn)測(cè)試:GSM8K(基礎(chǔ)數(shù)學(xué)問(wèn)題集)、MATH-500(高級(jí)數(shù)學(xué)問(wèn)題集)和AIME2024(美國(guó)高中數(shù)學(xué)邀請(qǐng)賽問(wèn)題)。這三個(gè)數(shù)據(jù)集代表了不同難度級(jí)別的數(shù)學(xué)推理任務(wù),從基礎(chǔ)到高級(jí),再到競(jìng)賽級(jí)別。

為了評(píng)估方法的通用性,研究團(tuán)隊(duì)使用了多種大型語(yǔ)言模型作為底層模型,包括Qwen2-7B-Instruct、Qwen2.5-1.5B-Instruct、Qwen2.5-7B-Instruct、Qwen2.5-14B-Instruct、LLaMA3.1-8B-Instruct和Mistral-7B-Instruct-v0.3。這些模型代表了不同參數(shù)規(guī)模(從1.5B到14B)和不同模型系列的語(yǔ)言模型。

研究團(tuán)隊(duì)將LATENTSEEK與多種基線方法進(jìn)行了比較,包括: 1) 提示方法:思維鏈(CoT)和少樣本思維鏈(Few-Shot CoT); 2) 顯式搜索方法:Best-of-N(BoN); 3) 強(qiáng)化學(xué)習(xí)方法:自獎(jiǎng)勵(lì)(Self-Rewarding)、ScPO、CoH、Genius、SimpleRL-Zoo、GRPO和SPIN; 4) 潛在思維鏈方法:iCoT; 5) 監(jiān)督微調(diào)方法:SFT。

為了公平比較,研究團(tuán)隊(duì)使用了兩種不同的提示模板進(jìn)行評(píng)估。第一種提示要求模型使用\boxed{}包裝答案,第二種提示要求模型以JSON格式輸出答案。這兩種提示分別代表了不同的輸出格式要求。

在獎(jiǎng)勵(lì)機(jī)制方面,研究團(tuán)隊(duì)采用了Lifshitz等人提出的數(shù)學(xué)推理提示來(lái)引導(dǎo)模型進(jìn)行自獎(jiǎng)勵(lì)計(jì)算。同樣的提示結(jié)構(gòu)被一致地應(yīng)用于所有任務(wù)和模型。對(duì)于特定任務(wù)和模型,研究團(tuán)隊(duì)還引入了基于格式的獎(jiǎng)勵(lì)。為了進(jìn)一步說(shuō)明該方法的潛力,研究團(tuán)隊(duì)還引入了一個(gè)完美稀疏獎(jiǎng)勵(lì)模型(PSRM)。

四、實(shí)驗(yàn)結(jié)果與性能分析

LATENTSEEK在所有測(cè)試基準(zhǔn)上都表現(xiàn)出色。在GSM8K數(shù)據(jù)集上,使用LLaMA3.1-8B-Instruct作為底層模型時(shí),LATENTSEEK比思維鏈方法提升了14.6個(gè)百分點(diǎn),比訓(xùn)練無(wú)關(guān)的BoN方法提升了7.7個(gè)百分點(diǎn)。與SFT(Magpie 25K)相比,LATENTSEEK在GSM8K和MATH-500上的最低提升也達(dá)到了12.9個(gè)百分點(diǎn)。

更值得注意的是,LATENTSEEK超越了最先進(jìn)的自獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)方法Genius,在GSM8K上領(lǐng)先5.4個(gè)百分點(diǎn),在MATH-500上領(lǐng)先20個(gè)百分點(diǎn)。它還大幅超過(guò)了iCoT(一種在增強(qiáng)GSM8K數(shù)據(jù)集上訓(xùn)練的潛在方法)在GSM8K測(cè)試集上的表現(xiàn),提升了36.6個(gè)百分點(diǎn)。

在更具挑戰(zhàn)性的AIME2024基準(zhǔn)測(cè)試上,LATENTSEEK也展現(xiàn)出了優(yōu)異的性能。它在所有模型家族和提示配置上平均比思維鏈方法提升了4.73個(gè)百分點(diǎn)。即使是較弱的模型,如Mistral和Qwen2.5-1.5B-Instruct,也從LATENTSEEK中受益,與思維鏈相比分別平均提升了1.67和3.33個(gè)百分點(diǎn)。

研究團(tuán)隊(duì)還發(fā)現(xiàn),LATENTSEEK表現(xiàn)出良好的跨模型通用性。它在多個(gè)模型家族上都取得了優(yōu)異的性能,包括Qwen2、Qwen2.5和LLaMA3.1系列。在1.5B參數(shù)規(guī)模上,LATENTSEEK在GSM8K數(shù)據(jù)集(提示2)上比思維鏈基線提升了顯著的28.89個(gè)百分點(diǎn)。在7-8B規(guī)模上,基于Qwen2、Qwen2.5和LLaMA3.1的模型也普遍超過(guò)所有基線。

更有趣的是,研究團(tuán)隊(duì)觀察到模型在測(cè)試時(shí)的性能隨著迭代次數(shù)的增加而提升。特別是當(dāng)配備理想的驗(yàn)證器時(shí),LATENTSEEK能夠?qū)?.5B參數(shù)模型在MATH-500數(shù)據(jù)集上的性能從54.8%提升到82.8%,接近OpenAI的o1-preview模型的性能。這表明測(cè)試時(shí)擴(kuò)展可以在潛在空間中有效實(shí)現(xiàn),為傳統(tǒng)的詞匯空間擴(kuò)展策略提供了一種可行的替代方案。

五、深入理解LATENTSEEK的工作原理

為了更深入地理解LATENTSEEK的工作原理,研究團(tuán)隊(duì)分析了模型生成的推理過(guò)程。通過(guò)分析使用LLaMA3.1-8B-Instruct模型在GSM8K數(shù)據(jù)集上生成的前三個(gè)詞的分布,研究團(tuán)隊(duì)發(fā)現(xiàn)了一些有趣的現(xiàn)象。

非語(yǔ)義或晦澀詞匯(如"thecy"、"theella"和"Sid")的頻繁出現(xiàn)表明,模型的推理機(jī)制可能與人類的認(rèn)知策略存在顯著差異,即使在表面上生成的輸出看起來(lái)連貫。一個(gè)代表性的例子更進(jìn)一步說(shuō)明了這種差異:盡管生成了語(yǔ)言上異常的表達(dá)(如"下載的總下載量"、"下步兩步andLet"),模型仍然能夠得出正確的答案。

這些發(fā)現(xiàn)表明,語(yǔ)言模型的最優(yōu)推理軌跡可能與人類的推理軌跡根本不同,更有效的探索方式可能是在模型的潛在空間中進(jìn)行。這就像是每個(gè)人都有自己獨(dú)特的思考方式,強(qiáng)迫模型按照人類的推理模式思考可能反而會(huì)限制它的潛力。LATENTSEEK正是利用了這一點(diǎn),在模型自己的"思維空間"中進(jìn)行探索,從而獲得更好的性能。

此外,研究團(tuán)隊(duì)還報(bào)告了一些算法統(tǒng)計(jì)數(shù)據(jù)。在幾乎所有情況下,最終答案的詞匯量與原始思維鏈相比并沒(méi)有顯著增加,這表明LATENTSEEK不依賴于生成更長(zhǎng)的輸出來(lái)提高性能。關(guān)于更新迭代次數(shù),GSM8K和MATH-500在各種模型上的平均迭代次數(shù)分別為0.86和1.23,都低于2,這表明潛在空間中的搜索過(guò)程通常在不到兩次迭代內(nèi)就能收斂,對(duì)于平均難度的問(wèn)題而言。這凸顯了該方法的計(jì)算效率和快速收斂行為。

六、LATENTSEEK的意義與未來(lái)展望

LATENTSEEK框架的提出標(biāo)志著大型語(yǔ)言模型推理能力提升方法的一個(gè)重要突破。它展示了在不修改模型參數(shù)的情況下,如何通過(guò)在潛在空間中的實(shí)例級(jí)適應(yīng)顯著提升模型的推理性能。

相比于需要大量計(jì)算資源的參數(shù)更新方法(如監(jiān)督微調(diào)和強(qiáng)化學(xué)習(xí))或依賴人工設(shè)計(jì)提示的方法,LATENTSEEK提供了一種計(jì)算效率高、適應(yīng)性強(qiáng)的替代方案。它不需要訓(xùn)練數(shù)據(jù),不會(huì)導(dǎo)致災(zāi)難性遺忘,也不會(huì)產(chǎn)生過(guò)于冗長(zhǎng)的輸出。

這項(xiàng)研究還開(kāi)辟了測(cè)試時(shí)擴(kuò)展的新方向。傳統(tǒng)上,測(cè)試時(shí)擴(kuò)展主要通過(guò)增加生成的詞匯數(shù)量來(lái)實(shí)現(xiàn),而LATENTSEEK表明,增加潛在空間中的迭代次數(shù)也是一種有效的擴(kuò)展策略。特別是在配備完美稀疏獎(jiǎng)勵(lì)的情況下,LATENTSEEK能夠顯著提升小型模型的性能,使其接近甚至超過(guò)大型模型的表現(xiàn)。

未來(lái)的研究方向可能包括:1)開(kāi)發(fā)更有效的獎(jiǎng)勵(lì)模型,特別是基于結(jié)果的獎(jiǎng)勵(lì)模型;2)探索更高級(jí)的強(qiáng)化學(xué)習(xí)算法在潛在空間優(yōu)化中的應(yīng)用;3)將LATENTSEEK擴(kuò)展到更大的基礎(chǔ)模型上;4)將該方法應(yīng)用于更廣泛的任務(wù),如文本生成、代碼生成等。

總的來(lái)說(shuō),LATENTSEEK為增強(qiáng)大型語(yǔ)言模型的推理能力提供了一種輕量級(jí)、可擴(kuò)展且有效的解決方案,對(duì)推動(dòng)人工智能在復(fù)雜推理任務(wù)中的能力具有重要意義。正如作者在論文結(jié)尾所說(shuō):"LATENTSEEK代表了在測(cè)試時(shí)實(shí)例級(jí)適應(yīng)推理領(lǐng)域邁出的重要一步。"

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-