這項(xiàng)令人意外的研究來(lái)自清華大學(xué)LeapLab實(shí)驗(yàn)室,由楊越、陳志琦等研究團(tuán)隊(duì)完成,并于2025年5月發(fā)表。有興趣深入了解的讀者可以通過(guò)arXiv:2504.13837v2訪問(wèn)完整論文。這個(gè)研究團(tuán)隊(duì)包括了來(lái)自清華大學(xué)和上海交通大學(xué)的多位研究者,他們共同探討了一個(gè)在AI領(lǐng)域備受關(guān)注的問(wèn)題。
近年來(lái),OpenAI的o1模型和DeepSeek-R1等"思考型"AI引起了巨大轟動(dòng),它們能像人類一樣進(jìn)行逐步推理,解決復(fù)雜的數(shù)學(xué)和編程問(wèn)題。這些模型的成功被普遍歸功于一種叫做"強(qiáng)化學(xué)習(xí)"的訓(xùn)練方法。簡(jiǎn)單來(lái)說(shuō),就是讓AI通過(guò)不斷嘗試和接受獎(jiǎng)勵(lì)反饋來(lái)學(xué)習(xí),就像訓(xùn)練寵物一樣——做對(duì)了給獎(jiǎng)勵(lì),做錯(cuò)了不給獎(jiǎng)勵(lì)。
然而,清華大學(xué)的研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)顛覆性的真相:這些經(jīng)過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的AI模型,其實(shí)并沒(méi)有真正學(xué)會(huì)新的推理能力,它們只是變得更善于從原本就會(huì)的推理方法中找到正確答案而已。這就好比一個(gè)學(xué)生原本就知道多種解題方法,強(qiáng)化學(xué)習(xí)訓(xùn)練只是讓他更容易選擇其中正確的那種方法,而不是教會(huì)了他新的解題技巧。
一、強(qiáng)化學(xué)習(xí)的"魔術(shù)"真相
要理解這個(gè)發(fā)現(xiàn),我們先得搞清楚什么是強(qiáng)化學(xué)習(xí)。把AI模型比作一個(gè)正在學(xué)習(xí)下棋的孩子。傳統(tǒng)的訓(xùn)練方法是給孩子看很多棋譜,告訴他"這樣下是好的,那樣下是不好的"。而強(qiáng)化學(xué)習(xí)則是讓孩子自己下棋,贏了就給糖果,輸了就不給,讓孩子通過(guò)無(wú)數(shù)次試錯(cuò)來(lái)學(xué)習(xí)。
在AI領(lǐng)域,研究者們使用一種叫做"可驗(yàn)證獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)"(RLVR)的方法來(lái)訓(xùn)練模型。當(dāng)AI解決數(shù)學(xué)題目時(shí),答案對(duì)了就給正獎(jiǎng)勵(lì),錯(cuò)了就給負(fù)獎(jiǎng)勵(lì)或零獎(jiǎng)勵(lì)。這種方法看起來(lái)很有道理,畢竟傳統(tǒng)的強(qiáng)化學(xué)習(xí)在游戲領(lǐng)域創(chuàng)造了奇跡——AlphaGo就是通過(guò)這種方法戰(zhàn)勝了人類圍棋冠軍。
但是清華團(tuán)隊(duì)的研究發(fā)現(xiàn),AI的語(yǔ)言推理和下圍棋有著本質(zhì)的不同。圍棋的規(guī)則是固定的,棋盤(pán)是有限的,而語(yǔ)言推理的空間幾乎是無(wú)限的。這就像在一個(gè)有邊界的花園里種花和在無(wú)邊無(wú)際的草原上種花的區(qū)別——在花園里你可以逐塊土地嘗試,但在草原上你永遠(yuǎn)無(wú)法窮盡所有可能。
更關(guān)鍵的是,用于強(qiáng)化學(xué)習(xí)的AI模型并不是從零開(kāi)始學(xué)習(xí)的白紙,而是已經(jīng)通過(guò)海量文本訓(xùn)練過(guò)的"博學(xué)者"。這些模型在接受強(qiáng)化學(xué)習(xí)訓(xùn)練之前,就已經(jīng)具備了豐富的推理能力。這就好比你以為自己在教一個(gè)孩子新的解題方法,實(shí)際上這個(gè)孩子早就會(huì)了,你只是在幫他整理和優(yōu)化他已經(jīng)掌握的知識(shí)。
二、驚人的實(shí)驗(yàn)發(fā)現(xiàn)
研究團(tuán)隊(duì)設(shè)計(jì)了一系列巧妙的實(shí)驗(yàn)來(lái)驗(yàn)證他們的猜想。他們使用了一個(gè)叫做"pass@k"的評(píng)估方法,這個(gè)方法非常有趣。想象你要測(cè)試一個(gè)學(xué)生的數(shù)學(xué)能力,不是只讓他做一遍題目,而是讓他做k次(比如64次或256次),只要其中有一次做對(duì)了,就算他會(huì)做這道題。
這種測(cè)試方法能夠揭示模型的真實(shí)能力邊界。如果一個(gè)模型經(jīng)過(guò)強(qiáng)化學(xué)習(xí)后真的變得更聰明了,那么它應(yīng)該能解決更多原本解決不了的問(wèn)題。但如果它只是變得更善于選擇正確答案,那么在多次嘗試的情況下,原始模型應(yīng)該也能解決同樣多的問(wèn)題。
實(shí)驗(yàn)結(jié)果令人震驚。研究團(tuán)隊(duì)測(cè)試了多個(gè)模型家族,包括Qwen2.5、LLaMA-3.1等知名AI模型,覆蓋了數(shù)學(xué)推理、代碼生成和視覺(jué)推理等多個(gè)領(lǐng)域。他們發(fā)現(xiàn)了一個(gè)一致的模式:當(dāng)只允許模型嘗試一次時(shí)(pass@1),經(jīng)過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的模型確實(shí)表現(xiàn)更好;但當(dāng)允許多次嘗試時(shí)(pass@64或pass@256),原始的基礎(chǔ)模型反而能解決更多問(wèn)題。
這個(gè)發(fā)現(xiàn)用一個(gè)生活化的例子來(lái)解釋就是:假設(shè)你有兩個(gè)射箭手,一個(gè)經(jīng)過(guò)了"專門(mén)訓(xùn)練",一個(gè)沒(méi)有。在正式比賽中(只能射一箭),訓(xùn)練過(guò)的射箭手命中率更高。但如果允許他們各自射100箭,你會(huì)發(fā)現(xiàn)沒(méi)訓(xùn)練的那個(gè)射箭手實(shí)際上能擊中更多不同的靶子,說(shuō)明他的能力范圍其實(shí)更廣。
三、深度分析揭示的秘密
為了進(jìn)一步驗(yàn)證這個(gè)發(fā)現(xiàn),研究團(tuán)隊(duì)進(jìn)行了更細(xì)致的分析。他們檢查了模型在訓(xùn)練前后能解決的具體問(wèn)題,發(fā)現(xiàn)經(jīng)過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的模型所能解決的問(wèn)題,幾乎都是原始模型也能解決的。這就像發(fā)現(xiàn)一個(gè)學(xué)生考試成績(jī)提高了,但仔細(xì)檢查后發(fā)現(xiàn)他會(huì)做的題目并沒(méi)有增加,只是原本會(huì)做的題目現(xiàn)在做對(duì)的概率更高了。
更有趣的是,他們還使用了一種叫做"困惑度"的技術(shù)指標(biāo)來(lái)分析模型生成的推理過(guò)程。困惑度可以理解為模型對(duì)某個(gè)答案的"熟悉程度"。如果一個(gè)模型突然學(xué)會(huì)了新的推理方法,那么這些新方法對(duì)原始模型來(lái)說(shuō)應(yīng)該是"陌生的",困惑度會(huì)很高。但研究結(jié)果顯示,強(qiáng)化學(xué)習(xí)訓(xùn)練后的模型所產(chǎn)生的推理路徑,原始模型都很"熟悉",說(shuō)明這些推理方法早就存在于原始模型中。
研究團(tuán)隊(duì)還發(fā)現(xiàn)了強(qiáng)化學(xué)習(xí)訓(xùn)練的一個(gè)副作用:雖然模型在常見(jiàn)問(wèn)題上表現(xiàn)更好了,但它的推理覆蓋范圍實(shí)際上變窄了。這就像一個(gè)學(xué)生為了在某種類型的考試中取得高分而進(jìn)行專門(mén)訓(xùn)練,結(jié)果雖然在這類考試中表現(xiàn)更好,但解決其他類型問(wèn)題的能力反而下降了。
四、不同方法的對(duì)比實(shí)驗(yàn)
為了確保結(jié)論的可靠性,研究團(tuán)隊(duì)測(cè)試了六種不同的強(qiáng)化學(xué)習(xí)算法,包括PPO、GRPO、Reinforce++等。他們發(fā)現(xiàn)所有這些算法都表現(xiàn)出了相似的模式:都能提高模型的平均表現(xiàn),但都無(wú)法真正擴(kuò)展模型的推理能力邊界。
有趣的是,當(dāng)他們測(cè)試"知識(shí)蒸餾"這種不同的訓(xùn)練方法時(shí),發(fā)現(xiàn)了截然不同的結(jié)果。知識(shí)蒸餾是讓一個(gè)小模型向更強(qiáng)大的"老師"模型學(xué)習(xí),就像學(xué)生跟著更有經(jīng)驗(yàn)的老師學(xué)習(xí)新知識(shí)。通過(guò)這種方法訓(xùn)練的模型確實(shí)能夠解決原本解決不了的問(wèn)題,真正擴(kuò)展了推理能力的邊界。
這個(gè)對(duì)比實(shí)驗(yàn)特別有意義,因?yàn)樗f(shuō)明問(wèn)題不在于訓(xùn)練方法本身,而在于強(qiáng)化學(xué)習(xí)這種特定方法的局限性。知識(shí)蒸餾能夠真正傳授新的推理模式,而強(qiáng)化學(xué)習(xí)只是在優(yōu)化已有的推理選擇。
五、訓(xùn)練過(guò)程的動(dòng)態(tài)觀察
研究團(tuán)隊(duì)還詳細(xì)觀察了強(qiáng)化學(xué)習(xí)訓(xùn)練過(guò)程中模型能力的變化。他們發(fā)現(xiàn)隨著訓(xùn)練的進(jìn)行,模型的平均表現(xiàn)(pass@1)確實(shí)在穩(wěn)步提升,從最初的26.1%提升到了42.5%。但與此同時(shí),模型的推理覆蓋范圍(pass@256)卻在逐漸縮小,這進(jìn)一步證實(shí)了他們的發(fā)現(xiàn)。
這種現(xiàn)象可以用一個(gè)比喻來(lái)理解:想象一個(gè)圖書(shū)管理員原本能找到圖書(shū)館里各種各樣的書(shū)籍,雖然有時(shí)需要花很長(zhǎng)時(shí)間。經(jīng)過(guò)"效率訓(xùn)練"后,他能更快地找到最常借閱的書(shū)籍,但卻逐漸忘記了那些偏僻角落里的冷門(mén)書(shū)籍在哪里。
研究團(tuán)隊(duì)還嘗試了各種技術(shù)調(diào)整,比如增加訓(xùn)練時(shí)的探索次數(shù)、調(diào)整溫度參數(shù)等,但都無(wú)法改變這個(gè)基本模式。即使提高模型生成的隨機(jī)性來(lái)匹配原始模型的多樣性,強(qiáng)化學(xué)習(xí)訓(xùn)練過(guò)的模型仍然無(wú)法超越原始模型的推理覆蓋范圍。
六、對(duì)AI發(fā)展的深遠(yuǎn)影響
這項(xiàng)研究的意義遠(yuǎn)超學(xué)術(shù)范疇,它可能會(huì)改變整個(gè)AI產(chǎn)業(yè)對(duì)推理能力提升的認(rèn)知。長(zhǎng)期以來(lái),人們相信強(qiáng)化學(xué)習(xí)能讓AI模型持續(xù)自我改進(jìn),就像人類通過(guò)練習(xí)不斷提升技能一樣。但這項(xiàng)研究表明,目前的強(qiáng)化學(xué)習(xí)方法更像是在幫助模型更好地利用已有知識(shí),而不是真正獲得新的智能。
這個(gè)發(fā)現(xiàn)對(duì)AI公司的產(chǎn)品開(kāi)發(fā)策略可能產(chǎn)生重要影響。如果強(qiáng)化學(xué)習(xí)無(wú)法真正擴(kuò)展模型的能力邊界,那么持續(xù)的強(qiáng)化學(xué)習(xí)訓(xùn)練可能不是提升AI性能的最佳路徑。相反,研究更好的基礎(chǔ)模型訓(xùn)練方法或者知識(shí)蒸餾技術(shù)可能更有價(jià)值。
同時(shí),這項(xiàng)研究也為AI安全研究提供了新的視角。如果AI模型的能力主要來(lái)源于基礎(chǔ)訓(xùn)練而不是后續(xù)的強(qiáng)化學(xué)習(xí),那么對(duì)AI能力的評(píng)估和安全控制就需要更多關(guān)注基礎(chǔ)模型的訓(xùn)練過(guò)程。
研究團(tuán)隊(duì)在論文中指出,這種局限性可能源于當(dāng)前強(qiáng)化學(xué)習(xí)方法的固有問(wèn)題。在語(yǔ)言這樣的高維空間中,有效的探索策略可能需要全新的方法。他們建議未來(lái)的研究應(yīng)該關(guān)注多輪交互、持續(xù)擴(kuò)展訓(xùn)練等新的范式,這些方法可能能夠真正發(fā)現(xiàn)新的推理模式。
七、未來(lái)的研究方向
基于這些發(fā)現(xiàn),研究團(tuán)隊(duì)提出了幾個(gè)值得探索的方向。首先是開(kāi)發(fā)更好的探索策略,讓AI模型能在巨大的語(yǔ)言空間中發(fā)現(xiàn)真正新穎的推理路徑。這就像需要更好的地圖和指南針來(lái)探索未知的大陸。
其次是研究多輪交互的強(qiáng)化學(xué)習(xí)方法。目前的方法通常是一次性生成答案然后接受反饋,但真正的學(xué)習(xí)往往需要多輪的嘗試、反思和改進(jìn)。這更接近人類的學(xué)習(xí)過(guò)程——我們很少一次就學(xué)會(huì)復(fù)雜的技能,而是通過(guò)反復(fù)練習(xí)和調(diào)整逐步改進(jìn)。
另一個(gè)重要方向是探索如何在強(qiáng)化學(xué)習(xí)中引入真正的創(chuàng)新激勵(lì)。目前的獎(jiǎng)勵(lì)系統(tǒng)只關(guān)注最終答案的正確性,但也許應(yīng)該獎(jiǎng)勵(lì)新穎的推理路徑或創(chuàng)造性的解決方案,即使這些方案最初可能不夠完美。
研究團(tuán)隊(duì)還建議關(guān)注基礎(chǔ)模型的訓(xùn)練質(zhì)量。既然強(qiáng)化學(xué)習(xí)主要是在優(yōu)化基礎(chǔ)模型已有的能力,那么提升基礎(chǔ)模型的推理能力可能是更根本的解決方案。這意味著需要更好的數(shù)據(jù)、更好的訓(xùn)練方法和更好的模型架構(gòu)。
說(shuō)到底,這項(xiàng)研究提醒我們,AI的發(fā)展可能比我們想象的更復(fù)雜。那些看起來(lái)神奇的AI能力提升,背后的機(jī)制可能和我們的直覺(jué)不同。強(qiáng)化學(xué)習(xí)確實(shí)能讓AI表現(xiàn)得更好,但這種改善更像是幫助AI更好地發(fā)揮已有潛力,而不是真正教會(huì)了它新的技能。
這個(gè)發(fā)現(xiàn)并不意味著強(qiáng)化學(xué)習(xí)沒(méi)有價(jià)值,而是說(shuō)我們需要重新思考它的作用和局限性。對(duì)于想要構(gòu)建真正智能的AI系統(tǒng)的研究者來(lái)說(shuō),這項(xiàng)研究提供了重要的指導(dǎo):?jiǎn)渭円揽繌?qiáng)化學(xué)習(xí)可能不夠,我們需要探索更多元化的方法來(lái)提升AI的真實(shí)智能水平。
有興趣深入了解這項(xiàng)研究的讀者,可以通過(guò)訪問(wèn)arXiv:2504.13837v2獲取完整的論文內(nèi)容,其中包含了詳細(xì)的實(shí)驗(yàn)數(shù)據(jù)和技術(shù)細(xì)節(jié)。
Q&A
Q1:強(qiáng)化學(xué)習(xí)到底有沒(méi)有用?為什么這些AI公司還在用? A:強(qiáng)化學(xué)習(xí)確實(shí)有用,它能讓AI模型在實(shí)際應(yīng)用中表現(xiàn)更好,回答更準(zhǔn)確。但這項(xiàng)研究發(fā)現(xiàn)它主要是在優(yōu)化已有能力,而不是創(chuàng)造新能力。AI公司繼續(xù)使用是因?yàn)橛脩趔w驗(yàn)確實(shí)改善了,即使底層機(jī)制和我們想象的不同。
Q2:這個(gè)發(fā)現(xiàn)會(huì)不會(huì)影響ChatGPT、Claude這些AI的發(fā)展? A:可能會(huì)影響未來(lái)的技術(shù)路線選擇。如果僅靠強(qiáng)化學(xué)習(xí)無(wú)法持續(xù)提升能力,AI公司可能需要投入更多資源在基礎(chǔ)模型訓(xùn)練或其他方法上。但短期內(nèi)不會(huì)影響現(xiàn)有產(chǎn)品,因?yàn)閺?qiáng)化學(xué)習(xí)仍能改善用戶體驗(yàn)。
Q3:普通用戶應(yīng)該怎么理解這個(gè)研究?會(huì)影響我們使用AI嗎? A:對(duì)普通用戶來(lái)說(shuō),這個(gè)發(fā)現(xiàn)主要是幫助我們更準(zhǔn)確地理解AI的能力邊界。你使用的AI助手可能沒(méi)有你想象的那么"聰明",它更像是一個(gè)知識(shí)淵博但思維模式相對(duì)固定的助手。了解這一點(diǎn)有助于更合理地設(shè)定期望和使用方式。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語(yǔ)言模型的敘事推理能力與音頻生成技術(shù),通過(guò)交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開(kāi)辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過(guò)讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問(wèn)題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語(yǔ)言模型人性化對(duì)話問(wèn)題。該研究創(chuàng)建了包含20萬(wàn)高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過(guò)創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開(kāi)發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過(guò)學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來(lái)了效率和精度的雙重突破。