這項(xiàng)由加州大學(xué)伯克利分校電氣工程與計(jì)算機(jī)科學(xué)系的李大成、曹詩(shī)意等研究人員主導(dǎo)的研究發(fā)表于2025年2月,論文題為《LLMs Can Easily Learn to Reason from Demonstrations: Structure, not content, is what matters!》,有興趣深入了解的讀者可以通過(guò)arXiv:2502.07374v2訪問(wèn)完整論文。
當(dāng)前最先進(jìn)的AI推理模型,比如OpenAI的o1和DeepSeek的R1,都展現(xiàn)出了驚人的推理能力。它們能夠像人類(lèi)一樣進(jìn)行深度思考,在解決復(fù)雜數(shù)學(xué)題或編程問(wèn)題時(shí)會(huì)自我反思、糾正錯(cuò)誤、重新嘗試不同方法。但這些能力是如何獲得的呢?訓(xùn)練這樣的AI需要什么樣的數(shù)據(jù)和方法?這一直是個(gè)謎團(tuán)。
UC伯克利的研究團(tuán)隊(duì)就像數(shù)字時(shí)代的偵探一樣,決定揭開(kāi)這個(gè)謎底。他們發(fā)現(xiàn)了一個(gè)令人意外的真相:要讓AI學(xué)會(huì)復(fù)雜推理,關(guān)鍵不在于給它完美正確的推理內(nèi)容,而在于教會(huì)它正確的思維結(jié)構(gòu)。這就好比教孩子解數(shù)學(xué)題,重要的不是每個(gè)計(jì)算步驟都完全準(zhǔn)確,而是要掌握正確的解題思路和邏輯框架。
更讓人驚訝的是,研究團(tuán)隊(duì)證明了只需要區(qū)區(qū)17000個(gè)訓(xùn)練樣本,就能讓一個(gè)普通的AI模型搖身一變,在數(shù)學(xué)和編程任務(wù)上的表現(xiàn)達(dá)到與OpenAI o1相媲美的水平。這個(gè)發(fā)現(xiàn)徹底顛覆了人們對(duì)AI訓(xùn)練的認(rèn)知——原來(lái)培養(yǎng)AI的推理能力并不需要海量數(shù)據(jù),關(guān)鍵在于用對(duì)方法。
一、破解AI推理訓(xùn)練的密碼
研究團(tuán)隊(duì)選擇了Qwen2.5-32B-Instruct這個(gè)基礎(chǔ)模型作為他們的實(shí)驗(yàn)對(duì)象,就像選擇一個(gè)聰明但還沒(méi)有接受過(guò)專(zhuān)門(mén)推理訓(xùn)練的學(xué)生。然后,他們從已經(jīng)具備強(qiáng)大推理能力的DeepSeek-R1模型中提取了17000個(gè)推理樣本,這些樣本就像是優(yōu)秀學(xué)生的作業(yè)本。
這些推理樣本有個(gè)特點(diǎn),它們都包含"長(zhǎng)鏈推理"(Long Chain-of-Thought),這意味著AI在解決問(wèn)題時(shí)不是直接給出答案,而是展示完整的思考過(guò)程。比如在解決一個(gè)復(fù)雜的數(shù)學(xué)問(wèn)題時(shí),AI會(huì)說(shuō)"讓我先分析這個(gè)問(wèn)題...等等,我剛才的想法可能有問(wèn)題,讓我重新考慮...或者我們可以用另一種方法..."這種自我對(duì)話式的思考過(guò)程。
令人驚喜的是,僅僅用這17000個(gè)樣本進(jìn)行訓(xùn)練后,原本表現(xiàn)平平的Qwen模型就獲得了顯著的能力提升。在著名的AIME 2024數(shù)學(xué)競(jìng)賽題目上,模型的正確率從16.7%飆升到56.7%,提升了40個(gè)百分點(diǎn)。在編程能力測(cè)試LiveCodeBench上,正確率也從48.9%提升到57.0%。這樣的表現(xiàn)已經(jīng)非常接近OpenAI o1-preview模型的水平。
更有趣的是,研究人員還嘗試了一種叫做LoRA(低秩自適應(yīng))的訓(xùn)練方法。這種方法就像是給AI做"微整形"而不是"大手術(shù)",只需要調(diào)整模型不到5%的參數(shù),就能達(dá)到相似的效果。這意味著即使計(jì)算資源有限的研究團(tuán)隊(duì)或小公司,也能夠訓(xùn)練出具備強(qiáng)大推理能力的AI模型。
二、結(jié)構(gòu)與內(nèi)容的較量:意外的發(fā)現(xiàn)
研究的最精彩部分來(lái)了。研究團(tuán)隊(duì)像科學(xué)偵探一樣,想要弄清楚到底是什么因素讓AI學(xué)會(huì)了推理。是因?yàn)橛?xùn)練數(shù)據(jù)中的數(shù)學(xué)計(jì)算都是正確的嗎?還是因?yàn)橥评磉^(guò)程使用了特定的關(guān)鍵詞?或者是因?yàn)檎w的邏輯結(jié)構(gòu)?
為了找到答案,他們?cè)O(shè)計(jì)了一系列巧妙的實(shí)驗(yàn)。首先,他們故意"破壞"了訓(xùn)練數(shù)據(jù)的內(nèi)容。比如,他們把正確答案替換成錯(cuò)誤答案,把數(shù)學(xué)計(jì)算中的數(shù)字隨機(jī)替換,甚至刪除了那些表示反思的關(guān)鍵詞如"等等"、"讓我重新考慮"等等。
結(jié)果讓所有人都大吃一驚。即使訓(xùn)練數(shù)據(jù)中一半的答案都是錯(cuò)誤的,AI模型的推理能力仍然只下降了3.2%。即使70%的數(shù)字都被隨機(jī)替換,導(dǎo)致出現(xiàn)"1+1=3"這樣荒謬的計(jì)算,模型的表現(xiàn)也只是輕微下降。這就好比一個(gè)學(xué)生即使看到了充滿錯(cuò)誤計(jì)算的教材,但只要掌握了正確的解題思路,仍然能夠在考試中取得好成績(jī)。
但是當(dāng)研究人員開(kāi)始"破壞"推理的結(jié)構(gòu)時(shí),情況就完全不同了。他們把推理步驟的順序打亂,比如把"首先分析問(wèn)題"和"得出結(jié)論"的位置對(duì)調(diào),或者隨意插入一些不相關(guān)的推理步驟。這時(shí),AI模型的表現(xiàn)急劇下滑。當(dāng)67%的推理步驟被打亂時(shí),模型在AIME 2024上的正確率下降了13.3%。
這就像教一個(gè)孩子做菜。如果食譜上的某些調(diào)料分量有誤,或者某些步驟的描述不夠準(zhǔn)確,孩子仍然可能做出一道不錯(cuò)的菜。但是如果把"先洗菜再切菜"變成"先切菜再洗菜",把"先炒菜再調(diào)味"變成"先調(diào)味再炒菜",那么無(wú)論食譜的其他部分多么詳細(xì)準(zhǔn)確,最終的結(jié)果都會(huì)一團(tuán)糟。
三、深入探索:為什么結(jié)構(gòu)如此重要
研究團(tuán)隊(duì)進(jìn)一步深入分析了這個(gè)現(xiàn)象。他們發(fā)現(xiàn),AI模型學(xué)習(xí)推理能力的過(guò)程,本質(zhì)上是在學(xué)習(xí)如何構(gòu)建連貫的思維鏈條。就像人類(lèi)學(xué)習(xí)思考一樣,重要的不是記住每一個(gè)具體的知識(shí)點(diǎn),而是掌握思考的方法和邏輯。
當(dāng)推理結(jié)構(gòu)被破壞時(shí),AI模型雖然仍然會(huì)模仿人類(lèi)的推理語(yǔ)言,比如頻繁使用"另外"、"等等,但是"等反思性詞匯,輸出的文本也變得更長(zhǎng),看起來(lái)似乎在"深度思考"。但實(shí)際上,這些思考缺乏內(nèi)在的邏輯一致性。模型會(huì)出現(xiàn)前后矛盾的推理,比如在解決幾何問(wèn)題時(shí)突然開(kāi)始分析組合數(shù)學(xué),或者引用根本不存在的前面步驟。
這種現(xiàn)象特別有趣,因?yàn)樗沂玖薃I學(xué)習(xí)的本質(zhì)。AI并不是簡(jiǎn)單地記憶和復(fù)制訓(xùn)練數(shù)據(jù)中的內(nèi)容,而是在學(xué)習(xí)如何構(gòu)建有意義的認(rèn)知結(jié)構(gòu)。當(dāng)這種結(jié)構(gòu)被破壞時(shí),即使表面上看起來(lái)AI仍在"思考",實(shí)際上它已經(jīng)失去了真正的推理能力。
研究人員還發(fā)現(xiàn),即使是來(lái)自不同領(lǐng)域的推理步驟,只要邏輯結(jié)構(gòu)保持完整,AI就能夠?qū)W習(xí)到有價(jià)值的推理模式。但是一旦這種邏輯連貫性被打破,無(wú)論單個(gè)步驟多么精確和詳細(xì),整體的學(xué)習(xí)效果都會(huì)大打折扣。
四、擴(kuò)展驗(yàn)證:普遍適用的規(guī)律
為了確認(rèn)這個(gè)發(fā)現(xiàn)的普遍性,研究團(tuán)隊(duì)進(jìn)行了大量的擴(kuò)展實(shí)驗(yàn)。他們測(cè)試了不同規(guī)模的模型,從7B參數(shù)的小模型到32B參數(shù)的大模型,發(fā)現(xiàn)這個(gè)規(guī)律在各種規(guī)模上都成立。他們還測(cè)試了不同的模型架構(gòu),包括Llama、Gemma等不同系列的模型,結(jié)果都證實(shí)了結(jié)構(gòu)比內(nèi)容更重要這一發(fā)現(xiàn)。
有趣的是,研究人員發(fā)現(xiàn)并不是所有模型都能從這種訓(xùn)練中獲得同樣的收益。一個(gè)模型能否有效學(xué)習(xí)推理能力,很大程度上取決于它本身的基礎(chǔ)能力。那些在基礎(chǔ)任務(wù)上表現(xiàn)較好的模型,往往能夠更好地從推理訓(xùn)練中獲益。這就像不同的學(xué)生對(duì)同一種教學(xué)方法的反應(yīng)不同一樣。
研究團(tuán)隊(duì)還比較了他們的方法與傳統(tǒng)的"最佳選擇"(Best-of-N)方法。傳統(tǒng)方法是讓AI生成多個(gè)答案,然后選擇最好的一個(gè)。他們發(fā)現(xiàn),經(jīng)過(guò)推理訓(xùn)練的單個(gè)模型的表現(xiàn),相當(dāng)于傳統(tǒng)方法中選擇2到16個(gè)答案中最好的一個(gè)。這意味著推理訓(xùn)練不僅提高了AI的能力,還大大提高了效率。
五、實(shí)際應(yīng)用:對(duì)AI發(fā)展的深遠(yuǎn)影響
這項(xiàng)研究的意義遠(yuǎn)遠(yuǎn)超出了學(xué)術(shù)范疇。首先,它為AI公司和研究機(jī)構(gòu)指明了一條更加經(jīng)濟(jì)高效的道路。傳統(tǒng)上,人們認(rèn)為訓(xùn)練強(qiáng)大的AI推理模型需要海量的高質(zhì)量數(shù)據(jù)和巨額的計(jì)算資源。但這項(xiàng)研究證明,只要掌握了正確的方法,相對(duì)較少的訓(xùn)練數(shù)據(jù)和計(jì)算資源就足夠了。
對(duì)于那些資源有限的研究團(tuán)隊(duì)來(lái)說(shuō),這個(gè)發(fā)現(xiàn)尤其重要。他們不再需要與科技巨頭在數(shù)據(jù)量和算力上進(jìn)行軍備競(jìng)賽,而是可以專(zhuān)注于理解和優(yōu)化推理的結(jié)構(gòu)。這可能會(huì)促進(jìn)AI領(lǐng)域的民主化,讓更多的參與者能夠開(kāi)發(fā)出具備強(qiáng)大推理能力的模型。
研究還揭示了一個(gè)重要的教育學(xué)啟示。在培訓(xùn)AI模型時(shí),就像教育人類(lèi)學(xué)生一樣,傳授正確的思維方法比灌輸大量具體知識(shí)更加重要。這個(gè)原則不僅適用于AI,也對(duì)人類(lèi)教育有借鑒意義。
另外,這項(xiàng)研究還解決了AI安全和可靠性的一個(gè)重要問(wèn)題。研究人員發(fā)現(xiàn),即使訓(xùn)練數(shù)據(jù)中包含錯(cuò)誤信息,只要邏輯結(jié)構(gòu)正確,AI仍然能夠?qū)W會(huì)正確的推理方法。這意味著我們不需要對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行完美的事實(shí)檢查,這大大降低了數(shù)據(jù)準(zhǔn)備的成本和復(fù)雜性。
六、局限性與未來(lái)展望
當(dāng)然,這項(xiàng)研究也有其局限性。研究主要集中在數(shù)學(xué)和編程領(lǐng)域,這些領(lǐng)域有相對(duì)明確的對(duì)錯(cuò)標(biāo)準(zhǔn)。對(duì)于那些更加主觀或者需要常識(shí)推理的任務(wù),這個(gè)發(fā)現(xiàn)是否同樣適用還需要進(jìn)一步驗(yàn)證。
此外,雖然研究證明了結(jié)構(gòu)的重要性,但如何系統(tǒng)地設(shè)計(jì)和優(yōu)化推理結(jié)構(gòu)仍然是一個(gè)開(kāi)放的問(wèn)題。不同類(lèi)型的推理任務(wù)可能需要不同的結(jié)構(gòu)模式,這為未來(lái)的研究提供了豐富的方向。
研究團(tuán)隊(duì)還發(fā)現(xiàn),雖然LoRA等參數(shù)高效的訓(xùn)練方法能夠取得不錯(cuò)的效果,但在某些任務(wù)上仍然不如全參數(shù)訓(xùn)練。這提示我們?cè)谧非笮实耐瑫r(shí),也需要在性能上做出適當(dāng)?shù)臋?quán)衡。
未來(lái)的研究可能會(huì)探索如何自動(dòng)發(fā)現(xiàn)和優(yōu)化推理結(jié)構(gòu),如何將這種方法擴(kuò)展到更廣泛的任務(wù)領(lǐng)域,以及如何結(jié)合不同類(lèi)型的推理模式來(lái)處理更復(fù)雜的問(wèn)題。隨著我們對(duì)AI推理機(jī)制理解的不斷深入,我們有理由相信會(huì)有更多令人興奮的發(fā)現(xiàn)等待著我們。
說(shuō)到底,這項(xiàng)研究告訴我們一個(gè)樸素而深刻的道理:在AI的世界里,就像在人類(lèi)學(xué)習(xí)中一樣,掌握正確的思考方法比記住大量具體事實(shí)更加重要。這不僅為AI的發(fā)展指明了新方向,也讓我們重新思考了學(xué)習(xí)和推理的本質(zhì)。隨著更多研究團(tuán)隊(duì)基于這些發(fā)現(xiàn)開(kāi)發(fā)新的方法和模型,我們有望看到AI推理能力的進(jìn)一步飛躍。有興趣深入了解技術(shù)細(xì)節(jié)的讀者,可以通過(guò)訪問(wèn)arXiv:2502.07374v2獲取完整的研究論文,其中包含了詳細(xì)的實(shí)驗(yàn)設(shè)計(jì)和技術(shù)實(shí)現(xiàn)方案。
Q&A
Q1:用17000個(gè)樣本訓(xùn)練AI推理能力真的足夠嗎?
A:是的,UC伯克利的研究證實(shí)了這一點(diǎn)。他們用僅僅17000個(gè)長(zhǎng)鏈推理樣本就讓Qwen2.5-32B模型在數(shù)學(xué)競(jìng)賽AIME 2024上的正確率從16.7%提升到56.7%,在編程測(cè)試中也有顯著提升,達(dá)到了接近OpenAI o1-preview的水平。關(guān)鍵不在于數(shù)據(jù)量的多少,而在于推理結(jié)構(gòu)的正確性。
Q2:為什么推理的結(jié)構(gòu)比具體內(nèi)容更重要?
A:研究發(fā)現(xiàn)AI學(xué)習(xí)推理本質(zhì)上是在學(xué)習(xí)如何構(gòu)建連貫的思維鏈條。即使訓(xùn)練數(shù)據(jù)中包含錯(cuò)誤計(jì)算或錯(cuò)誤答案,只要邏輯結(jié)構(gòu)完整,AI仍能保持推理能力。但一旦打亂推理步驟的順序或破壞邏輯連貫性,AI的表現(xiàn)就會(huì)急劇下降。這就像學(xué)做菜時(shí),食譜某些細(xì)節(jié)有誤不影響大局,但顛倒基本步驟順序就會(huì)導(dǎo)致失敗。
Q3:LoRA訓(xùn)練方法與傳統(tǒng)全參數(shù)訓(xùn)練有什么區(qū)別?
A:LoRA(低秩自適應(yīng))只需要調(diào)整模型不到5%的參數(shù)就能達(dá)到與全參數(shù)訓(xùn)練相似的效果,就像給AI做"微整形"而不是"大手術(shù)"。這種方法大大降低了計(jì)算資源需求,讓資源有限的研究團(tuán)隊(duì)也能訓(xùn)練出強(qiáng)大的推理模型。研究顯示LoRA訓(xùn)練的模型在多個(gè)基準(zhǔn)測(cè)試中都達(dá)到了接近全參數(shù)訓(xùn)練的性能。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語(yǔ)言模型的敘事推理能力與音頻生成技術(shù),通過(guò)交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開(kāi)辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過(guò)讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問(wèn)題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語(yǔ)言模型人性化對(duì)話問(wèn)題。該研究創(chuàng)建了包含20萬(wàn)高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過(guò)創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開(kāi)發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過(guò)學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來(lái)了效率和精度的雙重突破。