當(dāng)我們看到最新的AI模型如ChatGPT能夠給出深思熟慮的回答時(shí),可能會(huì)好奇:這些AI是如何學(xué)會(huì)思考的?最近,來自香港科技大學(xué)、TikTok和北京郵電大學(xué)的研究團(tuán)隊(duì)發(fā)表了一項(xiàng)頗有意思的研究,揭示了AI學(xué)習(xí)思考的奧秘。這項(xiàng)研究發(fā)表于2025年,論文標(biāo)題為"SimpleRL-Zoo: Investigating and Taming Zero Reinforcement Learning for Open Base Models in the Wild",感興趣的讀者可以通過https://github.com/hkust-nlp/simpleRL-reason訪問相關(guān)代碼和資源。
研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:就像教孩子學(xué)習(xí)一樣,AI也可以通過獎(jiǎng)勵(lì)和懲罰的方式學(xué)會(huì)復(fù)雜的推理。但與我們想象的不同,這個(gè)過程并不需要先教AI基礎(chǔ)知識(shí),而是可以直接從"白紙"狀態(tài)開始訓(xùn)練。這種訓(xùn)練方式被稱為"零RL訓(xùn)練",就好比讓一個(gè)從未接觸過數(shù)學(xué)的孩子直接開始解決復(fù)雜的數(shù)學(xué)題,通過不斷的嘗試和糾錯(cuò)來學(xué)會(huì)思考。
這項(xiàng)研究的獨(dú)特之處在于,研究團(tuán)隊(duì)并沒有局限于某一個(gè)特定的AI模型,而是對(duì)10個(gè)不同的AI模型進(jìn)行了全面測(cè)試。這些模型就像不同性格和能力的學(xué)生,有的擅長(zhǎng)邏輯推理,有的在語言理解方面更強(qiáng)。通過對(duì)這些不同"學(xué)生"的觀察,研究者發(fā)現(xiàn)了一些令人驚訝的規(guī)律。
**一、從零開始的學(xué)習(xí)奇跡**
要理解這項(xiàng)研究,我們首先需要了解什么是"零RL訓(xùn)練"。傳統(tǒng)的AI訓(xùn)練就像是先讓學(xué)生上完基礎(chǔ)課程,再讓他們解決復(fù)雜問題。而零RL訓(xùn)練則完全不同,它直接讓AI面對(duì)復(fù)雜的數(shù)學(xué)題,通過一個(gè)簡(jiǎn)單的獎(jiǎng)勵(lì)機(jī)制來學(xué)習(xí):答對(duì)了就給獎(jiǎng)勵(lì),答錯(cuò)了就不給獎(jiǎng)勵(lì)。
這種訓(xùn)練方式最初由DeepSeek-R1展示其可行性,但那個(gè)模型擁有6710億個(gè)參數(shù),就像一個(gè)天賦異稟的學(xué)生。人們自然會(huì)問:普通的AI模型能否也通過這種方式學(xué)會(huì)思考呢?
研究團(tuán)隊(duì)選擇了10個(gè)不同的AI模型進(jìn)行測(cè)試,這些模型的規(guī)模從5億到320億參數(shù)不等。如果把AI模型比作學(xué)生的話,這些就是從小學(xué)生到大學(xué)生不同年齡段的學(xué)習(xí)者。令人驚訝的是,幾乎所有的模型都在這種訓(xùn)練下展現(xiàn)出了學(xué)習(xí)能力。
訓(xùn)練過程中,研究者使用了8000個(gè)數(shù)學(xué)題作為練習(xí)材料,這些題目涉及基礎(chǔ)算術(shù)到高等數(shù)學(xué)的各個(gè)層面。就像一個(gè)學(xué)生通過不斷練習(xí)各種類型的題目來提高數(shù)學(xué)能力一樣,AI模型也通過這種方式逐漸學(xué)會(huì)了更深層的思考。
最令人印象深刻的發(fā)現(xiàn)是所謂的"頓悟時(shí)刻"。在訓(xùn)練過程中,某些AI模型會(huì)突然展現(xiàn)出一種質(zhì)的飛躍,開始產(chǎn)生更長(zhǎng)、更詳細(xì)的思考過程,并且學(xué)會(huì)了驗(yàn)證自己答案的正確性。這就像一個(gè)學(xué)生突然開竅,不再滿足于簡(jiǎn)單的答案,而是開始思考解題的每一個(gè)步驟,甚至?xí)鲃?dòng)檢查自己的計(jì)算是否正確。
**二、不同AI模型的學(xué)習(xí)個(gè)性**
在觀察這10個(gè)不同模型的學(xué)習(xí)過程中,研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:不同的AI模型展現(xiàn)出了截然不同的學(xué)習(xí)風(fēng)格,就像不同性格的學(xué)生面對(duì)同樣的教學(xué)方法會(huì)有不同的反應(yīng)。
以Qwen2.5系列模型為例,這些模型本身就具備較強(qiáng)的基礎(chǔ)能力,就像是已經(jīng)有一定數(shù)學(xué)基礎(chǔ)的學(xué)生。在零RL訓(xùn)練中,它們的表現(xiàn)相對(duì)穩(wěn)定,回答長(zhǎng)度的增長(zhǎng)比較溫和,但準(zhǔn)確率提升明顯。有趣的是,盡管這些模型的回答變得更長(zhǎng)了,但研究者并沒有觀察到明顯的"頓悟時(shí)刻"——它們更像是穩(wěn)扎穩(wěn)打的好學(xué)生,每一步都很扎實(shí),但沒有戲劇性的突破。
相比之下,DeepSeek-Math-7B和Llama3-8B這兩個(gè)模型則表現(xiàn)出了完全不同的學(xué)習(xí)軌跡。它們?cè)谟?xùn)練初期可能表現(xiàn)平平,但隨著訓(xùn)練的深入,突然展現(xiàn)出了令人驚訝的能力提升。特別是在驗(yàn)證和反思行為方面,這些模型從幾乎不會(huì)檢查自己的答案,到主動(dòng)驗(yàn)證計(jì)算過程,這種變化可以說是質(zhì)的飛躍。
更有趣的是,研究團(tuán)隊(duì)還觀察到了模型學(xué)習(xí)行為的細(xì)微差異。小規(guī)模的模型,如Qwen2.5-0.5B和1.5B,主要專注于學(xué)習(xí)如何分解復(fù)雜問題,將一個(gè)大問題拆分成多個(gè)小問題來解決。而較大的模型則更多地學(xué)會(huì)了枚舉不同的可能性和驗(yàn)證答案的正確性。
這種差異反映了一個(gè)深層的學(xué)習(xí)原理:不同規(guī)模和架構(gòu)的AI模型具有不同的學(xué)習(xí)傾向和能力上限。就像不同的學(xué)生有不同的學(xué)習(xí)風(fēng)格,有的善于分析,有的善于綜合,AI模型也表現(xiàn)出了這種個(gè)性化的特征。
**三、訓(xùn)練中的關(guān)鍵發(fā)現(xiàn)**
研究過程中,團(tuán)隊(duì)發(fā)現(xiàn)了幾個(gè)影響訓(xùn)練效果的關(guān)鍵因素,這些發(fā)現(xiàn)對(duì)于理解AI學(xué)習(xí)機(jī)制具有重要意義。
首先是關(guān)于格式約束的發(fā)現(xiàn)。傳統(tǒng)的訓(xùn)練方法通常會(huì)要求AI嚴(yán)格按照特定格式輸出答案,比如必須將最終答案放在方框中。但研究團(tuán)隊(duì)發(fā)現(xiàn),這種嚴(yán)格的格式要求實(shí)際上會(huì)阻礙AI的探索和學(xué)習(xí)。就像要求一個(gè)正在學(xué)習(xí)的孩子必須按照固定的步驟解題一樣,這種限制可能會(huì)抑制創(chuàng)造性思維的發(fā)展。
當(dāng)研究者取消了這些格式限制,只關(guān)注答案的正確性時(shí),AI模型的學(xué)習(xí)效果明顯提升。這個(gè)發(fā)現(xiàn)提醒我們,在教育AI的過程中,給予適當(dāng)?shù)淖杂啥瓤赡鼙葒?yán)格的規(guī)則更重要。
另一個(gè)重要發(fā)現(xiàn)涉及訓(xùn)練數(shù)據(jù)的難度選擇。研究團(tuán)隊(duì)發(fā)現(xiàn),訓(xùn)練數(shù)據(jù)的難度必須與AI模型的現(xiàn)有能力相匹配,否則訓(xùn)練就會(huì)失敗。對(duì)于能力較弱的模型,如果一開始就給它們極難的題目,它們會(huì)陷入困境,無法獲得足夠的正面反饋來學(xué)習(xí)。相反,對(duì)于已經(jīng)具備一定能力的模型,如果題目太簡(jiǎn)單,它們也不會(huì)有進(jìn)步的動(dòng)力。
這種現(xiàn)象類似于教育心理學(xué)中的"最近發(fā)展區(qū)"理論。每個(gè)學(xué)習(xí)者都有一個(gè)最適合的學(xué)習(xí)難度區(qū)間,太難會(huì)讓人沮喪放棄,太容易則無法促進(jìn)成長(zhǎng)。AI模型也遵循著類似的學(xué)習(xí)規(guī)律。
研究團(tuán)隊(duì)還觀察了一個(gè)名為"pass@k準(zhǔn)確率"的指標(biāo),這個(gè)指標(biāo)衡量的是模型在多次嘗試中至少答對(duì)一次的能力。結(jié)果顯示,經(jīng)過零RL訓(xùn)練的模型在這個(gè)指標(biāo)上有了顯著提升,有些模型的提升幅度達(dá)到了10-30個(gè)百分點(diǎn)。這說明訓(xùn)練不僅提高了模型的平均表現(xiàn),還增強(qiáng)了它們的探索能力,讓它們能夠嘗試更多不同的解題思路。
**四、傳統(tǒng)方法的局限性**
研究中一個(gè)頗為反直覺的發(fā)現(xiàn)涉及傳統(tǒng)的AI訓(xùn)練方法。通常情況下,人們會(huì)認(rèn)為先教AI基礎(chǔ)知識(shí),再進(jìn)行高級(jí)訓(xùn)練會(huì)更有效。但這項(xiàng)研究卻顯示,預(yù)先進(jìn)行的基礎(chǔ)訓(xùn)練可能會(huì)限制AI在后續(xù)學(xué)習(xí)中的探索能力。
研究團(tuán)隊(duì)進(jìn)行了一個(gè)對(duì)比實(shí)驗(yàn):他們先用傳統(tǒng)方法對(duì)一些AI模型進(jìn)行基礎(chǔ)訓(xùn)練,然后再進(jìn)行零RL訓(xùn)練,并將結(jié)果與直接進(jìn)行零RL訓(xùn)練的模型進(jìn)行比較。結(jié)果令人意外:那些經(jīng)過預(yù)訓(xùn)練的模型在后續(xù)的零RL訓(xùn)練中表現(xiàn)反而更差。
這種現(xiàn)象可以用一個(gè)生動(dòng)的比喻來理解:如果我們先教一個(gè)學(xué)生用固定的公式解題,他可能會(huì)在短期內(nèi)表現(xiàn)不錯(cuò),但當(dāng)面對(duì)需要?jiǎng)?chuàng)新思維的問題時(shí),他可能會(huì)被之前學(xué)到的固定模式所束縛。相比之下,那些從零開始學(xué)習(xí)的學(xué)生雖然初期可能磕磕絆絆,但他們更容易發(fā)展出靈活的思維方式。
特別值得注意的是,預(yù)訓(xùn)練對(duì)AI模型推理行為發(fā)展的負(fù)面影響。那些經(jīng)過傳統(tǒng)預(yù)訓(xùn)練的模型在學(xué)習(xí)驗(yàn)證、反思等高級(jí)認(rèn)知行為方面表現(xiàn)更差。隨著基礎(chǔ)訓(xùn)練步數(shù)的增加,這種負(fù)面影響變得更加明顯。經(jīng)過500步基礎(chǔ)訓(xùn)練的模型在后續(xù)學(xué)習(xí)中甚至出現(xiàn)了推理能力的退化。
這個(gè)發(fā)現(xiàn)對(duì)AI教育領(lǐng)域具有重要啟示:有時(shí)候,與其試圖通過預(yù)設(shè)的知識(shí)框架來指導(dǎo)學(xué)習(xí),不如讓學(xué)習(xí)者在探索中自然發(fā)展出適合自己的認(rèn)知模式。這種"空杯心態(tài)"可能是深度學(xué)習(xí)的關(guān)鍵所在。
**五、推理行為的深層分析**
為了更深入地理解AI模型在訓(xùn)練過程中究竟學(xué)到了什么,研究團(tuán)隊(duì)采用了一種創(chuàng)新的分析方法。他們不再僅僅關(guān)注答案的長(zhǎng)度和準(zhǔn)確性,而是深入分析AI模型展現(xiàn)出的具體推理行為。
研究團(tuán)隊(duì)識(shí)別了四種關(guān)鍵的認(rèn)知行為:回溯、驗(yàn)證、子目標(biāo)設(shè)定和枚舉?;厮菔侵府?dāng)AI發(fā)現(xiàn)某個(gè)解題路徑行不通時(shí),能主動(dòng)返回并嘗試其他方法;驗(yàn)證是指AI會(huì)主動(dòng)檢查自己的計(jì)算和推理是否正確;子目標(biāo)設(shè)定是指將復(fù)雜問題分解為若干個(gè)簡(jiǎn)單的子問題;枚舉則是指系統(tǒng)地考慮所有可能的情況。
通過跟蹤這些行為在訓(xùn)練過程中的變化,研究者發(fā)現(xiàn)了一些令人驚訝的模式。以Mistral-Small-24B模型為例,在訓(xùn)練初期,這個(gè)模型很少展現(xiàn)驗(yàn)證和回溯行為,回答通常是一次性的,不會(huì)進(jìn)行自我檢查。但隨著訓(xùn)練的進(jìn)行,模型開始表現(xiàn)出越來越多的自我驗(yàn)證行為,會(huì)主動(dòng)檢查計(jì)算結(jié)果,甚至在發(fā)現(xiàn)錯(cuò)誤時(shí)明確表示"讓我們嘗試另一種方法"。
這種行為的變化不是漸進(jìn)的,而是呈現(xiàn)出階段性的躍遷特征。在某個(gè)關(guān)鍵點(diǎn)上,模型似乎突然"領(lǐng)悟"了驗(yàn)證的重要性,開始系統(tǒng)性地檢查自己的工作。這種現(xiàn)象被研究者稱為"頓悟時(shí)刻",它標(biāo)志著AI從簡(jiǎn)單的模式匹配轉(zhuǎn)向了真正的推理思考。
更有趣的是,不同類型的推理行為有著不同的發(fā)展軌跡。較小的模型更容易學(xué)會(huì)子目標(biāo)設(shè)定,它們善于將復(fù)雜問題分解為簡(jiǎn)單步驟。而較大的模型則更傾向于發(fā)展驗(yàn)證和枚舉能力,它們會(huì)考慮多種可能性并檢查結(jié)果的合理性。
研究團(tuán)隊(duì)還發(fā)現(xiàn),僅僅通過關(guān)鍵詞搜索來識(shí)別推理行為是不夠的。許多高質(zhì)量的推理過程并不包含明顯的反思關(guān)鍵詞如"等等"、"讓我重新考慮"等,而是通過更隱晦的方式體現(xiàn)出來。比如,一個(gè)AI模型可能會(huì)重新計(jì)算某個(gè)中間結(jié)果,或者用不同的方法驗(yàn)證同一個(gè)答案,但在表述上并不明確說明這是驗(yàn)證行為。
**六、訓(xùn)練參數(shù)的微妙平衡**
在深入研究的過程中,團(tuán)隊(duì)發(fā)現(xiàn)訓(xùn)練效果對(duì)某些看似微不足道的參數(shù)設(shè)置極其敏感。這些發(fā)現(xiàn)揭示了AI學(xué)習(xí)過程中的微妙平衡關(guān)系。
采樣數(shù)量的影響尤為顯著。在每個(gè)訓(xùn)練步驟中,AI模型需要對(duì)同一個(gè)問題生成多個(gè)不同的回答,然后根據(jù)這些回答的質(zhì)量來學(xué)習(xí)。研究發(fā)現(xiàn),當(dāng)采樣數(shù)量從8個(gè)增加到32個(gè)時(shí),模型的學(xué)習(xí)穩(wěn)定性顯著提升。這就像一個(gè)學(xué)生需要多次練習(xí)同一類型的題目才能真正掌握解題技巧一樣,AI模型也需要通過多次嘗試來探索不同的解題思路。
溫度參數(shù)的設(shè)置也至關(guān)重要。這個(gè)參數(shù)控制著AI回答的隨機(jī)性程度。溫度過低,AI的回答會(huì)過于保守,缺乏創(chuàng)新性;溫度過高,回答又會(huì)變得不穩(wěn)定甚至混亂。研究團(tuán)隊(duì)發(fā)現(xiàn),最佳的溫度設(shè)置通常在1.0左右,這樣既保證了回答的合理性,又給了模型足夠的探索空間。
更有趣的是,訓(xùn)練溫度和評(píng)估溫度之間存在著一種匹配關(guān)系。用高溫度訓(xùn)練的模型在高溫度下評(píng)估表現(xiàn)更好,而用低溫度訓(xùn)練的模型則適合低溫度評(píng)估。這種現(xiàn)象反映了AI學(xué)習(xí)的一種適應(yīng)性特征:模型會(huì)適應(yīng)訓(xùn)練時(shí)的條件,并在類似條件下表現(xiàn)最佳。
KL散度系數(shù)是另一個(gè)關(guān)鍵參數(shù),它控制著模型在學(xué)習(xí)過程中偏離原始狀態(tài)的程度。如果這個(gè)系數(shù)設(shè)置得太小,模型學(xué)習(xí)得太慢;設(shè)置得太大,模型又可能學(xué)習(xí)過度,產(chǎn)生不穩(wěn)定的行為。研究團(tuán)隊(duì)通過大量實(shí)驗(yàn)找到了不同規(guī)模模型的最優(yōu)設(shè)置:對(duì)于140億參數(shù)以下的模型,系數(shù)設(shè)為1e-4效果最好;對(duì)于更大的模型,則需要設(shè)為1e-3。
這些參數(shù)設(shè)置的發(fā)現(xiàn)看似技術(shù)性很強(qiáng),但實(shí)際上反映了學(xué)習(xí)過程中的一般性原理。無論是人類學(xué)習(xí)還是機(jī)器學(xué)習(xí),都需要在探索與穩(wěn)定、創(chuàng)新與準(zhǔn)確之間找到平衡點(diǎn)。
**七、模型規(guī)模與學(xué)習(xí)模式的關(guān)系**
通過對(duì)不同規(guī)模模型的比較分析,研究團(tuán)隊(duì)發(fā)現(xiàn)了一些關(guān)于AI學(xué)習(xí)能力與模型規(guī)模關(guān)系的有趣規(guī)律。
最小的模型Qwen2.5-0.5B只有5億個(gè)參數(shù),但它在零RL訓(xùn)練中展現(xiàn)出了令人驚訝的學(xué)習(xí)能力。雖然它的絕對(duì)性能不如大模型,但它學(xué)會(huì)了有效的問題分解策略。這個(gè)小模型特別擅長(zhǎng)將復(fù)雜的數(shù)學(xué)問題拆分成多個(gè)簡(jiǎn)單的子問題,然后逐一解決。這種行為模式在訓(xùn)練過程中變得越來越明顯,子目標(biāo)設(shè)定行為的頻率增加了4-5倍。
中等規(guī)模的模型,如Llama3-8B和DeepSeek-Math-7B,展現(xiàn)出了最戲劇性的學(xué)習(xí)軌跡。它們不僅在準(zhǔn)確性上有了顯著提升,更重要的是學(xué)會(huì)了自我驗(yàn)證和錯(cuò)誤糾正。這些模型會(huì)主動(dòng)檢查自己的計(jì)算結(jié)果,當(dāng)發(fā)現(xiàn)錯(cuò)誤時(shí)會(huì)明確表達(dá)"這個(gè)方法行不通,讓我試試別的",然后重新開始解題。
大規(guī)模模型的學(xué)習(xí)模式又有所不同。Qwen2.5-32B這樣的大模型本身就具備強(qiáng)大的基礎(chǔ)能力,它們?cè)诹鉘L訓(xùn)練中的改進(jìn)更多體現(xiàn)在推理的深度和廣度上。這些模型學(xué)會(huì)了更系統(tǒng)的驗(yàn)證方法,不僅會(huì)檢查最終答案,還會(huì)驗(yàn)證推理過程中的每一個(gè)關(guān)鍵步驟。
有趣的是,模型規(guī)模與學(xué)習(xí)效果之間并不是簡(jiǎn)單的線性關(guān)系。在某些任務(wù)上,中等規(guī)模的模型反而表現(xiàn)出了更明顯的學(xué)習(xí)效果。這可能是因?yàn)榇竽P鸵呀?jīng)具備了較強(qiáng)的能力,改進(jìn)的空間相對(duì)有限;而小模型雖然改進(jìn)空間大,但受限于自身的計(jì)算能力。中等規(guī)模的模型恰好處在一個(gè)最適合學(xué)習(xí)的"甜蜜點(diǎn)"上。
研究還發(fā)現(xiàn),不同規(guī)模的模型對(duì)訓(xùn)練數(shù)據(jù)難度的敏感性也不同。小模型需要從相對(duì)簡(jiǎn)單的問題開始學(xué)習(xí),逐步提高難度;而大模型則可以直接處理較難的問題。這種差異反映了學(xué)習(xí)能力與現(xiàn)有知識(shí)基礎(chǔ)之間的復(fù)雜關(guān)系。
**八、錯(cuò)誤模式與學(xué)習(xí)信號(hào)**
在分析訓(xùn)練過程中的各種現(xiàn)象時(shí),研究團(tuán)隊(duì)特別關(guān)注了模型的錯(cuò)誤模式,因?yàn)殄e(cuò)誤往往能提供關(guān)于學(xué)習(xí)機(jī)制的重要信息。
一種常見的錯(cuò)誤模式是"截?cái)喱F(xiàn)象"。當(dāng)AI模型無法有效控制輸出長(zhǎng)度時(shí),它們的回答可能會(huì)被強(qiáng)制截?cái)?。研究者通過監(jiān)控截?cái)啾壤l(fā)現(xiàn),健康的學(xué)習(xí)過程中,截?cái)嗦蕬?yīng)該保持在5%以下。如果截?cái)嗦蔬^高,通常意味著模型正在產(chǎn)生重復(fù)或無意義的內(nèi)容,這是訓(xùn)練出現(xiàn)問題的信號(hào)。
另一種錯(cuò)誤模式是"過度思考"。某些模型在訓(xùn)練過程中會(huì)產(chǎn)生異常冗長(zhǎng)的回答,但這些冗長(zhǎng)的內(nèi)容并不包含有價(jià)值的推理過程,而是充滿了重復(fù)和無關(guān)的信息。這種現(xiàn)象特別容易出現(xiàn)在訓(xùn)練不穩(wěn)定的情況下,提醒研究者需要調(diào)整訓(xùn)練參數(shù)。
最有啟發(fā)性的發(fā)現(xiàn)是關(guān)于"建設(shè)性錯(cuò)誤"的觀察。研究團(tuán)隊(duì)發(fā)現(xiàn),在學(xué)習(xí)效果最好的模型中,錯(cuò)誤的性質(zhì)發(fā)生了明顯變化。訓(xùn)練初期,模型的錯(cuò)誤主要是計(jì)算錯(cuò)誤或方法選擇錯(cuò)誤;但隨著訓(xùn)練的進(jìn)行,錯(cuò)誤更多地表現(xiàn)為推理路徑的探索性嘗試。這些"建設(shè)性錯(cuò)誤"實(shí)際上是模型學(xué)習(xí)過程的重要組成部分。
通過對(duì)錯(cuò)誤模式的深入分析,研究者還發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:那些最終表現(xiàn)最好的模型,在訓(xùn)練中期往往會(huì)經(jīng)歷一個(gè)"錯(cuò)誤率上升"的階段。這看似違反直覺的現(xiàn)象實(shí)際上反映了模型正在探索更復(fù)雜的解題策略。就像一個(gè)學(xué)生在學(xué)習(xí)新方法時(shí)可能暫時(shí)表現(xiàn)下降一樣,AI模型也會(huì)經(jīng)歷這種"陣痛期"。
錯(cuò)誤分析還揭示了不同類型問題對(duì)模型學(xué)習(xí)的不同作用。幾何問題往往能夠促進(jìn)模型的空間推理能力發(fā)展,而代數(shù)問題則更多地鍛煉邏輯推理能力。這種發(fā)現(xiàn)為設(shè)計(jì)更有效的訓(xùn)練數(shù)據(jù)集提供了指導(dǎo)。
**九、泛化能力的驚人表現(xiàn)**
雖然AI模型只在數(shù)學(xué)問題上進(jìn)行了訓(xùn)練,但研究團(tuán)隊(duì)發(fā)現(xiàn)它們?cè)谄渌I(lǐng)域也表現(xiàn)出了顯著的能力提升,這種泛化現(xiàn)象令人印象深刻。
在指令遵循能力測(cè)試中,經(jīng)過零RL訓(xùn)練的模型表現(xiàn)明顯更好。即使訓(xùn)練過程中沒有專門教授如何遵循指令,但模型似乎從數(shù)學(xué)推理訓(xùn)練中學(xué)會(huì)了更好地理解和執(zhí)行復(fù)雜的任務(wù)要求。這種改進(jìn)在所有規(guī)模的模型中都有體現(xiàn),改進(jìn)幅度從幾個(gè)百分點(diǎn)到十幾個(gè)百分點(diǎn)不等。
在通用知識(shí)測(cè)試中,模型的表現(xiàn)同樣有了顯著提升。特別是在需要多步推理的科學(xué)問題上,改進(jìn)效果最為明顯。這表明數(shù)學(xué)推理訓(xùn)練不僅提高了計(jì)算能力,還增強(qiáng)了邏輯思維能力,這種能力可以遷移到其他需要系統(tǒng)思考的領(lǐng)域。
最令人驚訝的是在專業(yè)領(lǐng)域知識(shí)測(cè)試中的表現(xiàn)。在化學(xué)、物理和生物學(xué)的高難度問題上,經(jīng)過訓(xùn)練的模型表現(xiàn)出了明顯的改進(jìn)。雖然訓(xùn)練數(shù)據(jù)中沒有包含這些領(lǐng)域的專門知識(shí),但模型顯然學(xué)會(huì)了一些可以跨領(lǐng)域應(yīng)用的推理策略。
這種泛化能力的發(fā)現(xiàn)具有重要的理論和實(shí)踐意義。從理論角度,它支持了一個(gè)觀點(diǎn):深度推理能力可能存在某些通用的認(rèn)知模式,這些模式一旦在某個(gè)領(lǐng)域得到充分發(fā)展,就可以遷移到其他領(lǐng)域。從實(shí)踐角度,這意味著通過在特定領(lǐng)域的深度訓(xùn)練,可能實(shí)現(xiàn)AI能力的全面提升。
研究團(tuán)隊(duì)還測(cè)試了模型在創(chuàng)造性任務(wù)上的表現(xiàn)。雖然改進(jìn)幅度相對(duì)較小,但仍然觀察到了積極的變化。這表明推理能力的提升對(duì)創(chuàng)造性思維也有一定的促進(jìn)作用,盡管兩者之間的關(guān)系可能比較間接。
說到底,這項(xiàng)研究揭示了AI學(xué)習(xí)的一個(gè)基本真理:深度學(xué)習(xí)的核心不在于記憶更多的事實(shí),而在于發(fā)展更強(qiáng)的思維能力。一旦AI模型學(xué)會(huì)了如何深度思考,這種能力就會(huì)在各個(gè)領(lǐng)域發(fā)揮作用,產(chǎn)生超出預(yù)期的泛化效果。
這項(xiàng)來自香港科技大學(xué)團(tuán)隊(duì)的研究不僅在技術(shù)層面有所突破,更在AI教育理念上提供了新的思路。它告訴我們,有時(shí)候最直接的學(xué)習(xí)方式可能也是最有效的方式。與其試圖通過復(fù)雜的預(yù)訓(xùn)練來"準(zhǔn)備"AI模型,不如直接讓它們?cè)谔魬?zhàn)中學(xué)習(xí)和成長(zhǎng)。這種"在游泳中學(xué)會(huì)游泳"的方法,可能正是AI獲得真正智能的關(guān)鍵所在。
對(duì)于AI技術(shù)的發(fā)展而言,這項(xiàng)研究提供了一個(gè)重要的方向指引:我們不需要總是追求更大、更復(fù)雜的模型,而應(yīng)該更多地關(guān)注如何讓現(xiàn)有的模型學(xué)會(huì)更好地思考。畢竟,真正的智能不在于知道多少,而在于能夠思考多深。
Q&A
Q1:什么是"零RL訓(xùn)練"?它與傳統(tǒng)AI訓(xùn)練有什么不同? A:零RL訓(xùn)練是指直接從基礎(chǔ)AI模型開始,通過獎(jiǎng)勵(lì)機(jī)制讓AI學(xué)會(huì)復(fù)雜推理,就像讓從未學(xué)過數(shù)學(xué)的孩子直接解難題。傳統(tǒng)方法是先教基礎(chǔ)知識(shí)再訓(xùn)練高級(jí)能力,而零RL訓(xùn)練跳過基礎(chǔ)教學(xué)階段,讓AI在解決問題中自然學(xué)會(huì)思考。研究發(fā)現(xiàn)這種"跳級(jí)"方式反而更有效。
Q2:為什么有些AI模型會(huì)出現(xiàn)"頓悟時(shí)刻"? A:"頓悟時(shí)刻"是指AI模型在訓(xùn)練過程中突然展現(xiàn)質(zhì)的飛躍,開始產(chǎn)生更深入的思考并學(xué)會(huì)自我驗(yàn)證。這類似于學(xué)生突然開竅的過程。研究發(fā)現(xiàn),不是所有模型都會(huì)有這種戲劇性突破,Qwen系列模型更多是穩(wěn)步提升,而DeepSeek-Math和Llama3等模型更容易出現(xiàn)頓悟現(xiàn)象。
Q3:普通人能否使用這種訓(xùn)練方法來改進(jìn)AI模型? A:目前這還是比較專業(yè)的研究領(lǐng)域,需要相當(dāng)?shù)募夹g(shù)背景和計(jì)算資源。不過研究團(tuán)隊(duì)承諾會(huì)開源相關(guān)代碼和工具,讓更多人可以嘗試。對(duì)普通用戶而言,更重要的是理解這種訓(xùn)練思路:給AI適當(dāng)?shù)奶魬?zhàn)和自由度,往往比過度指導(dǎo)更有效。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對(duì)話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。