作為AI研究領(lǐng)域的一次重要突破,紐約大學(xué)阿布扎比分校的Safal Shrestha、Minwu Kim、Aadim Nepal、Anubhav Shrestha和Keith Ross團隊在2025年5月發(fā)布了一篇題為《Warm Up Before You Train: Unlocking General Reasoning in Resource-Constrained Settings》的研究論文。這項研究解決了一個困擾AI領(lǐng)域已久的難題:如何在訓(xùn)練數(shù)據(jù)嚴(yán)重不足的情況下,依然能訓(xùn)練出具備強大推理能力的大語言模型。
想象一下,如果你要訓(xùn)練一個人成為數(shù)學(xué)高手,通常你需要讓他做大量數(shù)學(xué)題,而且是各種難度和類型的題目。但在現(xiàn)實中,收集和整理這些高質(zhì)量的訓(xùn)練材料非常昂貴且耗時。研究者們面臨的正是類似挑戰(zhàn):要訓(xùn)練AI具備推理能力,傳統(tǒng)上需要使用可驗證獎勵的強化學(xué)習(xí)(RLVR)或者精心策劃的長思維鏈(CoT),這兩種方法都需要大量高質(zhì)量的訓(xùn)練數(shù)據(jù)。
紐約大學(xué)阿布扎比分校的研究團隊提出了一個巧妙的解決方案。他們創(chuàng)造性地提出了一個兩階段訓(xùn)練策略,有點像教人游泳前先在淺水區(qū)練習(xí)基本動作。簡單來說,他們的方法分為兩步:首先,在"熱身階段",他們讓AI模型在一個簡單的邏輯游戲環(huán)境中學(xué)習(xí)——這個游戲叫做"騎士與惡棍"(Knights & Knaves);然后,在第二階段,他們才讓模型處理特定領(lǐng)域的實際問題,如數(shù)學(xué)或編程。
這種兩階段訓(xùn)練方法就像是先教會孩子基本的邏輯思維方式,然后再讓他們解決各種具體問題。團隊發(fā)現(xiàn),經(jīng)過"熱身"的模型不僅學(xué)習(xí)效率更高,還能在多種不同類型的問題上表現(xiàn)出色,甚至能在非常少量的訓(xùn)練數(shù)據(jù)條件下取得驚人的成績。
那么這個"熱身"階段到底有什么魔力?為何從簡單邏輯游戲?qū)W到的能力可以遷移到復(fù)雜的數(shù)學(xué)和編程問題上?接下來,讓我們深入了解這項研究的細節(jié),看看研究團隊是如何驗證這種方法的效果,以及這對未來AI的發(fā)展意味著什么。
一、熱身階段:從簡單游戲中學(xué)習(xí)通用推理
研究團隊提出的熱身階段基于一個關(guān)鍵洞察:推理能力的核心是某些通用的思維過程,比如自我反思、自我糾正以及假設(shè)驗證等。這些能力本質(zhì)上是通用的,可以應(yīng)用于各種不同領(lǐng)域的問題。那么,問題來了:是否可以在一個簡單的環(huán)境中培養(yǎng)這些能力,然后將其遷移到更復(fù)雜的領(lǐng)域?
以往的研究往往側(cè)重于使用特定領(lǐng)域的數(shù)據(jù)進行模型預(yù)熱,比如使用大量數(shù)學(xué)問題來訓(xùn)練解決數(shù)學(xué)問題的能力。但這種方法依然需要大量的領(lǐng)域特定數(shù)據(jù)。而本研究團隊選擇了一條不同的路徑——他們使用了一個簡單的邏輯游戲"騎士與惡棍"(Knights & Knaves)來訓(xùn)練模型的推理能力。
騎士與惡棍是什么游戲呢?想象一個島嶼,島上居住著兩種人:騎士總是說真話,而惡棍總是說謊。游戲中,你會遇到幾個角色,每個角色會做一些陳述。你的任務(wù)是根據(jù)這些陳述推斷出誰是騎士、誰是惡棍。比如,如果Luke說"Ella是個惡棍",Liam說"當(dāng)且僅當(dāng)Luke是惡棍時,Liam是騎士",通過邏輯分析,你需要推斷出每個人的身份。
研究團隊選擇這個游戲作為熱身訓(xùn)練的原因有兩個。首先,解決這類問題需要大量的推理,能夠在教師模型的回答中突顯出通用的推理策略。其次,這個游戲只依賴于基本的布爾邏輯,不需要特定領(lǐng)域的知識(如數(shù)學(xué)定理或?qū)I(yè)軟件庫),這允許模型專注于純粹的推理行為,而不是記憶特定內(nèi)容。
在實驗中,研究團隊使用了QwQ-32B這個強大的推理模型來生成關(guān)于騎士與惡棍問題的長思維鏈。值得注意的是,他們并沒有應(yīng)用篩選機制來過濾錯誤的回答,而是保留了所有反映廣泛推理行為的回應(yīng),即使其中包含錯誤的解答。這樣做的目的是讓模型學(xué)習(xí)推理的過程,而不僅僅是正確的答案。
收集了這些推理軌跡后,研究團隊對基礎(chǔ)模型進行了監(jiān)督微調(diào),讓它"熱身"。這個過程就像是讓模型觀看并學(xué)習(xí)一個推理專家是如何一步步分析和解決問題的。
為了驗證這種方法的有效性,研究團隊在四個不同的基礎(chǔ)模型上進行了實驗:Qwen2.5-3B、Qwen2.5-1.5B-Math、DeepSeek-Math-7B-Base和Qwen2.5-14B。令人驚訝的是,所有模型在經(jīng)過騎士與惡棍游戲的熱身后,都在多個完全不同領(lǐng)域的基準(zhǔn)測試上表現(xiàn)出顯著提升。
以Qwen2.5-3B模型為例,在熱身后,MATH測試的準(zhǔn)確率提高了10.2%,HumanEval+提高了15.3%,MMLU-Pro提高了9.0%。更令人驚訝的是,Qwen2.5-14B模型在熱身后在MATH測試上達到了77.4%的準(zhǔn)確率,接近之前使用全量領(lǐng)域特定數(shù)據(jù)進行強化學(xué)習(xí)訓(xùn)練所達到的80.2%。
這些結(jié)果表明,通過在簡單的邏輯游戲上進行熱身,模型實際上學(xué)到了通用的推理技能,這些技能可以自然地遷移到其他領(lǐng)域,比如數(shù)學(xué)、編程和一般語言理解問題。而且,這種方法不需要特定領(lǐng)域的專業(yè)知識,大大降低了訓(xùn)練成本和數(shù)據(jù)需求。
研究團隊還做了一個對照實驗,以驗證性能提升確實來自于推理行為而非游戲本身的領(lǐng)域特定邏輯。他們選擇了非推理型的Qwen2.5-32B作為教師模型,生成沒有明確推理行為的簡短回答。結(jié)果發(fā)現(xiàn),使用這些簡短回答進行蒸餾的模型在MATH測試上的準(zhǔn)確率僅為11%,遠低于使用推理回答訓(xùn)練的模型(54%)。這證明,模型確實是從推理行為本身中學(xué)習(xí),而不僅僅是從游戲的特定邏輯中學(xué)習(xí)。
二、目標(biāo)領(lǐng)域適配:少量數(shù)據(jù)實現(xiàn)精準(zhǔn)調(diào)優(yōu)
熱身階段證明了模型可以從簡單的邏輯游戲中學(xué)習(xí)通用推理能力。但在實際應(yīng)用中,許多下游任務(wù)需要領(lǐng)域特定的推理,例如在數(shù)學(xué)中分解復(fù)雜的數(shù)值問題,或在編程中生成單元測試。這些技能需要進一步打磨,不太可能僅通過在"騎士與惡棍"游戲上的訓(xùn)練就自然涌現(xiàn)。
因此,研究團隊引入了目標(biāo)適配階段,在這個階段中,經(jīng)過熱身的模型使用可驗證獎勵的強化學(xué)習(xí)(RLVR)在少量(≤100)的特定領(lǐng)域樣本上進行微調(diào)。這就像是一個已經(jīng)掌握了基本邏輯思維的學(xué)生,現(xiàn)在開始專注于應(yīng)用這些能力到特定學(xué)科,如數(shù)學(xué)或編程。
為了驗證這種方法的有效性,研究團隊在MATH、HumanEval+、以及MMLU-Pro數(shù)據(jù)集的物理和歷史子集上進行了實驗。他們分別對未經(jīng)熱身的基礎(chǔ)模型和經(jīng)過熱身的模型使用相同數(shù)量的樣本進行RLVR訓(xùn)練,然后比較它們的性能。
在MATH數(shù)據(jù)集上,研究團隊隨機抽取了100個問題用于訓(xùn)練,然后在MATH500測試集上評估模型性能。結(jié)果表明,僅使用100個訓(xùn)練樣本,經(jīng)過熱身的模型在RLVR訓(xùn)練后達到了64.5%的準(zhǔn)確率,比未經(jīng)熱身的模型高出6.7個百分點。更令人驚訝的是,這個使用僅100個樣本訓(xùn)練的熱身模型的性能與使用全部7,500個樣本訓(xùn)練的未經(jīng)熱身模型相當(dāng)(后者達到63.2%)。這說明熱身極大地提高了樣本效率,使模型能夠從非常少量的示例中學(xué)習(xí)。
在HumanEval+數(shù)據(jù)集上,研究團隊使用了50個示例進行訓(xùn)練。經(jīng)過熱身的模型在RLVR訓(xùn)練前就已經(jīng)表現(xiàn)出15.3%的絕對提升,在50步RLVR訓(xùn)練后,達到了29.3%的絕對提升,超過了未經(jīng)熱身模型在100步RLVR訓(xùn)練后達到的24.3%的提升。這再次證明了熱身階段讓模型成為更高效的學(xué)習(xí)者。
研究團隊還考察了熱身和RLVR在較不依賴推理的任務(wù)上的效果。在MMLU-Pro的物理子集中(這需要分析性問題解決和特定領(lǐng)域知識的混合),經(jīng)過熱身的模型在開箱即用時就展示了9.8%的絕對提升,在150步RLVR訓(xùn)練后達到了15.9%的提升,比未經(jīng)熱身的模型的10.0%提升要高。
然而,在歷史子集上(這更側(cè)重于事實性的世界知識),未經(jīng)熱身的模型在RLVR訓(xùn)練后達到了14.8%的提升,超過了經(jīng)過熱身的模型的10.8%提升。這可能是因為歷史問題不太依賴于長鏈推理,而是更直接地回答問題。實際上,研究表明,對于知識密集型任務(wù),直接回答而不經(jīng)過一步步推理可能表現(xiàn)更好。
這些結(jié)果表明,對于需要大量推理的任務(wù)(如數(shù)學(xué)、編程和物理),熱身前的RLVR訓(xùn)練能夠顯著提升模型性能和樣本效率。而對于更依賴事實回憶的任務(wù),熱身可能不提供同樣的優(yōu)勢。
三、跨領(lǐng)域泛化:保持通用能力的關(guān)鍵
在機器學(xué)習(xí)領(lǐng)域,一個常見的問題是模型在特定任務(wù)上的優(yōu)化往往會導(dǎo)致它在其他任務(wù)上的性能下降,這被稱為"遺忘效應(yīng)"。研究團隊發(fā)現(xiàn),RLVR訓(xùn)練雖然可以提高模型在特定領(lǐng)域的性能,但也可能導(dǎo)致它失去在其他領(lǐng)域的通用推理能力。
例如,當(dāng)直接對基礎(chǔ)模型在HumanEval+上進行RLVR訓(xùn)練時,它在MATH測試上的性能下降了13.8%;同樣,在歷史子集上進行RLVR訓(xùn)練會導(dǎo)致在MMLU-Pro上的性能下降8.5%。這種現(xiàn)象表明,RLVR訓(xùn)練可能會促使模型內(nèi)化狹窄的、特定領(lǐng)域的啟發(fā)式方法,從而削弱其更廣泛的推理能力。
然而,研究團隊發(fā)現(xiàn),如果先進行熱身階段,再進行RLVR訓(xùn)練,模型能夠在很大程度上保持其跨領(lǐng)域的泛化能力。例如,雖然在數(shù)學(xué)上進行RLVR訓(xùn)練的熱身模型在HumanEval+上有1.4%的下降,但這遠低于未經(jīng)熱身模型的13.8%的下降。
更顯著的是,在物理和歷史等領(lǐng)域上進行RLVR訓(xùn)練的熱身模型不僅在訓(xùn)練領(lǐng)域有所提升,還在未訓(xùn)練的領(lǐng)域保持了良好的性能,甚至有所提升。例如,在物理上RLVR訓(xùn)練的熱身模型在MATH上有11.6%的提升,在HumanEval+上有10.5%的提升,在MMLU-Pro上有16.0%的提升。
研究團隊還觀察了模型生成回答的長度變化。他們發(fā)現(xiàn),RLVR訓(xùn)練通常會導(dǎo)致模型生成更簡潔的回答,這可能反映了推理深度的收縮。然而,熱身模型即使在RLVR訓(xùn)練后,仍然保持著相對較長的回答長度,這可能有助于保持模型的通用推理能力。
有趣的是,研究團隊發(fā)現(xiàn),在物理這種混合了多步推理和事實回憶的領(lǐng)域上進行RLVR訓(xùn)練,對基礎(chǔ)模型和熱身模型的跨領(lǐng)域性能都有更好的維護。這表明任務(wù)多樣性在RLVR訓(xùn)練中可能在保持泛化能力方面起著關(guān)鍵作用。
四、研究意義與未來展望
這項研究的主要貢獻在于提出了一種高效的兩階段訓(xùn)練策略,使得在數(shù)據(jù)稀缺的環(huán)境下也能開發(fā)出具備推理能力的大語言模型。研究結(jié)果表明,通過在簡單的邏輯游戲上進行熱身,然后在特定領(lǐng)域進行RLVR訓(xùn)練,可以在性能、樣本效率和泛化能力方面取得顯著提升。
從元學(xué)習(xí)的角度來看,這項工作成功地證明了模型可以學(xué)習(xí)通用的推理策略,并迅速將其適應(yīng)到多種下游任務(wù)。這種方法特別適用于資源受限的環(huán)境,因為它不需要大量的領(lǐng)域特定數(shù)據(jù)。
對于未來的研究方向,研究團隊認(rèn)為可以探索設(shè)計更有效的熱身環(huán)境,以激發(fā)更多樣的推理行為。此外,研究團隊也承認(rèn)本研究的局限性,例如熱身方法如何應(yīng)用于更復(fù)雜的任務(wù)(如涉及更豐富動態(tài)、交互或領(lǐng)域特定約束的多智能體環(huán)境)仍是一個開放問題。
這項研究還引發(fā)了關(guān)于如何設(shè)計合成環(huán)境作為模型學(xué)習(xí)通用推理行為的游樂場的思考。未來的工作可以探索其他合成環(huán)境,這些環(huán)境可能提供同樣或更有效的推理先驗,更適合下游需求。
總的來說,這項研究提供了一種實用的策略,用于在數(shù)據(jù)有限的環(huán)境中構(gòu)建穩(wěn)健的推理大語言模型。它不僅提高了性能,還增強了樣本效率,同時保持了跨領(lǐng)域的泛化能力,為構(gòu)建更通用、更資源友好的AI系統(tǒng)鋪平了道路。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機制和漸進式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學(xué)習(xí)外觀和運動信息,顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報,準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。