這項(xiàng)由中國(guó)科學(xué)院自動(dòng)化研究所的王新進(jìn)、孫昊等研究人員領(lǐng)導(dǎo)的突破性研究發(fā)表于2025年6月的《第42屆國(guó)際機(jī)器學(xué)習(xí)會(huì)議》(ICML 2025)。對(duì)于想要深入了解這項(xiàng)研究的讀者,可以通過(guò)論文編號(hào)arXiv:2505.07796v2訪問(wèn)完整的研究?jī)?nèi)容。
當(dāng)你從一所學(xué)校轉(zhuǎn)到另一所學(xué)校時(shí),你需要適應(yīng)新的環(huán)境、學(xué)習(xí)新的課程,同時(shí)還要保持原來(lái)掌握的知識(shí)。這個(gè)過(guò)程既充滿挑戰(zhàn),也蘊(yùn)含著無(wú)限可能。大語(yǔ)言模型在學(xué)習(xí)新領(lǐng)域知識(shí)時(shí),也面臨著類似的"轉(zhuǎn)學(xué)"挑戰(zhàn),這個(gè)過(guò)程被稱為持續(xù)預(yù)訓(xùn)練。
最近,中科院的研究團(tuán)隊(duì)就像是給AI的"轉(zhuǎn)學(xué)"過(guò)程配備了一個(gè)專業(yè)的學(xué)習(xí)顧問(wèn),他們發(fā)現(xiàn)了一套預(yù)測(cè)AI在新環(huán)境中學(xué)習(xí)表現(xiàn)的神奇公式。這套公式不僅能預(yù)測(cè)AI在學(xué)習(xí)過(guò)程中每一步的表現(xiàn),還能幫助我們找到最佳的學(xué)習(xí)策略,讓AI既能快速掌握新知識(shí),又不會(huì)忘記原來(lái)的本領(lǐng)。
研究團(tuán)隊(duì)發(fā)現(xiàn),AI的持續(xù)學(xué)習(xí)過(guò)程就像是在兩條不同的學(xué)習(xí)軌道之間進(jìn)行轉(zhuǎn)換。原本AI在自己熟悉的領(lǐng)域(比如通用文本)有一條穩(wěn)定的學(xué)習(xí)軌道,當(dāng)它開(kāi)始學(xué)習(xí)新領(lǐng)域(比如編程或法律)時(shí),就會(huì)逐漸轉(zhuǎn)向一條全新的學(xué)習(xí)軌道。這個(gè)轉(zhuǎn)換過(guò)程遵循著特定的數(shù)學(xué)規(guī)律,研究人員將其總結(jié)為一個(gè)精確的預(yù)測(cè)公式。
這項(xiàng)研究的重要性在于,它首次提供了一套完整的"AI學(xué)習(xí)地圖",讓我們能夠預(yù)測(cè)AI在學(xué)習(xí)新知識(shí)時(shí)的每一個(gè)階段會(huì)發(fā)生什么。更重要的是,這套理論還能幫助我們優(yōu)化AI的學(xué)習(xí)策略,比如確定最佳的學(xué)習(xí)強(qiáng)度、學(xué)習(xí)時(shí)長(zhǎng),以及新舊知識(shí)的最佳混合比例。
一、AI的"轉(zhuǎn)學(xué)生"困境:當(dāng)通用模型遇到專業(yè)領(lǐng)域
當(dāng)一個(gè)在綜合性大學(xué)表現(xiàn)優(yōu)秀的學(xué)生轉(zhuǎn)入專業(yè)性很強(qiáng)的技術(shù)學(xué)院時(shí),他會(huì)遇到什么樣的挑戰(zhàn)呢?首先,他需要學(xué)習(xí)全新的專業(yè)課程,這些課程與他之前學(xué)過(guò)的內(nèi)容有很大差異。同時(shí),他還要努力保持原來(lái)掌握的基礎(chǔ)知識(shí),避免因?yàn)檫^(guò)度專注新領(lǐng)域而遺忘了基本功。
大語(yǔ)言模型的持續(xù)預(yù)訓(xùn)練過(guò)程正是如此。這些模型最初在海量的通用文本上進(jìn)行訓(xùn)練,掌握了語(yǔ)言的基本規(guī)律和常識(shí)。當(dāng)我們希望它們?cè)谔囟I(lǐng)域(如醫(yī)學(xué)、法律、編程)表現(xiàn)更好時(shí),就需要讓它們繼續(xù)在這些專業(yè)領(lǐng)域的數(shù)據(jù)上學(xué)習(xí)。然而,這個(gè)過(guò)程充滿了微妙的平衡藝術(shù)。
學(xué)習(xí)太激進(jìn),AI可能會(huì)快速掌握新領(lǐng)域知識(shí),但同時(shí)也會(huì)忘記原來(lái)的通用能力,這種現(xiàn)象被稱為"災(zāi)難性遺忘"。就像一個(gè)學(xué)生專注學(xué)習(xí)編程后,竟然忘記了如何寫(xiě)作文。相反,如果學(xué)習(xí)太保守,AI雖然保持了原有能力,但在新領(lǐng)域的表現(xiàn)卻無(wú)法達(dá)到預(yù)期水平。
研究團(tuán)隊(duì)通過(guò)大量實(shí)驗(yàn)發(fā)現(xiàn),AI在這個(gè)學(xué)習(xí)過(guò)程中的表現(xiàn)變化遵循著非常有趣的規(guī)律。當(dāng)AI開(kāi)始接觸新領(lǐng)域數(shù)據(jù)時(shí),它在原領(lǐng)域的表現(xiàn)會(huì)開(kāi)始下降,這就像轉(zhuǎn)學(xué)生剛到新環(huán)境時(shí)會(huì)有些不適應(yīng)。與此同時(shí),它在新領(lǐng)域的表現(xiàn)會(huì)逐漸提升,就像慢慢適應(yīng)新學(xué)校的課程體系。
更有趣的是,研究人員發(fā)現(xiàn)這種變化并不是隨機(jī)的,而是可以用數(shù)學(xué)公式精確描述的。通過(guò)觀察AI在不同學(xué)習(xí)階段的表現(xiàn),他們總結(jié)出了一套能夠預(yù)測(cè)整個(gè)學(xué)習(xí)過(guò)程的完整理論。
二、解碼AI學(xué)習(xí)的雙軌模式:從軌道切換的視角理解持續(xù)學(xué)習(xí)
研究團(tuán)隊(duì)提出了一個(gè)非常形象的比喻來(lái)解釋AI的持續(xù)學(xué)習(xí)過(guò)程:軌道切換。他們發(fā)現(xiàn),AI的學(xué)習(xí)過(guò)程實(shí)際上是從一條"隱藏的學(xué)習(xí)軌道"切換到另一條"隱藏的學(xué)習(xí)軌道"的過(guò)程。
什么是"隱藏的學(xué)習(xí)軌道"呢?研究人員解釋說(shuō),如果AI一直在原來(lái)的通用數(shù)據(jù)上繼續(xù)學(xué)習(xí),它會(huì)沿著一條特定的軌道不斷進(jìn)步,這就是"原領(lǐng)域的隱藏軌道"。同樣,如果AI從零開(kāi)始只在新領(lǐng)域數(shù)據(jù)上學(xué)習(xí),它也會(huì)沿著另一條軌道發(fā)展,這就是"新領(lǐng)域的隱藏軌道"。
而持續(xù)預(yù)訓(xùn)練的過(guò)程,就是AI從第一條軌道逐漸切換到第二條軌道的過(guò)程。這個(gè)切換不是瞬間完成的,而是一個(gè)漸進(jìn)的過(guò)程,就像火車從一條鐵軌慢慢切換到另一條鐵軌。
為了驗(yàn)證這個(gè)理論,研究人員設(shè)計(jì)了巧妙的對(duì)比實(shí)驗(yàn)。他們分別訓(xùn)練了兩個(gè)"參照模型":一個(gè)持續(xù)在通用數(shù)據(jù)上學(xué)習(xí),另一個(gè)從頭開(kāi)始只在新領(lǐng)域數(shù)據(jù)上學(xué)習(xí)。然后,他們觀察正在進(jìn)行持續(xù)預(yù)訓(xùn)練的模型,發(fā)現(xiàn)它的表現(xiàn)確實(shí)在這兩條參照軌道之間逐漸切換。
這個(gè)發(fā)現(xiàn)非常重要,因?yàn)樗沂玖薃I學(xué)習(xí)的本質(zhì)機(jī)制。原來(lái),AI并不是簡(jiǎn)單地"遺忘"舊知識(shí)然后"學(xué)習(xí)"新知識(shí),而是在兩套完整的知識(shí)體系之間進(jìn)行平衡和切換。這就像一個(gè)人在學(xué)習(xí)新語(yǔ)言時(shí),并不是完全拋棄母語(yǔ),而是在兩種語(yǔ)言系統(tǒng)之間建立聯(lián)系和切換機(jī)制。
三、學(xué)習(xí)動(dòng)力學(xué)的數(shù)學(xué)密碼:分布偏移與學(xué)習(xí)率衰減的雙重奏
研究團(tuán)隊(duì)發(fā)現(xiàn),AI在持續(xù)學(xué)習(xí)過(guò)程中的表現(xiàn)變化可以分解為兩個(gè)核心要素的相互作用:分布偏移和學(xué)習(xí)率衰減。這就像是一場(chǎng)精心編排的雙重奏,兩個(gè)因素各自發(fā)揮作用,共同決定了最終的學(xué)習(xí)效果。
分布偏移這個(gè)概念聽(tīng)起來(lái)很抽象,但用一個(gè)簡(jiǎn)單的類比就容易理解了。當(dāng)一個(gè)習(xí)慣了中式菜譜的廚師突然要學(xué)做意大利菜時(shí),他會(huì)發(fā)現(xiàn)食材、調(diào)料、烹飪方法都發(fā)生了顯著變化。這種從中式菜譜到意大利菜譜的"跳躍"就是分布偏移。對(duì)AI來(lái)說(shuō),從通用文本數(shù)據(jù)切換到專業(yè)領(lǐng)域數(shù)據(jù),就是一次明顯的分布偏移。
研究人員通過(guò)精密的實(shí)驗(yàn)設(shè)計(jì)發(fā)現(xiàn),這種分布偏移的影響遵循著冪律分布的規(guī)律。具體來(lái)說(shuō),隨著AI接觸新領(lǐng)域數(shù)據(jù)的時(shí)間增長(zhǎng),分布偏移的影響會(huì)按照特定的數(shù)學(xué)模式逐漸穩(wěn)定。這個(gè)發(fā)現(xiàn)讓人驚訝的是,無(wú)論AI從哪個(gè)時(shí)間點(diǎn)開(kāi)始轉(zhuǎn)學(xué),這種分布偏移的模式都保持一致,就像物理定律一樣穩(wěn)定可靠。
另一個(gè)關(guān)鍵因素是學(xué)習(xí)率衰減。這相當(dāng)于控制AI學(xué)習(xí)速度的"油門(mén)踏板"。在學(xué)習(xí)初期,我們通常會(huì)設(shè)置較高的學(xué)習(xí)率,讓AI快速吸收新知識(shí)。隨著學(xué)習(xí)的深入,我們會(huì)逐漸降低學(xué)習(xí)率,讓AI更精細(xì)地調(diào)整和優(yōu)化已學(xué)到的知識(shí)。這個(gè)過(guò)程就像開(kāi)車一樣:起步時(shí)需要大油門(mén)快速加速,但在精細(xì)操作時(shí)需要輕踩油門(mén)慢慢調(diào)整。
研究團(tuán)隊(duì)發(fā)現(xiàn),學(xué)習(xí)率衰減的影響也遵循著特定的數(shù)學(xué)規(guī)律。他們建立了一套復(fù)雜的方程組,能夠精確描述學(xué)習(xí)率變化對(duì)AI表現(xiàn)的影響。更令人興奮的是,這套方程不僅適用于簡(jiǎn)單的學(xué)習(xí)率調(diào)度,還能處理各種復(fù)雜的學(xué)習(xí)率變化模式,比如先上升后下降的"預(yù)熱-衰減"模式。
將這兩個(gè)因素結(jié)合起來(lái),研究人員得到了一個(gè)完整的AI學(xué)習(xí)動(dòng)力學(xué)方程。這個(gè)方程就像是AI學(xué)習(xí)過(guò)程的"天氣預(yù)報(bào)系統(tǒng)",能夠準(zhǔn)確預(yù)測(cè)AI在任何學(xué)習(xí)階段的表現(xiàn)。通過(guò)輸入當(dāng)前的學(xué)習(xí)參數(shù),我們就能知道AI在接下來(lái)的每一個(gè)學(xué)習(xí)步驟中會(huì)有什么樣的表現(xiàn)。
四、精準(zhǔn)預(yù)測(cè)的魔法公式:構(gòu)建AI學(xué)習(xí)的數(shù)學(xué)模型
研究團(tuán)隊(duì)開(kāi)發(fā)的預(yù)測(cè)公式堪稱AI領(lǐng)域的"萬(wàn)能鑰匙"。這個(gè)公式的精妙之處在于,它不僅能預(yù)測(cè)AI的最終學(xué)習(xí)效果,還能描繪出整個(gè)學(xué)習(xí)過(guò)程中每一個(gè)細(xì)節(jié)的變化軌跡。
這個(gè)神奇的公式由幾個(gè)核心組件構(gòu)成。首先是基礎(chǔ)損失項(xiàng),它代表了AI在理想狀態(tài)下能達(dá)到的最佳表現(xiàn)。然后是前向區(qū)域項(xiàng),它描述了學(xué)習(xí)量的累積效應(yīng)。接著是退火區(qū)域項(xiàng),它捕捉了學(xué)習(xí)率變化帶來(lái)的影響。最后是分布偏移項(xiàng),它量化了從舊領(lǐng)域到新領(lǐng)域切換的影響。
為了驗(yàn)證這個(gè)公式的準(zhǔn)確性,研究人員進(jìn)行了大量的實(shí)驗(yàn)。他們使用不同規(guī)模的模型,從1.06億參數(shù)的小型模型到17億參數(shù)的大型模型,在各種不同的學(xué)習(xí)場(chǎng)景下測(cè)試公式的預(yù)測(cè)能力。結(jié)果令人驚喜:無(wú)論是簡(jiǎn)單的常數(shù)學(xué)習(xí)率,還是復(fù)雜的預(yù)熱-穩(wěn)定-衰減學(xué)習(xí)率調(diào)度,這個(gè)公式都能給出高度準(zhǔn)確的預(yù)測(cè)。
更讓人印象深刻的是,這個(gè)公式的預(yù)測(cè)精度非常高。在大多數(shù)測(cè)試場(chǎng)景中,預(yù)測(cè)值與實(shí)際觀測(cè)值的相關(guān)系數(shù)都超過(guò)了0.99,這意味著預(yù)測(cè)的準(zhǔn)確性達(dá)到了近乎完美的水平。這就像是擁有了一個(gè)能夠準(zhǔn)確預(yù)測(cè)股票價(jià)格走勢(shì)的神奇公式,讓我們能夠提前知道AI在學(xué)習(xí)過(guò)程中的每一個(gè)變化。
研究人員還發(fā)現(xiàn),這個(gè)公式具有很強(qiáng)的泛化能力。即使在不同的數(shù)據(jù)集、不同的模型架構(gòu)、不同的學(xué)習(xí)設(shè)置下,公式依然保持著高度的準(zhǔn)確性。這說(shuō)明他們發(fā)現(xiàn)的不是某種偶然的現(xiàn)象,而是AI學(xué)習(xí)過(guò)程中的基本規(guī)律。
五、優(yōu)化AI學(xué)習(xí)的實(shí)用指南:從理論到實(shí)踐的橋梁
有了預(yù)測(cè)公式這個(gè)強(qiáng)大工具,研究團(tuán)隊(duì)進(jìn)一步探索了如何利用它來(lái)優(yōu)化AI的學(xué)習(xí)過(guò)程。他們發(fā)現(xiàn)了幾個(gè)關(guān)鍵的優(yōu)化原則,這些原則就像是AI訓(xùn)練師的秘密武器。
首先是"損失潛力"的概念。研究人員發(fā)現(xiàn),AI模型在開(kāi)始持續(xù)學(xué)習(xí)時(shí)的狀態(tài)對(duì)最終效果有決定性影響。那些保留了更多"學(xué)習(xí)潛力"的模型(即沒(méi)有被過(guò)度訓(xùn)練到極限狀態(tài)的模型)在新領(lǐng)域的適應(yīng)能力會(huì)更強(qiáng)。這就像是保持一定體力儲(chǔ)備的運(yùn)動(dòng)員在面對(duì)新挑戰(zhàn)時(shí)會(huì)有更好的表現(xiàn)。
具體來(lái)說(shuō),如果原始模型的學(xué)習(xí)率還沒(méi)有完全衰減到零,而是保持在一個(gè)較高的水平,那么它在新領(lǐng)域的學(xué)習(xí)效果會(huì)更好。這個(gè)發(fā)現(xiàn)顛覆了傳統(tǒng)的認(rèn)知,原來(lái)我們不應(yīng)該把模型訓(xùn)練到絕對(duì)的極限狀態(tài),而應(yīng)該為后續(xù)的學(xué)習(xí)留下一些空間。
其次是峰值學(xué)習(xí)率的選擇策略。研究人員發(fā)現(xiàn),不同的學(xué)習(xí)目標(biāo)需要不同的學(xué)習(xí)率設(shè)置。如果你更關(guān)心AI在新領(lǐng)域的表現(xiàn),可以設(shè)置較高的學(xué)習(xí)率來(lái)加速適應(yīng)。但如果你更希望保持原有能力,就應(yīng)該選擇較低的學(xué)習(xí)率來(lái)減緩遺忘。這種權(quán)衡就像是在運(yùn)動(dòng)訓(xùn)練中選擇不同的訓(xùn)練強(qiáng)度一樣。
第三個(gè)重要發(fā)現(xiàn)是關(guān)于訓(xùn)練步數(shù)的選擇。研究人員定義了一個(gè)叫做"轉(zhuǎn)折長(zhǎng)度"的概念,這是指AI能夠回到原始性能水平所需的最少訓(xùn)練步數(shù)。對(duì)于某些特定的模型狀態(tài)和數(shù)據(jù)分布組合,存在一個(gè)神奇的現(xiàn)象:如果訓(xùn)練步數(shù)剛好達(dá)到轉(zhuǎn)折長(zhǎng)度,AI不僅能掌握新領(lǐng)域知識(shí),甚至還能在原領(lǐng)域獲得比最初更好的表現(xiàn)。
最后是數(shù)據(jù)混合比例的優(yōu)化。在實(shí)際應(yīng)用中,我們通常會(huì)將新領(lǐng)域數(shù)據(jù)與原領(lǐng)域數(shù)據(jù)按一定比例混合進(jìn)行訓(xùn)練。研究人員發(fā)現(xiàn),最優(yōu)的混合比例取決于具體的學(xué)習(xí)目標(biāo)。如果你希望平衡兩個(gè)領(lǐng)域的表現(xiàn),存在一個(gè)理論上的最優(yōu)比例點(diǎn)。有趣的是,這個(gè)最優(yōu)比例通常不是簡(jiǎn)單的五五開(kāi),而是一個(gè)經(jīng)過(guò)精確計(jì)算得出的特定數(shù)值。
六、模型規(guī)模與重放策略:規(guī)?;?xùn)練的深層洞察
研究團(tuán)隊(duì)還深入探討了模型規(guī)模對(duì)持續(xù)學(xué)習(xí)效果的影響。他們發(fā)現(xiàn)了一個(gè)出人意料的現(xiàn)象:在面對(duì)相同的學(xué)習(xí)任務(wù)時(shí),不同規(guī)模的模型表現(xiàn)出了截然不同的適應(yīng)模式。
通過(guò)對(duì)比1.06億、5.94億和17.2億參數(shù)的模型,研究人員發(fā)現(xiàn)分布偏移的影響在不同規(guī)模的模型間保持著驚人的一致性。這意味著,無(wú)論模型大小如何,從舊領(lǐng)域切換到新領(lǐng)域時(shí)的"震蕩"程度基本相同。這個(gè)發(fā)現(xiàn)很有實(shí)用價(jià)值,因?yàn)樗砻魑覀兛梢韵扔眯∧P瓦M(jìn)行實(shí)驗(yàn)和調(diào)優(yōu),然后將結(jié)果直接應(yīng)用到大模型上。
然而,模型規(guī)模確實(shí)會(huì)影響學(xué)習(xí)率衰減的效應(yīng)。大模型對(duì)學(xué)習(xí)率變化更敏感,這就像是精密儀器需要更小心的調(diào)節(jié)一樣。研究人員發(fā)現(xiàn),隨著模型規(guī)模的增大,需要相應(yīng)調(diào)整學(xué)習(xí)率衰減的系數(shù),以確保獲得最佳的學(xué)習(xí)效果。
在重放策略方面,研究團(tuán)隊(duì)揭示了一個(gè)重要的平衡原理。重放策略是指在學(xué)習(xí)新領(lǐng)域數(shù)據(jù)時(shí),同時(shí)混入一定比例的原領(lǐng)域數(shù)據(jù),以減緩遺忘效應(yīng)。研究人員發(fā)現(xiàn),重放比例的影響遵循指數(shù)函數(shù)的規(guī)律,這為精確控制新舊知識(shí)的平衡提供了數(shù)學(xué)依據(jù)。
更有趣的是,研究人員發(fā)現(xiàn)存在一個(gè)"同分布基線"現(xiàn)象。如果我們從零開(kāi)始隨機(jī)初始化一個(gè)模型,然后按照最優(yōu)重放比例進(jìn)行訓(xùn)練,最終的表現(xiàn)會(huì)形成一條基準(zhǔn)線。而從預(yù)訓(xùn)練模型開(kāi)始的持續(xù)學(xué)習(xí)過(guò)程,其最優(yōu)重放比例會(huì)圍繞這條基準(zhǔn)線波動(dòng),形成一種"波浪形"的模式。這種模式反映了預(yù)訓(xùn)練知識(shí)與新知識(shí)之間復(fù)雜的相互作用關(guān)系。
研究團(tuán)隊(duì)還發(fā)現(xiàn),對(duì)于不同類型的新領(lǐng)域,最優(yōu)重放策略會(huì)有顯著差異。當(dāng)新領(lǐng)域與原領(lǐng)域差異較大時(shí)(比如從通用文本轉(zhuǎn)向法律文檔),需要較低的重放比例來(lái)加速適應(yīng)。而當(dāng)新領(lǐng)域與原領(lǐng)域相對(duì)接近時(shí)(比如從通用文本轉(zhuǎn)向科技文檔),則需要較高的重放比例來(lái)保持平衡。
七、批次大小與序列長(zhǎng)度的影響:技術(shù)細(xì)節(jié)中的關(guān)鍵發(fā)現(xiàn)
在深入的技術(shù)探索中,研究團(tuán)隊(duì)還考察了訓(xùn)練過(guò)程中兩個(gè)重要參數(shù)的影響:批次大小和序列長(zhǎng)度。這些看似技術(shù)性的細(xì)節(jié)實(shí)際上對(duì)AI的學(xué)習(xí)效果有著重要影響。
批次大小可以理解為AI每次學(xué)習(xí)時(shí)處理的數(shù)據(jù)量。就像學(xué)生在課堂上,有的老師喜歡一次講解很多內(nèi)容,有的老師則偏好少量多次的精細(xì)講解。研究人員發(fā)現(xiàn),當(dāng)計(jì)算資源有限需要減小批次大小時(shí),或者當(dāng)任務(wù)需求要求增大批次大小時(shí),他們開(kāi)發(fā)的預(yù)測(cè)公式依然保持著高度的準(zhǔn)確性。
這個(gè)發(fā)現(xiàn)具有重要的實(shí)用價(jià)值。在實(shí)際應(yīng)用中,不同的硬件環(huán)境和計(jì)算預(yù)算會(huì)限制我們選擇的批次大小。有了這個(gè)發(fā)現(xiàn),我們可以放心地在不同的批次大小設(shè)置下應(yīng)用這套理論,而不用擔(dān)心預(yù)測(cè)的準(zhǔn)確性會(huì)大幅下降。
序列長(zhǎng)度的影響更加微妙。當(dāng)我們希望AI處理更長(zhǎng)的文本時(shí),需要增加序列長(zhǎng)度,這通常還伴隨著其他技術(shù)參數(shù)的調(diào)整,比如位置編碼的基數(shù)。研究人員在實(shí)驗(yàn)中測(cè)試了從4K到8K序列長(zhǎng)度的變化,發(fā)現(xiàn)預(yù)測(cè)公式能夠很好地適應(yīng)這種變化。
更令人印象深刻的是,研究團(tuán)隊(duì)發(fā)現(xiàn)分布偏移的核心模式在這些技術(shù)參數(shù)變化時(shí)保持著穩(wěn)定性。這進(jìn)一步證明了他們發(fā)現(xiàn)的規(guī)律的基礎(chǔ)性和普遍性。無(wú)論技術(shù)實(shí)現(xiàn)的細(xì)節(jié)如何變化,AI學(xué)習(xí)的基本動(dòng)力學(xué)規(guī)律都保持一致。
這些發(fā)現(xiàn)為實(shí)際部署提供了寶貴的指導(dǎo)。在資源受限的環(huán)境中,我們可以通過(guò)調(diào)整批次大小和序列長(zhǎng)度來(lái)適應(yīng)硬件限制,而不用擔(dān)心這些調(diào)整會(huì)破壞我們對(duì)學(xué)習(xí)過(guò)程的預(yù)測(cè)和控制能力。
八、開(kāi)源模型的適配策略:面向?qū)嶋H應(yīng)用的解決方案
考慮到大多數(shù)研究者和工程師使用的是開(kāi)源的預(yù)訓(xùn)練模型,研究團(tuán)隊(duì)專門(mén)開(kāi)發(fā)了一套適用于"黑盒"模型的應(yīng)用策略。這些開(kāi)源模型通常不會(huì)提供完整的訓(xùn)練細(xì)節(jié),比如確切的訓(xùn)練數(shù)據(jù)分布、訓(xùn)練步數(shù)、學(xué)習(xí)率調(diào)度等關(guān)鍵信息。
面對(duì)這個(gè)挑戰(zhàn),研究人員提出了三個(gè)巧妙的解決方案。首先,對(duì)于未知的原始訓(xùn)練數(shù)據(jù)分布,他們建議使用常見(jiàn)的開(kāi)源數(shù)據(jù)集作為代理。比如,可以用Common Crawl數(shù)據(jù)集來(lái)近似大多數(shù)大語(yǔ)言模型的預(yù)訓(xùn)練數(shù)據(jù)分布。雖然這種近似不是完美的,但實(shí)驗(yàn)證明它足夠有效。
其次,對(duì)于未知的訓(xùn)練歷史信息,研究人員將一些關(guān)鍵參數(shù)視為可擬合的未知數(shù)。比如,他們將累積的前向?qū)W習(xí)量作為一個(gè)參數(shù)來(lái)估計(jì),而不是試圖推斷確切的訓(xùn)練步數(shù)和學(xué)習(xí)率歷史。這種方法將復(fù)雜的歷史信息壓縮成了幾個(gè)可以通過(guò)少量數(shù)據(jù)點(diǎn)估計(jì)的參數(shù)。
第三,考慮到大多數(shù)開(kāi)源模型都會(huì)將學(xué)習(xí)率衰減到接近零的水平以獲得最佳性能,研究人員假設(shè)這些模型的最終學(xué)習(xí)率為零。這個(gè)假設(shè)簡(jiǎn)化了計(jì)算,同時(shí)不會(huì)顯著影響預(yù)測(cè)的準(zhǔn)確性。
為了驗(yàn)證這套方案的有效性,研究團(tuán)隊(duì)對(duì)LLaMA3.2-1B這個(gè)真實(shí)的開(kāi)源模型進(jìn)行了測(cè)試。他們使用Pile-of-Law數(shù)據(jù)集進(jìn)行持續(xù)預(yù)訓(xùn)練,并用RedPajama數(shù)據(jù)集作為原始數(shù)據(jù)的代理。結(jié)果顯示,即使在這種"信息不完全"的情況下,預(yù)測(cè)公式依然能夠準(zhǔn)確描述模型的學(xué)習(xí)軌跡。
這個(gè)成功的實(shí)踐案例證明,研究團(tuán)隊(duì)開(kāi)發(fā)的理論不僅在理想的實(shí)驗(yàn)條件下有效,在真實(shí)的應(yīng)用場(chǎng)景中同樣具有強(qiáng)大的實(shí)用價(jià)值。這為廣大使用開(kāi)源模型的研究者和工程師提供了一套實(shí)用的工具箱。
九、跨領(lǐng)域驗(yàn)證與泛化能力:理論的普適性檢驗(yàn)
為了驗(yàn)證理論的普適性,研究團(tuán)隊(duì)在多個(gè)不同的領(lǐng)域組合上進(jìn)行了廣泛的測(cè)試。他們不僅測(cè)試了從通用文本到編程代碼的轉(zhuǎn)換,還測(cè)試了到法律文檔、醫(yī)學(xué)文獻(xiàn)等多個(gè)專業(yè)領(lǐng)域的轉(zhuǎn)換。
在每個(gè)測(cè)試場(chǎng)景中,研究人員都發(fā)現(xiàn)了相同的基本模式:軌道切換現(xiàn)象、分布偏移的冪律規(guī)律、學(xué)習(xí)率衰減的影響機(jī)制等。這種一致性表明,他們發(fā)現(xiàn)的不是某個(gè)特定領(lǐng)域的偶然現(xiàn)象,而是AI持續(xù)學(xué)習(xí)的基本規(guī)律。
特別有趣的是,研究團(tuán)隊(duì)發(fā)現(xiàn)不同領(lǐng)域間的"距離"會(huì)顯著影響學(xué)習(xí)的難易程度。當(dāng)目標(biāo)領(lǐng)域與原始領(lǐng)域差異很大時(shí)(比如從通用文本轉(zhuǎn)向法律文檔),分布偏移的影響會(huì)更加顯著,需要更長(zhǎng)的時(shí)間才能穩(wěn)定。相反,當(dāng)兩個(gè)領(lǐng)域相對(duì)接近時(shí)(比如從通用文本轉(zhuǎn)向科技文檔),切換過(guò)程會(huì)更加平滑。
這個(gè)發(fā)現(xiàn)有助于我們?cè)趯?shí)際應(yīng)用中設(shè)定合理的期望和制定相應(yīng)的策略。對(duì)于跨度較大的領(lǐng)域轉(zhuǎn)換,我們需要準(zhǔn)備更多的計(jì)算資源和時(shí)間,同時(shí)可能需要更精細(xì)的參數(shù)調(diào)優(yōu)。而對(duì)于相近領(lǐng)域的轉(zhuǎn)換,我們可以期待更快的收斂和更穩(wěn)定的效果。
研究人員還測(cè)試了理論在不同模型架構(gòu)上的適用性。除了主要基于LLaMA架構(gòu)的實(shí)驗(yàn)外,他們還在其他架構(gòu)上進(jìn)行了驗(yàn)證,發(fā)現(xiàn)基本規(guī)律保持一致。這進(jìn)一步證明了理論的普遍性,表明它反映的是深度學(xué)習(xí)的基本原理,而不是某種特定架構(gòu)的特殊性質(zhì)。
十、超越領(lǐng)域的預(yù)測(cè)能力:面向未來(lái)的擴(kuò)展可能
研究團(tuán)隊(duì)的一個(gè)重要發(fā)現(xiàn)是,他們的理論框架可以擴(kuò)展到預(yù)測(cè)AI在任意第三方領(lǐng)域的表現(xiàn)。這種能力就像是擁有了一個(gè)"萬(wàn)能翻譯器",能夠?qū)I在兩個(gè)已知領(lǐng)域的表現(xiàn)轉(zhuǎn)換成對(duì)任意其他領(lǐng)域表現(xiàn)的預(yù)測(cè)。
具體來(lái)說(shuō),研究人員發(fā)現(xiàn),AI在任何外部領(lǐng)域的表現(xiàn)都可以表示為它在原領(lǐng)域和目標(biāo)領(lǐng)域表現(xiàn)的線性組合。這個(gè)發(fā)現(xiàn)基于數(shù)據(jù)混合定律的思想,即不同領(lǐng)域的數(shù)據(jù)可以通過(guò)一定的權(quán)重組合來(lái)近似其他領(lǐng)域的特征。
通過(guò)這種方法,研究團(tuán)隊(duì)成功預(yù)測(cè)了AI在多個(gè)未曾直接訓(xùn)練過(guò)的領(lǐng)域中的表現(xiàn),包括StackExchange問(wèn)答數(shù)據(jù)、arXiv學(xué)術(shù)論文、開(kāi)放數(shù)學(xué)題目等。預(yù)測(cè)結(jié)果與實(shí)際觀測(cè)值的吻合度令人驚訝,大多數(shù)情況下誤差都控制在很小的范圍內(nèi)。
這種跨領(lǐng)域預(yù)測(cè)能力具有重要的實(shí)用價(jià)值。在實(shí)際應(yīng)用中,我們往往關(guān)心AI在多個(gè)不同領(lǐng)域的綜合表現(xiàn),而不僅僅是某個(gè)特定領(lǐng)域。有了這種預(yù)測(cè)能力,我們可以在不進(jìn)行大量實(shí)際測(cè)試的情況下,快速評(píng)估AI在各種場(chǎng)景下的適用性。
更有趣的是,研究人員發(fā)現(xiàn)不同的外部領(lǐng)域會(huì)表現(xiàn)出不同的"偏好模式"。有些領(lǐng)域更接近原始的通用能力(比如常識(shí)問(wèn)答),而有些領(lǐng)域更偏向?qū)I(yè)能力(比如技術(shù)文檔理解)。通過(guò)分析這些權(quán)重系數(shù),我們可以更好地理解不同領(lǐng)域之間的內(nèi)在關(guān)系。
這種理解有助于我們制定更加精準(zhǔn)的優(yōu)化策略。如果我們的最終目標(biāo)是在某個(gè)特定的外部領(lǐng)域獲得最佳表現(xiàn),我們可以通過(guò)調(diào)整原領(lǐng)域和目標(biāo)領(lǐng)域的學(xué)習(xí)權(quán)重來(lái)間接優(yōu)化這個(gè)外部領(lǐng)域的效果。
歸根結(jié)底,這項(xiàng)來(lái)自中科院的突破性研究為我們揭示了AI持續(xù)學(xué)習(xí)的基本規(guī)律。他們開(kāi)發(fā)的預(yù)測(cè)公式不僅能夠準(zhǔn)確描述AI學(xué)習(xí)過(guò)程中的每一個(gè)細(xì)節(jié)變化,還為我們提供了優(yōu)化學(xué)習(xí)策略的科學(xué)依據(jù)。
這項(xiàng)研究的意義遠(yuǎn)不止于學(xué)術(shù)層面。隨著AI技術(shù)在各個(gè)行業(yè)的深入應(yīng)用,我們?cè)絹?lái)越需要能夠快速適應(yīng)特定領(lǐng)域需求的模型。無(wú)論是醫(yī)療診斷、法律咨詢、金融分析還是教育輔導(dǎo),每個(gè)領(lǐng)域都有其獨(dú)特的知識(shí)結(jié)構(gòu)和表達(dá)方式。
有了這套理論工具,AI的培訓(xùn)過(guò)程將變得更加科學(xué)和高效。我們不再需要憑直覺(jué)或反復(fù)試錯(cuò)來(lái)調(diào)整參數(shù),而是可以基于數(shù)學(xué)公式進(jìn)行精確的預(yù)測(cè)和優(yōu)化。這就像是給AI的學(xué)習(xí)過(guò)程裝上了GPS導(dǎo)航系統(tǒng),讓我們能夠精確地控制學(xué)習(xí)的方向和速度。
對(duì)于普通人而言,這項(xiàng)研究的成果最終會(huì)體現(xiàn)在更加智能、更加專業(yè)的AI助手上。未來(lái)的AI將能夠更好地平衡通用能力和專業(yè)技能,既保持對(duì)常識(shí)性問(wèn)題的準(zhǔn)確理解,又能在特定領(lǐng)域提供專業(yè)級(jí)的建議和幫助。這種平衡正是研究團(tuán)隊(duì)努力破解的核心難題。
值得一提的是,這項(xiàng)研究還為AI安全和可控性提供了新的思路。通過(guò)精確預(yù)測(cè)AI的學(xué)習(xí)軌跡,我們可以更好地控制AI的能力邊界,確保它在獲得新技能的同時(shí)不會(huì)偏離我們期望的行為模式。這對(duì)于構(gòu)建可信賴的AI系統(tǒng)具有重要意義。
對(duì)于那些希望深入了解這項(xiàng)研究技術(shù)細(xì)節(jié)的讀者,完整的論文內(nèi)容可以通過(guò)arXiv:2505.07796v2獲取。這項(xiàng)研究不僅在理論上具有創(chuàng)新性,在實(shí)踐應(yīng)用方面也展現(xiàn)出了巨大的潛力,相信會(huì)對(duì)整個(gè)AI領(lǐng)域的發(fā)展產(chǎn)生深遠(yuǎn)影響。
Q&A
Q1:什么是AI的持續(xù)預(yù)訓(xùn)練?它解決了什么問(wèn)題? A:持續(xù)預(yù)訓(xùn)練就像讓AI"轉(zhuǎn)學(xué)"到新專業(yè)。AI原本在通用文本上訓(xùn)練,掌握了基礎(chǔ)語(yǔ)言能力。當(dāng)我們希望它在特定領(lǐng)域(如醫(yī)學(xué)、法律)表現(xiàn)更好時(shí),就讓它繼續(xù)在這些專業(yè)數(shù)據(jù)上學(xué)習(xí)。這解決了AI專業(yè)化的問(wèn)題,讓通用模型能夠適應(yīng)特定行業(yè)需求。
Q2:這個(gè)預(yù)測(cè)公式能做什么?準(zhǔn)確性如何? A:這個(gè)公式能預(yù)測(cè)AI在學(xué)習(xí)新領(lǐng)域過(guò)程中每一步的表現(xiàn)變化,不僅預(yù)測(cè)最終結(jié)果,還能描繪整個(gè)學(xué)習(xí)軌跡。研究顯示預(yù)測(cè)準(zhǔn)確性極高,相關(guān)系數(shù)超過(guò)0.99,幾乎達(dá)到完美預(yù)測(cè)水平。就像天氣預(yù)報(bào)一樣,能提前知道AI在各個(gè)學(xué)習(xí)階段會(huì)有什么表現(xiàn)。
Q3:普通人如何從這項(xiàng)研究中受益? A:這項(xiàng)研究最終會(huì)讓AI助手變得更加智能和專業(yè)。未來(lái)的AI將能更好地平衡通用知識(shí)和專業(yè)技能,既能回答常識(shí)問(wèn)題,又能在特定領(lǐng)域提供專業(yè)建議。比如醫(yī)療AI既懂基本交流,又精通醫(yī)學(xué)知識(shí);法律AI既理解日常語(yǔ)言,又掌握法律條文。
好文章,需要你的鼓勵(lì)
新加坡國(guó)立大學(xué)研究團(tuán)隊(duì)開(kāi)發(fā)了SPIRAL框架,通過(guò)讓AI與自己對(duì)弈零和游戲來(lái)提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡(jiǎn)單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無(wú)需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開(kāi)發(fā)的GIGA-ToF技術(shù)通過(guò)融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問(wèn)題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺(jué)解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過(guò)對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺(jué)語(yǔ)言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無(wú)法有效利用視覺(jué)信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過(guò)動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語(yǔ)言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。