這項由紐約大學(xué)的Antonios Saravanos博士與Aimpoint Digital Labs的Jorge Gallego-Feliciano和S. Aaron McClendon等研究人員聯(lián)合開展的研究,發(fā)表于2025年8月的arXiv預(yù)印本平臺。這篇題為"Hidden Dynamics of Massive Activations in Transformer Training"的論文首次揭示了大型語言模型訓(xùn)練過程中一個神秘現(xiàn)象的完整發(fā)展軌跡。有興趣深入了解的讀者可以通過論文編號arXiv:2508.03616v1訪問完整論文。
當(dāng)我們使用ChatGPT或其他AI助手時,很少有人知道這些模型內(nèi)部正在發(fā)生著怎樣的"權(quán)力斗爭"。研究團隊發(fā)現(xiàn),在這些AI模型的"神經(jīng)網(wǎng)絡(luò)大腦"里,存在著一些異常強大的"超級激活"——它們的影響力比普通激活大上千倍甚至萬倍,就像一個班級里突然出現(xiàn)了幾個擁有絕對話語權(quán)的學(xué)生,能夠左右整個班級的決策。
這些被稱為"大規(guī)模激活"(Massive Activations,簡稱MAs)的現(xiàn)象并不是隨機出現(xiàn)的。研究團隊通過對Pythia模型家族的深入分析發(fā)現(xiàn),這些超級激活的出現(xiàn)和發(fā)展遵循著可以預(yù)測的數(shù)學(xué)規(guī)律,就像植物的生長有其固定的季節(jié)性模式一樣。更令人驚訝的是,我們甚至可以通過調(diào)整模型的"建筑設(shè)計"——比如模型有多少層、每層有多寬、注意力頭的數(shù)量等參數(shù)——來預(yù)測和控制這些超級激活何時出現(xiàn)、會變得多強大。
這項研究的突破性意義在于,它讓我們第一次能夠"看見"AI模型訓(xùn)練過程中這些關(guān)鍵角色的完整生命周期。就好比我們終于擁有了一臺能夠觀察植物從種子發(fā)芽到開花結(jié)果全過程的超級顯微鏡,不僅能看到每個關(guān)鍵時刻發(fā)生了什么,還能預(yù)測接下來會發(fā)生什么。
一、超級激活:AI模型中的隱藏巨人
要理解什么是大規(guī)模激活,可以把AI模型想象成一個巨大的交響樂團。在這個樂團里,每個樂手都在演奏自己的部分,大部分時候他們的音量都差不多。但突然間,某幾個樂手開始以極其強烈的音量演奏,他們的聲音比其他人大上千倍,幾乎要蓋過整個樂團的聲音。這些"超級樂手"就是大規(guī)模激活。
在技術(shù)層面上,當(dāng)一個激活值的絕對值超過100,并且比同層其他激活的中位數(shù)大1000倍以上時,研究人員就將其定義為大規(guī)模激活。但這個定義在小模型上并不完全適用。研究團隊發(fā)現(xiàn),在只有1400萬參數(shù)的小模型中,雖然激活值達不到100這個門檻,但仍然存在明顯的"巨人"激活,它們在相對意義上同樣占據(jù)著絕對的統(tǒng)治地位。
這些超級激活有著非常特殊的性質(zhì)。與普通激活會根據(jù)輸入內(nèi)容的變化而改變不同,大規(guī)模激活幾乎保持恒定,就像是模型內(nèi)置的"固定偏見"。它們通常集中在特定的特征維度上,并且往往與輸入序列中的特殊位置相關(guān),比如句子的開頭或者標(biāo)點符號的位置。
研究團隊通過大量實驗證實,這些看似異常的激活實際上對模型的正常運行至關(guān)重要。如果試圖移除它們,模型就會失效,就像拆掉了建筑物的關(guān)鍵支撐柱一樣。但如果將它們設(shè)置為平均值,模型依然能夠正常工作,這表明重要的不是它們的具體數(shù)值,而是它們的存在本身。
更有趣的是,研究人員發(fā)現(xiàn)可以通過增強某些高影響力的激活來鼓勵模型產(chǎn)生鏈?zhǔn)剿季S推理能力,而無需使用復(fù)雜的強化學(xué)習(xí)技術(shù)。這就好比通過調(diào)節(jié)某幾個關(guān)鍵樂手的音量,就能改變整個交響樂的風(fēng)格和表現(xiàn)力。
二、訓(xùn)練過程中的神秘變化軌跡
當(dāng)研究團隊開始追蹤這些超級激活在模型訓(xùn)練過程中的變化時,他們發(fā)現(xiàn)了一個令人著迷的現(xiàn)象。這些激活并不是從訓(xùn)練開始就存在的,而是像種子發(fā)芽一樣,在訓(xùn)練過程中逐漸顯現(xiàn)出來。
通過分析Pythia模型家族在14.3萬個訓(xùn)練步驟中的154個檢查點,研究人員繪制出了超級激活發(fā)展的完整地圖。他們發(fā)現(xiàn),不同層的激活表現(xiàn)出截然不同的發(fā)展模式,就像同一片森林里的不同植物有著各自的生長節(jié)奏。
淺層和深層的激活表現(xiàn)出"早期峰值"模式,它們會迅速增長,在訓(xùn)練早期達到峰值,然后逐漸衰減到一個穩(wěn)定狀態(tài)。這種模式讓人聯(lián)想到某些花朵的綻放過程——快速開放,短暫絢爛,然后進入平靜的成熟期。中間層的激活則顯示出"對數(shù)增長"模式,它們在整個訓(xùn)練過程中持續(xù)緩慢增長,沒有明顯的峰值點,更像是那些緩慢但持續(xù)生長的參天大樹。
研究團隊還發(fā)現(xiàn)了一個重要的分層現(xiàn)象。在模型的架構(gòu)中,前1-3個淺層和后1-2個深層通常表現(xiàn)出與中間層顯著不同的激活模式。這種現(xiàn)象在較大的模型中尤其明顯,就像一座建筑的地基和屋頂需要特殊的結(jié)構(gòu)設(shè)計,而中間的樓層則可以采用相對統(tǒng)一的布局。
對于那些表現(xiàn)出早期峰值的層,研究人員發(fā)現(xiàn)存在一個關(guān)鍵的轉(zhuǎn)折點,通常出現(xiàn)在前6萬個訓(xùn)練步驟內(nèi)。在這個轉(zhuǎn)折點之后,激活開始單調(diào)下降。這個發(fā)現(xiàn)特別有意思,因為它揭示了模型學(xué)習(xí)過程中存在著兩個不同的階段:快速適應(yīng)階段和精細調(diào)整階段。
三、數(shù)學(xué)公式背后的預(yù)測魔法
面對這些復(fù)雜的變化軌跡,研究團隊沒有滿足于簡單的觀察和描述,而是試圖找到能夠精確預(yù)測這些現(xiàn)象的數(shù)學(xué)公式。經(jīng)過大量的嘗試和驗證,他們發(fā)現(xiàn)了一個看似簡單但極其有效的公式:f(t) = A×e^(-λxt)log(xt) + K,其中xt = γt + t0。
這個公式就像是大自然的密碼,能夠同時描述"早期峰值"和"對數(shù)增長"兩種截然不同的模式。當(dāng)λ參數(shù)較大時,公式表現(xiàn)為早期峰值后衰減的模式;當(dāng)λ接近零時,公式就變成了純粹的對數(shù)增長模式。
這個五參數(shù)模型的預(yù)測準(zhǔn)確性令人驚嘆。在對9個不同大小的模型、共188個層進行擬合后,平均決定系數(shù)達到了0.984,這意味著模型能夠解釋98.4%的變化。即使是最小的1400萬參數(shù)模型也達到了93%以上的擬合度,而較大的模型通常能達到98%以上。
公式中的每個參數(shù)都有其特殊含義。參數(shù)A控制激活的最大幅度,就像調(diào)節(jié)音響的最大音量;參數(shù)λ決定衰減速度,控制峰值出現(xiàn)后下降的快慢;參數(shù)γ影響時間縮放,決定變化的整體節(jié)奏;參數(shù)t0提供時間偏移,就像設(shè)定故事開始的時間點;參數(shù)K代表最終的穩(wěn)態(tài)值,即激活最終會穩(wěn)定在什么水平。
研究人員還發(fā)現(xiàn)了一個有趣的數(shù)學(xué)關(guān)系:只有當(dāng)λ ≤ 1/e ≈ 0.368時,才會出現(xiàn)真正的峰值點。這個條件就像是大自然設(shè)定的臨界點,決定了某一層是否會表現(xiàn)出早期峰值現(xiàn)象。通過Lambert W函數(shù),研究人員甚至可以精確計算出峰值出現(xiàn)的時間點:tpeak = (e^W(-λ) - t0)/γ。
四、建筑師的秘密:如何通過設(shè)計控制超級激活
這項研究最令人興奮的發(fā)現(xiàn)或許是:我們可以通過調(diào)整模型的"建筑設(shè)計"來預(yù)測和控制超級激活的行為。就像建筑師可以通過改變房屋的房間數(shù)量、每個房間的大小和窗戶數(shù)量來影響室內(nèi)的光線和通風(fēng)一樣,AI研究人員也可以通過調(diào)整模型的層數(shù)、隱藏層維度和注意力頭數(shù)量來影響超級激活的發(fā)展軌跡。
研究團隊使用了多種機器學(xué)習(xí)算法來建立架構(gòu)參數(shù)與公式參數(shù)之間的預(yù)測關(guān)系。他們發(fā)現(xiàn),對于某些關(guān)鍵參數(shù),預(yù)測準(zhǔn)確性相當(dāng)高。比如,參數(shù)K(穩(wěn)態(tài)值)的預(yù)測達到了84.7%的準(zhǔn)確度,參數(shù)λ(峰值出現(xiàn)性)達到了66.4%的準(zhǔn)確度。雖然與時間相關(guān)的參數(shù)γ和t0的預(yù)測難度較大,但仍然能夠捕捉到一些重要的趨勢。
在預(yù)測分析中,注意力密度(注意力頭數(shù)量與隱藏維度的比值)成為了最重要的控制因素。這個比值就像是樂團中指揮家與樂手的比例——當(dāng)指揮家相對較少時(注意力密度較低),超級激活會變得更強;當(dāng)指揮家相對較多時,超級激活的強度會有所降低。
層深度的交互作用也顯示出強烈的影響。深層模型中的深層位置會推高λ值,有效抑制峰值行為,而淺層模型中的淺層位置則更容易產(chǎn)生早期峰值。這種現(xiàn)象類似于高樓大廈中,底層和頂層需要承受不同的結(jié)構(gòu)壓力,因此表現(xiàn)出不同的特性。
寬深比(隱藏維度與層數(shù)的比值)也是一個重要的控制因素。較高的寬深比(更寬更淺的模型)會一致性地降低γ參數(shù),將峰值時間推遲到訓(xùn)練后期;相反,更窄更深的模型則傾向于產(chǎn)生更早的峰值。
研究人員通過SHAP分析和偏依賴圖進一步揭示了這些架構(gòu)選擇的具體影響機制。他們發(fā)現(xiàn),在早期層中,將注意力密度從大約0.005調(diào)整到0.020會導(dǎo)致可測量的峰值時間提前。這為模型設(shè)計師提供了具體的指導(dǎo):如果希望某些層更早地達到峰值并進入穩(wěn)定狀態(tài),可以適當(dāng)增加這些層的注意力頭密度。
五、兩階段學(xué)習(xí)的神秘現(xiàn)象
研究中最引人深思的發(fā)現(xiàn)之一是所謂的"兩階段發(fā)展"現(xiàn)象。在許多層中,超級激活會在訓(xùn)練的前6萬步內(nèi)快速發(fā)展并達到峰值,然后開始單調(diào)下降。這種現(xiàn)象暗示著Transformer模型的學(xué)習(xí)過程可能存在兩個根本不同的階段。
第一個階段可以稱為"快速適應(yīng)期",在這個階段,模型急切地調(diào)整其內(nèi)部結(jié)構(gòu)以適應(yīng)訓(xùn)練數(shù)據(jù)的統(tǒng)計特性。超級激活在這個階段迅速增長,就像植物剛發(fā)芽時的快速伸展。第二個階段則是"精細優(yōu)化期",模型開始更加謹(jǐn)慎地調(diào)整其參數(shù),超級激活逐漸穩(wěn)定在一個對整體性能最優(yōu)的水平上。
這種兩階段現(xiàn)象在不同大小的模型中表現(xiàn)出了相似的模式,但具體的時間點和強度會有所不同。較大的模型通常表現(xiàn)出更清晰的階段分界,而較小的模型的轉(zhuǎn)換可能更加平滑和漸進。
研究人員注意到,這種階段性發(fā)展可能與其他深度學(xué)習(xí)現(xiàn)象相關(guān),比如"突然理解"(grokking)現(xiàn)象,即模型在長時間的訓(xùn)練后突然在某個任務(wù)上取得突破性進展。由于許多層預(yù)測的峰值時間超過了Pythia模型族的14.3萬步訓(xùn)練周期,未來的研究可能需要觀察更長時間的訓(xùn)練過程才能完全理解這些現(xiàn)象。
六、對AI模型部署的實際影響
這些發(fā)現(xiàn)對實際的AI應(yīng)用具有重要意義,特別是在模型壓縮和量化方面。量化是將模型從高精度(如32位浮點數(shù))轉(zhuǎn)換為低精度(如8位整數(shù))的過程,這樣可以大大減小模型尺寸并加快推理速度,但超級激活的存在往往會導(dǎo)致量化性能的顯著下降。
通過理解和預(yù)測超級激活的發(fā)展軌跡,研究人員現(xiàn)在可以設(shè)計出"量化友好"的模型架構(gòu)。這些架構(gòu)可能會故意延遲超級激活的峰值出現(xiàn)時間,使其在標(biāo)準(zhǔn)訓(xùn)練周期結(jié)束后很久才達到峰值,從而在實際部署時保持相對較低的激活水平。
對于已經(jīng)訓(xùn)練好的模型,研究結(jié)果也提供了新的優(yōu)化策略。既然我們知道哪些層在什么時候會出現(xiàn)最強的超級激活,就可以針對性地設(shè)計處理方案。比如,可以對預(yù)期會產(chǎn)生強烈超級激活的層采用特殊的數(shù)值處理技術(shù),或者在這些層使用不同的量化策略。
訓(xùn)練策略也可能因此得到改進。既然超級激活的發(fā)展遵循可預(yù)測的模式,訓(xùn)練過程可以相應(yīng)地調(diào)整。比如,在預(yù)期超級激活達到峰值的時間段,可能需要使用更小的學(xué)習(xí)率或特殊的正則化技術(shù)來確保訓(xùn)練穩(wěn)定性。
七、未來的探索方向
雖然這項研究在Pythia模型族上取得了令人矚目的成果,但仍有許多問題等待解答。當(dāng)前的研究主要集中在解碼器專用的Transformer架構(gòu)上,而編碼器架構(gòu)(如BERT)或編碼器-解碼器架構(gòu)可能表現(xiàn)出不同的超級激活模式。
不同的訓(xùn)練目標(biāo)和數(shù)據(jù)集也可能影響超級激活的發(fā)展。Pythia模型使用的是標(biāo)準(zhǔn)的語言建模目標(biāo),但其他任務(wù)(如機器翻譯、問答或代碼生成)可能會產(chǎn)生不同的激活模式。探索這些差異將有助于建立更通用的理論框架。
當(dāng)前研究的時間分辨率相對較粗,檢查點之間間隔1000個訓(xùn)練步。更高頻率的采樣可能會揭示超級激活發(fā)展的更細微動態(tài),特別是在關(guān)鍵轉(zhuǎn)折點附近。
架構(gòu)多樣性的限制也是一個重要問題。Pythia模型族在某些方面(如MLP擴展比例)相對統(tǒng)一,這限制了某些架構(gòu)參數(shù)對超級激活影響的分析。未來的研究可能需要專門設(shè)計具有更大架構(gòu)變化范圍的模型族來驗證和擴展當(dāng)前的發(fā)現(xiàn)。
研究團隊特別指出,一些層預(yù)測的峰值時間遠超當(dāng)前的訓(xùn)練周期,這開啟了一個有趣的研究方向:長期訓(xùn)練動態(tài)。這些"慢峰值"層是否會在更長的訓(xùn)練過程中表現(xiàn)出預(yù)期的行為?它們與突然理解現(xiàn)象是否存在聯(lián)系?這些問題的答案可能會進一步深化我們對深度學(xué)習(xí)的理解。
八、技術(shù)實現(xiàn)的細節(jié)探索
研究團隊在實現(xiàn)這項研究時采用了嚴(yán)格的實驗設(shè)計。他們使用RedPajama數(shù)據(jù)集的隨機樣本來評估激活,每個模型使用10個序列的樣本。雖然樣本數(shù)量看起來不大,但之前的研究已經(jīng)證明,大規(guī)模激活在相似輸入上的模式變化很小,因此這個樣本量足以捕捉主要特征。
數(shù)學(xué)建模方面,研究人員使用SciPy庫的curve_fit算法,采用信賴域反射算法進行參數(shù)優(yōu)化。為了加速收斂,他們提供了解析雅可比矩陣和合理的初始猜測。所有數(shù)據(jù)首先進行標(biāo)準(zhǔn)化,在標(biāo)準(zhǔn)化空間中擬合,然后將參數(shù)縮放回原始空間。
在評估不同數(shù)學(xué)假設(shè)時,研究團隊還測試了其他函數(shù)形式,包括一次和二次階梯函數(shù),但這些替代方案在決定系數(shù)和赤池信息準(zhǔn)則(AIC)評分上都不如當(dāng)前的五參數(shù)模型。AIC評分的使用特別重要,因為它不僅考慮模型的準(zhǔn)確性,還考慮模型的復(fù)雜性,確保選擇的模型在準(zhǔn)確性和簡潔性之間達到最佳平衡。
機器學(xué)習(xí)預(yù)測框架采用了多種算法的比較驗證。線性模型(Ridge和Lasso回歸)提供了基準(zhǔn)性能,而樹基集成方法(隨機森林、梯度提升)和高級提升算法(XGBoost)則用于捕捉非線性關(guān)系。所有模型都使用5折交叉驗證進行選擇,最終在獨立的測試集(占數(shù)據(jù)的20%)上進行評估。
說到底,這項研究為我們打開了觀察AI模型內(nèi)部運作的一扇新窗戶。通過揭示超級激活的發(fā)展規(guī)律,我們不僅更好地理解了這些強大AI系統(tǒng)的工作機制,還獲得了設(shè)計更好模型的工具。這就像從只知道汽車能跑,到理解發(fā)動機的每個部件如何協(xié)同工作——這種深入理解必將推動整個領(lǐng)域向前發(fā)展。
研究團隊的發(fā)現(xiàn)表明,AI模型的訓(xùn)練過程遠比我們之前想象的更加精妙和可預(yù)測。這些看似神秘的超級激活實際上遵循著清晰的數(shù)學(xué)規(guī)律,而我們現(xiàn)在擁有了解讀這些規(guī)律的密碼。未來,當(dāng)我們設(shè)計新的AI系統(tǒng)時,就可以像經(jīng)驗豐富的園藝師一樣,預(yù)知每種"植物"的生長特性,從而創(chuàng)造出更加高效、穩(wěn)定和實用的人工智能。
這項研究還提醒我們,科學(xué)發(fā)現(xiàn)往往來自對細節(jié)的關(guān)注和對現(xiàn)象的深入追蹤。那些在模型訓(xùn)練過程中被忽視的"異常"激活,實際上承載著理解整個系統(tǒng)的關(guān)鍵信息。有興趣深入探索的讀者,不妨通過arXiv:2508.03616v1獲取這項研究的完整技術(shù)細節(jié),親自體驗這場科學(xué)探索之旅的精彩。
Q&A
Q1:大規(guī)模激活是什么?為什么對AI模型這么重要?
A:大規(guī)模激活是AI模型神經(jīng)網(wǎng)絡(luò)中那些影響力比普通激活大上千倍甚至萬倍的"超級激活",就像班級里擁有絕對話語權(quán)的學(xué)生。它們通常保持恒定值,集中在特定特征維度,與句子開頭或標(biāo)點符號位置相關(guān)。研究證實這些激活對模型正常運行至關(guān)重要——移除它們模型會失效,但可以通過調(diào)整它們來改善模型性能,甚至增強鏈?zhǔn)剿季S推理能力。
Q2:研究人員是如何預(yù)測這些超級激活發(fā)展軌跡的?
A:研究團隊發(fā)現(xiàn)了一個五參數(shù)數(shù)學(xué)公式:f(t) = A×e^(-λxt)log(xt) + K,能夠同時描述"早期峰值"和"對數(shù)增長"兩種模式。這個公式的預(yù)測準(zhǔn)確性達到98.4%,其中A控制最大幅度,λ決定衰減速度,γ影響時間節(jié)奏,t0設(shè)定起始時間,K代表最終穩(wěn)態(tài)值。通過調(diào)整這些參數(shù),可以精確預(yù)測不同層的激活何時達到峰值。
Q3:如何通過調(diào)整AI模型架構(gòu)來控制超級激活?
A:研究發(fā)現(xiàn)可以通過三個主要架構(gòu)參數(shù)控制超級激活:注意力密度(注意力頭與隱藏維度比值)是最重要因素,比值低時激活更強;寬深比影響峰值時間,更寬淺的模型峰值出現(xiàn)更晚;層深度交互決定峰值行為,深層模型的深層位置抑制峰值。這讓設(shè)計師能像建筑師一樣,通過調(diào)整"房間數(shù)量、大小和窗戶數(shù)量"來控制模型內(nèi)部的"光線和通風(fēng)"。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機制和漸進式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學(xué)習(xí)外觀和運動信息,顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報,準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。