這項由牛津大學劉世偉教授團隊主導(dǎo),聯(lián)合西湖大學、埃默里大學、大連理工大學和薩里大學等多家國際知名機構(gòu)共同完成的突破性研究,發(fā)表于2025年7月的人工智能頂級期刊。論文詳細信息為《The Curse of Depth in Large Language Models》,感興趣的讀者可以通過arXiv:2502.05795v2獲取完整論文。這項研究首次系統(tǒng)地解釋了為什么當今最先進的大型語言模型(如ChatGPT、Claude等)在訓練過程中會出現(xiàn)一個令人困惑的現(xiàn)象:模型越深,后面的層級反而越不重要。
要理解這個問題,我們可以把大型語言模型想象成一座多層的智慧大樓。在理想情況下,每一層都應(yīng)該像熟練的工匠一樣,為最終的智能輸出貢獻獨特的價值。底層可能負責理解基本語法,中層處理語義含義,頂層則進行復(fù)雜推理。但研究團隊發(fā)現(xiàn)了一個驚人的事實:在現(xiàn)實中,這座智慧大樓的上半部分工匠們幾乎在偷懶,他們做的工作微不足道,甚至可以完全移除而不影響整體表現(xiàn)。
研究團隊通過精心設(shè)計的實驗驗證了這個現(xiàn)象的普遍性。他們選擇了當前最受歡迎的幾個大型語言模型家族進行測試,包括被廣泛使用的Llama、Mistral、DeepSeek和Qwen系列模型。實驗方法非常巧妙:就像測試一座大樓中每一層的重要性一樣,研究人員逐個移除模型的不同層級,然后觀察模型性能的變化。結(jié)果令人震驚:移除深層的多個層級后,模型的表現(xiàn)幾乎沒有下降,有些情況下甚至略有提升。相比之下,如果移除淺層的任何一層,模型性能就會急劇下降。
這種現(xiàn)象被研究團隊命名為"深度詛咒"。這個名字非常形象,因為它揭示了當前大型語言模型訓練中的一個根本性矛盾:我們投入巨大的計算資源來訓練更深的模型,期望獲得更強的能力,但實際上,越深的層級對模型的貢獻越小,就像被某種無形的詛咒束縛住了一樣。
為了進一步證實這個發(fā)現(xiàn),研究團隊還分析了層與層之間表示的相似性。他們使用了一種叫做角度距離的數(shù)學工具來測量不同層級的輸出有多么相似。結(jié)果顯示,在深層網(wǎng)絡(luò)中,相鄰層級的輸出幾乎完全相同,這意味著這些層級只是在重復(fù)前面層級的工作,沒有產(chǎn)生任何新的有用信息。這就像一條流水線上的后半段工人都在做同樣的動作,沒有為最終產(chǎn)品增加任何價值。
更有趣的是,研究團隊還對比了兩種不同的網(wǎng)絡(luò)架構(gòu)設(shè)計?,F(xiàn)代大型語言模型普遍采用一種叫做"前置層歸一化"(Pre-Layer Normalization,簡稱Pre-LN)的技術(shù),而較早的模型使用"后置層歸一化"(Post-LN)。通過對比實驗,研究人員發(fā)現(xiàn),采用Pre-LN的模型確實更容易出現(xiàn)深度詛咒現(xiàn)象,而采用Post-LN的模型則表現(xiàn)出相反的趨勢:深層比淺層更重要。這個發(fā)現(xiàn)為理解深度詛咒的根源提供了關(guān)鍵線索。
一、深度詛咒現(xiàn)象的理論解釋
要理解為什么會出現(xiàn)深度詛咒,我們需要深入探討Pre-LN架構(gòu)的工作原理。前置層歸一化就像是在每個工匠開始工作之前,先給他提供標準化的原材料。這種做法的初衷是好的,它能讓訓練過程更加穩(wěn)定,避免出現(xiàn)數(shù)值爆炸或梯度消失等問題。然而,研究團隊通過深入的數(shù)學分析發(fā)現(xiàn),這種看似合理的設(shè)計實際上隱藏著一個致命缺陷。
研究團隊建立了一套完整的數(shù)學理論來解釋這個現(xiàn)象。他們發(fā)現(xiàn),在Pre-LN架構(gòu)中,隨著網(wǎng)絡(luò)層數(shù)的增加,輸出的方差會呈指數(shù)級增長。方差可以理解為數(shù)據(jù)的"波動程度",就像溫度計的讀數(shù)波動一樣。當方差過大時,網(wǎng)絡(luò)的行為就會變得不穩(wěn)定,而當方差增長到一定程度后,深層網(wǎng)絡(luò)的梯度(可以理解為學習的方向指引)就會趨近于單位矩陣,這意味著這些層級基本上變成了"透明層",輸入什么就輸出什么,沒有進行任何有意義的轉(zhuǎn)換。
為了讓這個抽象概念更容易理解,我們可以用烹飪來類比。設(shè)想你在制作一道復(fù)雜的菜肴,需要經(jīng)過多個步驟的處理。理想情況下,每個步驟都應(yīng)該為最終的味道貢獻獨特的元素:第一步可能是調(diào)味,第二步是煎制,第三步是燉煮,等等。但是,如果后面的幾個步驟都變成了簡單的"保溫"操作,那么無論你進行多少步驟,最終的味道都不會有太大變化。這就是深度詛咒在神經(jīng)網(wǎng)絡(luò)中的表現(xiàn)。
研究團隊通過嚴密的數(shù)學推導(dǎo)證明了這個現(xiàn)象的必然性。他們的理論分析顯示,在Pre-LN架構(gòu)中,當網(wǎng)絡(luò)深度足夠大時,深層網(wǎng)絡(luò)的偏導(dǎo)數(shù)的歐幾里得范數(shù)會被限制在一個固定的常數(shù)范圍內(nèi)。這個數(shù)學結(jié)果意味著,即使網(wǎng)絡(luò)無限深,梯度也不會無限增長,網(wǎng)絡(luò)會保持穩(wěn)定,但代價是深層網(wǎng)絡(luò)基本上失去了學習能力,變成了近似的恒等映射。
這個理論發(fā)現(xiàn)具有重要的實踐意義。它解釋了為什么現(xiàn)代大型語言模型需要消耗如此巨大的計算資源,卻仍然存在明顯的能力限制。本質(zhì)上,我們是在為一大批"偷懶"的網(wǎng)絡(luò)層支付計算成本,而這些層級對最終的智能表現(xiàn)幾乎沒有貢獻。
二、層歸一化縮放:解決深度詛咒的創(chuàng)新方案
面對深度詛咒這個棘手問題,研究團隊沒有止步于問題的發(fā)現(xiàn)和解釋,而是提出了一個優(yōu)雅而簡單的解決方案:層歸一化縮放(LayerNorm Scaling,簡稱LNS)。這個方法的核心思想可以用一個生動的比喻來解釋。
回到我們之前的智慧大樓比喻,如果我們發(fā)現(xiàn)上層的工匠們因為接收到過于"強烈"的原材料而無法有效工作,那么解決方案就是適當?shù)?調(diào)低"傳遞給他們的原材料強度。具體來說,層歸一化縮放通過給每一層的輸出乘以一個與層深度相關(guān)的縮放因子來控制方差的增長。這個縮放因子等于當前層深度的平方根的倒數(shù),也就是1/√l,其中l(wèi)是層的索引。
這種設(shè)計的巧妙之處在于它的簡單性和有效性。隨著層數(shù)的增加,縮放因子會逐漸減小,從而控制了方差的指數(shù)增長趨勢。就像給每一層的工匠配備適合他們工作強度的原材料一樣,這種方法確保了每一層都能發(fā)揮其應(yīng)有的作用。
研究團隊通過理論分析證明了LNS的有效性。在應(yīng)用LNS后,網(wǎng)絡(luò)輸出方差的增長從指數(shù)級別降低到多項式級別,具體而言,從原來的指數(shù)增長O(exp(L))降低到不超過二次增長O(L?)。這種顯著的改善意味著深層網(wǎng)絡(luò)能夠重新獲得學習能力,每一層都能對最終的輸出產(chǎn)生有意義的貢獻。
更重要的是,LNS的實施極為簡單。它不需要引入額外的可學習參數(shù),也不需要調(diào)整任何超參數(shù),只需要在每個層歸一化操作的輸出后乘以相應(yīng)的縮放因子即可。這種設(shè)計既保持了Pre-LN的訓練穩(wěn)定性優(yōu)勢,又解決了深層網(wǎng)絡(luò)效果不佳的問題,可以說是一舉兩得。
三、全面的實驗驗證
為了驗證LNS的有效性,研究團隊進行了大規(guī)模的實驗驗證,涵蓋了從小型模型到大型模型的各種規(guī)模。這些實驗就像是在不同規(guī)模的智慧大樓中測試新的管理方法是否真的能讓所有樓層的工匠都發(fā)揮作用。
在小規(guī)模實驗中,研究團隊使用了參數(shù)量從130M到1B的LLaMA架構(gòu)模型。這些實驗采用了完全相同的訓練條件,唯一的區(qū)別就是是否使用LNS技術(shù)。結(jié)果顯示,LNS在所有測試規(guī)模上都持續(xù)優(yōu)于傳統(tǒng)的歸一化方法。例如,在LLaMA-130M模型上,LNS將困惑度(衡量語言模型性能的標準指標,數(shù)值越低越好)從26.73降低到25.76。在更大的LLaMA-1B模型上,這種改善更加明顯,困惑度從17.02降低到15.71。
更令人印象深刻的是大規(guī)模實驗的結(jié)果。研究團隊使用OLMo訓練框架進行了高達7B參數(shù)的模型訓練,使用了20B個訓練令牌。在這種工業(yè)級別的訓練規(guī)模下,LNS仍然顯示出顯著的性能提升。7B模型的最終損失從2.69降低到2.50,這在大規(guī)模語言模型訓練中是一個相當顯著的改進。
實驗還包括了對不同模型架構(gòu)的測試。研究團隊在最新的Qwen2.5-0.5B模型上應(yīng)用LNS,使用6B令牌進行訓練,困惑度從20.62改善到19.57。這些結(jié)果表明,LNS的有效性不僅限于特定的模型架構(gòu),而是具有廣泛的適用性。
為了進一步驗證LNS的實際價值,研究團隊還進行了下游任務(wù)的微調(diào)實驗。他們使用Commonsense170K數(shù)據(jù)集在八個不同的推理任務(wù)上測試經(jīng)過LNS預(yù)訓練的模型。結(jié)果顯示,使用LNS預(yù)訓練的模型在微調(diào)后的表現(xiàn)也明顯優(yōu)于傳統(tǒng)方法。這說明LNS不僅改善了預(yù)訓練效果,還增強了模型的通用學習能力。
四、深度分析:LNS如何重新激活深層網(wǎng)絡(luò)
為了深入理解LNS的工作機制,研究團隊進行了詳細的分析實驗。這些分析就像是在顯微鏡下觀察LNS是如何改變網(wǎng)絡(luò)內(nèi)部工作狀態(tài)的。
首先,研究團隊驗證了LNS確實能夠有效控制輸出方差。他們在LLaMA-130M模型訓練過程中實時監(jiān)控各層的輸出方差變化。結(jié)果顯示,在傳統(tǒng)的Pre-LN設(shè)置下,淺層的方差保持相對穩(wěn)定,而深層的方差在訓練2000步后開始急劇增長,最終達到175左右的高值。相比之下,使用LNS的模型中,所有層的方差都被控制在25以下,形成了明顯的對比。
接下來,研究團隊分析了LNS對層間表示多樣性的影響。他們使用角度距離來測量相鄰層之間表示的相似性。在傳統(tǒng)Pre-LN模型中,隨著深度增加,相鄰層的角度距離逐漸減小,在深層區(qū)域趨近于零,這意味著這些層產(chǎn)生的表示幾乎完全相同。而在使用LNS的模型中,大多數(shù)層之間都保持了顯著的角度距離,通常超過0.6,這表明每一層都在產(chǎn)生獨特而有意義的表示。
最有說服力的證據(jù)來自層剪枝實驗。研究團隊系統(tǒng)地移除模型的不同層級,然后測試性能變化。在傳統(tǒng)Pre-LN模型中,移除深層的多個層級幾乎不會影響性能,而在LNS模型中,移除任何層級都會導(dǎo)致明顯的性能下降,并且這種下降在各層之間分布更加均勻。這清楚地表明,LNS成功地讓每一層都發(fā)揮了應(yīng)有的作用。
五、技術(shù)細節(jié)與實現(xiàn)考慮
LNS的實現(xiàn)既簡單又巧妙。在每個Transformer塊中,傳統(tǒng)的Pre-LN架構(gòu)會在注意力和前饋網(wǎng)絡(luò)之前應(yīng)用層歸一化。LNS只需要在層歸一化的輸出后添加一個縮放操作,將結(jié)果乘以1/√l即可。這個修改非常minimal,不會影響現(xiàn)有的訓練流程或增加顯著的計算開銷。
值得注意的是,研究團隊發(fā)現(xiàn)LNS與某些初始化策略可能存在沖突。特別是,如果同時使用LNS和縮放初始化(Scaled Initialization),效果反而會降低。因此,他們建議在使用LNS時移除縮放初始化,這樣可以獲得最佳的性能提升。
研究團隊還將LNS應(yīng)用到視覺Transformer中進行了初步探索。雖然LNS在語言模型中通常在層歸一化之后應(yīng)用效果最好,但在視覺Transformer中,最佳的應(yīng)用位置是在注意力和MLP塊之后。這種差異表明,LNS的具體實現(xiàn)可能需要根據(jù)不同的模型架構(gòu)和任務(wù)進行調(diào)整。
六、與現(xiàn)有方法的對比
研究團隊進行了詳盡的對比實驗,將LNS與多種現(xiàn)有的歸一化和縮放技術(shù)進行比較。這些比較方法包括后置層歸一化(Post-LN)、DeepNorm、Mix-LN、縮放初始化、深度縮放初始化、SkipInit和LayerScale等。
實驗結(jié)果顯示,LNS在幾乎所有對比中都表現(xiàn)最優(yōu)。特別值得注意的是,一些引入可學習參數(shù)的方法(如LayerScale和SkipInit)在大型語言模型中的表現(xiàn)反而不如簡單的Pre-LN,這突出了LNS無參數(shù)設(shè)計的優(yōu)勢。
Mix-LN是一個相對較新的方法,它試圖結(jié)合Pre-LN和Post-LN的優(yōu)勢。雖然Mix-LN在小規(guī)模模型上表現(xiàn)良好,但在大規(guī)模訓練中存在穩(wěn)定性問題。研究團隊發(fā)現(xiàn),在擴展到LLaMA-1B規(guī)模時,Mix-LN無法收斂,而LNS始終保持穩(wěn)定的訓練動態(tài)。
七、理論貢獻與數(shù)學基礎(chǔ)
這項研究的理論貢獻不僅在于發(fā)現(xiàn)了深度詛咒現(xiàn)象,更在于提供了完整的數(shù)學框架來理解和解決這個問題。研究團隊通過嚴格的數(shù)學推導(dǎo),建立了Pre-LN架構(gòu)中方差增長與網(wǎng)絡(luò)深度之間的關(guān)系。
他們證明了在標準Pre-LN設(shè)置下,第l層的方差σ???滿足遞推關(guān)系σ??? = σ???Θ(∏??????(1 + 1/σ??)),其增長范圍在Θ(L)到Θ(exp(L))之間。當方差增長接近指數(shù)級時,梯度范數(shù)會被限制在一個常數(shù)范圍內(nèi),導(dǎo)致深層網(wǎng)絡(luò)失去學習能力。
應(yīng)用LNS后,方差增長關(guān)系變?yōu)?sigma;??? = σ???Θ(∏??????(1 + 1/√(kσ??))),其增長范圍被控制在Θ(L)到Θ(L???)之間,其中ε是一個小于1的正數(shù)。這種改善使得梯度范數(shù)能夠隨深度適當增長,恢復(fù)了深層網(wǎng)絡(luò)的表達能力。
八、實際應(yīng)用與未來影響
這項研究的實際應(yīng)用價值是巨大的。當前訓練大型語言模型需要消耗大量的計算資源和能源,而深度詛咒意味著其中相當一部分投資實際上是浪費的。LNS的引入能夠讓每一層都發(fā)揮作用,從而提高訓練效率和最終性能。
對于工業(yè)界來說,這意味著在相同的計算預(yù)算下可以獲得更好的模型性能,或者在保持性能不變的情況下顯著降低計算成本。考慮到大型語言模型的訓練成本往往達到數(shù)百萬甚至數(shù)千萬美元,這種效率提升的經(jīng)濟價值是巨大的。
對于研究界來說,這項工作開啟了重新審視現(xiàn)有架構(gòu)設(shè)計的新視角。它表明,即使是被廣泛采用的設(shè)計選擇也可能存在根本性的缺陷,需要更深入的理論分析來發(fā)現(xiàn)和解決。
研究團隊的工作還為未來的模型架構(gòu)設(shè)計提供了重要指導(dǎo)。它表明,在追求更深、更大的模型時,必須仔細考慮深度對模型行為的影響,而不能簡單地假設(shè)更深總是更好。
說到底,這項研究揭示了現(xiàn)代人工智能系統(tǒng)中一個隱藏但重要的效率問題。它不僅提供了理論解釋,更重要的是給出了一個實用的解決方案。正如研究團隊所展示的,有時候最有效的解決方案往往是最簡單的:只需要一個小小的縮放因子,就能讓整個系統(tǒng)的效率得到顯著提升。這種發(fā)現(xiàn)提醒我們,在人工智能快速發(fā)展的今天,理論研究和實踐應(yīng)用之間的結(jié)合仍然具有巨大的價值。對于那些關(guān)注人工智能技術(shù)發(fā)展的讀者,這項研究提供了一個重要的啟示:有時候,突破性的進展不一定來自更復(fù)雜的技術(shù),而可能來自對現(xiàn)有技術(shù)更深入的理解和巧妙的改進。
Q&A
Q1:什么是深度詛咒現(xiàn)象?它為什么會出現(xiàn)?
A:深度詛咒是指大型語言模型中越深的層級對模型性能貢獻越小的現(xiàn)象。它出現(xiàn)的原因是Pre-LN架構(gòu)中輸出方差隨深度指數(shù)增長,導(dǎo)致深層網(wǎng)絡(luò)的梯度趨近于單位矩陣,這些層級基本變成了"透明層",失去學習能力。
Q2:層歸一化縮放(LNS)是如何解決深度詛咒問題的?
A:LNS通過給每層的輸出乘以1/√l的縮放因子來控制方差增長。這種方法將方差增長從指數(shù)級降低到多項式級,讓深層網(wǎng)絡(luò)重新獲得學習能力,確保每一層都能對最終輸出產(chǎn)生有意義的貢獻。
Q3:使用LNS技術(shù)有什么實際好處?會增加計算成本嗎?
A:LNS能顯著提升模型性能,在7B模型上損失從2.69降到2.50。它不會增加計算成本,因為不需要額外參數(shù)或超參數(shù)調(diào)整,只需要簡單的乘法操作。這意味著在相同計算預(yù)算下可以獲得更好的模型性能。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機制和漸進式訓練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學習外觀和運動信息,顯著解決了當前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓練數(shù)據(jù)集和MM-AlignBench評測基準,通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報,準確性超越傳統(tǒng)方法90%的指標。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學習40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學領(lǐng)域帶來了效率和精度的雙重突破。