最近一項由獨立研究者Mani Shemiranifar開展的研究提出了一個引人深思的問題:在大語言模型運行時,真的需要所有神經(jīng)層都參與工作嗎?這項研究于2025年5月發(fā)表在arXiv上,論文標題為《Void in Language Models》(語言模型中的空域),論文鏈接為https://github.com/manishemirani/void_in_language_models。
你是否好奇過,當ChatGPT這類大語言模型在回答你的問題時,它內(nèi)部的每一層神經(jīng)網(wǎng)絡(luò)都在忙碌工作嗎?就像一個大公司里,有些員工可能在裝忙,而實際上他們的貢獻微乎其微。Shemiranifar的研究揭示了語言模型中存在的"空域"(Void)現(xiàn)象——這些是在推理過程中基本上不活躍的神經(jīng)網(wǎng)絡(luò)層。
想象一下,如果我們把語言模型比作一棟多層辦公樓,每層都有專門的員工團隊負責處理信息。傳統(tǒng)觀點認為每一層都必須全力運轉(zhuǎn)才能得到最好的結(jié)果。但這項研究卻發(fā)現(xiàn),某些樓層的員工幾乎沒有實質(zhì)性工作,而且——這才是最令人驚訝的部分——如果我們允許這些"懶惰"的樓層員工休息(即跳過這些層的計算),不僅不會損害最終輸出質(zhì)量,有時甚至會讓結(jié)果變得更好!
Shemiranifar開發(fā)了一種名為"L2自適應(yīng)計算"(LAC)的方法來監(jiān)測這些"懶惰層"。這種方法不需要額外訓(xùn)練,也不需要改變模型參數(shù),就像是一位不干擾工作流程的效率顧問,只是觀察哪些樓層真正在工作,哪些基本上在劃水。研究者在三種知名的對話型語言模型上測試了這一方法:Llama、Mistral和Qwen系列。
研究結(jié)果令人震驚:在某些任務(wù)中,Qwen2.5-7B-Instruct模型即使只使用約30%的層,其在MMLU(一個測試模型知識和推理能力的基準)上的表現(xiàn)不僅沒有下降,反而從69.24%提升到了71.29%!類似地,Mistral-7B-Instruct-v0.3在GPQA Diamond基準測試中,使用約70%的層時,準確率從13.88%提升到了18.36%。
這項研究不僅揭示了語言模型內(nèi)部運作的新視角,還為未來模型優(yōu)化提供了方向:也許我們不需要更多的層,而是需要更有效地使用現(xiàn)有的層。接下來,我們將深入探討這些"空域"是如何被發(fā)現(xiàn)的,以及為什么跳過它們反而能提升模型性能。
一、探測語言模型中的"空域":方法與理論
要理解語言模型中的"空域"現(xiàn)象,我們首先需要了解研究者使用的檢測方法。Shemiranifar采用了一種稱為"L2自適應(yīng)計算"(LAC)的技術(shù),這種方法原本是為了提高神經(jīng)網(wǎng)絡(luò)效率而設(shè)計的,但在這項研究中被巧妙地用來追蹤模型層的活躍程度。
想象你正在觀察一個工廠的生產(chǎn)線。每個工作站(類比于模型的層)都應(yīng)該對產(chǎn)品(數(shù)據(jù))進行一些加工。如果某個工作站幾乎沒有改變產(chǎn)品的狀態(tài),那么這個工作站可能是多余的。LAC方法正是通過監(jiān)測每一層對數(shù)據(jù)的"改變程度"來判斷該層是否真正參與了有意義的計算。
具體來說,LAC方法通過計算每一層輸出的"L2范數(shù)"(一種測量向量大小的數(shù)學(xué)方法,可以簡單理解為測量該層輸出信號的強度)及其變化來檢測層的活躍度。當某一層對數(shù)據(jù)的處理導(dǎo)致L2范數(shù)的變化小于一個動態(tài)閾值時,這一層就被認為是"空域"——即沒有進行有意義的計算。
Shemiranifar在論文中對LAC方法進行了必要的調(diào)整,使其更適合檢測語言模型中的空域。原始LAC方法使用絕對值來計算閾值,但為了更精確地檢測空域,研究者移除了這一絕對值操作:
λt = α(max(Δt) - min(Δt))
這里的λt是在第t步(即第t層)的動態(tài)閾值,α是一個控制閾值敏感度的參數(shù)(值在0到1之間),Δt包含了從第一層到當前層的所有L2范數(shù)變化記錄。
LAC方法的一個重要特性是它可以在不同粒度上工作:可以對整個批次數(shù)據(jù)、單個樣本或單個詞元(token)進行監(jiān)測。在這項研究中,研究者主要關(guān)注了詞元級別的監(jiān)測,因為這提供了最細粒度的洞察,可以精確觀察模型在處理和生成每個詞元時的層活躍情況。
研究者將語言模型的運行過程分為兩個關(guān)鍵階段: 1. 提示處理階段(Prompt Processing,PP):模型處理輸入提示中每個詞元時各層的活躍情況。 2. 響應(yīng)生成階段(Response Generation,RG):模型生成回答中每個詞元時各層的活躍情況。
為了實現(xiàn)在推理過程中跳過"空域",研究者采用了一種稱為"掩蔽"(masking)的技術(shù)。當檢測到某一層對特定詞元的處理不活躍時,系統(tǒng)會將該層對應(yīng)的激活值設(shè)為零,有效地"跳過"了該層的計算貢獻。這種方法允許研究者觀察跳過空域?qū)δP托阅艿挠绊?,而不需要修改模型的架?gòu)。
值得注意的是,LAC方法的一個主要優(yōu)勢在于它不需要額外的訓(xùn)練或參數(shù)調(diào)整,可以直接應(yīng)用于現(xiàn)有的預(yù)訓(xùn)練語言模型。這使得它成為研究模型內(nèi)部工作機制的強大且實用的工具。
二、實驗設(shè)置與結(jié)果分析:不是所有層都同等重要
Shemiranifar的研究團隊在三種廣受歡迎的指令調(diào)優(yōu)型語言模型上進行了實驗:Qwen2.5-7B-Instruct(來自阿里巴巴),Llama3-8B-Instruct(來自Meta),以及Mistral-7B-Instruct-v0.3。他們選擇了三個著名的基準測試來評估模型性能:
MMLU(Massive Multitask Language Understanding):一個綜合測試世界知識和問題解決能力的基準。 GPQA Diamond:一個測試模型在生物學(xué)、物理學(xué)和化學(xué)領(lǐng)域研究生水平問題解答能力的基準。 BoolQ:一個測試模型閱讀理解和是/否問題回答能力的基準。
每個模型都經(jīng)過了兩種配置的測試:一種是使用所有層(即"不跳過"配置),另一種是選擇性地跳過檢測到的空域(即"跳過"配置)。所有實驗都在一臺配備24GB RTX 3090 GPU的機器上進行。
研究結(jié)果令人震驚。當研究團隊將α參數(shù)設(shè)置為0.8時(這個參數(shù)控制識別空域的敏感度),他們發(fā)現(xiàn):
Qwen2.5-7B-Instruct在MMLU零樣本測試中,僅使用約30%的層(在提示處理和響應(yīng)生成階段分別為29%和30%),但性能從69.24%提升到了71.29%。
Mistral-7B-Instruct-v0.3在GPQA Diamond測試中,使用約74%的層時,準確率從13.88%大幅提升到18.36%。
Llama3-8B-Instruct在GPQA Diamond測試中,使用約63%的層(提示處理階段為62%,響應(yīng)生成階段為65%),準確率從29.11%提升到30.53%。
這些結(jié)果表明,不僅有相當多的層在大多數(shù)情況下不活躍(即存在大量"空域"),而且跳過這些空域不僅不會損害模型性能,在某些情況下反而會顯著提升性能。
研究者還探索了α參數(shù)對層使用率和模型性能的影響。當α值增加時,閾值變得更嚴格,導(dǎo)致更多的層被識別為空域并被跳過。有趣的是,不同模型對α的反應(yīng)不同:
對于Llama3-8B-Instruct和Mistral-7B-Instruct-v0.3,隨著α增加(因此層使用率減少),BoolQ準確率總體上下降。
然而,Qwen2.5-7B-Instruct表現(xiàn)出不同的行為。隨著α增加,其性能實際上有所提升,在α=1.0時達到最佳BoolQ準確率,盡管此時僅使用了約20%的層!
這種差異表明,不同的模型架構(gòu)在層利用效率上存在顯著差異,一些模型(如Qwen2.5-7B-Instruct)中的許多層可能在推理過程中貢獻微乎其微,甚至可能引入噪聲。
三、層使用模式的深入分析:為什么跳過某些層能提升性能?
當我們深入分析語言模型中各層的使用模式時,揭示了一些令人驚訝的規(guī)律。研究者發(fā)現(xiàn),模型并不是均勻地激活所有層,而是展示出復(fù)雜的層激活模式。
首先,模型在提示處理(PP)和響應(yīng)生成(RG)這兩個階段表現(xiàn)出不同的層激活模式。這表明模型在閱讀輸入和生成輸出時使用了不同的計算策略。就像人類在理解問題和提供答案時可能使用大腦的不同區(qū)域一樣,語言模型也似乎在這兩個階段啟用了不同的"專家團隊"。
研究團隊創(chuàng)建了詳細的層使用率可視化圖,清晰展示了每一層在處理過程中的激活頻率。這些圖顯示,某些層幾乎總是被激活,而其他層則很少參與計算。特別是在Qwen2.5-7B-Instruct模型中,中間層(約第4到17層,特別是第10到13層)的使用率極低,通常不到20%,甚至接近0%。這些層代表了顯著的"空域",即模型計算中幾乎不起作用的區(qū)域。
Llama-3-8B和Mistral模型也顯示出層使用率的波動,但它們在中間層沒有Qwen那樣持續(xù)的、明顯的低使用率模式。
為了理解為什么某些層會成為"空域",研究者分析了每一層的L2范數(shù)及其變化。他們發(fā)現(xiàn):
1. L2范數(shù)隨著層數(shù)的增加而總體上增長,表明激活強度在深層網(wǎng)絡(luò)中逐漸增強。
2. 提示處理階段的L2范數(shù)總體上高于響應(yīng)生成階段,表明模型在處理輸入時的激活強度更大。
3. 最關(guān)鍵的是,中間層(如第5到15層,取決于模型)對L2范數(shù)的變化貢獻較小,這意味著這些層對信息處理的影響相對較小。
這種"對L2范數(shù)貢獻較小"的現(xiàn)象正是那些層被LAC方法識別為空域的原因——它們的"進展"(即對L2范數(shù)的變化貢獻)通常低于動態(tài)閾值λt。
那么,為什么跳過這些空域有時能提高模型性能呢?研究者提出了幾種可能的解釋:
1. 信息冗余:某些層可能在執(zhí)行高度相似的操作,導(dǎo)致冗余計算而沒有添加新信息。
2. 噪聲引入:一些層可能引入噪聲或不相關(guān)的信息,干擾了模型的決策過程。
3. 過擬合效應(yīng):模型訓(xùn)練中的某些層可能過度適應(yīng)了訓(xùn)練數(shù)據(jù)中的特定模式,在新數(shù)據(jù)上反而有害。
4. 層專門化:不同的層可能專門化于不同類型的任務(wù)或信息處理,對于特定查詢,只有相關(guān)的專家層需要參與。
這些發(fā)現(xiàn)揭示了語言模型內(nèi)部運作的復(fù)雜性,并挑戰(zhàn)了"更多層總是更好"的傳統(tǒng)觀點。事實上,模型可能采用了一種更加動態(tài)和高效的計算策略,根據(jù)輸入的性質(zhì)和任務(wù)的要求靈活地激活不同的層。
四、模型差異與特定案例探索:不同模型,不同"性格"
研究中的三個模型——Qwen2.5-7B-Instruct、Llama3-8B-Instruct和Mistral-7B-Instruct-v0.3——展示了截然不同的層使用模式,這反映了它們架構(gòu)和訓(xùn)練方法的差異。
Qwen2.5-7B-Instruct展現(xiàn)出最極端的層使用不均勻性。它在中間層(特別是第10到13層)幾乎不活躍,而在淺層和深層則保持較高的活躍度。這種"沙漏形"的激活模式意味著信息主要通過早期和后期層流動,中間層貢獻很小。這可能解釋了為什么Qwen模型在跳過大量層時性能反而提升——那些被跳過的層可能主要是"空置的中間層",它們對模型輸出的貢獻微乎其微,甚至可能引入干擾。
相比之下,Mistral-7B-Instruct-v0.3的層使用更加均勻,盡管仍有約30%的層被識別為空域。這種相對均勻的層分布可能反映了Mistral架構(gòu)中更有效的信息流動和層間依賴關(guān)系。
Llama3-8B-Instruct在層使用上表現(xiàn)出較大的波動,沒有明顯的模式,但總體上比Qwen更平衡,比Mistral更不均勻。
研究團隊還發(fā)現(xiàn)了一個有趣的現(xiàn)象:模型在數(shù)學(xué)推理任務(wù)上的錯誤模式與層使用模式有關(guān)。在附錄中提供的案例研究中,研究者展示了當完整使用所有層時,模型有時會產(chǎn)生幻覺(如Llama-3-8B-Instruct在一個方程求解問題中錯誤地得出答案(3,3))。然而,當跳過空域時,同一模型能夠正確求解出答案(1,4)。
這一發(fā)現(xiàn)特別重要,因為它表明空域不僅是計算效率的問題,還可能與模型的準確性和幻覺產(chǎn)生有關(guān)。一種可能的解釋是,某些層在特定任務(wù)上可能引入了錯誤的信息或干擾了正確的推理路徑。通過跳過這些層,模型能夠保持更清晰、更連貫的推理流程。
研究者還通過圖表直觀展示了不同α值(控制空域檢測敏感度的參數(shù))對模型性能和層使用率的影響。這些圖表揭示了有趣的權(quán)衡關(guān)系:對于Llama和Mistral,隨著跳過更多層,性能總體下降;而對于Qwen,跳過更多層(甚至高達80%)反而能提高性能。這再次證明了不同模型架構(gòu)的內(nèi)在差異。
更令人驚奇的是,研究者在BoolQ數(shù)據(jù)集上發(fā)現(xiàn),Qwen2.5-7B-Instruct在α=1.0(最嚴格的空域檢測閾值)時達到最佳性能,此時僅使用約20%的層!這打破了傳統(tǒng)認知,表明在某些情況下,使用"更少"的計算資源反而能獲得"更好"的結(jié)果。
五、研究局限性與未來方向:探索更深的空域
盡管這項研究提供了有關(guān)語言模型內(nèi)部工作機制的寶貴見解,但研究團隊也坦率承認了當前方法的一些局限性。最主要的限制是,盡管LAC方法能夠識別和掩蔽空域,但目前的實現(xiàn)方式并沒有真正節(jié)省計算資源。
研究者在論文中解釋道,當前實現(xiàn)使用掩蔽來模擬跳過空域的效果,而不是實際上跳過計算。這意味著,盡管空域的激活值被設(shè)為零(實際上"跳過"了它們的貢獻),但前向傳播過程仍然經(jīng)過所有層。此外,LAC方法本身需要在每一步計算L2范數(shù)的變化,這增加了額外的計算開銷。
未來的研究方向可能包括開發(fā)硬件感知的實現(xiàn)方式,能夠真正跳過空域的計算,從而實現(xiàn)計算速度的提升。這將需要深入研究如何在現(xiàn)代硬件加速器(如GPU和TPU)上高效支持動態(tài)稀疏計算。
另一個有趣的研究方向是進一步探索空域與模型行為之間的關(guān)系。例如,空域的分布模式是否與模型的特定能力(如推理、記憶或常識推斷)相關(guān)?是否可以通過分析空域分布來預(yù)測模型在特定任務(wù)上的表現(xiàn)?
此外,這項研究為模型優(yōu)化和蒸餾提供了新的思路。如果我們可以識別出哪些層對特定任務(wù)至關(guān)重要,而哪些層基本不起作用,那么我們可能能夠設(shè)計更高效的模型架構(gòu),或者開發(fā)針對特定任務(wù)的精簡版模型。
研究團隊還提出了空域檢測可能在解釋性、知識編輯和幻覺檢測方面的應(yīng)用。通過識別處理特定信息的關(guān)鍵層,我們可能能夠更有針對性地修改模型的行為或理解其決策過程。
六、結(jié)論與啟示:當語言模型學(xué)會選擇性專注
這項探索語言模型中"空域"的研究為我們提供了對這些復(fù)雜系統(tǒng)內(nèi)部工作機制的新視角。就像人類大腦在不同任務(wù)中有選擇地激活不同區(qū)域一樣,語言模型也似乎采用了一種動態(tài)、任務(wù)相關(guān)的計算策略,而不是簡單地在每個推理步驟中使用所有可用資源。
研究的核心發(fā)現(xiàn)可以總結(jié)為:
1. 語言模型在推理過程中并不是均勻激活所有層,而是存在大量"空域"——幾乎不參與計算的層。
2. 這些空域的分布不是隨機的,而是展現(xiàn)出與模型架構(gòu)和任務(wù)性質(zhì)相關(guān)的模式。
3. 最令人驚訝的是,有選擇地跳過這些空域不僅不會損害模型性能,在某些情況下反而會顯著提升性能。
4. 不同模型的層使用模式差異很大,反映了它們架構(gòu)設(shè)計和訓(xùn)練方法的不同。
這些發(fā)現(xiàn)挑戰(zhàn)了我們對語言模型工作方式的傳統(tǒng)理解,并為未來的模型設(shè)計提供了新方向。也許未來的語言模型不需要簡單地堆積更多層,而是需要更智能地決定何時使用哪些層。
就像一位資深專家知道何時深入思考、何時依賴直覺一樣,高效的語言模型可能需要學(xué)會"選擇性專注"——根據(jù)任務(wù)的復(fù)雜性和輸入的性質(zhì)動態(tài)分配計算資源。
這項研究也提醒我們,在追求更大、更復(fù)雜模型的過程中,我們可能忽略了提高現(xiàn)有資源使用效率的機會。有時,更少的計算反而能帶來更好的結(jié)果,前提是我們能夠智能地決定在何處投入計算資源。
對于普通用戶和開發(fā)者來說,這項研究的實際意義在于:未來的語言模型可能會變得更加高效、更少幻覺,同時計算成本更低。通過更好地理解模型內(nèi)部的工作機制,我們離構(gòu)建真正高效、可靠的人工智能系統(tǒng)又近了一步。
如果你對這項研究感興趣,可以訪問研究者的GitHub倉庫(https://github.com/manishemirani/void_in_language_models)獲取更多信息和代碼實現(xiàn)。這項工作為我們打開了理解和優(yōu)化大語言模型的新窗口,讓我們期待未來會有更多基于這一洞見的創(chuàng)新和突破。
好文章,需要你的鼓勵
新加坡國立大學(xué)研究團隊開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實驗顯示,僅訓(xùn)練AI玩簡單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟大學(xué)團隊開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實現(xiàn)37.9%的精度提升,并在真實設(shè)備上展現(xiàn)出色泛化能力,為機器人、AR和自動駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團隊通過對比實驗發(fā)現(xiàn),經(jīng)過強化學(xué)習訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時刻"現(xiàn)象,但這些自我糾錯行為并不能實際提升推理準確率。研究揭示了AI模型存在"生成-驗證差距",即生成答案的能力強于驗證答案質(zhì)量的能力,且模型在自我驗證時無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動態(tài)稀疏性實現(xiàn)大語言模型訓(xùn)練加速1.6倍,計算成本降低2.2倍。該方法使用SVD稀疏性估計器智能選擇重要計算部分,在保持模型性能的同時顯著提升訓(xùn)練效率,已在多個任務(wù)上驗證有效性。