av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 鏈式模型:微軟打造的"俄羅斯套娃"語言模型將提高訓練效率和推理靈活性

鏈式模型:微軟打造的"俄羅斯套娃"語言模型將提高訓練效率和推理靈活性

2025-05-22 14:01
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-22 14:01 ? 科技行者

在2024年5月發(fā)布的研究論文中,微軟研究院的宋凱濤、王曉華、譚旭等研究團隊提出了一種全新的學習范式——"鏈式模型"(Chain-of-Model,簡稱CoM)。這項發(fā)表于arXiv預印本平臺上的研究(arXiv:2505.11820v1)旨在解決大型語言模型(LLMs)訓練和部署中的兩個核心痛點:訓練效率和推理靈活性。如果你曾好奇為何每次升級語言模型都需要從頭訓練,或者為何不能根據(jù)不同場景動態(tài)調(diào)整模型大小,那么這項研究正是對這些問題的回應。

研究團隊首先指出了當前大語言模型擴展策略的兩個固有問題。首先,與人類漸進式獲取知識不同,現(xiàn)有的擴展策略無法保留已有規(guī)模的模型能力,每次擴展都需要從頭開始訓練,導致效率低下。其次,現(xiàn)有的LLM架構(無論是Dense還是MoE)只能激活固定規(guī)模的參數(shù),缺乏根據(jù)問題復雜度動態(tài)調(diào)整解決能力的機制。

為解決這些問題,研究團隊引入了"鏈式表示"(Chain-of-Representation,簡稱CoR)的概念。想象一下俄羅斯套娃,每個大娃娃里面都包含著一個小娃娃,而每個娃娃都是完整的。同樣地,CoR將任何表示(即神經(jīng)網(wǎng)絡中的隱藏狀態(tài))視為多個子表示(鏈)在隱藏維度級別上的組合。在這種設計中,每個鏈對應一個"規(guī)模"或"能力級別",后面的鏈可以利用前面鏈的信息來編碼更復雜的知識。

舉個例子,假設我們有一個包含三個鏈的表示。第一個鏈可能只包含基礎的語言理解能力,第二個鏈在此基礎上增加了更復雜的推理能力,而第三個鏈則進一步增加了專業(yè)知識和創(chuàng)造力。這就像一個團隊,從初級成員到資深專家,每一級都能貢獻不同層次的能力。

基于CoR概念,研究團隊提出了"鏈式層"(Chain-of-Layer,簡稱CoL)來重新設計網(wǎng)絡層,確保每個輸出鏈只能看到輸入表示中的前序鏈。例如,第三個輸出鏈只能看到輸入的第一、第二和第三鏈,而第二個輸出鏈只能看到輸入的第一和第二鏈。這種設計具有三個關鍵特性:通用性(任何層都可視為鏈數(shù)為1的特例)、因果性(獲取第i級特征只需計算前i個鏈)和組合性(兩個遵循CoL的層疊加后仍保持CoL特性)。

將多個CoL層堆疊起來,我們就得到了"鏈式模型"(Chain-of-Model,簡稱CoM)。這種模型可以包含多個規(guī)模的子模型,并能從先前的能力基礎上擴展,避免從頭訓練。想象一下一個成長中的樹,新的枝葉在已有枝干的基礎上繼續(xù)生長,而不是每次都要從種子開始。

在此基礎上,研究團隊設計了"鏈式語言模型"(Chain-of-Language-Model,簡稱CoLM),將CoM思想應用到Transformer架構的每一層中。具體來說,研究者重新設計了Transformer中的線性層、多頭注意力機制、前饋網(wǎng)絡和規(guī)范化層,使它們都符合CoL標準。這樣一來,CoLM就能在單次前向傳播中集成多尺度訓練,為彈性推理提供多個子模型。

更進一步,研究團隊還引入了一個名為CoLM-Air的變體,采用KV共享機制:所有的鍵(keys)和值(values)只在第一個鏈中計算,然后共享給所有其他鏈。這種設計提供了更多的擴展性和靈活性,包括允許無縫切換不同規(guī)模的LLM(無需重新計算鍵和值)、加速預填充(prefilling)階段等優(yōu)勢。

在多個基準測試上的實驗結果表明,CoLM系列模型可以達到與標準Transformer相當?shù)男阅?,同時提供更好的擴展性和靈活性。例如,在常識推理任務中,使用{16,16}鏈配置的CoLM模型在HellaSwag、Obqa、WinoGranda等測試上取得了與基線模型相當甚至略好的結果。

研究團隊還展示了CoLM的鏈擴展能力。他們以現(xiàn)有的預訓練模型(如TinyLLaMA-v1.1和LLaMA-3.2-1B)作為第一個鏈,然后添加新的額外鏈。結果顯示,擴展模型在多個基準測試上都取得了性能提升,TinyLLaMA-v1.1提高了0.92個百分點,LLaMA-3.2-1B提高了0.14個百分點。

在彈性推理方面,CoLM通過使用不同數(shù)量的鏈,可以提供不同尺度的子模型。例如,在CoLM-Air的實驗中,使用所有鏈(Chain 1+2)的完整模型性能為43.90%,而只使用第一個鏈的子模型性能為41.13%,為不同部署場景提供了靈活選擇。

特別值得一提的是CoLM-Air在預填充速度方面的優(yōu)勢。由于所有鍵和值都在第一個鏈中計算,處理長文本輸入時可以顯著提高速度。實驗表明,處理100萬個標記時,使用{16,16}鏈配置的CoLM-Air比同參數(shù)量的LLaMA模型快約1.6倍,而使用{8,8,8,8}配置時甚至可達到3倍速度提升。當與MInference技術結合時,加速比可達到驚人的27倍。

此外,研究團隊還提出了鏈式微調(diào)方法,凍結前幾個鏈同時只微調(diào)后幾個鏈。這種方法可以減少調(diào)優(yōu)成本并通過保留第一個鏈來緩解災難性遺忘問題。在GLUE基準測試上,鏈式微調(diào)通過僅調(diào)整模型約42%的參數(shù),將基線模型性能從48.46%提升到67.79%。

總的來說,這項研究為大型語言模型訓練和部署提供了一種全新的思路,實現(xiàn)了模型的進階擴展和彈性推理,為下一代基礎模型的構建鋪平了道路。

一、鏈式表示:重新思考神經(jīng)網(wǎng)絡中的隱藏狀態(tài)

傳統(tǒng)的神經(jīng)網(wǎng)絡將每一層的隱藏狀態(tài)視為單一的向量或張量,但微軟研究團隊提出了一個全新視角:任何表示都可以被看作多個子表示的組合。這就是"鏈式表示"(Chain-of-Representation,CoR)的核心思想。

想象你有一個長度為8的向量,傳統(tǒng)觀點將其視為一個整體單元。而在CoR概念中,這個向量可以被劃分為多個子向量,比如[2,2,4]意味著前2個元素構成第一鏈,中間2個元素構成第二鏈,最后4個元素構成第三鏈。每個鏈代表一個"規(guī)模"或"能力級別",從基礎到復雜。

這種設計的美妙之處在于,通過激活不同數(shù)量的鏈,我們可以在同一個模型中獲取不同規(guī)模的能力。比如,只激活第一鏈表示使用最基礎的能力,激活第一和第二鏈則使用中等復雜度的能力,而激活所有鏈則發(fā)揮模型的全部潛力。這就像一支樂隊,可以根據(jù)場合選擇讓部分樂手或全體樂手演奏,靈活且高效。

但這種設計帶來一個挑戰(zhàn):如何構建鏈之間的關系,確保每個鏈都能在前一個鏈的基礎上構建更復雜的能力?這就需要重新設計網(wǎng)絡層的工作方式。

二、鏈式層:在隱藏狀態(tài)中注入因果關系

為了實現(xiàn)鏈式表示的潛力,研究團隊引入了"鏈式層"(Chain-of-Layer,CoL)的概念。在傳統(tǒng)神經(jīng)網(wǎng)絡層中,輸出完全依賴于整個輸入。而在鏈式層中,輸出的第i個鏈只能依賴于輸入的前i個鏈,這就創(chuàng)建了一種因果關系——后面的鏈總是建立在前面鏈的基礎上。

舉個簡單的例子,假設我們有一個簡單的線性層y = Wx + b,輸入x和輸出y都分為3個鏈。在CoL設計中,輸出的第一鏈y?只能看到輸入的第一鏈x?;輸出的第二鏈y?可以看到輸入的第一鏈x?和第二鏈x?;而輸出的第三鏈y?可以看到所有輸入鏈x?、x?和x?。

這種設計具有三個關鍵特性:

首先是通用性。當鏈的數(shù)量為1時,鏈式層就退化為標準網(wǎng)絡層,因此任何標準層都可以視為鏈式層的特例。這保證了與現(xiàn)有模型的兼容性。

其次是因果性。由于輸出的第i個鏈只依賴于輸入的前i個鏈,我們可以根據(jù)需要只計算部分鏈。例如,如果只需要第一個鏈的輸出,我們只需要計算與第一個鏈相關的參數(shù),而無需計算整個模型。這大大提高了推理階段的效率。

第三是組合性。如果兩個層都滿足鏈式層的要求,那么它們的組合也滿足鏈式層的性質(zhì)。這意味著我們可以將多個鏈式層堆疊起來,形成一個完整的鏈式模型,而且這個模型也會保持鏈式設計的所有優(yōu)勢。

三、鏈式語言模型:改造Transformer架構

有了鏈式表示和鏈式層的基礎概念,研究團隊將這些思想應用到語言模型中,創(chuàng)建了"鏈式語言模型"(Chain-of-Language-Model,CoLM)。這個過程涉及重新設計Transformer架構的各個組件。

首先是線性層(Linear Layer)。在CoLM中,研究者引入了"鏈"這一新的超參數(shù),用于確定每個輸入和輸出鏈的大小。例如,如果設置C={c?, c?, ..., c?}作為基本比例,那么第i個輸入鏈的維度就是(c?/總和)×輸入維度,輸出鏈的維度也類似計算。這種設計確保了線性層符合鏈式層的要求。

其次是多頭注意力機制(Multi-head Attention)。為了支持鏈式表示,研究者將所有線性層(查詢Q、鍵K、值V、輸出O)替換為鏈式線性層。同時,他們設計了一個巧妙的技巧:要求鏈數(shù)總和等于注意力頭數(shù),這樣每個鏈都有專屬的查詢、鍵和值,確保注意力機制符合鏈式層標準。

第三是前饋網(wǎng)絡(Feed-Forward Network)。這一改造相對簡單,只需將前饋網(wǎng)絡中的所有線性層替換為鏈式線性層,并使用與注意力模塊相同的超參數(shù)C,確保Transformer塊(注意力+前饋)的輸出特征也符合鏈式層的要求。

第四是規(guī)范化層(Normalization)。研究者采用了一個簡單而有效的方法,對每個鏈分別應用規(guī)范化函數(shù),以確保規(guī)范化后的特征保持鏈式表示的屬性。

最后是嵌入層(Embedding)。在訓練過程中,嵌入層保持不變,但在使用過程中,當需要編碼第i個規(guī)模的信息時,只需使用對應前i個鏈的嵌入部分。

基于這些改造,CoLM不僅保持了Transformer的強大表達能力,還增加了多尺度訓練和彈性推理的能力。就像一個可變形的工具,能根據(jù)任務需求調(diào)整自身的復雜度和能力。

四、KV共享:進一步提升靈活性和效率

在CoLM的基礎上,研究團隊提出了一個更具野心的變體——CoLM-Air,引入了KV共享機制。在傳統(tǒng)的注意力機制中,每個鏈都有自己的鍵(K)和值(V),這雖然提供了豐富的表示能力,但也阻斷了不同規(guī)模模型之間的連接。

例如,當從小型語言模型(SLM)切換到大型語言模型(LLM)進行生成時,通常需要重新計算所有前文內(nèi)容的鍵和值。這不僅效率低下,還限制了模型的靈活性。

CoLM-Air的解決方案是:所有的鍵和值只在第一個鏈中計算,然后共享給所有其他鏈。如果查詢頭數(shù)多于鍵值頭數(shù),就采用GQA(Group Query Attention)的做法,通過重復鍵和值來匹配查詢頭數(shù)。

這種設計帶來了幾個獨特的優(yōu)勢:

首先是預填充加速。在處理長文本輸入時,模型只需要使用第一個鏈計算鍵和值,這顯著減少了計算負擔,提高了處理速度。實驗顯示,處理100萬個標記時,CoLM-Air比同參數(shù)量的LLaMA模型快1.6至3倍,結合MInference技術甚至可達到27倍加速。

其次是無縫LLM切換。當使用不同規(guī)模的CoLM-Air模型進行續(xù)寫生成時,由于所有模型共享來自第一個鏈的鍵和值,我們可以在不重新計算的情況下隨時切換模型規(guī)模,實現(xiàn)前所未有的靈活性。

此外,CoLM-Air還與PD分離架構(如Distserve、Splitwise、Mooncake等)高度兼容,因為它只需要在預填充服務器上部署第一個鏈的權重來計算KV緩存,顯著減輕了預填充服務器的計算負擔。

五、訓練與擴展:漸進式提升模型能力

CoM架構的一個重要特點是能夠從現(xiàn)有模型基礎上擴展,而不必從頭訓練。研究團隊提出了"鏈擴展"(Chain Expansion)的概念,即使用預訓練好的模型作為第一個鏈,然后添加新的鏈進行擴展。

這概念上類似于漸進式神經(jīng)網(wǎng)絡,允許在保留先前知識的同時增加額外的能力。然而,CoLM將這一理念擴展到了Transformer架構的預訓練中。

在實驗中,研究者選擇了兩個LLaMA變體(TinyLLaMA-v1.1和LLaMA-3.2-1B)作為第一個鏈進行擴展。具體方法是將c?設為32(查詢數(shù)),然后引入第二個鏈c?=8,增加約0.8B參數(shù)。為了保持原始知識,研究者凍結了第一個鏈并僅訓練新增部分。

結果表明,即使在有限的計算資源下(8B標記訓練),擴展模型也在多個基準測試上取得了性能提升:TinyLLaMA-v1.1提高了0.92個百分點,LLaMA-3.2-1B提高了0.14個百分點。這表明CoM能有效地在現(xiàn)有模型基礎上構建更強大的能力。

六、彈性推理與鏈式微調(diào):實際應用的靈活性

除了訓練效率,CoLM的另一個重要優(yōu)勢是彈性推理能力。傳統(tǒng)語言模型只能以固定規(guī)模運行,而CoLM可以根據(jù)需求動態(tài)激活不同數(shù)量的鏈,提供多個規(guī)模的子模型。

在研究中,團隊展示了CoLM-Air使用一個或全部鏈時的性能差異。例如,使用所有鏈的完整模型在綜合測試中達到43.90%的準確率,而只使用第一個鏈的子模型達到41.13%。這種靈活性對于不同的部署環(huán)境(如資源受限的移動設備或功能強大的服務器)尤為寶貴。

此外,研究團隊還提出了"鏈式微調(diào)"(Chain Tuning)方法,即凍結前幾個鏈同時只微調(diào)后幾個鏈。這種方法有兩個主要優(yōu)勢:一是減少調(diào)優(yōu)成本,二是通過保留第一個鏈來緩解災難性遺忘問題。

在GLUE基準測試上,鏈式微調(diào)將基線模型性能從48.46%提升到67.79%,同時只需調(diào)整模型約42%的參數(shù)。更重要的是,當采用CoLM-Air設置并凍結第一個鏈時,微調(diào)后模型的鍵和值可以無縫轉移到原始模型,無需額外計算。

七、探索與討論:未來的可能性

雖然CoM架構在寬度(即維度)方面展現(xiàn)了巨大潛力,但研究團隊也探討了將其應用于模型深度(即層數(shù))的可能性。初步實驗表明,在模型深度方面應用CoM概念面臨一些挑戰(zhàn),特別是在保持高層語義表示方面。

此外,研究者也討論了CoM與混合專家(Mixture-of-Experts,MoE)架構的區(qū)別。MoE設計旨在創(chuàng)建具有相似能力的多個專家,而只激活其中一部分;CoM則是創(chuàng)建一系列嵌套的專家,從弱到強逐步增強能力。兩種架構從不同角度構建專家,是完全正交的,意味著它們可以在同一架構中結合使用,繼承各自的優(yōu)勢。

總結來說,鏈式模型(CoM)為大型語言模型的訓練和部署提供了一種全新思路,通過引入鏈式表示和因果依賴關系,實現(xiàn)了模型的進階擴展和彈性推理。這種方法不僅提高了訓練效率,還增加了推理階段的靈活性,為構建下一代基礎模型提供了新的可能性。就像俄羅斯套娃般層層嵌套,又能靈活組合,CoM開辟了語言模型構建的新范式。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-