在2024年5月發(fā)布的研究論文中,微軟研究院的宋凱濤、王曉華、譚旭等研究團隊提出了一種全新的學(xué)習(xí)范式——"鏈?zhǔn)侥P?(Chain-of-Model,簡稱CoM)。這項發(fā)表于arXiv預(yù)印本平臺上的研究(arXiv:2505.11820v1)旨在解決大型語言模型(LLMs)訓(xùn)練和部署中的兩個核心痛點:訓(xùn)練效率和推理靈活性。如果你曾好奇為何每次升級語言模型都需要從頭訓(xùn)練,或者為何不能根據(jù)不同場景動態(tài)調(diào)整模型大小,那么這項研究正是對這些問題的回應(yīng)。
研究團隊首先指出了當(dāng)前大語言模型擴展策略的兩個固有問題。首先,與人類漸進(jìn)式獲取知識不同,現(xiàn)有的擴展策略無法保留已有規(guī)模的模型能力,每次擴展都需要從頭開始訓(xùn)練,導(dǎo)致效率低下。其次,現(xiàn)有的LLM架構(gòu)(無論是Dense還是MoE)只能激活固定規(guī)模的參數(shù),缺乏根據(jù)問題復(fù)雜度動態(tài)調(diào)整解決能力的機制。
為解決這些問題,研究團隊引入了"鏈?zhǔn)奖硎?(Chain-of-Representation,簡稱CoR)的概念。想象一下俄羅斯套娃,每個大娃娃里面都包含著一個小娃娃,而每個娃娃都是完整的。同樣地,CoR將任何表示(即神經(jīng)網(wǎng)絡(luò)中的隱藏狀態(tài))視為多個子表示(鏈)在隱藏維度級別上的組合。在這種設(shè)計中,每個鏈對應(yīng)一個"規(guī)模"或"能力級別",后面的鏈可以利用前面鏈的信息來編碼更復(fù)雜的知識。
舉個例子,假設(shè)我們有一個包含三個鏈的表示。第一個鏈可能只包含基礎(chǔ)的語言理解能力,第二個鏈在此基礎(chǔ)上增加了更復(fù)雜的推理能力,而第三個鏈則進(jìn)一步增加了專業(yè)知識和創(chuàng)造力。這就像一個團隊,從初級成員到資深專家,每一級都能貢獻(xiàn)不同層次的能力。
基于CoR概念,研究團隊提出了"鏈?zhǔn)綄?(Chain-of-Layer,簡稱CoL)來重新設(shè)計網(wǎng)絡(luò)層,確保每個輸出鏈只能看到輸入表示中的前序鏈。例如,第三個輸出鏈只能看到輸入的第一、第二和第三鏈,而第二個輸出鏈只能看到輸入的第一和第二鏈。這種設(shè)計具有三個關(guān)鍵特性:通用性(任何層都可視為鏈數(shù)為1的特例)、因果性(獲取第i級特征只需計算前i個鏈)和組合性(兩個遵循CoL的層疊加后仍保持CoL特性)。
將多個CoL層堆疊起來,我們就得到了"鏈?zhǔn)侥P?(Chain-of-Model,簡稱CoM)。這種模型可以包含多個規(guī)模的子模型,并能從先前的能力基礎(chǔ)上擴展,避免從頭訓(xùn)練。想象一下一個成長中的樹,新的枝葉在已有枝干的基礎(chǔ)上繼續(xù)生長,而不是每次都要從種子開始。
在此基礎(chǔ)上,研究團隊設(shè)計了"鏈?zhǔn)秸Z言模型"(Chain-of-Language-Model,簡稱CoLM),將CoM思想應(yīng)用到Transformer架構(gòu)的每一層中。具體來說,研究者重新設(shè)計了Transformer中的線性層、多頭注意力機制、前饋網(wǎng)絡(luò)和規(guī)范化層,使它們都符合CoL標(biāo)準(zhǔn)。這樣一來,CoLM就能在單次前向傳播中集成多尺度訓(xùn)練,為彈性推理提供多個子模型。
更進(jìn)一步,研究團隊還引入了一個名為CoLM-Air的變體,采用KV共享機制:所有的鍵(keys)和值(values)只在第一個鏈中計算,然后共享給所有其他鏈。這種設(shè)計提供了更多的擴展性和靈活性,包括允許無縫切換不同規(guī)模的LLM(無需重新計算鍵和值)、加速預(yù)填充(prefilling)階段等優(yōu)勢。
在多個基準(zhǔn)測試上的實驗結(jié)果表明,CoLM系列模型可以達(dá)到與標(biāo)準(zhǔn)Transformer相當(dāng)?shù)男阅?,同時提供更好的擴展性和靈活性。例如,在常識推理任務(wù)中,使用{16,16}鏈配置的CoLM模型在HellaSwag、Obqa、WinoGranda等測試上取得了與基線模型相當(dāng)甚至略好的結(jié)果。
研究團隊還展示了CoLM的鏈擴展能力。他們以現(xiàn)有的預(yù)訓(xùn)練模型(如TinyLLaMA-v1.1和LLaMA-3.2-1B)作為第一個鏈,然后添加新的額外鏈。結(jié)果顯示,擴展模型在多個基準(zhǔn)測試上都取得了性能提升,TinyLLaMA-v1.1提高了0.92個百分點,LLaMA-3.2-1B提高了0.14個百分點。
在彈性推理方面,CoLM通過使用不同數(shù)量的鏈,可以提供不同尺度的子模型。例如,在CoLM-Air的實驗中,使用所有鏈(Chain 1+2)的完整模型性能為43.90%,而只使用第一個鏈的子模型性能為41.13%,為不同部署場景提供了靈活選擇。
特別值得一提的是CoLM-Air在預(yù)填充速度方面的優(yōu)勢。由于所有鍵和值都在第一個鏈中計算,處理長文本輸入時可以顯著提高速度。實驗表明,處理100萬個標(biāo)記時,使用{16,16}鏈配置的CoLM-Air比同參數(shù)量的LLaMA模型快約1.6倍,而使用{8,8,8,8}配置時甚至可達(dá)到3倍速度提升。當(dāng)與MInference技術(shù)結(jié)合時,加速比可達(dá)到驚人的27倍。
此外,研究團隊還提出了鏈?zhǔn)轿⒄{(diào)方法,凍結(jié)前幾個鏈同時只微調(diào)后幾個鏈。這種方法可以減少調(diào)優(yōu)成本并通過保留第一個鏈來緩解災(zāi)難性遺忘問題。在GLUE基準(zhǔn)測試上,鏈?zhǔn)轿⒄{(diào)通過僅調(diào)整模型約42%的參數(shù),將基線模型性能從48.46%提升到67.79%。
總的來說,這項研究為大型語言模型訓(xùn)練和部署提供了一種全新的思路,實現(xiàn)了模型的進(jìn)階擴展和彈性推理,為下一代基礎(chǔ)模型的構(gòu)建鋪平了道路。
一、鏈?zhǔn)奖硎荆褐匦滤伎忌窠?jīng)網(wǎng)絡(luò)中的隱藏狀態(tài)
傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)將每一層的隱藏狀態(tài)視為單一的向量或張量,但微軟研究團隊提出了一個全新視角:任何表示都可以被看作多個子表示的組合。這就是"鏈?zhǔn)奖硎?(Chain-of-Representation,CoR)的核心思想。
想象你有一個長度為8的向量,傳統(tǒng)觀點將其視為一個整體單元。而在CoR概念中,這個向量可以被劃分為多個子向量,比如[2,2,4]意味著前2個元素構(gòu)成第一鏈,中間2個元素構(gòu)成第二鏈,最后4個元素構(gòu)成第三鏈。每個鏈代表一個"規(guī)模"或"能力級別",從基礎(chǔ)到復(fù)雜。
這種設(shè)計的美妙之處在于,通過激活不同數(shù)量的鏈,我們可以在同一個模型中獲取不同規(guī)模的能力。比如,只激活第一鏈表示使用最基礎(chǔ)的能力,激活第一和第二鏈則使用中等復(fù)雜度的能力,而激活所有鏈則發(fā)揮模型的全部潛力。這就像一支樂隊,可以根據(jù)場合選擇讓部分樂手或全體樂手演奏,靈活且高效。
但這種設(shè)計帶來一個挑戰(zhàn):如何構(gòu)建鏈之間的關(guān)系,確保每個鏈都能在前一個鏈的基礎(chǔ)上構(gòu)建更復(fù)雜的能力?這就需要重新設(shè)計網(wǎng)絡(luò)層的工作方式。
二、鏈?zhǔn)綄樱涸陔[藏狀態(tài)中注入因果關(guān)系
為了實現(xiàn)鏈?zhǔn)奖硎镜臐摿?,研究團隊引入了"鏈?zhǔn)綄?(Chain-of-Layer,CoL)的概念。在傳統(tǒng)神經(jīng)網(wǎng)絡(luò)層中,輸出完全依賴于整個輸入。而在鏈?zhǔn)綄又?,輸出的第i個鏈只能依賴于輸入的前i個鏈,這就創(chuàng)建了一種因果關(guān)系——后面的鏈總是建立在前面鏈的基礎(chǔ)上。
舉個簡單的例子,假設(shè)我們有一個簡單的線性層y = Wx + b,輸入x和輸出y都分為3個鏈。在CoL設(shè)計中,輸出的第一鏈y?只能看到輸入的第一鏈x?;輸出的第二鏈y?可以看到輸入的第一鏈x?和第二鏈x?;而輸出的第三鏈y?可以看到所有輸入鏈x?、x?和x?。
這種設(shè)計具有三個關(guān)鍵特性:
首先是通用性。當(dāng)鏈的數(shù)量為1時,鏈?zhǔn)綄泳屯嘶癁闃?biāo)準(zhǔn)網(wǎng)絡(luò)層,因此任何標(biāo)準(zhǔn)層都可以視為鏈?zhǔn)綄拥奶乩_@保證了與現(xiàn)有模型的兼容性。
其次是因果性。由于輸出的第i個鏈只依賴于輸入的前i個鏈,我們可以根據(jù)需要只計算部分鏈。例如,如果只需要第一個鏈的輸出,我們只需要計算與第一個鏈相關(guān)的參數(shù),而無需計算整個模型。這大大提高了推理階段的效率。
第三是組合性。如果兩個層都滿足鏈?zhǔn)綄拥囊?,那么它們的組合也滿足鏈?zhǔn)綄拥男再|(zhì)。這意味著我們可以將多個鏈?zhǔn)綄佣询B起來,形成一個完整的鏈?zhǔn)侥P?,而且這個模型也會保持鏈?zhǔn)皆O(shè)計的所有優(yōu)勢。
三、鏈?zhǔn)秸Z言模型:改造Transformer架構(gòu)
有了鏈?zhǔn)奖硎竞玩準(zhǔn)綄拥幕A(chǔ)概念,研究團隊將這些思想應(yīng)用到語言模型中,創(chuàng)建了"鏈?zhǔn)秸Z言模型"(Chain-of-Language-Model,CoLM)。這個過程涉及重新設(shè)計Transformer架構(gòu)的各個組件。
首先是線性層(Linear Layer)。在CoLM中,研究者引入了"鏈"這一新的超參數(shù),用于確定每個輸入和輸出鏈的大小。例如,如果設(shè)置C={c?, c?, ..., c?}作為基本比例,那么第i個輸入鏈的維度就是(c?/總和)×輸入維度,輸出鏈的維度也類似計算。這種設(shè)計確保了線性層符合鏈?zhǔn)綄拥囊蟆?/p>
其次是多頭注意力機制(Multi-head Attention)。為了支持鏈?zhǔn)奖硎?,研究者將所有線性層(查詢Q、鍵K、值V、輸出O)替換為鏈?zhǔn)骄€性層。同時,他們設(shè)計了一個巧妙的技巧:要求鏈數(shù)總和等于注意力頭數(shù),這樣每個鏈都有專屬的查詢、鍵和值,確保注意力機制符合鏈?zhǔn)綄訕?biāo)準(zhǔn)。
第三是前饋網(wǎng)絡(luò)(Feed-Forward Network)。這一改造相對簡單,只需將前饋網(wǎng)絡(luò)中的所有線性層替換為鏈?zhǔn)骄€性層,并使用與注意力模塊相同的超參數(shù)C,確保Transformer塊(注意力+前饋)的輸出特征也符合鏈?zhǔn)綄拥囊蟆?/p>
第四是規(guī)范化層(Normalization)。研究者采用了一個簡單而有效的方法,對每個鏈分別應(yīng)用規(guī)范化函數(shù),以確保規(guī)范化后的特征保持鏈?zhǔn)奖硎镜膶傩浴?/p>
最后是嵌入層(Embedding)。在訓(xùn)練過程中,嵌入層保持不變,但在使用過程中,當(dāng)需要編碼第i個規(guī)模的信息時,只需使用對應(yīng)前i個鏈的嵌入部分。
基于這些改造,CoLM不僅保持了Transformer的強大表達(dá)能力,還增加了多尺度訓(xùn)練和彈性推理的能力。就像一個可變形的工具,能根據(jù)任務(wù)需求調(diào)整自身的復(fù)雜度和能力。
四、KV共享:進(jìn)一步提升靈活性和效率
在CoLM的基礎(chǔ)上,研究團隊提出了一個更具野心的變體——CoLM-Air,引入了KV共享機制。在傳統(tǒng)的注意力機制中,每個鏈都有自己的鍵(K)和值(V),這雖然提供了豐富的表示能力,但也阻斷了不同規(guī)模模型之間的連接。
例如,當(dāng)從小型語言模型(SLM)切換到大型語言模型(LLM)進(jìn)行生成時,通常需要重新計算所有前文內(nèi)容的鍵和值。這不僅效率低下,還限制了模型的靈活性。
CoLM-Air的解決方案是:所有的鍵和值只在第一個鏈中計算,然后共享給所有其他鏈。如果查詢頭數(shù)多于鍵值頭數(shù),就采用GQA(Group Query Attention)的做法,通過重復(fù)鍵和值來匹配查詢頭數(shù)。
這種設(shè)計帶來了幾個獨特的優(yōu)勢:
首先是預(yù)填充加速。在處理長文本輸入時,模型只需要使用第一個鏈計算鍵和值,這顯著減少了計算負(fù)擔(dān),提高了處理速度。實驗顯示,處理100萬個標(biāo)記時,CoLM-Air比同參數(shù)量的LLaMA模型快1.6至3倍,結(jié)合MInference技術(shù)甚至可達(dá)到27倍加速。
其次是無縫LLM切換。當(dāng)使用不同規(guī)模的CoLM-Air模型進(jìn)行續(xù)寫生成時,由于所有模型共享來自第一個鏈的鍵和值,我們可以在不重新計算的情況下隨時切換模型規(guī)模,實現(xiàn)前所未有的靈活性。
此外,CoLM-Air還與PD分離架構(gòu)(如Distserve、Splitwise、Mooncake等)高度兼容,因為它只需要在預(yù)填充服務(wù)器上部署第一個鏈的權(quán)重來計算KV緩存,顯著減輕了預(yù)填充服務(wù)器的計算負(fù)擔(dān)。
五、訓(xùn)練與擴展:漸進(jìn)式提升模型能力
CoM架構(gòu)的一個重要特點是能夠從現(xiàn)有模型基礎(chǔ)上擴展,而不必從頭訓(xùn)練。研究團隊提出了"鏈擴展"(Chain Expansion)的概念,即使用預(yù)訓(xùn)練好的模型作為第一個鏈,然后添加新的鏈進(jìn)行擴展。
這概念上類似于漸進(jìn)式神經(jīng)網(wǎng)絡(luò),允許在保留先前知識的同時增加額外的能力。然而,CoLM將這一理念擴展到了Transformer架構(gòu)的預(yù)訓(xùn)練中。
在實驗中,研究者選擇了兩個LLaMA變體(TinyLLaMA-v1.1和LLaMA-3.2-1B)作為第一個鏈進(jìn)行擴展。具體方法是將c?設(shè)為32(查詢數(shù)),然后引入第二個鏈c?=8,增加約0.8B參數(shù)。為了保持原始知識,研究者凍結(jié)了第一個鏈并僅訓(xùn)練新增部分。
結(jié)果表明,即使在有限的計算資源下(8B標(biāo)記訓(xùn)練),擴展模型也在多個基準(zhǔn)測試上取得了性能提升:TinyLLaMA-v1.1提高了0.92個百分點,LLaMA-3.2-1B提高了0.14個百分點。這表明CoM能有效地在現(xiàn)有模型基礎(chǔ)上構(gòu)建更強大的能力。
六、彈性推理與鏈?zhǔn)轿⒄{(diào):實際應(yīng)用的靈活性
除了訓(xùn)練效率,CoLM的另一個重要優(yōu)勢是彈性推理能力。傳統(tǒng)語言模型只能以固定規(guī)模運行,而CoLM可以根據(jù)需求動態(tài)激活不同數(shù)量的鏈,提供多個規(guī)模的子模型。
在研究中,團隊展示了CoLM-Air使用一個或全部鏈時的性能差異。例如,使用所有鏈的完整模型在綜合測試中達(dá)到43.90%的準(zhǔn)確率,而只使用第一個鏈的子模型達(dá)到41.13%。這種靈活性對于不同的部署環(huán)境(如資源受限的移動設(shè)備或功能強大的服務(wù)器)尤為寶貴。
此外,研究團隊還提出了"鏈?zhǔn)轿⒄{(diào)"(Chain Tuning)方法,即凍結(jié)前幾個鏈同時只微調(diào)后幾個鏈。這種方法有兩個主要優(yōu)勢:一是減少調(diào)優(yōu)成本,二是通過保留第一個鏈來緩解災(zāi)難性遺忘問題。
在GLUE基準(zhǔn)測試上,鏈?zhǔn)轿⒄{(diào)將基線模型性能從48.46%提升到67.79%,同時只需調(diào)整模型約42%的參數(shù)。更重要的是,當(dāng)采用CoLM-Air設(shè)置并凍結(jié)第一個鏈時,微調(diào)后模型的鍵和值可以無縫轉(zhuǎn)移到原始模型,無需額外計算。
七、探索與討論:未來的可能性
雖然CoM架構(gòu)在寬度(即維度)方面展現(xiàn)了巨大潛力,但研究團隊也探討了將其應(yīng)用于模型深度(即層數(shù))的可能性。初步實驗表明,在模型深度方面應(yīng)用CoM概念面臨一些挑戰(zhàn),特別是在保持高層語義表示方面。
此外,研究者也討論了CoM與混合專家(Mixture-of-Experts,MoE)架構(gòu)的區(qū)別。MoE設(shè)計旨在創(chuàng)建具有相似能力的多個專家,而只激活其中一部分;CoM則是創(chuàng)建一系列嵌套的專家,從弱到強逐步增強能力。兩種架構(gòu)從不同角度構(gòu)建專家,是完全正交的,意味著它們可以在同一架構(gòu)中結(jié)合使用,繼承各自的優(yōu)勢。
總結(jié)來說,鏈?zhǔn)侥P停–oM)為大型語言模型的訓(xùn)練和部署提供了一種全新思路,通過引入鏈?zhǔn)奖硎竞鸵蚬蕾囮P(guān)系,實現(xiàn)了模型的進(jìn)階擴展和彈性推理。這種方法不僅提高了訓(xùn)練效率,還增加了推理階段的靈活性,為構(gòu)建下一代基礎(chǔ)模型提供了新的可能性。就像俄羅斯套娃般層層嵌套,又能靈活組合,CoM開辟了語言模型構(gòu)建的新范式。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學(xué)習(xí)外觀和運動信息,顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報,準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。