這項(xiàng)由加州大學(xué)圣克魯茲分校的Jason Eshraghian教授與字節(jié)跳動(dòng)Seed團(tuán)隊(duì)的張戈博士共同領(lǐng)導(dǎo)的研究,發(fā)表于2025年7月的arXiv預(yù)印本(論文編號(hào):arXiv:2507.06457v1),為解決大語(yǔ)言模型的計(jì)算效率難題提供了全新思路。有興趣深入了解的讀者可以通過(guò)arXiv網(wǎng)站訪問(wèn)完整論文。
當(dāng)我們使用ChatGPT或其他大語(yǔ)言模型時(shí),可能很難想象這些看似輕松回答問(wèn)題的AI系統(tǒng)背后面臨著多么嚴(yán)峻的計(jì)算挑戰(zhàn)。就像一個(gè)圖書(shū)管理員需要同時(shí)處理成千上萬(wàn)本書(shū)的查詢請(qǐng)求一樣,傳統(tǒng)的Transformer架構(gòu)在處理長(zhǎng)文本時(shí)會(huì)遇到嚴(yán)重的計(jì)算瓶頸。隨著輸入文本長(zhǎng)度的增加,所需的計(jì)算資源會(huì)呈現(xiàn)平方級(jí)增長(zhǎng),這就好比圖書(shū)管理員需要記住每本書(shū)與其他所有書(shū)籍的關(guān)系,當(dāng)書(shū)籍?dāng)?shù)量翻倍時(shí),需要記住的關(guān)系數(shù)量卻要增加四倍。
面對(duì)這個(gè)困境,研究人員們提出了一種巧妙的"混血"解決方案。他們將傳統(tǒng)的全注意力機(jī)制(就像那個(gè)需要記住所有書(shū)籍關(guān)系的圖書(shū)管理員)與線性注意力機(jī)制(類(lèi)似于只記住關(guān)鍵信息摘要的高效管理員)相結(jié)合,創(chuàng)造出了混合線性注意力架構(gòu)。這種架構(gòu)既保持了處理復(fù)雜任務(wù)的能力,又大大降低了計(jì)算成本。
然而,令人意外的是,在這個(gè)"混血"家族中,究竟選擇哪種線性注意力機(jī)制作為"另一半"卻一直是個(gè)謎。就像烹飪一道融合菜肴時(shí),主廚們往往專(zhuān)注于調(diào)整不同食材的比例,卻忽略了選擇哪種具體食材可能更加重要。為了解開(kāi)這個(gè)謎題,研究團(tuán)隊(duì)進(jìn)行了一場(chǎng)史無(wú)前例的大規(guī)模實(shí)驗(yàn),訓(xùn)練并開(kāi)源了72個(gè)不同的模型,涵蓋了從340M到1.3B參數(shù)規(guī)模的各種配置。
這項(xiàng)研究的創(chuàng)新之處在于,它不僅僅是簡(jiǎn)單地測(cè)試不同的"混血"比例,而是系統(tǒng)性地探索了線性注意力機(jī)制的三個(gè)發(fā)展世代,以及它們?cè)诨旌霞軜?gòu)中的表現(xiàn)。研究結(jié)果顛覆了一個(gè)長(zhǎng)期存在的假設(shè):在單獨(dú)使用時(shí)表現(xiàn)最佳的線性注意力機(jī)制,在混合架構(gòu)中未必能取得最好的效果。這就像一個(gè)在單人比賽中表現(xiàn)出色的運(yùn)動(dòng)員,在團(tuán)隊(duì)合作中可能并不是最佳選擇。
一、線性注意力機(jī)制的三個(gè)發(fā)展世代
要理解這項(xiàng)研究的重要性,我們需要先了解線性注意力機(jī)制的發(fā)展歷程。這個(gè)過(guò)程就像汽車(chē)工業(yè)的發(fā)展一樣,經(jīng)歷了從簡(jiǎn)單到復(fù)雜、從粗糙到精細(xì)的演進(jìn)過(guò)程。
第一代線性注意力機(jī)制可以比作早期的汽車(chē),使用簡(jiǎn)單的向量級(jí)隱藏狀態(tài)。這就像一個(gè)只有基本記憶功能的筆記本,每次只能記錄一行簡(jiǎn)單的信息。當(dāng)新信息到來(lái)時(shí),系統(tǒng)會(huì)通過(guò)一個(gè)"門(mén)控"機(jī)制決定保留多少舊信息,添加多少新信息。這種機(jī)制的代表是HGRN(Hierarchical Gated Recurrent Network),它通過(guò)元素級(jí)的門(mén)控機(jī)制來(lái)選擇性地保留和更新信息。雖然這種方法計(jì)算效率很高,但就像早期汽車(chē)的載重能力有限一樣,它的信息存儲(chǔ)容量也相對(duì)較小。
第二代線性注意力機(jī)制則像汽車(chē)工業(yè)的一次重大革新,將隱藏狀態(tài)從簡(jiǎn)單的向量擴(kuò)展為完整的矩陣。這就好比將原來(lái)的單行筆記本升級(jí)為一個(gè)完整的表格,可以存儲(chǔ)更多復(fù)雜的信息關(guān)系。這一代的代表包括RetNet、GLA(Gated Linear Attention)和HGRN-2等模型。它們通過(guò)外積操作來(lái)構(gòu)建二維的隱藏狀態(tài)矩陣,同時(shí)應(yīng)用不同的衰減門(mén)控策略。RetNet使用固定的指數(shù)衰減因子,就像設(shè)定一個(gè)固定的"遺忘時(shí)間表";GLA則采用完全數(shù)據(jù)驅(qū)動(dòng)的門(mén)控機(jī)制,能夠根據(jù)具體情況靈活調(diào)整;而HGRN-2采用了分層的門(mén)控策略,在粗粒度和細(xì)粒度信息之間建立了層次化的分離。
第三代線性注意力機(jī)制代表了這個(gè)領(lǐng)域的最新突破,引入了"增量規(guī)則控制遺忘"的概念。這就像擁有了一個(gè)智能的信息管理系統(tǒng),不僅能夠添加新信息,還能主動(dòng)識(shí)別和刪除過(guò)時(shí)的信息。DeltaNet和Gated DeltaNet是這一代的代表,它們首先會(huì)擦除與當(dāng)前輸入相關(guān)的舊信息,然后再寫(xiě)入新的關(guān)聯(lián)信息。這種機(jī)制的數(shù)學(xué)原理實(shí)際上與在線最小二乘法的隨機(jī)梯度步驟相同,使得隱藏狀態(tài)的行為類(lèi)似于一個(gè)快速、持續(xù)訓(xùn)練的聯(lián)想記憶系統(tǒng)。
三代技術(shù)的發(fā)展軌跡清晰地展現(xiàn)了從最小化記憶能力到最大化記憶能力的演進(jìn)過(guò)程。每一代都在前一代的基礎(chǔ)上解決了特定的問(wèn)題,同時(shí)也為后續(xù)發(fā)展奠定了基礎(chǔ)。
二、混合架構(gòu)的設(shè)計(jì)原理
混合線性注意力架構(gòu)的設(shè)計(jì)思路就像創(chuàng)建一個(gè)高效的團(tuán)隊(duì),將不同專(zhuān)長(zhǎng)的成員合理搭配。在這個(gè)"團(tuán)隊(duì)"中,線性注意力層負(fù)責(zé)處理常規(guī)任務(wù),它們就像經(jīng)驗(yàn)豐富的員工,能夠快速處理大部分日常工作,并且維持一個(gè)緊湊的"工作記憶"。而全注意力層則像資深專(zhuān)家,雖然工作成本較高,但能夠處理需要全局視野和復(fù)雜推理的任務(wù)。
這種架構(gòu)的核心在于按照固定比例交替排列這兩種不同的注意力機(jī)制。研究團(tuán)隊(duì)測(cè)試了多種不同的混合比例,從24:1(即每24個(gè)線性注意力層配1個(gè)全注意力層)到3:1的各種配置。這就像在一個(gè)樂(lè)隊(duì)中調(diào)整不同樂(lè)器的比例,尋找最和諧的音響效果。
在實(shí)際運(yùn)行過(guò)程中,輸入序列首先經(jīng)過(guò)嵌入層處理,然后在這個(gè)混合架構(gòu)中流動(dòng)。線性注意力層維持著一個(gè)固定大小的狀態(tài),無(wú)論輸入序列有多長(zhǎng),這個(gè)狀態(tài)的大小都保持不變,就像一個(gè)容量固定的水桶。相比之下,全注意力層則需要維護(hù)一個(gè)不斷增長(zhǎng)的鍵值緩存,隨著序列長(zhǎng)度的增加,所需的內(nèi)存也線性增長(zhǎng)。
這種設(shè)計(jì)的巧妙之處在于,它在訓(xùn)練階段的處理方式與標(biāo)準(zhǔn)Transformer完全相同,但在推理階段(即實(shí)際使用時(shí))只有全注意力層會(huì)增加緩存大小。因此,內(nèi)存占用大致減少了混合比例的倍數(shù)。如果使用6:1的混合比例,內(nèi)存使用量大約只有傳統(tǒng)Transformer的六分之一。
三、大規(guī)模實(shí)驗(yàn)設(shè)計(jì)與模型訓(xùn)練
為了系統(tǒng)性地評(píng)估不同線性注意力機(jī)制在混合架構(gòu)中的表現(xiàn),研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)前所未有的大規(guī)模實(shí)驗(yàn)。這個(gè)實(shí)驗(yàn)的規(guī)??梢杂?史無(wú)前例"來(lái)形容,他們總共訓(xùn)練了72個(gè)不同的模型,這就像同時(shí)培養(yǎng)72個(gè)不同"性格"的AI助手,然后觀察它們?cè)诟鞣N任務(wù)中的表現(xiàn)。
這些模型分為兩個(gè)規(guī)模級(jí)別:340M參數(shù)的模型使用20B令牌進(jìn)行訓(xùn)練,1.3B參數(shù)的模型使用100B令牌進(jìn)行訓(xùn)練。每個(gè)規(guī)模級(jí)別都包含了6種不同的線性注意力變體,每種變體又測(cè)試了5種不同的混合比例,外加一個(gè)純線性注意力的基準(zhǔn)模型。這種全面的實(shí)驗(yàn)設(shè)計(jì)確保了研究結(jié)果的可信度和普適性。
實(shí)驗(yàn)中使用的數(shù)據(jù)集是fineweb-edu,這是一個(gè)高質(zhì)量的教育文本數(shù)據(jù)集。所有模型都采用了相同的訓(xùn)練配置,包括AdamW優(yōu)化器和余弦學(xué)習(xí)率調(diào)度策略。340M參數(shù)的模型使用50K令牌的批次大小,而1.3B參數(shù)的模型使用1M令牌的批次大小。這種標(biāo)準(zhǔn)化的訓(xùn)練設(shè)置確保了不同模型之間的可比性。
更重要的是,研究團(tuán)隊(duì)將所有這些模型都開(kāi)源了,這為整個(gè)研究社區(qū)提供了寶貴的資源。這就像建立了一個(gè)公共的實(shí)驗(yàn)室,其他研究者可以直接使用這些預(yù)訓(xùn)練模型進(jìn)行自己的研究,而無(wú)需重復(fù)進(jìn)行昂貴的大規(guī)模訓(xùn)練。
四、評(píng)估框架與基準(zhǔn)測(cè)試
為了全面評(píng)估這些模型的性能,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)綜合性的評(píng)估框架,涵蓋了兩個(gè)主要方面:通用語(yǔ)言理解能力和長(zhǎng)程記憶能力。這種雙重評(píng)估就像對(duì)一個(gè)學(xué)生同時(shí)進(jìn)行文科和理科的考試,確保全面了解其能力水平。
在通用語(yǔ)言理解方面,研究團(tuán)隊(duì)使用了六個(gè)廣泛認(rèn)可的基準(zhǔn)測(cè)試,包括ARC-Challenge、ARC-Easy、HellaSwag、LAMBADA、OpenBookQA和PIQA。這些測(cè)試涵蓋了從常識(shí)推理到閱讀理解的各個(gè)方面,就像一個(gè)全面的語(yǔ)言能力測(cè)試套件。
對(duì)于長(zhǎng)程記憶能力的評(píng)估,研究團(tuán)隊(duì)采用了RULER基準(zhǔn)測(cè)試套件,這是一個(gè)專(zhuān)門(mén)設(shè)計(jì)用于測(cè)試模型長(zhǎng)程記憶能力的工具。RULER包含了多個(gè)子任務(wù),如信息檢索、多跳推理、信息聚合和問(wèn)答等。這些任務(wù)就像測(cè)試一個(gè)人的記憶力是否能夠在大量信息中準(zhǔn)確找到所需內(nèi)容,并進(jìn)行復(fù)雜的推理。
所有的評(píng)估都在零樣本設(shè)置下進(jìn)行,也就是說(shuō),模型在測(cè)試時(shí)沒(méi)有接受任何任務(wù)相關(guān)的訓(xùn)練或提示工程。這確保了評(píng)估結(jié)果的客觀性和公正性,就像在標(biāo)準(zhǔn)化考試中,所有考生都在相同的條件下參加考試。
五、重要發(fā)現(xiàn):獨(dú)立表現(xiàn)與混合表現(xiàn)的背離
研究的第一個(gè)重要發(fā)現(xiàn)顛覆了一個(gè)長(zhǎng)期存在的假設(shè):在獨(dú)立使用時(shí)表現(xiàn)最佳的線性注意力機(jī)制,在混合架構(gòu)中未必能取得最好的效果。這個(gè)發(fā)現(xiàn)就像發(fā)現(xiàn)了一個(gè)優(yōu)秀的獨(dú)唱歌手在合唱團(tuán)中可能并不是最佳選擇一樣令人意外。
在340M參數(shù)規(guī)模的實(shí)驗(yàn)中,GatedDeltaNet在純線性注意力設(shè)置下取得了最高的獨(dú)立準(zhǔn)確率。然而,當(dāng)將其與全注意力層結(jié)合組成混合架構(gòu)時(shí),HGRN-2在6:1的混合比例下表現(xiàn)最佳,不僅超過(guò)了Transformer基線,還比獨(dú)立表現(xiàn)最好的GatedDeltaNet高出1.2個(gè)百分點(diǎn)。
這種現(xiàn)象在1.3B參數(shù)規(guī)模的實(shí)驗(yàn)中同樣存在。GatedDeltaNet在獨(dú)立評(píng)估中領(lǐng)先,但在混合架構(gòu)中,它與HGRN-2的表現(xiàn)變得相當(dāng),多個(gè)混合配置的性能差距都在一個(gè)百分點(diǎn)以內(nèi)。這表明,當(dāng)線性注意力機(jī)制與全注意力機(jī)制結(jié)合時(shí),不同架構(gòu)的相對(duì)性能發(fā)生了顯著變化。
這個(gè)發(fā)現(xiàn)的重要性在于它揭示了混合架構(gòu)中存在的復(fù)雜相互作用。就像化學(xué)中的催化反應(yīng)一樣,某些組合會(huì)產(chǎn)生意想不到的協(xié)同效應(yīng)。這意味著在設(shè)計(jì)混合架構(gòu)時(shí),不能簡(jiǎn)單地選擇獨(dú)立表現(xiàn)最好的組件,而需要考慮它們之間的相互作用和協(xié)同效應(yīng)。
六、混合比例對(duì)性能的差異化影響
研究的第二個(gè)重要發(fā)現(xiàn)是,混合比例的變化對(duì)語(yǔ)言建模能力和長(zhǎng)程記憶能力產(chǎn)生了截然不同的影響。這就像調(diào)整一個(gè)音響系統(tǒng)中的不同頻段,高音和低音會(huì)有不同的響應(yīng)特性。
在語(yǔ)言建模性能方面,研究團(tuán)隊(duì)觀察到了一個(gè)令人驚訝的現(xiàn)象:無(wú)論混合比例如何變化,所有架構(gòu)的語(yǔ)言建模性能都保持相對(duì)穩(wěn)定。大多數(shù)架構(gòu)的平均語(yǔ)言建模得分都集中在0.55-0.57的范圍內(nèi),變化幅度很小。這就像一個(gè)技藝精湛的廚師,無(wú)論使用什么比例的調(diào)料,都能保持菜肴的基本美味。
然而,長(zhǎng)程記憶能力卻表現(xiàn)出了完全不同的模式。所有架構(gòu)都顯示出明顯的上升趨勢(shì),隨著全注意力層比例的增加,記憶性能顯著提升。從純線性配置(RULER得分約0.1-0.35)到接近全注意力基線(約0.42),這種提升是顯著的。特別值得注意的是,大多數(shù)架構(gòu)在3:1的混合比例時(shí)就能達(dá)到或超過(guò)全注意力基線,有些模型如DeltaNet和Gated-DeltaNet甚至在這個(gè)配置下達(dá)到了峰值性能。
這種差異化的影響模式具有重要的實(shí)際意義。對(duì)于主要關(guān)注語(yǔ)言建模能力的應(yīng)用,可以采用較高的線性與全注意力比例來(lái)提高效率,而對(duì)于需要長(zhǎng)程記憶能力的應(yīng)用,則需要更平衡的注意力分配。
通過(guò)進(jìn)一步分析RULER的子任務(wù),研究團(tuán)隊(duì)發(fā)現(xiàn)了更細(xì)致的模式。Single-Key、Multi-key和QA子任務(wù)對(duì)混合比例的變化非常敏感,全注意力層比例越高,這些任務(wù)的表現(xiàn)就越好。而Common Word Extraction和Frequent Word Extraction任務(wù)則與混合比例的相關(guān)性較弱。這表明,除了純粹的記憶任務(wù)外,混合比例的變化對(duì)其他類(lèi)型的任務(wù)影響有限。
七、混合架構(gòu)成功的三大要素
通過(guò)對(duì)實(shí)驗(yàn)結(jié)果的深入分析,研究團(tuán)隊(duì)識(shí)別出了三個(gè)關(guān)鍵的架構(gòu)特性,這些特性共同決定了混合架構(gòu)的成功。這三個(gè)要素就像支撐一個(gè)穩(wěn)固建筑的三根柱子,缺一不可。
首先是選擇性門(mén)控機(jī)制,這個(gè)機(jī)制的作用就像一個(gè)智能的信息過(guò)濾器。那些將隱藏狀態(tài)暴露給學(xué)習(xí)型、逐令牌門(mén)控機(jī)制的架構(gòu),如GatedDeltaNet和HGRN-2,在混合后的記憶任務(wù)中表現(xiàn)最佳,能夠超越Transformer基線2-5個(gè)百分點(diǎn)。這種門(mén)控機(jī)制能夠防止災(zāi)難性的信息覆蓋,就像一個(gè)謹(jǐn)慎的編輯,在添加新內(nèi)容時(shí)會(huì)仔細(xì)考慮保留哪些重要的舊信息。相比之下,RetNet的固定指數(shù)衰減機(jī)制無(wú)法保護(hù)長(zhǎng)程線索,即使添加了全注意力層,其記憶性能仍然接近零。
第二個(gè)關(guān)鍵要素是分層遞歸結(jié)構(gòu),這為多時(shí)間尺度的上下文處理提供了支持。HGRN-2中的雙層路徑設(shè)計(jì)是這種結(jié)構(gòu)的典型代表,它以較慢的更新速度存儲(chǔ)粗粒度摘要,而快速路徑則處理令牌級(jí)的細(xì)節(jié)。相比于其單路徑版本(HGRN),這種層次結(jié)構(gòu)將記憶能力提升了一倍,并改善了語(yǔ)言建模與記憶之間的權(quán)衡。這種設(shè)計(jì)的優(yōu)勢(shì)在于,廣泛間隔的全注意力層能夠從能夠在它們之間"鎖定"信息的遞歸層次結(jié)構(gòu)中受益。
第三個(gè)要素是控制性遺忘機(jī)制,這個(gè)機(jī)制能夠抑制狀態(tài)擁擠問(wèn)題。GatedDeltaNet通過(guò)外積增量規(guī)則實(shí)現(xiàn)了控制性遺忘,而HGRN-2通過(guò)門(mén)控對(duì)角衰減達(dá)到了相同的目標(biāo)。雖然只有前者會(huì)明確地減去陳舊內(nèi)容,但兩種機(jī)制都能防止純加法更新帶來(lái)的無(wú)界累積問(wèn)題,因此都能獲得強(qiáng)大的記憶得分。相比之下,缺乏門(mén)控或增量式遺忘機(jī)制的架構(gòu)(如GLA)永遠(yuǎn)無(wú)法達(dá)到Transformer級(jí)別的記憶能力,無(wú)論混合比例如何調(diào)整。
這三個(gè)要素的相互作用創(chuàng)造了一個(gè)強(qiáng)大的協(xié)同效應(yīng)。語(yǔ)言建模準(zhǔn)確率在各種比例下的變化不到1%,但隨著全注意力層的增加,記憶能力穩(wěn)步提升,并在3:1左右達(dá)到飽和。缺乏門(mén)控或增量式遺忘機(jī)制的架構(gòu)無(wú)法達(dá)到Transformer級(jí)別的記憶能力,這意味著合適的模型架構(gòu)是獲得與Transformer相當(dāng)結(jié)果的必要條件。
八、性能效率權(quán)衡分析
為了更全面地理解混合架構(gòu)的優(yōu)勢(shì),研究團(tuán)隊(duì)還進(jìn)行了性能效率權(quán)衡分析。這種分析就像評(píng)估不同汽車(chē)型號(hào)的性價(jià)比,需要同時(shí)考慮性能表現(xiàn)和資源消耗。
研究團(tuán)隊(duì)計(jì)算了不同模型在令牌混合操作中的浮點(diǎn)運(yùn)算次數(shù),并將其與語(yǔ)言建模性能進(jìn)行對(duì)比。結(jié)果顯示,純HGRN模型由于其向量級(jí)狀態(tài),使用的浮點(diǎn)運(yùn)算比所有其他模型少幾個(gè)數(shù)量級(jí),在效率帕累托前沿的一端占據(jù)了獨(dú)特位置。在光譜的另一端,全Transformer模型代表了最高性能但最低效率的選擇。
有趣的是,帕累托前沿的中間部分被HGRN 24:1模型和HGRN2 6:1模型占據(jù)。這表明這些混合配置在性能和效率之間實(shí)現(xiàn)了良好的平衡。當(dāng)序列長(zhǎng)度從4,096增加到32,768時(shí),這種權(quán)衡模式更加明顯,具有注意力層的模型的效率進(jìn)一步下降,而純線性模型的效率優(yōu)勢(shì)更加突出。
然而,研究團(tuán)隊(duì)也指出了一個(gè)重要的注意事項(xiàng):他們使用的效率指標(biāo)(前向傳播中的浮點(diǎn)運(yùn)算次數(shù))并不能直接轉(zhuǎn)化為現(xiàn)代硬件上的吞吐量或延遲。特別是,雖然純HGRN模型在分析中是最高效的,但這種效率可能不會(huì)在現(xiàn)代GPU上得到體現(xiàn)。盡管HGRN需要的總操作數(shù)較少,但它仍然需要相當(dāng)數(shù)量的內(nèi)存訪問(wèn),而其元素級(jí)向量操作可能相比其他模型中的矩陣操作更容易造成GPU利用不足。
九、實(shí)際應(yīng)用指導(dǎo)與最佳實(shí)踐
基于這些深入的研究結(jié)果,研究團(tuán)隊(duì)提出了一系列實(shí)際應(yīng)用指導(dǎo)原則,為內(nèi)存受限的實(shí)踐者提供了寶貴的參考。
首先,混合架構(gòu)的質(zhì)量無(wú)法從獨(dú)立性能中推斷出來(lái)。GatedDeltaNet在純線性形式下表現(xiàn)最強(qiáng),但HGRN-2在添加全注意力層后表現(xiàn)最佳。這表明在選擇混合架構(gòu)的骨干網(wǎng)絡(luò)時(shí),獨(dú)立基準(zhǔn)測(cè)試是不夠的,需要進(jìn)行專(zhuān)門(mén)的混合架構(gòu)評(píng)估。
其次,記憶能力而非困惑度決定了最佳的線性與全注意力混合比例。從24:1到3:1的比例變化使RULER記憶得分幾乎翻倍,而語(yǔ)言建模損失的變化不到1%。這意味著實(shí)踐者可以相對(duì)自由地優(yōu)化線性與全注意力的比例,而不會(huì)對(duì)語(yǔ)言建模性能產(chǎn)生顯著影響。
第三個(gè)重要發(fā)現(xiàn)是,有效混合架構(gòu)的三個(gè)架構(gòu)要素缺一不可。選擇性門(mén)控、分層遞歸和控制性遺忘共同使得Transformer級(jí)別的記憶能力成為可能,同時(shí)保持較小的鍵值緩存;省略其中任何一個(gè)組件都會(huì)顯著降低檢索能力。
基于這些發(fā)現(xiàn),研究團(tuán)隊(duì)提出了一個(gè)推薦的部署方案:采用具有門(mén)控、分層遞歸骨干網(wǎng)絡(luò)(如HGRN-2或GatedDeltaNet),每3-6個(gè)線性層配置一個(gè)軟最大注意力層。在1.3B參數(shù)的實(shí)驗(yàn)設(shè)置中,這種配置在保持接近Transformer記憶能力的同時(shí),將鍵值緩存縮小了4-7倍。
這個(gè)建議的實(shí)際價(jià)值在于,它為面臨內(nèi)存限制的實(shí)踐者提供了一個(gè)經(jīng)過(guò)驗(yàn)證的解決方案。無(wú)論是在邊緣設(shè)備上部署模型,還是在云端處理大規(guī)模推理任務(wù),這種混合架構(gòu)都能夠在保持性能的同時(shí)顯著降低資源消耗。
十、研究局限性與未來(lái)展望
盡管這項(xiàng)研究取得了重要成果,但研究團(tuán)隊(duì)也坦誠(chéng)地承認(rèn)了其局限性,并為未來(lái)的研究方向提出了建議。
首先,研究的規(guī)模限制是一個(gè)重要因素。實(shí)驗(yàn)僅限于1.3B參數(shù)規(guī)模的模型、2,048令牌的上下文窗口和塊級(jí)混合比例。在當(dāng)前大語(yǔ)言模型動(dòng)輒數(shù)百億參數(shù)、支持?jǐn)?shù)十萬(wàn)令牌上下文的背景下,這些發(fā)現(xiàn)在10B+規(guī)模、128k令牌上下文或指令調(diào)優(yōu)和多語(yǔ)言數(shù)據(jù)下是否仍然成立,還需要進(jìn)一步驗(yàn)證。
這種規(guī)模限制的存在有其現(xiàn)實(shí)原因。進(jìn)行如此大規(guī)模的系統(tǒng)性研究需要巨大的計(jì)算資源投入,而且隨著模型規(guī)模的增加,所需的計(jì)算資源會(huì)呈指數(shù)級(jí)增長(zhǎng)。盡管如此,這項(xiàng)研究為未來(lái)的大規(guī)模驗(yàn)證提供了重要的理論基礎(chǔ)和實(shí)驗(yàn)框架。
其次,混合策略的局限性也是一個(gè)值得關(guān)注的方向。目前的研究主要關(guān)注塊級(jí)混合比例,而更精細(xì)的混合策略(如頭級(jí)混合或動(dòng)態(tài)路由)可能會(huì)產(chǎn)生不同的結(jié)果。一些最新的研究已經(jīng)開(kāi)始探索這些方向,例如Hymba模型在同一層內(nèi)將部分注意力頭分配給軟最大注意力,其余分配給狀態(tài)空間更新,這種方法能夠在保持準(zhǔn)確性的同時(shí)將緩存減半。
第三個(gè)局限性在于對(duì)自動(dòng)化架構(gòu)搜索的需求。目前的研究主要依賴人工設(shè)計(jì)的架構(gòu)和經(jīng)驗(yàn)性的比例調(diào)整,而自動(dòng)化架構(gòu)搜索(如STAR框架)可能會(huì)發(fā)現(xiàn)更優(yōu)的混合策略。STAR框架使用統(tǒng)一的數(shù)學(xué)基礎(chǔ)來(lái)描述線性注意力機(jī)制,通過(guò)進(jìn)化優(yōu)化方法實(shí)現(xiàn)自動(dòng)化架構(gòu)合成,這種方法可能會(huì)發(fā)現(xiàn)人工設(shè)計(jì)難以發(fā)現(xiàn)的優(yōu)化組合。
研究團(tuán)隊(duì)還指出,未來(lái)的工作應(yīng)該探索更多樣化的應(yīng)用場(chǎng)景。目前的評(píng)估主要關(guān)注語(yǔ)言建模和記憶任務(wù),但在其他應(yīng)用領(lǐng)域(如代碼生成、科學(xué)計(jì)算、多模態(tài)理解等)中,混合架構(gòu)可能會(huì)表現(xiàn)出不同的特性。
另一個(gè)重要的研究方向是硬件效率的深入分析。雖然研究提供了理論上的浮點(diǎn)運(yùn)算分析,但在實(shí)際的硬件平臺(tái)上(如不同型號(hào)的GPU、TPU或?qū)S肁I芯片),這些混合架構(gòu)的實(shí)際性能表現(xiàn)可能與理論分析存在差距。未來(lái)的研究需要在真實(shí)硬件環(huán)境中進(jìn)行更全面的性能評(píng)估。
最后,可解釋性和可控性也是值得深入探索的方向。目前的研究主要關(guān)注性能指標(biāo),但對(duì)于混合架構(gòu)中不同組件如何相互作用、為什么某些組合效果更好等問(wèn)題,還缺乏深入的理論理解。這種理解對(duì)于指導(dǎo)未來(lái)的架構(gòu)設(shè)計(jì)和優(yōu)化具有重要意義。
這項(xiàng)由加州大學(xué)圣克魯茲分校與字節(jié)跳動(dòng)團(tuán)隊(duì)合作完成的研究,為混合線性注意力架構(gòu)的設(shè)計(jì)提供了系統(tǒng)性的指導(dǎo)。通過(guò)72個(gè)模型的大規(guī)模實(shí)驗(yàn),研究團(tuán)隊(duì)不僅揭示了混合架構(gòu)中存在的復(fù)雜相互作用,還提出了實(shí)用的設(shè)計(jì)原則和部署建議。
說(shuō)到底,這項(xiàng)研究的核心價(jià)值在于它破除了一個(gè)長(zhǎng)期存在的迷思:最好的單獨(dú)組件不一定能組成最好的系統(tǒng)。就像一支成功的籃球隊(duì)不一定是由最好的五個(gè)單獨(dú)球員組成的一樣,最佳的混合架構(gòu)需要考慮不同組件之間的協(xié)同效應(yīng)。研究發(fā)現(xiàn),選擇性門(mén)控、分層遞歸和控制性遺忘這三個(gè)要素的結(jié)合,是創(chuàng)建高效混合架構(gòu)的關(guān)鍵。
對(duì)于普通用戶而言,這項(xiàng)研究意味著未來(lái)的AI系統(tǒng)將能夠在保持強(qiáng)大功能的同時(shí),顯著降低計(jì)算資源需求。這不僅有助于降低AI服務(wù)的成本,還能夠讓更多的應(yīng)用在資源受限的環(huán)境中運(yùn)行,比如手機(jī)、平板等移動(dòng)設(shè)備。
歸根結(jié)底,這項(xiàng)研究為AI系統(tǒng)的效率優(yōu)化開(kāi)辟了新的道路。隨著AI技術(shù)的不斷發(fā)展,如何在性能和效率之間找到最佳平衡點(diǎn)將變得越來(lái)越重要。這項(xiàng)研究提供的混合架構(gòu)設(shè)計(jì)原則,為解決這個(gè)挑戰(zhàn)提供了有價(jià)值的參考。
對(duì)于希望深入了解技術(shù)細(xì)節(jié)的讀者,建議訪問(wèn)arXiv網(wǎng)站查閱完整的研究論文,研究團(tuán)隊(duì)開(kāi)源的72個(gè)模型也為進(jìn)一步的研究和應(yīng)用提供了寶貴的資源。
Q&A
Q1:什么是混合線性注意力架構(gòu)?它解決了什么問(wèn)題? A:混合線性注意力架構(gòu)是一種將傳統(tǒng)全注意力機(jī)制與線性注意力機(jī)制相結(jié)合的AI模型設(shè)計(jì)。它主要解決傳統(tǒng)Transformer在處理長(zhǎng)文本時(shí)計(jì)算資源需求呈平方級(jí)增長(zhǎng)的問(wèn)題,通過(guò)巧妙的組合設(shè)計(jì),在保持強(qiáng)大功能的同時(shí)將內(nèi)存使用量減少4-7倍。
Q2:為什么單獨(dú)表現(xiàn)最好的模型在混合架構(gòu)中不一定最佳? A:就像優(yōu)秀的獨(dú)唱歌手在合唱團(tuán)中未必是最佳選擇一樣,不同組件之間存在復(fù)雜的相互作用和協(xié)同效應(yīng)。研究發(fā)現(xiàn),GatedDeltaNet在單獨(dú)使用時(shí)表現(xiàn)最佳,但HGRN-2在混合架構(gòu)中卻能取得更好的效果,這說(shuō)明混合架構(gòu)的成功需要考慮組件間的匹配度而非單獨(dú)性能。
Q3:混合架構(gòu)成功的關(guān)鍵要素有哪些? A:研究識(shí)別出三個(gè)關(guān)鍵要素:選擇性門(mén)控機(jī)制(防止信息覆蓋)、分層遞歸結(jié)構(gòu)(支持多時(shí)間尺度處理)和控制性遺忘機(jī)制(抑制狀態(tài)擁擠)。這三個(gè)要素就像支撐建筑的三根柱子,缺一不可,共同決定了混合架構(gòu)能否達(dá)到Transformer級(jí)別的記憶能力。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語(yǔ)言模型的敘事推理能力與音頻生成技術(shù),通過(guò)交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開(kāi)辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過(guò)讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問(wèn)題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語(yǔ)言模型人性化對(duì)話問(wèn)題。該研究創(chuàng)建了包含20萬(wàn)高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過(guò)創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開(kāi)發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過(guò)學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來(lái)了效率和精度的雙重突破。