這項(xiàng)由復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)學(xué)院的劉小然、何思洋、王琪琪等研究團(tuán)隊(duì)聯(lián)合上海創(chuàng)新研究院、華為諾亞方舟實(shí)驗(yàn)室以及上海人工智能實(shí)驗(yàn)室共同完成的研究發(fā)表于2025年6月13日的arXiv預(yù)印本平臺(tái)。有興趣深入了解的讀者可以通過arXiv:2506.11886v1獲取完整論文。
想象一下,你正在和一個(gè)非常聰明的朋友聊天,他能記住你們之前聊過的所有內(nèi)容,甚至是幾個(gè)小時(shí)前提到的細(xì)節(jié)。但隨著對(duì)話越來越長(zhǎng),他的大腦開始變得越來越重,最終重到無法承受。這正是當(dāng)今大型語言模型(就是像ChatGPT這樣的AI聊天機(jī)器人)面臨的困境。
這些AI系統(tǒng)在處理長(zhǎng)對(duì)話時(shí),需要把之前的所有信息都存儲(chǔ)在一個(gè)叫做"鍵值緩存"的地方,就像一個(gè)不斷膨脹的記憶庫。隨著對(duì)話變長(zhǎng),這個(gè)記憶庫會(huì)變得越來越龐大,最終導(dǎo)致計(jì)算機(jī)內(nèi)存不夠用,就像你的手機(jī)存儲(chǔ)空間被照片塞滿一樣。
現(xiàn)有的解決方案就像用錘子砸核桃一樣粗暴。有些方法會(huì)直接刪除一些舊的對(duì)話內(nèi)容,就像強(qiáng)迫你忘記昨天說過的話;有些方法則是把所有記憶都?jí)嚎s成更小的格式,但這樣往往會(huì)丟失重要信息,就像把高清照片強(qiáng)制壓縮成模糊的縮略圖。
研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象,就像發(fā)現(xiàn)人類大腦的不同區(qū)域有不同功能一樣。他們發(fā)現(xiàn)AI的"注意力機(jī)制"中,不同的維度承擔(dān)著完全不同的任務(wù)。想象AI的大腦就像一個(gè)復(fù)雜的調(diào)音臺(tái),有128個(gè)不同的旋鈕。研究人員發(fā)現(xiàn),前70個(gè)旋鈕主要負(fù)責(zé)處理最近的、局部的信息,就像專門記住剛才說過的話;而后58個(gè)旋鈕則負(fù)責(zé)處理長(zhǎng)期的、全局的信息,就像專門記住整個(gè)對(duì)話的脈絡(luò)和重要背景。
為了驗(yàn)證這個(gè)發(fā)現(xiàn),研究團(tuán)隊(duì)做了一個(gè)巧妙的實(shí)驗(yàn),就像給調(diào)音臺(tái)的不同旋鈕添加噪音來測(cè)試它們的重要性。他們給前70個(gè)維度添加了一些隨機(jī)干擾,結(jié)果發(fā)現(xiàn)AI的表現(xiàn)幾乎沒有受到影響,就像給負(fù)責(zé)短期記憶的旋鈕加點(diǎn)雜音,整體效果還是很好。但當(dāng)他們對(duì)后58個(gè)維度做同樣的事情時(shí),AI的表現(xiàn)就急劇下降了,就像破壞了負(fù)責(zé)長(zhǎng)期記憶的核心部件,整個(gè)系統(tǒng)都亂套了。
基于這個(gè)發(fā)現(xiàn),研究團(tuán)隊(duì)開發(fā)了一種叫做"FourierAttention"的新方法,就像為調(diào)音臺(tái)設(shè)計(jì)了一套智能壓縮系統(tǒng)。這個(gè)系統(tǒng)的核心思想是:既然前70個(gè)旋鈕對(duì)長(zhǎng)期記憶不那么重要,我們就可以用一種特殊的數(shù)學(xué)技巧來壓縮它們,而完整保留那些真正重要的后58個(gè)旋鈕。
這種數(shù)學(xué)技巧叫做"傅里葉變換",聽起來很復(fù)雜,但其實(shí)就像音樂制作中的概念。想象你有一首復(fù)雜的交響樂,傅里葉變換就像能夠把這首音樂分解成不同頻率的純音調(diào)。研究團(tuán)隊(duì)發(fā)現(xiàn),那些對(duì)長(zhǎng)期記憶不敏感的維度,其變化模式可以用幾個(gè)簡(jiǎn)單的"音調(diào)"來很好地近似,就像用幾個(gè)基本音符就能大致重現(xiàn)一首歌的主旋律。
具體來說,他們的方法就像這樣工作:在AI處理長(zhǎng)對(duì)話的過程中,系統(tǒng)會(huì)自動(dòng)識(shí)別出哪些維度是"局部專家"(負(fù)責(zé)短期記憶),哪些是"全局專家"(負(fù)責(zé)長(zhǎng)期記憶)。對(duì)于局部專家,系統(tǒng)會(huì)使用傅里葉變換將它們的長(zhǎng)序列信息壓縮成固定長(zhǎng)度的"頻譜系數(shù)",就像把一長(zhǎng)串音符壓縮成幾個(gè)關(guān)鍵的音調(diào)參數(shù)。而對(duì)于全局專家,系統(tǒng)則完整保留它們的所有信息。
在實(shí)際應(yīng)用中,這個(gè)系統(tǒng)表現(xiàn)得相當(dāng)出色。研究團(tuán)隊(duì)在兩個(gè)重要的測(cè)試中驗(yàn)證了他們的方法:一個(gè)叫做LongBench的綜合測(cè)試,包含了各種長(zhǎng)文檔理解任務(wù);另一個(gè)叫做"大海撈針"測(cè)試,專門檢驗(yàn)AI能否在長(zhǎng)對(duì)話中找到特定信息。
結(jié)果令人印象深刻。在LLaMA3.1-8B模型上,F(xiàn)ourierAttention在大海撈針測(cè)試中獲得了93.17分的高分,遠(yuǎn)超其他壓縮方法。比如,StreamingLLM只得到了17.57分,就像一個(gè)健忘的朋友,很快就忘記了重要信息;而FourierAttention幾乎能達(dá)到完整模型100分的表現(xiàn)。
更重要的是,這種方法在保持高性能的同時(shí),大幅減少了內(nèi)存使用。通過壓縮76%的KV緩存維度到固定長(zhǎng)度,系統(tǒng)的內(nèi)存需求顯著降低,就像把一個(gè)巨大的圖書館壓縮成一個(gè)小書架,但依然能找到所有重要的書籍。
研究團(tuán)隊(duì)還進(jìn)行了詳細(xì)的分析,發(fā)現(xiàn)他們的壓縮策略有一個(gè)有趣的特點(diǎn):它采用了"倒金字塔"的壓縮模式。在AI的不同層級(jí)中,低層級(jí)(就像大腦的基礎(chǔ)處理區(qū)域)被壓縮得更多,而高層級(jí)(就像大腦的高級(jí)認(rèn)知區(qū)域)被壓縮得較少。這與傳統(tǒng)方法正好相反,傳統(tǒng)方法通常認(rèn)為應(yīng)該保留更多的低層級(jí)信息。
這種差異的原因很有趣:傳統(tǒng)方法關(guān)注的是注意力的稀疏性(即AI只關(guān)注少數(shù)重要的詞),所以傾向于保留低層級(jí)的注意力模式。但FourierAttention關(guān)注的是維度的可重構(gòu)性(即哪些維度可以用簡(jiǎn)單的模式很好地近似),結(jié)果發(fā)現(xiàn)高層級(jí)的維度由于承擔(dān)更復(fù)雜的語義理解任務(wù),反而更難壓縮,需要保留更多信息。
為了進(jìn)一步優(yōu)化系統(tǒng)性能,研究團(tuán)隊(duì)還開發(fā)了一個(gè)定制的計(jì)算內(nèi)核叫做"FlashFourierAttention"。這就像為他們的壓縮系統(tǒng)專門設(shè)計(jì)了一套高效的硬件操作程序,能夠在計(jì)算過程中直接進(jìn)行壓縮和解壓縮,避免了額外的內(nèi)存讀寫開銷。雖然這個(gè)優(yōu)化還在繼續(xù)完善中,但已經(jīng)顯示出了良好的潛力。
在比較不同的基礎(chǔ)數(shù)學(xué)方法時(shí),研究團(tuán)隊(duì)發(fā)現(xiàn)傅里葉變換確實(shí)比其他選擇(如多項(xiàng)式基函數(shù))更適合這個(gè)任務(wù)。這主要是因?yàn)楦道锶~變換具有良好的并行計(jì)算特性,就像它天生就適合在現(xiàn)代計(jì)算機(jī)上高效運(yùn)行。
研究團(tuán)隊(duì)的工作不僅解決了一個(gè)重要的技術(shù)問題,還揭示了AI系統(tǒng)內(nèi)部工作機(jī)制的深層奧秘。他們發(fā)現(xiàn)的維度專業(yè)化現(xiàn)象,就像發(fā)現(xiàn)了AI大腦中不同區(qū)域的分工合作模式,這為未來的AI架構(gòu)設(shè)計(jì)提供了新的思路。
值得注意的是,這種方法是"訓(xùn)練無關(guān)"的,意思是它可以直接應(yīng)用到現(xiàn)有的AI模型上,而不需要重新訓(xùn)練整個(gè)系統(tǒng)。這就像給現(xiàn)有的汽車加裝一個(gè)高效的燃油節(jié)約裝置,立即就能獲得更好的性能,而不需要重新制造整輛車。
當(dāng)然,這項(xiàng)研究也還有一些需要繼續(xù)改進(jìn)的地方。研究團(tuán)隊(duì)坦誠地指出,雖然他們的方法已經(jīng)很接近完整模型的性能,但仍然存在一些差距。同時(shí),他們正在繼續(xù)優(yōu)化那個(gè)定制的計(jì)算內(nèi)核,希望在保持高性能的同時(shí)進(jìn)一步提升計(jì)算效率。
這項(xiàng)研究的意義遠(yuǎn)不止于技術(shù)層面。隨著AI系統(tǒng)越來越多地被應(yīng)用到需要長(zhǎng)時(shí)間對(duì)話和記憶的場(chǎng)景中,比如個(gè)人助手、教育輔導(dǎo)、客戶服務(wù)等,內(nèi)存效率的提升將直接影響這些應(yīng)用的可行性和成本。想象一下,如果你的AI助手能夠記住你們幾個(gè)月來的所有對(duì)話,同時(shí)不會(huì)因?yàn)閮?nèi)存不足而變慢或崩潰,這將大大改善用戶體驗(yàn)。
此外,這種維度專業(yè)化的發(fā)現(xiàn)也為我們理解AI系統(tǒng)的內(nèi)部工作機(jī)制提供了新的視角。就像神經(jīng)科學(xué)家通過研究大腦不同區(qū)域的功能來理解人類認(rèn)知一樣,這項(xiàng)研究幫助我們更好地理解AI是如何處理和存儲(chǔ)信息的。
從更宏觀的角度來看,這項(xiàng)研究代表了AI效率優(yōu)化領(lǐng)域的一個(gè)重要進(jìn)展。在AI模型越來越大、越來越復(fù)雜的今天,如何在保持性能的同時(shí)提高效率,已經(jīng)成為整個(gè)行業(yè)關(guān)注的焦點(diǎn)。FourierAttention提供了一種優(yōu)雅的解決方案,證明了通過深入理解系統(tǒng)內(nèi)部機(jī)制,我們可以找到既聰明又實(shí)用的優(yōu)化方法。
說到底,這項(xiàng)研究就像給AI系統(tǒng)安裝了一個(gè)智能的記憶管理器。它能夠識(shí)別出哪些記憶是必須完整保留的珍貴片段,哪些是可以巧妙壓縮的冗余信息,從而在不損失重要信息的前提下,大幅減少系統(tǒng)的負(fù)擔(dān)。這不僅解決了當(dāng)前AI系統(tǒng)面臨的實(shí)際問題,也為未來開發(fā)更高效、更智能的AI系統(tǒng)指出了新的方向。
對(duì)于普通用戶來說,這意味著未來的AI助手將能夠進(jìn)行更長(zhǎng)、更有意義的對(duì)話,同時(shí)保持快速響應(yīng),不會(huì)因?yàn)閮?nèi)存問題而突然"失憶"或變慢。對(duì)于開發(fā)者和企業(yè)來說,這意味著可以用更少的計(jì)算資源提供更好的AI服務(wù),降低成本的同時(shí)提高用戶滿意度。
研究團(tuán)隊(duì)也誠實(shí)地承認(rèn)了當(dāng)前工作的局限性,并規(guī)劃了未來的改進(jìn)方向。他們正在繼續(xù)優(yōu)化計(jì)算效率,希望在實(shí)際部署中達(dá)到更好的性能平衡。這種誠實(shí)和持續(xù)改進(jìn)的態(tài)度,也體現(xiàn)了優(yōu)秀科研工作的品質(zhì)。
有興趣進(jìn)一步了解技術(shù)細(xì)節(jié)的讀者,可以通過論文的完整版本深入研究他們的具體實(shí)現(xiàn)方法和實(shí)驗(yàn)結(jié)果。這項(xiàng)工作不僅在技術(shù)上有所突破,也為整個(gè)AI研究社區(qū)提供了寶貴的思路和方法。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對(duì)話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。