這項(xiàng)由麻省大學(xué)阿默斯特分校的李俊彥領(lǐng)導(dǎo),聯(lián)合MIT、普林斯頓大學(xué)和蘋(píng)果公司研究團(tuán)隊(duì)共同完成的研究發(fā)表于2025年6月,并將在加拿大溫哥華舉行的第42屆國(guó)際機(jī)器學(xué)習(xí)大會(huì)(ICML 2025)上正式亮相。有興趣深入了解的讀者可以通過(guò)項(xiàng)目開(kāi)源代碼(https://github.com/UMass-Embodied-AGI/CommVQ)獲取完整的技術(shù)實(shí)現(xiàn)。
當(dāng)下最熱門(mén)的AI聊天機(jī)器人正變得越來(lái)越聰明,它們能夠理解更長(zhǎng)的對(duì)話(huà)、處理更復(fù)雜的文檔,甚至分析整本小說(shuō)。然而,這種強(qiáng)大能力的背后隱藏著一個(gè)巨大的技術(shù)難題——就像一個(gè)人的記憶越來(lái)越好,但大腦卻需要越來(lái)越多的存儲(chǔ)空間。目前最新的LLaMA 3.1模型能夠處理長(zhǎng)達(dá)128,000個(gè)詞匯的超長(zhǎng)文本,相當(dāng)于一本中等篇幅小說(shuō)的內(nèi)容,但要讓這樣的AI模型運(yùn)行起來(lái),需要消耗的電腦內(nèi)存多得驚人。
具體來(lái)說(shuō),一個(gè)普通的LLaMA 3.1 8B模型本身就需要16GB內(nèi)存來(lái)存儲(chǔ),但如果要讓它處理最長(zhǎng)的128K文本內(nèi)容,僅僅是存儲(chǔ)處理過(guò)程中的"記憶緩存"就需要額外的88GB內(nèi)存。這就好比你有一臺(tái)功能強(qiáng)大的超級(jí)計(jì)算器,但每次使用時(shí)都需要準(zhǔn)備一個(gè)巨大的草稿本來(lái)記錄中間步驟,而這個(gè)草稿本竟然比計(jì)算器本身還要大好幾倍。這種情況讓即使是目前最頂級(jí)的H100-80GB專(zhuān)業(yè)顯卡都無(wú)法獨(dú)立運(yùn)行這樣的AI模型。
正是在這樣的背景下,麻省大學(xué)阿默斯特分校的研究團(tuán)隊(duì)提出了一種名為"交換向量量化"(CommVQ)的革命性技術(shù)。這項(xiàng)技術(shù)的核心思想就像是發(fā)明了一種超級(jí)壓縮術(shù),能夠?qū)I模型的"記憶緩存"壓縮到原來(lái)的八分之一大小,同時(shí)幾乎不損失任何性能。
研究團(tuán)隊(duì)的創(chuàng)新之處在于,他們沒(méi)有像以往那樣對(duì)每個(gè)數(shù)據(jù)點(diǎn)單獨(dú)進(jìn)行壓縮,而是將相關(guān)的數(shù)據(jù)打包成組進(jìn)行整體壓縮。這就像整理行李箱時(shí),不是把每件衣服單獨(dú)裝袋,而是把整套服裝疊放在一起,這樣既節(jié)省空間又保持了衣服之間的關(guān)系。更巧妙的是,他們還設(shè)計(jì)了一種特殊的"解壓縮"方法,讓壓縮后的數(shù)據(jù)能夠直接參與AI模型的計(jì)算過(guò)程,而不需要先完全解壓,這大大提高了處理效率。
實(shí)驗(yàn)結(jié)果令人驚嘆。在保持相同性能的前提下,這項(xiàng)技術(shù)能夠?qū)⒃拘枰?6位精度存儲(chǔ)的數(shù)據(jù)壓縮到2位,壓縮率達(dá)到87.5%。更令人意外的是,即使壓縮到1位(相當(dāng)于只用黑白兩種顏色來(lái)表示原本需要彩色的圖片),AI模型仍然能夠保持相當(dāng)不錯(cuò)的性能。這意味著原本需要在昂貴的專(zhuān)業(yè)服務(wù)器上才能運(yùn)行的超長(zhǎng)文本AI模型,現(xiàn)在可以在普通的RTX 4090游戲顯卡上流暢運(yùn)行。
傳統(tǒng)的AI內(nèi)存問(wèn)題可以用一個(gè)生動(dòng)的比喻來(lái)理解。AI模型在處理文本時(shí)需要記住之前看過(guò)的每一個(gè)詞匯及其含義,這就像一個(gè)學(xué)生在閱讀長(zhǎng)篇小說(shuō)時(shí)需要在筆記本上記錄每個(gè)重要信息。隨著小說(shuō)越來(lái)越長(zhǎng),筆記本也越來(lái)越厚,最終可能比小說(shuō)本身還要厚重。目前的主流解決方案就像是用更小的字體來(lái)寫(xiě)筆記,雖然能節(jié)省空間,但字跡可能變得模糊難認(rèn)。
研究團(tuán)隊(duì)采用的方法則完全不同。他們發(fā)現(xiàn),與其對(duì)每個(gè)詞匯單獨(dú)做筆記,不如將相關(guān)的詞匯組合起來(lái),用一套統(tǒng)一的符號(hào)系統(tǒng)來(lái)表示。這就像發(fā)明了一套速記法,用簡(jiǎn)單的符號(hào)就能表示復(fù)雜的概念組合。關(guān)鍵在于,這套符號(hào)系統(tǒng)是專(zhuān)門(mén)設(shè)計(jì)的,能夠與AI模型的內(nèi)部工作機(jī)制完美配合。
具體而言,AI模型在處理文本時(shí)使用一種叫做"旋轉(zhuǎn)位置編碼"(RoPE)的技術(shù)來(lái)記錄詞匯的位置信息。研究團(tuán)隊(duì)巧妙地利用了這種編碼的數(shù)學(xué)特性,設(shè)計(jì)出一種"可交換編碼本"。這個(gè)編碼本就像一本特殊的密碼手冊(cè),它不僅能壓縮信息,還能讓壓縮后的信息直接參與計(jì)算,無(wú)需先解壓。這種設(shè)計(jì)大大減少了計(jì)算過(guò)程中的額外開(kāi)銷(xiāo)。
為了訓(xùn)練這個(gè)編碼本,研究團(tuán)隊(duì)采用了一種叫做"期望最大化"的算法。這個(gè)過(guò)程類(lèi)似于反復(fù)優(yōu)化一套壓縮規(guī)則:首先根據(jù)當(dāng)前規(guī)則對(duì)數(shù)據(jù)進(jìn)行分類(lèi)壓縮,然后根據(jù)壓縮效果調(diào)整規(guī)則,再重新壓縮,如此循環(huán)往復(fù)直到找到最優(yōu)的壓縮方案。這種方法確保了壓縮后的數(shù)據(jù)既節(jié)省空間又保持高質(zhì)量。
在實(shí)際測(cè)試中,研究團(tuán)隊(duì)在多個(gè)具有挑戰(zhàn)性的長(zhǎng)文本理解任務(wù)上驗(yàn)證了他們的方法。這些測(cè)試包括了文檔問(wèn)答、文本摘要、代碼理解等各種應(yīng)用場(chǎng)景。結(jié)果顯示,即使在2位壓縮的情況下,AI模型的性能幾乎沒(méi)有任何下降,在某些任務(wù)上甚至略有提升。而在更激進(jìn)的1位壓縮測(cè)試中,模型的性能仍然遠(yuǎn)超其他壓縮方法,證明了這種技術(shù)的優(yōu)越性。
特別值得一提的是"大海撈針"測(cè)試,這是專(zhuān)門(mén)用來(lái)檢驗(yàn)AI模型在超長(zhǎng)文本中精確檢索信息能力的實(shí)驗(yàn)。在這個(gè)測(cè)試中,研究團(tuán)隊(duì)將一小段特定信息埋藏在大量無(wú)關(guān)文本中,然后讓AI模型找出這段信息。結(jié)果顯示,使用2位壓縮的模型完全保持了原有的檢索能力,而1位壓縮的模型也表現(xiàn)出比其他壓縮方法更強(qiáng)的檢索精度。
除了壓縮效果,研究團(tuán)隊(duì)還特別關(guān)注了計(jì)算效率問(wèn)題。他們發(fā)現(xiàn),通過(guò)巧妙的算法設(shè)計(jì),可以將大部分計(jì)算過(guò)程重復(fù)利用,避免重復(fù)計(jì)算。這就像在工廠(chǎng)流水線(xiàn)上,同一臺(tái)機(jī)器可以同時(shí)為多個(gè)產(chǎn)品進(jìn)行相同的加工步驟,大大提高了生產(chǎn)效率。實(shí)驗(yàn)數(shù)據(jù)顯示,優(yōu)化后的算法比簡(jiǎn)單的解壓縮方法快了6到9倍。
研究團(tuán)隊(duì)還測(cè)試了這項(xiàng)技術(shù)在不同AI模型上的通用性。除了LLaMA系列,他們還在Mistral等其他主流模型上進(jìn)行了驗(yàn)證,結(jié)果都顯示出良好的兼容性和壓縮效果。這表明這項(xiàng)技術(shù)不是針對(duì)特定模型的定制化方案,而是一種具有廣泛適用性的通用技術(shù)。
為了驗(yàn)證技術(shù)的實(shí)用性,研究團(tuán)隊(duì)還開(kāi)發(fā)了實(shí)際的GPU內(nèi)存監(jiān)控程序。測(cè)試結(jié)果顯示,在處理120K長(zhǎng)度的文本時(shí),原始模型需要60GB內(nèi)存,而使用1位壓縮技術(shù)只需要20GB內(nèi)存,成功實(shí)現(xiàn)了在單塊RTX 4090顯卡上運(yùn)行超長(zhǎng)文本AI模型的目標(biāo)。這一突破對(duì)于普通研究者和開(kāi)發(fā)者具有重要意義,因?yàn)樗蟠蠼档土耸褂孟冗M(jìn)AI技術(shù)的硬件門(mén)檻。
從技術(shù)創(chuàng)新角度來(lái)看,這項(xiàng)研究的最大貢獻(xiàn)在于將傳統(tǒng)的向量量化技術(shù)與現(xiàn)代AI模型的特殊結(jié)構(gòu)相結(jié)合。以往的壓縮方法往往是通用性的,沒(méi)有考慮到AI模型內(nèi)部的特殊數(shù)學(xué)結(jié)構(gòu)。而這項(xiàng)研究深入分析了AI模型的工作機(jī)制,找到了其中的數(shù)學(xué)對(duì)稱(chēng)性,并據(jù)此設(shè)計(jì)了專(zhuān)門(mén)的壓縮方案。這種針對(duì)性設(shè)計(jì)使得壓縮效率大大提升。
研究團(tuán)隊(duì)還進(jìn)行了大量的對(duì)比實(shí)驗(yàn),與目前最先進(jìn)的KV緩存壓縮方法進(jìn)行了全面比較。這些對(duì)比方法包括KIVI的不對(duì)稱(chēng)量化、KVQuant的非均勻量化,以及VQLLM的殘差向量量化。在相同的壓縮比例下,新方法在幾乎所有測(cè)試任務(wù)上都表現(xiàn)出明顯的優(yōu)勢(shì),特別是在極低位寬(如1位)壓縮的情況下,優(yōu)勢(shì)更加明顯。
值得注意的是,這項(xiàng)技術(shù)的設(shè)計(jì)理念還考慮了未來(lái)發(fā)展的需要。隨著AI模型處理的文本越來(lái)越長(zhǎng),內(nèi)存需求的增長(zhǎng)是一個(gè)必然趨勢(shì)。這項(xiàng)壓縮技術(shù)提供了一種可擴(kuò)展的解決方案,能夠隨著模型規(guī)模的增長(zhǎng)而發(fā)揮更大的作用。同時(shí),由于其通用性設(shè)計(jì),這項(xiàng)技術(shù)也很容易與其他優(yōu)化方法相結(jié)合,形成更加強(qiáng)大的綜合解決方案。
從實(shí)際應(yīng)用的角度來(lái)看,這項(xiàng)技術(shù)的意義遠(yuǎn)不止于節(jié)省內(nèi)存。它實(shí)際上為AI技術(shù)的普及和發(fā)展打開(kāi)了新的可能性。以往,只有擁有昂貴硬件設(shè)備的大型科技公司才能運(yùn)行最先進(jìn)的長(zhǎng)文本AI模型,現(xiàn)在普通的研究機(jī)構(gòu)甚至個(gè)人開(kāi)發(fā)者也有機(jī)會(huì)使用這些先進(jìn)技術(shù)。這種技術(shù)門(mén)檻的降低將促進(jìn)AI技術(shù)在更多領(lǐng)域的應(yīng)用和創(chuàng)新。
研究團(tuán)隊(duì)還特別關(guān)注了技術(shù)的穩(wěn)定性和魯棒性。他們測(cè)試了這項(xiàng)技術(shù)在不同類(lèi)型文本上的表現(xiàn),包括教育文本、數(shù)學(xué)問(wèn)題、代碼文檔以及合成數(shù)據(jù)等。結(jié)果顯示,即使在與訓(xùn)練數(shù)據(jù)差異較大的測(cè)試場(chǎng)景中,這項(xiàng)技術(shù)仍然能夠保持良好的壓縮效果和性能表現(xiàn),證明了其良好的泛化能力。
說(shuō)到底,這項(xiàng)研究解決的是AI技術(shù)發(fā)展中的一個(gè)根本性瓶頸問(wèn)題。隨著人們對(duì)AI能力要求的不斷提高,模型需要處理的信息量呈指數(shù)級(jí)增長(zhǎng),而硬件資源的增長(zhǎng)速度卻無(wú)法跟上這種需求。這項(xiàng)壓縮技術(shù)提供了一種優(yōu)雅的解決方案,通過(guò)算法創(chuàng)新來(lái)突破硬件限制,讓更強(qiáng)大的AI技術(shù)能夠在現(xiàn)有的硬件條件下運(yùn)行。
歸根結(jié)底,這項(xiàng)研究的價(jià)值不僅在于技術(shù)本身的先進(jìn)性,更在于它為AI技術(shù)的民主化和普及化作出的貢獻(xiàn)。當(dāng)先進(jìn)的AI技術(shù)不再是少數(shù)人的專(zhuān)利,當(dāng)普通開(kāi)發(fā)者也能夠在自己的電腦上運(yùn)行最新的AI模型時(shí),我們可以期待看到更多創(chuàng)新應(yīng)用的涌現(xiàn)。這種技術(shù)門(mén)檻的降低將催生出我們目前還無(wú)法想象的新應(yīng)用和新服務(wù),真正推動(dòng)AI技術(shù)在各行各業(yè)的深入應(yīng)用和發(fā)展。
對(duì)于普通讀者來(lái)說(shuō),這項(xiàng)技術(shù)的意義在于,未來(lái)的AI助手將能夠更好地理解和處理長(zhǎng)篇文檔,提供更加智能和貼心的服務(wù),同時(shí)這些服務(wù)的成本也會(huì)大大降低,讓更多人能夠享受到先進(jìn)AI技術(shù)帶來(lái)的便利。有興趣深入了解這項(xiàng)技術(shù)的讀者,可以通過(guò)研究團(tuán)隊(duì)提供的開(kāi)源代碼進(jìn)一步探索其技術(shù)細(xì)節(jié)和實(shí)現(xiàn)方法。
Q&A
Q1:CommVQ技術(shù)是什么?它能做什么? A:CommVQ是一種AI內(nèi)存壓縮技術(shù),能將AI模型處理長(zhǎng)文本時(shí)需要的內(nèi)存減少87.5%。簡(jiǎn)單說(shuō)就是讓AI"瘦身",原本需要88GB內(nèi)存的任務(wù)現(xiàn)在只需要20GB就能完成,讓普通顯卡也能運(yùn)行強(qiáng)大的AI模型。
Q2:這項(xiàng)技術(shù)會(huì)不會(huì)影響AI的性能? A:幾乎不會(huì)。實(shí)驗(yàn)顯示在2位壓縮下AI性能基本無(wú)損失,即使在極限的1位壓縮下,性能仍然遠(yuǎn)超其他壓縮方法。就像高質(zhì)量的照片壓縮,文件變小了但畫(huà)質(zhì)依然清晰。
Q3:普通人能用到這項(xiàng)技術(shù)嗎? A:能!這項(xiàng)技術(shù)最大的意義就是讓先進(jìn)AI技術(shù)普及化。以前只有大公司才能運(yùn)行的超長(zhǎng)文本AI模型,現(xiàn)在普通人用游戲顯卡就能體驗(yàn)。研究團(tuán)隊(duì)已經(jīng)開(kāi)源了代碼,開(kāi)發(fā)者可以直接使用。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語(yǔ)言模型的敘事推理能力與音頻生成技術(shù),通過(guò)交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開(kāi)辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過(guò)讓AI同時(shí)學(xué)習(xí)外觀(guān)和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問(wèn)題。該技術(shù)僅需添加兩個(gè)線(xiàn)性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語(yǔ)言模型人性化對(duì)話(huà)問(wèn)題。該研究創(chuàng)建了包含20萬(wàn)高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過(guò)創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀(guān)對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開(kāi)發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過(guò)學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來(lái)了效率和精度的雙重突破。