av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁 從效率優(yōu)化到模型根基:哈佛大學(xué)等多所頂尖學(xué)府聯(lián)合研究Token壓縮技術(shù)如何重塑生成式AI的未來

從效率優(yōu)化到模型根基:哈佛大學(xué)等多所頂尖學(xué)府聯(lián)合研究Token壓縮技術(shù)如何重塑生成式AI的未來

2025-06-03 07:43
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-03 07:43 ? 科技行者

在2025年5月發(fā)表于arXiv的一篇前沿研究論文中,來自哈佛大學(xué)、東北大學(xué)、中國科學(xué)院、武漢大學(xué)、麻省理工學(xué)院和北京大學(xué)的多位研究者聯(lián)合提出了一個顛覆性觀點(diǎn):Token壓縮不僅僅是提高AI模型運(yùn)行效率的工具,更應(yīng)該成為生成式AI模型設(shè)計(jì)的核心原則。這項(xiàng)由Zhenglun Kong和Yize Li共同主導(dǎo)的研究(arXiv:2505.18227v1)從視覺、語言到多模態(tài)全方位審視了Token壓縮技術(shù)的潛力。

想象一下,如果我們把AI模型比作一個處理信息的工廠,那么"Token"就是工廠加工的基本單位——可能是一段文字中的單詞,一張圖片中的區(qū)塊,或者是視頻中的片段。傳統(tǒng)上,研究人員主要關(guān)注如何讓工廠更快地處理這些單位,也就是提高效率。但這篇研究告訴我們,我們不應(yīng)該只關(guān)心速度,更應(yīng)該思考:工廠是否在處理真正重要的信息?是否存在大量無用的"Token"占用了寶貴資源?

傳統(tǒng)的Transformer架構(gòu)在處理信息時會將輸入數(shù)據(jù)切分成固定長度的塊(Token),然后通過自注意力機(jī)制進(jìn)行并行計(jì)算。這種機(jī)制雖然強(qiáng)大,但計(jì)算復(fù)雜度與Token數(shù)量的平方成正比,這意味著處理長序列時會面臨巨大的計(jì)算和內(nèi)存壓力。過去,研究人員主要將Token壓縮視為一種提高效率的手段,通過刪減或合并冗余Token來加速推理過程。

然而,本文作者認(rèn)為,在當(dāng)今大型生成模型時代,Token壓縮的意義遠(yuǎn)不止于此。他們提出Token壓縮應(yīng)該被視為生成式建模的基本原則,深刻影響模型架構(gòu)設(shè)計(jì)和更廣泛的應(yīng)用。具體來說,他們認(rèn)為跨視覺、語言和多模態(tài)系統(tǒng),Token壓縮可以:

首先,它可以促進(jìn)多模態(tài)(如圖像和文字)之間的深度整合與對齊。想象一下,如果我們能夠智能地選擇圖片中真正重要的部分與文字進(jìn)行匹配,而不是機(jī)械地處理整張圖片的每一個像素,這將極大地提高模型理解圖文關(guān)系的能力。

其次,它可以減輕AI模型中常見的"過度思考"和"幻覺"問題。就像人類思考時會專注于關(guān)鍵信息而非事無巨細(xì)地分析每一個細(xì)節(jié),AI模型也需要學(xué)會關(guān)注真正重要的Token,避免在無關(guān)緊要的信息上浪費(fèi)計(jì)算資源,從而減少產(chǎn)生錯誤或虛構(gòu)內(nèi)容的可能性。

第三,它可以幫助模型在處理超長輸入時保持連貫性。當(dāng)處理一部長篇小說或一段長視頻時,模型需要記住早期的關(guān)鍵信息以保持理解的一致性,而不是被海量的細(xì)節(jié)所淹沒。

最后,它還能增強(qiáng)訓(xùn)練穩(wěn)定性。通過在訓(xùn)練過程中就學(xué)會識別和關(guān)注重要Token,模型可以更高效地學(xué)習(xí),減少噪聲數(shù)據(jù)的干擾。

讓我們以多模態(tài)大語言模型(MLLM)為例來理解這一點(diǎn)。當(dāng)這類模型同時處理圖像和文本時,它們面臨著視覺冗余的問題——背景像素可能會掩蓋關(guān)鍵的視覺特征。傳統(tǒng)方法可能會盲目地處理所有像素,但如果我們能夠智能地篩選出真正重要的視覺Token,模型就能更準(zhǔn)確地理解圖像內(nèi)容,并與文本建立更緊密的聯(lián)系。

研究團(tuán)隊(duì)在論文中首先回顧了Token壓縮技術(shù)在視覺、語言和多模態(tài)領(lǐng)域的發(fā)展歷程。在視覺Transformer中,Token壓縮主要用于減少計(jì)算成本,但這種方法可能會丟棄細(xì)微但重要的視覺特征。在語言模型中,Token壓縮通常通過提前退出機(jī)制和Token跳過策略實(shí)現(xiàn)。而在多模態(tài)大語言模型中,視覺Token修剪主要應(yīng)用于預(yù)填充階段,以減少后續(xù)處理的計(jì)算負(fù)擔(dān)。

然而,研究者指出,現(xiàn)有工作仍主要將Token壓縮視為提高計(jì)算效率的手段,這種效率導(dǎo)向的思維存在關(guān)鍵局限性。過于簡單的修剪方法可能會丟棄信息豐富的Token,從而降低模型的理解能力和性能。此外,Token壓縮通常被視為事后優(yōu)化,而非模型設(shè)計(jì)和訓(xùn)練的核心部分。

針對這些問題,研究團(tuán)隊(duì)提出了將Token壓縮作為生成式模型設(shè)計(jì)核心原則的新范式。他們認(rèn)為,智能的Token選擇不僅可以減少計(jì)算負(fù)擔(dān),還能同時提高模型的魯棒性、可解釋性和對齊性。這一觀點(diǎn)的提出基于對現(xiàn)代生成式任務(wù)面臨的多種挑戰(zhàn)的深入分析,如超長上下文處理、多模態(tài)對齊、推理冗余等。

在視覺表示方面,研究人員指出多模態(tài)大語言模型常常因?yàn)猷须s的視覺輸入而難以進(jìn)行細(xì)粒度理解。他們分析了三個關(guān)鍵挑戰(zhàn):文本-視覺注意力偏移(模型可能會過度關(guān)注圖像的特定區(qū)域而忽略其他重要部分);視覺冗余(大量圖像Token在前幾層之后提供很少新信息);以及視覺問答中的任務(wù)引導(dǎo)焦點(diǎn)(問題本身往往指向圖像中的特定區(qū)域)。

針對這些挑戰(zhàn),研究者建議將Token壓縮視為一種表示學(xué)習(xí)優(yōu)化:選擇能夠保留信息豐富的視覺表示的Token子集。例如,VisPruner利用視覺編碼器注意力識別高價值Token,并通過聚類移除重復(fù)內(nèi)容以確保多樣性。VTW則觀察到視覺信息在早期層中會遷移到文本Token中,因此可以在特定層之后撤回所有視覺Token。TRIM則利用CLIP度量和IQR評分功能自適應(yīng)地選擇對回答問題至關(guān)重要的圖像Token,同時使用聚合Token保留其他圖像信息。

在多模態(tài)Token對齊方面,研究者指出,盡管多模態(tài)大語言模型功能強(qiáng)大,但在語義對齊上仍面臨挑戰(zhàn)。標(biāo)準(zhǔn)視覺分詞器通常將圖像分割成固定大小的區(qū)塊,這可能導(dǎo)致連貫的視覺實(shí)體(如對象或區(qū)域)分散在多個Token中,削弱了視覺和語言表示之間的對齊。Token壓縮提供了一個有前景的解決方案:基于語義重要性選擇視覺Token,從而產(chǎn)生一組更好地與語言表示對齊的緊湊Token集合。

具體來說,SeTok使用密度峰值算法將視覺特征動態(tài)聚類成語義上有意義的Token,同時確定每個圖像的Token分組數(shù)量和結(jié)構(gòu)。這種方法保留了高頻和低頻語義,顯著改善了概念級別的對齊和下游任務(wù)性能。而M3則引入了分層Token結(jié)構(gòu),捕獲從粗到細(xì)的語義粒度,允許根據(jù)任務(wù)需求選擇性地保留不同抽象級別。

在推理冗余方面,研究者指出語言模型的"過度思考"問題,即生成過長或過于復(fù)雜的推理鏈,超出了達(dá)到正確答案所需的范圍。這種過度推理效率低下,常常產(chǎn)生冗長、重復(fù)甚至自相矛盾的解釋。例如,最先進(jìn)的推理器在解決數(shù)學(xué)問題時可能消耗超過15,000個Token,而一個簡明的思維鏈(CoT)只需幾百個Token就能解決同樣的問題。

通過減少推理過程中不必要的Token,語言模型可以專注于關(guān)鍵步驟,使生成更符合簡潔邏輯的軌跡。CoT-Influx引入了一種CoT剪枝策略,在提示中包含簡明的推理示例。通過從這些示例中剪枝不重要的Token,更多推理示范可以適應(yīng)上下文窗口,從而提高數(shù)學(xué)推理準(zhǔn)確性。TokenSkip則使LLM能夠跳過CoT序列中不太重要的Token,在關(guān)鍵推理步驟之間學(xué)習(xí)捷徑,允許可控的CoT壓縮,使模型能夠在推理過程中自動修剪冗余Token。

在訓(xùn)練穩(wěn)定性方面,雖然Token壓縮傳統(tǒng)上被視為訓(xùn)練后優(yōu)化以提高推理效率,但最近的研究表明,當(dāng)集成到預(yù)訓(xùn)練階段時,它可以顯著提高訓(xùn)練穩(wěn)定性。例如,Rho-1通過使用參考模型根據(jù)與期望分布的對齊程度對Token進(jìn)行評分,然后將訓(xùn)練損失集中在得分較高的Token上,有效地過濾掉嘈雜或信息量較少的Token,從而加快收斂并提高性能。UPFT則強(qiáng)調(diào)訓(xùn)練中初始推理步驟的重要性,通過減少訓(xùn)練Token數(shù)量,鼓勵模型專注于推理軌跡的初始前綴子字符串,這些子字符串通常更穩(wěn)定并包含關(guān)鍵信息。這種聚焦幫助模型避免受后續(xù)復(fù)雜或潛在錯誤信息的影響,從而提高訓(xùn)練穩(wěn)定性。

在長上下文和視頻理解方面,長上下文語言建模面臨著獨(dú)特的挑戰(zhàn):長文本常包含展示重復(fù)描述和不相關(guān)細(xì)節(jié)的原始Token;基于LLM的代理系統(tǒng)使用輸入數(shù)據(jù)作為推理或多任務(wù)切換的順序提示,當(dāng)提示過大時可能導(dǎo)致過載;以及難以擴(kuò)展到更長內(nèi)容以學(xué)習(xí)更多信息。Token壓縮技術(shù)通過將大量輸入序列提煉為緊湊的摘要向量或代表性Token直接解決了這些問題,從而保留核心信息如關(guān)鍵事件、中心主題或特定任務(wù)的事實(shí),同時顯著減少認(rèn)知負(fù)荷。

例如,AutoCompressors訓(xùn)練預(yù)訓(xùn)練LLM將長上下文壓縮為緊湊的摘要Token,將Token長度減少幾個數(shù)量級,從而擴(kuò)展上下文窗口并加速推理。TokenSwift通過使用多Token并行生成和n-gram檢索進(jìn)行Token重用,減少了模型在生成過程中動態(tài)處理的有效Token數(shù)量,從而實(shí)現(xiàn)高效的超長序列生成(最多10萬個Token)。

視頻處理方面,Token壓縮的必要性主要在于提高模型對視頻內(nèi)容的有效理解。它可以指導(dǎo)信息過濾、保留時空結(jié)構(gòu)、保存語義完整性并促進(jìn)多模態(tài)對齊。例如,HICom在局部和全局層面進(jìn)行條件Token壓縮,使用用戶指令作為指導(dǎo)來保留指令相關(guān)的視覺信息,同時減少計(jì)算負(fù)擔(dān)。Video-XL-Pro則采用重構(gòu)性Token壓縮,使用動態(tài)Token合成器和語義引導(dǎo)掩碼生成緊湊但全面的視頻Token,從而提高M(jìn)LLM性能和效率。

最后,研究團(tuán)隊(duì)展望了Token壓縮研究的未來方向,提出了八個具有前景的研究方向,分為算法創(chuàng)新、應(yīng)用創(chuàng)新和硬件算法協(xié)同設(shè)計(jì)三大類別。

在算法創(chuàng)新方面,他們建議未來研究應(yīng)探索全面和自適應(yīng)的Token壓縮策略?;谧钚逻M(jìn)展,研究者提出了六個有前景的方向:更好的Token重要性度量(開發(fā)超越注意力為基礎(chǔ)的代理的更強(qiáng)大、無偏見的評分機(jī)制);構(gòu)造性Token壓縮(從純粹的消除性剪枝轉(zhuǎn)向合并空間或語義上相似的Token為緊湊摘要向量的策略);緩解位置偏差(保留Token中的空間多樣性,通過在保留的Token中強(qiáng)制結(jié)構(gòu)均勻性來改善視覺任務(wù)的魯棒性);跨模態(tài)引導(dǎo)剪枝(根據(jù)模態(tài)間依賴關(guān)系而非獨(dú)立為每個模態(tài)做決策來引導(dǎo)MLLMs中的剪枝決策);端到端稀疏化(考慮LLMs的預(yù)填充階段和解碼階段,包括動態(tài)管理KV緩存的稀疏性并有選擇地更新生成的Token);以及硬件算法協(xié)同設(shè)計(jì)(探索利用動態(tài)Token稀疏性模式的自定義硬件和編譯器優(yōu)化)。

在應(yīng)用創(chuàng)新方面,他們提出了幾個關(guān)鍵研究方向:強(qiáng)化學(xué)習(xí)驅(qū)動的Token壓縮(通過動態(tài)獎勵機(jī)制和稀疏性約束平衡計(jì)算效率和推理準(zhǔn)確性);從提示調(diào)整到上下文學(xué)習(xí)(強(qiáng)調(diào)如何讓每個Token在上下文中承載更多信息或觸發(fā)更復(fù)雜的推理);以及更廣泛的機(jī)器學(xué)習(xí)和科學(xué)領(lǐng)域的應(yīng)用(如如何將Token壓縮技術(shù)應(yīng)用到醫(yī)學(xué)、生物學(xué)和時間序列分析等領(lǐng)域)。

在硬件算法協(xié)同設(shè)計(jì)方面,他們指出目前針對Token壓縮的協(xié)同設(shè)計(jì)努力明顯落后于純算法研究。未來研究應(yīng)該設(shè)計(jì)可參數(shù)化、可重配置的加速器模塊,探索處理器內(nèi)存(PIM)架構(gòu)以減輕動態(tài)Token剪枝造成的嚴(yán)重內(nèi)存瓶頸。

總結(jié)來說,這篇論文提出了一個重要觀點(diǎn):Token壓縮不應(yīng)僅僅被視為提高效率的手段,而應(yīng)成為生成式建模的核心設(shè)計(jì)原則。通過采用這種更全面的方法,研究者可以開發(fā)出不僅更高效,而且更魯棒、更具可解釋性并更好地與現(xiàn)實(shí)世界需求對齊的新一代生成架構(gòu)。這一觀點(diǎn)的轉(zhuǎn)變將為處理現(xiàn)代生成任務(wù)中的關(guān)鍵挑戰(zhàn),如視覺表示稀疏性、語義錯位、推理冗余、訓(xùn)練不穩(wěn)定性和長上下文過載等問題提供新思路。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-