av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 巧用代理解決視覺計算冗余:南洋理工大學(xué)突破大型多模態(tài)模型效率難題

巧用代理解決視覺計算冗余:南洋理工大學(xué)突破大型多模態(tài)模型效率難題

2025-05-27 13:25
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-27 13:25 ? 科技行者

這項由南洋理工大學(xué)S-Lab的Penghao Wu和Ziwei Liu與SenseTime Research的Lewei Lu共同完成的研究,發(fā)表于2025年5月21日的第42屆國際機器學(xué)習(xí)會議(ICML 2025)上,論文編號為arXiv:2505.15816v1。本研究為解決大型多模態(tài)模型中視覺計算冗余問題提供了創(chuàng)新解決方案。

一、研究背景:大型多模態(tài)模型的"視覺負(fù)擔(dān)"

想象一下,你有一位才華橫溢的朋友,他既精通文學(xué)又擅長繪畫,但每次分析一幅畫作時,他都要花費大量時間反復(fù)審視畫面的每個細(xì)節(jié),即使許多細(xì)節(jié)對理解整幅畫作并無太大幫助。這就像當(dāng)今的大型多模態(tài)模型(LMM)面臨的問題——它們在處理圖像時效率低下,耗費大量計算資源。

當(dāng)前主流的大型多模態(tài)模型,如LLaVA系列,采用了一種直接但計算密集的架構(gòu):先用預(yù)訓(xùn)練的視覺編碼器提取圖像特征,然后通過輕量級投影模塊將這些特征轉(zhuǎn)換為語言模型能理解的形式,最后由大型語言模型(LLM)同時處理視覺和文本信息。這種結(jié)構(gòu)雖然簡單有效,但面臨一個嚴(yán)重的計算挑戰(zhàn):視覺信息通常以大量"視覺token"的形式呈現(xiàn),遠(yuǎn)超文本token的數(shù)量。由于注意力機制的計算復(fù)雜度與序列長度成平方關(guān)系,這個問題在處理高分辨率圖像時尤為嚴(yán)重,一張圖像可能產(chǎn)生數(shù)千個視覺token。而當(dāng)模型需要處理視頻或多張圖像時,情況更為復(fù)雜。

針對這一問題,研究界提出了各種token減少方法,試圖通過剪枝或合并冗余的視覺token來提高效率。但這些方法面臨一個根本問題:它們可能會丟失關(guān)鍵的視覺細(xì)節(jié)信息。想象一下,在分析一份密集文檔圖像時,刪減任何視覺token都可能導(dǎo)致重要信息的丟失。而且,這些方法通常依賴于問題引導(dǎo)的token選擇,難以適應(yīng)多輪對話中可能出現(xiàn)的新問題,也難以應(yīng)對復(fù)雜或間接的問題。

二、計算層面冗余:一個被忽視的優(yōu)化維度

南洋理工大學(xué)的研究團(tuán)隊提出了一個全新視角:與其減少視覺token的數(shù)量(這可能導(dǎo)致信息丟失),不如探索視覺token在計算過程中的冗余。他們注意到一個關(guān)鍵問題:既然視覺token來自預(yù)訓(xùn)練的視覺編碼器,已經(jīng)具有高度語義信息,那么是否有必要在語言模型中對它們執(zhí)行所有繁重的計算操作(如自注意力和前饋網(wǎng)絡(luò))?

這就像一位經(jīng)驗豐富的廚師已經(jīng)把食材處理好了,是否還需要另一位廚師再次對這些食材進(jìn)行同樣復(fù)雜的處理?研究團(tuán)隊?wèi)岩?,在大型多模態(tài)模型中可能存在著計算層面的冗余,如果能夠識別并減少這種冗余,就可以在不損失信息的情況下顯著提高模型效率。

為驗證這一假設(shè),研究團(tuán)隊設(shè)計了一系列探索性實驗。他們訓(xùn)練了基于不同大型語言模型的LLaVA-Next結(jié)構(gòu),包括Vicuna1.5-7B/13B、LLama3-8B、Qwen2-7B、Phi3-3B和InternLM2.5-7B。在推理過程中,他們嘗試遮蔽視覺token之間的注意力計算,即禁用token間交互,并在語言模型的不同層應(yīng)用這種遮蔽。

實驗結(jié)果令人驚訝:當(dāng)視覺注意力從模型的中間或后部層開始被遮蔽時,模型性能幾乎不受影響,甚至有所提升。不同的語言模型表現(xiàn)出不同程度的冗余,但總體趨勢一致:在模型的中后部分,視覺token之間的注意力計算存在明顯冗余。

進(jìn)一步的實驗表明,通過微調(diào),模型可以適應(yīng)視覺注意力被跳過的情況,性能降低的影響可以被緩解。然而,僅跳過注意力操作帶來的計算節(jié)省有限,因為繁重的前饋網(wǎng)絡(luò)仍在處理所有視覺token。這促使研究團(tuán)隊探索更激進(jìn)的方案:是否可能同時跳過視覺token上的注意力和前饋網(wǎng)絡(luò)操作?

三、逐步擠出計算冗余:從發(fā)現(xiàn)到解決

研究團(tuán)隊隨后嘗試用輕量級的多層感知機(MLP)替代視覺token上的注意力操作和前饋網(wǎng)絡(luò)。這相當(dāng)于用一個簡易的小型處理器取代復(fù)雜的大型處理器,專門處理那些不需要復(fù)雜計算的視覺信息。實驗結(jié)果表明,這種方法顯著降低了計算量,同時在模型后部層(如第16層之后)應(yīng)用時,性能甚至有所提升。

這一有趣的性能提升來源于新添加的輕量級MLP引入了視覺特定的處理模塊,使模型能更好地處理視覺信息而不干擾原始語言模型的知識。最終的性能可以理解為輕量級模塊帶來的性能提升減去跳過原始繁重操作導(dǎo)致的性能下降。

基于這些發(fā)現(xiàn),研究團(tuán)隊提出了一個更優(yōu)的解決方案:ProxyV(代理視覺)算法。這個算法的核心思想是引入一小組"代理視覺token",代替原始視覺token參與計算密集型操作,然后通過輕量級模塊引導(dǎo)原始token的更新。

具體來說,ProxyV算法的工作流程如下:首先對原始N×N視覺token進(jìn)行下采樣,得到一個縮略版本(M×M,其中M=N/r,r是下采樣因子)作為代理token。在語言模型解碼器層中,代理視覺token和文本token作為查詢,而鍵和值則包括代理視覺token、原始視覺token和文本token。注意力操作后,只有代理token和文本token通過前饋網(wǎng)絡(luò)處理。這樣,代理token就替代了原始token參與計算密集型操作,顯著降低了計算成本。

當(dāng)代理token通過這些操作獲取有用信息后,每個代理token引導(dǎo)與其空間對應(yīng)的r×r原始視覺token通過一個輕量級的引導(dǎo)更新模塊進(jìn)行更新。這個模塊首先對原始和代理token進(jìn)行下投影,然后將每個原始token與其對應(yīng)的代理token連接起來,通過一個輕量級的兩層MLP處理來更新原始token。通過這種設(shè)計,解碼器層中的重要信息能夠有效地傳遞給原始視覺token,而不需要原始token參與繁重的計算。

四、ProxyV的突出性能:效率與精度的雙贏

研究團(tuán)隊在多種大型語言模型上驗證了ProxyV的有效性。實驗表明,從模型中間層開始應(yīng)用ProxyV可以在不損失性能的情況下實現(xiàn)中等程度的效率提升(性能保持在100%-101%之間)。而從模型中后部分開始應(yīng)用則可以在較小的效率提升下獲得顯著的性能改進(jìn)(性能提升到101%-102%)。

以Vicuna1.5-7B為例,從第12層開始應(yīng)用ProxyV可以將性能提升到原始模型的101%,同時將預(yù)填充階段的計算量和時間分別減少了46%和41%。從第16層開始應(yīng)用則可以將性能提升到102.4%,同時計算量和時間分別減少36%和31%。

為了進(jìn)一步驗證ProxyV相比token減少方法的優(yōu)勢,研究團(tuán)隊將其與兩種最先進(jìn)的token減少方法VisionZip和PyramidDrop進(jìn)行了比較。他們發(fā)現(xiàn),雖然這些方法在選定的基準(zhǔn)測試上幾乎沒有性能下降,但在需要精細(xì)視覺理解的場景中,如文檔解析任務(wù)和視覺定位基準(zhǔn)RefCOCO上,它們表現(xiàn)明顯較差,凸顯了視覺信息丟失的問題。相比之下,ProxyV保留了所有視覺信息,在這些任務(wù)上表現(xiàn)更好。

研究團(tuán)隊還提供了一些定性實例,展示了token減少方法在需要提取密集或結(jié)構(gòu)化視覺信息,或圖像包含密集信息和視覺細(xì)節(jié)時的失敗案例,而ProxyV則能成功保留所有視覺信息并提取重要的視覺細(xì)節(jié)。

五、超越空間約束:非空間ProxyV變體

研究團(tuán)隊的目標(biāo)是減少計算層面的冗余,這在理論上與token減少方法(專注于token層面冗余)是正交的。這引發(fā)了一個問題:是否可以將ProxyV與這些token減少方法結(jié)合起來?

主要挑戰(zhàn)在于,原始的ProxyV算法依賴于視覺token的2D空間結(jié)構(gòu)來生成代理token并在引導(dǎo)更新模塊中建立對應(yīng)關(guān)系。然而,應(yīng)用token減少方法后,視覺token的空間結(jié)構(gòu)不再保留,使得集成變得困難。

為解決這個問題,研究團(tuán)隊提出了一個非空間變體的ProxyV算法,去除了對空間先驗的依賴,使其能夠靈活地與token減少方法或非空間視覺特征結(jié)合。具體來說,他們初始化一組可學(xué)習(xí)的嵌入作為查詢,通過注意力操作從原始視覺token中提取信息來生成代理token。在引導(dǎo)更新過程中,他們重用注意力邏輯矩陣,但轉(zhuǎn)置并應(yīng)用softmax,將代理token的信息分配給所有原始視覺token。

實驗表明,這種非空間變體達(dá)到了與原始ProxyV相似的性能,而將其與VisionZip結(jié)合則實現(xiàn)了更高的效率提升,同時保持性能。

六、實驗細(xì)節(jié)與廣泛驗證

為了全面驗證ProxyV的有效性,研究團(tuán)隊在各種實驗設(shè)置下進(jìn)行了測試。他們采用了廣泛使用的兩階段訓(xùn)練流程:第一階段使用ShareGPT4V的120萬張圖像進(jìn)行多模態(tài)投影器和新添加的視覺特定模塊的預(yù)訓(xùn)練;第二階段使用LLava-Next的77.9萬條指令調(diào)優(yōu)數(shù)據(jù)進(jìn)行微調(diào),并在此階段解凍語言模型。

對于圖像編碼,他們采用AnyRes策略,每張圖像最多使用5個網(wǎng)格,包括縮略圖。每個分辨率為336×336的網(wǎng)格由CLIP-ViT-L-336px編碼為24×24的圖像特征,然后通過兩層MLP投影器進(jìn)行投影,并按柵格順序在每個網(wǎng)格內(nèi)展平,類似于UniRes策略。

在ProxyV實現(xiàn)中,他們選擇下采樣因子r=4,使576個原始視覺token壓縮為36個代理視覺token,每個代理token對應(yīng)16個原始token。對于非空間ProxyV版本,可學(xué)習(xí)查詢的數(shù)量與空間版本相同。引導(dǎo)更新MLP模塊中的隱藏維度設(shè)置為語言模型隱藏維度的1/4。每層新添加的引導(dǎo)更新模塊的參數(shù)數(shù)量為14.68M(Vicuna1.5-7B情況下)。

為了全面評估,他們不僅在需要精細(xì)視覺理解的基準(zhǔn)上進(jìn)行了測試(如DocVQA、ChartQA、InfoVQA、OCRBench和TextVQA),還在廣泛的通用多模態(tài)基準(zhǔn)上進(jìn)行了驗證,包括MMBench、SEED-Bench、RefCOCO、MMStar、GQA、MME、MMMU、POPE、ScienceQA、AI2D和RealWorldQA等。

結(jié)果表明,ProxyV在各種基準(zhǔn)上都表現(xiàn)出色,尤其是在需要精細(xì)視覺理解的任務(wù)上。它不僅保持了原始模型的性能,還在許多情況下實現(xiàn)了性能提升,同時顯著降低了計算成本。

七、研究貢獻(xiàn)與未來展望

這項研究的主要貢獻(xiàn)可以總結(jié)為三點:首先,系統(tǒng)性地研究了大型多模態(tài)模型中視覺token的計算層面冗余,探索了逐步減少這種冗余的方法;其次,提出了ProxyV,一種通過代理token減輕原始視覺token計算負(fù)擔(dān)的創(chuàng)新設(shè)計,在確保性能的同時有效降低了計算量;最后,通過在不同語言模型上的廣泛驗證證明了ProxyV的有效性,并通過提出非空間變體展示了其靈活性,可與token減少方法結(jié)合以進(jìn)一步提高效率。

這項研究為解決大型多模態(tài)模型的計算效率問題提供了一個新的思路:不是減少token數(shù)量(可能導(dǎo)致信息丟失),而是減少每個token的計算負(fù)擔(dān)。這種方法保留了所有視覺信息,確保了模型在需要精細(xì)視覺理解的任務(wù)上的性能,同時顯著提高了計算效率。

未來的研究方向可能包括在引導(dǎo)更新模塊中引入局部注意力層或卷積層,以進(jìn)一步促進(jìn)每個局部窗口中的精細(xì)token間交互,以及探索ProxyV在視頻和多圖像處理中的應(yīng)用,這些場景中視覺token序列更長,計算效率的提升可能更為顯著。

總的來說,ProxyV代表了一種平衡計算效率和性能的有效方法,為大型多模態(tài)模型的實際應(yīng)用提供了重要支持。隨著視覺內(nèi)容處理需求的增長,這種能夠保留完整視覺信息同時提高效率的方法將變得越來越重要。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-