這項由清華大學的王佳慧、劉祖燕、饒勇明和陸繼文教授領導的研究發(fā)表于2025年6月的arXiv預印本(arXiv:2506.05344v1),探討了一個引人入勝的發(fā)現:多模態(tài)大語言模型(MLLMs)在處理視覺信息時,只有極少數的注意力頭真正"看懂"了圖像。有興趣深入了解的讀者可以通過項目主頁https://github.com/CR400AFA/SparseMM獲取更多信息。
從文字到圖像:大語言模型如何學會"看"世界
想象一下,你正在教一個只會閱讀文字的朋友如何理解圖片。這個朋友非常聰明,能夠流利地閱讀和理解各種復雜的文章,但從未見過任何圖像。你該如何教會他"看"?
這正是人工智能研究者們面臨的挑戰(zhàn)。近年來,大語言模型(LLMs)如LLaMA和Qwen系列在純文本任務上表現出色,但它們本質上是"盲人"——它們不理解圖像、視頻或其他視覺信息。為了讓這些強大的語言模型獲得"視覺能力",研究人員將它們與視覺編碼器(如CLIP或SigLIP)結合,創(chuàng)建了多模態(tài)大語言模型(MLLMs),比如LLaVA和Qwen-VL系列。
但一個關鍵問題始終懸而未決:這些語言模型究竟是如何學會"看"的?當我們向原本只懂文字的模型灌輸視覺能力時,模型內部究竟發(fā)生了什么變化?清華大學的研究團隊決定深入探索這一謎題,就像神經學家研究大腦中視覺處理區(qū)域一樣,他們想了解MLLMs內部負責視覺處理的"神經元"。
視覺頭稀疏性:只有不到5%的"神經元"真正看懂圖片
研究團隊的第一個重大發(fā)現令人驚訝:在MLLMs中,只有不到5%的注意力頭(attention heads)積極參與視覺理解過程,研究者將這些特殊的注意力頭稱為"視覺頭"(visual heads)。
為了理解這一發(fā)現的意義,讓我們先簡單解釋一下"注意力頭"的概念。在大語言模型中,注意力機制就像是模型的"眼睛",它決定了模型在生成下一個詞時應該"看"輸入序列的哪些部分。每個模型通常有數百個這樣的"眼睛"(注意力頭),理論上它們都可以參與處理各種輸入信息。
然而,研究團隊發(fā)現,當模型處理圖像時,大多數注意力頭實際上仍然專注于文本,只有極少數注意力頭被重新訓練為專門處理視覺信息。這就像一個100人的團隊中,只有5個人負責所有的視覺任務,而其他95個人仍然專注于他們熟悉的文字工作。
更有趣的是,這種視覺頭稀疏性現象在各種MLLMs架構中普遍存在,無論是基于傳統多頭注意力(MHA)的Vicuna模型,還是使用分組查詢注意力(GQA)的Mistral和Qwen2模型。這就像是無論組織結構如何變化,總是只有少數"特殊員工"負責處理視覺信息。
如何找到這些視覺專家?OCR任務揭示視覺頭的秘密
既然知道了只有少數注意力頭負責視覺理解,下一個問題是:如何找到這些"視覺專家"?
研究團隊設計了一個巧妙的實驗。他們選擇了光學字符識別(OCR)作為錨定任務,因為OCR提供了圖像區(qū)域和文字輸出之間的精確對應關系。簡單來說,當模型看到圖片中的文字并正確輸出它時,我們可以追蹤是哪些注意力頭在關注圖片中的那個文字區(qū)域。
想象你給一個人看一張寫有"咖啡"二字的杯子照片,讓他描述看到了什么。如果他說"我看到一個寫著'咖啡'的杯子",你就知道他不僅看到了杯子,還讀出了上面的文字。類似地,研究團隊通過追蹤模型在生成與圖像內容相關的文字時激活的注意力頭,找出了那些真正"看懂"圖像的視覺頭。
具體來說,研究方法包括以下步驟:首先,他們向模型展示包含文本的圖像;然后,對于模型生成的每個輸出詞,確定這個詞對應圖像中的哪個區(qū)域;接著,識別哪些注意力頭在生成這個詞時最關注相應的圖像區(qū)域;最后,統計各個注意力頭的"命中率",得出一個"視覺分數"矩陣,用于排名各個注意力頭對視覺信息的響應程度。
通過分析1000張OCR圖像的結果,研究團隊成功繪制出了一張"視覺頭分布圖",清晰地顯示了哪些注意力頭最積極參與視覺理解。
屏蔽實驗:證明視覺頭的關鍵作用
為了驗證這些視覺頭確實對視覺理解至關重要,研究團隊進行了一系列"屏蔽實驗"。他們選擇性地屏蔽一定比例的視覺頭,然后測量模型在OCRBench和TextVQA等基準測試上的表現。
結果令人震驚:對于LLaVA-NeXT-Vicuna-7B模型,僅屏蔽2%的高分視覺頭就導致性能下降50%,而屏蔽10%則導致性能暴跌75%。相比之下,隨機屏蔽相同比例的注意力頭產生的影響要小得多——例如,在Qwen2-VL-7B-Instruct模型中,隨機屏蔽10%的注意力頭僅導致性能下降7%。
這就像在一個大型翻譯團隊中,屏蔽少數關鍵專家會導致翻譯質量大幅下降,而隨機屏蔽同等數量的普通成員則影響不大。這些實驗結果進一步證實了視覺頭的稀疏分布和關鍵作用。
SparseMM:利用視覺頭稀疏性加速多模態(tài)模型推理
基于視覺頭稀疏性的發(fā)現,研究團隊提出了一個名為SparseMM的KV緩存優(yōu)化策略,用于加速MLLMs的推理過程。
KV緩存是什么?想象你在閱讀一本長篇小說,為了提高閱讀速度,你可能會在重要段落做標記或寫筆記。下次再讀到相關內容時,你不必重新思考,只需參考之前的筆記。在大語言模型中,KV緩存扮演類似角色,它存儲了模型處理過的內容,以便在生成后續(xù)文本時快速檢索,而不必重新計算。
隨著多模態(tài)輸入變得越來越復雜——包括多輪對話、高分辨率圖像和密集視頻序列——維護完整的KV緩存會消耗大量計算資源。現有的壓縮方法通常均勻地處理所有注意力頭,忽視了視覺頭在編碼視覺語義中的關鍵作用。
SparseMM通過不對稱地分配KV緩存預算來解決這個問題:視覺頭獲得優(yōu)先保留,而非視覺頭則進行積極壓縮。具體而言,SparseMM采用三部分分配機制:
首先是"局部窗口緩存",為每個頭分配固定大小的近鄰窗口緩存,默認為32個token。這就像確保每個團隊成員都能記住最近討論的內容。
其次是"均勻基礎緩存",從剩余預算中均勻分配一小部分給每個頭,默認比例為10%。這相當于為每個團隊成員提供一個基本的筆記本。
最后是"基于分數的緩存",剩余預算根據各頭的視覺分數按比例分配。這就像根據專業(yè)程度為團隊成員分配額外的資源——視覺專家獲得更多資源。
這種混合方法確保了更好的準確率-效率平衡,視覺頭保留更多計算資源,而其他頭則動態(tài)調整。
實驗結果:速度更快,內存更少,性能不變
研究團隊在多個多模態(tài)基準測試上評估了SparseMM的性能,包括DocVQA、OCRBench、TextVQA、ChartQA和TextCaps等。結果表明,與其他強基線相比,SparseMM在極端緩存預算限制下表現尤為出色。
例如,在使用LLaVA-NeXT-Vicuna-7B模型處理TextVQA任務時,僅使用256的KV緩存預算(約占平均2376個token的10.77%)就能達到與完整緩存相當的性能,而AdaKV等方法則準確率下降約3%。類似地,Qwen2-VL-7B-Instruct在DocVQA任務上,僅使用256的緩存預算(僅占平均4830個token的5.3%)就能保持性能,而其他方法則性能下降5%至17%。
在效率評估方面,SparseMM顯著降低了解碼延遲和峰值內存使用。例如,當輸入序列長度為8K時,LLaVA-NeXT-Vicuna-7B模型加速了1.16倍,而在32K輸入長度時,加速提高到1.87倍。內存使用方面也有顯著改善——對于32K輸入序列長度,使用完整KV緩存的LLaVA-NeXT-Vicuna-7B需要32.87GB內存,而使用SparseMM后僅需17.38GB,減少了約50%的內存開銷。
這就像一個高效團隊,不僅完成同樣的工作,還使用了更少的資源和時間。SparseMM證明,通過理解和利用視覺頭的稀疏性,我們可以顯著提高MLLMs的推理效率,而不犧牲性能。
為什么這項研究很重要?
這項研究的意義遠超技術層面的優(yōu)化。首先,它揭示了MLLMs內部處理視覺信息的機制,幫助我們理解這些模型如何從"只懂文字"變成"能看懂圖像"。這就像揭開了人工智能"大腦"的一個神秘面紗,讓我們窺見其內部工作原理。
其次,SparseMM提供了一種實用的方法來加速多模態(tài)模型推理,這對于在資源有限的環(huán)境中部署這些模型至關重要。隨著多模態(tài)AI應用日益普及,從智能手機上的視覺助手到醫(yī)療圖像分析系統,更高效的推理方法將使這些技術更加普及和實用。
最后,這項研究開啟了對多模態(tài)模型內部機制更深入研究的大門。了解視覺頭的分布和功能可能啟發(fā)未來更高效的模型架構設計,就像了解人類視覺系統幫助我們設計更好的計算機視覺算法一樣。
總之,清華大學研究團隊的工作不僅提供了技術創(chuàng)新,還加深了我們對多模態(tài)人工智能內部工作機制的理解。隨著這一領域的不斷發(fā)展,我們可以期待更高效、更強大的AI系統,能夠更自然地理解和交互于我們這個充滿文字和圖像的世界。
對于想要深入了解這項研究的讀者,可以通過https://github.com/CR400AFA/SparseMM訪問項目主頁,獲取更多技術細節(jié)和代碼實現。這項工作再次證明,有時候理解AI系統的內部機制,與創(chuàng)造新的AI系統同樣重要。
好文章,需要你的鼓勵
新加坡國立大學研究團隊開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實驗顯示,僅訓練AI玩簡單撲克游戲就能讓其數學推理能力提升8.6%,通用推理提升8.4%,且無需任何數學題目作為訓練材料。研究發(fā)現游戲中的三種推理模式能成功轉移到數學解題中,為AI訓練提供了新思路。
同濟大學團隊開發(fā)的GIGA-ToF技術通過融合多幀圖像的"圖結構"信息,創(chuàng)新性地解決了3D相機噪聲問題。該技術利用圖像間的不變幾何關系,結合深度學習和數學優(yōu)化方法,在合成數據集上實現37.9%的精度提升,并在真實設備上展現出色泛化能力,為機器人、AR和自動駕駛等領域提供更可靠的3D視覺解決方案。
伊利諾伊大學研究團隊通過對比實驗發(fā)現,經過強化學習訓練的視覺語言模型雖然表現出"頓悟時刻"現象,但這些自我糾錯行為并不能實際提升推理準確率。研究揭示了AI模型存在"生成-驗證差距",即生成答案的能力強于驗證答案質量的能力,且模型在自我驗證時無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機構聯合提出SparseLoRA技術,通過動態(tài)稀疏性實現大語言模型訓練加速1.6倍,計算成本降低2.2倍。該方法使用SVD稀疏性估計器智能選擇重要計算部分,在保持模型性能的同時顯著提升訓練效率,已在多個任務上驗證有效性。