這項由北京大學(xué)的劉正、劉夢潔、陳景舟等研究者與上海AI實驗室、南京大學(xué)合作完成的研究發(fā)表于2025年4月,論文標(biāo)題為《FUSION: Fully Integration of Vision-Language Representations for Deep Cross-Modal Understanding》。感興趣的讀者可以通過論文的GitHub頁面(https://github.com/starriver030515/FUSION)獲取代碼、模型權(quán)重和數(shù)據(jù)集的完整信息。
近年來,人工智能在理解圖像和文字方面取得了驚人進(jìn)展,但一個關(guān)鍵問題始終困擾著研究者:如何讓AI真正像人類一樣同時理解視覺和語言信息?就像我們看到一張照片時,不僅能識別其中的物體,還能理解文字描述并進(jìn)行深度思考一樣。傳統(tǒng)的多模態(tài)大語言模型就像是兩個分別精通視覺和語言的專家在各自工作后才碰面交流,而人類的認(rèn)知過程卻是視覺和語言從一開始就緊密交織在一起的。
研究團(tuán)隊深受人類視覺感知機(jī)制的啟發(fā)。科學(xué)研究表明,人類的視覺感知并非像相機(jī)那樣被動地捕捉現(xiàn)實,而是一個受到語言和環(huán)境背景影響的主動解釋過程。有趣的是,當(dāng)人們在尋找某個特定物體之前先聽到它的名字時,無論是發(fā)現(xiàn)速度還是準(zhǔn)確率都會顯著提升。這說明語言信息能夠幫助大腦優(yōu)先處理相關(guān)特征,指導(dǎo)視覺注意力的分配。
然而,目前的多模態(tài)大語言模型往往無法有效捕捉這種深度交互關(guān)系。傳統(tǒng)模型通常是先用獨立的視覺編碼器處理圖像信息,然后在語言模型解碼階段才將視覺特征作為靜態(tài)信息融入。這種分離式處理方式導(dǎo)致視覺特征缺乏集中式編碼,限制了與文本交互時可用的有效信息。即使一些最新研究通過動態(tài)分辨率編碼或多重視覺編碼器來增強(qiáng)圖像細(xì)節(jié)和表示豐富度,但這些改進(jìn)主要集中在增強(qiáng)視覺編碼本身,忽略了實現(xiàn)有效視覺-語言融合所必需的深層雙向交互。
針對這些挑戰(zhàn),研究團(tuán)隊提出了FUSION模型,這是一個實現(xiàn)視覺-語言表示完全整合的多模態(tài)大語言模型家族。FUSION的核心理念是在整個處理管道中實現(xiàn)深度、動態(tài)的交互,而不是僅僅在后期解碼階段進(jìn)行表面融合。
一、文本引導(dǎo)的統(tǒng)一視覺編碼:讓文字為圖像導(dǎo)航
FUSION的第一個創(chuàng)新是"文本引導(dǎo)的統(tǒng)一視覺編碼"技術(shù)。傳統(tǒng)模型處理圖像時就像一個人閉著眼睛摸索房間,而FUSION則像是有人在旁邊用語言指導(dǎo):"注意左邊的桌子,那里有你要找的東西。"
具體而言,當(dāng)模型接收到一張圖像和相應(yīng)的文本問題時,不是先獨立處理圖像再考慮文本,而是立即將文本信息投射到視覺特征空間中。這就像給視覺編碼器配備了一個智能助手,時刻提醒它應(yīng)該關(guān)注圖像中的哪些部分。研究團(tuán)隊將文本嵌入映射到視覺特征空間,然后與視覺表示一起進(jìn)行聯(lián)合注意力計算,實現(xiàn)像素級別的深度整合。
為了確保文本和視覺特征之間的平衡交互,研究者采用了巧妙的策略:在編碼器的前半部分層中,他們屏蔽了文本到視覺的注意力,確保低層視覺特征的完整性不被過早的文本信息干擾。這就像學(xué)習(xí)繪畫時,先讓學(xué)生觀察物體的基本形狀,然后再根據(jù)具體要求調(diào)整細(xì)節(jié)。
編碼完成后,模型會分別聚合視覺和文本嵌入為早期和后期階段表示,以捕獲粗粒度和細(xì)粒度的多模態(tài)特征。最終的編碼視覺和文本表示通過通道級連接獲得,然后將視覺表示映射到大語言模型嵌入空間,實現(xiàn)與文本特征的直接交互。
二、上下文感知遞歸對齊解碼:動態(tài)響應(yīng)的智能對話
第二個核心創(chuàng)新是"上下文感知遞歸對齊解碼"。傳統(tǒng)方法就像是把所有視覺信息一次性展示給語言模型,而FUSION則建立了一個動態(tài)對話機(jī)制,根據(jù)問題的具體內(nèi)容持續(xù)調(diào)整對視覺信息的關(guān)注點。
研究團(tuán)隊引入了一個創(chuàng)新概念:上下文感知的潛在令牌。這些令牌就像智能探測器,專門負(fù)責(zé)在解碼過程中根據(jù)文本上下文的演變來遞歸地聚合視覺特征。當(dāng)模型處理一個問題時,這些潛在令牌會根據(jù)當(dāng)前的文本語境動態(tài)更新,確保在問題級別實現(xiàn)精細(xì)的語義整合。
為了提高計算效率并實現(xiàn)多模態(tài)特征的有效融合,團(tuán)隊采用了局部化窗口注意力機(jī)制。他們定義了一個潛在令牌網(wǎng)格,使用預(yù)定義的窗口大小來限制注意力操作的范圍。為了減少文本引導(dǎo)編碼的偏差并保持窗口注意力的有效性,研究者構(gòu)建了輔助視覺表示,通過將原始圖像分割為四個子圖像,在沒有文本條件的情況下分別編碼每個子圖像,然后將它們連接起來。
在解碼過程中,給定一個文本問題,模型會確定該問題在令牌序列中結(jié)束的位置,提取該位置的隱藏狀態(tài)表示。這個隱藏狀態(tài)聚合了到當(dāng)前位置的上下文信息,然后與每個潛在令牌連接,形成上下文感知的查詢表示。通過這種遞歸和上下文感知的對齊策略,模型能夠在視覺和文本模態(tài)之間實現(xiàn)動態(tài)增強(qiáng)的整合。
三、雙監(jiān)督語義映射損失:確??缒B(tài)一致性
為了更好地指導(dǎo)特征映射并緩解模態(tài)差異,研究團(tuán)隊開發(fā)了"雙監(jiān)督語義映射損失"。這個技術(shù)就像是為兩種不同語言之間的翻譯建立了雙向字典,確保信息在視覺和文本空間之間轉(zhuǎn)換時不會丟失或扭曲。
該損失函數(shù)基于兩個互補(bǔ)的變換:MLPv2t用于視覺到文本的變換,MLPt2v用于文本到視覺的變換。研究者巧妙地利用了經(jīng)過視覺編碼器處理的文本令牌(在視覺特征空間中的文本表示),通過MLPv2t映射后,其重建的文本表示應(yīng)該與基于大語言模型的文本表示緊密對齊。
具體而言,對于MLPv2t的質(zhì)量評估,研究者計算這兩個特征表示之間基于余弦相似度的損失。類似地,他們使用圖像在文本空間的表示來評估MLPt2v的有效性。理想的MLPt2v應(yīng)該將文本空間中的圖像表示轉(zhuǎn)換回在視覺空間中與原始視覺特征緊密相似的表示。
除了監(jiān)督特征空間映射損失外,他們還結(jié)合了基礎(chǔ)的交叉熵?fù)p失。完整的訓(xùn)練目標(biāo)將這些損失與平衡參數(shù)相結(jié)合,這種雙監(jiān)督方法明確地加強(qiáng)了視覺和文本表示之間的語義對應(yīng)關(guān)系,顯著提升了多模態(tài)整合的有效性和準(zhǔn)確性。
四、語言驅(qū)動的QA數(shù)據(jù)集:以文本為中心的新范式
研究團(tuán)隊還提出了一種新穎的語言驅(qū)動方法來構(gòu)建QA數(shù)據(jù)集,從根本上改變了傳統(tǒng)的以視覺內(nèi)容為中心的數(shù)據(jù)生成思路。這種方法優(yōu)先考慮詳細(xì)的文本描述,將文本作為指導(dǎo)圖像生成和QA對創(chuàng)建的核心要素。
整個過程始于從大規(guī)模說明文檔池中精心選擇高質(zhì)量說明文檔。這些初始說明文檔隨后通過大語言模型進(jìn)行豐富化處理,產(chǎn)生詳細(xì)且細(xì)致入微的文本描述,捕捉各種視覺和上下文屬性。這些豐富的描述既作為擴(kuò)散模型的提示來生成與提供的文本語境緊密對齊的圖像,同時也作為輸入內(nèi)容,再次利用大語言模型構(gòu)建多樣化的QA對,確保在多選題、多輪對話、基于推理的任務(wù)等方面的廣泛覆蓋。
為了解決生成模型固有的挑戰(zhàn),包括歧義、缺失和不一致性,研究團(tuán)隊實施了嚴(yán)格的多階段過濾過程。這個過程包括四個主要階段:說明文檔過濾、描述過濾、圖像生成過濾和QA對過濾。每個階段都有明確定義的標(biāo)準(zhǔn),確保用于后續(xù)訓(xùn)練步驟的數(shù)據(jù)質(zhì)量和相關(guān)性。
通過將文本內(nèi)容置于數(shù)據(jù)集構(gòu)建過程的核心,這種語言驅(qū)動框架提供了一種可擴(kuò)展、適應(yīng)性強(qiáng)且穩(wěn)健的方法來合成多樣化和高質(zhì)量的QA數(shù)據(jù)集,為視覺-語言對齊提供強(qiáng)有力的監(jiān)督。
五、實驗結(jié)果:小模型的大突破
研究團(tuán)隊構(gòu)建了兩個規(guī)模的FUSION模型:FUSION-3B和FUSION-8B,并在18個基準(zhǔn)測試中進(jìn)行了全面評估。實驗結(jié)果令人驚喜:僅使用630個視覺令牌,F(xiàn)USION就顯著超越了現(xiàn)有方法的性能。
最引人注目的是,F(xiàn)USION-3B在大多數(shù)基準(zhǔn)測試中都超越了Cambrian-1 8B和Florence-VL 8B這些更大規(guī)模的模型。即使將視覺令牌數(shù)量限制到300個,F(xiàn)USION-3B仍然能夠保持95%的原始性能,與Florence-VL保持同等水平,這充分證明了全模態(tài)整合方法的有效性。
在與傳統(tǒng)多模態(tài)大語言模型的對比中,研究團(tuán)隊通過可視化分析展示了FUSION在三個不同層面上實現(xiàn)的一致且逐步增強(qiáng)的跨模態(tài)對齊:像素級別、空間級別和問題級別。結(jié)果表明,F(xiàn)USION在所有層面都實現(xiàn)了顯著更強(qiáng)的對齊效果。
消融研究進(jìn)一步證實了每個組件的重要性。文本引導(dǎo)統(tǒng)一視覺編碼和雙監(jiān)督語義映射顯著改善了通用多模態(tài)任務(wù)的性能。上下文感知遞歸對齊解碼大幅提升了OCR準(zhǔn)確性并有效減少了幻覺現(xiàn)象。當(dāng)這些組件協(xié)同工作時,模型能夠在超過一半的基準(zhǔn)測試中超越LLaVA-NeXT,即使在相同配置且不使用動態(tài)分辨率的情況下也是如此。
六、技術(shù)實現(xiàn):三階段訓(xùn)練策略
FUSION采用了獨特的三階段訓(xùn)練框架,不同于傳統(tǒng)的兩階段范式,確保視覺和語言模態(tài)之間的全面對齊和整合。
第一階段是基礎(chǔ)語義對齊階段,使用大規(guī)模圖像-說明文檔數(shù)據(jù)集對視覺編碼器進(jìn)行預(yù)訓(xùn)練,在視覺和文本表示之間建立精確的語義對齊。第二階段是上下文多模態(tài)融合階段,與第一階段不同,這個中間階段結(jié)合了各種類型的QA數(shù)據(jù)以及圖像-說明文檔對。這個階段旨在增強(qiáng)模型在廣泛場景中對齊視覺和語言表示的適應(yīng)性。第三階段是視覺指令調(diào)優(yōu)階段,在這個階段,模型接觸各種視覺任務(wù),使其能夠有效回答下游視覺相關(guān)問題。
在主要結(jié)果中,研究團(tuán)隊在第一階段使用了總計900萬圖像-說明文檔對,在第二階段和第三階段使用了1200萬指令數(shù)據(jù)(第二階段500萬,第三階段700萬)。在每個階段,他們都解凍所有組件以確保全面優(yōu)化和無縫整合。
七、模型架構(gòu):精心設(shè)計的融合機(jī)制
FUSION的架構(gòu)設(shè)計體現(xiàn)了深度融合的理念。模型選擇了兩個強(qiáng)大的語言模型作為基礎(chǔ):Phi-3.5-mini-instruct和LLaMA3.1-8B-instruct。視覺編碼器采用了SigLIP-SO400M-Patch14-384和最先進(jìn)的SigLIP2-Giant-OPT-Patch16-384。通過利用強(qiáng)大的SigLIP2-Giant-OPT-Patch16-384,模型能夠用更少的令牌實現(xiàn)卓越性能。
在文本引導(dǎo)統(tǒng)一視覺編碼組件中,研究團(tuán)隊將支持的最大文本長度限制為256個令牌,超出部分會被截斷以確保計算效率。在上下文感知遞歸對齊解碼模塊中,他們采用了固定的注意力窗口大小3,在性能和效率之間取得平衡。
特別值得注意的是,團(tuán)隊采用了動態(tài)令牌機(jī)制,使模型能夠適應(yīng)不同長度的視覺令牌序列。他們從集合{4, 16, 64, 144, 256}中隨機(jī)采樣每個批次的潛在令牌數(shù)量。實驗表明,這種策略可以改善訓(xùn)練穩(wěn)定性,同時保持表示有效性。
八、創(chuàng)新意義:重新定義多模態(tài)理解
FUSION的意義遠(yuǎn)不止于性能提升,它代表了多模態(tài)人工智能發(fā)展的一個重要轉(zhuǎn)折點。通過實現(xiàn)真正的全模態(tài)整合,F(xiàn)USION展示了一種更接近人類認(rèn)知過程的AI系統(tǒng)設(shè)計理念。
傳統(tǒng)模型往往將視覺和語言處理視為兩個獨立的任務(wù),然后嘗試在后期將結(jié)果合并。這種方法雖然在某些應(yīng)用中取得了成功,但始終存在信息丟失和理解偏差的問題。FUSION通過從一開始就將視覺和語言信息深度交織,創(chuàng)造了一種更自然、更高效的多模態(tài)理解方式。
研究團(tuán)隊不僅提供了完整的代碼、模型權(quán)重和數(shù)據(jù)集,還建立了一個可擴(kuò)展的框架,為未來的多模態(tài)研究奠定了基礎(chǔ)。這種開放性確保了研究成果能夠推動整個學(xué)術(shù)界和工業(yè)界的進(jìn)步。
更重要的是,F(xiàn)USION證明了在多模態(tài)理解中,"少即是多"的哲學(xué)。通過更智能的整合策略,模型能夠用更少的計算資源實現(xiàn)更好的性能,這對于多模態(tài)AI的實際應(yīng)用具有重要意義。
說到底,F(xiàn)USION不僅僅是一個新的模型,更是一種新的思維方式。它告訴我們,真正的智能不在于處理更多的數(shù)據(jù),而在于更深入地理解和整合不同類型的信息。當(dāng)我們的AI系統(tǒng)能夠像人類一樣自然地融合視覺和語言理解時,我們就離真正的通用人工智能又近了一步。對于普通人來說,這意味著未來的AI助手將能夠更準(zhǔn)確地理解我們的需求,無論是通過圖像、文字還是兩者的結(jié)合。感興趣的讀者可以通過論文的GitHub頁面深入了解這項突破性研究的技術(shù)細(xì)節(jié)。
Q&A
Q1:FUSION模型與傳統(tǒng)多模態(tài)模型有什么根本差異? A:傳統(tǒng)模型像是兩個專家分別處理圖像和文字后再交流,而FUSION從一開始就讓視覺和語言信息深度交織,類似人類認(rèn)知過程。它在整個處理過程中實現(xiàn)動態(tài)交互,而不是僅在最后階段簡單融合。
Q2:為什么FUSION能用更少的視覺令牌獲得更好效果? A:關(guān)鍵在于FUSION的智能整合策略。通過文本引導(dǎo)的視覺編碼和上下文感知解碼,模型能夠更精準(zhǔn)地關(guān)注重要信息,避免了傳統(tǒng)方法的信息冗余和效率低下問題,實現(xiàn)了"少而精"的處理方式。
Q3:FUSION的語言驅(qū)動數(shù)據(jù)集構(gòu)建方法有什么創(chuàng)新? A:傳統(tǒng)方法以圖像為中心生成問答對,而FUSION反其道而行之,以高質(zhì)量文本描述為核心,先用文本指導(dǎo)圖像生成,再基于文本創(chuàng)建多樣化問答。這種方法確保了數(shù)據(jù)的質(zhì)量和多樣性,為模型訓(xùn)練提供了更好的監(jiān)督信號。
好文章,需要你的鼓勵
新加坡國立大學(xué)研究團(tuán)隊開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實驗顯示,僅訓(xùn)練AI玩簡單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實現(xiàn)37.9%的精度提升,并在真實設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊通過對比實驗發(fā)現(xiàn),經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時刻"現(xiàn)象,但這些自我糾錯行為并不能實際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗證差距",即生成答案的能力強(qiáng)于驗證答案質(zhì)量的能力,且模型在自我驗證時無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動態(tài)稀疏性實現(xiàn)大語言模型訓(xùn)練加速1.6倍,計算成本降低2.2倍。該方法使用SVD稀疏性估計器智能選擇重要計算部分,在保持模型性能的同時顯著提升訓(xùn)練效率,已在多個任務(wù)上驗證有效性。