在人工智能視覺語言模型的發(fā)展中,如何讓計算機理解圖像與文本之間的關系一直是一個核心挑戰(zhàn)。2024年6月,來自加州大學伯克利分校和香港大學的研究團隊在arXiv上發(fā)表了一篇題為《Language-Image Alignment with Fixed Text Encoders》(使用固定文本編碼器的語言-圖像對齊)的研究論文,對當前主流的視覺語言模型訓練方法提出了質(zhì)疑和創(chuàng)新。論文的主要作者包括Jingfeng Yang、Ziyang Wu、Yue Zhao和Yi Ma,他們的研究代碼和模型已在GitHub上開源(https://github.com/Jingfeng0705/LIFT)。
一、CLIP模型的問題:昂貴且不夠理解復雜關系
想象一下,你有一位朋友可以準確地把任何圖片和文字描述配對起來。這位朋友是如何學會這項技能的?在人工智能領域,目前的主流方法就像是強迫兩個初學者(一個負責理解圖像,一個負責理解文本)從零開始一起學習,直到他們能夠默契配合。這種方法被稱為CLIP(Contrastive Language-Image Pre-training,對比語言-圖像預訓練),由OpenAI在2021年推出。
CLIP模型就像兩個大腦同時學習:一個圖像大腦和一個文本大腦,它們一起被訓練來理解"這張圖片和這段文字是否匹配"。這種方法雖然有效,但存在兩個明顯的問題:
首先,這種"雙腦"同時訓練非常昂貴。想象一下同時培訓兩位專家而不是一位,這需要大量的計算資源和訓練數(shù)據(jù)。研究表明,CLIP模型需要極大的批處理大小和海量的訓練樣本才能達到良好效果。
其次,CLIP模型在理解復雜的組合信息方面表現(xiàn)不佳。比如,它難以準確理解文本中的詞序("貓追狗"和"狗追貓"是不同的)、圖像中的空間位置關系("蘋果在盤子上"和"盤子在蘋果上"是不同的)、對象與屬性的關聯(lián)("紅色的車和藍色的房子"與"藍色的車和紅色的房子"是不同的)以及物體之間的關系。這就像是能認出畫面中有"狗"和"球",但分不清"狗在玩球"和"球在狗上面"的區(qū)別。
為什么會這樣?研究人員認為,CLIP的訓練方式鼓勵模型采取"捷徑策略"——它傾向于丟棄與組合信息相關的特征,只關注簡單的對象識別。
二、LIFT:只訓練一個大腦,讓另一個專家來指導
伯克利大學的研究團隊提出了一個有趣的問題:我們真的需要同時訓練兩個大腦嗎?如果我們已經(jīng)有了一個精通語言的專家(大型語言模型,LLM),為什么不直接讓它來指導圖像理解呢?
這就是他們提出的LIFT(Language-Image alignment with a Fixed Text encoder,使用固定文本編碼器的語言-圖像對齊)方法的核心思想。LIFT就像是讓一位已經(jīng)精通多國語言的翻譯(LLM)來教導一位攝影師(圖像編碼器)理解照片的含義。具體來說:
1. 使用一個預先訓練好并微調(diào)過的大型語言模型作為固定的文本編碼器 2. 在訓練開始前,用這個文本編碼器預先處理所有文本描述,得到它們的語義表示 3. 只訓練圖像編碼器,讓它學習將圖像映射到與對應文本描述相匹配的表示空間
這種方法有點像老師(LLM文本編碼器)已經(jīng)準備好了所有的答案(文本嵌入),學生(圖像編碼器)只需要學習如何將自己的理解(圖像嵌入)與老師的答案對齊。
研究團隊的核心假設是:大型語言模型已經(jīng)具備足夠好的文本理解能力,可以為視覺表示學習提供良好的指導,無需再從頭訓練文本編碼器。
三、LIFT方法的技術細節(jié):簡單而高效
從技術角度看,LIFT采用了與CLIP相似的雙編碼器架構,但有一個關鍵區(qū)別:LIFT使用預訓練的LLM(具體是NV-Embed-V2)作為固定的文本編碼器,只訓練圖像編碼器部分。
在訓練流程上,LIFT首先離線計算所有訓練文本的嵌入表示。具體來說,對于每段文本T,使用固定的文本編碼器ftext生成其嵌入表示zT。然后,在實際訓練過程中,LIFT只優(yōu)化圖像編碼器fimg和投影頭fhead,讓它們學習將圖像I映射到與對應文本嵌入相匹配的表示空間zI。
這種預計算文本嵌入的方法帶來了顯著的效率提升。數(shù)據(jù)顯示,與CLIP相比,LIFT在處理短文本描述時可減少約25.5%的計算量(FLOPs),處理長文本描述時可減少約35.7%的計算量。內(nèi)存使用方面,LIFT比CLIP分別節(jié)省了6.8%(短文本)和12.6%(長文本)。
更重要的是,當文本長度增加時,CLIP的計算復雜度呈平方增長O(n?),而LIFT則保持恒定O(1),因為文本編碼是預先完成的。這使得LIFT特別適合處理長文本描述的情況。
四、實驗結果:LIFT在多項任務上優(yōu)于CLIP
研究團隊進行了大量實驗,使用ViT-B/16作為視覺骨干網(wǎng)絡,在包含4億文本-圖像對的數(shù)據(jù)集上訓練模型。每張圖像有兩種文本描述:一種是從網(wǎng)絡抓取的短描述,另一種是由模型生成的長描述。為確保公平比較,LIFT和CLIP使用完全相同的超參數(shù)訓練。
研究發(fā)現(xiàn),LIFT在以下幾個方面表現(xiàn)優(yōu)異:
1. **組合理解能力**:在SugarCrepe基準測試的七個任務上,LIFT平均比CLIP高出6.8%的準確率。特別是在涉及屬性添加、屬性替換和關系替換的任務上,LIFT表現(xiàn)出顯著優(yōu)勢。這表明LIFT能更好地理解對象與屬性的關聯(lián)以及對象間的關系。
例如,給定一張時鐘掛在建筑物角落的圖片,LIFT能正確選擇"A large four sided clock hangs on the corner of the building"(一個大型四面鐘掛在建筑物的角落),而CLIP錯誤地選擇了"A large four sided clock leans against the corner of the building"(一個大型四面鐘靠在建筑物的角落)。
2. **下游任務表現(xiàn)**:當作為LLaVA多模態(tài)大模型的視覺塔時,LIFT在六項下游任務中的五項上超過了CLIP。特別是在MMBench(英語和中文)測試中,LIFT表現(xiàn)出色,在屬性推理、精細感知和關系推理等子任務上取得顯著提升。
3. **零樣本檢索能力**:在ImageNet-1K分類和跨模態(tài)檢索任務上,當訓練在短文本描述上時,LIFT與CLIP表現(xiàn)相當;但當訓練在長文本描述上時,LIFT在所有這些任務上平均領先CLIP 11.0%。
這些結果表明,LIFT不僅計算效率更高,而且在多種任務上表現(xiàn)更好,特別是在需要理解復雜組合信息的場景中。
五、為什么LIFT比CLIP更擅長處理長文本?
研究團隊深入分析了為什么LIFT在長文本描述上比CLIP表現(xiàn)更好。他們發(fā)現(xiàn)了兩個關鍵因素:
第一個因素是"逆效應"(inverse effect)。這種現(xiàn)象指的是CLIP在完整長度的合成文本描述上訓練時會產(chǎn)生次優(yōu)的零樣本性能,但隨著文本描述逐步截斷,性能會有明顯提升。這可能是因為合成文本描述(通常由微調(diào)過的視覺語言模型生成)具有同質(zhì)的語法結構,這會扭曲原始文本分布并成為模型的"捷徑特征"。
研究人員發(fā)現(xiàn),CLIP的文本編碼器在從頭訓練時容易被這種捷徑特征誤導。通過計算從Recap-DataComp-1B隨機抽取的1000個文本描述的平均成對余弦相似度,他們發(fā)現(xiàn)CLIP的文本編碼器過度強調(diào)語法相似性,對語法相似但語義不同的文本對給出較高的相似度分數(shù)(平均24.0)。相比之下,LIFT使用預訓練在大規(guī)模數(shù)據(jù)上的LLM作為文本編碼器,產(chǎn)生的嵌入空間對語法同質(zhì)性更具魯棒性,更專注于語義內(nèi)容,對這類誤導性文本對給出顯著更低的相似度分數(shù)(平均19.0)。
第二個因素是文本編碼器的表達能力。LIFT使用的NV-Embed-V2有70億參數(shù),而CLIP的文本編碼器只有6300萬參數(shù)。盡管LIFT的文本編碼器規(guī)模更大,但由于使用離線嵌入,在處理長文本描述時仍比CLIP更高效。
六、什么樣的LLM文本編碼器適合LIFT?
研究團隊還探討了哪些設計選擇能讓LLM成為LIFT的有效文本編碼器。他們測試了五種代表性的LLM:
1. 兩種原始LLM:Mistral-7B-V0.1和Vicuna-7B-V0.1 2. 三種經(jīng)過對比學習微調(diào)的LLM:SFR-Embed-Mistral、Linq-Embed-Mistral和NV-Embed-V2
實驗結果顯示,兩種原始LLM的表現(xiàn)明顯落后于微調(diào)后的模型。例如,在ImageNet-1K零樣本分類任務上,它們平均準確率低22.8%。原始的Mistral-7B-V0.1在SugarCrepe的replace relation任務上甚至表現(xiàn)不如隨機猜測。
這表明LLM并非天生就是有效的文本編碼器,對比學習微調(diào)是必要的。另一方面,三種經(jīng)過微調(diào)的模型表現(xiàn)相當,這表明句子結束標記就能準確編碼輸入文本,而NV-Embed-V2的額外潛在注意力層等高級嵌入提取機制可能不是必需的。
七、簡化對比學習:余弦相似度損失也有效
研究團隊還探討了是否可以簡化LIFT的訓練目標。傳統(tǒng)上,CLIP使用對比InfoNCE損失來避免模式崩潰(即無論輸入如何,文本和圖像編碼器都輸出相同的結果)。這種方法計算密集,F(xiàn)LOPs和內(nèi)存消耗隨批量大小B的平方增長O(B?),同時還需要大批量以確保足夠的負樣本。
由于LIFT的文本嵌入空間是固定的,模式崩潰不再是問題。因此,研究人員嘗試了一個簡單的余弦相似度損失,它只計算正文本-圖像對之間的相似度,不涉及負樣本。這種簡單損失的FLOPs和內(nèi)存復雜度僅隨批量大小線性增長O(B),并且不依賴負樣本,從而減輕了批量大小的限制。
實驗表明,這種簡單的余弦相似度損失在組合理解任務和LLaVA下游任務上表現(xiàn)與對比損失相當。特別是在長文本訓練時,使用簡單余弦相似度損失的LIFT在英文和中文MMBench上甚至優(yōu)于其對比損失變體。然而,在零樣本檢索任務上,特別是在短網(wǎng)絡抓取文本上訓練時,它的表現(xiàn)明顯下降。這可能是因為對比損失通過使用負樣本鼓勵更具判別性的表示,這對分類和檢索任務有利。
八、LIFT的局限性與未來方向
盡管LIFT表現(xiàn)出色,研究人員也坦誠承認其局限性。LIFT在捕捉組合信息方面的能力仍然不完整,特別是在交換對象(swap object)和交換屬性(swap attribute)任務上,相比其他SugarCrepe任務,準確率相對較低。研究人員認為這一局限可能源于對比學習目標仍然主要關注對齊低階統(tǒng)計信息。應對這一挑戰(zhàn)需要探索更精細的信息論度量來進行語言-圖像對齊,這是未來工作的一個重要方向。
此外,由于計算資源限制,研究團隊無法評估LIFT在超過12.8億訓練樣本時的可擴展性。他們承認CLIP及其變體可能表現(xiàn)出更有利的擴展行為,因為它們聯(lián)合訓練文本和圖像編碼器,而LIFT保持其文本編碼器凍結。先前研究表明,選擇性解凍LLM的最后四層可以顯著提高圖像編碼器的可擴展性,而不會產(chǎn)生過高的計算成本。如何在主流語言-圖像對齊管道中高效微調(diào)LLM仍是未來工作的重要方向。
九、總結:文本編碼器不必從零訓練
歸根結底,伯克利大學的這項研究挑戰(zhàn)了視覺語言模型訓練的核心假設——文本和圖像編碼器必須從頭開始聯(lián)合訓練才能達到最佳的語言-圖像對齊效果。LIFT證明,使用預訓練的LLM作為固定文本編碼器,只訓練圖像編碼器就能達到甚至超越CLIP的效果,特別是在需要理解組合信息和處理長文本描述的場景中。
這種方法不僅大幅提高了計算效率,還在多項任務上取得了卓越表現(xiàn)。特別是,LIFT解決了CLIP在處理組合信息方面的短板,如空間位置、對象-屬性關聯(lián)和對象-對象關系的理解。
LIFT的成功啟示我們,大型語言模型已經(jīng)捕獲了豐富的語言表示,可以有效指導視覺表示學習,而無需從頭訓練文本編碼器。這種方法為視覺語言模型的發(fā)展提供了一條更高效、更有效的路徑。
對于研究人員和工程師來說,LIFT提供了一種新的思路:利用現(xiàn)有的強大語言模型來指導其他模態(tài)的表示學習,而不是每次都從零開始。這種方法可能適用于更廣泛的多模態(tài)學習場景,如音頻-文本對齊、視頻-文本對齊等。
對于普通用戶來說,LIFT的進步意味著未來的AI系統(tǒng)將更好地理解圖像中的復雜關系和細節(jié),能夠更準確地回答關于圖像中"誰在做什么"、"什么在哪里"等問題,從而提供更自然、更智能的人機交互體驗。
好文章,需要你的鼓勵
新加坡國立大學研究團隊開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實驗顯示,僅訓練AI玩簡單撲克游戲就能讓其數(shù)學推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學題目作為訓練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉移到數(shù)學解題中,為AI訓練提供了新思路。
同濟大學團隊開發(fā)的GIGA-ToF技術通過融合多幀圖像的"圖結構"信息,創(chuàng)新性地解決了3D相機噪聲問題。該技術利用圖像間的不變幾何關系,結合深度學習和數(shù)學優(yōu)化方法,在合成數(shù)據(jù)集上實現(xiàn)37.9%的精度提升,并在真實設備上展現(xiàn)出色泛化能力,為機器人、AR和自動駕駛等領域提供更可靠的3D視覺解決方案。
伊利諾伊大學研究團隊通過對比實驗發(fā)現(xiàn),經(jīng)過強化學習訓練的視覺語言模型雖然表現(xiàn)出"頓悟時刻"現(xiàn)象,但這些自我糾錯行為并不能實際提升推理準確率。研究揭示了AI模型存在"生成-驗證差距",即生成答案的能力強于驗證答案質(zhì)量的能力,且模型在自我驗證時無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機構聯(lián)合提出SparseLoRA技術,通過動態(tài)稀疏性實現(xiàn)大語言模型訓練加速1.6倍,計算成本降低2.2倍。該方法使用SVD稀疏性估計器智能選擇重要計算部分,在保持模型性能的同時顯著提升訓練效率,已在多個任務上驗證有效性。