在人工智能視覺語言模型的發(fā)展中,如何讓計算機理解圖像與文本之間的關(guān)系一直是一個核心挑戰(zhàn)。2024年6月,來自加州大學伯克利分校和香港大學的研究團隊在arXiv上發(fā)表了一篇題為《Language-Image Alignment with Fixed Text Encoders》(使用固定文本編碼器的語言-圖像對齊)的研究論文,對當前主流的視覺語言模型訓練方法提出了質(zhì)疑和創(chuàng)新。論文的主要作者包括Jingfeng Yang、Ziyang Wu、Yue Zhao和Yi Ma,他們的研究代碼和模型已在GitHub上開源(https://github.com/Jingfeng0705/LIFT)。
一、CLIP模型的問題:昂貴且不夠理解復雜關(guān)系
想象一下,你有一位朋友可以準確地把任何圖片和文字描述配對起來。這位朋友是如何學會這項技能的?在人工智能領(lǐng)域,目前的主流方法就像是強迫兩個初學者(一個負責理解圖像,一個負責理解文本)從零開始一起學習,直到他們能夠默契配合。這種方法被稱為CLIP(Contrastive Language-Image Pre-training,對比語言-圖像預訓練),由OpenAI在2021年推出。
CLIP模型就像兩個大腦同時學習:一個圖像大腦和一個文本大腦,它們一起被訓練來理解"這張圖片和這段文字是否匹配"。這種方法雖然有效,但存在兩個明顯的問題:
首先,這種"雙腦"同時訓練非常昂貴。想象一下同時培訓兩位專家而不是一位,這需要大量的計算資源和訓練數(shù)據(jù)。研究表明,CLIP模型需要極大的批處理大小和海量的訓練樣本才能達到良好效果。
其次,CLIP模型在理解復雜的組合信息方面表現(xiàn)不佳。比如,它難以準確理解文本中的詞序("貓追狗"和"狗追貓"是不同的)、圖像中的空間位置關(guān)系("蘋果在盤子上"和"盤子在蘋果上"是不同的)、對象與屬性的關(guān)聯(lián)("紅色的車和藍色的房子"與"藍色的車和紅色的房子"是不同的)以及物體之間的關(guān)系。這就像是能認出畫面中有"狗"和"球",但分不清"狗在玩球"和"球在狗上面"的區(qū)別。
為什么會這樣?研究人員認為,CLIP的訓練方式鼓勵模型采取"捷徑策略"——它傾向于丟棄與組合信息相關(guān)的特征,只關(guān)注簡單的對象識別。
二、LIFT:只訓練一個大腦,讓另一個專家來指導
伯克利大學的研究團隊提出了一個有趣的問題:我們真的需要同時訓練兩個大腦嗎?如果我們已經(jīng)有了一個精通語言的專家(大型語言模型,LLM),為什么不直接讓它來指導圖像理解呢?
這就是他們提出的LIFT(Language-Image alignment with a Fixed Text encoder,使用固定文本編碼器的語言-圖像對齊)方法的核心思想。LIFT就像是讓一位已經(jīng)精通多國語言的翻譯(LLM)來教導一位攝影師(圖像編碼器)理解照片的含義。具體來說:
1. 使用一個預先訓練好并微調(diào)過的大型語言模型作為固定的文本編碼器 2. 在訓練開始前,用這個文本編碼器預先處理所有文本描述,得到它們的語義表示 3. 只訓練圖像編碼器,讓它學習將圖像映射到與對應(yīng)文本描述相匹配的表示空間
這種方法有點像老師(LLM文本編碼器)已經(jīng)準備好了所有的答案(文本嵌入),學生(圖像編碼器)只需要學習如何將自己的理解(圖像嵌入)與老師的答案對齊。
研究團隊的核心假設(shè)是:大型語言模型已經(jīng)具備足夠好的文本理解能力,可以為視覺表示學習提供良好的指導,無需再從頭訓練文本編碼器。
三、LIFT方法的技術(shù)細節(jié):簡單而高效
從技術(shù)角度看,LIFT采用了與CLIP相似的雙編碼器架構(gòu),但有一個關(guān)鍵區(qū)別:LIFT使用預訓練的LLM(具體是NV-Embed-V2)作為固定的文本編碼器,只訓練圖像編碼器部分。
在訓練流程上,LIFT首先離線計算所有訓練文本的嵌入表示。具體來說,對于每段文本T,使用固定的文本編碼器ftext生成其嵌入表示zT。然后,在實際訓練過程中,LIFT只優(yōu)化圖像編碼器fimg和投影頭fhead,讓它們學習將圖像I映射到與對應(yīng)文本嵌入相匹配的表示空間zI。
這種預計算文本嵌入的方法帶來了顯著的效率提升。數(shù)據(jù)顯示,與CLIP相比,LIFT在處理短文本描述時可減少約25.5%的計算量(FLOPs),處理長文本描述時可減少約35.7%的計算量。內(nèi)存使用方面,LIFT比CLIP分別節(jié)省了6.8%(短文本)和12.6%(長文本)。
更重要的是,當文本長度增加時,CLIP的計算復雜度呈平方增長O(n?),而LIFT則保持恒定O(1),因為文本編碼是預先完成的。這使得LIFT特別適合處理長文本描述的情況。
四、實驗結(jié)果:LIFT在多項任務(wù)上優(yōu)于CLIP
研究團隊進行了大量實驗,使用ViT-B/16作為視覺骨干網(wǎng)絡(luò),在包含4億文本-圖像對的數(shù)據(jù)集上訓練模型。每張圖像有兩種文本描述:一種是從網(wǎng)絡(luò)抓取的短描述,另一種是由模型生成的長描述。為確保公平比較,LIFT和CLIP使用完全相同的超參數(shù)訓練。
研究發(fā)現(xiàn),LIFT在以下幾個方面表現(xiàn)優(yōu)異:
1. **組合理解能力**:在SugarCrepe基準測試的七個任務(wù)上,LIFT平均比CLIP高出6.8%的準確率。特別是在涉及屬性添加、屬性替換和關(guān)系替換的任務(wù)上,LIFT表現(xiàn)出顯著優(yōu)勢。這表明LIFT能更好地理解對象與屬性的關(guān)聯(lián)以及對象間的關(guān)系。
例如,給定一張時鐘掛在建筑物角落的圖片,LIFT能正確選擇"A large four sided clock hangs on the corner of the building"(一個大型四面鐘掛在建筑物的角落),而CLIP錯誤地選擇了"A large four sided clock leans against the corner of the building"(一個大型四面鐘靠在建筑物的角落)。
2. **下游任務(wù)表現(xiàn)**:當作為LLaVA多模態(tài)大模型的視覺塔時,LIFT在六項下游任務(wù)中的五項上超過了CLIP。特別是在MMBench(英語和中文)測試中,LIFT表現(xiàn)出色,在屬性推理、精細感知和關(guān)系推理等子任務(wù)上取得顯著提升。
3. **零樣本檢索能力**:在ImageNet-1K分類和跨模態(tài)檢索任務(wù)上,當訓練在短文本描述上時,LIFT與CLIP表現(xiàn)相當;但當訓練在長文本描述上時,LIFT在所有這些任務(wù)上平均領(lǐng)先CLIP 11.0%。
這些結(jié)果表明,LIFT不僅計算效率更高,而且在多種任務(wù)上表現(xiàn)更好,特別是在需要理解復雜組合信息的場景中。
五、為什么LIFT比CLIP更擅長處理長文本?
研究團隊深入分析了為什么LIFT在長文本描述上比CLIP表現(xiàn)更好。他們發(fā)現(xiàn)了兩個關(guān)鍵因素:
第一個因素是"逆效應(yīng)"(inverse effect)。這種現(xiàn)象指的是CLIP在完整長度的合成文本描述上訓練時會產(chǎn)生次優(yōu)的零樣本性能,但隨著文本描述逐步截斷,性能會有明顯提升。這可能是因為合成文本描述(通常由微調(diào)過的視覺語言模型生成)具有同質(zhì)的語法結(jié)構(gòu),這會扭曲原始文本分布并成為模型的"捷徑特征"。
研究人員發(fā)現(xiàn),CLIP的文本編碼器在從頭訓練時容易被這種捷徑特征誤導。通過計算從Recap-DataComp-1B隨機抽取的1000個文本描述的平均成對余弦相似度,他們發(fā)現(xiàn)CLIP的文本編碼器過度強調(diào)語法相似性,對語法相似但語義不同的文本對給出較高的相似度分數(shù)(平均24.0)。相比之下,LIFT使用預訓練在大規(guī)模數(shù)據(jù)上的LLM作為文本編碼器,產(chǎn)生的嵌入空間對語法同質(zhì)性更具魯棒性,更專注于語義內(nèi)容,對這類誤導性文本對給出顯著更低的相似度分數(shù)(平均19.0)。
第二個因素是文本編碼器的表達能力。LIFT使用的NV-Embed-V2有70億參數(shù),而CLIP的文本編碼器只有6300萬參數(shù)。盡管LIFT的文本編碼器規(guī)模更大,但由于使用離線嵌入,在處理長文本描述時仍比CLIP更高效。
六、什么樣的LLM文本編碼器適合LIFT?
研究團隊還探討了哪些設(shè)計選擇能讓LLM成為LIFT的有效文本編碼器。他們測試了五種代表性的LLM:
1. 兩種原始LLM:Mistral-7B-V0.1和Vicuna-7B-V0.1 2. 三種經(jīng)過對比學習微調(diào)的LLM:SFR-Embed-Mistral、Linq-Embed-Mistral和NV-Embed-V2
實驗結(jié)果顯示,兩種原始LLM的表現(xiàn)明顯落后于微調(diào)后的模型。例如,在ImageNet-1K零樣本分類任務(wù)上,它們平均準確率低22.8%。原始的Mistral-7B-V0.1在SugarCrepe的replace relation任務(wù)上甚至表現(xiàn)不如隨機猜測。
這表明LLM并非天生就是有效的文本編碼器,對比學習微調(diào)是必要的。另一方面,三種經(jīng)過微調(diào)的模型表現(xiàn)相當,這表明句子結(jié)束標記就能準確編碼輸入文本,而NV-Embed-V2的額外潛在注意力層等高級嵌入提取機制可能不是必需的。
七、簡化對比學習:余弦相似度損失也有效
研究團隊還探討了是否可以簡化LIFT的訓練目標。傳統(tǒng)上,CLIP使用對比InfoNCE損失來避免模式崩潰(即無論輸入如何,文本和圖像編碼器都輸出相同的結(jié)果)。這種方法計算密集,F(xiàn)LOPs和內(nèi)存消耗隨批量大小B的平方增長O(B?),同時還需要大批量以確保足夠的負樣本。
由于LIFT的文本嵌入空間是固定的,模式崩潰不再是問題。因此,研究人員嘗試了一個簡單的余弦相似度損失,它只計算正文本-圖像對之間的相似度,不涉及負樣本。這種簡單損失的FLOPs和內(nèi)存復雜度僅隨批量大小線性增長O(B),并且不依賴負樣本,從而減輕了批量大小的限制。
實驗表明,這種簡單的余弦相似度損失在組合理解任務(wù)和LLaVA下游任務(wù)上表現(xiàn)與對比損失相當。特別是在長文本訓練時,使用簡單余弦相似度損失的LIFT在英文和中文MMBench上甚至優(yōu)于其對比損失變體。然而,在零樣本檢索任務(wù)上,特別是在短網(wǎng)絡(luò)抓取文本上訓練時,它的表現(xiàn)明顯下降。這可能是因為對比損失通過使用負樣本鼓勵更具判別性的表示,這對分類和檢索任務(wù)有利。
八、LIFT的局限性與未來方向
盡管LIFT表現(xiàn)出色,研究人員也坦誠承認其局限性。LIFT在捕捉組合信息方面的能力仍然不完整,特別是在交換對象(swap object)和交換屬性(swap attribute)任務(wù)上,相比其他SugarCrepe任務(wù),準確率相對較低。研究人員認為這一局限可能源于對比學習目標仍然主要關(guān)注對齊低階統(tǒng)計信息。應(yīng)對這一挑戰(zhàn)需要探索更精細的信息論度量來進行語言-圖像對齊,這是未來工作的一個重要方向。
此外,由于計算資源限制,研究團隊無法評估LIFT在超過12.8億訓練樣本時的可擴展性。他們承認CLIP及其變體可能表現(xiàn)出更有利的擴展行為,因為它們聯(lián)合訓練文本和圖像編碼器,而LIFT保持其文本編碼器凍結(jié)。先前研究表明,選擇性解凍LLM的最后四層可以顯著提高圖像編碼器的可擴展性,而不會產(chǎn)生過高的計算成本。如何在主流語言-圖像對齊管道中高效微調(diào)LLM仍是未來工作的重要方向。
九、總結(jié):文本編碼器不必從零訓練
歸根結(jié)底,伯克利大學的這項研究挑戰(zhàn)了視覺語言模型訓練的核心假設(shè)——文本和圖像編碼器必須從頭開始聯(lián)合訓練才能達到最佳的語言-圖像對齊效果。LIFT證明,使用預訓練的LLM作為固定文本編碼器,只訓練圖像編碼器就能達到甚至超越CLIP的效果,特別是在需要理解組合信息和處理長文本描述的場景中。
這種方法不僅大幅提高了計算效率,還在多項任務(wù)上取得了卓越表現(xiàn)。特別是,LIFT解決了CLIP在處理組合信息方面的短板,如空間位置、對象-屬性關(guān)聯(lián)和對象-對象關(guān)系的理解。
LIFT的成功啟示我們,大型語言模型已經(jīng)捕獲了豐富的語言表示,可以有效指導視覺表示學習,而無需從頭訓練文本編碼器。這種方法為視覺語言模型的發(fā)展提供了一條更高效、更有效的路徑。
對于研究人員和工程師來說,LIFT提供了一種新的思路:利用現(xiàn)有的強大語言模型來指導其他模態(tài)的表示學習,而不是每次都從零開始。這種方法可能適用于更廣泛的多模態(tài)學習場景,如音頻-文本對齊、視頻-文本對齊等。
對于普通用戶來說,LIFT的進步意味著未來的AI系統(tǒng)將更好地理解圖像中的復雜關(guān)系和細節(jié),能夠更準確地回答關(guān)于圖像中"誰在做什么"、"什么在哪里"等問題,從而提供更自然、更智能的人機交互體驗。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機制和漸進式訓練,能夠?qū)碗s指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學習外觀和運動信息,顯著解決了當前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓練數(shù)據(jù)集和MM-AlignBench評測基準,通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預報,準確性超越傳統(tǒng)方法90%的指標。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學習40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學領(lǐng)域帶來了效率和精度的雙重突破。