這項(xiàng)由北京人工智能研究院的王文軒、張帆、崔玉峰、刁海文等研究者聯(lián)合中國(guó)科學(xué)院自動(dòng)化研究所、中國(guó)科學(xué)院大學(xué)、大連理工大學(xué)及清華大學(xué)的研究團(tuán)隊(duì)共同完成的研究《端到端視覺令牌化調(diào)優(yōu)》(End-to-End Vision Tokenizer Tuning)發(fā)表于2025年5月15日的arXiv預(yù)印本網(wǎng)站(arXiv:2505.10562v1)。該研究提出了一種簡(jiǎn)單而高效的方法,顯著提升了多模態(tài)理解和視覺生成任務(wù)的性能。
一、為什么我們需要更好的視覺令牌化?
想象一下,你正在教一個(gè)機(jī)器人認(rèn)識(shí)世界。你需要將豐富多彩的圖像轉(zhuǎn)化為機(jī)器人能理解的語言。目前的方法就像是先請(qǐng)一位翻譯(視覺令牌化器)將圖像轉(zhuǎn)換成一系列代碼,然后再讓機(jī)器人(大語言模型)去理解這些代碼。但問題是,這位翻譯在培訓(xùn)時(shí)只專注于保留圖像的基本外觀信息,并不關(guān)心機(jī)器人最終需要理解的高級(jí)概念。
這就是當(dāng)前視覺令牌化的困境。研究團(tuán)隊(duì)發(fā)現(xiàn),現(xiàn)有的方法將視覺令牌化器的優(yōu)化與下游任務(wù)訓(xùn)練完全隔離開來,盲目假設(shè)這些視覺令牌可以在各種任務(wù)中表現(xiàn)良好。就像一個(gè)只學(xué)會(huì)了描述物體外形而不理解物體功能的翻譯,無法幫助機(jī)器人理解"這是一把可以用來切菜的刀"這樣的概念。
更具體地說,目前為低級(jí)重建而優(yōu)化的視覺令牌化器對(duì)需要各種表示和語義的下游任務(wù)是不敏感的。這種解耦范式引入了一個(gè)關(guān)鍵的錯(cuò)位:視覺令牌化過程中的信息損失可能成為目標(biāo)任務(wù)的表示瓶頸。例如,當(dāng)視覺令牌化器無法準(zhǔn)確識(shí)別圖像中的文本時(shí),就會(huì)導(dǎo)致在識(shí)別或生成這些文本時(shí)出現(xiàn)糟糕的結(jié)果。
二、ETT方法:讓視覺令牌化與下游任務(wù)協(xié)同工作
為了解決這一問題,研究團(tuán)隊(duì)提出了端到端視覺令牌化調(diào)優(yōu)(End-to-End Tokenizer Tuning,簡(jiǎn)稱ETT)方法。這就像是讓翻譯和機(jī)器人一起學(xué)習(xí),使翻譯能夠根據(jù)機(jī)器人的需求調(diào)整自己的翻譯策略。
與之前的自回歸模型不同,傳統(tǒng)方法只使用來自凍結(jié)視覺令牌化器的離散索引,而ETT利用了令牌化器碼本的視覺嵌入,并通過重建和描述目標(biāo)端到端優(yōu)化視覺令牌化器。
具體來說,ETT方法包含以下關(guān)鍵創(chuàng)新:
首先,ETT從使用離散索引轉(zhuǎn)向使用碼本嵌入。傳統(tǒng)方法就像只給機(jī)器人提供數(shù)字編號(hào)("這是物體1,那是物體2"),而ETT則提供了更豐富的描述("這是一個(gè)紅色的、圓形的、光滑的物體")。
其次,ETT建立了一個(gè)端到端的優(yōu)化框架。通過使用大語言模型作為視覺令牌化器的"顧問",ETT能夠在保持視覺令牌化器重建能力的同時(shí),優(yōu)化其對(duì)下游任務(wù)的表示能力。
第三,ETT實(shí)現(xiàn)簡(jiǎn)單且易于集成。它不需要調(diào)整原始碼本或大語言模型的架構(gòu),可以無縫集成到現(xiàn)有系統(tǒng)中。
三、ETT的技術(shù)實(shí)現(xiàn):巧妙連接視覺與語言
ETT的實(shí)現(xiàn)可以比作建造一座連接兩個(gè)島嶼(視覺和語言)的橋梁。這座橋不僅允許雙向通行,還能根據(jù)通行需求不斷調(diào)整和強(qiáng)化自身結(jié)構(gòu)。
在技術(shù)層面,ETT主要包含以下幾個(gè)關(guān)鍵組件:
視覺令牌化器:研究團(tuán)隊(duì)采用了IBQ(一種高性能的視覺令牌化方法)作為基礎(chǔ),它使用了下采樣因子s=16,每個(gè)離散令牌在碼本中的維度為D=256,調(diào)整后的碼本大小為131,072。簡(jiǎn)單來說,就像是為圖像創(chuàng)建了一本包含131,072個(gè)詞條的視覺詞典,每個(gè)詞條都有256個(gè)特征來描述它。
碼本嵌入與離散索引的轉(zhuǎn)換:不同于僅使用離散索引的方法(如Emu3),ETT直接將視覺令牌化器的碼本嵌入連接到大語言模型,有效利用視覺令牌化器中編碼的更豐富的特征表示,同時(shí)實(shí)現(xiàn)端到端訓(xùn)練。就像是不僅告訴機(jī)器人"這是物體1",還告訴它"物體1是紅色的、圓形的、光滑的"。
保留重建能力:為了確保高保真圖像合成,ETT將整體訓(xùn)練目標(biāo)設(shè)置為描述損失Lcap和VQ損失Lvq的組合。這就像教導(dǎo)翻譯不僅要準(zhǔn)確傳達(dá)意思,還要保持原文的風(fēng)格和細(xì)節(jié)。
訓(xùn)練流程:ETT的訓(xùn)練分為三個(gè)連續(xù)階段。第一階段是對(duì)齊學(xué)習(xí),建立視覺-語言的初步連接;第二階段是語義學(xué)習(xí),這是整個(gè)訓(xùn)練流程中最關(guān)鍵的部分,實(shí)現(xiàn)端到端視覺令牌化調(diào)優(yōu);第三階段是后訓(xùn)練,根據(jù)特定任務(wù)需求進(jìn)一步優(yōu)化模型。
四、ETT帶來的顯著性能提升
研究團(tuán)隊(duì)在多項(xiàng)任務(wù)上評(píng)估了ETT的性能,結(jié)果令人印象深刻。與凍結(jié)令牌化器基線相比,ETT在多模態(tài)理解和視覺生成任務(wù)上分別帶來了2-6%的性能提升。
在多模態(tài)理解任務(wù)方面,ETT在各種廣泛使用的視覺-語言感知基準(zhǔn)測(cè)試中表現(xiàn)出色,涵蓋了特定任務(wù)評(píng)估(GQA和TextVQA)、幻覺檢測(cè)(POPE)、開放域多模態(tài)理解(MME、MMBench、SEED-Bench和MMVet)以及科學(xué)推理(ScienceQA-IMG)。
即使與更大模型和更多數(shù)據(jù)訓(xùn)練的模型相比,ETT也表現(xiàn)出色。例如,與Chameleon、LWM和Liquid等模型相比,ETT盡管使用了更小的模型和更少的數(shù)據(jù),但仍實(shí)現(xiàn)了更好的性能。這突顯了ETT端到端調(diào)優(yōu)策略的有效性。
在視覺生成任務(wù)方面,ETT在GenEval和T2I-CompBench等廣泛采用的基準(zhǔn)數(shù)據(jù)集上實(shí)現(xiàn)了具有競(jìng)爭(zhēng)力的性能。特別是在推理配置為top-k=131,072和top-p=1.0時(shí),ETT在GenEval數(shù)據(jù)集上獲得了0.63的總體分?jǐn)?shù),優(yōu)于先進(jìn)的擴(kuò)散模型如SDXL。此外,ETT在T2I-CompBench數(shù)據(jù)集上在顏色、形狀和紋理模式方面分別獲得了81.03、58.19和72.14的分?jǐn)?shù),展示了與最先進(jìn)的擴(kuò)散模型相當(dāng)?shù)男阅堋?/p>
五、深入理解ETT的優(yōu)勢(shì)與權(quán)衡
為了驗(yàn)證ETT對(duì)下游多模態(tài)生成和理解任務(wù)的有效性,研究團(tuán)隊(duì)進(jìn)行了全面的消融研究。
首先,研究團(tuán)隊(duì)探討了ETT促進(jìn)多模態(tài)下游任務(wù)的有效性。結(jié)果顯示,引入ETT在理解和生成任務(wù)上都帶來了顯著的性能提升。具體而言,用碼本嵌入替代離散索引部分緩解了信息損失問題,在多模態(tài)理解基準(zhǔn)測(cè)試中帶來了顯著的性能提升。雖然這種替換降低了視覺生成性能,但它建立了一個(gè)完全可微的模型架構(gòu),允許進(jìn)行端到端優(yōu)化。在此基礎(chǔ)上,進(jìn)一步端到端調(diào)整視覺令牌化器相比傳統(tǒng)設(shè)置提高了理解和生成任務(wù)的性能,特別是在嚴(yán)重依賴視覺特征的任務(wù)上(例如,在一般視覺問答和光學(xué)字符識(shí)別上分別提高了5%和6%)。
其次,研究團(tuán)隊(duì)調(diào)查了ETT中視覺重建和多模態(tài)理解之間的內(nèi)在任務(wù)權(quán)衡。結(jié)果表明,與未調(diào)整的基線相比,調(diào)整視覺令牌化器始終為理解任務(wù)帶來顯著收益,盡管以重建性能下降為代價(jià)。具體而言,僅用圖像到文本理解任務(wù)調(diào)整視覺令牌化器在各種理解基準(zhǔn)測(cè)試中產(chǎn)生最佳性能,但重建性能大幅下降,即在ImageNet 256×256設(shè)置中,rFID從1.033下降到45.701。引入具有小權(quán)重0.25的輔助重建目標(biāo)略微降低了理解準(zhǔn)確性,同時(shí)顯著提高了重建性能(45.701到1.648),表明聯(lián)合訓(xùn)練理解和重建任務(wù)的重要性。
研究團(tuán)隊(duì)還可視化了引入ETT前后的重建結(jié)果。結(jié)果顯示,經(jīng)過ETT調(diào)整的視覺令牌化器生成的視覺細(xì)節(jié)與未調(diào)整的相當(dāng),甚至在某些方面如文本渲染方面有所增強(qiáng)。這表明ETT不僅保留了原始豐富的低級(jí)細(xì)節(jié)表示,還改進(jìn)了高級(jí)語義表示。
六、ETT的應(yīng)用前景與未來發(fā)展
ETT方法的成功為多模態(tài)基礎(chǔ)模型的發(fā)展帶來了新的機(jī)遇。通過解決視覺令牌化器的表示瓶頸問題,ETT為構(gòu)建更強(qiáng)大的多模態(tài)理解和生成系統(tǒng)鋪平了道路。
未來的研究方向可能包括進(jìn)一步擴(kuò)展端到端調(diào)優(yōu)的規(guī)模和應(yīng)用范圍。一個(gè)潛在的局限是目前的端到端微調(diào)數(shù)據(jù)規(guī)模和模型容量可能需要進(jìn)一步擴(kuò)展,以增強(qiáng)視覺表示和下游任務(wù)性能。此外,當(dāng)前方法主要專注于優(yōu)化現(xiàn)有視覺令牌化器的視覺特征,未來可以探索從頭開始端到端訓(xùn)練視覺令牌化器,創(chuàng)建一個(gè)更全面、更適應(yīng)性強(qiáng)的多模態(tài)任務(wù)表示。
另一個(gè)令人興奮的方向是超越圖像和文本模態(tài),將ETT方法擴(kuò)展到視頻和音頻等其他模態(tài)。這將進(jìn)一步推動(dòng)多模態(tài)基礎(chǔ)模型的發(fā)展,超越視覺生成和理解的范疇。
正如研究團(tuán)隊(duì)所希望的,這種簡(jiǎn)單而強(qiáng)大的方法有望為多模態(tài)基礎(chǔ)模型的發(fā)展賦能,不僅限于圖像生成和理解,還可以擴(kuò)展到更廣泛的多模態(tài)應(yīng)用領(lǐng)域。
七、總結(jié):ETT開啟視覺令牌化的新范式
歸根結(jié)底,ETT方法提出了一種全新的視覺令牌化訓(xùn)練范式,解鎖了視覺令牌化器在下游自回歸任務(wù)中的潛力。通過使視覺令牌化器能夠感知并針對(duì)下游訓(xùn)練進(jìn)行優(yōu)化,ETT實(shí)現(xiàn)了視覺表示與多模態(tài)任務(wù)需求的更好對(duì)齊。
ETT的簡(jiǎn)單性和有效性令人印象深刻。它不需要復(fù)雜的架構(gòu)修改,卻能顯著提升多模態(tài)理解和生成任務(wù)的性能,同時(shí)保持良好的重建能力。這就像是教會(huì)了翻譯不僅要準(zhǔn)確翻譯單詞,還要理解上下文和意圖,從而提供更有用的翻譯結(jié)果。
對(duì)于普通用戶來說,ETT的進(jìn)步意味著未來的AI系統(tǒng)將更好地理解圖像內(nèi)容,能夠更準(zhǔn)確地回答關(guān)于圖像的問題,并能生成更符合描述的高質(zhì)量圖像。這將使人機(jī)交互更加自然和高效,為各種應(yīng)用如內(nèi)容創(chuàng)作、視覺搜索和輔助技術(shù)帶來顯著改進(jìn)。
有興趣深入了解這項(xiàng)研究的讀者可以通過arXiv:2505.10562訪問完整論文,了解更多技術(shù)細(xì)節(jié)和實(shí)驗(yàn)結(jié)果。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對(duì)話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。