av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁 解鎖視覺令牌化的全新潛能:北京人工智能研究院提出端到端視覺令牌化調(diào)優(yōu)方法

解鎖視覺令牌化的全新潛能:北京人工智能研究院提出端到端視覺令牌化調(diào)優(yōu)方法

2025-05-16 17:07
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-16 17:07 ? Hugging Face

這項(xiàng)由北京人工智能研究院的王文軒、張帆、崔玉峰、刁海文等研究者聯(lián)合中國(guó)科學(xué)院自動(dòng)化研究所、中國(guó)科學(xué)院大學(xué)、大連理工大學(xué)及清華大學(xué)的研究團(tuán)隊(duì)共同完成的研究《端到端視覺令牌化調(diào)優(yōu)》(End-to-End Vision Tokenizer Tuning)發(fā)表于2025年5月15日的arXiv預(yù)印本網(wǎng)站(arXiv:2505.10562v1)。該研究提出了一種簡(jiǎn)單而高效的方法,顯著提升了多模態(tài)理解和視覺生成任務(wù)的性能。

一、為什么我們需要更好的視覺令牌化?

想象一下,你正在教一個(gè)機(jī)器人認(rèn)識(shí)世界。你需要將豐富多彩的圖像轉(zhuǎn)化為機(jī)器人能理解的語言。目前的方法就像是先請(qǐng)一位翻譯(視覺令牌化器)將圖像轉(zhuǎn)換成一系列代碼,然后再讓機(jī)器人(大語言模型)去理解這些代碼。但問題是,這位翻譯在培訓(xùn)時(shí)只專注于保留圖像的基本外觀信息,并不關(guān)心機(jī)器人最終需要理解的高級(jí)概念。

這就是當(dāng)前視覺令牌化的困境。研究團(tuán)隊(duì)發(fā)現(xiàn),現(xiàn)有的方法將視覺令牌化器的優(yōu)化與下游任務(wù)訓(xùn)練完全隔離開來,盲目假設(shè)這些視覺令牌可以在各種任務(wù)中表現(xiàn)良好。就像一個(gè)只學(xué)會(huì)了描述物體外形而不理解物體功能的翻譯,無法幫助機(jī)器人理解"這是一把可以用來切菜的刀"這樣的概念。

更具體地說,目前為低級(jí)重建而優(yōu)化的視覺令牌化器對(duì)需要各種表示和語義的下游任務(wù)是不敏感的。這種解耦范式引入了一個(gè)關(guān)鍵的錯(cuò)位:視覺令牌化過程中的信息損失可能成為目標(biāo)任務(wù)的表示瓶頸。例如,當(dāng)視覺令牌化器無法準(zhǔn)確識(shí)別圖像中的文本時(shí),就會(huì)導(dǎo)致在識(shí)別或生成這些文本時(shí)出現(xiàn)糟糕的結(jié)果。

二、ETT方法:讓視覺令牌化與下游任務(wù)協(xié)同工作

為了解決這一問題,研究團(tuán)隊(duì)提出了端到端視覺令牌化調(diào)優(yōu)(End-to-End Tokenizer Tuning,簡(jiǎn)稱ETT)方法。這就像是讓翻譯和機(jī)器人一起學(xué)習(xí),使翻譯能夠根據(jù)機(jī)器人的需求調(diào)整自己的翻譯策略。

與之前的自回歸模型不同,傳統(tǒng)方法只使用來自凍結(jié)視覺令牌化器的離散索引,而ETT利用了令牌化器碼本的視覺嵌入,并通過重建和描述目標(biāo)端到端優(yōu)化視覺令牌化器。

具體來說,ETT方法包含以下關(guān)鍵創(chuàng)新:

首先,ETT從使用離散索引轉(zhuǎn)向使用碼本嵌入。傳統(tǒng)方法就像只給機(jī)器人提供數(shù)字編號(hào)("這是物體1,那是物體2"),而ETT則提供了更豐富的描述("這是一個(gè)紅色的、圓形的、光滑的物體")。

其次,ETT建立了一個(gè)端到端的優(yōu)化框架。通過使用大語言模型作為視覺令牌化器的"顧問",ETT能夠在保持視覺令牌化器重建能力的同時(shí),優(yōu)化其對(duì)下游任務(wù)的表示能力。

第三,ETT實(shí)現(xiàn)簡(jiǎn)單且易于集成。它不需要調(diào)整原始碼本或大語言模型的架構(gòu),可以無縫集成到現(xiàn)有系統(tǒng)中。

三、ETT的技術(shù)實(shí)現(xiàn):巧妙連接視覺與語言

ETT的實(shí)現(xiàn)可以比作建造一座連接兩個(gè)島嶼(視覺和語言)的橋梁。這座橋不僅允許雙向通行,還能根據(jù)通行需求不斷調(diào)整和強(qiáng)化自身結(jié)構(gòu)。

在技術(shù)層面,ETT主要包含以下幾個(gè)關(guān)鍵組件:

視覺令牌化器:研究團(tuán)隊(duì)采用了IBQ(一種高性能的視覺令牌化方法)作為基礎(chǔ),它使用了下采樣因子s=16,每個(gè)離散令牌在碼本中的維度為D=256,調(diào)整后的碼本大小為131,072。簡(jiǎn)單來說,就像是為圖像創(chuàng)建了一本包含131,072個(gè)詞條的視覺詞典,每個(gè)詞條都有256個(gè)特征來描述它。

碼本嵌入與離散索引的轉(zhuǎn)換:不同于僅使用離散索引的方法(如Emu3),ETT直接將視覺令牌化器的碼本嵌入連接到大語言模型,有效利用視覺令牌化器中編碼的更豐富的特征表示,同時(shí)實(shí)現(xiàn)端到端訓(xùn)練。就像是不僅告訴機(jī)器人"這是物體1",還告訴它"物體1是紅色的、圓形的、光滑的"。

保留重建能力:為了確保高保真圖像合成,ETT將整體訓(xùn)練目標(biāo)設(shè)置為描述損失Lcap和VQ損失Lvq的組合。這就像教導(dǎo)翻譯不僅要準(zhǔn)確傳達(dá)意思,還要保持原文的風(fēng)格和細(xì)節(jié)。

訓(xùn)練流程:ETT的訓(xùn)練分為三個(gè)連續(xù)階段。第一階段是對(duì)齊學(xué)習(xí),建立視覺-語言的初步連接;第二階段是語義學(xué)習(xí),這是整個(gè)訓(xùn)練流程中最關(guān)鍵的部分,實(shí)現(xiàn)端到端視覺令牌化調(diào)優(yōu);第三階段是后訓(xùn)練,根據(jù)特定任務(wù)需求進(jìn)一步優(yōu)化模型。

四、ETT帶來的顯著性能提升

研究團(tuán)隊(duì)在多項(xiàng)任務(wù)上評(píng)估了ETT的性能,結(jié)果令人印象深刻。與凍結(jié)令牌化器基線相比,ETT在多模態(tài)理解和視覺生成任務(wù)上分別帶來了2-6%的性能提升。

在多模態(tài)理解任務(wù)方面,ETT在各種廣泛使用的視覺-語言感知基準(zhǔn)測(cè)試中表現(xiàn)出色,涵蓋了特定任務(wù)評(píng)估(GQA和TextVQA)、幻覺檢測(cè)(POPE)、開放域多模態(tài)理解(MME、MMBench、SEED-Bench和MMVet)以及科學(xué)推理(ScienceQA-IMG)。

即使與更大模型和更多數(shù)據(jù)訓(xùn)練的模型相比,ETT也表現(xiàn)出色。例如,與Chameleon、LWM和Liquid等模型相比,ETT盡管使用了更小的模型和更少的數(shù)據(jù),但仍實(shí)現(xiàn)了更好的性能。這突顯了ETT端到端調(diào)優(yōu)策略的有效性。

在視覺生成任務(wù)方面,ETT在GenEval和T2I-CompBench等廣泛采用的基準(zhǔn)數(shù)據(jù)集上實(shí)現(xiàn)了具有競(jìng)爭(zhēng)力的性能。特別是在推理配置為top-k=131,072和top-p=1.0時(shí),ETT在GenEval數(shù)據(jù)集上獲得了0.63的總體分?jǐn)?shù),優(yōu)于先進(jìn)的擴(kuò)散模型如SDXL。此外,ETT在T2I-CompBench數(shù)據(jù)集上在顏色、形狀和紋理模式方面分別獲得了81.03、58.19和72.14的分?jǐn)?shù),展示了與最先進(jìn)的擴(kuò)散模型相當(dāng)?shù)男阅堋?/p>

五、深入理解ETT的優(yōu)勢(shì)與權(quán)衡

為了驗(yàn)證ETT對(duì)下游多模態(tài)生成和理解任務(wù)的有效性,研究團(tuán)隊(duì)進(jìn)行了全面的消融研究。

首先,研究團(tuán)隊(duì)探討了ETT促進(jìn)多模態(tài)下游任務(wù)的有效性。結(jié)果顯示,引入ETT在理解和生成任務(wù)上都帶來了顯著的性能提升。具體而言,用碼本嵌入替代離散索引部分緩解了信息損失問題,在多模態(tài)理解基準(zhǔn)測(cè)試中帶來了顯著的性能提升。雖然這種替換降低了視覺生成性能,但它建立了一個(gè)完全可微的模型架構(gòu),允許進(jìn)行端到端優(yōu)化。在此基礎(chǔ)上,進(jìn)一步端到端調(diào)整視覺令牌化器相比傳統(tǒng)設(shè)置提高了理解和生成任務(wù)的性能,特別是在嚴(yán)重依賴視覺特征的任務(wù)上(例如,在一般視覺問答和光學(xué)字符識(shí)別上分別提高了5%和6%)。

其次,研究團(tuán)隊(duì)調(diào)查了ETT中視覺重建和多模態(tài)理解之間的內(nèi)在任務(wù)權(quán)衡。結(jié)果表明,與未調(diào)整的基線相比,調(diào)整視覺令牌化器始終為理解任務(wù)帶來顯著收益,盡管以重建性能下降為代價(jià)。具體而言,僅用圖像到文本理解任務(wù)調(diào)整視覺令牌化器在各種理解基準(zhǔn)測(cè)試中產(chǎn)生最佳性能,但重建性能大幅下降,即在ImageNet 256×256設(shè)置中,rFID從1.033下降到45.701。引入具有小權(quán)重0.25的輔助重建目標(biāo)略微降低了理解準(zhǔn)確性,同時(shí)顯著提高了重建性能(45.701到1.648),表明聯(lián)合訓(xùn)練理解和重建任務(wù)的重要性。

研究團(tuán)隊(duì)還可視化了引入ETT前后的重建結(jié)果。結(jié)果顯示,經(jīng)過ETT調(diào)整的視覺令牌化器生成的視覺細(xì)節(jié)與未調(diào)整的相當(dāng),甚至在某些方面如文本渲染方面有所增強(qiáng)。這表明ETT不僅保留了原始豐富的低級(jí)細(xì)節(jié)表示,還改進(jìn)了高級(jí)語義表示。

六、ETT的應(yīng)用前景與未來發(fā)展

ETT方法的成功為多模態(tài)基礎(chǔ)模型的發(fā)展帶來了新的機(jī)遇。通過解決視覺令牌化器的表示瓶頸問題,ETT為構(gòu)建更強(qiáng)大的多模態(tài)理解和生成系統(tǒng)鋪平了道路。

未來的研究方向可能包括進(jìn)一步擴(kuò)展端到端調(diào)優(yōu)的規(guī)模和應(yīng)用范圍。一個(gè)潛在的局限是目前的端到端微調(diào)數(shù)據(jù)規(guī)模和模型容量可能需要進(jìn)一步擴(kuò)展,以增強(qiáng)視覺表示和下游任務(wù)性能。此外,當(dāng)前方法主要專注于優(yōu)化現(xiàn)有視覺令牌化器的視覺特征,未來可以探索從頭開始端到端訓(xùn)練視覺令牌化器,創(chuàng)建一個(gè)更全面、更適應(yīng)性強(qiáng)的多模態(tài)任務(wù)表示。

另一個(gè)令人興奮的方向是超越圖像和文本模態(tài),將ETT方法擴(kuò)展到視頻和音頻等其他模態(tài)。這將進(jìn)一步推動(dòng)多模態(tài)基礎(chǔ)模型的發(fā)展,超越視覺生成和理解的范疇。

正如研究團(tuán)隊(duì)所希望的,這種簡(jiǎn)單而強(qiáng)大的方法有望為多模態(tài)基礎(chǔ)模型的發(fā)展賦能,不僅限于圖像生成和理解,還可以擴(kuò)展到更廣泛的多模態(tài)應(yīng)用領(lǐng)域。

七、總結(jié):ETT開啟視覺令牌化的新范式

歸根結(jié)底,ETT方法提出了一種全新的視覺令牌化訓(xùn)練范式,解鎖了視覺令牌化器在下游自回歸任務(wù)中的潛力。通過使視覺令牌化器能夠感知并針對(duì)下游訓(xùn)練進(jìn)行優(yōu)化,ETT實(shí)現(xiàn)了視覺表示與多模態(tài)任務(wù)需求的更好對(duì)齊。

ETT的簡(jiǎn)單性和有效性令人印象深刻。它不需要復(fù)雜的架構(gòu)修改,卻能顯著提升多模態(tài)理解和生成任務(wù)的性能,同時(shí)保持良好的重建能力。這就像是教會(huì)了翻譯不僅要準(zhǔn)確翻譯單詞,還要理解上下文和意圖,從而提供更有用的翻譯結(jié)果。

對(duì)于普通用戶來說,ETT的進(jìn)步意味著未來的AI系統(tǒng)將更好地理解圖像內(nèi)容,能夠更準(zhǔn)確地回答關(guān)于圖像的問題,并能生成更符合描述的高質(zhì)量圖像。這將使人機(jī)交互更加自然和高效,為各種應(yīng)用如內(nèi)容創(chuàng)作、視覺搜索和輔助技術(shù)帶來顯著改進(jìn)。

有興趣深入了解這項(xiàng)研究的讀者可以通過arXiv:2505.10562訪問完整論文,了解更多技術(shù)細(xì)節(jié)和實(shí)驗(yàn)結(jié)果。

分享至
1贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-