av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<u id="5vvpf"><button id="5vvpf"></button></u>

<u id="5vvpf"><rp id="5vvpf"></rp></u>

<del id="5vvpf"></del>

<menuitem id="5vvpf"><pre id="5vvpf"></pre></menuitem>

<thead id="5vvpf"></thead>

首頁
對(duì)話創(chuàng)新
對(duì)話科技行者
機(jī)器人新紀(jì)元
AI論文解讀
聯(lián)系我們

微信掃一掃，關(guān)注公眾號(hào)

科技行者
算力行者

見證連接與計(jì)算的「力量」

解鎖視覺令牌化的全新潛能：北京人工智能研究院提出端到端視覺令牌化調(diào)優(yōu)方法

多模態(tài)學(xué)習(xí)視覺令牌化自回歸模型

解鎖視覺令牌化的全新潛能：北京人工智能研究院提出端到端視覺令牌化調(diào)優(yōu)方法

作者：Hugging Face

2025-05-16 17:07

分享至：

北京人工智能研究院等機(jī)構(gòu)研究團(tuán)隊(duì)提出的"端到端視覺令牌化調(diào)優(yōu)"(ETT)方法解決了視覺令牌化器在多模態(tài)任務(wù)中的表示瓶頸問題。與傳統(tǒng)方法不同，ETT利用令牌化器碼本嵌入代替離散索引，并通過重建和描述目標(biāo)端到端優(yōu)化視覺令牌化器。實(shí)驗(yàn)表明，該方法在保持重建能力的同時(shí)，為多模態(tài)理解和視覺生成任務(wù)帶來2-6%的性能提升，顯著超越現(xiàn)有離散令牌化方法，甚至接近連續(xù)編碼器的性能。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-05-16 17:07 ? Hugging Face

這項(xiàng)由北京人工智能研究院的王文軒、張帆、崔玉峰、刁海文等研究者聯(lián)合中國(guó)科學(xué)院自動(dòng)化研究所、中國(guó)科學(xué)院大學(xué)、大連理工大學(xué)及清華大學(xué)的研究團(tuán)隊(duì)共同完成的研究《端到端視覺令牌化調(diào)優(yōu)》(End-to-End Vision Tokenizer Tuning)發(fā)表于2025年5月15日的arXiv預(yù)印本網(wǎng)站（arXiv:2505.10562v1）。該研究提出了一種簡(jiǎn)單而高效的方法，顯著提升了多模態(tài)理解和視覺生成任務(wù)的性能。

一、為什么我們需要更好的視覺令牌化？

想象一下，你正在教一個(gè)機(jī)器人認(rèn)識(shí)世界。你需要將豐富多彩的圖像轉(zhuǎn)化為機(jī)器人能理解的語言。目前的方法就像是先請(qǐng)一位翻譯（視覺令牌化器）將圖像轉(zhuǎn)換成一系列代碼，然后再讓機(jī)器人（大語言模型）去理解這些代碼。但問題是，這位翻譯在培訓(xùn)時(shí)只專注于保留圖像的基本外觀信息，并不關(guān)心機(jī)器人最終需要理解的高級(jí)概念。

這就是當(dāng)前視覺令牌化的困境。研究團(tuán)隊(duì)發(fā)現(xiàn)，現(xiàn)有的方法將視覺令牌化器的優(yōu)化與下游任務(wù)訓(xùn)練完全隔離開來，盲目假設(shè)這些視覺令牌可以在各種任務(wù)中表現(xiàn)良好。就像一個(gè)只學(xué)會(huì)了描述物體外形而不理解物體功能的翻譯，無法幫助機(jī)器人理解"這是一把可以用來切菜的刀"這樣的概念。

更具體地說，目前為低級(jí)重建而優(yōu)化的視覺令牌化器對(duì)需要各種表示和語義的下游任務(wù)是不敏感的。這種解耦范式引入了一個(gè)關(guān)鍵的錯(cuò)位：視覺令牌化過程中的信息損失可能成為目標(biāo)任務(wù)的表示瓶頸。例如，當(dāng)視覺令牌化器無法準(zhǔn)確識(shí)別圖像中的文本時(shí)，就會(huì)導(dǎo)致在識(shí)別或生成這些文本時(shí)出現(xiàn)糟糕的結(jié)果。

二、ETT方法：讓視覺令牌化與下游任務(wù)協(xié)同工作

為了解決這一問題，研究團(tuán)隊(duì)提出了端到端視覺令牌化調(diào)優(yōu)（End-to-End Tokenizer Tuning，簡(jiǎn)稱ETT）方法。這就像是讓翻譯和機(jī)器人一起學(xué)習(xí)，使翻譯能夠根據(jù)機(jī)器人的需求調(diào)整自己的翻譯策略。

與之前的自回歸模型不同，傳統(tǒng)方法只使用來自凍結(jié)視覺令牌化器的離散索引，而ETT利用了令牌化器碼本的視覺嵌入，并通過重建和描述目標(biāo)端到端優(yōu)化視覺令牌化器。

具體來說，ETT方法包含以下關(guān)鍵創(chuàng)新：

首先，ETT從使用離散索引轉(zhuǎn)向使用碼本嵌入。傳統(tǒng)方法就像只給機(jī)器人提供數(shù)字編號(hào)（"這是物體1，那是物體2"），而ETT則提供了更豐富的描述（"這是一個(gè)紅色的、圓形的、光滑的物體"）。

其次，ETT建立了一個(gè)端到端的優(yōu)化框架。通過使用大語言模型作為視覺令牌化器的"顧問"，ETT能夠在保持視覺令牌化器重建能力的同時(shí)，優(yōu)化其對(duì)下游任務(wù)的表示能力。

第三，ETT實(shí)現(xiàn)簡(jiǎn)單且易于集成。它不需要調(diào)整原始碼本或大語言模型的架構(gòu)，可以無縫集成到現(xiàn)有系統(tǒng)中。

三、ETT的技術(shù)實(shí)現(xiàn)：巧妙連接視覺與語言

ETT的實(shí)現(xiàn)可以比作建造一座連接兩個(gè)島嶼（視覺和語言）的橋梁。這座橋不僅允許雙向通行，還能根據(jù)通行需求不斷調(diào)整和強(qiáng)化自身結(jié)構(gòu)。

在技術(shù)層面，ETT主要包含以下幾個(gè)關(guān)鍵組件：

視覺令牌化器：研究團(tuán)隊(duì)采用了IBQ（一種高性能的視覺令牌化方法）作為基礎(chǔ)，它使用了下采樣因子s=16，每個(gè)離散令牌在碼本中的維度為D=256，調(diào)整后的碼本大小為131,072。簡(jiǎn)單來說，就像是為圖像創(chuàng)建了一本包含131,072個(gè)詞條的視覺詞典，每個(gè)詞條都有256個(gè)特征來描述它。

碼本嵌入與離散索引的轉(zhuǎn)換：不同于僅使用離散索引的方法（如Emu3），ETT直接將視覺令牌化器的碼本嵌入連接到大語言模型，有效利用視覺令牌化器中編碼的更豐富的特征表示，同時(shí)實(shí)現(xiàn)端到端訓(xùn)練。就像是不僅告訴機(jī)器人"這是物體1"，還告訴它"物體1是紅色的、圓形的、光滑的"。

保留重建能力：為了確保高保真圖像合成，ETT將整體訓(xùn)練目標(biāo)設(shè)置為描述損失Lcap和VQ損失Lvq的組合。這就像教導(dǎo)翻譯不僅要準(zhǔn)確傳達(dá)意思，還要保持原文的風(fēng)格和細(xì)節(jié)。

訓(xùn)練流程：ETT的訓(xùn)練分為三個(gè)連續(xù)階段。第一階段是對(duì)齊學(xué)習(xí)，建立視覺-語言的初步連接；第二階段是語義學(xué)習(xí)，這是整個(gè)訓(xùn)練流程中最關(guān)鍵的部分，實(shí)現(xiàn)端到端視覺令牌化調(diào)優(yōu)；第三階段是后訓(xùn)練，根據(jù)特定任務(wù)需求進(jìn)一步優(yōu)化模型。

四、ETT帶來的顯著性能提升

研究團(tuán)隊(duì)在多項(xiàng)任務(wù)上評(píng)估了ETT的性能，結(jié)果令人印象深刻。與凍結(jié)令牌化器基線相比，ETT在多模態(tài)理解和視覺生成任務(wù)上分別帶來了2-6%的性能提升。

在多模態(tài)理解任務(wù)方面，ETT在各種廣泛使用的視覺-語言感知基準(zhǔn)測(cè)試中表現(xiàn)出色，涵蓋了特定任務(wù)評(píng)估（GQA和TextVQA）、幻覺檢測(cè)（POPE）、開放域多模態(tài)理解（MME、MMBench、SEED-Bench和MMVet）以及科學(xué)推理（ScienceQA-IMG）。

即使與更大模型和更多數(shù)據(jù)訓(xùn)練的模型相比，ETT也表現(xiàn)出色。例如，與Chameleon、LWM和Liquid等模型相比，ETT盡管使用了更小的模型和更少的數(shù)據(jù)，但仍實(shí)現(xiàn)了更好的性能。這突顯了ETT端到端調(diào)優(yōu)策略的有效性。

在視覺生成任務(wù)方面，ETT在GenEval和T2I-CompBench等廣泛采用的基準(zhǔn)數(shù)據(jù)集上實(shí)現(xiàn)了具有競(jìng)爭(zhēng)力的性能。特別是在推理配置為top-k=131,072和top-p=1.0時(shí)，ETT在GenEval數(shù)據(jù)集上獲得了0.63的總體分?jǐn)?shù)，優(yōu)于先進(jìn)的擴(kuò)散模型如SDXL。此外，ETT在T2I-CompBench數(shù)據(jù)集上在顏色、形狀和紋理模式方面分別獲得了81.03、58.19和72.14的分?jǐn)?shù)，展示了與最先進(jìn)的擴(kuò)散模型相當(dāng)?shù)男阅堋?/p>

五、深入理解ETT的優(yōu)勢(shì)與權(quán)衡

為了驗(yàn)證ETT對(duì)下游多模態(tài)生成和理解任務(wù)的有效性，研究團(tuán)隊(duì)進(jìn)行了全面的消融研究。

首先，研究團(tuán)隊(duì)探討了ETT促進(jìn)多模態(tài)下游任務(wù)的有效性。結(jié)果顯示，引入ETT在理解和生成任務(wù)上都帶來了顯著的性能提升。具體而言，用碼本嵌入替代離散索引部分緩解了信息損失問題，在多模態(tài)理解基準(zhǔn)測(cè)試中帶來了顯著的性能提升。雖然這種替換降低了視覺生成性能，但它建立了一個(gè)完全可微的模型架構(gòu)，允許進(jìn)行端到端優(yōu)化。在此基礎(chǔ)上，進(jìn)一步端到端調(diào)整視覺令牌化器相比傳統(tǒng)設(shè)置提高了理解和生成任務(wù)的性能，特別是在嚴(yán)重依賴視覺特征的任務(wù)上（例如，在一般視覺問答和光學(xué)字符識(shí)別上分別提高了5%和6%）。

其次，研究團(tuán)隊(duì)調(diào)查了ETT中視覺重建和多模態(tài)理解之間的內(nèi)在任務(wù)權(quán)衡。結(jié)果表明，與未調(diào)整的基線相比，調(diào)整視覺令牌化器始終為理解任務(wù)帶來顯著收益，盡管以重建性能下降為代價(jià)。具體而言，僅用圖像到文本理解任務(wù)調(diào)整視覺令牌化器在各種理解基準(zhǔn)測(cè)試中產(chǎn)生最佳性能，但重建性能大幅下降，即在ImageNet 256×256設(shè)置中，rFID從1.033下降到45.701。引入具有小權(quán)重0.25的輔助重建目標(biāo)略微降低了理解準(zhǔn)確性，同時(shí)顯著提高了重建性能（45.701到1.648），表明聯(lián)合訓(xùn)練理解和重建任務(wù)的重要性。

研究團(tuán)隊(duì)還可視化了引入ETT前后的重建結(jié)果。結(jié)果顯示，經(jīng)過ETT調(diào)整的視覺令牌化器生成的視覺細(xì)節(jié)與未調(diào)整的相當(dāng)，甚至在某些方面如文本渲染方面有所增強(qiáng)。這表明ETT不僅保留了原始豐富的低級(jí)細(xì)節(jié)表示，還改進(jìn)了高級(jí)語義表示。

六、ETT的應(yīng)用前景與未來發(fā)展

ETT方法的成功為多模態(tài)基礎(chǔ)模型的發(fā)展帶來了新的機(jī)遇。通過解決視覺令牌化器的表示瓶頸問題，ETT為構(gòu)建更強(qiáng)大的多模態(tài)理解和生成系統(tǒng)鋪平了道路。

未來的研究方向可能包括進(jìn)一步擴(kuò)展端到端調(diào)優(yōu)的規(guī)模和應(yīng)用范圍。一個(gè)潛在的局限是目前的端到端微調(diào)數(shù)據(jù)規(guī)模和模型容量可能需要進(jìn)一步擴(kuò)展，以增強(qiáng)視覺表示和下游任務(wù)性能。此外，當(dāng)前方法主要專注于優(yōu)化現(xiàn)有視覺令牌化器的視覺特征，未來可以探索從頭開始端到端訓(xùn)練視覺令牌化器，創(chuàng)建一個(gè)更全面、更適應(yīng)性強(qiáng)的多模態(tài)任務(wù)表示。

另一個(gè)令人興奮的方向是超越圖像和文本模態(tài)，將ETT方法擴(kuò)展到視頻和音頻等其他模態(tài)。這將進(jìn)一步推動(dòng)多模態(tài)基礎(chǔ)模型的發(fā)展，超越視覺生成和理解的范疇。

正如研究團(tuán)隊(duì)所希望的，這種簡(jiǎn)單而強(qiáng)大的方法有望為多模態(tài)基礎(chǔ)模型的發(fā)展賦能，不僅限于圖像生成和理解，還可以擴(kuò)展到更廣泛的多模態(tài)應(yīng)用領(lǐng)域。

七、總結(jié)：ETT開啟視覺令牌化的新范式

歸根結(jié)底，ETT方法提出了一種全新的視覺令牌化訓(xùn)練范式，解鎖了視覺令牌化器在下游自回歸任務(wù)中的潛力。通過使視覺令牌化器能夠感知并針對(duì)下游訓(xùn)練進(jìn)行優(yōu)化，ETT實(shí)現(xiàn)了視覺表示與多模態(tài)任務(wù)需求的更好對(duì)齊。

ETT的簡(jiǎn)單性和有效性令人印象深刻。它不需要復(fù)雜的架構(gòu)修改，卻能顯著提升多模態(tài)理解和生成任務(wù)的性能，同時(shí)保持良好的重建能力。這就像是教會(huì)了翻譯不僅要準(zhǔn)確翻譯單詞，還要理解上下文和意圖，從而提供更有用的翻譯結(jié)果。

對(duì)于普通用戶來說，ETT的進(jìn)步意味著未來的AI系統(tǒng)將更好地理解圖像內(nèi)容，能夠更準(zhǔn)確地回答關(guān)于圖像的問題，并能生成更符合描述的高質(zhì)量圖像。這將使人機(jī)交互更加自然和高效，為各種應(yīng)用如內(nèi)容創(chuàng)作、視覺搜索和輔助技術(shù)帶來顯著改進(jìn)。

有興趣深入了解這項(xiàng)研究的讀者可以通過arXiv:2505.10562訪問完整論文，了解更多技術(shù)細(xì)節(jié)和實(shí)驗(yàn)結(jié)果。

多模態(tài)學(xué)習(xí)視覺令牌化自回歸模型

分享至

1贊

好文章，需要你的鼓勵(lì)

推薦文章

音頻生成
大語言模型
多模態(tài)AI

2025-09-10 09:47

如何讓AI像電影配樂師一樣創(chuàng)作完整的長(zhǎng)篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng)，首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù)，通過交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練，能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異，為AI音頻創(chuàng)作開辟新方向。
視頻生成
深度學(xué)習(xí)
多模態(tài)學(xué)習(xí)

2025-09-09 13:57

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動(dòng)起來不再是奢望

Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù)，通過讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息，顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量，在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型，為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
多模態(tài)AI
人類價(jià)值觀對(duì)齊
數(shù)據(jù)集構(gòu)建

2025-09-09 13:56

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價(jià)值觀對(duì)齊難題

上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究，首次系統(tǒng)性解決多模態(tài)大語言模型人性化對(duì)話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn)，通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法，讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平，為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
人工智能
圖神經(jīng)網(wǎng)絡(luò)
天氣預(yù)報(bào)

2025-09-09 10:56

谷歌研究團(tuán)隊(duì)發(fā)布超級(jí)預(yù)測(cè)模型：讓AI像天氣預(yù)報(bào)員一樣預(yù)測(cè)全球大氣變化

谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型，能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào)，準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù)，通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律，在極端天氣預(yù)測(cè)方面表現(xiàn)卓越，能耗僅為傳統(tǒng)方法的千分之一，為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。

如何讓AI像電影配樂師一樣創(chuàng)作完整的長(zhǎng)篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

如何讓AI像電影配樂師一樣創(chuàng)作完整的長(zhǎng)篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

2025-09-10 09:47

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動(dòng)起來不再是奢望

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動(dòng)起來不再是奢望

2025-09-09 13:57

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價(jià)值觀對(duì)齊難題

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價(jià)值觀對(duì)齊難題

2025-09-09 13:56

谷歌研究團(tuán)隊(duì)發(fā)布超級(jí)預(yù)測(cè)模型：讓AI像天氣預(yù)報(bào)員一樣預(yù)測(cè)全球大氣變化

谷歌研究團(tuán)隊(duì)發(fā)布超級(jí)預(yù)測(cè)模型：讓AI像天氣預(yù)報(bào)員一樣預(yù)測(cè)全球大氣變化

2025-09-09 10:56

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時(shí)代

京ICP證15039648號(hào) 京ICP備15039648號(hào)-9 京公網(wǎng)安備 11010802021500號(hào)

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報(bào)電話：010-62641205　涉未成年人舉報(bào)專線：010-62641208 舉報(bào)郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報(bào)專區(qū)：https://www.12377.cn

<abbr id="mndb7"></abbr>