這項(xiàng)由香港中文大學(xué)多媒體實(shí)驗(yàn)室的韓佳明和字節(jié)跳動(dòng)種子實(shí)驗(yàn)室的陳昊領(lǐng)導(dǎo)的研究團(tuán)隊(duì)發(fā)表于2025年6月的arXiv預(yù)印本服務(wù)器,有興趣深入了解的讀者可以通過https://tar.csuhan.com訪問完整論文和相關(guān)代碼。
在人工智能的世界里,一直存在著一個(gè)有趣的現(xiàn)象。當(dāng)我們要求AI看懂一張圖片時(shí),它需要用一種方式來理解圖像;而當(dāng)我們要求它畫出一張圖片時(shí),它又需要用另一種完全不同的方式來生成圖像。這就像是一個(gè)人在理解漢語時(shí)用漢語思維,但在說英語時(shí)卻必須切換到英語思維一樣,顯得既復(fù)雜又低效。
研究團(tuán)隊(duì)把這個(gè)問題想象成了一個(gè)有趣的比喻:如果把視覺理解和圖像生成看作是兩種不同的"方言",那么能不能找到一種通用的"普通話"讓AI在處理這兩種任務(wù)時(shí)都能流利交流呢?他們的答案是開發(fā)一種叫做"文本對齊表示"(Text-aligned representation,簡稱Tar)的方法,就像是給AI裝上了一個(gè)萬能翻譯器。
這個(gè)研究的核心創(chuàng)新在于設(shè)計(jì)了一個(gè)名為"文本對齊分詞器"(TA-Tok)的系統(tǒng)。如果把傳統(tǒng)的AI處理圖像比作兩個(gè)不同的廚師,一個(gè)專門品嘗食物(理解圖像),另一個(gè)專門制作食物(生成圖像),那么TA-Tok就像是一本通用的菜譜,讓同一個(gè)廚師既能品嘗出食物的精妙,又能按照同樣的標(biāo)準(zhǔn)制作出美味佳肴。
研究團(tuán)隊(duì)面臨的第一個(gè)挑戰(zhàn)是如何讓AI用同一種"語言"來處理看圖和畫圖這兩個(gè)看似截然不同的任務(wù)。傳統(tǒng)方法就像是讓一個(gè)翻譯官在中文和英文之間反復(fù)切換,不僅效率低下,還容易出錯(cuò)。他們的解決方案是創(chuàng)建一個(gè)基于大語言模型詞匯表的統(tǒng)一表示空間,這就像是建立了一個(gè)所有語言都能理解的通用符號系統(tǒng)。
具體來說,TA-Tok的工作原理可以這樣理解:當(dāng)你給它一張照片時(shí),它首先用一個(gè)叫做SigLIP2的視覺編碼器將圖像轉(zhuǎn)換成連續(xù)的特征表示,就像是把一幅畫描述成一系列詳細(xì)的文字。然后,這些描述會通過一個(gè)"規(guī)模自適應(yīng)池化"的過程進(jìn)行調(diào)整,這個(gè)過程就像是用不同的放大鏡來觀察同一個(gè)物體,可以選擇看大致輪廓還是精細(xì)細(xì)節(jié)。
接下來是最關(guān)鍵的步驟:文本對齊編碼本的運(yùn)用。研究團(tuán)隊(duì)沒有使用隨機(jī)初始化的編碼本,而是直接借用了大語言模型中已經(jīng)訓(xùn)練好的詞匯嵌入。這就像是不重新發(fā)明輪子,而是直接使用已經(jīng)成熟的零件來組裝新機(jī)器。他們從Qwen2.5語言模型的15萬個(gè)詞匯中精選出6萬5千個(gè)最具代表性的詞嵌入,然后通過一個(gè)可學(xué)習(xí)的投影矩陣將視覺特征映射到這些詞嵌入空間中。
這種設(shè)計(jì)帶來了一個(gè)巧妙的效果:圖像中的每個(gè)部分都能用語言模型能夠理解的"詞匯"來表示,這樣AI在處理圖像時(shí)就能像處理文字一樣自然流暢。研究團(tuán)隊(duì)還設(shè)計(jì)了一個(gè)規(guī)模自適應(yīng)解碼器來確保這個(gè)轉(zhuǎn)換過程的準(zhǔn)確性,它會重建出原始的視覺特征,并與教師模型的輸出進(jìn)行對比,確保信息沒有丟失。
為了解決從這些語義詞匯回到真實(shí)圖像的問題,研究團(tuán)隊(duì)開發(fā)了兩種互補(bǔ)的"生成式去分詞器"。第一種是自回歸去分詞器,它的工作方式就像是一個(gè)畫家按照既定順序一筆一劃地繪制圖像,每一筆都基于前面已經(jīng)畫好的內(nèi)容。這種方法的優(yōu)點(diǎn)是速度快,且與語言模型的工作方式完全一致。
第二種是擴(kuò)散去分詞器,它的工作原理更像是先在畫布上鋪一層噪聲,然后逐漸去除噪聲來顯現(xiàn)出最終的圖像。這種方法的優(yōu)勢在于能夠利用現(xiàn)有的強(qiáng)大擴(kuò)散模型,只需要簡單地將原本的文本條件替換為TA-Tok生成的視覺詞匯即可。雖然這種方法在推理時(shí)需要更多計(jì)算資源,但它能夠生成質(zhì)量極高的圖像,特別適合處理復(fù)雜場景。
研究團(tuán)隊(duì)在統(tǒng)一多模態(tài)建模方面也有重要?jiǎng)?chuàng)新。他們將文本和圖像都表示為共享詞匯表中的離散標(biāo)記,通過擴(kuò)展語言模型的文本嵌入矩陣來包含視覺標(biāo)記集合。這個(gè)過程就像是在原有的字典中添加新的詞匯條目,讓AI能夠在同一個(gè)"語言"框架內(nèi)理解和生成不同類型的內(nèi)容。
特別值得注意的是,研究團(tuán)隊(duì)在預(yù)訓(xùn)練階段引入了兩種新的任務(wù)類型:圖像到圖像生成和文本圖像到圖像生成。第一種任務(wù)讓AI學(xué)會根據(jù)一張圖像生成類似的圖像,這就像是讓畫家學(xué)會臨摹和風(fēng)格遷移。第二種任務(wù)更加復(fù)雜,它要求AI同時(shí)理解文本描述和參考圖像,然后生成符合要求的新圖像,這就像是給畫家一個(gè)詳細(xì)的委托和一張參考圖片,讓他創(chuàng)作出既符合要求又保持風(fēng)格一致的作品。
在數(shù)據(jù)準(zhǔn)備方面,研究團(tuán)隊(duì)采用了一個(gè)高效的合成數(shù)據(jù)生成流程。他們首先使用Qwen2.5-VL模型為各種圖像數(shù)據(jù)集生成豐富詳細(xì)的描述,然后使用FLUX模型根據(jù)這些描述生成高質(zhì)量的圖像。這個(gè)過程就像是先讓一個(gè)文學(xué)家描述畫作,然后讓另一個(gè)畫家根據(jù)這些描述重新創(chuàng)作,最終獲得了2300萬個(gè)高質(zhì)量的文本-圖像對用于訓(xùn)練。
研究結(jié)果顯示,Tar模型在各種視覺理解和生成任務(wù)上都取得了令人矚目的表現(xiàn)。在視覺理解方面,1.5B參數(shù)的Tar模型超越了大多數(shù)同規(guī)模的理解專用模型和統(tǒng)一模型,7B參數(shù)的模型更是達(dá)到了與Janus-Pro-7B相當(dāng)?shù)男阅芩健_@證明了使用完全離散的語義表示進(jìn)行統(tǒng)一建模的可行性。
在視覺生成方面,Tar在GenEval和DPG Bench兩個(gè)基準(zhǔn)測試中都表現(xiàn)出色。特別是在GenEval測試中,Tar-7B達(dá)到了0.84的總體得分,在DPG Bench中也取得了84.19的優(yōu)異成績。研究團(tuán)隊(duì)還開發(fā)了一種"自我反思"策略,利用模型自身的視覺理解能力來評估生成圖像與文本提示的匹配度,進(jìn)一步提升了生成質(zhì)量。
為了驗(yàn)證設(shè)計(jì)選擇的有效性,研究團(tuán)隊(duì)進(jìn)行了大量的對比實(shí)驗(yàn)。他們比較了文本對齊表示與其他幾種視覺表示方法,包括傳統(tǒng)的VQVAE、Janus風(fēng)格的分離表示和混合表示。結(jié)果顯示,文本對齊表示在視覺生成任務(wù)上明顯優(yōu)于其他方法,同時(shí)在理解任務(wù)上也能保持競爭力。
研究團(tuán)隊(duì)還發(fā)現(xiàn),使用文本對齊編碼本初始化多模態(tài)語言模型的視覺嵌入比隨機(jī)初始化效果更好,這驗(yàn)證了他們設(shè)計(jì)思路的正確性。此外,規(guī)模自適應(yīng)池化的設(shè)計(jì)讓模型能夠根據(jù)不同任務(wù)的需求靈活調(diào)整視覺細(xì)節(jié)的粒度,這在實(shí)際應(yīng)用中非常有價(jià)值。
在技術(shù)實(shí)現(xiàn)層面,研究團(tuán)隊(duì)使用siglip2-so400m-patch14-384作為視覺編碼器,采用三層ViT結(jié)構(gòu)作為解碼器。他們從Qwen2.5的詞匯表中選擇了65536個(gè)標(biāo)記作為文本對齊編碼本的基礎(chǔ)。對于不同分辨率的圖像,系統(tǒng)可以生成不同數(shù)量的標(biāo)記:384×384的圖像在不同尺度下可以生成729、169或81個(gè)標(biāo)記。
自回歸去分詞器采用LLaMA架構(gòu)實(shí)現(xiàn),從頭開始訓(xùn)練。研究團(tuán)隊(duì)首先在256像素分辨率上訓(xùn)練基礎(chǔ)模型,然后逐步微調(diào)到512像素和1024像素。擴(kuò)散去分詞器則基于預(yù)訓(xùn)練的SANA-0.6B模型,只需要微調(diào)交叉注意力和條件嵌入層即可。
在訓(xùn)練數(shù)據(jù)方面,TA-Tok使用了來自LAION的2億張圖像進(jìn)行訓(xùn)練,其中包括1億張?jiān)季W(wǎng)絡(luò)圖像和1億張美學(xué)過濾圖像,以平衡模型在通用圖像理解和高質(zhì)量圖像生成方面的能力。自回歸去分詞器使用5000萬張美學(xué)圖像和2300萬張合成圖像進(jìn)行訓(xùn)練,而擴(kuò)散去分詞器主要在2300萬張合成圖像上進(jìn)行微調(diào)。
多模態(tài)語言模型的預(yù)訓(xùn)練采用了多種數(shù)據(jù)類型的混合,包括標(biāo)準(zhǔn)的圖像到文本、文本到圖像任務(wù),以及新提出的圖像到圖像和文本圖像到圖像任務(wù)。在監(jiān)督微調(diào)階段,研究團(tuán)隊(duì)使用了來自LLaVA系列的指令調(diào)優(yōu)數(shù)據(jù)集,以及從預(yù)訓(xùn)練數(shù)據(jù)中篩選出的高質(zhì)量子集。
通過詳細(xì)的消融實(shí)驗(yàn),研究團(tuán)隊(duì)驗(yàn)證了各個(gè)設(shè)計(jì)組件的重要性。他們發(fā)現(xiàn),相比傳統(tǒng)的隨機(jī)初始化編碼本,文本對齊編碼本在理解任務(wù)上帶來了顯著提升,在生成任務(wù)上也保持了競爭力。規(guī)模自適應(yīng)池化讓模型能夠在效率和細(xì)節(jié)之間找到最佳平衡點(diǎn),而兩種去分詞器的組合則提供了速度和質(zhì)量之間的靈活選擇。
研究還揭示了一個(gè)有趣的現(xiàn)象:當(dāng)使用共享表示進(jìn)行聯(lián)合訓(xùn)練時(shí),視覺理解和生成任務(wù)能夠相互促進(jìn)。這與一些使用分離表示的方法形成鮮明對比,后者在聯(lián)合訓(xùn)練時(shí)往往無法獲得這種互益效果。這進(jìn)一步證明了統(tǒng)一表示方法的優(yōu)勢。
值得一提的是,通過引入新的預(yù)訓(xùn)練任務(wù),Tar模型展現(xiàn)出了一些令人驚喜的涌現(xiàn)能力,比如主體驅(qū)動(dòng)生成和基于參考的風(fēng)格遷移。這些能力讓模型能夠理解和操作圖像中的語義概念,為未來的應(yīng)用開辟了新的可能性。
在實(shí)際應(yīng)用中,Tar模型的靈活性體現(xiàn)在多個(gè)方面。它可以根據(jù)計(jì)算預(yù)算和質(zhì)量要求選擇不同的配置:使用較少的視覺標(biāo)記以獲得更快的推理速度,或使用更多標(biāo)記以獲得更精細(xì)的細(xì)節(jié)。兩種去分詞器的存在也為不同應(yīng)用場景提供了選擇:自回歸版本適合需要快速響應(yīng)的應(yīng)用,而擴(kuò)散版本則適合對圖像質(zhì)量有更高要求的場景。
研究團(tuán)隊(duì)還開發(fā)了一個(gè)有趣的"自我反思"機(jī)制,讓模型能夠評估自己生成的圖像質(zhì)量。這個(gè)機(jī)制利用了統(tǒng)一模型既能理解又能生成圖像的特性,讓AI能夠像人類藝術(shù)家一樣審視自己的作品并進(jìn)行改進(jìn)。這種能力在提升生成質(zhì)量的同時(shí),也為模型的自我改進(jìn)提供了新的途徑。
在模型的可擴(kuò)展性方面,研究結(jié)果表明,隨著訓(xùn)練數(shù)據(jù)量的增加,文本對齊表示展現(xiàn)出了良好的擴(kuò)展性。這一點(diǎn)對于實(shí)際應(yīng)用非常重要,因?yàn)樗馕吨P偷男阅軙S著更多數(shù)據(jù)的加入而持續(xù)改善。
說到底,這項(xiàng)研究最讓人興奮的地方在于它展示了一種全新的思路來解決多模態(tài)AI的統(tǒng)一問題。通過巧妙地利用語言模型的詞匯空間作為視覺和文本的橋梁,研究團(tuán)隊(duì)不僅簡化了模型架構(gòu),還提升了性能。這就像是找到了一種通用語言,讓不同類型的AI任務(wù)能夠在同一個(gè)框架內(nèi)協(xié)同工作。
當(dāng)然,這個(gè)方法也有一些局限性。由于使用了向量量化技術(shù),不可避免地會引入一些量化誤差,這在需要精細(xì)視覺理解的任務(wù)(如光學(xué)字符識別)中可能會造成一定影響。此外,使用生成模型作為去分詞器雖然能產(chǎn)生高質(zhì)量圖像,但在重建輸入圖像的準(zhǔn)確性方面還有改進(jìn)空間。
歸根結(jié)底,這項(xiàng)研究為多模態(tài)AI的發(fā)展開辟了一條新路徑。它展示了統(tǒng)一表示的強(qiáng)大潛力,也為未來的研究提供了寶貴的經(jīng)驗(yàn)和啟發(fā)。隨著技術(shù)的不斷改進(jìn)和完善,我們有理由相信,這種"視覺方言"的統(tǒng)一方法將在更多領(lǐng)域發(fā)揮重要作用,讓AI在理解和創(chuàng)造視覺內(nèi)容方面變得更加智能和高效。有興趣深入了解技術(shù)細(xì)節(jié)的讀者可以訪問https://tar.csuhan.com獲取完整的代碼、模型和數(shù)據(jù)資源。
Q&A
Q1:什么是文本對齊表示(Tar),它能解決什么問題? A:Tar是一種讓AI用同一種"語言"既能看懂圖片又能畫出圖片的技術(shù)。傳統(tǒng)方法需要兩套不同的系統(tǒng)分別處理理解和生成任務(wù),而Tar通過統(tǒng)一的表示方法讓一個(gè)模型就能勝任兩種工作,就像給AI裝上了萬能翻譯器,提高了效率和性能。
Q2:這個(gè)技術(shù)會不會讓AI畫圖變得更簡單? A:是的,Tar讓AI畫圖變得更加智能化。它不僅能生成高質(zhì)量圖像,還能理解文本描述并據(jù)此創(chuàng)作,甚至能夠評估自己畫作的質(zhì)量。這為藝術(shù)創(chuàng)作、設(shè)計(jì)制作等領(lǐng)域提供了強(qiáng)大工具,讓非專業(yè)人士也能輕松獲得專業(yè)級的視覺創(chuàng)作能力。
Q3:普通人能使用這項(xiàng)技術(shù)嗎?有什么實(shí)際用途? A:雖然目前還是研究階段,但技術(shù)已經(jīng)相當(dāng)成熟。未來可能應(yīng)用于智能設(shè)計(jì)助手、教育工具、內(nèi)容創(chuàng)作等多個(gè)領(lǐng)域。比如幫助老師制作教學(xué)圖片、協(xié)助設(shè)計(jì)師快速構(gòu)思方案,或者讓普通人通過文字描述就能生成所需的圖像內(nèi)容。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。