近日,由北京大學(xué)、中國(guó)電信、新加坡國(guó)立大學(xué)和普林斯頓大學(xué)的研究團(tuán)隊(duì)聯(lián)合發(fā)布了一項(xiàng)突破性研究成果。這篇題為《Muddit: Liberating Generation Beyond Text-to-Image with a Unified Discrete Diffusion Model》的論文已發(fā)表于arXiv(arXiv:2505.23606v1),論文第一作者為石慶宇和白錦彬,通訊作者為李祥泰、李學(xué)龍和嚴(yán)淑成。有興趣深入了解的讀者可通過(guò)GitHub(https://github.com/M-E-AGI-Lab/Muddit)獲取源代碼和模型。
想象一下,如果你的手機(jī)相冊(cè)和備忘錄能夠互相理解,相互轉(zhuǎn)化,會(huì)是什么樣的體驗(yàn)?你可以用文字描述一幅畫(huà)面,手機(jī)就能立刻為你生成相應(yīng)的圖像;你也可以拍攝一張照片,手機(jī)立刻能為你生成詳細(xì)的文字描述。這聽(tīng)起來(lái)很神奇,但長(zhǎng)期以來(lái),這種雙向轉(zhuǎn)換存在兩個(gè)主要瓶頸:一是傳統(tǒng)方法生成速度慢;二是不同模態(tài)間缺乏統(tǒng)一的生成范式。
Muddit正是為解決這些問(wèn)題而生的統(tǒng)一生成模型。它采用了一種稱(chēng)為"離散擴(kuò)散"的技術(shù),能夠?qū)崿F(xiàn)文本與圖像之間的雙向高效轉(zhuǎn)換。不同于以往需要一個(gè)接一個(gè)地生成內(nèi)容的自回歸模型,Muddit可以并行生成內(nèi)容,大大提高了生成速度。更重要的是,它在一個(gè)統(tǒng)一的架構(gòu)下處理文本和圖像兩種不同的模態(tài),實(shí)現(xiàn)了真正的多模態(tài)融合。
那么,Muddit是如何工作的呢?想象你有一幅拼圖,但拼圖上的很多塊都被擦去了。Muddit就像一個(gè)能看到完整圖像的助手,通過(guò)分析周?chē)延械钠磮D塊,它能夠一次性預(yù)測(cè)多個(gè)缺失的塊,而不需要按照固定順序一塊一塊地填補(bǔ)。這種并行生成的方式不僅速度更快,而且能夠更好地捕捉不同內(nèi)容塊之間的關(guān)系。
研究團(tuán)隊(duì)的實(shí)驗(yàn)結(jié)果表明,盡管Muddit只有1B的參數(shù)規(guī)模(這在當(dāng)今動(dòng)輒幾十上百億參數(shù)的大模型中算是相當(dāng)"小巧"的),但其性能卻能夠匹敵甚至超越那些參數(shù)量遠(yuǎn)大于它的自回歸模型。在各種基準(zhǔn)測(cè)試中,Muddit展現(xiàn)出了優(yōu)異的性能,尤其是在生成高質(zhì)量圖像和準(zhǔn)確回答視覺(jué)問(wèn)題方面。
一、統(tǒng)一生成模型的發(fā)展與挑戰(zhàn)
想象你在學(xué)習(xí)一門(mén)新語(yǔ)言的同時(shí)還要學(xué)習(xí)繪畫(huà)。如果這兩項(xiàng)技能完全沒(méi)有關(guān)聯(lián),學(xué)習(xí)起來(lái)會(huì)非常困難。但如果能找到它們之間的共通點(diǎn),比如都需要理解構(gòu)圖和表達(dá),學(xué)習(xí)效率就會(huì)大大提高。這正是統(tǒng)一生成模型要解決的問(wèn)題:如何讓計(jì)算機(jī)既能理解和生成文本,又能理解和生成圖像,而且是在同一個(gè)框架下完成的。
傳統(tǒng)的多模態(tài)生成模型主要有四種類(lèi)型。第一種是完全自回歸模型,它們將文本和圖像都轉(zhuǎn)換為一串標(biāo)記(token),然后從左到右逐個(gè)生成。想象一下你在寫(xiě)信,必須一個(gè)字一個(gè)字地寫(xiě),不能跳著寫(xiě)或同時(shí)寫(xiě)多個(gè)字。這種方法雖然能產(chǎn)生高質(zhì)量的結(jié)果,但速度極慢,尤其是生成圖像時(shí),因?yàn)橐粡垐D像可能包含成千上萬(wàn)個(gè)標(biāo)記。
第二種是混合型模型,使用自回歸方式生成文本,但用擴(kuò)散模型生成圖像。這就像你會(huì)用兩種完全不同的方式來(lái)寫(xiě)作和繪畫(huà),雖然各有所長(zhǎng),但缺乏統(tǒng)一性。第三種是圖像使用連續(xù)擴(kuò)散,文本使用離散擴(kuò)散的混合模型,同樣面臨統(tǒng)一性問(wèn)題。
第四種,也是Muddit所屬的類(lèi)型,是完全離散擴(kuò)散模型。它在統(tǒng)一的框架下處理文本和圖像,支持并行采樣和原生集成。然而,現(xiàn)有的這類(lèi)模型如UniDisc存在生成質(zhì)量不足、難以生成高分辨率圖像等問(wèn)題。
Muddit的創(chuàng)新之處在于,它結(jié)合了離散擴(kuò)散的高效并行生成能力,以及預(yù)訓(xùn)練文生圖模型中豐富的視覺(jué)先驗(yàn)知識(shí)。這就像一個(gè)既掌握了繪畫(huà)技巧,又精通寫(xiě)作的老師,能夠同時(shí)指導(dǎo)你完成這兩項(xiàng)任務(wù),而且能讓你理解它們之間的聯(lián)系。
二、Muddit的技術(shù)原理:如何統(tǒng)一不同模態(tài)
了解Muddit如何工作,我們需要先理解什么是離散擴(kuò)散。想象你在玩一個(gè)猜詞游戲:我心里想了一個(gè)詞,但只告訴你部分字母,其余的用星號(hào)代替,比如"a**le"。你可能會(huì)猜這是"apple"。離散擴(kuò)散就是這樣一個(gè)過(guò)程:先將完整信息(無(wú)論是文字還是圖像)中的大部分內(nèi)容遮蓋起來(lái),然后訓(xùn)練模型學(xué)會(huì)根據(jù)剩余可見(jiàn)的部分來(lái)恢復(fù)完整信息。
在技術(shù)層面,Muddit使用連續(xù)時(shí)間馬爾可夫鏈來(lái)描述這個(gè)"遮蓋-恢復(fù)"的過(guò)程。每個(gè)標(biāo)記(可以是一個(gè)文字或圖像的一部分)都有一定概率被遮蓋成特殊的掩碼標(biāo)記。模型的任務(wù)是預(yù)測(cè)這些被掩碼的標(biāo)記原本應(yīng)該是什么。
Muddit的架構(gòu)包含多個(gè)關(guān)鍵組件:文本編碼器、圖像編碼器、轉(zhuǎn)換器生成器、采樣器、文本解碼器和圖像解碼器。文本編碼器將文字轉(zhuǎn)換為標(biāo)記嵌入,圖像編碼器將圖像轉(zhuǎn)換為離散代碼本索引。生成器是一個(gè)單一的MM-DiT模型,它能夠預(yù)測(cè)兩種模態(tài)的被掩碼標(biāo)記。
特別值得一提的是,Muddit的生成器使用了預(yù)訓(xùn)練的Meissonic文生圖模型進(jìn)行初始化。這就像是模型先在繪畫(huà)學(xué)校學(xué)習(xí)了如何創(chuàng)作精美的畫(huà)作,然后再學(xué)習(xí)如何將畫(huà)作與文字聯(lián)系起來(lái)。這種預(yù)訓(xùn)練帶來(lái)了豐富的視覺(jué)先驗(yàn)知識(shí),能夠捕捉空間結(jié)構(gòu)和語(yǔ)義關(guān)聯(lián),大大提升了樣本質(zhì)量并加速了收斂。
在訓(xùn)練過(guò)程中,Muddit使用余弦調(diào)度策略進(jìn)行掩碼。這就像是在訓(xùn)練初期給模型看的信息很少,讓它大膽猜測(cè);隨著訓(xùn)練進(jìn)行,逐漸給它更多信息,讓它的預(yù)測(cè)更加精確。這種策略確保了模型能夠從完全隨機(jī)的猜測(cè)逐步學(xué)會(huì)準(zhǔn)確地理解和生成內(nèi)容。
三、統(tǒng)一訓(xùn)練與推理:一個(gè)模型處理多種任務(wù)
Muddit最令人印象深刻的特點(diǎn)是它的統(tǒng)一性。無(wú)論是從文本生成圖像,還是從圖像生成文本,它都使用相同的訓(xùn)練目標(biāo)和推理策略。這就像是用同一套方法學(xué)習(xí)既能聽(tīng)寫(xiě)(將聽(tīng)到的聲音轉(zhuǎn)為文字)又能朗讀(將文字轉(zhuǎn)為聲音)的能力。
在訓(xùn)練階段,無(wú)論是處理文本到圖像還是圖像到文本的任務(wù),Muddit都應(yīng)用相同的連續(xù)時(shí)間負(fù)ELBO(Evidence Lower Bound)目標(biāo)函數(shù)。當(dāng)從文本生成圖像時(shí),文本嵌入作為條件;當(dāng)從圖像生成文本時(shí),圖像嵌入作為條件。這種對(duì)稱(chēng)性使得優(yōu)化過(guò)程在各個(gè)任務(wù)中保持一致,使模型能夠使用單一參數(shù)集共同訓(xùn)練這兩個(gè)方向的生成能力。
在推理階段,Muddit采用時(shí)間反轉(zhuǎn)后驗(yàn)來(lái)逐步恢復(fù)被掩碼的內(nèi)容。想象一下拼圖游戲:一開(kāi)始所有拼圖塊都是空白的,隨著時(shí)間推移,Muddit能夠同時(shí)預(yù)測(cè)多個(gè)拼圖塊的內(nèi)容,而不需要按固定順序一塊一塊填補(bǔ)。這種動(dòng)態(tài)方法比自回歸方法更靈活,因?yàn)樗灰蕾?lài)于固定的標(biāo)記順序,而是基于對(duì)任意可見(jiàn)標(biāo)記子集的理解來(lái)預(yù)測(cè)。
Muddit支持三種主要任務(wù):文本到圖像生成、圖像到文本生成(圖像描述)和視覺(jué)問(wèn)答。在所有這些任務(wù)中,唯一的變化是提供給生成器的條件源;擴(kuò)散過(guò)程和指導(dǎo)邏輯保持不變。比如,在文本到圖像生成中,文本編碼器產(chǎn)生文本標(biāo)記嵌入作為條件;在圖像到文本生成中,圖像編碼器產(chǎn)生的視覺(jué)標(biāo)記作為條件;在視覺(jué)問(wèn)答中,則同時(shí)使用圖像和問(wèn)題作為條件。
此外,Muddit還應(yīng)用了無(wú)分類(lèi)器引導(dǎo)技術(shù)來(lái)提升生成質(zhì)量。這就像是給模型提供了一個(gè)參考點(diǎn),告訴它"這是你應(yīng)該避免的方向",從而使它能夠更好地朝著期望的方向前進(jìn)。這種技術(shù)在所有三種任務(wù)中都使用相同的引導(dǎo)規(guī)則,進(jìn)一步體現(xiàn)了模型的統(tǒng)一性。
四、實(shí)驗(yàn)結(jié)果:小模型也能有大能力
Muddit的實(shí)驗(yàn)設(shè)置分為兩個(gè)階段:預(yù)訓(xùn)練和監(jiān)督微調(diào)。在預(yù)訓(xùn)練階段,研究團(tuán)隊(duì)使用了大約350萬(wàn)個(gè)圖像-文本對(duì),其中包括約200萬(wàn)對(duì)經(jīng)過(guò)重新描述的高質(zhì)量圖像-文本對(duì)。在監(jiān)督微調(diào)階段,他們使用了包括LLaVA-Instruct-150K和MG-LLaVA調(diào)優(yōu)集在內(nèi)的指令跟隨數(shù)據(jù)集,以及50萬(wàn)對(duì)精心策劃的高質(zhì)量圖像-文本對(duì)。
在文本到圖像生成任務(wù)上,Muddit在GenEval基準(zhǔn)測(cè)試中取得了0.61的總體準(zhǔn)確率,超過(guò)了之前的離散擴(kuò)散模型如Monetico(0.44)和Meissonic(0.54),并接近Stable Diffusion 3(0.62)的性能,盡管后者的參數(shù)量遠(yuǎn)大于Muddit的1B參數(shù)。特別是在"兩個(gè)物體"子集上得分0.72,在"計(jì)數(shù)"上得分0.54,展現(xiàn)出強(qiáng)大的組合推理能力。
在圖像到文本生成和視覺(jué)問(wèn)答任務(wù)上,Muddit同樣表現(xiàn)出色。在MS-COCO圖像描述任務(wù)上,它獲得了59.7的CIDEr得分,超過(guò)了更大的模型如Show-O和D-DiT。在VQAv2基準(zhǔn)測(cè)試中,它達(dá)到了67.7%的準(zhǔn)確率,超過(guò)了其他基于擴(kuò)散的模型如D-DiT(512×512),并接近使用13B參數(shù)的自回歸模型LLaVA-Next的性能。
在推理速度方面,Muddit以其并行離散擴(kuò)散解碼器,將平均延遲降低到僅1.49秒,比競(jìng)爭(zhēng)基線快4到11倍(比Qwen-2.5-VL快4.2倍,比Show-o快5.6倍,比BLIP-2快8.1倍,比LLaVA-1.6快10.9倍)。
五、消融研究:每個(gè)組件都很重要
研究團(tuán)隊(duì)進(jìn)行了詳盡的消融實(shí)驗(yàn),分析了各種設(shè)計(jì)選擇對(duì)Muddit性能的影響。首先,他們研究了擴(kuò)散時(shí)間步數(shù)的影響。結(jié)果表明,增加擴(kuò)散步數(shù)通常會(huì)提高性能,大多數(shù)指標(biāo)在T=32-50時(shí)趨于穩(wěn)定。特別是GenEval和CIDEr分?jǐn)?shù)從T=8到T=32有顯著改善,但之后邊際收益遞減。而VQAv2在不同時(shí)間步數(shù)下保持相對(duì)穩(wěn)定,表明較少的步數(shù)足以處理判別性任務(wù)。
其次,他們分析了文本損失權(quán)重的影響。中等文本損失權(quán)重(約0.6)產(chǎn)生了最佳的整體性能。CIDEr和GenEval分?jǐn)?shù)在這個(gè)值附近達(dá)到峰值,表明過(guò)度強(qiáng)調(diào)或過(guò)度忽視文本都會(huì)損害生成質(zhì)量。值得注意的是,VQAv2性能隨著文本監(jiān)督的增加而提高,但在0.6之后開(kāi)始趨于平穩(wěn)。
第三,研究了聯(lián)合訓(xùn)練的效果。"聯(lián)合訓(xùn)練"指的是在圖像標(biāo)記預(yù)測(cè)和文本標(biāo)記預(yù)測(cè)上都使用交叉熵?fù)p失,而"非聯(lián)合訓(xùn)練"僅在文本標(biāo)記預(yù)測(cè)上應(yīng)用損失。結(jié)果顯示,移除聯(lián)合訓(xùn)練導(dǎo)致GenEval性能從61.6急劇下降到28.3,超過(guò)了任何其他變量帶來(lái)的變化。與此同時(shí),CIDEr幾乎保持不變(59.4→58.38),表明語(yǔ)言質(zhì)量得到保留,而VQAv2僅略微下降(69.2→67.8)。這一發(fā)現(xiàn)強(qiáng)調(diào)了統(tǒng)一優(yōu)化對(duì)多模態(tài)一致性的必要性。
六、Muddit的潛力與局限
盡管Muddit在推進(jìn)離散擴(kuò)散用于統(tǒng)一多模態(tài)生成方面取得了重大進(jìn)展,但它仍然存在一些局限性。首先,由于其基于標(biāo)記級(jí)別的離散表示,該模型在生成逼真或高分辨率圖像方面可能不如連續(xù)擴(kuò)散模型。其次,Muddit是從預(yù)訓(xùn)練的文生圖基礎(chǔ)模型初始化的,這提供了強(qiáng)大的視覺(jué)先驗(yàn),但限制了其進(jìn)行豐富文本理解和生成的能力,使其不太適合需要長(zhǎng)形式理解和生成或深度語(yǔ)言推理的任務(wù)。
不過(guò),Muddit探索了多模態(tài)生成的新范式,通過(guò)利用強(qiáng)大的視覺(jué)先驗(yàn)作為骨架,而不是追隨當(dāng)前擴(kuò)展大型語(yǔ)言模型的趨勢(shì)。這為高效、接地的多模態(tài)生成提供了一條互補(bǔ)的路徑,特別是在以視覺(jué)為中心的應(yīng)用中。該模型能夠以快速、并行的方式生成對(duì)齊的視覺(jué)和文本輸出,這對(duì)下游任務(wù)可能有益,特別是在基于完成的場(chǎng)景中,如掩碼字幕、圖像編輯和代碼實(shí)現(xiàn)。
七、結(jié)論:離散擴(kuò)散的未來(lái)
在這項(xiàng)研究中,研究團(tuán)隊(duì)展示了Muddit這一統(tǒng)一生成框架,它利用離散擴(kuò)散來(lái)連接文本和圖像模態(tài)。通過(guò)在單一模型中統(tǒng)一圖像和文本生成,Muddit在文本到圖像、圖像到文本和VQA任務(wù)上展現(xiàn)出強(qiáng)大的性能。值得注意的是,它超越或匹配了明顯更大的自回歸模型的能力,同時(shí)實(shí)現(xiàn)了快速、并行的推理。
這些結(jié)果證實(shí)了離散去噪作為通用建模策略的有效性,并強(qiáng)調(diào)了其作為未來(lái)多模態(tài)系統(tǒng)可擴(kuò)展骨架的潛力。正如研究團(tuán)隊(duì)所希望的,這項(xiàng)工作可能會(huì)啟發(fā)統(tǒng)一生成建模的新趨勢(shì),基于離散擴(kuò)散,超越傳統(tǒng)文本到圖像合成和文本合成的邊界。
當(dāng)我們展望未來(lái),Muddit代表了一種有前途的方向,將不同的模態(tài)和任務(wù)統(tǒng)一在一個(gè)連貫的框架下。通過(guò)結(jié)合并行處理的效率和預(yù)訓(xùn)練模型的豐富知識(shí),這種方法可能會(huì)繼續(xù)推動(dòng)人工智能系統(tǒng)在理解和生成多種形式內(nèi)容方面的能力。隨著這一領(lǐng)域的發(fā)展,我們可以期待看到更多像Muddit這樣的創(chuàng)新,它們不僅提高性能,還提供更直觀、更統(tǒng)一的方式來(lái)思考跨模態(tài)任務(wù)。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語(yǔ)言模型的敘事推理能力與音頻生成技術(shù),通過(guò)交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開(kāi)辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過(guò)讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問(wèn)題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語(yǔ)言模型人性化對(duì)話(huà)問(wèn)題。該研究創(chuàng)建了包含20萬(wàn)高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過(guò)創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開(kāi)發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過(guò)學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來(lái)了效率和精度的雙重突破。