av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁 Muddit: 突破文生圖限制,統(tǒng)一圖文生成的離散擴(kuò)散模型

Muddit: 突破文生圖限制,統(tǒng)一圖文生成的離散擴(kuò)散模型

2025-06-03 17:01
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-03 17:01 ? 科技行者

近日,由北京大學(xué)、中國電信、新加坡國立大學(xué)和普林斯頓大學(xué)的研究團(tuán)隊(duì)聯(lián)合發(fā)布了一項(xiàng)突破性研究成果。這篇題為《Muddit: Liberating Generation Beyond Text-to-Image with a Unified Discrete Diffusion Model》的論文已發(fā)表于arXiv(arXiv:2505.23606v1),論文第一作者為石慶宇和白錦彬,通訊作者為李祥泰、李學(xué)龍和嚴(yán)淑成。有興趣深入了解的讀者可通過GitHub(https://github.com/M-E-AGI-Lab/Muddit)獲取源代碼和模型。

想象一下,如果你的手機(jī)相冊(cè)和備忘錄能夠互相理解,相互轉(zhuǎn)化,會(huì)是什么樣的體驗(yàn)?你可以用文字描述一幅畫面,手機(jī)就能立刻為你生成相應(yīng)的圖像;你也可以拍攝一張照片,手機(jī)立刻能為你生成詳細(xì)的文字描述。這聽起來很神奇,但長期以來,這種雙向轉(zhuǎn)換存在兩個(gè)主要瓶頸:一是傳統(tǒng)方法生成速度慢;二是不同模態(tài)間缺乏統(tǒng)一的生成范式。

Muddit正是為解決這些問題而生的統(tǒng)一生成模型。它采用了一種稱為"離散擴(kuò)散"的技術(shù),能夠?qū)崿F(xiàn)文本與圖像之間的雙向高效轉(zhuǎn)換。不同于以往需要一個(gè)接一個(gè)地生成內(nèi)容的自回歸模型,Muddit可以并行生成內(nèi)容,大大提高了生成速度。更重要的是,它在一個(gè)統(tǒng)一的架構(gòu)下處理文本和圖像兩種不同的模態(tài),實(shí)現(xiàn)了真正的多模態(tài)融合。

那么,Muddit是如何工作的呢?想象你有一幅拼圖,但拼圖上的很多塊都被擦去了。Muddit就像一個(gè)能看到完整圖像的助手,通過分析周圍已有的拼圖塊,它能夠一次性預(yù)測(cè)多個(gè)缺失的塊,而不需要按照固定順序一塊一塊地填補(bǔ)。這種并行生成的方式不僅速度更快,而且能夠更好地捕捉不同內(nèi)容塊之間的關(guān)系。

研究團(tuán)隊(duì)的實(shí)驗(yàn)結(jié)果表明,盡管Muddit只有1B的參數(shù)規(guī)模(這在當(dāng)今動(dòng)輒幾十上百億參數(shù)的大模型中算是相當(dāng)"小巧"的),但其性能卻能夠匹敵甚至超越那些參數(shù)量遠(yuǎn)大于它的自回歸模型。在各種基準(zhǔn)測(cè)試中,Muddit展現(xiàn)出了優(yōu)異的性能,尤其是在生成高質(zhì)量圖像和準(zhǔn)確回答視覺問題方面。

一、統(tǒng)一生成模型的發(fā)展與挑戰(zhàn)

想象你在學(xué)習(xí)一門新語言的同時(shí)還要學(xué)習(xí)繪畫。如果這兩項(xiàng)技能完全沒有關(guān)聯(lián),學(xué)習(xí)起來會(huì)非常困難。但如果能找到它們之間的共通點(diǎn),比如都需要理解構(gòu)圖和表達(dá),學(xué)習(xí)效率就會(huì)大大提高。這正是統(tǒng)一生成模型要解決的問題:如何讓計(jì)算機(jī)既能理解和生成文本,又能理解和生成圖像,而且是在同一個(gè)框架下完成的。

傳統(tǒng)的多模態(tài)生成模型主要有四種類型。第一種是完全自回歸模型,它們將文本和圖像都轉(zhuǎn)換為一串標(biāo)記(token),然后從左到右逐個(gè)生成。想象一下你在寫信,必須一個(gè)字一個(gè)字地寫,不能跳著寫或同時(shí)寫多個(gè)字。這種方法雖然能產(chǎn)生高質(zhì)量的結(jié)果,但速度極慢,尤其是生成圖像時(shí),因?yàn)橐粡垐D像可能包含成千上萬個(gè)標(biāo)記。

第二種是混合型模型,使用自回歸方式生成文本,但用擴(kuò)散模型生成圖像。這就像你會(huì)用兩種完全不同的方式來寫作和繪畫,雖然各有所長,但缺乏統(tǒng)一性。第三種是圖像使用連續(xù)擴(kuò)散,文本使用離散擴(kuò)散的混合模型,同樣面臨統(tǒng)一性問題。

第四種,也是Muddit所屬的類型,是完全離散擴(kuò)散模型。它在統(tǒng)一的框架下處理文本和圖像,支持并行采樣和原生集成。然而,現(xiàn)有的這類模型如UniDisc存在生成質(zhì)量不足、難以生成高分辨率圖像等問題。

Muddit的創(chuàng)新之處在于,它結(jié)合了離散擴(kuò)散的高效并行生成能力,以及預(yù)訓(xùn)練文生圖模型中豐富的視覺先驗(yàn)知識(shí)。這就像一個(gè)既掌握了繪畫技巧,又精通寫作的老師,能夠同時(shí)指導(dǎo)你完成這兩項(xiàng)任務(wù),而且能讓你理解它們之間的聯(lián)系。

二、Muddit的技術(shù)原理:如何統(tǒng)一不同模態(tài)

了解Muddit如何工作,我們需要先理解什么是離散擴(kuò)散。想象你在玩一個(gè)猜詞游戲:我心里想了一個(gè)詞,但只告訴你部分字母,其余的用星號(hào)代替,比如"a**le"。你可能會(huì)猜這是"apple"。離散擴(kuò)散就是這樣一個(gè)過程:先將完整信息(無論是文字還是圖像)中的大部分內(nèi)容遮蓋起來,然后訓(xùn)練模型學(xué)會(huì)根據(jù)剩余可見的部分來恢復(fù)完整信息。

在技術(shù)層面,Muddit使用連續(xù)時(shí)間馬爾可夫鏈來描述這個(gè)"遮蓋-恢復(fù)"的過程。每個(gè)標(biāo)記(可以是一個(gè)文字或圖像的一部分)都有一定概率被遮蓋成特殊的掩碼標(biāo)記。模型的任務(wù)是預(yù)測(cè)這些被掩碼的標(biāo)記原本應(yīng)該是什么。

Muddit的架構(gòu)包含多個(gè)關(guān)鍵組件:文本編碼器、圖像編碼器、轉(zhuǎn)換器生成器、采樣器、文本解碼器和圖像解碼器。文本編碼器將文字轉(zhuǎn)換為標(biāo)記嵌入,圖像編碼器將圖像轉(zhuǎn)換為離散代碼本索引。生成器是一個(gè)單一的MM-DiT模型,它能夠預(yù)測(cè)兩種模態(tài)的被掩碼標(biāo)記。

特別值得一提的是,Muddit的生成器使用了預(yù)訓(xùn)練的Meissonic文生圖模型進(jìn)行初始化。這就像是模型先在繪畫學(xué)校學(xué)習(xí)了如何創(chuàng)作精美的畫作,然后再學(xué)習(xí)如何將畫作與文字聯(lián)系起來。這種預(yù)訓(xùn)練帶來了豐富的視覺先驗(yàn)知識(shí),能夠捕捉空間結(jié)構(gòu)和語義關(guān)聯(lián),大大提升了樣本質(zhì)量并加速了收斂。

在訓(xùn)練過程中,Muddit使用余弦調(diào)度策略進(jìn)行掩碼。這就像是在訓(xùn)練初期給模型看的信息很少,讓它大膽猜測(cè);隨著訓(xùn)練進(jìn)行,逐漸給它更多信息,讓它的預(yù)測(cè)更加精確。這種策略確保了模型能夠從完全隨機(jī)的猜測(cè)逐步學(xué)會(huì)準(zhǔn)確地理解和生成內(nèi)容。

三、統(tǒng)一訓(xùn)練與推理:一個(gè)模型處理多種任務(wù)

Muddit最令人印象深刻的特點(diǎn)是它的統(tǒng)一性。無論是從文本生成圖像,還是從圖像生成文本,它都使用相同的訓(xùn)練目標(biāo)和推理策略。這就像是用同一套方法學(xué)習(xí)既能聽寫(將聽到的聲音轉(zhuǎn)為文字)又能朗讀(將文字轉(zhuǎn)為聲音)的能力。

在訓(xùn)練階段,無論是處理文本到圖像還是圖像到文本的任務(wù),Muddit都應(yīng)用相同的連續(xù)時(shí)間負(fù)ELBO(Evidence Lower Bound)目標(biāo)函數(shù)。當(dāng)從文本生成圖像時(shí),文本嵌入作為條件;當(dāng)從圖像生成文本時(shí),圖像嵌入作為條件。這種對(duì)稱性使得優(yōu)化過程在各個(gè)任務(wù)中保持一致,使模型能夠使用單一參數(shù)集共同訓(xùn)練這兩個(gè)方向的生成能力。

在推理階段,Muddit采用時(shí)間反轉(zhuǎn)后驗(yàn)來逐步恢復(fù)被掩碼的內(nèi)容。想象一下拼圖游戲:一開始所有拼圖塊都是空白的,隨著時(shí)間推移,Muddit能夠同時(shí)預(yù)測(cè)多個(gè)拼圖塊的內(nèi)容,而不需要按固定順序一塊一塊填補(bǔ)。這種動(dòng)態(tài)方法比自回歸方法更靈活,因?yàn)樗灰蕾囉诠潭ǖ臉?biāo)記順序,而是基于對(duì)任意可見標(biāo)記子集的理解來預(yù)測(cè)。

Muddit支持三種主要任務(wù):文本到圖像生成、圖像到文本生成(圖像描述)和視覺問答。在所有這些任務(wù)中,唯一的變化是提供給生成器的條件源;擴(kuò)散過程和指導(dǎo)邏輯保持不變。比如,在文本到圖像生成中,文本編碼器產(chǎn)生文本標(biāo)記嵌入作為條件;在圖像到文本生成中,圖像編碼器產(chǎn)生的視覺標(biāo)記作為條件;在視覺問答中,則同時(shí)使用圖像和問題作為條件。

此外,Muddit還應(yīng)用了無分類器引導(dǎo)技術(shù)來提升生成質(zhì)量。這就像是給模型提供了一個(gè)參考點(diǎn),告訴它"這是你應(yīng)該避免的方向",從而使它能夠更好地朝著期望的方向前進(jìn)。這種技術(shù)在所有三種任務(wù)中都使用相同的引導(dǎo)規(guī)則,進(jìn)一步體現(xiàn)了模型的統(tǒng)一性。

四、實(shí)驗(yàn)結(jié)果:小模型也能有大能力

Muddit的實(shí)驗(yàn)設(shè)置分為兩個(gè)階段:預(yù)訓(xùn)練和監(jiān)督微調(diào)。在預(yù)訓(xùn)練階段,研究團(tuán)隊(duì)使用了大約350萬個(gè)圖像-文本對(duì),其中包括約200萬對(duì)經(jīng)過重新描述的高質(zhì)量圖像-文本對(duì)。在監(jiān)督微調(diào)階段,他們使用了包括LLaVA-Instruct-150K和MG-LLaVA調(diào)優(yōu)集在內(nèi)的指令跟隨數(shù)據(jù)集,以及50萬對(duì)精心策劃的高質(zhì)量圖像-文本對(duì)。

在文本到圖像生成任務(wù)上,Muddit在GenEval基準(zhǔn)測(cè)試中取得了0.61的總體準(zhǔn)確率,超過了之前的離散擴(kuò)散模型如Monetico(0.44)和Meissonic(0.54),并接近Stable Diffusion 3(0.62)的性能,盡管后者的參數(shù)量遠(yuǎn)大于Muddit的1B參數(shù)。特別是在"兩個(gè)物體"子集上得分0.72,在"計(jì)數(shù)"上得分0.54,展現(xiàn)出強(qiáng)大的組合推理能力。

在圖像到文本生成和視覺問答任務(wù)上,Muddit同樣表現(xiàn)出色。在MS-COCO圖像描述任務(wù)上,它獲得了59.7的CIDEr得分,超過了更大的模型如Show-O和D-DiT。在VQAv2基準(zhǔn)測(cè)試中,它達(dá)到了67.7%的準(zhǔn)確率,超過了其他基于擴(kuò)散的模型如D-DiT(512×512),并接近使用13B參數(shù)的自回歸模型LLaVA-Next的性能。

在推理速度方面,Muddit以其并行離散擴(kuò)散解碼器,將平均延遲降低到僅1.49秒,比競(jìng)爭(zhēng)基線快4到11倍(比Qwen-2.5-VL快4.2倍,比Show-o快5.6倍,比BLIP-2快8.1倍,比LLaVA-1.6快10.9倍)。

五、消融研究:每個(gè)組件都很重要

研究團(tuán)隊(duì)進(jìn)行了詳盡的消融實(shí)驗(yàn),分析了各種設(shè)計(jì)選擇對(duì)Muddit性能的影響。首先,他們研究了擴(kuò)散時(shí)間步數(shù)的影響。結(jié)果表明,增加擴(kuò)散步數(shù)通常會(huì)提高性能,大多數(shù)指標(biāo)在T=32-50時(shí)趨于穩(wěn)定。特別是GenEval和CIDEr分?jǐn)?shù)從T=8到T=32有顯著改善,但之后邊際收益遞減。而VQAv2在不同時(shí)間步數(shù)下保持相對(duì)穩(wěn)定,表明較少的步數(shù)足以處理判別性任務(wù)。

其次,他們分析了文本損失權(quán)重的影響。中等文本損失權(quán)重(約0.6)產(chǎn)生了最佳的整體性能。CIDEr和GenEval分?jǐn)?shù)在這個(gè)值附近達(dá)到峰值,表明過度強(qiáng)調(diào)或過度忽視文本都會(huì)損害生成質(zhì)量。值得注意的是,VQAv2性能隨著文本監(jiān)督的增加而提高,但在0.6之后開始趨于平穩(wěn)。

第三,研究了聯(lián)合訓(xùn)練的效果。"聯(lián)合訓(xùn)練"指的是在圖像標(biāo)記預(yù)測(cè)和文本標(biāo)記預(yù)測(cè)上都使用交叉熵?fù)p失,而"非聯(lián)合訓(xùn)練"僅在文本標(biāo)記預(yù)測(cè)上應(yīng)用損失。結(jié)果顯示,移除聯(lián)合訓(xùn)練導(dǎo)致GenEval性能從61.6急劇下降到28.3,超過了任何其他變量帶來的變化。與此同時(shí),CIDEr幾乎保持不變(59.4→58.38),表明語言質(zhì)量得到保留,而VQAv2僅略微下降(69.2→67.8)。這一發(fā)現(xiàn)強(qiáng)調(diào)了統(tǒng)一優(yōu)化對(duì)多模態(tài)一致性的必要性。

六、Muddit的潛力與局限

盡管Muddit在推進(jìn)離散擴(kuò)散用于統(tǒng)一多模態(tài)生成方面取得了重大進(jìn)展,但它仍然存在一些局限性。首先,由于其基于標(biāo)記級(jí)別的離散表示,該模型在生成逼真或高分辨率圖像方面可能不如連續(xù)擴(kuò)散模型。其次,Muddit是從預(yù)訓(xùn)練的文生圖基礎(chǔ)模型初始化的,這提供了強(qiáng)大的視覺先驗(yàn),但限制了其進(jìn)行豐富文本理解和生成的能力,使其不太適合需要長形式理解和生成或深度語言推理的任務(wù)。

不過,Muddit探索了多模態(tài)生成的新范式,通過利用強(qiáng)大的視覺先驗(yàn)作為骨架,而不是追隨當(dāng)前擴(kuò)展大型語言模型的趨勢(shì)。這為高效、接地的多模態(tài)生成提供了一條互補(bǔ)的路徑,特別是在以視覺為中心的應(yīng)用中。該模型能夠以快速、并行的方式生成對(duì)齊的視覺和文本輸出,這對(duì)下游任務(wù)可能有益,特別是在基于完成的場(chǎng)景中,如掩碼字幕、圖像編輯和代碼實(shí)現(xiàn)。

七、結(jié)論:離散擴(kuò)散的未來

在這項(xiàng)研究中,研究團(tuán)隊(duì)展示了Muddit這一統(tǒng)一生成框架,它利用離散擴(kuò)散來連接文本和圖像模態(tài)。通過在單一模型中統(tǒng)一圖像和文本生成,Muddit在文本到圖像、圖像到文本和VQA任務(wù)上展現(xiàn)出強(qiáng)大的性能。值得注意的是,它超越或匹配了明顯更大的自回歸模型的能力,同時(shí)實(shí)現(xiàn)了快速、并行的推理。

這些結(jié)果證實(shí)了離散去噪作為通用建模策略的有效性,并強(qiáng)調(diào)了其作為未來多模態(tài)系統(tǒng)可擴(kuò)展骨架的潛力。正如研究團(tuán)隊(duì)所希望的,這項(xiàng)工作可能會(huì)啟發(fā)統(tǒng)一生成建模的新趨勢(shì),基于離散擴(kuò)散,超越傳統(tǒng)文本到圖像合成和文本合成的邊界。

當(dāng)我們展望未來,Muddit代表了一種有前途的方向,將不同的模態(tài)和任務(wù)統(tǒng)一在一個(gè)連貫的框架下。通過結(jié)合并行處理的效率和預(yù)訓(xùn)練模型的豐富知識(shí),這種方法可能會(huì)繼續(xù)推動(dòng)人工智能系統(tǒng)在理解和生成多種形式內(nèi)容方面的能力。隨著這一領(lǐng)域的發(fā)展,我們可以期待看到更多像Muddit這樣的創(chuàng)新,它們不僅提高性能,還提供更直觀、更統(tǒng)一的方式來思考跨模態(tài)任務(wù)。

分享至
1贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-