av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 深度融合大型語言模型與擴散變換器:新一代AI圖像生成技術(shù)的突破性探索

深度融合大型語言模型與擴散變換器:新一代AI圖像生成技術(shù)的突破性探索

2025-05-16 17:00
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-16 17:00 ? Hugging Face

在人工智能飛速發(fā)展的今天,文本到圖像的生成技術(shù)已成為大眾關(guān)注的焦點。2025年5月,來自紐約大學(xué)的Bingda Tang、Boyang Zheng、Xichen Pan和Saining Xie,以及Hugging Face的Sayak Paul共同發(fā)表了一篇探索性研究論文《Exploring the Deep Fusion of Large Language Models and Diffusion Transformers for Text-to-Image Synthesis》(探索大型語言模型與擴散變換器的深度融合用于文本到圖像生成)。這篇發(fā)表在arXiv(arXiv:2505.10046v1)上的研究,并沒有提出全新的方法,而是對一個重要但研究不足的設(shè)計空間進(jìn)行了全面探索,為未來的多模態(tài)生成研究提供了寶貴的數(shù)據(jù)點和實用指南。

想象一下,如果我們把AI的兩大"超級大腦"——擅長理解和生成文本的大型語言模型(簡稱LLM,像ChatGPT背后的技術(shù))和專門生成圖像的擴散變換器(簡稱DiT)——像兩條河流一樣融合在一起,會產(chǎn)生什么樣的化學(xué)反應(yīng)?這正是本研究要探索的核心問題。

傳統(tǒng)的文本到圖像生成系統(tǒng)通常從專門的編碼器(如CLIP或T5)中提取文本表示,再將其輸入到擴散模型中。隨著僅解碼器型大語言模型的興起,研究人員開始探索用它們替代傳統(tǒng)文本編碼器的可能性。然而,簡單地替換大語言模型往往達(dá)不到預(yù)期效果,除非輔以復(fù)雜的架構(gòu)調(diào)整。這是因為大語言模型的訓(xùn)練目標(biāo)(預(yù)測下一個詞)與擴散模型中需要的判別性文本表示之間存在錯位。

最近的一些研究已經(jīng)成功地將自回歸解碼和去噪擴散統(tǒng)一在單一變換器中,支持包括指令型圖像到文本、文本到圖像合成以及交錯的圖像-文本生成等多種任務(wù)。雖然早期方法通常依賴于整個模型的大規(guī)模預(yù)訓(xùn)練,但最新研究通過層間共享自注意力機制,將大語言模型與擴散變換器進(jìn)行深度融合,既保持了模態(tài)特定的計算,又實現(xiàn)了豐富的跨模態(tài)交互。

然而,盡管這種深度融合方法展現(xiàn)出良好的前景,但其真實潛力仍不確定?,F(xiàn)有研究主要關(guān)注整體系統(tǒng)性能,而非與現(xiàn)有方法的對照比較,關(guān)鍵設(shè)計細(xì)節(jié)和訓(xùn)練方案也常常未被披露。這些限制阻礙了該方法在研究社區(qū)中的更廣泛采用。

本研究團隊通過對凍結(jié)的大語言模型與可訓(xùn)練的擴散變換器進(jìn)行深度融合的實證研究,彌補了這些不足。他們進(jìn)行了受控比較,檢驗了關(guān)鍵設(shè)計選擇,并引入了可擴展、可復(fù)制的訓(xùn)練方案,在文本到圖像生成的既定基準(zhǔn)上取得了競爭性能。

一、深度融合架構(gòu):打破AI"大腦"間的壁壘

深度融合方法通過層間共享自注意力,將凍結(jié)的僅解碼器型大語言模型與可訓(xùn)練的擴散變換器整合在一起。這種架構(gòu)實現(xiàn)了雙流變換器設(shè)計,在保持模態(tài)特定計算的同時,通過使用不同的權(quán)重集來處理不同模態(tài)的標(biāo)記,實現(xiàn)了豐富的跨模態(tài)交互。

想象一下,這就像兩個專家在協(xié)作解決問題:一個語言專家和一個圖像專家。他們各自有自己的思維方式(不同的權(quán)重),但可以通過深入交流(共享自注意力)來相互理解和補充。

在這個融合模型中,文本嵌入通過大語言模型流處理,而帶噪聲的圖像潛變量則通過擴散變換器流處理。在每一層的自注意力操作中,來自兩個流的標(biāo)記序列被連接起來,使擴散變換器能夠從語言上下文中提取條件信息。為了保持預(yù)訓(xùn)練大語言模型的功能,研究團隊對文本序列應(yīng)用因果注意力掩碼,對圖像序列應(yīng)用雙向掩碼,允許圖像標(biāo)記關(guān)注文本標(biāo)記,但不允許反向關(guān)注。

關(guān)鍵的是,圖像標(biāo)記只需要文本隱藏狀態(tài)的鍵和值狀態(tài)。這些在擴散過程中保持不變,允許它們在推理過程中被高效緩存和重用。

在訓(xùn)練目標(biāo)上,研究團隊采用了校正流公式,通過連接樣本之間的直線路徑,學(xué)習(xí)標(biāo)準(zhǔn)高斯噪聲分布與數(shù)據(jù)分布之間的傳輸映射,并通過基于時間的ODE模型學(xué)習(xí)轉(zhuǎn)換噪聲到期望數(shù)據(jù)分布的路徑。

二、實驗設(shè)置:打造公平透明的比較環(huán)境

為確保深度和淺層融合方法之間的比較完全開放和可復(fù)制,研究團隊提供了全面的實驗設(shè)置細(xì)節(jié),包括模型、數(shù)據(jù)集、訓(xùn)練、推理和評估等方面。他們專門使用開源預(yù)訓(xùn)練大語言模型和公開可用的數(shù)據(jù)集。

在模型方面,所有實驗(除第7節(jié)外)均使用凍結(jié)的Gemma 2B作為基礎(chǔ)大語言模型,搭配隨機初始化的2.5B參數(shù)擴散變換器。擴散變換器的變換器配置嚴(yán)格遵循基礎(chǔ)大語言模型,包括隱藏大小、層數(shù)、注意力頭數(shù)、前饋神經(jīng)網(wǎng)絡(luò)設(shè)計等架構(gòu)細(xì)節(jié),確保兩個模型具有相同的2B參數(shù)主干。

簡單來說,就像是一對雙胞胎,一個精通語言(LLM),一個專攻圖像(DiT),它們有著相同的"骨架"(網(wǎng)絡(luò)架構(gòu)),但各自發(fā)展了不同的"技能"。

在數(shù)據(jù)集方面,他們使用CC12M數(shù)據(jù)集和社區(qū)貢獻(xiàn)的合成說明作為訓(xùn)練集。這個數(shù)據(jù)集包含1090萬圖像-說明對。圖像被調(diào)整大小并居中裁剪至512×512,文本被填充或截斷至256個標(biāo)記。

訓(xùn)練過程中,所有模型都使用AdamW優(yōu)化器,批量大小為512,在BF16混合精度下進(jìn)行。他們使用1×10^-4的恒定學(xué)習(xí)率,1×10^-4的權(quán)重衰減,閾值為1.0的梯度裁剪。每100步使用0.99的衰減因子收集權(quán)重的指數(shù)移動平均值。在訓(xùn)練期間,10%的文本被隨機丟棄以學(xué)習(xí)無條件生成。

推理時,他們使用歐拉離散化,采樣步數(shù)為25,分類器自由引導(dǎo)尺度為6(經(jīng)發(fā)現(xiàn)接近文本-圖像對齊的最佳值)。在所有實驗中,他們采用相同的采樣步驟和引導(dǎo)尺度。

在評估方面,他們使用GenEval和DPG-Bench指標(biāo)評估圖像-文本對齊,優(yōu)先考慮GenEval的魯棒性。兩種基準(zhǔn)都提供有價值的見解,但DPG-Bench存在一定局限性,如性能快速飽和和潛在的測量錯誤。為確保全面評估,他們還提供了在MJHQ-30K上使用FID的視覺質(zhì)量度量。值得注意的是,圖像-文本對齊與視覺質(zhì)量并不總是呈正相關(guān),經(jīng)常存在權(quán)衡。

三、深度融合與淺層融合的對比:誰能更好地理解文字并創(chuàng)造圖像?

研究團隊將深度融合方法與兩種淺層融合架構(gòu)進(jìn)行了對比。淺層融合通過在注意力操作中進(jìn)行后期融合,將單一文本編碼器層的表示整合到每個擴散變換器層中,而深度融合則在整個網(wǎng)絡(luò)中創(chuàng)建互連。

兩種淺層融合架構(gòu)的區(qū)別在于它們?nèi)绾尉酆蠗l件信息:

自注意力擴散變換器將文本表示投影到鍵和值狀態(tài),然后在自注意力中與圖像隱藏狀態(tài)的鍵和值連接,這類似于某些先前研究提出的架構(gòu)。

交叉注意力擴散變換器也將文本表示投影到鍵和值狀態(tài),但它們用于與圖像隱藏狀態(tài)的額外交叉注意力,在每一層的自注意力之后應(yīng)用。

比較結(jié)果顯示,深度融合模型在圖像-文本對齊方面明顯優(yōu)于自注意力擴散變換器模型,也超過了交叉注意力擴散變換器模型,而淺層融合模型則展示出更好的視覺質(zhì)量。在推理效率方面,深度融合也表現(xiàn)出競爭性能。

四、關(guān)鍵設(shè)計選擇探索:優(yōu)化深度融合架構(gòu)

研究團隊通過探索幾個關(guān)鍵設(shè)計選擇,進(jìn)一步優(yōu)化了深度融合方法。

首先,他們評估了時間步調(diào)節(jié)的必要性和潛在冗余性。經(jīng)典的擴散變換器使用AdaLN-Zero作為標(biāo)準(zhǔn)機制來注入時間步和類標(biāo)簽信息,這通常占模型參數(shù)的很大比例(在本例中,2.5B總參數(shù)中的0.5B)。然而,由于文本到圖像模型不使用類標(biāo)簽,AdaLN僅用于時間步調(diào)節(jié),這引發(fā)了關(guān)于其必要性的問題。

研究表明,減少時間步調(diào)節(jié)中的參數(shù)數(shù)量能持續(xù)提高視覺質(zhì)量,而圖像-文本對齊的性能則呈現(xiàn)波動。令人驚訝的是,完全移除時間步調(diào)節(jié)不僅實現(xiàn)了顯著更好的FID分?jǐn)?shù),而且保持了可比的GenEval和DPG-Bench性能。這一發(fā)現(xiàn)與之前的研究一致,在較小數(shù)據(jù)集上訓(xùn)練的校正流模型中,移除時間步調(diào)節(jié)提高了FID。此外,完全移除時間步調(diào)節(jié)還消除了相關(guān)參數(shù)的需求,導(dǎo)致模型參數(shù)總數(shù)減少20%。

其次,他們比較了不同的位置編碼策略。研究發(fā)現(xiàn),將1D RoPE應(yīng)用于文本序列和2D RoPE應(yīng)用于圖像序列的配置實現(xiàn)了最佳總體性能,僅在DPGBench方面與1D-RoPE + APE變體相比略有下降。2D-RoPE優(yōu)于APE的事實表明,RoPE在深度融合模型中對建模圖像序列更為有效。

第三,他們探討了基礎(chǔ)大語言模型選擇的影響。有趣的是,指令調(diào)整似乎對性能有輕微負(fù)面影響。雖然使用指令提示在一定程度上緩解了這種影響,但它仍不及基線。這一結(jié)果突顯了有效利用大語言模型指令跟隨能力的挑戰(zhàn)。相比之下,多模態(tài)調(diào)整確實提供了一些性能提升,盡管幅度不大。

最令人驚訝的是,當(dāng)從Gemma 2B升級到下一代Gemma 2 2B(在8個僅語言基準(zhǔn)的平均測試中表現(xiàn)提高6%)時,文本到圖像性能顯著提升。這一發(fā)現(xiàn)表明,深度融合模型中擴散變換器的性能強烈依賴于底層基礎(chǔ)大語言模型的能力。

五、規(guī)?;?xùn)練:從實驗室走向?qū)嶋H應(yīng)用

基于前述探索的見解,研究團隊提出了深度融合模型的最終配方,建立在原始框架的基礎(chǔ)上,同時整合了關(guān)鍵的改進(jìn):

移除AdaLN-Zero模塊 將1D-RoPE + APE替換為1D + 2D-RoPE 用Gemma 2 2B替換Gemma 2B,相應(yīng)調(diào)整擴散變換器配置

他們將這一模型命名為FuseDiT,在一個混合數(shù)據(jù)集上訓(xùn)練了80萬步,該數(shù)據(jù)集包括CC12M、SA-1B和JourneyDB的訓(xùn)練子集,總計約2600萬圖像-說明對。值得注意的是,最先進(jìn)的文本到圖像模型通常依賴于更大規(guī)模的高質(zhì)量數(shù)據(jù)集來實現(xiàn)卓越性能。

與最先進(jìn)的文本到圖像擴散模型相比,盡管FuseDiT在有限的計算資源和數(shù)據(jù)條件下以簡化設(shè)置進(jìn)行訓(xùn)練,但它超越了許多行業(yè)標(biāo)準(zhǔn)系統(tǒng),并提供了具有競爭力的結(jié)果,達(dá)到了0.60的GenEval分?jǐn)?shù)、81.6的DPG分?jǐn)?shù)和7.54的FID分?jǐn)?shù)。

六、進(jìn)一步探索:突破設(shè)計邊界

為了探索深度融合方法的更激進(jìn)修改,研究團隊進(jìn)行了初步研究,主要關(guān)注兩個方向:架構(gòu)對齊和注意力機制。

在架構(gòu)對齊方面,他們探討了修改擴散變換器模型的隱藏大小和變換器層數(shù)的可能性。研究發(fā)現(xiàn),隨著隱藏大小的減小,模型性能優(yōu)雅地下降,視覺質(zhì)量在某些情況下實際上有所提高。而減少變換器層數(shù)也能產(chǎn)生可接受的結(jié)果,但性能下降更快。這些發(fā)現(xiàn)表明,大語言模型和擴散變換器模型設(shè)計可以有效地解耦,使不同模態(tài)能夠應(yīng)用不同的縮放規(guī)律和設(shè)計原則。

在注意力機制方面,他們探索了一種替代深度融合變體,該變體用交叉注意力機制替代共享自注意力。這一修改帶來了微小的性能提升,但以大語言模型-擴散變換器對等性為代價,并導(dǎo)致推理延遲增加約12%。因此,在最終配置中,他們保留了自注意力設(shè)計。

這項關(guān)于大型語言模型與擴散變換器深度融合的研究為文本到圖像合成提供了強有力的實證證據(jù),支持這種方法相對于基線的優(yōu)勢。研究團隊強調(diào)了關(guān)鍵的設(shè)計選擇,識別了未解決的問題,并提供了有意義的數(shù)據(jù)點和實用指南。他們希望這項實證工作能幫助推進(jìn)多模態(tài)生成,并彌合自回歸解碼和去噪擴散之間的差距。

簡而言之,通過將語言專家(大語言模型)和圖像專家(擴散變換器)的"思維"深度融合,我們可以創(chuàng)造出更好的AI藝術(shù)家,它們不僅能更準(zhǔn)確地理解文本描述,還能創(chuàng)作出更好的圖像作品。這種融合比簡單地讓兩個專家單獨工作然后組合結(jié)果要有效得多,就像一個真正理解你意圖的藝術(shù)家,而不僅僅是一個按照指令機械工作的繪圖員。

研究團隊的工作不僅為這一領(lǐng)域提供了寶貴的技術(shù)洞察,也為未來的研究者鋪平了道路,讓我們離創(chuàng)造真正理解人類意圖的AI圖像生成系統(tǒng)更近了一步。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-