這項(xiàng)由南京大學(xué)人工智能學(xué)院的傅明昊和阿里巴巴國(guó)際數(shù)字商業(yè)集團(tuán)的王國(guó)華等研究人員共同完成的研究發(fā)表于2025年7月,論文題為"TeEFusion: Blending Text Embeddings to Distill Classifier-Free Guidance"。有興趣深入了解的讀者可以通過(guò)論文代碼庫(kù)github.com/AIDC-AI/TeEFusion訪問(wèn)完整的研究成果。
當(dāng)下最先進(jìn)的AI繪畫(huà)系統(tǒng)就像一位極其挑剔的藝術(shù)家,為了創(chuàng)作出一幅完美的畫(huà)作,它需要反復(fù)思考、不斷修正。具體來(lái)說(shuō),這些系統(tǒng)會(huì)同時(shí)考慮兩個(gè)問(wèn)題:一是"這幅畫(huà)應(yīng)該包含什么內(nèi)容"(根據(jù)你給出的文字描述),二是"這幅畫(huà)不應(yīng)該包含什么內(nèi)容"(避免生成無(wú)關(guān)或低質(zhì)量的內(nèi)容)。通過(guò)對(duì)比這兩種思考結(jié)果,系統(tǒng)最終能夠生成高質(zhì)量的圖像。
然而,這種"雙重思考"機(jī)制雖然效果出眾,卻帶來(lái)了一個(gè)嚴(yán)重問(wèn)題:計(jì)算速度極其緩慢。每生成一幅圖像,系統(tǒng)都需要進(jìn)行兩次完整的計(jì)算過(guò)程,這就像一個(gè)人每做一個(gè)決定都要在心里反復(fù)權(quán)衡兩遍一樣費(fèi)時(shí)費(fèi)力。更糟糕的是,當(dāng)使用更復(fù)雜的優(yōu)化算法時(shí),這種重復(fù)計(jì)算的負(fù)擔(dān)會(huì)進(jìn)一步加重,導(dǎo)致生成一幅圖像的時(shí)間成本高得令人難以接受。
為了解決這個(gè)問(wèn)題,研究團(tuán)隊(duì)提出了一種名為T(mén)eEFusion(文本嵌入融合)的創(chuàng)新方法。這種方法的核心思想非常巧妙:既然"雙重思考"的本質(zhì)是將兩種不同的信息進(jìn)行對(duì)比和融合,那么為什么不在更早的階段就完成這種融合呢?就像一個(gè)經(jīng)驗(yàn)豐富的廚師能夠憑直覺(jué)調(diào)配出完美的調(diào)料比例,而不需要每次都分別嘗試每種調(diào)料的味道一樣。
TeEFusion的工作原理可以用一個(gè)簡(jiǎn)單的比喻來(lái)理解。傳統(tǒng)方法就像兩個(gè)翻譯員分別翻譯同一段文字的正面含義和反面含義,然后將兩個(gè)翻譯結(jié)果進(jìn)行對(duì)比整合。而TeEFusion則相當(dāng)于訓(xùn)練出一個(gè)"超級(jí)翻譯員",它能夠直接理解文字的完整含義,包括正面和反面的信息,從而一次性給出最佳的翻譯結(jié)果。
這種方法的技術(shù)實(shí)現(xiàn)非常優(yōu)雅。研究團(tuán)隊(duì)發(fā)現(xiàn),在文本編碼的數(shù)學(xué)空間中,可以通過(guò)簡(jiǎn)單的線性運(yùn)算來(lái)融合不同類型的語(yǔ)義信息。他們通過(guò)實(shí)驗(yàn)驗(yàn)證了這樣一個(gè)有趣的現(xiàn)象:當(dāng)你將描述某個(gè)概念的文本編碼與描述相關(guān)概念的文本編碼進(jìn)行數(shù)學(xué)運(yùn)算時(shí),得到的結(jié)果能夠準(zhǔn)確表達(dá)這兩個(gè)概念的組合語(yǔ)義。這就像在顏料調(diào)色盤(pán)上,紅色顏料加上藍(lán)色顏料能夠自然地產(chǎn)生紫色一樣直觀。
基于這個(gè)發(fā)現(xiàn),TeEFusion將傳統(tǒng)方法中后期的信息融合過(guò)程前移到了文本編碼階段。系統(tǒng)不再需要分別處理?xiàng)l件信息和無(wú)條件信息,而是直接處理融合后的綜合信息。這種設(shè)計(jì)不僅大大減少了計(jì)算量,還保持了原有的圖像生成質(zhì)量。
更令人印象深刻的是,TeEFusion能夠從使用復(fù)雜采樣策略的"教師模型"中學(xué)習(xí)經(jīng)驗(yàn)。這個(gè)過(guò)程類似于一個(gè)年輕廚師通過(guò)觀察資深大廚的烹飪過(guò)程,學(xué)會(huì)了如何用更簡(jiǎn)單的方法做出同樣美味的菜肴。教師模型雖然烹飪過(guò)程復(fù)雜,但最終的成品質(zhì)量極高。學(xué)生模型通過(guò)學(xué)習(xí)這些高質(zhì)量的"成品",掌握了用簡(jiǎn)化流程制作類似水準(zhǔn)菜肴的技巧。
研究團(tuán)隊(duì)在多個(gè)權(quán)威數(shù)據(jù)集上進(jìn)行了全面的實(shí)驗(yàn)驗(yàn)證。他們測(cè)試了兩個(gè)大型的文本生成圖像模型:公開(kāi)可用的SD3模型(擁有20億參數(shù))和他們自主開(kāi)發(fā)的專門(mén)針對(duì)電商場(chǎng)景優(yōu)化的In-house T2I模型(擁有10億參數(shù))。實(shí)驗(yàn)結(jié)果顯示,TeEFusion在保持圖像質(zhì)量基本不變的前提下,將推理速度提升了6倍。
在美學(xué)質(zhì)量評(píng)估中,TeEFusion表現(xiàn)尤為出色。研究團(tuán)隊(duì)使用了HPS(人類偏好評(píng)分)這一廣泛認(rèn)可的評(píng)估標(biāo)準(zhǔn),該標(biāo)準(zhǔn)涵蓋了動(dòng)漫、概念藝術(shù)、繪畫(huà)和攝影四個(gè)不同風(fēng)格類別,每個(gè)類別包含800個(gè)測(cè)試提示詞。結(jié)果顯示,TeEFusion不僅在所有類別中都超越了基線方法,甚至在某些情況下超越了使用復(fù)雜采樣策略的教師模型。
在物體構(gòu)圖能力測(cè)試中,研究團(tuán)隊(duì)使用了DPG-Bench基準(zhǔn),該基準(zhǔn)包含1065個(gè)描述多個(gè)物體及其相互關(guān)系的復(fù)雜提示詞。TeEFusion在實(shí)體識(shí)別、屬性匹配、空間關(guān)系理解等多個(gè)維度都展現(xiàn)出了優(yōu)異的性能,證明了它不僅能夠快速生成圖像,還能準(zhǔn)確理解和表達(dá)復(fù)雜的視覺(jué)概念。
特別值得一提的是,TeEFusion在處理不同引導(dǎo)強(qiáng)度時(shí)表現(xiàn)出了良好的穩(wěn)定性和靈活性。引導(dǎo)強(qiáng)度可以理解為系統(tǒng)對(duì)文本描述的"重視程度"——數(shù)值越高,生成的圖像就越嚴(yán)格地遵循文本描述。傳統(tǒng)方法在高引導(dǎo)強(qiáng)度下容易出現(xiàn)圖像質(zhì)量下降或者生成失敗的問(wèn)題,而TeEFusion能夠在廣泛的引導(dǎo)強(qiáng)度范圍內(nèi)保持穩(wěn)定的性能。
從實(shí)用角度來(lái)看,TeEFusion的優(yōu)勢(shì)非常明顯。對(duì)于需要大量圖像生成的應(yīng)用場(chǎng)景,比如電商平臺(tái)的商品展示、游戲開(kāi)發(fā)中的素材制作、或者創(chuàng)意設(shè)計(jì)工作,6倍的速度提升意味著成本的大幅降低和效率的顯著提高。以往需要數(shù)小時(shí)才能完成的批量圖像生成任務(wù),現(xiàn)在可能只需要幾十分鐘就能完成。
研究團(tuán)隊(duì)還進(jìn)行了深入的消融實(shí)驗(yàn),驗(yàn)證了方法中每個(gè)組件的貢獻(xiàn)。他們發(fā)現(xiàn),文本嵌入融合的核心思想確實(shí)是性能提升的關(guān)鍵因素。同時(shí),他們還測(cè)試了從不同復(fù)雜度教師模型學(xué)習(xí)的效果,結(jié)果表明TeEFusion能夠有效地從任何高質(zhì)量的教師模型中學(xué)習(xí),這為未來(lái)的擴(kuò)展應(yīng)用提供了廣闊的空間。
在訓(xùn)練效率方面,TeEFusion也展現(xiàn)出了令人滿意的表現(xiàn)。整個(gè)蒸餾訓(xùn)練過(guò)程在16塊A100 GPU上僅需4小時(shí)就能完成,這相比其他復(fù)雜的蒸餾方法來(lái)說(shuō)是一個(gè)巨大的優(yōu)勢(shì)??焖俚挠?xùn)練過(guò)程不僅降低了研究成本,也使得這種方法更容易被其他研究團(tuán)隊(duì)采用和改進(jìn)。
當(dāng)然,TeEFusion也存在一些限制。研究團(tuán)隊(duì)誠(chéng)實(shí)地指出,該方法在處理某些語(yǔ)義上相互矛盾的描述時(shí)可能會(huì)出現(xiàn)困難,比如"冷火"或"不是貓"這樣的描述。這是因?yàn)槲谋厩度肴诤弦蕾囉谡Z(yǔ)義向量的線性組合,而矛盾概念的向量可能無(wú)法通過(guò)簡(jiǎn)單的線性運(yùn)算得到合理的融合結(jié)果。
此外,雖然TeEFusion在大多數(shù)情況下能夠很好地保持圖像質(zhì)量,但在某些特定場(chǎng)景下,生成的圖像可能與教師模型的輸出存在細(xì)微差別。這種差別通常不會(huì)影響圖像的整體質(zhì)量和可用性,但對(duì)于要求極度精確的應(yīng)用場(chǎng)景來(lái)說(shuō),可能需要進(jìn)一步的優(yōu)化。
從技術(shù)發(fā)展的角度來(lái)看,TeEFusion代表了AI圖像生成領(lǐng)域的一個(gè)重要進(jìn)步方向。它不是通過(guò)增加模型復(fù)雜度或計(jì)算資源來(lái)提升性能,而是通過(guò)更智能的方法設(shè)計(jì)來(lái)實(shí)現(xiàn)效率和質(zhì)量的雙重優(yōu)化。這種思路對(duì)整個(gè)人工智能領(lǐng)域都具有啟發(fā)意義:有時(shí)候,解決問(wèn)題的最佳方案不是"做得更多",而是"做得更聰明"。
研究團(tuán)隊(duì)已經(jīng)將TeEFusion的代碼和預(yù)訓(xùn)練模型開(kāi)放給學(xué)術(shù)界和工業(yè)界使用,這將有助于推動(dòng)相關(guān)技術(shù)的進(jìn)一步發(fā)展??梢灶A(yù)見(jiàn),基于這項(xiàng)工作的改進(jìn)和擴(kuò)展研究將會(huì)陸續(xù)出現(xiàn),進(jìn)一步推動(dòng)AI圖像生成技術(shù)的實(shí)用化進(jìn)程。
說(shuō)到底,TeEFusion解決的是一個(gè)非常實(shí)際的問(wèn)題:如何讓AI繪畫(huà)系統(tǒng)既能保持高質(zhì)量,又能提高生成速度。通過(guò)巧妙的算法設(shè)計(jì),研究團(tuán)隊(duì)找到了一個(gè)優(yōu)雅的解決方案。這項(xiàng)工作不僅在技術(shù)上具有創(chuàng)新性,在實(shí)用性方面也有著廣闊的應(yīng)用前景。對(duì)于普通用戶而言,這意味著未來(lái)的AI繪畫(huà)工具將會(huì)更加快速和便捷。對(duì)于開(kāi)發(fā)者和研究人員來(lái)說(shuō),這提供了一個(gè)新的思路來(lái)平衡AI系統(tǒng)的性能和效率。
Q&A
Q1:TeEFusion具體是什么?它是如何工作的? A:TeEFusion是一種讓AI繪畫(huà)系統(tǒng)變快的新方法。傳統(tǒng)AI繪畫(huà)需要"雙重思考"——同時(shí)考慮要畫(huà)什么和不要畫(huà)什么,然后對(duì)比兩個(gè)結(jié)果。TeEFusion則像訓(xùn)練一個(gè)"超級(jí)翻譯員",能直接理解文字的完整含義,一次性給出最佳結(jié)果,從而將速度提升6倍。
Q2:這種方法會(huì)不會(huì)影響AI繪畫(huà)的質(zhì)量? A:研究結(jié)果顯示基本不會(huì)。在多項(xiàng)測(cè)試中,TeEFusion生成的圖像質(zhì)量與傳統(tǒng)復(fù)雜方法基本相當(dāng),在某些評(píng)估標(biāo)準(zhǔn)上甚至略有提升。這就像一個(gè)經(jīng)驗(yàn)豐富的廚師用簡(jiǎn)化流程做出同樣美味的菜肴一樣。
Q3:普通用戶什么時(shí)候能用上這種技術(shù)? A:研究團(tuán)隊(duì)已經(jīng)開(kāi)源了代碼,技術(shù)公司可以直接采用。這意味著未來(lái)的AI繪畫(huà)應(yīng)用將會(huì)更快、更便宜。對(duì)于需要大量圖像生成的場(chǎng)景,比如電商、游戲開(kāi)發(fā)等,這種6倍的速度提升將帶來(lái)顯著的成本節(jié)約。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語(yǔ)言模型的敘事推理能力與音頻生成技術(shù),通過(guò)交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開(kāi)辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過(guò)讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問(wèn)題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語(yǔ)言模型人性化對(duì)話問(wèn)題。該研究創(chuàng)建了包含20萬(wàn)高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過(guò)創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開(kāi)發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過(guò)學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來(lái)了效率和精度的雙重突破。