av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 SenseFlow:香港科技大學(xué)團隊突破性提升大規(guī)模文本生成圖像模型的高效蒸餾技術(shù)

SenseFlow:香港科技大學(xué)團隊突破性提升大規(guī)模文本生成圖像模型的高效蒸餾技術(shù)

2025-06-06 09:18
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-06 09:18 ? 科技行者

在人工智能圖像生成領(lǐng)域的最新突破中,一支由香港科技大學(xué)的Jun Zhang教授領(lǐng)導(dǎo)、來自香港科技大學(xué)、SenseTime Research、清華大學(xué)和香港中文大學(xué)的聯(lián)合研究團隊開發(fā)了一種名為"SenseFlow"的創(chuàng)新技術(shù)。這項研究已于2025年5月31日提交至arXiv(arXiv:2506.00523v1),針對如何更高效地蒸餾大規(guī)模文生圖模型提出了全新解決方案。

想象一下,你有一位廚藝精湛的大廚朋友(大型擴散模型),他能做出美味佳肴,但每次都需要幾十個繁瑣步驟和幾小時的烹飪時間。而SenseFlow就像是一本神奇食譜,讓你只需4個簡單步驟就能復(fù)制出幾乎相同品質(zhì)的美食,大大節(jié)省時間和精力。

近年來,基于擴散和流匹配的文本到圖像生成模型取得了驚人進(jìn)展,如Stable Diffusion(SD)1.5、SDXL、SD 3.5和FLUX等。這些模型能生成高質(zhì)量圖像,但需要執(zhí)行多個去噪步驟(通常是幾十步到上百步),消耗大量計算資源和時間。模型規(guī)模越大,生成過程就越耗時,這嚴(yán)重限制了它們在實際應(yīng)用中的便捷性。

為解決這個問題,研究人員開發(fā)了各種"蒸餾"方法,試圖將復(fù)雜模型的能力壓縮到只需幾步就能運行的簡化版本中。其中,分布匹配蒸餾(DMD)系列方法在蒸餾標(biāo)準(zhǔn)擴散模型(如SD 1.5和SDXL)方面表現(xiàn)出色。然而,當(dāng)應(yīng)用于更大規(guī)模、基于流匹配的模型(如SD 3.5 Large和FLUX.1 dev)時,這些方法常常面臨收斂困難和訓(xùn)練不穩(wěn)定等問題。

這就是SenseFlow登場的地方。研究團隊首先深入分析了為什么現(xiàn)有DMD方法在大模型上表現(xiàn)不佳,然后提出了三個關(guān)鍵創(chuàng)新來解決這些問題:隱式分布對齊(IDA)、段內(nèi)引導(dǎo)(ISG)以及基于視覺基礎(chǔ)模型的判別器。讓我們一起深入了解這項突破性研究的細(xì)節(jié)。

一、理解問題:為什么現(xiàn)有方法在大模型上失效?

想象你正在學(xué)習(xí)一位世界級藝術(shù)家的繪畫技巧。傳統(tǒng)的學(xué)習(xí)方法(如DMD)在學(xué)習(xí)普通畫家的技巧時表現(xiàn)良好,但遇到達(dá)芬奇或畢加索這樣的大師時就力不從心了。為什么會這樣?

研究團隊發(fā)現(xiàn),在現(xiàn)有的分布匹配蒸餾(DMD)方法中,存在三個關(guān)鍵瓶頸:

首先是穩(wěn)定性問題。當(dāng)應(yīng)用到更大規(guī)模的模型時,即使使用兩時間尺度更新規(guī)則(TTUR)這種在小模型中有效的策略,訓(xùn)練過程也經(jīng)常無法穩(wěn)定收斂。想象你在走鋼絲,模型越大,鋼絲就越細(xì)越不穩(wěn)定,即使你放慢速度(使用TTUR),仍然很容易失去平衡。

其次是采樣效率問題。傳統(tǒng)DMD方法使用均勻分布的時間步來進(jìn)行訓(xùn)練和推理,沒有考慮到在去噪軌跡中不同時間步的重要性是不同的。這就像按固定間隔對一條山路進(jìn)行采樣,但實際上彎道和陡坡需要更密集的采樣點,而平直路段則可以稀疏采樣。

第三是判別器設(shè)計過于簡單?,F(xiàn)有方法中的判別器缺乏通用性,難以適應(yīng)不同規(guī)模和架構(gòu)的模型。這就像用同一把尺子去測量從小溪到大海的各種水體,顯然不夠靈活和精確。

二、SenseFlow的核心創(chuàng)新:解決大模型蒸餾的三大難題

針對上述三個關(guān)鍵瓶頸,研究團隊提出了三個創(chuàng)新解決方案,形成了SenseFlow的核心框架。

### 隱式分布對齊(IDA):讓訓(xùn)練更穩(wěn)定

在分布匹配蒸餾中,有兩個關(guān)鍵組件:生成器和假分布網(wǎng)絡(luò)。生成器負(fù)責(zé)生成圖像,而假分布網(wǎng)絡(luò)則負(fù)責(zé)估計生成器分布的得分函數(shù)。雖然它們通過不同的目標(biāo)函數(shù)進(jìn)行優(yōu)化,但長期目標(biāo)高度一致:都是為了建模一個接近真實數(shù)據(jù)分布的生成器分布。

然而,在實踐中,由于假分布網(wǎng)絡(luò)需要追蹤一個快速變化且不可靠的信號(生成器分布),特別是在早期訓(xùn)練階段,這種追蹤過程容易不穩(wěn)定,導(dǎo)致擬合不足、漂移或梯度不對齊,尤其是當(dāng)模型規(guī)模較大時。

為解決這個問題,研究團隊引入了隱式分布對齊(IDA)機制。具體來說,在每次生成器更新后,他們部分地將假分布網(wǎng)絡(luò)的參數(shù)向生成器方向?qū)R:

φ ← λ · φ + (1 - λ) · θ

這里φ是假分布網(wǎng)絡(luò)的參數(shù),θ是生成器的參數(shù),λ是一個控制對齊程度的超參數(shù)(默認(rèn)設(shè)為0.97)。

這就像兩個登山者在攀登同一座山峰,但走不同的路線。IDA相當(dāng)于定期讓走得更慢的登山者(假分布網(wǎng)絡(luò))參考走得更快的登山者(生成器)的路線,以避免迷路或走入死胡同。這種方法允許我們將教師模型穩(wěn)定的監(jiān)督信號間接傳播到假分布網(wǎng)絡(luò),防止它被早期訓(xùn)練中的漂移目標(biāo)誤導(dǎo)。

實驗表明,將IDA與相對較小的TTUR比率(如5:1)結(jié)合使用,就能顯著提高訓(xùn)練穩(wěn)定性和整體性能。研究結(jié)果顯示,即使在高TTUR比率(如20:1)下,沒有IDA的訓(xùn)練曲線仍然表現(xiàn)出嚴(yán)重的振蕩,而加入IDA后,訓(xùn)練過程變得更加平穩(wěn)。

### 段內(nèi)引導(dǎo)(ISG):重新定位時間步重要性

傳統(tǒng)DMD2方法的另一個局限是固定時間步監(jiān)督。在典型設(shè)置中,生成器只在少數(shù)預(yù)定義的時間步(例如,τ ∈ {249, 499, 749, 999})上進(jìn)行訓(xùn)練。這種固定設(shè)計引入了兩個主要問題:

首先,生成器無法從軌跡的其余部分獲得訓(xùn)練信號,導(dǎo)致對完整軌跡的泛化能力較差;其次,每個監(jiān)督時間步的有效性高度依賴于它在軌跡中的位置——相鄰時間步可能表現(xiàn)出截然不同的預(yù)測誤差。

為了更好地理解擴散軌跡中不同時間步的局部可靠性,研究團隊可視化了1000個均勻分布時間步的歸一化一步重建損失。他們發(fā)現(xiàn),隨著時間t的增加,去噪誤差ξ(t)并不是單調(diào)增長的,而是表現(xiàn)出明顯的局部振蕩,特別是在區(qū)間t ∈ [0.8, 1.0]內(nèi)。這表明即使同一區(qū)域內(nèi)的相鄰時間步,其去噪精度也可能有顯著差異,這意味著它們對整體去噪過程的相對"重要性"并不均勻。

針對這個問題,研究團隊提出了段內(nèi)引導(dǎo)(ISG)方法,將教師模型的去噪重要性重新定位到一小組選定的粗時間步中。對于每個粗時間步τi,他們構(gòu)建了一個段內(nèi)引導(dǎo),方法是隨機采樣一個中間時間步t1 ∈ (τi-1, τi)。

具體操作流程是:教師模型通過從τi到t1的去噪生成xt1,然后生成器繼續(xù)從t1到τi-1的去噪過程,產(chǎn)生引導(dǎo)目標(biāo)xtar。同時,生成器也直接從τi到τi-1生成xτi-1。然后應(yīng)用L2損失來最小化xg和xtar之間的差距,其中梯度僅通過生成器路徑傳播。

這相當(dāng)于在蹦極過程中,不僅關(guān)注起點和終點,還在中途設(shè)置一個檢查點,確保整個跳躍過程都遵循最佳軌跡。這使得每個錨點能夠更好地吸收其周圍區(qū)段的去噪知識,從而成為其局部去噪行為的更具代表性的代理。

實驗結(jié)果表明,添加ISG后,模型在各個方面都有顯著提升,包括圖像質(zhì)量、文本-圖像對齊度和人類偏好質(zhì)量。甚至在早期訓(xùn)練階段(僅3000次迭代),使用ISG訓(xùn)練的模型也能產(chǎn)生視覺上更一致和語義上更準(zhǔn)確的圖像。

### 基于視覺基礎(chǔ)模型的判別器:提供更強大的語義引導(dǎo)

為了進(jìn)一步提升生成質(zhì)量,研究團隊設(shè)計了一個更通用和強大的判別器,它建立在視覺基礎(chǔ)模型(如DINOv2和CLIP)之上,在圖像域中運行并提供更強的語義引導(dǎo)。

具體來說,判別器D通過整合固定的預(yù)訓(xùn)練視覺基礎(chǔ)模型骨干fVFM與可學(xué)習(xí)的判別器頭h來設(shè)計。給定輸入圖像x,VFM骨干提取多層語義特征z = fVFM(x),這些特征隨后由判別器頭處理以預(yù)測x的真實性。此外,判別器還整合了CLIP編碼的特征c = fCLIP(text)和來自真實圖像的參考特征r = fVFM(x),以額外注入文本-圖像對齊信息。

這個過程可以表示為:D(x) = h(fVFM(x), c, r)。這些特征增強了判別器評估輸入圖像的真實性和語義一致性的能力。判別器使用鉸鏈損失進(jìn)行訓(xùn)練,鼓勵它為真實圖像分配高分,為生成圖像分配低分,從而穩(wěn)定對抗訓(xùn)練過程。

在對抗訓(xùn)練目標(biāo)中,為了鼓勵生成器產(chǎn)生能最大化判別器輸出的圖像,同時考慮到從較大時間步采樣時預(yù)測的x0往往不如從較小時間步預(yù)測的準(zhǔn)確,研究團隊引入了一個加權(quán)機制。具體來說,他們計算當(dāng)前時間步噪聲尺度的平方作為標(biāo)量加權(quán)對抗信號,即ω(t) = σt?,并相應(yīng)地縮放對抗損失。

這種設(shè)計確保生成器在噪聲大、高時間步階段更多地關(guān)注DMD梯度(此時對抗反饋可能不可靠),而在更清晰、低噪聲步驟中更多地受益于GAN引導(dǎo)。實踐證明,這提高了訓(xùn)練穩(wěn)定性和整體樣本質(zhì)量。

預(yù)訓(xùn)練視覺骨干的使用引入了豐富的語義先驗,使判別器能夠更好地捕捉圖像級質(zhì)量和細(xì)粒度結(jié)構(gòu)。通過聚合時間步感知的對抗信號,這種設(shè)計產(chǎn)生了穩(wěn)定高效的訓(xùn)練,并帶來了卓越的視覺質(zhì)量。

三、實驗設(shè)置與評估:SenseFlow如何在實踐中表現(xiàn)?

為了全面評估SenseFlow的性能,研究團隊進(jìn)行了廣泛的實驗,涵蓋不同規(guī)模和架構(gòu)的模型。

### 數(shù)據(jù)集與評估指標(biāo)

遵循DMD2的做法,實驗使用LAION-5B數(shù)據(jù)集的過濾子集進(jìn)行訓(xùn)練,選擇美學(xué)分?jǐn)?shù)至少為5.0且短邊至少為1024像素的高質(zhì)量圖像。評估則使用COCO 2017驗證集的5000張圖像,每張圖像與產(chǎn)生最高CLIP分?jǐn)?shù)的文本注釋配對,形成一個穩(wěn)健的文本-圖像驗證集。他們還使用T2I-CompBench評估組合生成能力,該基準(zhǔn)涵蓋屬性綁定、對象關(guān)系和復(fù)雜組合。

評估指標(biāo)包括FID和Patch FID(以衡量與教師模型生成圖像的差距,分別記為FID-T和Patch FID-T)、CLIP分?jǐn)?shù)(評估文本-圖像對齊度)以及一些最近提出的指標(biāo),如HPS v2、ImageReward和PickScore(提供更全面的模型性能評估)。

### 實驗結(jié)果

研究團隊在三個具有代表性的大規(guī)模文本到圖像模型上進(jìn)行了廣泛實驗:FLUX.1 dev(12B參數(shù))、Stable Diffusion 3.5 Large(8B參數(shù))和SDXL(2.6B參數(shù)),涵蓋不同模型大小和生成范式。

COCO-5K數(shù)據(jù)集上的實驗結(jié)果表明,SenseFlow在各種指標(biāo)上都優(yōu)于之前的蒸餾基線。在SD 3.5上,"Ours-SD 3.5"和"Ours-SD 3.5 (Euler)"在所有指標(biāo)上都達(dá)到了最佳和次佳成績,甚至在HPSv2、PickScore和ImageReward方面超過了教師模型。在SDXL上,SenseFlow在HPSv2、PickScore和ImageReward方面排名第一,文本-圖像對齊度方面略有下降。對于FLUX.1 dev,SenseFlow模型再次在多個指標(biāo)上表現(xiàn)出色,特別是在"Ours-FLUX (Euler)"配置下。

在T2I-CompBench上的結(jié)果進(jìn)一步證明了SenseFlow的優(yōu)勢。"Ours-SD 3.5 (Euler)"在顏色、形狀、紋理、空間、非空間一致性以及"Complex-3-in-1"指標(biāo)的五個維度上實現(xiàn)了所有評估方法中的最佳性能。這些結(jié)果突出了SenseFlow方法的細(xì)粒度保真度和卓越的屬性對齊能力。"Ours-SDXL"也在SDXL蒸餾的六個評估指標(biāo)中的五個上實現(xiàn)了最佳性能。

定性比較結(jié)果顯示,SenseFlow生成的圖像具有更銳利的細(xì)節(jié)、更好的肢體結(jié)構(gòu)和更連貫的光照動態(tài),與教師模型和基線相比。值得注意的是,"Ours-SD3.5"和"Ours-FLUX"在涉及精細(xì)紋理、人臉和場景光照的挑戰(zhàn)性提示下產(chǎn)生了更忠實和逼真的生成效果。

### 消融研究

為了評估SenseFlow各組件的有效性,研究團隊進(jìn)行了一系列消融研究。

對于隱式分布對齊(IDA),他們比較了不同TTUR比率下有無IDA的FID曲線。結(jié)果表明,沒有IDA的設(shè)置("TTUR(5)"、"TTUR(10)"和"TTUR(20)")表現(xiàn)出嚴(yán)重振蕩,表明不穩(wěn)定的訓(xùn)練動態(tài)和假分布的不可靠優(yōu)化——即使在20:1的高比率下也是如此。相比之下,結(jié)合IDA的設(shè)置("IDA+TTUR(5)"和"IDA+TTUR(10)")展示了顯著更平滑和更穩(wěn)定的FID降低,凸顯了IDA在穩(wěn)定訓(xùn)練和改善收斂方面的能力。

對于段內(nèi)引導(dǎo)(ISG),他們比較了在Stable Diffusion 3.5 Large上有無ISG的模型。結(jié)果表明,添加ISG導(dǎo)致所有方面的顯著改進(jìn),包括圖像質(zhì)量、文本-圖像對齊和人類偏好質(zhì)量。定性比較顯示,在訓(xùn)練3000次迭代后(此時生成器在10:1 TTUR比率下僅更新了300步),使用ISG訓(xùn)練的模型產(chǎn)生了視覺上更一致和語義上更準(zhǔn)確的圖像,而沒有ISG的模型則出現(xiàn)明顯的顏色偏移和圖像保真度下降。

對于基于VFM的判別器,他們在SDXL骨干上進(jìn)行了比較實驗。結(jié)果表明,使用VFM判別器的模型在多個評估指標(biāo)上實現(xiàn)了更好的人類偏好對齊和美學(xué)質(zhì)量,證明了VFM判別器為生成器提供了更強的視覺先驗。

四、SenseFlow的意義與未來展望

SenseFlow代表了文本到圖像擴散模型蒸餾領(lǐng)域的重要進(jìn)步,特別是針對大規(guī)?;诹鞯哪P?。通過引入隱式分布對齊和段內(nèi)引導(dǎo),以及結(jié)合基于視覺基礎(chǔ)模型的判別器,這一方法能夠?qū)崿F(xiàn)穩(wěn)定高效的4步生成,同時保持高質(zhì)量的視覺效果。

研究團隊的SD 3.5基礎(chǔ)SenseFlow在所有評估的蒸餾方法中實現(xiàn)了最先進(jìn)的4步生成性能,證明了該方法在大規(guī)模模型上的有效性。此外,SenseFlow在基于擴散的模型(如SDXL)和基于流匹配的模型(如SD 3.5 Large和FLUX.1 dev)上都表現(xiàn)出色,展示了其通用性和適應(yīng)性。

雖然SenseFlow在4步生成方面取得了顯著成功,但在更激進(jìn)的設(shè)置(如2步或1步)下的性能以及使用替代視覺骨干(如DINOv2、AM-RADIO、MAE)時的表現(xiàn)仍有待探索。未來的研究可能會關(guān)注這些方向,進(jìn)一步推動快速高質(zhì)量圖像生成的邊界。

同時,像其他生成模型一樣,SenseFlow也引發(fā)了對潛在濫用和勞動力替代的擔(dān)憂,強調(diào)了負(fù)責(zé)任部署的重要性。研究團隊計劃在未來工作中引入明確的使用指南和負(fù)責(zé)任的部署實踐,包括詳細(xì)的用戶手冊,以促進(jìn)技術(shù)的道德和透明使用。

總的來說,SenseFlow為大規(guī)模文本到圖像模型的高效蒸餾提供了一個強大的框架,有望促進(jìn)這些模型在各種應(yīng)用場景中的更廣泛采用,從教育到數(shù)字內(nèi)容創(chuàng)作,從科學(xué)可視化到輔助設(shè)計工具。隨著計算資源的限制不斷減少,這種技術(shù)的發(fā)展將使高質(zhì)量圖像生成變得更加普及和實用。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-