av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁 SenseFlow:香港科技大學(xué)團(tuán)隊(duì)突破性提升大規(guī)模文本生成圖像模型的高效蒸餾技術(shù)

SenseFlow:香港科技大學(xué)團(tuán)隊(duì)突破性提升大規(guī)模文本生成圖像模型的高效蒸餾技術(shù)

2025-06-06 09:18
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-06 09:18 ? 科技行者

在人工智能圖像生成領(lǐng)域的最新突破中,一支由香港科技大學(xué)的Jun Zhang教授領(lǐng)導(dǎo)、來自香港科技大學(xué)、SenseTime Research、清華大學(xué)和香港中文大學(xué)的聯(lián)合研究團(tuán)隊(duì)開發(fā)了一種名為"SenseFlow"的創(chuàng)新技術(shù)。這項(xiàng)研究已于2025年5月31日提交至arXiv(arXiv:2506.00523v1),針對(duì)如何更高效地蒸餾大規(guī)模文生圖模型提出了全新解決方案。

想象一下,你有一位廚藝精湛的大廚朋友(大型擴(kuò)散模型),他能做出美味佳肴,但每次都需要幾十個(gè)繁瑣步驟和幾小時(shí)的烹飪時(shí)間。而SenseFlow就像是一本神奇食譜,讓你只需4個(gè)簡(jiǎn)單步驟就能復(fù)制出幾乎相同品質(zhì)的美食,大大節(jié)省時(shí)間和精力。

近年來,基于擴(kuò)散和流匹配的文本到圖像生成模型取得了驚人進(jìn)展,如Stable Diffusion(SD)1.5、SDXL、SD 3.5和FLUX等。這些模型能生成高質(zhì)量圖像,但需要執(zhí)行多個(gè)去噪步驟(通常是幾十步到上百步),消耗大量計(jì)算資源和時(shí)間。模型規(guī)模越大,生成過程就越耗時(shí),這嚴(yán)重限制了它們?cè)趯?shí)際應(yīng)用中的便捷性。

為解決這個(gè)問題,研究人員開發(fā)了各種"蒸餾"方法,試圖將復(fù)雜模型的能力壓縮到只需幾步就能運(yùn)行的簡(jiǎn)化版本中。其中,分布匹配蒸餾(DMD)系列方法在蒸餾標(biāo)準(zhǔn)擴(kuò)散模型(如SD 1.5和SDXL)方面表現(xiàn)出色。然而,當(dāng)應(yīng)用于更大規(guī)模、基于流匹配的模型(如SD 3.5 Large和FLUX.1 dev)時(shí),這些方法常常面臨收斂困難和訓(xùn)練不穩(wěn)定等問題。

這就是SenseFlow登場(chǎng)的地方。研究團(tuán)隊(duì)首先深入分析了為什么現(xiàn)有DMD方法在大模型上表現(xiàn)不佳,然后提出了三個(gè)關(guān)鍵創(chuàng)新來解決這些問題:隱式分布對(duì)齊(IDA)、段內(nèi)引導(dǎo)(ISG)以及基于視覺基礎(chǔ)模型的判別器。讓我們一起深入了解這項(xiàng)突破性研究的細(xì)節(jié)。

一、理解問題:為什么現(xiàn)有方法在大模型上失效?

想象你正在學(xué)習(xí)一位世界級(jí)藝術(shù)家的繪畫技巧。傳統(tǒng)的學(xué)習(xí)方法(如DMD)在學(xué)習(xí)普通畫家的技巧時(shí)表現(xiàn)良好,但遇到達(dá)芬奇或畢加索這樣的大師時(shí)就力不從心了。為什么會(huì)這樣?

研究團(tuán)隊(duì)發(fā)現(xiàn),在現(xiàn)有的分布匹配蒸餾(DMD)方法中,存在三個(gè)關(guān)鍵瓶頸:

首先是穩(wěn)定性問題。當(dāng)應(yīng)用到更大規(guī)模的模型時(shí),即使使用兩時(shí)間尺度更新規(guī)則(TTUR)這種在小模型中有效的策略,訓(xùn)練過程也經(jīng)常無法穩(wěn)定收斂。想象你在走鋼絲,模型越大,鋼絲就越細(xì)越不穩(wěn)定,即使你放慢速度(使用TTUR),仍然很容易失去平衡。

其次是采樣效率問題。傳統(tǒng)DMD方法使用均勻分布的時(shí)間步來進(jìn)行訓(xùn)練和推理,沒有考慮到在去噪軌跡中不同時(shí)間步的重要性是不同的。這就像按固定間隔對(duì)一條山路進(jìn)行采樣,但實(shí)際上彎道和陡坡需要更密集的采樣點(diǎn),而平直路段則可以稀疏采樣。

第三是判別器設(shè)計(jì)過于簡(jiǎn)單?,F(xiàn)有方法中的判別器缺乏通用性,難以適應(yīng)不同規(guī)模和架構(gòu)的模型。這就像用同一把尺子去測(cè)量從小溪到大海的各種水體,顯然不夠靈活和精確。

二、SenseFlow的核心創(chuàng)新:解決大模型蒸餾的三大難題

針對(duì)上述三個(gè)關(guān)鍵瓶頸,研究團(tuán)隊(duì)提出了三個(gè)創(chuàng)新解決方案,形成了SenseFlow的核心框架。

### 隱式分布對(duì)齊(IDA):讓訓(xùn)練更穩(wěn)定

在分布匹配蒸餾中,有兩個(gè)關(guān)鍵組件:生成器和假分布網(wǎng)絡(luò)。生成器負(fù)責(zé)生成圖像,而假分布網(wǎng)絡(luò)則負(fù)責(zé)估計(jì)生成器分布的得分函數(shù)。雖然它們通過不同的目標(biāo)函數(shù)進(jìn)行優(yōu)化,但長(zhǎng)期目標(biāo)高度一致:都是為了建模一個(gè)接近真實(shí)數(shù)據(jù)分布的生成器分布。

然而,在實(shí)踐中,由于假分布網(wǎng)絡(luò)需要追蹤一個(gè)快速變化且不可靠的信號(hào)(生成器分布),特別是在早期訓(xùn)練階段,這種追蹤過程容易不穩(wěn)定,導(dǎo)致擬合不足、漂移或梯度不對(duì)齊,尤其是當(dāng)模型規(guī)模較大時(shí)。

為解決這個(gè)問題,研究團(tuán)隊(duì)引入了隱式分布對(duì)齊(IDA)機(jī)制。具體來說,在每次生成器更新后,他們部分地將假分布網(wǎng)絡(luò)的參數(shù)向生成器方向?qū)R:

φ ← λ · φ + (1 - λ) · θ

這里φ是假分布網(wǎng)絡(luò)的參數(shù),θ是生成器的參數(shù),λ是一個(gè)控制對(duì)齊程度的超參數(shù)(默認(rèn)設(shè)為0.97)。

這就像兩個(gè)登山者在攀登同一座山峰,但走不同的路線。IDA相當(dāng)于定期讓走得更慢的登山者(假分布網(wǎng)絡(luò))參考走得更快的登山者(生成器)的路線,以避免迷路或走入死胡同。這種方法允許我們將教師模型穩(wěn)定的監(jiān)督信號(hào)間接傳播到假分布網(wǎng)絡(luò),防止它被早期訓(xùn)練中的漂移目標(biāo)誤導(dǎo)。

實(shí)驗(yàn)表明,將IDA與相對(duì)較小的TTUR比率(如5:1)結(jié)合使用,就能顯著提高訓(xùn)練穩(wěn)定性和整體性能。研究結(jié)果顯示,即使在高TTUR比率(如20:1)下,沒有IDA的訓(xùn)練曲線仍然表現(xiàn)出嚴(yán)重的振蕩,而加入IDA后,訓(xùn)練過程變得更加平穩(wěn)。

### 段內(nèi)引導(dǎo)(ISG):重新定位時(shí)間步重要性

傳統(tǒng)DMD2方法的另一個(gè)局限是固定時(shí)間步監(jiān)督。在典型設(shè)置中,生成器只在少數(shù)預(yù)定義的時(shí)間步(例如,τ ∈ {249, 499, 749, 999})上進(jìn)行訓(xùn)練。這種固定設(shè)計(jì)引入了兩個(gè)主要問題:

首先,生成器無法從軌跡的其余部分獲得訓(xùn)練信號(hào),導(dǎo)致對(duì)完整軌跡的泛化能力較差;其次,每個(gè)監(jiān)督時(shí)間步的有效性高度依賴于它在軌跡中的位置——相鄰時(shí)間步可能表現(xiàn)出截然不同的預(yù)測(cè)誤差。

為了更好地理解擴(kuò)散軌跡中不同時(shí)間步的局部可靠性,研究團(tuán)隊(duì)可視化了1000個(gè)均勻分布時(shí)間步的歸一化一步重建損失。他們發(fā)現(xiàn),隨著時(shí)間t的增加,去噪誤差ξ(t)并不是單調(diào)增長(zhǎng)的,而是表現(xiàn)出明顯的局部振蕩,特別是在區(qū)間t ∈ [0.8, 1.0]內(nèi)。這表明即使同一區(qū)域內(nèi)的相鄰時(shí)間步,其去噪精度也可能有顯著差異,這意味著它們對(duì)整體去噪過程的相對(duì)"重要性"并不均勻。

針對(duì)這個(gè)問題,研究團(tuán)隊(duì)提出了段內(nèi)引導(dǎo)(ISG)方法,將教師模型的去噪重要性重新定位到一小組選定的粗時(shí)間步中。對(duì)于每個(gè)粗時(shí)間步τi,他們構(gòu)建了一個(gè)段內(nèi)引導(dǎo),方法是隨機(jī)采樣一個(gè)中間時(shí)間步t1 ∈ (τi-1, τi)。

具體操作流程是:教師模型通過從τi到t1的去噪生成xt1,然后生成器繼續(xù)從t1到τi-1的去噪過程,產(chǎn)生引導(dǎo)目標(biāo)xtar。同時(shí),生成器也直接從τi到τi-1生成xτi-1。然后應(yīng)用L2損失來最小化xg和xtar之間的差距,其中梯度僅通過生成器路徑傳播。

這相當(dāng)于在蹦極過程中,不僅關(guān)注起點(diǎn)和終點(diǎn),還在中途設(shè)置一個(gè)檢查點(diǎn),確保整個(gè)跳躍過程都遵循最佳軌跡。這使得每個(gè)錨點(diǎn)能夠更好地吸收其周圍區(qū)段的去噪知識(shí),從而成為其局部去噪行為的更具代表性的代理。

實(shí)驗(yàn)結(jié)果表明,添加ISG后,模型在各個(gè)方面都有顯著提升,包括圖像質(zhì)量、文本-圖像對(duì)齊度和人類偏好質(zhì)量。甚至在早期訓(xùn)練階段(僅3000次迭代),使用ISG訓(xùn)練的模型也能產(chǎn)生視覺上更一致和語義上更準(zhǔn)確的圖像。

### 基于視覺基礎(chǔ)模型的判別器:提供更強(qiáng)大的語義引導(dǎo)

為了進(jìn)一步提升生成質(zhì)量,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)更通用和強(qiáng)大的判別器,它建立在視覺基礎(chǔ)模型(如DINOv2和CLIP)之上,在圖像域中運(yùn)行并提供更強(qiáng)的語義引導(dǎo)。

具體來說,判別器D通過整合固定的預(yù)訓(xùn)練視覺基礎(chǔ)模型骨干fVFM與可學(xué)習(xí)的判別器頭h來設(shè)計(jì)。給定輸入圖像x,VFM骨干提取多層語義特征z = fVFM(x),這些特征隨后由判別器頭處理以預(yù)測(cè)x的真實(shí)性。此外,判別器還整合了CLIP編碼的特征c = fCLIP(text)和來自真實(shí)圖像的參考特征r = fVFM(x),以額外注入文本-圖像對(duì)齊信息。

這個(gè)過程可以表示為:D(x) = h(fVFM(x), c, r)。這些特征增強(qiáng)了判別器評(píng)估輸入圖像的真實(shí)性和語義一致性的能力。判別器使用鉸鏈損失進(jìn)行訓(xùn)練,鼓勵(lì)它為真實(shí)圖像分配高分,為生成圖像分配低分,從而穩(wěn)定對(duì)抗訓(xùn)練過程。

在對(duì)抗訓(xùn)練目標(biāo)中,為了鼓勵(lì)生成器產(chǎn)生能最大化判別器輸出的圖像,同時(shí)考慮到從較大時(shí)間步采樣時(shí)預(yù)測(cè)的x0往往不如從較小時(shí)間步預(yù)測(cè)的準(zhǔn)確,研究團(tuán)隊(duì)引入了一個(gè)加權(quán)機(jī)制。具體來說,他們計(jì)算當(dāng)前時(shí)間步噪聲尺度的平方作為標(biāo)量加權(quán)對(duì)抗信號(hào),即ω(t) = σt?,并相應(yīng)地縮放對(duì)抗損失。

這種設(shè)計(jì)確保生成器在噪聲大、高時(shí)間步階段更多地關(guān)注DMD梯度(此時(shí)對(duì)抗反饋可能不可靠),而在更清晰、低噪聲步驟中更多地受益于GAN引導(dǎo)。實(shí)踐證明,這提高了訓(xùn)練穩(wěn)定性和整體樣本質(zhì)量。

預(yù)訓(xùn)練視覺骨干的使用引入了豐富的語義先驗(yàn),使判別器能夠更好地捕捉圖像級(jí)質(zhì)量和細(xì)粒度結(jié)構(gòu)。通過聚合時(shí)間步感知的對(duì)抗信號(hào),這種設(shè)計(jì)產(chǎn)生了穩(wěn)定高效的訓(xùn)練,并帶來了卓越的視覺質(zhì)量。

三、實(shí)驗(yàn)設(shè)置與評(píng)估:SenseFlow如何在實(shí)踐中表現(xiàn)?

為了全面評(píng)估SenseFlow的性能,研究團(tuán)隊(duì)進(jìn)行了廣泛的實(shí)驗(yàn),涵蓋不同規(guī)模和架構(gòu)的模型。

### 數(shù)據(jù)集與評(píng)估指標(biāo)

遵循DMD2的做法,實(shí)驗(yàn)使用LAION-5B數(shù)據(jù)集的過濾子集進(jìn)行訓(xùn)練,選擇美學(xué)分?jǐn)?shù)至少為5.0且短邊至少為1024像素的高質(zhì)量圖像。評(píng)估則使用COCO 2017驗(yàn)證集的5000張圖像,每張圖像與產(chǎn)生最高CLIP分?jǐn)?shù)的文本注釋配對(duì),形成一個(gè)穩(wěn)健的文本-圖像驗(yàn)證集。他們還使用T2I-CompBench評(píng)估組合生成能力,該基準(zhǔn)涵蓋屬性綁定、對(duì)象關(guān)系和復(fù)雜組合。

評(píng)估指標(biāo)包括FID和Patch FID(以衡量與教師模型生成圖像的差距,分別記為FID-T和Patch FID-T)、CLIP分?jǐn)?shù)(評(píng)估文本-圖像對(duì)齊度)以及一些最近提出的指標(biāo),如HPS v2、ImageReward和PickScore(提供更全面的模型性能評(píng)估)。

### 實(shí)驗(yàn)結(jié)果

研究團(tuán)隊(duì)在三個(gè)具有代表性的大規(guī)模文本到圖像模型上進(jìn)行了廣泛實(shí)驗(yàn):FLUX.1 dev(12B參數(shù))、Stable Diffusion 3.5 Large(8B參數(shù))和SDXL(2.6B參數(shù)),涵蓋不同模型大小和生成范式。

COCO-5K數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,SenseFlow在各種指標(biāo)上都優(yōu)于之前的蒸餾基線。在SD 3.5上,"Ours-SD 3.5"和"Ours-SD 3.5 (Euler)"在所有指標(biāo)上都達(dá)到了最佳和次佳成績(jī),甚至在HPSv2、PickScore和ImageReward方面超過了教師模型。在SDXL上,SenseFlow在HPSv2、PickScore和ImageReward方面排名第一,文本-圖像對(duì)齊度方面略有下降。對(duì)于FLUX.1 dev,SenseFlow模型再次在多個(gè)指標(biāo)上表現(xiàn)出色,特別是在"Ours-FLUX (Euler)"配置下。

在T2I-CompBench上的結(jié)果進(jìn)一步證明了SenseFlow的優(yōu)勢(shì)。"Ours-SD 3.5 (Euler)"在顏色、形狀、紋理、空間、非空間一致性以及"Complex-3-in-1"指標(biāo)的五個(gè)維度上實(shí)現(xiàn)了所有評(píng)估方法中的最佳性能。這些結(jié)果突出了SenseFlow方法的細(xì)粒度保真度和卓越的屬性對(duì)齊能力。"Ours-SDXL"也在SDXL蒸餾的六個(gè)評(píng)估指標(biāo)中的五個(gè)上實(shí)現(xiàn)了最佳性能。

定性比較結(jié)果顯示,SenseFlow生成的圖像具有更銳利的細(xì)節(jié)、更好的肢體結(jié)構(gòu)和更連貫的光照動(dòng)態(tài),與教師模型和基線相比。值得注意的是,"Ours-SD3.5"和"Ours-FLUX"在涉及精細(xì)紋理、人臉和場(chǎng)景光照的挑戰(zhàn)性提示下產(chǎn)生了更忠實(shí)和逼真的生成效果。

### 消融研究

為了評(píng)估SenseFlow各組件的有效性,研究團(tuán)隊(duì)進(jìn)行了一系列消融研究。

對(duì)于隱式分布對(duì)齊(IDA),他們比較了不同TTUR比率下有無IDA的FID曲線。結(jié)果表明,沒有IDA的設(shè)置("TTUR(5)"、"TTUR(10)"和"TTUR(20)")表現(xiàn)出嚴(yán)重振蕩,表明不穩(wěn)定的訓(xùn)練動(dòng)態(tài)和假分布的不可靠?jī)?yōu)化——即使在20:1的高比率下也是如此。相比之下,結(jié)合IDA的設(shè)置("IDA+TTUR(5)"和"IDA+TTUR(10)")展示了顯著更平滑和更穩(wěn)定的FID降低,凸顯了IDA在穩(wěn)定訓(xùn)練和改善收斂方面的能力。

對(duì)于段內(nèi)引導(dǎo)(ISG),他們比較了在Stable Diffusion 3.5 Large上有無ISG的模型。結(jié)果表明,添加ISG導(dǎo)致所有方面的顯著改進(jìn),包括圖像質(zhì)量、文本-圖像對(duì)齊和人類偏好質(zhì)量。定性比較顯示,在訓(xùn)練3000次迭代后(此時(shí)生成器在10:1 TTUR比率下僅更新了300步),使用ISG訓(xùn)練的模型產(chǎn)生了視覺上更一致和語義上更準(zhǔn)確的圖像,而沒有ISG的模型則出現(xiàn)明顯的顏色偏移和圖像保真度下降。

對(duì)于基于VFM的判別器,他們?cè)赟DXL骨干上進(jìn)行了比較實(shí)驗(yàn)。結(jié)果表明,使用VFM判別器的模型在多個(gè)評(píng)估指標(biāo)上實(shí)現(xiàn)了更好的人類偏好對(duì)齊和美學(xué)質(zhì)量,證明了VFM判別器為生成器提供了更強(qiáng)的視覺先驗(yàn)。

四、SenseFlow的意義與未來展望

SenseFlow代表了文本到圖像擴(kuò)散模型蒸餾領(lǐng)域的重要進(jìn)步,特別是針對(duì)大規(guī)模基于流的模型。通過引入隱式分布對(duì)齊和段內(nèi)引導(dǎo),以及結(jié)合基于視覺基礎(chǔ)模型的判別器,這一方法能夠?qū)崿F(xiàn)穩(wěn)定高效的4步生成,同時(shí)保持高質(zhì)量的視覺效果。

研究團(tuán)隊(duì)的SD 3.5基礎(chǔ)SenseFlow在所有評(píng)估的蒸餾方法中實(shí)現(xiàn)了最先進(jìn)的4步生成性能,證明了該方法在大規(guī)模模型上的有效性。此外,SenseFlow在基于擴(kuò)散的模型(如SDXL)和基于流匹配的模型(如SD 3.5 Large和FLUX.1 dev)上都表現(xiàn)出色,展示了其通用性和適應(yīng)性。

雖然SenseFlow在4步生成方面取得了顯著成功,但在更激進(jìn)的設(shè)置(如2步或1步)下的性能以及使用替代視覺骨干(如DINOv2、AM-RADIO、MAE)時(shí)的表現(xiàn)仍有待探索。未來的研究可能會(huì)關(guān)注這些方向,進(jìn)一步推動(dòng)快速高質(zhì)量圖像生成的邊界。

同時(shí),像其他生成模型一樣,SenseFlow也引發(fā)了對(duì)潛在濫用和勞動(dòng)力替代的擔(dān)憂,強(qiáng)調(diào)了負(fù)責(zé)任部署的重要性。研究團(tuán)隊(duì)計(jì)劃在未來工作中引入明確的使用指南和負(fù)責(zé)任的部署實(shí)踐,包括詳細(xì)的用戶手冊(cè),以促進(jìn)技術(shù)的道德和透明使用。

總的來說,SenseFlow為大規(guī)模文本到圖像模型的高效蒸餾提供了一個(gè)強(qiáng)大的框架,有望促進(jìn)這些模型在各種應(yīng)用場(chǎng)景中的更廣泛采用,從教育到數(shù)字內(nèi)容創(chuàng)作,從科學(xué)可視化到輔助設(shè)計(jì)工具。隨著計(jì)算資源的限制不斷減少,這種技術(shù)的發(fā)展將使高質(zhì)量圖像生成變得更加普及和實(shí)用。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-