這項由俄羅斯Yandex研究院的Nikita Starodubcev、Denis Kuznedelev、Artem Babenko和Dmitry Baranchuk團隊完成的研究發(fā)表于2025年3月,有興趣深入了解的讀者可以通過arXiv:2503.16397訪問完整論文。
當(dāng)你用AI生成一張精美圖片時,是否曾經(jīng)為漫長的等待時間而煩惱?一張高質(zhì)量的1024×1024圖片,傳統(tǒng)AI可能需要幾十秒甚至更長時間才能完成。就像用傳統(tǒng)膠片相機拍照,你需要耐心等待每一個步驟的完成。但是,如果告訴你有一種方法能讓這個過程快上10倍,同時保持幾乎相同的圖片質(zhì)量,你會不會覺得不可思議?
Yandex研究院的科學(xué)家們就做到了這一點。他們開發(fā)出一種叫做SWD(Scale-wise Distillation,分辨率階梯蒸餾)的新技術(shù),徹底改變了AI繪畫的工作方式。這就像是給AI畫家發(fā)明了一種全新的作畫方法——不再從一開始就在巨大的畫布上細致入微地描繪每個像素,而是先在小紙片上勾勒出大致輪廓,然后逐步在更大的畫布上添加細節(jié)。
這個發(fā)現(xiàn)的靈感來源于一個有趣的觀察。當(dāng)你在霧蒙蒙的早晨看遠山時,你首先看到的是山的大致輪廓,而不是山上的每一棵樹。同樣,當(dāng)AI在生成圖片的早期階段時,圖像中充滿了"噪聲"(可以想象成霧氣),這時候處理高頻細節(jié)(比如樹葉的紋理)其實是沒有意義的,因為這些細節(jié)會被噪聲掩蓋。
研究團隊通過對現(xiàn)有AI繪畫模型的深入分析發(fā)現(xiàn),傳統(tǒng)的擴散模型在整個生成過程中都使用相同的高分辨率,這就像是一個畫家從頭到尾都在用最細的畫筆在巨大畫布上工作,即使在只需要勾勒大致形狀的階段也是如此。這種做法不僅浪費計算資源,還會拖慢整個過程。
一、從光譜分析中發(fā)現(xiàn)的秘密
研究人員首先做了一件非常聰明的事情——他們分析了AI繪畫過程中圖像的"頻譜特性"。這聽起來很復(fù)雜,但其實可以用音樂來類比。就像一首樂曲包含低音(基礎(chǔ)旋律)和高音(裝飾音符)一樣,圖像也包含低頻信息(大致形狀和顏色分布)和高頻信息(細節(jié)紋理和邊緣)。
他們發(fā)現(xiàn)了一個關(guān)鍵現(xiàn)象:在AI繪畫的早期階段,當(dāng)圖像中還有很多"噪聲"時,高頻信息實際上被這些噪聲完全掩蓋了。這就好比在嘈雜的音樂會現(xiàn)場,你根本聽不清樂器的細微顫音,只能聽到主要的旋律線條。既然如此,為什么還要在這個階段費力處理這些聽不見的細節(jié)呢?
通過對兩個主流AI繪畫模型SDXL和SD3.5的詳細分析,研究團隊繪制出了不同生成階段的頻譜分布圖。結(jié)果令人震驚:在高噪聲階段,圖像可以安全地降采樣到32×32或甚至16×16的分辨率,而不會丟失任何有用信息。這個發(fā)現(xiàn)為他們的新方法奠定了堅實的理論基礎(chǔ)。
這個發(fā)現(xiàn)的意義就像是發(fā)現(xiàn)了一個隱藏的捷徑。以前人們以為必須從頭到尾都走寬闊但擁擠的大路,現(xiàn)在發(fā)現(xiàn)在旅程的前半段,其實有一條更快的小徑可以走,而且最終能到達同樣的目的地。
二、革命性的"階梯式"生成方法
基于這個發(fā)現(xiàn),研究團隊設(shè)計出了SWD方法。這種方法的核心思想非常直觀:讓AI在生成圖像時采用"階梯式"的分辨率策略,從小尺寸開始,逐步增加到目標分辨率。
具體來說,他們設(shè)計了一個精巧的時間表和分辨率表。比如,一個6步生成過程可能這樣安排:第一步在256×256分辨率下工作,第二步升級到384×384,第三步到512×512,依此類推,直到最后一步達到完整的1024×1024分辨率。這就像是一個畫家先用粗筆在小畫布上畫出基本構(gòu)圖,然后換到稍大的畫布上添加更多細節(jié),最后在完整尺寸的畫布上完成所有精細工作。
但是,這個看似簡單的想法在實際實現(xiàn)時遇到了不少技術(shù)挑戰(zhàn)。最大的問題是如何在不同分辨率之間進行平滑過渡。研究團隊發(fā)現(xiàn),關(guān)鍵在于正確處理"噪聲注入"的時機。
他們通過實驗發(fā)現(xiàn),最佳策略是先對低分辨率的"干凈"圖像進行放大,然后再添加適當(dāng)?shù)脑肼暎皇窍忍砑釉肼曉俜糯?。這個細節(jié)看似微不足道,實際上對最終效果有著巨大影響。通過對比實驗,他們證明了這種方法能夠顯著減少放大過程中產(chǎn)生的偽影和失真。
為了讓這種新方法發(fā)揮最佳效果,研究團隊還對時間調(diào)度進行了特殊優(yōu)化。他們將整個生成過程的時間步驟向更高噪聲水平偏移,進一步增強了噪聲在掩蓋高頻細節(jié)方面的作用。這樣做的結(jié)果是讓低分辨率階段能夠更長時間地專注于建立圖像的基本結(jié)構(gòu),而不被不必要的細節(jié)分散注意力。
三、創(chuàng)新的訓(xùn)練策略
要讓AI學(xué)會這種新的繪畫方式,研究團隊設(shè)計了一套創(chuàng)新的訓(xùn)練方法。傳統(tǒng)的AI繪畫模型通常只學(xué)習(xí)在固定分辨率下工作,就像是只會用一種尺寸畫筆的畫家。而SWD需要訓(xùn)練一個"多才多藝"的模型,它既要是一個優(yōu)秀的低分辨率生成器,也要是一個出色的圖像放大器。
訓(xùn)練過程采用了一種巧妙的策略。在每個訓(xùn)練步驟中,系統(tǒng)會隨機選擇一對相鄰的分辨率級別,比如從256×256到512×512。然后,它會拿一張高質(zhì)量的訓(xùn)練圖片,將其分別縮放到這兩個分辨率,接著對較小的版本進行放大和加噪處理,最后訓(xùn)練模型從這個噪聲版本生成清晰的高分辨率目標圖像。
這種訓(xùn)練方式的精妙之處在于,它讓模型學(xué)會了一種雙重技能:既能理解圖像在不同分辨率下的表現(xiàn)特征,又能掌握從低分辨率到高分辨率的平滑過渡技巧。就像訓(xùn)練一個畫家不僅要會畫畫,還要會根據(jù)畫布大小調(diào)整自己的畫法。
研究團隊還發(fā)現(xiàn),使用合成數(shù)據(jù)進行訓(xùn)練比使用真實數(shù)據(jù)效果更好。這聽起來可能有些反直覺,但其實很好理解。合成數(shù)據(jù)是由已經(jīng)訓(xùn)練好的"老師"模型生成的,質(zhì)量更加穩(wěn)定一致,就像是用標準化的教材來教學(xué)生,比用五花八門的課外讀物效果更好。
四、突破性的分片分布匹配技術(shù)
除了核心的階梯式生成方法,研究團隊還開發(fā)了一項名為"分片分布匹配"(PDM)的輔助技術(shù)。這項技術(shù)解決了一個重要問題:如何確保生成的圖像在質(zhì)量上與原始高分辨率方法保持一致。
傳統(tǒng)的方法通常比較整張圖片的全局特征,這就像是比較兩幅畫的整體印象。而PDM采用了更精細的策略,它將圖像分解成許多小塊(就像拼圖的碎片),然后比較每個對應(yīng)小塊的特征分布。這種方法能夠捕捉到更細致的局部差異,確保生成的圖像在每個細節(jié)區(qū)域都達到應(yīng)有的質(zhì)量標準。
PDM的技術(shù)實現(xiàn)相當(dāng)巧妙。它利用AI模型內(nèi)部的特征表示(可以想象成模型"大腦"中對圖像的理解),計算生成圖像和目標圖像在這些特征空間中的距離。具體來說,它使用了一種叫做"最大均值差異"的數(shù)學(xué)工具來衡量兩個分布之間的相似程度。
這種方法的優(yōu)勢在于它不需要額外的計算模型,就像是利用現(xiàn)有的工具箱中的工具,而不需要購買新設(shè)備。相比之下,傳統(tǒng)方法通常需要訓(xùn)練額外的判別器網(wǎng)絡(luò),這不僅增加了計算負擔(dān),還可能引入新的訓(xùn)練不穩(wěn)定性。
實驗結(jié)果顯示,PDM不僅可以作為SWD的有效補充,甚至可以單獨使用作為一種簡單而有效的圖像生成優(yōu)化方法。這種多功能性使得它在各種應(yīng)用場景中都能發(fā)揮價值。
五、令人驚嘆的實驗結(jié)果
研究團隊在多個主流AI繪畫模型上測試了SWD方法,結(jié)果令人印象深刻。以SD3.5 Medium模型為例,傳統(tǒng)的6步生成過程需要約0.38秒,而使用SWD的6步過程僅需0.17秒,速度提升超過一倍。更令人驚訝的是,在保持相同時間預(yù)算的情況下,SWD能夠執(zhí)行更多的生成步驟,從而獲得更好的圖像質(zhì)量。
在圖像質(zhì)量評估方面,研究團隊使用了多種客觀指標和人工評估??陀^指標包括廣泛使用的FID評分、CLIP相似度評分等,這些就像是給圖像質(zhì)量打分的標準化考試。結(jié)果顯示,SWD在大多數(shù)指標上都達到或超過了傳統(tǒng)方法的表現(xiàn)。
更有說服力的是人工評估結(jié)果。研究團隊邀請專業(yè)評估員從四個維度對生成圖像進行比較:與文本描述的相關(guān)性、圖像缺陷程度、美學(xué)質(zhì)量和圖像復(fù)雜度。在這些"真人裁判"的評估中,SWD在圖像復(fù)雜度和美學(xué)質(zhì)量方面明顯勝出,在文本相關(guān)性方面表現(xiàn)相當(dāng),只在缺陷控制方面略有不足。
研究團隊還進行了詳細的消除實驗,驗證了方法中每個組件的重要性。他們發(fā)現(xiàn)時間調(diào)度偏移是成功的關(guān)鍵因素之一,沒有這個調(diào)整,效果會顯著下降。同樣,階梯式訓(xùn)練策略也證明是不可或缺的,使用傳統(tǒng)訓(xùn)練方法的模型無法很好地適應(yīng)新的生成流程。
特別值得注意的是,SWD方法在處理一些"困難"場景時表現(xiàn)出了意外的魯棒性。比如,當(dāng)原始模型在低分辨率下生成的圖像存在明顯缺陷時,SWD仍然能夠產(chǎn)生可接受的結(jié)果。這就像是一個經(jīng)驗豐富的修復(fù)師,即使面對殘破的原稿,也能恢復(fù)出不錯的作品。
六、與競爭方法的全面對比
為了充分驗證SWD的優(yōu)勢,研究團隊將其與當(dāng)前最先進的多種快速圖像生成方法進行了全面比較。這些競爭方法包括傳統(tǒng)的擴散模型蒸餾技術(shù)(如SDXL-Turbo、DMD2-SDXL)以及新興的下一尺度預(yù)測模型(如Switti、Infinity)。
在速度對比中,SWD展現(xiàn)出了明顯優(yōu)勢。以SD3.5 Large模型為例,SWD的6步生成只需0.41秒,而傳統(tǒng)的DMD2方法需要約0.63秒,原始教師模型則需要4.42秒。這意味著SWD實現(xiàn)了10倍以上的加速,同時保持了接近原始模型的質(zhì)量水平。
在質(zhì)量對比中,SWD在多個評估指標上都取得了最佳或接近最佳的成績。特別是在PickScore(反映人類偏好的評分)和ImageReward(圖像質(zhì)量評分)等指標上,SWD始終位居前列。這種一致性的優(yōu)秀表現(xiàn)證明了方法的可靠性和實用性。
更有趣的是與下一尺度預(yù)測模型的比較。這些模型采用了與SWD類似的逐步放大策略,但它們通?;陔x散的圖像表示(類似像素藝術(shù)的概念),而SWD工作在連續(xù)的潛在空間中。實驗結(jié)果顯示,SWD在保持高質(zhì)量的同時,速度優(yōu)勢更加明顯,證明了連續(xù)表示方法的優(yōu)越性。
研究團隊還測試了SWD在不同文本提示下的表現(xiàn)穩(wěn)定性。從簡單的物體描述到復(fù)雜的場景敘述,從寫實風(fēng)格到藝術(shù)創(chuàng)作,SWD都能保持穩(wěn)定的性能表現(xiàn)。這種通用性使得它不僅僅是一個實驗室里的技術(shù)演示,而是一個真正實用的解決方案。
七、深入的技術(shù)細節(jié)剖析
SWD方法的成功離不開許多精心設(shè)計的技術(shù)細節(jié)。研究團隊在論文中詳細分析了每個設(shè)計選擇的理由和效果,為后續(xù)研究提供了寶貴的指導(dǎo)。
在分辨率調(diào)度策略方面,研究人員發(fā)現(xiàn)并非所有的調(diào)度方案都能取得良好效果。他們測試了多種不同的分辨率序列,發(fā)現(xiàn)最佳策略是采用相對均勻的步長增加,同時確保最后一步達到完整的目標分辨率。過于激進的跳躍式增長會導(dǎo)致質(zhì)量損失,而過于保守的漸進式增長則無法充分發(fā)揮速度優(yōu)勢。
在噪聲處理方面,研究團隊發(fā)現(xiàn)了一個非常微妙但重要的技術(shù)要點。在從低分辨率圖像過渡到高分辨率時,噪聲的添加時機和強度都需要精確控制。他們通過大量實驗確定了最優(yōu)的噪聲調(diào)度參數(shù),這些參數(shù)的設(shè)定需要在保持生成質(zhì)量和避免放大偽影之間找到平衡點。
訓(xùn)練數(shù)據(jù)的選擇也經(jīng)過了仔細考慮。研究團隊發(fā)現(xiàn),使用合成數(shù)據(jù)訓(xùn)練的模型在實際應(yīng)用中表現(xiàn)更好,這主要是因為合成數(shù)據(jù)的質(zhì)量更加可控,能夠避免真實數(shù)據(jù)中存在的各種噪聲和不一致性。他們還發(fā)現(xiàn),訓(xùn)練數(shù)據(jù)的多樣性對模型的泛化能力有著重要影響。
模型架構(gòu)的適配也是成功的關(guān)鍵因素之一。SWD特別適合基于Transformer架構(gòu)的擴散模型,因為這些模型的注意力機制具有二次計算復(fù)雜度,在高分辨率下的計算負擔(dān)特別重。通過降低早期步驟的分辨率,SWD能夠顯著減少這部分的計算開銷。
八、實際應(yīng)用價值和未來前景
SWD技術(shù)的意義遠不止于提升AI繪畫的速度。在當(dāng)今數(shù)字內(nèi)容創(chuàng)作日益重要的時代,這種技術(shù)突破具有廣泛的應(yīng)用價值和深遠的影響。
在內(nèi)容創(chuàng)作領(lǐng)域,SWD能夠讓設(shè)計師和藝術(shù)家更快速地進行創(chuàng)意迭代。以前需要等待幾十秒才能看到一個創(chuàng)意的視覺效果,現(xiàn)在只需要幾秒鐘。這種效率提升不僅僅是時間的節(jié)省,更重要的是它改變了創(chuàng)作流程,讓創(chuàng)作者能夠在更短時間內(nèi)嘗試更多想法,從而產(chǎn)生更好的作品。
在商業(yè)應(yīng)用方面,SWD的快速生成能力使得實時個性化內(nèi)容制作成為可能。電商平臺可以根據(jù)用戶偏好快速生成商品展示圖,廣告公司可以實時創(chuàng)建針對性的視覺內(nèi)容,游戲開發(fā)者可以動態(tài)生成游戲場景和角色。這些應(yīng)用場景都需要在保證質(zhì)量的前提下實現(xiàn)快速響應(yīng),而SWD正好滿足了這種需求。
從技術(shù)發(fā)展的角度來看,SWD代表了一種新的優(yōu)化思路。傳統(tǒng)的模型加速方法主要關(guān)注于減少計算步驟或簡化模型結(jié)構(gòu),而SWD通過改變計算的"維度"來實現(xiàn)加速。這種思路可能啟發(fā)更多類似的創(chuàng)新,比如在視頻生成、3D建模等其他領(lǐng)域應(yīng)用類似的多尺度策略。
研究團隊也誠實地指出了當(dāng)前方法的一些局限性。SWD在處理某些特定類型的圖像時可能會出現(xiàn)輕微的質(zhì)量損失,特別是那些包含大量高頻細節(jié)的圖像。此外,當(dāng)前的實現(xiàn)主要針對特定的模型架構(gòu)進行了優(yōu)化,在其他類型的生成模型上的表現(xiàn)還需要進一步驗證。
展望未來,研究團隊提出了幾個有趣的發(fā)展方向。首先是自適應(yīng)分辨率調(diào)度,根據(jù)圖像內(nèi)容的復(fù)雜程度動態(tài)調(diào)整分辭率序列。其次是擴展到視頻生成領(lǐng)域,在時間維度上應(yīng)用類似的多尺度策略。還有就是與其他加速技術(shù)的結(jié)合,可能產(chǎn)生疊加的性能提升效果。
SWD技術(shù)的開源特性也值得稱贊。研究團隊承諾將完整的代碼和模型權(quán)重公開發(fā)布,這不僅有助于學(xué)術(shù)界的進一步研究,也為工業(yè)界的實際應(yīng)用鋪平了道路。這種開放的態(tài)度體現(xiàn)了科研工作的本質(zhì)價值,即通過知識共享推動整個領(lǐng)域的進步。
說到底,SWD技術(shù)的價值不僅在于其技術(shù)創(chuàng)新本身,更在于它所代表的思維方式轉(zhuǎn)變。在追求AI性能提升的道路上,有時候最有效的方法不是簡單的暴力堆砌,而是深入理解問題本質(zhì),找到巧妙的解決路徑。正如這項研究所展示的,通過觀察自然現(xiàn)象(圖像頻譜在噪聲環(huán)境下的表現(xiàn)),結(jié)合理論分析和實驗驗證,最終能夠得到既簡單又有效的解決方案。
這種"少即是多"的哲學(xué)在AI發(fā)展史上并不少見,但每次看到這樣的例子,都讓人感嘆人類智慧的力量。在計算資源日益昂貴、環(huán)境影響日益受到關(guān)注的今天,像SWD這樣的高效技術(shù)顯得更加珍貴。它提醒我們,有時候最好的前進方式不是更快更猛,而是更聰明更巧妙。
對于普通用戶來說,SWD技術(shù)的普及意味著更流暢的AI創(chuàng)作體驗,更低的使用成本,以及更廣泛的應(yīng)用可能性。當(dāng)AI繪畫變得像拍照一樣快速便捷時,我們可以期待看到更多創(chuàng)意的涌現(xiàn),更多問題的解決,以及更多美好事物的誕生。這或許就是技術(shù)進步最大的意義所在——不是讓機器變得更強大,而是讓人類變得更自由,更有創(chuàng)造力。
Q&A
Q1:SWD技術(shù)是什么?它能讓AI繪畫快多少? A:SWD是一種讓AI繪畫從低分辨率逐步升級到高分辨率的新技術(shù),就像畫家先畫草圖再添細節(jié)。它能讓AI繪畫速度提升2-10倍,一張原本需要幾十秒的圖片現(xiàn)在只需幾秒就能完成,同時保持幾乎相同的質(zhì)量。
Q2:為什么SWD比傳統(tǒng)方法更快?原理是什么? A:傳統(tǒng)AI從頭到尾都用最高分辨率工作,就像一直用最細畫筆畫巨幅畫布。SWD發(fā)現(xiàn)在早期階段圖像模糊時,細節(jié)信息被"噪聲"掩蓋了,所以先用低分辨率處理基本形狀,最后才處理細節(jié),大大節(jié)省了計算量。
Q3:普通人現(xiàn)在能用到SWD技術(shù)嗎?會不會影響圖片質(zhì)量? A:研究團隊已承諾開源SWD技術(shù),未來會逐步應(yīng)用到各種AI繪畫工具中。在質(zhì)量方面,SWD在大多數(shù)指標上與傳統(tǒng)方法相當(dāng)甚至更好,只在極細節(jié)處理上可能有輕微差異,但對普通使用來說基本察覺不到。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機制和漸進式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學(xué)習(xí)外觀和運動信息,顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準,通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報,準確性超越傳統(tǒng)方法90%的指標。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。