本篇文章詳細(xì)解讀了一項(xiàng)由香港科技大學(xué)、商湯科技研究院、北京航空航天大學(xué)、莫納什大學(xué)和蘇黎世聯(lián)邦理工學(xué)院研究團(tuán)隊(duì)共同完成的研究成果。該研究由黃宇實(shí)、龔瑞昊、劉璟、丁一夫、呂成濤、秦皓彤和張軍等學(xué)者合作完成,目前正處于預(yù)印本階段,尚在審核中,文章標(biāo)題為《QVGen: 推動(dòng)量化視頻生成模型的極限》。
想象一下,當(dāng)你在手機(jī)上使用最新的AI視頻生成應(yīng)用時(shí),你是否希望它能像專業(yè)級(jí)設(shè)備一樣產(chǎn)生高質(zhì)量的視頻,同時(shí)又能快速響應(yīng),不讓你的手機(jī)電池迅速耗盡?這正是這項(xiàng)研究所解決的問題核心。
視頻擴(kuò)散模型(Video Diffusion Models,簡稱視頻DMs)在生成高質(zhì)量視頻方面已經(jīng)取得了驚人的進(jìn)步。從OpenAI的Sora到開源的Wan和CogVideoX,這些模型能夠生成令人驚嘆的視頻內(nèi)容。但有一個(gè)大問題:它們需要消耗大量計(jì)算資源和內(nèi)存。舉個(gè)例子,Wan 14B模型需要在單個(gè)H100 GPU上花費(fèi)超過30分鐘和50GB內(nèi)存才能生成一段10秒鐘的720p分辨率視頻片段。這使得普通消費(fèi)者級(jí)別的電腦,更不用說邊緣設(shè)備,幾乎不可能運(yùn)行這些模型。
解決這一問題的一種有效方法是模型量化。簡單來說,量化就像是將高精度的數(shù)據(jù)(例如FP16/BF16)壓縮成低精度格式(例如INT8/INT4)。這就像是把一部高清電影壓縮成較小的文件,雖然可能會(huì)損失一些細(xì)節(jié),但仍然保持觀看體驗(yàn)。通過使用4比特模型和快速的實(shí)現(xiàn)方法,與浮點(diǎn)模型相比,可以在NVIDIA RTX4090 GPU上獲得顯著的3倍速度提升,同時(shí)模型大小減少約4倍。
然而,量化視頻DMs比量化圖像DMs要困難得多,而且這一領(lǐng)域還沒有得到足夠的關(guān)注。如論文圖1所示,將現(xiàn)有的高性能方法應(yīng)用于將視頻DM量化為超低位(≤4位)是無效的,生成結(jié)果質(zhì)量大幅下降。雖然與后訓(xùn)練量化(PTQ)相比,量化感知訓(xùn)練(QAT)通過訓(xùn)練量化權(quán)重可以獲得更好的性能,但仍然會(huì)導(dǎo)致嚴(yán)重的視頻質(zhì)量下降。這凸顯了需要一個(gè)改進(jìn)的QAT框架,以在4位或更低的量化下保持視頻DMs的卓越性能。
本研究提出了一種新穎的QAT框架,名為QVGen,旨在提高低位量化視頻DMs的收斂性,同時(shí)不增加推理成本。這項(xiàng)研究的主要貢獻(xiàn)包括:首次提出了一種針對(duì)視頻生成的QAT方法,實(shí)現(xiàn)了高效的3位和4位量化;為了優(yōu)化超低位QAT,研究團(tuán)隊(duì)使用輔助模塊來減少梯度范數(shù),理論和實(shí)證分析證明了這種方法在提高收斂性方面的有效性;為了消除輔助模塊引入的推理開銷,研究人員提出了一種秩衰減策略,可以逐步縮小輔助模塊的規(guī)模。
在多個(gè)最先進(jìn)的視頻DMs上進(jìn)行的大量實(shí)驗(yàn)表明,QVGen的性能遠(yuǎn)超現(xiàn)有方法。特別是在4位設(shè)置下,它首次達(dá)到了與全精度相當(dāng)?shù)男阅?。此外?位CogVideoX-2B在VBench上的動(dòng)態(tài)程度和場景一致性分別提高了+25.28和+8.43,顯著優(yōu)于現(xiàn)有方法。
一、深入理解視頻擴(kuò)散模型與量化挑戰(zhàn)
視頻擴(kuò)散模型是當(dāng)今AI領(lǐng)域的明星技術(shù),它們就像是會(huì)"做夢(mèng)"的數(shù)字藝術(shù)家,能夠根據(jù)文字描述創(chuàng)造出令人驚嘆的視頻內(nèi)容。這些模型的工作原理,可以想象成一個(gè)逆向的"烘焙過程":首先給蛋糕完全加熱(加入噪聲),然后通過一系列精確控制的"降溫步驟"(去噪過程),最終還原出完美的原始形態(tài)(清晰視頻)。
然而,這些數(shù)字藝術(shù)家的工作室(也就是這些模型)實(shí)在太龐大了。以Wan 14B為例,這個(gè)模型有140億個(gè)參數(shù),相當(dāng)于一個(gè)擁有140億個(gè)旋鈕的超復(fù)雜調(diào)音臺(tái)。要在這個(gè)調(diào)音臺(tái)上創(chuàng)作一首10秒鐘的"視頻交響曲",即使是使用高端的H100 GPU(相當(dāng)于專業(yè)音樂工作站),也需要超過30分鐘和50GB的內(nèi)存空間。這就像是需要一個(gè)占滿整個(gè)房間的設(shè)備才能播放一首簡短的歌曲,顯然不適合日常使用。
量化技術(shù)就像是一種神奇的壓縮魔法,它能將這個(gè)巨大的調(diào)音臺(tái)縮小到可以放進(jìn)口袋的大小。具體來說,量化是將高精度數(shù)據(jù)(比如BF16格式,相當(dāng)于用16個(gè)二進(jìn)制位表示每個(gè)"旋鈕"的位置)轉(zhuǎn)換為低精度格式(比如4位整數(shù),只用4個(gè)二進(jìn)制位表示)。這樣一來,模型的大小可以減少約4倍,處理速度提升約3倍。
然而,將這種魔法應(yīng)用到視頻生成模型上比應(yīng)用到圖像生成模型上要困難得多。就像把一部精心編排的3D電影壓縮得過于極端可能會(huì)破壞其立體效果一樣,現(xiàn)有的量化方法應(yīng)用到視頻DM上會(huì)導(dǎo)致嚴(yán)重的質(zhì)量下降。如圖1所示,之前在圖像DM上表現(xiàn)良好的方法如SVDQuant、LSQ、Q-DM和EfficientDM,在視頻生成上的效果非常糟糕,生成的內(nèi)容模糊不清,缺乏細(xì)節(jié),動(dòng)態(tài)效果也大打折扣。
研究團(tuán)隊(duì)深入分析了這一問題,發(fā)現(xiàn)關(guān)鍵在于——量化感知訓(xùn)練(QAT)的收斂性。量化過程就像是在精細(xì)的音樂中引入了一些不和諧的噪音,而現(xiàn)有的訓(xùn)練方法無法有效消除這些噪音,導(dǎo)致最終的"視頻交響曲"失真嚴(yán)重。這就需要一種全新的方法來解決這個(gè)問題。
二、QVGen框架:革命性解決量化視頻生成的挑戰(zhàn)
QVGen框架就像是為那個(gè)縮小版的調(diào)音臺(tái)(量化模型)配備了一位臨時(shí)助手(輔助模塊Φ),這位助手幫助修正調(diào)音過程中的錯(cuò)誤,而一旦調(diào)音完成,這位助手就悄然退場,不再占用任何資源。具體來說,這個(gè)框架分為兩個(gè)核心部分:
首先,研究團(tuán)隊(duì)通過理論分析發(fā)現(xiàn),最小化梯度范數(shù)‖gt‖2是提高QAT收斂性的關(guān)鍵。想象一下,如果訓(xùn)練過程是一次山地自行車旅程,那么梯度范數(shù)就像是路面的崎嶇程度。路面越平坦(梯度范數(shù)越?。?,騎行就越穩(wěn)定,就越容易到達(dá)目的地(收斂到最優(yōu)解)。
受此啟發(fā),研究者們?yōu)榱炕曨lDM引入了輔助模塊Φ來減輕量化誤差。這些輔助模塊就像是在崎嶇的山路上鋪設(shè)的臨時(shí)平整板,有效地幫助縮小了離散量化模型和全精度模型之間的差距,帶來了穩(wěn)定的優(yōu)化過程和大幅降低的‖gt‖2。量化DM因此獲得了更好的收斂性。研究觀察還表明,現(xiàn)有SOTA QAT方法(如Q-DM)的顯著性能下降(如圖1所示)可能是由于其較高的‖gt‖2(如圖3所示)導(dǎo)致的。
然而,雖然Φ在訓(xùn)練中很有效,但在推理時(shí)會(huì)引入不小的計(jì)算開銷。具體來說,Φ需要在b位激活(Qb(X))和全精度權(quán)重WΦ之間進(jìn)行額外的矩陣乘法。這既不適用于低位乘法核心,又會(huì)阻礙推理加速。此外,為每個(gè)Φ存儲(chǔ)全精度WΦ也會(huì)導(dǎo)致顯著的內(nèi)存開銷,超過量化擴(kuò)散模型的好幾倍。
為解決這個(gè)問題,研究團(tuán)隊(duì)提出了一個(gè)革新性的思路:在訓(xùn)練過程中逐步移除Φ。這就像是隨著騎手適應(yīng)了地形,逐漸撤走那些臨時(shí)平整板,最終讓騎手能夠在自然路面上穩(wěn)定騎行。
具體實(shí)現(xiàn)這一思路的是一種稱為"秩衰減"(rank-decay)的策略。通過對(duì)WΦ在各種訓(xùn)練迭代下的奇異值變化進(jìn)行分析(如圖4所示),研究者發(fā)現(xiàn):WΦ包含大量小奇異值,例如,平均約73%的奇異值比最大奇異值σ1小約14倍;而且隨著QAT的進(jìn)行,這些小奇異值的存在變得越來越明顯,比例從初始步驟的73%增加到2000步后的99%。
這些發(fā)現(xiàn)表明,隨著訓(xùn)練的進(jìn)行,越來越多的正交方向{us, vs}貢獻(xiàn)很少,因?yàn)樗鼈冴P(guān)聯(lián)的奇異值σs很小。因此,隨著訓(xùn)練的進(jìn)行,只需要Φ的一個(gè)越來越低秩的部分,而剩余部分可以被衰減掉,而不會(huì)明顯影響性能。
基于這一發(fā)現(xiàn),研究團(tuán)隊(duì)提出了一種新穎的秩衰減計(jì)劃,通過反復(fù)識(shí)別和消除上述低影響部分,逐步縮減Φ。具體來說,他們首先對(duì)WΦ進(jìn)行奇異值分解(SVD),找出貢獻(xiàn)較小的部分,然后應(yīng)用基于秩的正則化γ,使這些部分逐漸衰減至零。這個(gè)過程(分解然后衰減)會(huì)不斷重復(fù),直到WΦ被完全消除,這也意味著Φ被移除。通過這種方法,該策略幾乎不會(huì)影響模型性能,同時(shí)成功消除了推理開銷。
三、實(shí)驗(yàn)結(jié)果:QVGen性能的卓越表現(xiàn)
為了驗(yàn)證QVGen的有效性,研究團(tuán)隊(duì)在多個(gè)開源SOTA視頻DM上進(jìn)行了廣泛實(shí)驗(yàn),包括CogVideoX-2B和1.5-5B,以及Wan 1.3B和14B。這些模型的參數(shù)規(guī)模從13億到140億不等,覆蓋了當(dāng)前視頻生成領(lǐng)域的主流模型規(guī)模。
實(shí)驗(yàn)結(jié)果令人振奮。如表1所示,在W4A4量化(4位權(quán)重和4位激活)設(shè)置下,最近的QAT方法如LSQ、Q-DM和EfficientDM都表現(xiàn)出了不小的性能下降。到了W3A3設(shè)置,性能下降更為明顯。相比之下,QVGen在3位模型上取得了可觀的性能恢復(fù),在4位量化下達(dá)到了與全精度模型相當(dāng)?shù)慕Y(jié)果。
具體來說,對(duì)于W4A4 CogVideoX-2B,QVGen在所有指標(biāo)上表現(xiàn)出更高的分?jǐn)?shù)或與全精度模型相比下降不到2%,除了"場景一致性"指標(biāo)外。而對(duì)于后訓(xùn)練量化(PTQ)的基線方法,它們?cè)赪4A4的逐通道(per-channel)和逐令牌(per-token)設(shè)置下完全無法生成有意義的內(nèi)容。即使在W4A6量化或細(xì)粒度的逐組W4A4量化下,QVGen也大幅優(yōu)于它們,特別是在Wan 1.3B上比W4A4 SVDQuant高出8.37的美學(xué)質(zhì)量和14.61的主題一致性。
除了量化分析,研究者們還發(fā)現(xiàn)一些有趣的現(xiàn)象:對(duì)于Wan 1.3B,"動(dòng)態(tài)程度"指標(biāo)在QAT過程中很容易恢復(fù),甚至超過了全精度模型的表現(xiàn)。然而,對(duì)于CogVideoX-2B,這一指標(biāo)卻顯著下降。此外,"場景一致性"是跨模型和方法中最難維持的指標(biāo)。
為了展示QVGen的可擴(kuò)展性,研究團(tuán)隊(duì)還測試了兩個(gè)更大的視頻DM:CogVideoX1.5-5B和Wan 14B,使用720p分辨率。如表2所示,3位和4位模型遵循與較小模型相同的模式。然而,3位量化在要求較高的指標(biāo)(如場景一致性和整體一致性)上產(chǎn)生了更大的下降,這表明將這些更大的模型推向3位仍然具有挑戰(zhàn)性。在圖5中,研究者們使用VBench-2.0對(duì)模型進(jìn)行了進(jìn)一步評(píng)估,結(jié)果表明W4A4 DM僅產(chǎn)生了約1%的總體性能損失,幾乎可以忽略不計(jì)。
為了證明每個(gè)設(shè)計(jì)的效果,研究團(tuán)隊(duì)使用W4A4 Wan 1.3B和VBench的5個(gè)維度進(jìn)行了消融實(shí)驗(yàn)。如表3所示,輔助模塊Φ在所有指標(biāo)上都帶來了可觀的性能提升。此外,秩衰減計(jì)劃有效地消除了推理開銷,同時(shí)在大多數(shù)指標(biāo)上引起的下降不到0.6%,甚至在整體一致性上帶來了輕微的改善。
研究團(tuán)隊(duì)還分析了縮減比例λ的選擇、初始秩r的影響以及不同衰減策略的效果。他們發(fā)現(xiàn)λ=1/2是最佳選擇,因?yàn)樘〉谋壤龝?huì)導(dǎo)致每個(gè)衰減階段u從1到0的下降過快,可能會(huì)不穩(wěn)定訓(xùn)練過程;而太大的比例可能會(huì)在每個(gè)階段過早移除高貢獻(xiàn)組件。同樣,隨著r的增加,性能提升逐漸減小,最終在r=64時(shí)惡化。在不同的衰減策略中,"基于秩"的策略在所有指標(biāo)上都大幅優(yōu)于其他方法,如"基于稀疏"和"基于殘差量化"策略。
最后,從效率角度來看,如圖6所示,在A800 GPU上,采用來自Ashkboos等人的快速CUDA核心實(shí)現(xiàn),W4A4 QVGen為Wan 1.3B和14B分別帶來了1.21倍和1.44倍的加速比。此外,與BF16格式相比,它展現(xiàn)了約4倍的內(nèi)存節(jié)省。不過,研究者們認(rèn)為,通過先進(jìn)的核心融合技術(shù),加速比可以進(jìn)一步提高。值得注意的是,QVGen采用標(biāo)準(zhǔn)均勻量化,可以輕松地應(yīng)用到各種設(shè)備的現(xiàn)有W4A4核心上。
四、結(jié)論與前景展望
QVGen的研究成果代表了視頻生成模型量化領(lǐng)域的一個(gè)重要突破。通過理論分析、創(chuàng)新設(shè)計(jì)和大量實(shí)驗(yàn),研究團(tuán)隊(duì)成功解決了低位量化視頻DM的核心挑戰(zhàn)——收斂性問題。
這項(xiàng)研究首次探索了量化感知訓(xùn)練在視頻DM中的應(yīng)用。通過理論分析,研究者們發(fā)現(xiàn)降低梯度范數(shù)對(duì)改善收斂性至關(guān)重要。基于這一發(fā)現(xiàn),他們提出了輔助模塊Φ和秩衰減策略,既提高了模型性能,又消除了推理開銷。在3位和4位量化的廣泛實(shí)驗(yàn)證明了QVGen框架的有效性。
值得一提的是,這是首個(gè)達(dá)到與全精度相當(dāng)性能的4位視頻DM量化方法,而且大幅優(yōu)于現(xiàn)有方法。特別是3位CogVideoX-2B在動(dòng)態(tài)程度上提高了+25.28,在場景一致性上提高了+8.43。這些改進(jìn)不僅在數(shù)字上令人印象深刻,在視覺質(zhì)量上也有明顯提升,如圖1所示的對(duì)比結(jié)果。
雖然3位和4位輸出結(jié)果之間仍然存在明顯差距,但這項(xiàng)工作為實(shí)用的3位或更低視頻DM量化奠定了基礎(chǔ)。研究團(tuán)隊(duì)指出,盡管本文專注于視頻生成,但他們相信這些方法可以推廣到更多任務(wù),如圖像生成和自然語言處理(NLP),這將是未來研究的方向。
對(duì)于普通用戶來說,這項(xiàng)研究成果意味著更高效、更實(shí)用的AI視頻生成應(yīng)用將變得觸手可及。無需高端GPU,普通消費(fèi)級(jí)設(shè)備甚至是移動(dòng)端設(shè)備也有望運(yùn)行這些先進(jìn)的視頻生成模型,帶來更廣泛的創(chuàng)意可能性。隨著技術(shù)的進(jìn)一步發(fā)展,我們可以期待在不久的將來,在我們的個(gè)人設(shè)備上,只需幾秒鐘就能創(chuàng)建出令人驚嘆的高質(zhì)量視頻內(nèi)容。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對(duì)話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。