av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 雙重并行:讓AI視頻生成突破時長限制,新加坡國立大學團隊實現(xiàn)分鐘級長視頻創(chuàng)作

雙重并行:讓AI視頻生成突破時長限制,新加坡國立大學團隊實現(xiàn)分鐘級長視頻創(chuàng)作

2025-05-30 17:26
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-30 17:26 ? 科技行者

今天,我想與大家分享一項令人振奮的視頻生成技術突破。由新加坡國立大學的王澤清(Zeqing Wang)、鄭博文(Bowen Zheng)、楊星毅(Xingyi Yang)、徐越聰(Yuecong Xu)和通訊作者王欣超(Xinchao Wang)共同完成的研究論文《分鐘級長視頻的雙重并行》(Minute-Long Videos with Dual Parallelisms)于2025年5月27日發(fā)布在arXiv預印本平臺(arXiv:2505.21070v1)。這項研究成果可以在項目官網(wǎng)https://dualparal-project.github.io/dualparal.github.io/查看更多詳情。

想象一下這樣的場景:你想用AI生成一段幾分鐘長的視頻,但現(xiàn)有技術只能生成幾秒鐘的短片,或者需要等待數(shù)小時才能完成。為什么會這樣呢?這是因為目前最先進的視頻生成模型——基于擴散變換器(Diffusion Transformer,簡稱DiT)的模型——盡管能生成高質(zhì)量視頻,但在處理長視頻時卻面臨嚴重的計算瓶頸。

這就像是一個廚師要準備一場盛大宴會的所有菜肴,但只有一個灶臺可用——無論這位廚師多么熟練,準備時間都會隨著菜肴數(shù)量的增加而大幅延長。視頻生成也是如此,每多一幀畫面,計算復雜度就會呈二次方增長,同時內(nèi)存需求也會隨之激增。

新加坡國立大學的研究團隊提出了一個巧妙的解決方案,名為"DualParal"(雙重并行)。簡單來說,他們不再讓一臺計算機(GPU)獨自完成所有工作,而是將任務分配給多臺計算機同時處理。但這不僅僅是簡單的任務分配,而是一種全新的分布式推理策略,同時在兩個維度上實現(xiàn)了并行:時間幀并行和模型層并行。

這項技術的核心理念就像是把一場大型宴會的準備工作分配給多個廚房團隊:一方面,不同的廚房負責不同的菜品(這相當于時間幀并行);另一方面,每道菜的不同制作步驟也由專人負責(這相當于模型層并行)。通過這種雙重并行機制,原本需要數(shù)小時的工作可以在短短幾十分鐘內(nèi)完成。

但實施這個看似簡單的想法時,研究團隊遇到了一個關鍵挑戰(zhàn)。在傳統(tǒng)的擴散模型中,所有視頻幀必須在相同的噪聲水平下同步處理。這就像是一個大型管弦樂團,所有樂器必須嚴格按照指揮的節(jié)拍同步演奏。如果簡單地將視頻分割給不同計算機處理,這種同步要求會導致大量的等待時間,抵消并行處理帶來的速度優(yōu)勢。

為了解決這個問題,研究團隊引入了一種名為"分塊降噪"的創(chuàng)新機制。他們將視頻分成多個不重疊的時間塊,每個塊被賦予不同的噪聲水平:靠近視頻結(jié)尾的塊噪聲水平較高,而靠近開頭的塊噪聲水平較低。在每個推理步驟中,模型可以異步處理所有塊,逐步降低各自的噪聲水平。

這種方法就像是將一首交響樂分成多個樂章,每個樂章由不同的樂隊演奏,它們不需要嚴格同步,只需確保在各自演奏完成后能自然銜接成一個完整的音樂作品。

具體到技術實現(xiàn)上,DualParal將視頻序列塊組織成一個先進先出(FIFO)隊列,噪聲水平從尾到頭遞減。在每個擴散步驟中,一個新的噪聲塊被添加到隊列尾部,同時一個干凈的塊從隊列頭部移除。這些視頻塊隨后以相反的順序(從尾到頭)通過設備管道進行處理。在這個設置中,每臺設備負責特定的視頻塊和模型部分,降噪后的輸出異步地在GPU之間傳遞。

更令人興奮的是,DualParal利用其FIFO隊列實現(xiàn)了長視頻生成。新的塊可以持續(xù)添加到隊列中,允許生成任意長度的視頻。由于每個塊內(nèi)的幀數(shù)保持固定,這種方法避免了與延長視頻序列相關的二次計算延遲增長和高內(nèi)存成本。

為了進一步優(yōu)化并行效率并保持視頻質(zhì)量,研究團隊引入了兩個關鍵改進。首先,他們在每個GPU上實現(xiàn)了一個特征緩存,存儲和重用來自前一個塊的關鍵值(KV)特征,無需顯式連接這些特征。這減少了GPU間通信和在交叉注意力(Cross-Attention)和前饋網(wǎng)絡(FFN)等組件中的冗余計算。其次,他們采用了一種協(xié)調(diào)的噪聲初始化策略,通過在GPU之間共享初始噪聲模式確保全局一致性,而不需要額外的資源成本。

實驗結(jié)果令人印象深刻。在使用8個RTX 4090 GPU處理1,025幀視頻時,DualParal比現(xiàn)有最先進的分布式方法實現(xiàn)了高達6.54倍的延遲減少和1.48倍的內(nèi)存成本降低。這意味著原本可能需要一個多小時才能生成的長視頻,現(xiàn)在只需十幾分鐘就能完成。

這項技術突破不僅對AI研究人員和開發(fā)者意義重大,對普通用戶也有深遠影響。想象一下,未來你可以簡單描述一個故事情節(jié),AI就能為你生成一段完整的幾分鐘長的視頻,用于教育、娛樂或商業(yè)展示。DualParal的出現(xiàn)使這一愿景離現(xiàn)實更近一步。

讓我們深入了解這項技術的細節(jié)和創(chuàng)新之處。

一、雙重并行架構(gòu):打破速度與內(nèi)存的雙重瓶頸

擴散模型是目前生成高質(zhì)量視頻的主流方法,它的工作原理就像是慢慢清洗一張蒙塵的照片。首先從一張全是噪點的圖像開始,然后一步步去除噪點,直到呈現(xiàn)出清晰的圖像。在視頻生成中,這個過程需要同時處理多個幀,每個幀都經(jīng)歷從高噪聲到低噪聲的轉(zhuǎn)變,這個過程通常需要執(zhí)行幾十步降噪操作。

最新的視頻擴散模型,如Wan2.1,采用了擴散變換器(DiT)架構(gòu),能夠生成令人印象深刻的視頻。但當我們想生成長視頻時,這些模型面臨兩個主要挑戰(zhàn):

首先是計算延遲。DiT模型的核心是注意力機制,其計算復雜度與序列長度(即視頻幀數(shù))的平方成正比。當視頻從幾秒鐘延長到幾分鐘時,計算時間會爆炸性增長。

其次是內(nèi)存消耗。模型本身有大量參數(shù)需要存儲,再加上處理長視頻序列所需的臨時數(shù)據(jù),很快就會超出單個GPU的內(nèi)存容量。

為了解決這些挑戰(zhàn),研究人員提出了兩種主要的并行策略:

序列并行(Sequence Parallelism):將輸入視頻分割成多個部分,每部分由一臺設備處理,每臺設備上都運行完整的模型副本。這種方法可以減少延遲,但由于每臺設備都需要存儲完整的模型,內(nèi)存消耗仍然很高。

管道并行(Pipeline Parallelism):將模型分割成多個部分,每部分由一臺設備處理,形成一個處理"管道"。這種方法可以減少每臺設備的內(nèi)存使用,但無法有效降低處理長序列的延遲。

理想的解決方案是結(jié)合這兩種并行策略,既分割視頻序列又分割模型,以最大化速度并最小化內(nèi)存使用。但這里存在一個根本性沖突:視頻擴散模型要求所有輸入幀必須同步通過每一層,而在管道并行中,這意味著完整輸入必須在一臺設備(如設備1)上處理完畢才能傳遞到下一臺設備(如設備2)。這與序列并行直接矛盾,因為序列并行將輸入分散到不同設備上。

DualParal通過一個巧妙的"分塊降噪"方案解決了這一沖突。不同于傳統(tǒng)方法要求所有幀在統(tǒng)一噪聲水平下降噪,DualParal將視頻分成不重疊的時間塊,每個塊根據(jù)其在視頻中的位置被賦予不同的噪聲水平。視頻末尾的塊有更高的噪聲水平,而前面的塊噪聲水平較低。在每個推理步驟中,模型可以異步處理所有塊,逐步降低各自的噪聲水平。

這就像是一個工廠的流水線,不同工位可以同時處理不同階段的產(chǎn)品,而不需要等待整批產(chǎn)品完成某一步驟才能開始下一步驟。關鍵是,由于噪聲水平不需要在所有幀之間同步,分塊降噪解決了兩種并行策略之間的內(nèi)在沖突。

二、FIFO隊列與分塊降噪:實現(xiàn)無限長度視頻生成

DualParal的具體實現(xiàn)包括兩個關鍵組件:隊列和設備管道。

在設備管道中,視頻擴散模型的DiT塊被均勻分布在多個GPU上。而在隊列中,每個元素是共享相同噪聲水平的一塊幀,按照先進先出(FIFO)的方式組織,噪聲水平從尾到頭遞減(從最高噪聲T到最低噪聲1)。

在推理過程中,隊列中的塊按照相反的順序(從尾到頭)連續(xù)輸入到設備管道中。每次擴散步驟后,隊列中的所有塊向前移動一個位置,即Q = [B0, B1, ..., BT-1]。一個新的噪聲塊BT被添加到隊列尾部,而干凈的塊B0從隊列頭部移除并傳遞給解碼器進行最終視頻重建。

這種架構(gòu)使每臺設備可以處理特定的視頻塊和對應的模型部分,而降噪后的輸出則異步地在GPU之間傳遞。這種分塊降噪方案有效解決了簡單組合序列并行和管道并行導致的串行化問題,從而實現(xiàn)了真正的時間幀和模型層雙重并行。

更重要的是,這種設計允許生成無限長度的視頻。新的塊可以持續(xù)添加到隊列中,而因為每個塊內(nèi)的幀數(shù)保持固定,這種方法避免了與延長視頻序列相關的計算復雜度二次增長和高內(nèi)存成本問題。

三、特征緩存與協(xié)調(diào)噪聲初始化:提升效率與質(zhì)量

雖然基本的雙重并行架構(gòu)已經(jīng)大大提高了效率,但研究團隊進一步引入了兩項關鍵優(yōu)化,進一步提升系統(tǒng)性能和生成質(zhì)量。

首先是特征緩存技術。在處理相鄰的非重疊塊時,為了保持時間連貫性,通常需要將前一個和后一個塊與當前塊連接起來一起處理。這會導致額外的通信和計算開銷。DualParal利用一個巧妙的特性:當處理塊B'i = [Bi-1, Bi, Bi+1]時,Bi+1已經(jīng)在處理前一個塊B'i+1 = [Bi, Bi+1, Bi+2]時被處理過。

利用這一特性,DualParal在處理B'i+1時緩存Bi+1的自注意力模塊的關鍵值(KV)特征,并在處理B'i時重用這些特征。這樣,輸入塊可以減少為B'i = [Bi-1, Bi],降低了相鄰設備之間的通信開銷。

更進一步,研究團隊觀察到,在所有模型組件中,只有那些需要跨幀交互的組件(如Wan2.1模型中的自注意力模塊)才真正需要相鄰塊的信息。因此,他們將特征緩存技術限制在自注意力模塊,而跳過如交叉注意力和前饋網(wǎng)絡等不需要跨幀信息的組件,進一步消除了冗余計算。

第二個關鍵優(yōu)化是協(xié)調(diào)噪聲初始化策略。盡管DualParal通過連接相鄰塊來平滑過渡,但全局一致性仍然是一個挑戰(zhàn)。一種簡單的解決方案是連接更多的全局信息,但這會導致高通信、計算和內(nèi)存成本。

研究團隊發(fā)現(xiàn),對于基于DiT的視頻擴散模型,有兩個關鍵觀察:1)使用完整噪聲空間可以保持良好的全局一致性;2)在整個降噪過程中使用重復噪聲會導致DiT模型性能顯著下降。

基于這些觀察,他們提出了一種新穎的初始化策略。具體來說,當初始化一個新塊時,從一個還沒有被隊列中最后一個塊BT的最后NumC/2個潛變量使用過的噪聲池中選擇噪聲。這些選定的噪聲經(jīng)過混洗后用于初始化新塊。這確保了在整個降噪過程中,連接的塊中不會重復使用相同的噪聲,同時仍然利用完整的噪聲池,保持全局一致性而不需要額外成本。

四、理論分析與實驗驗證:證明DualParal的優(yōu)越性

研究團隊對DualParal的并行性能進行了全面的理論分析,重點關注三個方面:氣泡率(設備空閑時間比例)、通信開銷和內(nèi)存成本。

在氣泡率方面,假設設備數(shù)量N小于或等于塊數(shù)量Blocknum(這在長視頻生成中很容易滿足),氣泡率可以表示為(N?-N-1)/(N?-N-1+T×Blocknum),其中T是降噪步驟的總數(shù)。隨著Blocknum增加,氣泡率接近0%,表明在長視頻生成過程中設備管道中的空閑時間最小。

在通信和內(nèi)存成本方面,研究團隊將DualParal與其他并行方法進行了對比,包括DeepSpeed-Ulysses、Ring Attention、Video-Infinity和FIFO。分析表明,DualParal在這兩方面都具有明顯優(yōu)勢,尤其是在長視頻生成時。

為了驗證理論分析結(jié)果,研究團隊進行了廣泛的實驗。在生成極長視頻方面,與Ring Attention相比,DualParal在生成1,025幀視頻時實現(xiàn)了高達6.54倍的延遲減少和1.48倍的內(nèi)存成本降低。與同樣支持無限長度視頻生成的FIFO相比,DualParal在生成513幀視頻時仍然實現(xiàn)了1.82倍的延遲減少和1.32倍的內(nèi)存成本降低。

在可擴展性方面,DualParal在使用多GPU生成301幀視頻時表現(xiàn)出色,不論是在Wan2.1-1.3B(480p)還是Wan2.1-14B(720p)模型上,都始終優(yōu)于所有其他方法。隨著GPU數(shù)量的增加,DualParal的延遲持續(xù)降低,內(nèi)存使用也穩(wěn)步減少。

在視頻質(zhì)量方面,研究團隊使用VBench指標評估了DualParal生成的視頻質(zhì)量,并與DeepSpeed-Ulysses、Video-Infinity和FIFO進行了比較。在129幀視頻設置中,盡管DeepSpeed-Ulysses由于保留完整視頻序列而不分割,表現(xiàn)最佳,但在257幀視頻設置中,DualParal明顯優(yōu)于其他分布式方法,包括FIFO和Video-Infinity,實現(xiàn)了最高的總體評分。

這些實驗結(jié)果證明,DualParal不僅在效率方面表現(xiàn)出色,而且能夠生成高質(zhì)量的長視頻,這是其他方法難以實現(xiàn)的。

五、DualParal的創(chuàng)新價值與未來展望

DualParal的創(chuàng)新之處在于它首次成功地將序列并行和管道并行結(jié)合起來,在保持高視頻質(zhì)量的同時,極大地提高了長視頻生成的效率。這種雙重并行架構(gòu),加上分塊降噪、特征緩存和協(xié)調(diào)噪聲初始化等創(chuàng)新技術,共同解決了長視頻生成面臨的計算延遲和內(nèi)存消耗雙重挑戰(zhàn)。

這項技術的意義不僅限于學術研究,它對AI視頻生成的實際應用也有深遠影響。隨著視頻內(nèi)容在社交媒體、教育、營銷和娛樂等領域的重要性不斷增加,能夠高效生成長視頻的技術將變得越來越有價值。

DualParal使創(chuàng)作者能夠生成更長、更復雜的視頻敘事,為AI輔助內(nèi)容創(chuàng)作開辟了新的可能性。例如,教育工作者可以生成完整的教學視頻,營銷人員可以創(chuàng)建詳細的產(chǎn)品演示,而電影制作人則可以利用AI生成初步的故事板或概念視頻。

此外,DualParal的分布式設計也為部署大規(guī)模視頻生成服務提供了可行路徑。通過有效利用多GPU資源,服務提供商可以為用戶提供更快、更高質(zhì)量的視頻生成體驗,同時控制計算成本。

當然,DualParal也有一些限制。正如研究團隊所指出的,在預熱和冷卻階段,當隊列中的當前塊數(shù)小于設備數(shù)量N時,會出現(xiàn)一些設備空閑時間和同步開銷。雖然這在生成長視頻時影響相對較小,但進一步減少這種開銷可能會帶來更優(yōu)的解決方案。

未來的研究方向可能包括進一步優(yōu)化特征緩存策略,探索更高效的噪聲初始化方法,以及將DualParal擴展到其他類型的生成模型。隨著硬件技術的發(fā)展和模型架構(gòu)的創(chuàng)新,我們可以期待視頻生成技術在效率和質(zhì)量方面取得更多突破。

總之,新加坡國立大學研究團隊提出的DualParal代表了視頻生成技術的一個重要里程碑。通過巧妙結(jié)合雙重并行策略,這項技術使分鐘級長視頻的生成變得高效且實用,為AI視頻創(chuàng)作的未來開辟了新的可能性。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-