這項由清華大學(xué)王宇教授團隊與字節(jié)跳動種子聯(lián)合實驗室合作完成的突破性研究,于2025年6月發(fā)表在計算機視覺領(lǐng)域的頂級期刊上。研究團隊包括來自清華大學(xué)的趙天辰、洪科、楊欣昊等多位研究者,以及字節(jié)跳動的肖雪峰、李會霞、凌峰等工程師。這篇題為"PAROAttention: Pattern-Aware ReOrdering for Efficient Sparse and Quantized Attention in Visual Generation Models"的論文,為解決AI視頻生成中的計算效率問題提供了全新的思路。對這項研究感興趣的讀者可以通過arXiv:2506.16054v1訪問完整論文。
當(dāng)我們談?wù)揂I生成視頻時,很多人可能會想到那些令人驚嘆的效果,比如幾秒鐘就能制作出一段高清視頻。然而,在這些炫目效果的背后,隱藏著一個巨大的技術(shù)挑戰(zhàn):計算資源的消耗簡直是個"無底洞"。想象一下,如果你要手工制作一部6秒鐘的720P視頻,需要處理約17,000個獨立的信息片段,每個片段都要與其他所有片段進行"對話",這意味著要進行近3億次的計算。這就像是在一個17,000人的聚會上,每個人都要和其他所有人握手交談一樣復(fù)雜。
這種復(fù)雜性主要來源于AI模型中一個叫做"注意力機制"的核心組件。用烹飪來比喻,注意力機制就像是大廚在準(zhǔn)備一道復(fù)雜菜肴時,需要同時關(guān)注鍋里的每一種食材,判斷它們之間的搭配關(guān)系。在AI視頻生成中,模型需要理解畫面中每個像素點與其他所有像素點的關(guān)系,這個過程的計算量會隨著畫面分辨率的增加而呈指數(shù)級增長。
一、傳統(tǒng)優(yōu)化方法的困境
面對這個計算瓶頸,研究者們已經(jīng)嘗試了很多解決方案,主要分為兩大類:稀疏化技術(shù)和量化技術(shù)。稀疏化技術(shù)類似于在那個17,000人的聚會中,讓每個人只與部分重要的人交談,而不是和所有人都聊天。量化技術(shù)則像是簡化對話內(nèi)容,用更簡單的方式表達相同的意思。
然而,當(dāng)研究團隊深入分析這些傳統(tǒng)方法時,發(fā)現(xiàn)了一個令人困惑的現(xiàn)象。在文本處理的AI模型中,這些技術(shù)工作得很好,但在視覺生成模型中卻經(jīng)常表現(xiàn)不佳。這就像是同樣的社交策略在不同的文化背景下效果完全不同。
通過大量的實驗和分析,研究團隊終于找到了問題的根源:視覺AI模型中的"注意力模式"與文本模型完全不同。在文本模型中,信息的關(guān)注點通常比較集中和規(guī)律,就像閱讀一本書時,我們的注意力主要集中在當(dāng)前句子和相鄰的幾個句子上。但在視覺模型中,注意力模式變得極其復(fù)雜和分散,呈現(xiàn)出各種奇特的幾何圖案:有些像斜線條紋,有些像方格子,還有些像復(fù)雜的馬賽克。
這種復(fù)雜多樣的注意力模式給傳統(tǒng)優(yōu)化方法帶來了巨大挑戰(zhàn)。稀疏化技術(shù)難以設(shè)計出適合所有模式的"篩選規(guī)則",就像試圖用一個固定的模板去裁剪各種不同形狀的布料,總會有不合適的地方。量化技術(shù)則面臨"數(shù)據(jù)不均勻"的問題,在同一個處理單元中,有些數(shù)值可能非常大,有些卻很小,這種巨大的差異導(dǎo)致信息壓縮時損失嚴重。
二、突破性的解決思路:重新排列的智慧
面對這些挑戰(zhàn),清華大學(xué)的研究團隊提出了一個全新的思路:既然傳統(tǒng)方法難以適應(yīng)復(fù)雜多樣的注意力模式,為什么不試試重新整理這些模式,讓它們變得更加規(guī)整和易于處理呢?
這個想法的靈感來自于對視覺信息處理本質(zhì)的深入思考。研究團隊發(fā)現(xiàn),雖然AI模型中的注意力模式看起來千變?nèi)f化,但它們都有一個共同點:都反映了視覺信息的"局部聚集"特性。簡單來說,就是相鄰或相關(guān)的視覺元素傾向于相互關(guān)注,就像馬賽克畫中相鄰的小塊通常顏色相近一樣。
問題在于,當(dāng)AI模型處理三維視頻信息時,原本在空間中相鄰的信息被"拉平"成一維序列,就像把一個魔方拆散后排成一條線。這種轉(zhuǎn)換破壞了原有的鄰近關(guān)系,導(dǎo)致那些本應(yīng)相鄰的信息在處理序列中被分散到很遠的位置。
基于這個洞察,研究團隊設(shè)計了一種叫做"模式感知重排序"(PARO)的技術(shù)。這種技術(shù)的核心思想是通過重新排列信息的順序,讓那些需要相互關(guān)注的信息重新聚集在一起,從而將復(fù)雜分散的注意力模式轉(zhuǎn)化為規(guī)整的塊狀模式。
具體來說,對于視頻這種三維信息(幀數(shù)、高度、寬度),存在6種不同的排列方式,就像整理書架時可以按照作者、年份、主題等不同方式分類一樣。研究團隊開發(fā)了一套評估系統(tǒng),能夠為每個注意力頭(AI模型的處理單元)選擇最適合的排列方式。這個選擇過程考慮了兩個關(guān)鍵因素:稀疏化的友好程度和量化的友好程度。
三、定制化的優(yōu)化策略
有了重新整理后的規(guī)整注意力模式,研究團隊進一步設(shè)計了專門針對這種模式的優(yōu)化技術(shù)。這就像為整理好的書架設(shè)計專門的管理系統(tǒng)一樣。
在稀疏化方面,團隊采用了"靜態(tài)稀疏"策略,這意味著注意力的篩選規(guī)則是預(yù)先確定的,而不是在運行時動態(tài)生成的。這種方法的優(yōu)勢是避免了在線計算的開銷,就像提前準(zhǔn)備好菜譜,做飯時就不需要臨時思考每個步驟。
為了進一步提高效率,研究團隊還開發(fā)了"時間步驟感知的稀疏掩碼共享"技術(shù)。他們發(fā)現(xiàn),在視頻生成的不同階段,注意力模式的變化有一定規(guī)律:早期階段變化較大,后期階段趨于穩(wěn)定。基于這個發(fā)現(xiàn),他們?yōu)榍鞍攵螘r間步驟設(shè)計了獨特的稀疏掩碼,而后半段則共享同一個掩碼,這樣既保證了效果,又減少了存儲開銷。
在量化方面,團隊采用了"塊對齊量化"策略。傳統(tǒng)的量化方法通常按行或列進行處理,但這在塊狀注意力模式中會導(dǎo)致嚴重的信息不均勻問題。新方法將量化單位改為64×64的方塊,每個方塊內(nèi)的數(shù)據(jù)經(jīng)過重排序后變得更加均勻,大大減少了量化誤差。
四、令人驚嘆的實驗結(jié)果
研究團隊在多個主流視頻生成模型上測試了他們的技術(shù),包括CogVideoX、Wan和Flux等。實驗結(jié)果令人印象深刻,可以說是在效率和質(zhì)量之間找到了一個近乎完美的平衡點。
在視頻生成任務(wù)中,使用PAROAttention技術(shù)的模型能夠在保持幾乎相同的視覺質(zhì)量的情況下,將計算密度降低到原來的20%-30%,數(shù)據(jù)精度從16位浮點數(shù)降低到8位甚至4位整數(shù),整體推理速度提升了1.9到2.7倍。這就像是把一臺耗油的大卡車改造成了高效的混合動力車,不僅速度更快,燃料消耗也大大降低。
更具體地說,在生成720P分辨率、6秒長度的視頻時,原本需要處理17,000個信息單元的完整注意力計算,現(xiàn)在只需要處理其中的30%,而生成質(zhì)量幾乎沒有下降。在一些關(guān)鍵指標(biāo)上,比如文本-視頻匹配度、視覺質(zhì)量評分等,優(yōu)化后的模型表現(xiàn)甚至略有提升。
在圖像生成任務(wù)中,技術(shù)的表現(xiàn)同樣出色。1024×1024分辨率的圖像生成速度提升了近2倍,而生成的圖像在專業(yè)評估指標(biāo)上與原始模型幾乎沒有差異。
五、技術(shù)創(chuàng)新的深層價值
這項研究的價值不僅僅在于提升了計算效率,更重要的是它為整個AI視覺生成領(lǐng)域提供了一種全新的思考方式。傳統(tǒng)的優(yōu)化思路是"適應(yīng)現(xiàn)有模式",就像為各種不同形狀的物品設(shè)計專門的包裝盒。而PAROAttention提出的思路是"重塑模式本身",就像把各種形狀的物品重新整理成標(biāo)準(zhǔn)形狀,然后用統(tǒng)一的包裝方式處理。
這種思路的轉(zhuǎn)變具有深遠的意義。它揭示了視覺AI模型中注意力機制的本質(zhì)規(guī)律,為未來的模型設(shè)計和優(yōu)化提供了新的指導(dǎo)原則。同時,這種重排序的思想也可以擴展到其他類型的AI模型中,比如多模態(tài)大語言模型、視覺感知模型等。
從工程實現(xiàn)的角度來看,PAROAttention技術(shù)具有很好的通用性和易用性。它不需要重新訓(xùn)練模型,可以直接應(yīng)用到現(xiàn)有的模型中,就像給汽車安裝一個提高燃油效率的裝置,不需要更換整個引擎。研究團隊還開發(fā)了相應(yīng)的GPU計算內(nèi)核,確保理論上的優(yōu)勢能夠在實際硬件上得到體現(xiàn)。
六、面向未來的技術(shù)展望
當(dāng)然,任何技術(shù)都有其局限性和改進空間。目前的PAROAttention主要針對的是后訓(xùn)練優(yōu)化,也就是在模型已經(jīng)訓(xùn)練好之后的效率提升。未來的研究方向可能包括將這種重排序思想融入到模型的訓(xùn)練過程中,讓AI模型從一開始就學(xué)會更高效的注意力模式。
另外,目前的重排序策略相對簡單,主要是在有限的幾種排列方式中選擇。未來可能會開發(fā)更復(fù)雜、更自適應(yīng)的重排序算法,能夠針對不同類型的視覺內(nèi)容設(shè)計專門的排列策略。
從應(yīng)用前景來看,這項技術(shù)的影響可能會很快體現(xiàn)在我們的日常生活中。隨著AI視頻生成技術(shù)的普及,越來越多的內(nèi)容創(chuàng)作者、教育工作者、娛樂產(chǎn)業(yè)從業(yè)者都在使用這類工具。PAROAttention技術(shù)的推廣應(yīng)用,意味著這些用戶能夠以更低的成本、更快的速度生成高質(zhì)量的視頻內(nèi)容,從而降低了創(chuàng)意表達的門檻。
說到底,這項研究的核心價值在于它提醒我們,面對復(fù)雜的技術(shù)挑戰(zhàn)時,有時候最好的解決方案不是設(shè)計更復(fù)雜的工具去適應(yīng)復(fù)雜性,而是重新審視問題本身,找到簡化復(fù)雜性的方法。正如那句古老的智慧所說:"最聰明的解決方案往往是最簡單的那一個。"清華大學(xué)團隊的這項研究,正是這種智慧在AI技術(shù)領(lǐng)域的完美體現(xiàn)。
對于普通讀者來說,這項技術(shù)的意義在于它讓AI視頻生成變得更加普及和易用。在不久的將來,我們可能會看到更多平價的AI視頻創(chuàng)作工具,讓每個人都能成為視頻創(chuàng)作者。而對于科研工作者來說,這項研究開啟了一個新的研究方向,可能會催生更多創(chuàng)新性的AI優(yōu)化技術(shù)。
有興趣深入了解技術(shù)細節(jié)的讀者,可以通過論文的arXiv鏈接arXiv:2506.16054v1查閱完整的研究報告,其中包含了詳細的實驗數(shù)據(jù)、算法描述和代碼實現(xiàn)等信息。
Q&A
Q1:PAROAttention技術(shù)會不會影響AI生成視頻的質(zhì)量? A:不會。實驗結(jié)果顯示,PAROAttention在大幅提升計算效率的同時,生成視頻的質(zhì)量幾乎沒有下降,在一些評估指標(biāo)上甚至略有提升。這是因為該技術(shù)并沒有簡單地刪除信息,而是通過重新組織信息來提高處理效率。
Q2:這種技術(shù)是不是只適用于特定的AI模型? A:不是的。PAROAttention具有很好的通用性,可以應(yīng)用到多種主流的視覺生成模型中,比如CogVideoX、Wan、Flux等。而且它不需要重新訓(xùn)練模型,可以直接集成到現(xiàn)有系統(tǒng)中,這大大降低了應(yīng)用門檻。
Q3:普通用戶什么時候能體驗到這種技術(shù)帶來的改進? A:雖然這項技術(shù)目前還處于學(xué)術(shù)研究階段,但考慮到其實用性和易于集成的特點,預(yù)計很快就會被各大AI視頻生成平臺采用。用戶可能會發(fā)現(xiàn)視頻生成速度明顯加快,同時對硬件的要求降低,讓更多人能夠使用高質(zhì)量的AI視頻生成服務(wù)。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機制和漸進式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學(xué)習(xí)外觀和運動信息,顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報,準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。