這項(xiàng)由天工AI(Skywork AI, Kunlun Inc.)的費(fèi)正聰、李德邦、邱迪等十位研究人員共同完成的研究發(fā)表于2025年4月,論文題為《SkyReels-A2: Compose Anything in Video Diffusion Transformers》。有興趣深入了解技術(shù)細(xì)節(jié)的讀者可以通過(guò)項(xiàng)目主頁(yè)SkyReels-A2.github.io或代碼倉(cāng)庫(kù)https://github.com/SkyworkAI/SkyReels-A2訪問(wèn)完整研究成果。
想象一下,你手頭有幾張不同的照片:一張是你朋友的自拍照,一張是紅色的咖啡杯,還有一張是海邊的風(fēng)景?,F(xiàn)在,如果有人告訴你,只需要這幾張普通照片加上一句話描述,就能制作出一段高質(zhì)量的電影級(jí)視頻,你會(huì)相信嗎?天工AI的研究團(tuán)隊(duì)讓這個(gè)聽(tīng)起來(lái)像科幻小說(shuō)的想法變成了現(xiàn)實(shí)。
傳統(tǒng)的視頻制作就像搭積木一樣,你需要先有完整的積木塊,然后按照固定的方式拼接。而這項(xiàng)新技術(shù)更像是魔法師的變戲法,它能把散落的照片元素重新組合,創(chuàng)造出全新的動(dòng)態(tài)畫面。過(guò)去,如果你想制作一個(gè)朋友在海邊喝咖啡的視頻,你要么需要真的帶著朋友和咖啡杯去海邊拍攝,要么需要復(fù)雜的后期制作技術(shù)。但現(xiàn)在,你只需要提供這三樣?xùn)|西的照片,告訴AI"朋友在海邊喝咖啡",它就能生成一段自然流暢的視頻。
這種技術(shù)被研究團(tuán)隊(duì)稱為"元素到視頻"(Elements-to-Video,簡(jiǎn)稱E2V),就像廚師能用不同的食材烹制出美味佳肴一樣,AI能夠?qū)⒉煌囊曈X(jué)元素"烹制"成完整的視頻作品。與目前市面上需要從頭開(kāi)始創(chuàng)建或只能對(duì)現(xiàn)有視頻進(jìn)行簡(jiǎn)單變換的技術(shù)不同,SkyReels-A2能夠真正理解每個(gè)元素的特征,并將它們自然地融合到一個(gè)連貫的故事中。
研究團(tuán)隊(duì)面臨的最大挑戰(zhàn)就像同時(shí)玩轉(zhuǎn)多個(gè)雜耍球一樣復(fù)雜。他們需要確保生成的視頻中每個(gè)元素都保持其原有特征(比如朋友的臉部特征不能改變),同時(shí)還要讓這些元素在同一個(gè)場(chǎng)景中看起來(lái)自然協(xié)調(diào),最重要的是,整個(gè)視頻要符合用戶的文字描述。這就好比要求一位畫家同時(shí)畫出三個(gè)不同風(fēng)格的人物,但讓他們看起來(lái)像是在同一個(gè)房間里自然交談。
一、數(shù)據(jù)收集的秘密配方
為了訓(xùn)練這個(gè)AI系統(tǒng),研究團(tuán)隊(duì)首先需要解決一個(gè)根本問(wèn)題:如何獲得足夠的訓(xùn)練材料?這就像教一個(gè)從未見(jiàn)過(guò)世界的孩子如何理解不同物體之間的關(guān)系一樣,需要大量的例子和說(shuō)明。
傳統(tǒng)的視頻生成系統(tǒng)就像只會(huì)背誦課本的學(xué)生,它們只能根據(jù)已有的完整視頻來(lái)學(xué)習(xí)。但SkyReels-A2更像是一個(gè)觀察敏銳的藝術(shù)學(xué)徒,它需要學(xué)會(huì)如何將獨(dú)立的元素組合成有意義的作品。為此,研究團(tuán)隊(duì)設(shè)計(jì)了一套復(fù)雜而精巧的數(shù)據(jù)處理流水線,這個(gè)過(guò)程可以比作珠寶匠將原石加工成精美首飾的工藝。
整個(gè)數(shù)據(jù)處理過(guò)程從收集大量原始視頻開(kāi)始,就像收集各種類型的原材料。研究團(tuán)隊(duì)首先對(duì)這些視頻進(jìn)行篩選,根據(jù)分辨率、標(biāo)簽、類型和來(lái)源進(jìn)行過(guò)濾,然后將長(zhǎng)視頻分割成短片段,每個(gè)片段都基于關(guān)鍵幀來(lái)確定邊界。這個(gè)過(guò)程類似于將一本厚厚的小說(shuō)分解成獨(dú)立的章節(jié),確保每個(gè)章節(jié)都有完整的情節(jié)。
接下來(lái)是最關(guān)鍵的一步:為每個(gè)視頻片段生成詳細(xì)的描述。研究團(tuán)隊(duì)使用了專門開(kāi)發(fā)的多專家視頻字幕模型,這個(gè)模型能夠?yàn)橐曨l片段生成兩種類型的描述:整體描述和結(jié)構(gòu)化描述。整體描述就像電影的劇情簡(jiǎn)介,概括了視頻的主要內(nèi)容;而結(jié)構(gòu)化描述則像是電影的分鏡頭腳本,詳細(xì)記錄了每個(gè)元素的特征,包括人物的外觀、服裝、物體的屬性、背景信息,以及動(dòng)態(tài)特征如面部表情、動(dòng)作和運(yùn)動(dòng)軌跡。
為了提取視頻中的各種元素,研究團(tuán)隊(duì)使用了一系列檢測(cè)和分割模型。對(duì)于人物,他們使用通用檢測(cè)模型來(lái)定位人體,然后進(jìn)一步使用人臉檢測(cè)器和人體解析模型來(lái)提取面部特征和服裝細(xì)節(jié)。對(duì)于物體和背景,他們使用CLIP模型來(lái)匹配文字描述與視覺(jué)實(shí)體,確保AI能夠準(zhǔn)確理解每個(gè)元素的含義。
最有趣的是,為了避免生成的視頻簡(jiǎn)單地"復(fù)制粘貼"原始圖像,研究團(tuán)隊(duì)引入了一個(gè)巧妙的相似性過(guò)濾步驟。他們計(jì)算不同視頻片段中相同主體的相似性,使用人臉相似性模型處理人物,使用CLIP相似性模型處理物體,然后從不同的視頻片段中選擇多樣化的參考圖像。這就像確保每個(gè)演員都有多套不同的服裝,避免在最終的視頻作品中出現(xiàn)單調(diào)重復(fù)的形象。
對(duì)于背景的處理,研究團(tuán)隊(duì)采用了特別的方法:他們找到背景覆蓋面積最大的幀,通過(guò)裁剪去除前景物體,保留純凈的背景圖像。這個(gè)過(guò)程就像攝影師尋找最佳的拍攝背景,確保場(chǎng)景的完整性和美觀性。
通過(guò)這套復(fù)雜而精密的數(shù)據(jù)處理流水線,研究團(tuán)隊(duì)最終構(gòu)建了一個(gè)包含約200萬(wàn)個(gè)高質(zhì)量視頻-參考圖像-文本提示三元組的訓(xùn)練數(shù)據(jù)集。這個(gè)數(shù)據(jù)集就像一個(gè)巨大的圖書(shū)館,包含了AI學(xué)習(xí)如何將不同元素組合成連貫視頻所需的所有知識(shí)和示例。
二、AI的"視覺(jué)合成魔法"
SkyReels-A2的核心架構(gòu)就像一位經(jīng)驗(yàn)豐富的電影導(dǎo)演的大腦,能夠同時(shí)處理多個(gè)信息來(lái)源,并將它們完美地融合成一個(gè)連貫的視覺(jué)故事。這個(gè)系統(tǒng)的設(shè)計(jì)理念可以用交響樂(lè)團(tuán)的比喻來(lái)理解:每個(gè)樂(lè)器(視覺(jué)元素)都有自己獨(dú)特的聲音,而指揮家(AI系統(tǒng))需要確保所有樂(lè)器和諧演奏,創(chuàng)造出美妙的音樂(lè)(視頻)。
當(dāng)用戶提供多張參考圖像時(shí),系統(tǒng)會(huì)將這些圖像分為兩個(gè)處理通道,就像食物處理中的不同工序。第一個(gè)通道叫做"語(yǔ)義特征分支",它使用CLIP視覺(jué)編碼器來(lái)理解每張圖像的含義和內(nèi)容。這個(gè)過(guò)程類似于一個(gè)藝術(shù)評(píng)論家觀察畫作,不僅看到表面的色彩和形狀,更能理解畫作要表達(dá)的深層含義。系統(tǒng)會(huì)為每張參考圖像提取全局和語(yǔ)義特征,然后通過(guò)一個(gè)投影模塊將這些特征轉(zhuǎn)換成與視頻序列兼容的格式。
第二個(gè)通道被稱為"空間特征分支",它使用標(biāo)準(zhǔn)的3D視頻自編碼器(VAE)來(lái)處理圖像的精細(xì)細(xì)節(jié)和空間信息。這就像一位細(xì)致的工匠,不僅關(guān)注整體設(shè)計(jì),更注重每個(gè)細(xì)節(jié)的精確度。為了適應(yīng)視頻生成的需要,系統(tǒng)會(huì)將參考圖像沿著時(shí)間維度進(jìn)行連接,并進(jìn)行零填充以匹配原始幀數(shù)。
這兩個(gè)分支的設(shè)計(jì)反映了人類視覺(jué)認(rèn)知的雙重機(jī)制:我們既能快速理解圖像的整體含義(語(yǔ)義理解),也能感知精細(xì)的視覺(jué)細(xì)節(jié)(空間感知)。通過(guò)模擬這種雙重機(jī)制,SkyReels-A2能夠在保持每個(gè)元素特征完整性的同時(shí),創(chuàng)造出視覺(jué)上令人信服的合成效果。
系統(tǒng)的另一個(gè)關(guān)鍵創(chuàng)新是其交叉注意力機(jī)制的設(shè)計(jì)。傳統(tǒng)的視頻生成模型只能處理單一的文本輸入,就像只會(huì)聽(tīng)一種語(yǔ)言的翻譯員。而SkyReels-A2則像是精通多種語(yǔ)言的外交官,它能夠同時(shí)理解文本描述和多個(gè)視覺(jué)參考的信息,并將這些信息整合成統(tǒng)一的指令。
在處理過(guò)程中,系統(tǒng)會(huì)將從所有參考圖像中提取的語(yǔ)義特征連接起來(lái),作為交叉注意力層中的鍵(keys)和值(values)。這些層被巧妙地集成在每個(gè)文本提示交叉注意力塊之后,確保視覺(jué)信息能夠與文本信息有效融合。這種設(shè)計(jì)就像在烹飪過(guò)程中逐步添加不同的調(diào)料,每一步都會(huì)增強(qiáng)最終菜肴的味道層次。
對(duì)于空間特征的處理,系統(tǒng)采用了更直接的方法:將處理后的參考圖像特征與噪聲潛在向量沿著通道維度連接,然后傳遞到補(bǔ)丁嵌入模塊。這個(gè)過(guò)程確保了精細(xì)的空間信息能夠在整個(gè)生成過(guò)程中得到保留,就像確保音樂(lè)錄制中每個(gè)音符的清晰度。
三、訓(xùn)練過(guò)程的精密調(diào)校
訓(xùn)練SkyReels-A2就像培養(yǎng)一位多才多藝的演員,需要在保持其原有技能的基礎(chǔ)上,教會(huì)它新的表演技巧。這個(gè)過(guò)程既要避免"過(guò)度訓(xùn)練"導(dǎo)致原有能力退化,也要確保新技能的充分掌握。
研究團(tuán)隊(duì)采用了一種精心設(shè)計(jì)的訓(xùn)練策略,只對(duì)系統(tǒng)的特定部分進(jìn)行優(yōu)化。具體來(lái)說(shuō),他們選擇性地訓(xùn)練交叉注意力模塊、補(bǔ)丁嵌入層和圖像條件嵌入器,而保持基礎(chǔ)視頻生成模型的其他部分不變。這種方法類似于給已經(jīng)熟練的鋼琴家教授新的演奏技巧,而不是從頭開(kāi)始學(xué)習(xí)整個(gè)鋼琴演奏。
訓(xùn)練過(guò)程中,系統(tǒng)學(xué)習(xí)重建目標(biāo)視頻的潛在空間表示,使用標(biāo)準(zhǔn)的擴(kuò)散均方誤差損失。為了增強(qiáng)模型的魯棒性和泛化能力,研究團(tuán)隊(duì)引入了一種稱為"無(wú)分類器引導(dǎo)"的技術(shù)。在訓(xùn)練期間,他們會(huì)隨機(jī)丟棄30%的視頻字幕和10%的參考條件,這就像讓學(xué)生在缺少部分信息的情況下完成任務(wù),從而提高應(yīng)變能力。
訓(xùn)練數(shù)據(jù)的預(yù)處理也體現(xiàn)了研究團(tuán)隊(duì)的細(xì)致考慮。當(dāng)參考圖像的比例與視頻比例不匹配時(shí),系統(tǒng)會(huì)用白色圖像進(jìn)行填充,這種處理方式既簡(jiǎn)單有效,又不會(huì)引入額外的視覺(jué)噪聲。訓(xùn)練視頻被設(shè)置為81幀,對(duì)應(yīng)15幀每秒的6秒時(shí)長(zhǎng),這個(gè)長(zhǎng)度既足以展現(xiàn)完整的動(dòng)作序列,又不會(huì)給計(jì)算資源帶來(lái)過(guò)大負(fù)擔(dān)。
優(yōu)化器的選擇和參數(shù)設(shè)置也經(jīng)過(guò)了精心調(diào)整。研究團(tuán)隊(duì)使用Adam優(yōu)化器,學(xué)習(xí)率設(shè)置為1e-5,全局批次大小為256。這些看似簡(jiǎn)單的數(shù)字背后,實(shí)際上是大量實(shí)驗(yàn)和調(diào)優(yōu)的結(jié)果,就像廚師經(jīng)過(guò)無(wú)數(shù)次嘗試才找到最佳的火候和調(diào)料比例。
四、推理加速的工程智慧
一個(gè)再優(yōu)秀的AI系統(tǒng),如果運(yùn)行速度太慢,就像一輛性能卓越但油耗驚人的跑車,實(shí)用價(jià)值會(huì)大打折扣。SkyReels-A2的研究團(tuán)隊(duì)深知這個(gè)道理,因此在系統(tǒng)推理階段投入了大量精力進(jìn)行優(yōu)化。
基礎(chǔ)的推理流程采用了UniPC多步調(diào)度方案,這是一種經(jīng)過(guò)驗(yàn)證的高效采樣策略。但研究團(tuán)隊(duì)并不滿足于此,他們進(jìn)一步引入了多種并行化策略來(lái)應(yīng)對(duì)大規(guī)模模型推理的挑戰(zhàn)。要知道,SkyReels-A2包含140億個(gè)參數(shù),相當(dāng)于一個(gè)龐大的虛擬大腦,如果按傳統(tǒng)方式運(yùn)行,每一步采樣都會(huì)成為性能瓶頸。
為了解決這個(gè)問(wèn)題,研究團(tuán)隊(duì)實(shí)施了上下文并行、CFG并行和VAE并行等策略。這些技術(shù)就像將一個(gè)復(fù)雜的工廠生產(chǎn)線分解成多個(gè)并行工作站,每個(gè)工作站專門負(fù)責(zé)特定的工序,最終協(xié)同完成整個(gè)產(chǎn)品的制造。通過(guò)這種方式,系統(tǒng)能夠在滿足在線環(huán)境低延遲要求的同時(shí),實(shí)現(xiàn)快速無(wú)損的視頻生成。
另一個(gè)重要的優(yōu)化方向是用戶級(jí)GPU部署。研究團(tuán)隊(duì)實(shí)現(xiàn)了模型量化和參數(shù)級(jí)卸載策略,顯著降低了GPU內(nèi)存消耗。這使得即使是配置相對(duì)較低的消費(fèi)級(jí)顯卡也能運(yùn)行這個(gè)強(qiáng)大的AI系統(tǒng),就像將原本需要大型機(jī)械才能完成的工作,通過(guò)巧妙的設(shè)計(jì)變成了家用設(shè)備也能勝任的任務(wù)。
推理過(guò)程中的另一個(gè)關(guān)鍵參數(shù)是flow shift值,研究團(tuán)隊(duì)經(jīng)過(guò)大量實(shí)驗(yàn)發(fā)現(xiàn),這個(gè)參數(shù)對(duì)最終輸出質(zhì)量有顯著影響。較大的flow shift值會(huì)讓系統(tǒng)在早期采樣步驟中投入更多精力,從而生成更合理的空間結(jié)構(gòu),但可能會(huì)在圖像細(xì)節(jié)方面有所妥協(xié)。經(jīng)過(guò)綜合考慮運(yùn)動(dòng)自然度和視覺(jué)質(zhì)量的平衡,研究團(tuán)隊(duì)將默認(rèn)值設(shè)置為8。
五、A2-Bench評(píng)估體系的建立
為了客觀評(píng)價(jià)SkyReels-A2的性能,研究團(tuán)隊(duì)面臨一個(gè)棘手的問(wèn)題:現(xiàn)有的視頻生成評(píng)估基準(zhǔn)主要針對(duì)文本到視頻或圖像到視頻任務(wù),并沒(méi)有專門針對(duì)"元素到視頻"任務(wù)的評(píng)估標(biāo)準(zhǔn)。這就像要評(píng)判一種全新的體育項(xiàng)目,卻發(fā)現(xiàn)沒(méi)有合適的評(píng)分規(guī)則。
于是,研究團(tuán)隊(duì)決定自己制定評(píng)估標(biāo)準(zhǔn),創(chuàng)建了A2-Bench這個(gè)綜合評(píng)估基準(zhǔn)。這個(gè)基準(zhǔn)的設(shè)計(jì)理念可以比作奧運(yùn)會(huì)的評(píng)分體系:既要有客觀的量化指標(biāo),也要考慮人類的主觀感受,確保評(píng)估結(jié)果既科學(xué)嚴(yán)謹(jǐn)又貼近實(shí)際應(yīng)用需求。
A2-Bench的構(gòu)建過(guò)程體現(xiàn)了研究團(tuán)隊(duì)的嚴(yán)謹(jǐn)態(tài)度。他們從各種場(chǎng)景中收集了150張參考圖像,包括50個(gè)不同的人物身份、涵蓋12個(gè)類別的50種不同物體,以及50個(gè)獨(dú)特的背景。為了創(chuàng)建基準(zhǔn)數(shù)據(jù)集,他們將這些元素隨機(jī)配對(duì)組合成50種不同的輸入組合,然后使用大語(yǔ)言模型生成相應(yīng)的文本提示。特別重要的是,研究團(tuán)隊(duì)確保訓(xùn)練視頻和A2-Bench之間沒(méi)有任何重疊,避免了"考試泄題"的問(wèn)題。
自動(dòng)評(píng)估指標(biāo)分為三個(gè)核心維度,每個(gè)維度都像考試中的不同科目,測(cè)試系統(tǒng)的不同能力。組合一致性評(píng)估系統(tǒng)是否能夠保持各個(gè)元素的特征完整性。字符ID一致性通過(guò)人臉識(shí)別模型提取特征并計(jì)算余弦相似度來(lái)評(píng)估;物體一致性使用Grounded-SAM分割視頻中的物體部分,然后計(jì)算幀級(jí)CLIP特征之間的相似性;背景一致性通過(guò)檢測(cè)和分割主體,遮蓋主體后計(jì)算背景與參考背景圖像的幀級(jí)CLIP特征相似性。
視覺(jué)質(zhì)量維度包含了圖像質(zhì)量、美學(xué)質(zhì)量、運(yùn)動(dòng)平滑度和動(dòng)態(tài)程度等指標(biāo),這些指標(biāo)借鑒了VBench的定義,確保了評(píng)估的權(quán)威性和可比性。提示跟隨維度使用ViCLIP計(jì)算文本描述與視頻內(nèi)容之間的余弦相似度分?jǐn)?shù),直接衡量文本-視頻對(duì)齊程度。
考慮到自動(dòng)化元素檢測(cè)和匹配可能存在較高的錯(cuò)誤率,研究團(tuán)隊(duì)還設(shè)計(jì)了詳細(xì)的用戶偏好研究。他們使用50個(gè)測(cè)試樣本,向多位參與者展示條件圖像、提示和來(lái)自多個(gè)模型的結(jié)果,包括Keling、Vidu、Pika和SkyReels-A2。每個(gè)樣本都會(huì)根據(jù)10個(gè)不同的評(píng)估標(biāo)準(zhǔn)進(jìn)行評(píng)分,參與者需要在1到5的尺度上為每個(gè)標(biāo)準(zhǔn)打分。
這套評(píng)估框架的建立不僅為SkyReels-A2提供了性能基準(zhǔn),更為整個(gè)"元素到視頻"領(lǐng)域的發(fā)展奠定了評(píng)估標(biāo)準(zhǔn)的基礎(chǔ),就像為一個(gè)新興體育項(xiàng)目制定了第一套正式的比賽規(guī)則。
六、實(shí)驗(yàn)結(jié)果與性能對(duì)比
當(dāng)SkyReels-A2與當(dāng)前市場(chǎng)上的頂級(jí)商業(yè)模型進(jìn)行較量時(shí),結(jié)果令人印象深刻。研究團(tuán)隊(duì)將其與Pika2.1、Vidu2.1和Keling1.6等領(lǐng)先的閉源商業(yè)模型進(jìn)行了全面對(duì)比,這場(chǎng)比賽就像讓一位新晉棋手與經(jīng)驗(yàn)豐富的大師們對(duì)弈。
在自動(dòng)評(píng)估指標(biāo)方面,SkyReels-A2展現(xiàn)出了均衡而出色的性能。在組合一致性方面,雖然在ID一致性和背景一致性上略有不足,但在物體一致性方面表現(xiàn)最佳,達(dá)到了0.809的分?jǐn)?shù),超過(guò)了所有競(jìng)爭(zhēng)對(duì)手。這個(gè)結(jié)果特別有意義,因?yàn)槲矬w一致性往往是最難保持的,需要AI系統(tǒng)對(duì)各種物體的形狀、紋理和特征有深入的理解。
視覺(jué)質(zhì)量評(píng)估顯示了SkyReels-A2的另一個(gè)優(yōu)勢(shì)領(lǐng)域。在圖像質(zhì)量方面,它以0.683的得分領(lǐng)先所有對(duì)手,顯示出生成視頻的清晰度和保真度都達(dá)到了很高水準(zhǔn)。在動(dòng)態(tài)程度指標(biāo)上,SkyReels-A2與Keling并列第一,都達(dá)到了1.000的滿分,這意味著生成的視頻具有豐富而自然的運(yùn)動(dòng)效果。
更有說(shuō)服力的是用戶偏好研究的結(jié)果。在這項(xiàng)更貼近實(shí)際應(yīng)用的評(píng)估中,SkyReels-A2在多個(gè)關(guān)鍵指標(biāo)上都表現(xiàn)出色。特別是在服裝一致性和人體運(yùn)動(dòng)平滑度方面,它甚至超越了一些商業(yè)解決方案。這個(gè)結(jié)果尤其令人鼓舞,因?yàn)檫@些是用戶在實(shí)際使用中最關(guān)心的質(zhì)量指標(biāo)。
通過(guò)定性比較可以看出,不同模型各有特色。Pika在主體一致性方面表現(xiàn)較弱,生成的視頻運(yùn)動(dòng)相對(duì)較少;Keling雖然在某些方面表現(xiàn)出色,但存在明顯的鏡像運(yùn)動(dòng)效果,畫面可能出現(xiàn)忽遠(yuǎn)忽近的問(wèn)題,研究團(tuán)隊(duì)認(rèn)為這可能與訓(xùn)練數(shù)據(jù)的分布有關(guān)。相比之下,Vidu和SkyReels-A2在主體一致性、視覺(jué)效果和文本響應(yīng)方面都表現(xiàn)出較為均衡的性能。
值得特別指出的是,SkyReels-A2在光影紋理的處理上表現(xiàn)尤為出色。生成的視頻在光照效果、陰影處理和表面紋理方面都顯示出很高的真實(shí)感,這對(duì)于創(chuàng)建令人信服的視覺(jué)內(nèi)容至關(guān)重要。
七、技術(shù)細(xì)節(jié)的深度探索
為了更好地理解SkyReels-A2的設(shè)計(jì)選擇,研究團(tuán)隊(duì)進(jìn)行了詳盡的消融實(shí)驗(yàn),這個(gè)過(guò)程就像解剖一臺(tái)精密機(jī)器,逐一檢查每個(gè)部件的作用和重要性。
空間特征組合方式的選擇對(duì)系統(tǒng)性能有顯著影響。研究團(tuán)隊(duì)比較了三種不同的方法:在原始像素空間中連接后通過(guò)3D VAE處理、獨(dú)立通過(guò)3D VAE處理后在潛在空間連接,以及不進(jìn)行幀重復(fù)的處理方式。實(shí)驗(yàn)結(jié)果顯示,沒(méi)有幀重復(fù)會(huì)導(dǎo)致圖像信息的顯著丟失,在組合一致性指標(biāo)上出現(xiàn)明顯下降。這個(gè)發(fā)現(xiàn)強(qiáng)調(diào)了保持時(shí)間維度信息完整性的重要性。
可學(xué)習(xí)參數(shù)集合的選擇也經(jīng)過(guò)了仔細(xì)考量。研究團(tuán)隊(duì)比較了只訓(xùn)練每?jī)蓪拥慕徊孀⒁饬?shù)、訓(xùn)練所有層的交叉注意力參數(shù),以及微調(diào)整個(gè)視頻擴(kuò)散模型三種策略。結(jié)果表明,只訓(xùn)練部分層會(huì)導(dǎo)致顯著的一致性性能損失,而微調(diào)整個(gè)模型雖然能提高圖像質(zhì)量和自然度,但考慮到性能和數(shù)據(jù)規(guī)模的平衡,訓(xùn)練所有交叉注意力層是最優(yōu)選擇。
訓(xùn)練數(shù)據(jù)混合比例的實(shí)驗(yàn)產(chǎn)生了一個(gè)意外的發(fā)現(xiàn)。研究團(tuán)隊(duì)原本期望加入單一主體數(shù)據(jù)能夠提升模型在定制化任務(wù)中的表現(xiàn),但實(shí)驗(yàn)結(jié)果顯示,在各種組合場(chǎng)景中,單純使用多主體數(shù)據(jù)的效果最佳。這個(gè)結(jié)果類似于監(jiān)督微調(diào)中的發(fā)現(xiàn):適量的高質(zhì)量文本-參考-視頻數(shù)據(jù)能夠更好地激發(fā)模型的可控性,而不會(huì)損害原有的生成流暢性。
推理加速和超參數(shù)的影響也得到了深入研究。flow shift參數(shù)的選擇需要在空間結(jié)構(gòu)合理性和圖像細(xì)節(jié)質(zhì)量之間找到平衡點(diǎn)。較大的數(shù)值會(huì)讓系統(tǒng)在早期采樣步驟中投入更多精力構(gòu)建合理的空間結(jié)構(gòu),但可能會(huì)導(dǎo)致圖像細(xì)節(jié)的逐漸退化。經(jīng)過(guò)大量實(shí)驗(yàn),研究團(tuán)隊(duì)選擇了8作為默認(rèn)值,在運(yùn)動(dòng)自然度和視覺(jué)質(zhì)量之間實(shí)現(xiàn)了最佳平衡。
八、應(yīng)用前景與實(shí)際價(jià)值
SkyReels-A2的應(yīng)用潛力就像一把萬(wàn)能鑰匙,能夠打開(kāi)多個(gè)創(chuàng)意產(chǎn)業(yè)的新大門。在音樂(lè)視頻制作領(lǐng)域,創(chuàng)作者可以選擇各種樂(lè)器,如吉他、鋼琴或小提琴,然后定義具有想象力的場(chǎng)景,生成無(wú)縫銜接的創(chuàng)意序列。當(dāng)配合音樂(lè)片段時(shí),這種技術(shù)能夠讓音樂(lè)可視化達(dá)到前所未有的水平,為音樂(lè)人和視頻制作者提供了全新的創(chuàng)作可能。
虛擬電商是另一個(gè)充滿潛力的應(yīng)用場(chǎng)景。品牌方可以提供產(chǎn)品圖像,比如最新款的智能手機(jī)或時(shí)尚服裝,然后將知名人士或虛擬形象置于特定的營(yíng)銷場(chǎng)景中,制作出引人注目的宣傳內(nèi)容。當(dāng)這些視頻配合量身定制的旁白時(shí),能夠有效提升消費(fèi)者的購(gòu)買意圖,為電商營(yíng)銷帶來(lái)革命性的改變。
影視制作行業(yè)也將從這項(xiàng)技術(shù)中獲得巨大收益。導(dǎo)演可以在前期制作階段快速生成概念預(yù)覽,測(cè)試不同的角色組合和場(chǎng)景設(shè)置,大大降低了試錯(cuò)成本。對(duì)于獨(dú)立制片人來(lái)說(shuō),這意味著可以用更少的預(yù)算創(chuàng)作出高質(zhì)量的視覺(jué)內(nèi)容。
教育培訓(xùn)領(lǐng)域同樣具有廣闊的應(yīng)用前景。教師可以使用歷史人物的圖像和相關(guān)場(chǎng)景,創(chuàng)建生動(dòng)的歷史重現(xiàn)視頻,讓學(xué)生仿佛置身于歷史現(xiàn)場(chǎng)。語(yǔ)言學(xué)習(xí)應(yīng)用可以生成各種日常對(duì)話場(chǎng)景,幫助學(xué)習(xí)者在真實(shí)語(yǔ)境中練習(xí)。
社交媒體內(nèi)容創(chuàng)作將變得更加民主化。普通用戶不再需要專業(yè)的拍攝設(shè)備和后期技能,只需要幾張照片和創(chuàng)意想法,就能制作出吸引眼球的短視頻內(nèi)容。這種技術(shù)的普及可能會(huì)徹底改變社交媒體的內(nèi)容生態(tài)。
九、技術(shù)挑戰(zhàn)與未來(lái)發(fā)展
盡管SkyReels-A2取得了令人矚目的成果,但研究團(tuán)隊(duì)也清醒地認(rèn)識(shí)到當(dāng)前技術(shù)仍面臨一些挑戰(zhàn)。最主要的問(wèn)題是背景一致性的保持。在某些復(fù)雜場(chǎng)景中,系統(tǒng)可能難以完美地將多個(gè)元素融合到背景中,有時(shí)會(huì)出現(xiàn)不夠自然的合成效果。這個(gè)問(wèn)題就像拼圖游戲中最后幾塊拼圖的配合,需要更加精密的技術(shù)來(lái)解決。
另一個(gè)挑戰(zhàn)是處理極端情況下的元素沖突。當(dāng)用戶提供的參考圖像在風(fēng)格、光照條件或分辨率方面差異過(guò)大時(shí),系統(tǒng)需要做出妥協(xié),這可能會(huì)影響最終視頻的質(zhì)量。解決這個(gè)問(wèn)題需要更加智能的預(yù)處理和風(fēng)格統(tǒng)一技術(shù)。
計(jì)算資源的需求仍然是實(shí)際部署中的考慮因素。雖然研究團(tuán)隊(duì)已經(jīng)實(shí)現(xiàn)了顯著的優(yōu)化,但生成高質(zhì)量視頻仍需要相當(dāng)?shù)挠?jì)算能力。未來(lái)的發(fā)展方向可能包括更加高效的模型架構(gòu)和更好的壓縮技術(shù)。
倫理和版權(quán)問(wèn)題也是需要謹(jǐn)慎處理的方面。隨著技術(shù)的普及,如何防止惡意使用、保護(hù)個(gè)人肖像權(quán)和知識(shí)產(chǎn)權(quán)將成為重要議題。研究團(tuán)隊(duì)需要在技術(shù)發(fā)展的同時(shí),建立相應(yīng)的安全機(jī)制和使用規(guī)范。
展望未來(lái),研究團(tuán)隊(duì)計(jì)劃在幾個(gè)方向上繼續(xù)改進(jìn)。首先是提高模型對(duì)不同風(fēng)格和質(zhì)量參考圖像的適應(yīng)能力,讓系統(tǒng)能夠處理更加多樣化的輸入。其次是優(yōu)化背景融合技術(shù),實(shí)現(xiàn)更加自然和令人信服的元素組合效果。
長(zhǎng)期來(lái)看,這項(xiàng)技術(shù)可能會(huì)與其他AI技術(shù)結(jié)合,形成更加強(qiáng)大的創(chuàng)意工具。比如與語(yǔ)音合成技術(shù)結(jié)合,創(chuàng)建完整的影視內(nèi)容;與3D建模技術(shù)結(jié)合,生成更加立體的視覺(jué)效果;與實(shí)時(shí)渲染技術(shù)結(jié)合,實(shí)現(xiàn)交互式的內(nèi)容創(chuàng)作體驗(yàn)。
十、對(duì)行業(yè)的深遠(yuǎn)影響
SkyReels-A2的出現(xiàn)標(biāo)志著視頻生成技術(shù)進(jìn)入了一個(gè)新的發(fā)展階段。它不僅僅是技術(shù)的進(jìn)步,更是創(chuàng)意表達(dá)方式的革命。這項(xiàng)技術(shù)的開(kāi)源性質(zhì)尤其重要,它打破了先進(jìn)視頻生成技術(shù)被少數(shù)商業(yè)公司壟斷的局面,為更多研究者和開(kāi)發(fā)者提供了學(xué)習(xí)和改進(jìn)的機(jī)會(huì)。
從技術(shù)演進(jìn)的角度來(lái)看,SkyReels-A2代表了從"生成式AI"向"組合式AI"的重要轉(zhuǎn)變。傳統(tǒng)的生成式AI更像是一位獨(dú)立創(chuàng)作的藝術(shù)家,完全依靠想象來(lái)創(chuàng)作;而組合式AI則更像是一位善于整合資源的導(dǎo)演,能夠?qū)F(xiàn)有元素重新組織成新的作品。這種轉(zhuǎn)變反映了AI技術(shù)從簡(jiǎn)單模仿向復(fù)雜創(chuàng)作能力的發(fā)展。
對(duì)于創(chuàng)意產(chǎn)業(yè)而言,這項(xiàng)技術(shù)的影響將是深遠(yuǎn)而持久的。它降低了高質(zhì)量視頻內(nèi)容創(chuàng)作的門檻,讓更多人能夠參與到視覺(jué)內(nèi)容的創(chuàng)作中來(lái)。同時(shí),它也為專業(yè)創(chuàng)作者提供了強(qiáng)大的工具,讓他們能夠更加專注于創(chuàng)意構(gòu)思而非技術(shù)實(shí)現(xiàn)。
教育和培訓(xùn)行業(yè)也將受益匪淺。復(fù)雜概念的可視化解釋、歷史事件的重現(xiàn)、科學(xué)實(shí)驗(yàn)的模擬等,都可以通過(guò)這項(xiàng)技術(shù)變得更加生動(dòng)和易于理解。這對(duì)于推進(jìn)教育現(xiàn)代化和提高學(xué)習(xí)效果具有重要意義。
從社會(huì)影響的角度來(lái)看,這項(xiàng)技術(shù)的普及可能會(huì)改變?nèi)藗兿M(fèi)和創(chuàng)作視覺(jué)內(nèi)容的方式。社交媒體、廣告營(yíng)銷、娛樂(lè)產(chǎn)業(yè)都可能因此發(fā)生結(jié)構(gòu)性變化。同時(shí),它也提出了新的挑戰(zhàn),包括如何識(shí)別AI生成內(nèi)容、如何保護(hù)個(gè)人隱私和肖像權(quán)等問(wèn)題。
研究團(tuán)隊(duì)通過(guò)開(kāi)源這項(xiàng)技術(shù),展現(xiàn)了負(fù)責(zé)任的創(chuàng)新態(tài)度。他們不僅提供了完整的代碼和模型權(quán)重,還建立了評(píng)估基準(zhǔn),為后續(xù)研究奠定了基礎(chǔ)。這種開(kāi)放式的研究方式有助于加速整個(gè)領(lǐng)域的發(fā)展,也有助于建立更加透明和可信的AI技術(shù)生態(tài)。
說(shuō)到底,SkyReels-A2的真正價(jià)值不僅在于它當(dāng)前能夠?qū)崿F(xiàn)什么,更在于它為未來(lái)可能性打開(kāi)的想象空間。當(dāng)技術(shù)的界限不斷被推進(jìn),當(dāng)創(chuàng)意的表達(dá)方式不斷豐富,我們可以期待一個(gè)更加多彩和充滿可能性的數(shù)字創(chuàng)意世界。這項(xiàng)來(lái)自天工AI的研究成果,正是通向這個(gè)未來(lái)世界的重要里程碑。
值得一提的是,這項(xiàng)技術(shù)的成功也體現(xiàn)了國(guó)內(nèi)AI研究的實(shí)力和創(chuàng)新能力。天工AI團(tuán)隊(duì)不僅在技術(shù)上實(shí)現(xiàn)了突破,更在開(kāi)源共享方面展現(xiàn)了國(guó)際視野和合作精神,為推動(dòng)全球AI技術(shù)的發(fā)展做出了重要貢獻(xiàn)。
Q&A
Q1:SkyReels-A2是什么?它和其他視頻生成AI有什么不同? A:SkyReels-A2是天工AI開(kāi)發(fā)的視頻生成系統(tǒng),最大特點(diǎn)是能夠?qū)⒍鄰埐幌嚓P(guān)的照片(比如人物、物品、背景)組合成一段連貫的視頻。與其他只能根據(jù)文字描述或單張圖片生成視頻的AI不同,它就像一個(gè)數(shù)字導(dǎo)演,能夠"指揮"不同的視覺(jué)元素在同一個(gè)場(chǎng)景中自然互動(dòng)。
Q2:普通人能使用SkyReels-A2嗎?需要什么技術(shù)基礎(chǔ)? A:目前SkyReels-A2已經(jīng)開(kāi)源,代碼和模型可以通過(guò)GitHub獲取。不過(guò)使用它需要一定的編程知識(shí)和較好的硬件配置。研究團(tuán)隊(duì)正在優(yōu)化系統(tǒng),希望未來(lái)能讓普通消費(fèi)者也能輕松使用,就像現(xiàn)在使用手機(jī)拍照一樣簡(jiǎn)單。
Q3:用SkyReels-A2生成的視頻會(huì)有版權(quán)問(wèn)題嗎? A:這確實(shí)是需要注意的問(wèn)題。如果你使用了他人的照片(特別是人物肖像)來(lái)生成視頻,可能涉及肖像權(quán)和版權(quán)問(wèn)題。建議只使用自己拍攝的照片或獲得授權(quán)的素材。研究團(tuán)隊(duì)也意識(shí)到這個(gè)問(wèn)題,未來(lái)可能會(huì)加入相關(guān)的安全機(jī)制和使用規(guī)范。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語(yǔ)言模型的敘事推理能力與音頻生成技術(shù),通過(guò)交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開(kāi)辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過(guò)讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問(wèn)題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語(yǔ)言模型人性化對(duì)話問(wèn)題。該研究創(chuàng)建了包含20萬(wàn)高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過(guò)創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開(kāi)發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過(guò)學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來(lái)了效率和精度的雙重突破。