av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<ruby id="gfvz5"><samp id="gfvz5"></samp></ruby>

^{<sub id="gfvz5"></sub>}

首頁(yè)
對(duì)話創(chuàng)新
對(duì)話科技行者
機(jī)器人新紀(jì)元
AI論文解讀
聯(lián)系我們

微信掃一掃，關(guān)注公眾號(hào)

科技行者
算力行者

見(jiàn)證連接與計(jì)算的「力量」

AI視頻生成新突破：天工AI讓你用幾張照片就能拍出好萊塢大片

視頻生成多模態(tài)AI開(kāi)源模型

AI視頻生成新突破：天工AI讓你用幾張照片就能拍出好萊塢大片

作者：科技行者

2025-07-14 09:49

分享至：

天工AI推出的SkyReels-A2視頻生成系統(tǒng)實(shí)現(xiàn)了重大突破，能夠?qū)⒍鄰埐幌嚓P(guān)照片智能組合成高質(zhì)量視頻。該技術(shù)采用雙分支架構(gòu)處理語(yǔ)義和空間信息，通過(guò)200萬(wàn)訓(xùn)練樣本學(xué)習(xí)元素組合規(guī)律。在與商業(yè)模型的對(duì)比中表現(xiàn)出色，特別是在物體一致性和視覺(jué)質(zhì)量方面領(lǐng)先。該系統(tǒng)已開(kāi)源，為創(chuàng)意產(chǎn)業(yè)、教育培訓(xùn)、虛擬電商等領(lǐng)域帶來(lái)革命性應(yīng)用前景。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-07-14 09:49 ? 科技行者

這項(xiàng)由天工AI（Skywork AI, Kunlun Inc.）的費(fèi)正聰、李德邦、邱迪等十位研究人員共同完成的研究發(fā)表于2025年4月，論文題為《SkyReels-A2: Compose Anything in Video Diffusion Transformers》。有興趣深入了解技術(shù)細(xì)節(jié)的讀者可以通過(guò)項(xiàng)目主頁(yè)SkyReels-A2.github.io或代碼倉(cāng)庫(kù)https://github.com/SkyworkAI/SkyReels-A2訪問(wèn)完整研究成果。

想象一下，你手頭有幾張不同的照片：一張是你朋友的自拍照，一張是紅色的咖啡杯，還有一張是海邊的風(fēng)景?，F(xiàn)在，如果有人告訴你，只需要這幾張普通照片加上一句話描述，就能制作出一段高質(zhì)量的電影級(jí)視頻，你會(huì)相信嗎？天工AI的研究團(tuán)隊(duì)讓這個(gè)聽(tīng)起來(lái)像科幻小說(shuō)的想法變成了現(xiàn)實(shí)。

傳統(tǒng)的視頻制作就像搭積木一樣，你需要先有完整的積木塊，然后按照固定的方式拼接。而這項(xiàng)新技術(shù)更像是魔法師的變戲法，它能把散落的照片元素重新組合，創(chuàng)造出全新的動(dòng)態(tài)畫面。過(guò)去，如果你想制作一個(gè)朋友在海邊喝咖啡的視頻，你要么需要真的帶著朋友和咖啡杯去海邊拍攝，要么需要復(fù)雜的后期制作技術(shù)。但現(xiàn)在，你只需要提供這三樣?xùn)|西的照片，告訴AI"朋友在海邊喝咖啡"，它就能生成一段自然流暢的視頻。

這種技術(shù)被研究團(tuán)隊(duì)稱為"元素到視頻"（Elements-to-Video，簡(jiǎn)稱E2V），就像廚師能用不同的食材烹制出美味佳肴一樣，AI能夠?qū)⒉煌囊曈X(jué)元素"烹制"成完整的視頻作品。與目前市面上需要從頭開(kāi)始創(chuàng)建或只能對(duì)現(xiàn)有視頻進(jìn)行簡(jiǎn)單變換的技術(shù)不同，SkyReels-A2能夠真正理解每個(gè)元素的特征，并將它們自然地融合到一個(gè)連貫的故事中。

研究團(tuán)隊(duì)面臨的最大挑戰(zhàn)就像同時(shí)玩轉(zhuǎn)多個(gè)雜耍球一樣復(fù)雜。他們需要確保生成的視頻中每個(gè)元素都保持其原有特征（比如朋友的臉部特征不能改變），同時(shí)還要讓這些元素在同一個(gè)場(chǎng)景中看起來(lái)自然協(xié)調(diào)，最重要的是，整個(gè)視頻要符合用戶的文字描述。這就好比要求一位畫家同時(shí)畫出三個(gè)不同風(fēng)格的人物，但讓他們看起來(lái)像是在同一個(gè)房間里自然交談。

一、數(shù)據(jù)收集的秘密配方

為了訓(xùn)練這個(gè)AI系統(tǒng)，研究團(tuán)隊(duì)首先需要解決一個(gè)根本問(wèn)題：如何獲得足夠的訓(xùn)練材料？這就像教一個(gè)從未見(jiàn)過(guò)世界的孩子如何理解不同物體之間的關(guān)系一樣，需要大量的例子和說(shuō)明。

傳統(tǒng)的視頻生成系統(tǒng)就像只會(huì)背誦課本的學(xué)生，它們只能根據(jù)已有的完整視頻來(lái)學(xué)習(xí)。但SkyReels-A2更像是一個(gè)觀察敏銳的藝術(shù)學(xué)徒，它需要學(xué)會(huì)如何將獨(dú)立的元素組合成有意義的作品。為此，研究團(tuán)隊(duì)設(shè)計(jì)了一套復(fù)雜而精巧的數(shù)據(jù)處理流水線，這個(gè)過(guò)程可以比作珠寶匠將原石加工成精美首飾的工藝。

整個(gè)數(shù)據(jù)處理過(guò)程從收集大量原始視頻開(kāi)始，就像收集各種類型的原材料。研究團(tuán)隊(duì)首先對(duì)這些視頻進(jìn)行篩選，根據(jù)分辨率、標(biāo)簽、類型和來(lái)源進(jìn)行過(guò)濾，然后將長(zhǎng)視頻分割成短片段，每個(gè)片段都基于關(guān)鍵幀來(lái)確定邊界。這個(gè)過(guò)程類似于將一本厚厚的小說(shuō)分解成獨(dú)立的章節(jié)，確保每個(gè)章節(jié)都有完整的情節(jié)。

接下來(lái)是最關(guān)鍵的一步：為每個(gè)視頻片段生成詳細(xì)的描述。研究團(tuán)隊(duì)使用了專門開(kāi)發(fā)的多專家視頻字幕模型，這個(gè)模型能夠?yàn)橐曨l片段生成兩種類型的描述：整體描述和結(jié)構(gòu)化描述。整體描述就像電影的劇情簡(jiǎn)介，概括了視頻的主要內(nèi)容；而結(jié)構(gòu)化描述則像是電影的分鏡頭腳本，詳細(xì)記錄了每個(gè)元素的特征，包括人物的外觀、服裝、物體的屬性、背景信息，以及動(dòng)態(tài)特征如面部表情、動(dòng)作和運(yùn)動(dòng)軌跡。

為了提取視頻中的各種元素，研究團(tuán)隊(duì)使用了一系列檢測(cè)和分割模型。對(duì)于人物，他們使用通用檢測(cè)模型來(lái)定位人體，然后進(jìn)一步使用人臉檢測(cè)器和人體解析模型來(lái)提取面部特征和服裝細(xì)節(jié)。對(duì)于物體和背景，他們使用CLIP模型來(lái)匹配文字描述與視覺(jué)實(shí)體，確保AI能夠準(zhǔn)確理解每個(gè)元素的含義。

最有趣的是，為了避免生成的視頻簡(jiǎn)單地"復(fù)制粘貼"原始圖像，研究團(tuán)隊(duì)引入了一個(gè)巧妙的相似性過(guò)濾步驟。他們計(jì)算不同視頻片段中相同主體的相似性，使用人臉相似性模型處理人物，使用CLIP相似性模型處理物體，然后從不同的視頻片段中選擇多樣化的參考圖像。這就像確保每個(gè)演員都有多套不同的服裝，避免在最終的視頻作品中出現(xiàn)單調(diào)重復(fù)的形象。

對(duì)于背景的處理，研究團(tuán)隊(duì)采用了特別的方法：他們找到背景覆蓋面積最大的幀，通過(guò)裁剪去除前景物體，保留純凈的背景圖像。這個(gè)過(guò)程就像攝影師尋找最佳的拍攝背景，確保場(chǎng)景的完整性和美觀性。

通過(guò)這套復(fù)雜而精密的數(shù)據(jù)處理流水線，研究團(tuán)隊(duì)最終構(gòu)建了一個(gè)包含約200萬(wàn)個(gè)高質(zhì)量視頻-參考圖像-文本提示三元組的訓(xùn)練數(shù)據(jù)集。這個(gè)數(shù)據(jù)集就像一個(gè)巨大的圖書(shū)館，包含了AI學(xué)習(xí)如何將不同元素組合成連貫視頻所需的所有知識(shí)和示例。

二、AI的"視覺(jué)合成魔法"

SkyReels-A2的核心架構(gòu)就像一位經(jīng)驗(yàn)豐富的電影導(dǎo)演的大腦，能夠同時(shí)處理多個(gè)信息來(lái)源，并將它們完美地融合成一個(gè)連貫的視覺(jué)故事。這個(gè)系統(tǒng)的設(shè)計(jì)理念可以用交響樂(lè)團(tuán)的比喻來(lái)理解：每個(gè)樂(lè)器（視覺(jué)元素）都有自己獨(dú)特的聲音，而指揮家（AI系統(tǒng)）需要確保所有樂(lè)器和諧演奏，創(chuàng)造出美妙的音樂(lè)（視頻）。

當(dāng)用戶提供多張參考圖像時(shí)，系統(tǒng)會(huì)將這些圖像分為兩個(gè)處理通道，就像食物處理中的不同工序。第一個(gè)通道叫做"語(yǔ)義特征分支"，它使用CLIP視覺(jué)編碼器來(lái)理解每張圖像的含義和內(nèi)容。這個(gè)過(guò)程類似于一個(gè)藝術(shù)評(píng)論家觀察畫作，不僅看到表面的色彩和形狀，更能理解畫作要表達(dá)的深層含義。系統(tǒng)會(huì)為每張參考圖像提取全局和語(yǔ)義特征，然后通過(guò)一個(gè)投影模塊將這些特征轉(zhuǎn)換成與視頻序列兼容的格式。

第二個(gè)通道被稱為"空間特征分支"，它使用標(biāo)準(zhǔn)的3D視頻自編碼器（VAE）來(lái)處理圖像的精細(xì)細(xì)節(jié)和空間信息。這就像一位細(xì)致的工匠，不僅關(guān)注整體設(shè)計(jì)，更注重每個(gè)細(xì)節(jié)的精確度。為了適應(yīng)視頻生成的需要，系統(tǒng)會(huì)將參考圖像沿著時(shí)間維度進(jìn)行連接，并進(jìn)行零填充以匹配原始幀數(shù)。

這兩個(gè)分支的設(shè)計(jì)反映了人類視覺(jué)認(rèn)知的雙重機(jī)制：我們既能快速理解圖像的整體含義（語(yǔ)義理解），也能感知精細(xì)的視覺(jué)細(xì)節(jié)（空間感知）。通過(guò)模擬這種雙重機(jī)制，SkyReels-A2能夠在保持每個(gè)元素特征完整性的同時(shí)，創(chuàng)造出視覺(jué)上令人信服的合成效果。

系統(tǒng)的另一個(gè)關(guān)鍵創(chuàng)新是其交叉注意力機(jī)制的設(shè)計(jì)。傳統(tǒng)的視頻生成模型只能處理單一的文本輸入，就像只會(huì)聽(tīng)一種語(yǔ)言的翻譯員。而SkyReels-A2則像是精通多種語(yǔ)言的外交官，它能夠同時(shí)理解文本描述和多個(gè)視覺(jué)參考的信息，并將這些信息整合成統(tǒng)一的指令。

在處理過(guò)程中，系統(tǒng)會(huì)將從所有參考圖像中提取的語(yǔ)義特征連接起來(lái)，作為交叉注意力層中的鍵（keys）和值（values）。這些層被巧妙地集成在每個(gè)文本提示交叉注意力塊之后，確保視覺(jué)信息能夠與文本信息有效融合。這種設(shè)計(jì)就像在烹飪過(guò)程中逐步添加不同的調(diào)料，每一步都會(huì)增強(qiáng)最終菜肴的味道層次。

對(duì)于空間特征的處理，系統(tǒng)采用了更直接的方法：將處理后的參考圖像特征與噪聲潛在向量沿著通道維度連接，然后傳遞到補(bǔ)丁嵌入模塊。這個(gè)過(guò)程確保了精細(xì)的空間信息能夠在整個(gè)生成過(guò)程中得到保留，就像確保音樂(lè)錄制中每個(gè)音符的清晰度。

三、訓(xùn)練過(guò)程的精密調(diào)校

訓(xùn)練SkyReels-A2就像培養(yǎng)一位多才多藝的演員，需要在保持其原有技能的基礎(chǔ)上，教會(huì)它新的表演技巧。這個(gè)過(guò)程既要避免"過(guò)度訓(xùn)練"導(dǎo)致原有能力退化，也要確保新技能的充分掌握。

研究團(tuán)隊(duì)采用了一種精心設(shè)計(jì)的訓(xùn)練策略，只對(duì)系統(tǒng)的特定部分進(jìn)行優(yōu)化。具體來(lái)說(shuō)，他們選擇性地訓(xùn)練交叉注意力模塊、補(bǔ)丁嵌入層和圖像條件嵌入器，而保持基礎(chǔ)視頻生成模型的其他部分不變。這種方法類似于給已經(jīng)熟練的鋼琴家教授新的演奏技巧，而不是從頭開(kāi)始學(xué)習(xí)整個(gè)鋼琴演奏。

訓(xùn)練過(guò)程中，系統(tǒng)學(xué)習(xí)重建目標(biāo)視頻的潛在空間表示，使用標(biāo)準(zhǔn)的擴(kuò)散均方誤差損失。為了增強(qiáng)模型的魯棒性和泛化能力，研究團(tuán)隊(duì)引入了一種稱為"無(wú)分類器引導(dǎo)"的技術(shù)。在訓(xùn)練期間，他們會(huì)隨機(jī)丟棄30%的視頻字幕和10%的參考條件，這就像讓學(xué)生在缺少部分信息的情況下完成任務(wù)，從而提高應(yīng)變能力。

訓(xùn)練數(shù)據(jù)的預(yù)處理也體現(xiàn)了研究團(tuán)隊(duì)的細(xì)致考慮。當(dāng)參考圖像的比例與視頻比例不匹配時(shí)，系統(tǒng)會(huì)用白色圖像進(jìn)行填充，這種處理方式既簡(jiǎn)單有效，又不會(huì)引入額外的視覺(jué)噪聲。訓(xùn)練視頻被設(shè)置為81幀，對(duì)應(yīng)15幀每秒的6秒時(shí)長(zhǎng)，這個(gè)長(zhǎng)度既足以展現(xiàn)完整的動(dòng)作序列，又不會(huì)給計(jì)算資源帶來(lái)過(guò)大負(fù)擔(dān)。

優(yōu)化器的選擇和參數(shù)設(shè)置也經(jīng)過(guò)了精心調(diào)整。研究團(tuán)隊(duì)使用Adam優(yōu)化器，學(xué)習(xí)率設(shè)置為1e-5，全局批次大小為256。這些看似簡(jiǎn)單的數(shù)字背后，實(shí)際上是大量實(shí)驗(yàn)和調(diào)優(yōu)的結(jié)果，就像廚師經(jīng)過(guò)無(wú)數(shù)次嘗試才找到最佳的火候和調(diào)料比例。

四、推理加速的工程智慧

一個(gè)再優(yōu)秀的AI系統(tǒng)，如果運(yùn)行速度太慢，就像一輛性能卓越但油耗驚人的跑車，實(shí)用價(jià)值會(huì)大打折扣。SkyReels-A2的研究團(tuán)隊(duì)深知這個(gè)道理，因此在系統(tǒng)推理階段投入了大量精力進(jìn)行優(yōu)化。

基礎(chǔ)的推理流程采用了UniPC多步調(diào)度方案，這是一種經(jīng)過(guò)驗(yàn)證的高效采樣策略。但研究團(tuán)隊(duì)并不滿足于此，他們進(jìn)一步引入了多種并行化策略來(lái)應(yīng)對(duì)大規(guī)模模型推理的挑戰(zhàn)。要知道，SkyReels-A2包含140億個(gè)參數(shù)，相當(dāng)于一個(gè)龐大的虛擬大腦，如果按傳統(tǒng)方式運(yùn)行，每一步采樣都會(huì)成為性能瓶頸。

為了解決這個(gè)問(wèn)題，研究團(tuán)隊(duì)實(shí)施了上下文并行、CFG并行和VAE并行等策略。這些技術(shù)就像將一個(gè)復(fù)雜的工廠生產(chǎn)線分解成多個(gè)并行工作站，每個(gè)工作站專門負(fù)責(zé)特定的工序，最終協(xié)同完成整個(gè)產(chǎn)品的制造。通過(guò)這種方式，系統(tǒng)能夠在滿足在線環(huán)境低延遲要求的同時(shí)，實(shí)現(xiàn)快速無(wú)損的視頻生成。

另一個(gè)重要的優(yōu)化方向是用戶級(jí)GPU部署。研究團(tuán)隊(duì)實(shí)現(xiàn)了模型量化和參數(shù)級(jí)卸載策略，顯著降低了GPU內(nèi)存消耗。這使得即使是配置相對(duì)較低的消費(fèi)級(jí)顯卡也能運(yùn)行這個(gè)強(qiáng)大的AI系統(tǒng)，就像將原本需要大型機(jī)械才能完成的工作，通過(guò)巧妙的設(shè)計(jì)變成了家用設(shè)備也能勝任的任務(wù)。

推理過(guò)程中的另一個(gè)關(guān)鍵參數(shù)是flow shift值，研究團(tuán)隊(duì)經(jīng)過(guò)大量實(shí)驗(yàn)發(fā)現(xiàn)，這個(gè)參數(shù)對(duì)最終輸出質(zhì)量有顯著影響。較大的flow shift值會(huì)讓系統(tǒng)在早期采樣步驟中投入更多精力，從而生成更合理的空間結(jié)構(gòu)，但可能會(huì)在圖像細(xì)節(jié)方面有所妥協(xié)。經(jīng)過(guò)綜合考慮運(yùn)動(dòng)自然度和視覺(jué)質(zhì)量的平衡，研究團(tuán)隊(duì)將默認(rèn)值設(shè)置為8。

五、A2-Bench評(píng)估體系的建立

為了客觀評(píng)價(jià)SkyReels-A2的性能，研究團(tuán)隊(duì)面臨一個(gè)棘手的問(wèn)題：現(xiàn)有的視頻生成評(píng)估基準(zhǔn)主要針對(duì)文本到視頻或圖像到視頻任務(wù)，并沒(méi)有專門針對(duì)"元素到視頻"任務(wù)的評(píng)估標(biāo)準(zhǔn)。這就像要評(píng)判一種全新的體育項(xiàng)目，卻發(fā)現(xiàn)沒(méi)有合適的評(píng)分規(guī)則。

于是，研究團(tuán)隊(duì)決定自己制定評(píng)估標(biāo)準(zhǔn)，創(chuàng)建了A2-Bench這個(gè)綜合評(píng)估基準(zhǔn)。這個(gè)基準(zhǔn)的設(shè)計(jì)理念可以比作奧運(yùn)會(huì)的評(píng)分體系：既要有客觀的量化指標(biāo)，也要考慮人類的主觀感受，確保評(píng)估結(jié)果既科學(xué)嚴(yán)謹(jǐn)又貼近實(shí)際應(yīng)用需求。

A2-Bench的構(gòu)建過(guò)程體現(xiàn)了研究團(tuán)隊(duì)的嚴(yán)謹(jǐn)態(tài)度。他們從各種場(chǎng)景中收集了150張參考圖像，包括50個(gè)不同的人物身份、涵蓋12個(gè)類別的50種不同物體，以及50個(gè)獨(dú)特的背景。為了創(chuàng)建基準(zhǔn)數(shù)據(jù)集，他們將這些元素隨機(jī)配對(duì)組合成50種不同的輸入組合，然后使用大語(yǔ)言模型生成相應(yīng)的文本提示。特別重要的是，研究團(tuán)隊(duì)確保訓(xùn)練視頻和A2-Bench之間沒(méi)有任何重疊，避免了"考試泄題"的問(wèn)題。

自動(dòng)評(píng)估指標(biāo)分為三個(gè)核心維度，每個(gè)維度都像考試中的不同科目，測(cè)試系統(tǒng)的不同能力。組合一致性評(píng)估系統(tǒng)是否能夠保持各個(gè)元素的特征完整性。字符ID一致性通過(guò)人臉識(shí)別模型提取特征并計(jì)算余弦相似度來(lái)評(píng)估；物體一致性使用Grounded-SAM分割視頻中的物體部分，然后計(jì)算幀級(jí)CLIP特征之間的相似性；背景一致性通過(guò)檢測(cè)和分割主體，遮蓋主體后計(jì)算背景與參考背景圖像的幀級(jí)CLIP特征相似性。

視覺(jué)質(zhì)量維度包含了圖像質(zhì)量、美學(xué)質(zhì)量、運(yùn)動(dòng)平滑度和動(dòng)態(tài)程度等指標(biāo)，這些指標(biāo)借鑒了VBench的定義，確保了評(píng)估的權(quán)威性和可比性。提示跟隨維度使用ViCLIP計(jì)算文本描述與視頻內(nèi)容之間的余弦相似度分?jǐn)?shù)，直接衡量文本-視頻對(duì)齊程度。

考慮到自動(dòng)化元素檢測(cè)和匹配可能存在較高的錯(cuò)誤率，研究團(tuán)隊(duì)還設(shè)計(jì)了詳細(xì)的用戶偏好研究。他們使用50個(gè)測(cè)試樣本，向多位參與者展示條件圖像、提示和來(lái)自多個(gè)模型的結(jié)果，包括Keling、Vidu、Pika和SkyReels-A2。每個(gè)樣本都會(huì)根據(jù)10個(gè)不同的評(píng)估標(biāo)準(zhǔn)進(jìn)行評(píng)分，參與者需要在1到5的尺度上為每個(gè)標(biāo)準(zhǔn)打分。

這套評(píng)估框架的建立不僅為SkyReels-A2提供了性能基準(zhǔn)，更為整個(gè)"元素到視頻"領(lǐng)域的發(fā)展奠定了評(píng)估標(biāo)準(zhǔn)的基礎(chǔ)，就像為一個(gè)新興體育項(xiàng)目制定了第一套正式的比賽規(guī)則。

六、實(shí)驗(yàn)結(jié)果與性能對(duì)比

當(dāng)SkyReels-A2與當(dāng)前市場(chǎng)上的頂級(jí)商業(yè)模型進(jìn)行較量時(shí)，結(jié)果令人印象深刻。研究團(tuán)隊(duì)將其與Pika2.1、Vidu2.1和Keling1.6等領(lǐng)先的閉源商業(yè)模型進(jìn)行了全面對(duì)比，這場(chǎng)比賽就像讓一位新晉棋手與經(jīng)驗(yàn)豐富的大師們對(duì)弈。

在自動(dòng)評(píng)估指標(biāo)方面，SkyReels-A2展現(xiàn)出了均衡而出色的性能。在組合一致性方面，雖然在ID一致性和背景一致性上略有不足，但在物體一致性方面表現(xiàn)最佳，達(dá)到了0.809的分?jǐn)?shù)，超過(guò)了所有競(jìng)爭(zhēng)對(duì)手。這個(gè)結(jié)果特別有意義，因?yàn)槲矬w一致性往往是最難保持的，需要AI系統(tǒng)對(duì)各種物體的形狀、紋理和特征有深入的理解。

視覺(jué)質(zhì)量評(píng)估顯示了SkyReels-A2的另一個(gè)優(yōu)勢(shì)領(lǐng)域。在圖像質(zhì)量方面，它以0.683的得分領(lǐng)先所有對(duì)手，顯示出生成視頻的清晰度和保真度都達(dá)到了很高水準(zhǔn)。在動(dòng)態(tài)程度指標(biāo)上，SkyReels-A2與Keling并列第一，都達(dá)到了1.000的滿分，這意味著生成的視頻具有豐富而自然的運(yùn)動(dòng)效果。

更有說(shuō)服力的是用戶偏好研究的結(jié)果。在這項(xiàng)更貼近實(shí)際應(yīng)用的評(píng)估中，SkyReels-A2在多個(gè)關(guān)鍵指標(biāo)上都表現(xiàn)出色。特別是在服裝一致性和人體運(yùn)動(dòng)平滑度方面，它甚至超越了一些商業(yè)解決方案。這個(gè)結(jié)果尤其令人鼓舞，因?yàn)檫@些是用戶在實(shí)際使用中最關(guān)心的質(zhì)量指標(biāo)。

通過(guò)定性比較可以看出，不同模型各有特色。Pika在主體一致性方面表現(xiàn)較弱，生成的視頻運(yùn)動(dòng)相對(duì)較少；Keling雖然在某些方面表現(xiàn)出色，但存在明顯的鏡像運(yùn)動(dòng)效果，畫面可能出現(xiàn)忽遠(yuǎn)忽近的問(wèn)題，研究團(tuán)隊(duì)認(rèn)為這可能與訓(xùn)練數(shù)據(jù)的分布有關(guān)。相比之下，Vidu和SkyReels-A2在主體一致性、視覺(jué)效果和文本響應(yīng)方面都表現(xiàn)出較為均衡的性能。

值得特別指出的是，SkyReels-A2在光影紋理的處理上表現(xiàn)尤為出色。生成的視頻在光照效果、陰影處理和表面紋理方面都顯示出很高的真實(shí)感，這對(duì)于創(chuàng)建令人信服的視覺(jué)內(nèi)容至關(guān)重要。

七、技術(shù)細(xì)節(jié)的深度探索

為了更好地理解SkyReels-A2的設(shè)計(jì)選擇，研究團(tuán)隊(duì)進(jìn)行了詳盡的消融實(shí)驗(yàn)，這個(gè)過(guò)程就像解剖一臺(tái)精密機(jī)器，逐一檢查每個(gè)部件的作用和重要性。

空間特征組合方式的選擇對(duì)系統(tǒng)性能有顯著影響。研究團(tuán)隊(duì)比較了三種不同的方法：在原始像素空間中連接后通過(guò)3D VAE處理、獨(dú)立通過(guò)3D VAE處理后在潛在空間連接，以及不進(jìn)行幀重復(fù)的處理方式。實(shí)驗(yàn)結(jié)果顯示，沒(méi)有幀重復(fù)會(huì)導(dǎo)致圖像信息的顯著丟失，在組合一致性指標(biāo)上出現(xiàn)明顯下降。這個(gè)發(fā)現(xiàn)強(qiáng)調(diào)了保持時(shí)間維度信息完整性的重要性。

可學(xué)習(xí)參數(shù)集合的選擇也經(jīng)過(guò)了仔細(xì)考量。研究團(tuán)隊(duì)比較了只訓(xùn)練每?jī)蓪拥慕徊孀⒁饬?shù)、訓(xùn)練所有層的交叉注意力參數(shù)，以及微調(diào)整個(gè)視頻擴(kuò)散模型三種策略。結(jié)果表明，只訓(xùn)練部分層會(huì)導(dǎo)致顯著的一致性性能損失，而微調(diào)整個(gè)模型雖然能提高圖像質(zhì)量和自然度，但考慮到性能和數(shù)據(jù)規(guī)模的平衡，訓(xùn)練所有交叉注意力層是最優(yōu)選擇。

訓(xùn)練數(shù)據(jù)混合比例的實(shí)驗(yàn)產(chǎn)生了一個(gè)意外的發(fā)現(xiàn)。研究團(tuán)隊(duì)原本期望加入單一主體數(shù)據(jù)能夠提升模型在定制化任務(wù)中的表現(xiàn)，但實(shí)驗(yàn)結(jié)果顯示，在各種組合場(chǎng)景中，單純使用多主體數(shù)據(jù)的效果最佳。這個(gè)結(jié)果類似于監(jiān)督微調(diào)中的發(fā)現(xiàn)：適量的高質(zhì)量文本-參考-視頻數(shù)據(jù)能夠更好地激發(fā)模型的可控性，而不會(huì)損害原有的生成流暢性。

推理加速和超參數(shù)的影響也得到了深入研究。flow shift參數(shù)的選擇需要在空間結(jié)構(gòu)合理性和圖像細(xì)節(jié)質(zhì)量之間找到平衡點(diǎn)。較大的數(shù)值會(huì)讓系統(tǒng)在早期采樣步驟中投入更多精力構(gòu)建合理的空間結(jié)構(gòu)，但可能會(huì)導(dǎo)致圖像細(xì)節(jié)的逐漸退化。經(jīng)過(guò)大量實(shí)驗(yàn)，研究團(tuán)隊(duì)選擇了8作為默認(rèn)值，在運(yùn)動(dòng)自然度和視覺(jué)質(zhì)量之間實(shí)現(xiàn)了最佳平衡。

八、應(yīng)用前景與實(shí)際價(jià)值

SkyReels-A2的應(yīng)用潛力就像一把萬(wàn)能鑰匙，能夠打開(kāi)多個(gè)創(chuàng)意產(chǎn)業(yè)的新大門。在音樂(lè)視頻制作領(lǐng)域，創(chuàng)作者可以選擇各種樂(lè)器，如吉他、鋼琴或小提琴，然后定義具有想象力的場(chǎng)景，生成無(wú)縫銜接的創(chuàng)意序列。當(dāng)配合音樂(lè)片段時(shí)，這種技術(shù)能夠讓音樂(lè)可視化達(dá)到前所未有的水平，為音樂(lè)人和視頻制作者提供了全新的創(chuàng)作可能。

虛擬電商是另一個(gè)充滿潛力的應(yīng)用場(chǎng)景。品牌方可以提供產(chǎn)品圖像，比如最新款的智能手機(jī)或時(shí)尚服裝，然后將知名人士或虛擬形象置于特定的營(yíng)銷場(chǎng)景中，制作出引人注目的宣傳內(nèi)容。當(dāng)這些視頻配合量身定制的旁白時(shí)，能夠有效提升消費(fèi)者的購(gòu)買意圖，為電商營(yíng)銷帶來(lái)革命性的改變。

影視制作行業(yè)也將從這項(xiàng)技術(shù)中獲得巨大收益。導(dǎo)演可以在前期制作階段快速生成概念預(yù)覽，測(cè)試不同的角色組合和場(chǎng)景設(shè)置，大大降低了試錯(cuò)成本。對(duì)于獨(dú)立制片人來(lái)說(shuō)，這意味著可以用更少的預(yù)算創(chuàng)作出高質(zhì)量的視覺(jué)內(nèi)容。

教育培訓(xùn)領(lǐng)域同樣具有廣闊的應(yīng)用前景。教師可以使用歷史人物的圖像和相關(guān)場(chǎng)景，創(chuàng)建生動(dòng)的歷史重現(xiàn)視頻，讓學(xué)生仿佛置身于歷史現(xiàn)場(chǎng)。語(yǔ)言學(xué)習(xí)應(yīng)用可以生成各種日常對(duì)話場(chǎng)景，幫助學(xué)習(xí)者在真實(shí)語(yǔ)境中練習(xí)。

社交媒體內(nèi)容創(chuàng)作將變得更加民主化。普通用戶不再需要專業(yè)的拍攝設(shè)備和后期技能，只需要幾張照片和創(chuàng)意想法，就能制作出吸引眼球的短視頻內(nèi)容。這種技術(shù)的普及可能會(huì)徹底改變社交媒體的內(nèi)容生態(tài)。

九、技術(shù)挑戰(zhàn)與未來(lái)發(fā)展

盡管SkyReels-A2取得了令人矚目的成果，但研究團(tuán)隊(duì)也清醒地認(rèn)識(shí)到當(dāng)前技術(shù)仍面臨一些挑戰(zhàn)。最主要的問(wèn)題是背景一致性的保持。在某些復(fù)雜場(chǎng)景中，系統(tǒng)可能難以完美地將多個(gè)元素融合到背景中，有時(shí)會(huì)出現(xiàn)不夠自然的合成效果。這個(gè)問(wèn)題就像拼圖游戲中最后幾塊拼圖的配合，需要更加精密的技術(shù)來(lái)解決。

另一個(gè)挑戰(zhàn)是處理極端情況下的元素沖突。當(dāng)用戶提供的參考圖像在風(fēng)格、光照條件或分辨率方面差異過(guò)大時(shí)，系統(tǒng)需要做出妥協(xié)，這可能會(huì)影響最終視頻的質(zhì)量。解決這個(gè)問(wèn)題需要更加智能的預(yù)處理和風(fēng)格統(tǒng)一技術(shù)。

計(jì)算資源的需求仍然是實(shí)際部署中的考慮因素。雖然研究團(tuán)隊(duì)已經(jīng)實(shí)現(xiàn)了顯著的優(yōu)化，但生成高質(zhì)量視頻仍需要相當(dāng)?shù)挠?jì)算能力。未來(lái)的發(fā)展方向可能包括更加高效的模型架構(gòu)和更好的壓縮技術(shù)。

倫理和版權(quán)問(wèn)題也是需要謹(jǐn)慎處理的方面。隨著技術(shù)的普及，如何防止惡意使用、保護(hù)個(gè)人肖像權(quán)和知識(shí)產(chǎn)權(quán)將成為重要議題。研究團(tuán)隊(duì)需要在技術(shù)發(fā)展的同時(shí)，建立相應(yīng)的安全機(jī)制和使用規(guī)范。

展望未來(lái)，研究團(tuán)隊(duì)計(jì)劃在幾個(gè)方向上繼續(xù)改進(jìn)。首先是提高模型對(duì)不同風(fēng)格和質(zhì)量參考圖像的適應(yīng)能力，讓系統(tǒng)能夠處理更加多樣化的輸入。其次是優(yōu)化背景融合技術(shù)，實(shí)現(xiàn)更加自然和令人信服的元素組合效果。

長(zhǎng)期來(lái)看，這項(xiàng)技術(shù)可能會(huì)與其他AI技術(shù)結(jié)合，形成更加強(qiáng)大的創(chuàng)意工具。比如與語(yǔ)音合成技術(shù)結(jié)合，創(chuàng)建完整的影視內(nèi)容；與3D建模技術(shù)結(jié)合，生成更加立體的視覺(jué)效果；與實(shí)時(shí)渲染技術(shù)結(jié)合，實(shí)現(xiàn)交互式的內(nèi)容創(chuàng)作體驗(yàn)。

十、對(duì)行業(yè)的深遠(yuǎn)影響

SkyReels-A2的出現(xiàn)標(biāo)志著視頻生成技術(shù)進(jìn)入了一個(gè)新的發(fā)展階段。它不僅僅是技術(shù)的進(jìn)步，更是創(chuàng)意表達(dá)方式的革命。這項(xiàng)技術(shù)的開(kāi)源性質(zhì)尤其重要，它打破了先進(jìn)視頻生成技術(shù)被少數(shù)商業(yè)公司壟斷的局面，為更多研究者和開(kāi)發(fā)者提供了學(xué)習(xí)和改進(jìn)的機(jī)會(huì)。

從技術(shù)演進(jìn)的角度來(lái)看，SkyReels-A2代表了從"生成式AI"向"組合式AI"的重要轉(zhuǎn)變。傳統(tǒng)的生成式AI更像是一位獨(dú)立創(chuàng)作的藝術(shù)家，完全依靠想象來(lái)創(chuàng)作；而組合式AI則更像是一位善于整合資源的導(dǎo)演，能夠?qū)F(xiàn)有元素重新組織成新的作品。這種轉(zhuǎn)變反映了AI技術(shù)從簡(jiǎn)單模仿向復(fù)雜創(chuàng)作能力的發(fā)展。

對(duì)于創(chuàng)意產(chǎn)業(yè)而言，這項(xiàng)技術(shù)的影響將是深遠(yuǎn)而持久的。它降低了高質(zhì)量視頻內(nèi)容創(chuàng)作的門檻，讓更多人能夠參與到視覺(jué)內(nèi)容的創(chuàng)作中來(lái)。同時(shí)，它也為專業(yè)創(chuàng)作者提供了強(qiáng)大的工具，讓他們能夠更加專注于創(chuàng)意構(gòu)思而非技術(shù)實(shí)現(xiàn)。

教育和培訓(xùn)行業(yè)也將受益匪淺。復(fù)雜概念的可視化解釋、歷史事件的重現(xiàn)、科學(xué)實(shí)驗(yàn)的模擬等，都可以通過(guò)這項(xiàng)技術(shù)變得更加生動(dòng)和易于理解。這對(duì)于推進(jìn)教育現(xiàn)代化和提高學(xué)習(xí)效果具有重要意義。

從社會(huì)影響的角度來(lái)看，這項(xiàng)技術(shù)的普及可能會(huì)改變?nèi)藗兿M(fèi)和創(chuàng)作視覺(jué)內(nèi)容的方式。社交媒體、廣告營(yíng)銷、娛樂(lè)產(chǎn)業(yè)都可能因此發(fā)生結(jié)構(gòu)性變化。同時(shí)，它也提出了新的挑戰(zhàn)，包括如何識(shí)別AI生成內(nèi)容、如何保護(hù)個(gè)人隱私和肖像權(quán)等問(wèn)題。

研究團(tuán)隊(duì)通過(guò)開(kāi)源這項(xiàng)技術(shù)，展現(xiàn)了負(fù)責(zé)任的創(chuàng)新態(tài)度。他們不僅提供了完整的代碼和模型權(quán)重，還建立了評(píng)估基準(zhǔn)，為后續(xù)研究奠定了基礎(chǔ)。這種開(kāi)放式的研究方式有助于加速整個(gè)領(lǐng)域的發(fā)展，也有助于建立更加透明和可信的AI技術(shù)生態(tài)。

說(shuō)到底，SkyReels-A2的真正價(jià)值不僅在于它當(dāng)前能夠?qū)崿F(xiàn)什么，更在于它為未來(lái)可能性打開(kāi)的想象空間。當(dāng)技術(shù)的界限不斷被推進(jìn)，當(dāng)創(chuàng)意的表達(dá)方式不斷豐富，我們可以期待一個(gè)更加多彩和充滿可能性的數(shù)字創(chuàng)意世界。這項(xiàng)來(lái)自天工AI的研究成果，正是通向這個(gè)未來(lái)世界的重要里程碑。

值得一提的是，這項(xiàng)技術(shù)的成功也體現(xiàn)了國(guó)內(nèi)AI研究的實(shí)力和創(chuàng)新能力。天工AI團(tuán)隊(duì)不僅在技術(shù)上實(shí)現(xiàn)了突破，更在開(kāi)源共享方面展現(xiàn)了國(guó)際視野和合作精神，為推動(dòng)全球AI技術(shù)的發(fā)展做出了重要貢獻(xiàn)。

Q&A

Q1：SkyReels-A2是什么？它和其他視頻生成AI有什么不同？ A：SkyReels-A2是天工AI開(kāi)發(fā)的視頻生成系統(tǒng)，最大特點(diǎn)是能夠?qū)⒍鄰埐幌嚓P(guān)的照片（比如人物、物品、背景）組合成一段連貫的視頻。與其他只能根據(jù)文字描述或單張圖片生成視頻的AI不同，它就像一個(gè)數(shù)字導(dǎo)演，能夠"指揮"不同的視覺(jué)元素在同一個(gè)場(chǎng)景中自然互動(dòng)。

Q2：普通人能使用SkyReels-A2嗎？需要什么技術(shù)基礎(chǔ)？ A：目前SkyReels-A2已經(jīng)開(kāi)源，代碼和模型可以通過(guò)GitHub獲取。不過(guò)使用它需要一定的編程知識(shí)和較好的硬件配置。研究團(tuán)隊(duì)正在優(yōu)化系統(tǒng)，希望未來(lái)能讓普通消費(fèi)者也能輕松使用，就像現(xiàn)在使用手機(jī)拍照一樣簡(jiǎn)單。

Q3：用SkyReels-A2生成的視頻會(huì)有版權(quán)問(wèn)題嗎？ A：這確實(shí)是需要注意的問(wèn)題。如果你使用了他人的照片（特別是人物肖像）來(lái)生成視頻，可能涉及肖像權(quán)和版權(quán)問(wèn)題。建議只使用自己拍攝的照片或獲得授權(quán)的素材。研究團(tuán)隊(duì)也意識(shí)到這個(gè)問(wèn)題，未來(lái)可能會(huì)加入相關(guān)的安全機(jī)制和使用規(guī)范。

視頻生成多模態(tài)AI開(kāi)源模型

分享至

0贊

好文章，需要你的鼓勵(lì)

推薦文章

音頻生成
大語(yǔ)言模型
多模態(tài)AI

2025-09-10 09:47

如何讓AI像電影配樂(lè)師一樣創(chuàng)作完整的長(zhǎng)篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng)，首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語(yǔ)言模型的敘事推理能力與音頻生成技術(shù)，通過(guò)交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練，能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異，為AI音頻創(chuàng)作開(kāi)辟新方向。
視頻生成
深度學(xué)習(xí)
多模態(tài)學(xué)習(xí)

2025-09-09 13:57

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動(dòng)起來(lái)不再是奢望

Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù)，通過(guò)讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息，顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問(wèn)題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量，在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型，為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
多模態(tài)AI
人類價(jià)值觀對(duì)齊
數(shù)據(jù)集構(gòu)建

2025-09-09 13:56

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說(shuō)人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價(jià)值觀對(duì)齊難題

上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究，首次系統(tǒng)性解決多模態(tài)大語(yǔ)言模型人性化對(duì)話問(wèn)題。該研究創(chuàng)建了包含20萬(wàn)高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn)，通過(guò)創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法，讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平，為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
人工智能
圖神經(jīng)網(wǎng)絡(luò)
天氣預(yù)報(bào)

2025-09-09 10:56

谷歌研究團(tuán)隊(duì)發(fā)布超級(jí)預(yù)測(cè)模型：讓AI像天氣預(yù)報(bào)員一樣預(yù)測(cè)全球大氣變化

谷歌DeepMind團(tuán)隊(duì)開(kāi)發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型，能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào)，準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù)，通過(guò)學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律，在極端天氣預(yù)測(cè)方面表現(xiàn)卓越，能耗僅為傳統(tǒng)方法的千分之一，為氣象學(xué)領(lǐng)域帶來(lái)了效率和精度的雙重突破。

如何讓AI像電影配樂(lè)師一樣創(chuàng)作完整的長(zhǎng)篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

如何讓AI像電影配樂(lè)師一樣創(chuàng)作完整的長(zhǎng)篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

2025-09-10 09:47

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動(dòng)起來(lái)不再是奢望

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動(dòng)起來(lái)不再是奢望

2025-09-09 13:57

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說(shuō)人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價(jià)值觀對(duì)齊難題

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說(shuō)人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價(jià)值觀對(duì)齊難題

2025-09-09 13:56

谷歌研究團(tuán)隊(duì)發(fā)布超級(jí)預(yù)測(cè)模型：讓AI像天氣預(yù)報(bào)員一樣預(yù)測(cè)全球大氣變化

谷歌研究團(tuán)隊(duì)發(fā)布超級(jí)預(yù)測(cè)模型：讓AI像天氣預(yù)報(bào)員一樣預(yù)測(cè)全球大氣變化

2025-09-09 10:56

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時(shí)代

京ICP證15039648號(hào) 京ICP備15039648號(hào)-9 京公網(wǎng)安備 11010802021500號(hào)

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報(bào)電話：010-62641205　涉未成年人舉報(bào)專線：010-62641208 舉報(bào)郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報(bào)專區(qū)：https://www.12377.cn

<legend id="ylur0"><track id="ylur0"></track></legend>