這項(xiàng)由Hedra公司的洪偉易(音譯)、田燁(音譯)等多位研究者共同完成的研究于2025年3月7日發(fā)布在arXiv預(yù)印本平臺(tái)上,論文編號(hào)為arXiv:2503.05978v1。研究團(tuán)隊(duì)來自Hedra公司、北京大學(xué)、香港科技大學(xué)(廣州)以及香港大學(xué)等多個(gè)機(jī)構(gòu)。有興趣深入了解的讀者可以通過https://www.hedra.com/或https://magicinfinite.github.io/查看更多演示效果和技術(shù)細(xì)節(jié)。
想象一下這樣的場(chǎng)景:你手中有一張靜態(tài)照片,無論是你朋友的自拍、歷史人物的肖像畫,甚至是動(dòng)漫角色的插圖,現(xiàn)在都能"活"過來——不僅能開口說話,還能根據(jù)你的指令做出各種表情和動(dòng)作。這聽起來像科幻電影里的情節(jié),但現(xiàn)在已經(jīng)成為現(xiàn)實(shí)。
這項(xiàng)技術(shù)的核心魅力在于它能同時(shí)接受聲音和文字兩種"指令"。聲音主要負(fù)責(zé)讓嘴唇動(dòng)作與說話內(nèi)容完美同步,而文字則控制人物的表情、動(dòng)作甚至背景變化。比如,你可以讓照片中的人物一邊說話,一邊做出開心、憤怒或者揮手的動(dòng)作,甚至改變周圍的環(huán)境——從室內(nèi)換到海邊,從白天變成夜晚。
這種技術(shù)對(duì)普通人意味著什么呢?最直接的應(yīng)用就是讓我們能夠"復(fù)活"那些珍貴的回憶。想象你能讓已故祖父的照片重新開口說話,或者讓兒時(shí)的照片講述當(dāng)年的故事。在商業(yè)領(lǐng)域,這項(xiàng)技術(shù)可以大大降低視頻制作成本——企業(yè)不再需要請(qǐng)真人演員,只需一張照片就能制作出專業(yè)的宣傳視頻。在教育領(lǐng)域,歷史課上的拿破侖、莎士比亞都能走出課本,親自為學(xué)生講解歷史。
更令人驚嘆的是,這套系統(tǒng)能夠處理各種風(fēng)格的人像——無論是真實(shí)的人物照片、卡通動(dòng)漫角色,還是雕塑作品,甚至是側(cè)臉或者背對(duì)鏡頭的人物,都能被成功"激活"。這種廣泛的適用性源于研究團(tuán)隊(duì)采用的創(chuàng)新技術(shù)架構(gòu),他們將這套系統(tǒng)比作一個(gè)智能的"數(shù)字木偶師",能夠精確控制虛擬人物的每一個(gè)細(xì)微表情和動(dòng)作。
然而,讓靜態(tài)圖像變成動(dòng)態(tài)視頻并非易事。傳統(tǒng)方法往往面臨一個(gè)核心問題:當(dāng)人物轉(zhuǎn)頭幅度較大或者面部在畫面中占比較小時(shí),嘴唇同步就會(huì)變得不準(zhǔn)確,整體效果看起來很不自然。這就像讓一個(gè)不熟練的腹語術(shù)表演者同時(shí)控制多個(gè)木偶——顧此失彼,難以做到完美協(xié)調(diào)。
研究團(tuán)隊(duì)巧妙地解決了這個(gè)難題。他們的方法可以比作培訓(xùn)一個(gè)優(yōu)秀的指揮家,這位指揮家需要同時(shí)協(xié)調(diào)樂團(tuán)中的不同樂器。在這個(gè)比喻中,文字指令就像是整體的音樂主題,負(fù)責(zé)控制"演奏"的大方向——人物的整體動(dòng)作和表情變化;而聲音則像是精確的節(jié)拍器,專門負(fù)責(zé)控制嘴唇動(dòng)作這個(gè)"精密樂器"的演奏時(shí)機(jī)。
一、技術(shù)架構(gòu):構(gòu)建智能"數(shù)字木偶師"
要理解MagicInfinite的工作原理,可以把它想象成一個(gè)極其復(fù)雜但有序的制作工廠。在這個(gè)工廠里,有三條主要的生產(chǎn)線同時(shí)運(yùn)作,最終組裝出一個(gè)會(huì)說話的動(dòng)態(tài)人像。
第一條生產(chǎn)線專門處理靜態(tài)照片。當(dāng)你輸入一張照片時(shí),系統(tǒng)會(huì)像一個(gè)細(xì)心的畫家一樣,仔細(xì)觀察照片中人物的每一個(gè)細(xì)節(jié)——面部特征、發(fā)型、服裝、背景等等。它不僅要記住這些視覺信息,還要理解它們之間的空間關(guān)系。這個(gè)過程使用了一種叫做"多模態(tài)大語言模型"的技術(shù),可以把它理解為一個(gè)既懂圖像又懂文字的智能助手,能夠?qū)?fù)雜的視覺信息轉(zhuǎn)換成計(jì)算機(jī)能夠理解和操作的數(shù)字代碼。
第二條生產(chǎn)線負(fù)責(zé)處理聲音信息。當(dāng)你提供一段音頻時(shí),系統(tǒng)會(huì)使用一種名為Wav2Vec的技術(shù)來"傾聽"和"理解"聲音。這個(gè)過程就像是一個(gè)專業(yè)的語音教練在分析發(fā)音——它不僅要識(shí)別說了什么詞,更要理解每個(gè)音節(jié)對(duì)應(yīng)的嘴型變化。比如說"啊"音時(shí)嘴巴要張大,說"嗚"音時(shí)嘴唇要收縮成圓形。這些細(xì)微的變化都會(huì)被精確記錄下來,為后續(xù)的嘴唇同步做準(zhǔn)備。
第三條生產(chǎn)線處理文字指令。這里的工作更像是一個(gè)戲劇導(dǎo)演在解讀劇本。當(dāng)你輸入"開心地?fù)]手"或者"在海邊思考"這樣的文字描述時(shí),系統(tǒng)要理解其中包含的多層含義:情感狀態(tài)(開心、思考)、具體動(dòng)作(揮手)、環(huán)境設(shè)置(海邊)等等。這些信息會(huì)被轉(zhuǎn)換成控制人物整體行為的指令。
這三條生產(chǎn)線的產(chǎn)品最終在一個(gè)叫做"去噪網(wǎng)絡(luò)"的核心車間里進(jìn)行精密組裝。這個(gè)車間采用了一種被稱為"3D全注意力機(jī)制"的先進(jìn)技術(shù)。用更通俗的話來說,這就像是擁有了一雙能夠同時(shí)看到時(shí)間和空間所有細(xì)節(jié)的"神奇眼睛"。
傳統(tǒng)的視頻生成技術(shù)往往將空間信息(畫面中的位置關(guān)系)和時(shí)間信息(前后幀之間的變化)分開處理,這就像是讓兩個(gè)人分別負(fù)責(zé)看地圖和看手表,然后再試圖協(xié)調(diào)他們的信息。這種方法容易導(dǎo)致信息丟失和不協(xié)調(diào)。而MagicInfinite的3D全注意力機(jī)制則像是給系統(tǒng)裝上了一個(gè)"時(shí)空雷達(dá)",能夠同時(shí)感知畫面中每一個(gè)像素在空間中的位置以及它在時(shí)間軸上的變化軌跡。
這種技術(shù)的優(yōu)勢(shì)在實(shí)際應(yīng)用中表現(xiàn)得非常明顯。比如,當(dāng)人物需要轉(zhuǎn)頭說話時(shí),傳統(tǒng)方法可能會(huì)出現(xiàn)嘴唇動(dòng)作與頭部轉(zhuǎn)動(dòng)不協(xié)調(diào)的問題,看起來就像是嘴巴"飄"在臉上一樣奇怪。而MagicInfinite能夠精確計(jì)算出在頭部轉(zhuǎn)動(dòng)的每一個(gè)瞬間,嘴唇應(yīng)該處于什么位置、呈現(xiàn)什么形狀,從而保證整體動(dòng)作的自然流暢。
為了處理超長(zhǎng)視頻,研究團(tuán)隊(duì)還開發(fā)了一種"滑動(dòng)窗口去噪策略"。這個(gè)技術(shù)可以比作制作一幅超長(zhǎng)卷軸畫的過程。畫家不可能同時(shí)看到整幅畫的所有細(xì)節(jié),但可以通過移動(dòng)一個(gè)"觀察窗口",每次專注于處理一小段,同時(shí)確保相鄰段落之間的銜接自然流暢。通過這種方法,MagicInfinite能夠生成理論上無限長(zhǎng)度的連貫視頻,而不會(huì)出現(xiàn)前后不一致的問題。
二、分階段學(xué)習(xí):從"學(xué)徒"到"大師"的成長(zhǎng)之路
MagicInfinite的訓(xùn)練過程就像培養(yǎng)一個(gè)多才多藝的表演者,需要循序漸進(jìn),不能操之過急。研究團(tuán)隊(duì)發(fā)現(xiàn),如果一開始就讓系統(tǒng)同時(shí)學(xué)習(xí)響應(yīng)聲音和文字指令,就會(huì)出現(xiàn)類似"貪多嚼不爛"的問題——系統(tǒng)往往會(huì)忽視聲音的控制,導(dǎo)致嘴唇同步不準(zhǔn)確。
為了解決這個(gè)問題,他們?cè)O(shè)計(jì)了一個(gè)精巧的"兩階段課程學(xué)習(xí)方案",就像是先讓學(xué)生學(xué)會(huì)走路,再教他們跑步一樣。
第一階段可以稱為"基礎(chǔ)表演訓(xùn)練"。在這個(gè)階段,系統(tǒng)只需要學(xué)習(xí)根據(jù)靜態(tài)照片和文字描述來生成動(dòng)態(tài)視頻。這就像是讓一個(gè)初學(xué)者演員先學(xué)會(huì)根據(jù)劇本做出基本的表情和動(dòng)作,暫時(shí)不用擔(dān)心臺(tái)詞的發(fā)音問題。系統(tǒng)在這個(gè)階段會(huì)建立起對(duì)人物動(dòng)作、表情變化以及場(chǎng)景轉(zhuǎn)換的基本理解能力。
經(jīng)過充分的第一階段訓(xùn)練后,系統(tǒng)進(jìn)入第二階段——"聲音同步精修訓(xùn)練"。這時(shí),聲音控制被正式引入,但不是簡(jiǎn)單粗暴地加入,而是通過一種巧妙的"面部區(qū)域引導(dǎo)機(jī)制"來實(shí)現(xiàn)精確控制。
這個(gè)機(jī)制的工作原理可以用"聚光燈效應(yīng)"來解釋。當(dāng)演員在舞臺(tái)上表演時(shí),聚光燈會(huì)照亮最重要的表演區(qū)域,讓觀眾的注意力集中在那里。MagicInfinite使用了一個(gè)類似的"數(shù)字聚光燈",專門照亮人臉區(qū)域,特別是嘴唇和周圍的肌肉。這樣,當(dāng)聲音信號(hào)輸入時(shí),系統(tǒng)就知道應(yīng)該重點(diǎn)關(guān)注這些區(qū)域的變化,而不是被整個(gè)畫面的其他變化所分散注意力。
更加精妙的是,研究團(tuán)隊(duì)還設(shè)計(jì)了一個(gè)"自適應(yīng)損失函數(shù)"。這個(gè)概念聽起來很技術(shù)性,但其實(shí)可以用"個(gè)性化教練"來理解。傳統(tǒng)的訓(xùn)練方法就像是用同一套標(biāo)準(zhǔn)來要求所有學(xué)生,但實(shí)際上,當(dāng)人臉在畫面中很小時(shí),嘴唇區(qū)域的細(xì)節(jié)就更容易被忽視;當(dāng)人臉很大時(shí),整體協(xié)調(diào)性又變得更重要。
自適應(yīng)損失函數(shù)就像是一個(gè)能夠因材施教的智能教練。當(dāng)它發(fā)現(xiàn)人臉較小時(shí),會(huì)自動(dòng)提高對(duì)嘴唇區(qū)域準(zhǔn)確性的要求,相當(dāng)于對(duì)這部分給予更多的"訓(xùn)練強(qiáng)度";當(dāng)人臉較大時(shí),則會(huì)更加注重整體的協(xié)調(diào)性。這種個(gè)性化的訓(xùn)練策略確保了無論在什么情況下,生成的視頻都能保持高質(zhì)量。
訓(xùn)練過程中還有一個(gè)重要的技術(shù)細(xì)節(jié),就是如何讓聲音控制和文字控制和諧共存。研究團(tuán)隊(duì)使用了一種"交叉注意力機(jī)制",可以把它想象成一個(gè)精密的"信號(hào)分配器"。當(dāng)系統(tǒng)接收到聲音和文字兩種指令時(shí),這個(gè)分配器會(huì)智能地決定哪些視頻區(qū)域應(yīng)該主要響應(yīng)聲音控制,哪些區(qū)域應(yīng)該主要響應(yīng)文字控制。
比如,當(dāng)文字指令要求人物"憤怒地說話"時(shí),系統(tǒng)會(huì)讓眉毛緊皺、眼神犀利來響應(yīng)"憤怒"這個(gè)文字指令,同時(shí)讓嘴唇精確地跟隨聲音信號(hào)來完成說話動(dòng)作。這種精細(xì)化的控制分工確保了最終效果既能準(zhǔn)確表達(dá)情感,又能保持完美的嘴唇同步。
整個(gè)兩階段訓(xùn)練過程使用了185萬個(gè)視頻片段作為訓(xùn)練素材,這些視頻都經(jīng)過了精心篩選和處理。研究團(tuán)隊(duì)使用了MediaPipe技術(shù)來自動(dòng)檢測(cè)和標(biāo)記人臉區(qū)域,同時(shí)過濾掉那些質(zhì)量不高的視頻,比如有多個(gè)人臉、人臉被遮擋或者內(nèi)容過于靜態(tài)的片段。所有訓(xùn)練視頻都被統(tǒng)一調(diào)整到25幀每秒的標(biāo)準(zhǔn)幀率,以確保訓(xùn)練的一致性。
三、加速推理:從"慢工出細(xì)活"到"快速響應(yīng)"
傳統(tǒng)的AI視頻生成技術(shù)有一個(gè)讓人頭疼的問題:速度太慢。就像是請(qǐng)了一位技藝精湛但動(dòng)作緩慢的工匠,雖然最終作品質(zhì)量很高,但客戶往往等得不耐煩。MagicInfinite的基礎(chǔ)版本也面臨同樣的困擾——生成一個(gè)10秒鐘的視頻可能需要幾分鐘甚至更長(zhǎng)時(shí)間,這在實(shí)際應(yīng)用中是難以接受的。
為了解決這個(gè)問題,研究團(tuán)隊(duì)開發(fā)了一套創(chuàng)新的"協(xié)同蒸餾技術(shù)"。這個(gè)技術(shù)的名字聽起來很專業(yè),但可以用"師父帶徒弟"的故事來理解。
在這個(gè)比喻中,原來的慢速系統(tǒng)是一位技藝精湛的老師父,能夠制作出完美的作品,但需要很長(zhǎng)時(shí)間。現(xiàn)在要培訓(xùn)一個(gè)年輕的徒弟,讓他能夠快速制作出質(zhì)量相近的作品。傳統(tǒng)的方法可能是讓徒弟簡(jiǎn)單模仿師父的動(dòng)作,但這往往會(huì)導(dǎo)致質(zhì)量下降。
MagicInfinite采用了一種更巧妙的方法:讓三個(gè)不同角色的"師父"同時(shí)指導(dǎo)一個(gè)"徒弟"。第一個(gè)師父負(fù)責(zé)展示"真正的好作品"應(yīng)該是什么樣子,第二個(gè)師父專門指出"劣質(zhì)作品"的問題所在,第三個(gè)師父則負(fù)責(zé)快速評(píng)估作品質(zhì)量。通過這種"三師一徒"的訓(xùn)練模式,徒弟不僅學(xué)會(huì)了快速制作,還保持了高質(zhì)量標(biāo)準(zhǔn)。
更具體地說,這個(gè)過程被稱為"DMD2分布匹配蒸餾"。系統(tǒng)中有三個(gè)模型協(xié)同工作:一個(gè)"快速生成器"(徒弟),負(fù)責(zé)實(shí)際的快速生成工作;一個(gè)"真實(shí)數(shù)據(jù)分析器"(第一個(gè)師父),負(fù)責(zé)理解什么是高質(zhì)量的結(jié)果;一個(gè)"偽數(shù)據(jù)檢測(cè)器"(第二個(gè)師父),專門識(shí)別和糾正質(zhì)量問題。
這種方法的效果相當(dāng)顯著。經(jīng)過蒸餾訓(xùn)練后,MagicInfinite的推理速度提升了20倍——原來需要50個(gè)計(jì)算步驟的工作現(xiàn)在只需要4步就能完成。這意味著生成一個(gè)10秒鐘的540x540分辨率視頻只需要10秒鐘,生成720x720分辨率的視頻也只需要30秒,這在8張H100 GPU上就能實(shí)現(xiàn)。
為了進(jìn)一步優(yōu)化系統(tǒng)效率,研究團(tuán)隊(duì)還遇到了一個(gè)實(shí)際的技術(shù)挑戰(zhàn):內(nèi)存不夠用。三個(gè)模型同時(shí)運(yùn)行需要大量的顯存,即使是高端的H100 GPU也可能吃不消。他們的解決方案很有創(chuàng)意:使用LoRA(低秩適應(yīng))技術(shù)來"減肥"。
LoRA技術(shù)可以比作給汽車換一個(gè)更輕但同樣有效的發(fā)動(dòng)機(jī)。原來的模型就像是一臺(tái)功能齊全但體積龐大的發(fā)動(dòng)機(jī),LoRA技術(shù)能夠找出其中最核心的部分,用一個(gè)小得多但效果相當(dāng)?shù)?精簡(jiǎn)版發(fā)動(dòng)機(jī)"來替代。這樣既保持了性能,又大大減少了內(nèi)存占用。
在速度優(yōu)化的過程中,研究團(tuán)隊(duì)還發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:直接應(yīng)用現(xiàn)有的加速技術(shù)會(huì)導(dǎo)致視頻質(zhì)量明顯下降,特別是會(huì)出現(xiàn)嚴(yán)重的模糊問題。這就像是讓一個(gè)習(xí)慣了精雕細(xì)琢的工匠突然加快工作速度,結(jié)果往往是質(zhì)量大打折扣。
為了解決這個(gè)問題,他們采用了"漸進(jìn)式訓(xùn)練策略"。這個(gè)過程可以比作讓運(yùn)動(dòng)員逐漸適應(yīng)更高的訓(xùn)練強(qiáng)度。開始時(shí),系統(tǒng)仍然按照原來的標(biāo)準(zhǔn)要求進(jìn)行訓(xùn)練,然后逐漸增加快速生成的比重,讓系統(tǒng)慢慢適應(yīng)新的工作節(jié)奏。同時(shí),他們還設(shè)計(jì)了一個(gè)動(dòng)態(tài)的"難度調(diào)節(jié)器",根據(jù)不同的訓(xùn)練階段自動(dòng)調(diào)整質(zhì)量要求和速度要求之間的平衡。
另一個(gè)重要的創(chuàng)新是"分級(jí)CFG(無分類器引導(dǎo))策略"。CFG技術(shù)本身可以理解為給系統(tǒng)配備了一個(gè)"質(zhì)量監(jiān)督員",它會(huì)對(duì)生成結(jié)果進(jìn)行評(píng)估和調(diào)整。但傳統(tǒng)的CFG方法是"一刀切"的,就像是用同一套標(biāo)準(zhǔn)來要求所有情況。
MagicInfinite的分級(jí)CFG更像是一個(gè)"智能監(jiān)督員",能夠根據(jù)不同情況采用不同的監(jiān)督策略。比如,在處理音頻控制時(shí)采用兩倍強(qiáng)度的監(jiān)督,在處理文字控制時(shí)采用三倍強(qiáng)度的監(jiān)督。這種差異化的監(jiān)督策略不僅提高了最終質(zhì)量,還進(jìn)一步優(yōu)化了處理速度。
四、長(zhǎng)視頻生成:無限延展的數(shù)字記憶
傳統(tǒng)的AI視頻生成技術(shù)面臨一個(gè)根本性的限制:無法生成真正的長(zhǎng)視頻。大多數(shù)系統(tǒng)只能生成幾秒到十幾秒的短片段,要制作更長(zhǎng)的視頻就需要將多個(gè)片段拼接起來,但這樣往往會(huì)在接縫處出現(xiàn)不自然的跳躍,就像是一部電影被強(qiáng)行剪斷后重新粘貼,觀眾很容易察覺到不連貫的地方。
MagicInfinite通過一種被稱為"滑動(dòng)窗口去噪"的技術(shù)完美解決了這個(gè)問題。這個(gè)技術(shù)的工作原理可以用制作一幅超長(zhǎng)卷軸畫來類比。
想象一位畫家要?jiǎng)?chuàng)作一幅描述完整故事的長(zhǎng)卷軸畫,比如《清明上河圖》這樣的作品。畫家不可能同時(shí)看到整個(gè)畫布的所有細(xì)節(jié),也不可能一次性完成整幅作品。相反,畫家會(huì)使用一個(gè)固定大小的"觀察窗口",每次專注于繪制一小段內(nèi)容,然后將這個(gè)窗口向前移動(dòng),繼續(xù)繪制下一段。
關(guān)鍵的技巧在于,每次移動(dòng)窗口時(shí),都要保證新繪制的部分與已完成的部分完美銜接。畫家會(huì)讓新舊部分有一定的重疊區(qū)域,在這個(gè)重疊區(qū)域內(nèi)進(jìn)行精細(xì)的融合處理,確保整體畫面的連貫性。
MagicInfinite的滑動(dòng)窗口技術(shù)正是采用了類似的策略。系統(tǒng)每次處理33幀的視頻片段(約1.3秒的內(nèi)容),但相鄰的片段之間會(huì)有一定數(shù)量的重疊幀。在這些重疊區(qū)域,系統(tǒng)會(huì)使用一種智能的"加權(quán)融合算法"來確保前后片段的完美過渡。
這個(gè)融合算法相當(dāng)精妙。它不是簡(jiǎn)單地將兩個(gè)片段的重疊部分進(jìn)行平均,而是根據(jù)每一幀在其所屬片段中的位置來決定融合權(quán)重。比如,對(duì)于一個(gè)重疊區(qū)域中的某一幀,如果它在前一個(gè)片段中處于靠后的位置,那么前一個(gè)片段對(duì)這一幀的"發(fā)言權(quán)"就會(huì)更大;如果它在后一個(gè)片段中處于靠前的位置,那么后一個(gè)片段的影響就會(huì)更強(qiáng)。
這種動(dòng)態(tài)權(quán)重分配的公式是:前一片段權(quán)重 = (重疊寬度 - 1 - 當(dāng)前位置) / (重疊寬度 - 2),后一片段權(quán)重 = 1 - 前一片段權(quán)重。通過這種精確的數(shù)學(xué)計(jì)算,系統(tǒng)能夠?qū)崿F(xiàn)真正自然的過渡效果。
滑動(dòng)窗口技術(shù)的另一個(gè)重要優(yōu)勢(shì)是內(nèi)存效率。傳統(tǒng)方法要生成長(zhǎng)視頻需要同時(shí)在內(nèi)存中保存整個(gè)視頻序列,這對(duì)硬件要求極高。而滑動(dòng)窗口方法每次只需要處理一小段內(nèi)容,大大降低了內(nèi)存需求,使得在相對(duì)有限的硬件條件下生成超長(zhǎng)視頻成為可能。
為了進(jìn)一步提升長(zhǎng)視頻生成的效率,研究團(tuán)隊(duì)還實(shí)現(xiàn)了"序列并行計(jì)算"技術(shù)。這個(gè)技術(shù)可以比作組織一個(gè)制作流水線,讓多個(gè)工人同時(shí)處理不同的片段,而不是讓一個(gè)工人從頭到尾完成所有工作。
具體來說,當(dāng)需要生成一個(gè)很長(zhǎng)的視頻時(shí),系統(tǒng)會(huì)將整個(gè)任務(wù)分解成多個(gè)可以并行處理的子任務(wù),然后分配給不同的GPU同時(shí)進(jìn)行計(jì)算。由于采用了前面提到的滑動(dòng)窗口融合技術(shù),這些并行處理的片段最終能夠無縫拼接成一個(gè)連貫的長(zhǎng)視頻。
通過這種并行計(jì)算優(yōu)化,MagicInfinite能夠在8張H100 GPU上用60秒的時(shí)間生成一個(gè)60秒長(zhǎng)度的540x540分辨率動(dòng)畫視頻。這意味著系統(tǒng)幾乎達(dá)到了"實(shí)時(shí)生成"的水平,這在AI視頻生成領(lǐng)域是一個(gè)重大突破。
長(zhǎng)視頻生成技術(shù)的應(yīng)用前景非常廣闊。在教育領(lǐng)域,教師可以讓歷史人物進(jìn)行完整的演講或講座;在娛樂行業(yè),可以制作完整的虛擬主播節(jié)目;在商業(yè)應(yīng)用中,可以生成長(zhǎng)篇的產(chǎn)品介紹或培訓(xùn)視頻。更重要的是,由于整個(gè)過程保持了角色的一致性和動(dòng)作的連貫性,觀眾不會(huì)感受到任何不自然的跳躍或變化。
五、適應(yīng)性與通用性:一套系統(tǒng)應(yīng)對(duì)千變?nèi)f化
MagicInfinite最令人印象深刻的特點(diǎn)之一是它的廣泛適應(yīng)性。與許多只能處理特定類型圖像的系統(tǒng)不同,MagicInfinite就像是一個(gè)全能的"數(shù)字演員",能夠勝任各種不同風(fēng)格和場(chǎng)景的表演。
這種適應(yīng)性首先體現(xiàn)在對(duì)不同圖像風(fēng)格的支持上。無論是真實(shí)的人物照片、卡通動(dòng)漫角色、藝術(shù)作品中的人物,甚至是雕塑或繪畫作品,MagicInfinite都能成功地讓它們"動(dòng)"起來。這就像是一個(gè)優(yōu)秀的配音演員,無論面對(duì)什么類型的角色都能找到合適的表演方式。
傳統(tǒng)的人像動(dòng)畫技術(shù)往往嚴(yán)重依賴于人臉的正面視角,當(dāng)人物側(cè)臉或背對(duì)鏡頭時(shí)就會(huì)出現(xiàn)問題。但MagicInfinite突破了這個(gè)限制,它能夠處理各種角度的人物姿態(tài)。這得益于其3D全注意力機(jī)制,這個(gè)機(jī)制能夠理解人臉的三維結(jié)構(gòu),即使只能看到側(cè)面或背面,也能推斷出完整的頭部形狀和可能的面部特征。
更加令人驚嘆的是系統(tǒng)對(duì)多角色場(chǎng)景的支持能力。在現(xiàn)實(shí)應(yīng)用中,我們經(jīng)常需要處理包含多個(gè)人物的場(chǎng)景,比如合影照片或者群體討論的畫面。MagicInfinite通過引入"輸入掩碼"技術(shù)來解決這個(gè)挑戰(zhàn)。
輸入掩碼技術(shù)可以理解為給系統(tǒng)配備了一個(gè)"智能指揮棒"。當(dāng)面對(duì)一張包含多個(gè)人物的照片時(shí),用戶可以通過掩碼來指定哪個(gè)人物應(yīng)該說話,哪些人物應(yīng)該保持靜默或做出特定反應(yīng)。這就像是在指揮一個(gè)虛擬的合唱團(tuán),指揮家可以精確控制每個(gè)成員的表現(xiàn)。
比如,在一張三人合影中,用戶可以指定左邊的人物根據(jù)提供的音頻說話,中間的人物保持微笑的傾聽狀態(tài),右邊的人物做出點(diǎn)頭贊同的動(dòng)作。這種精細(xì)化的控制能力使得MagicInfinite能夠創(chuàng)造出非常豐富和自然的互動(dòng)場(chǎng)景。
系統(tǒng)的通用性還體現(xiàn)在對(duì)不同語言和說話風(fēng)格的適應(yīng)上。研究團(tuán)隊(duì)在訓(xùn)練數(shù)據(jù)中包含了多種語言的說話場(chǎng)景,包括正常對(duì)話、演講、歌唱甚至說唱等不同風(fēng)格。這意味著無論用戶輸入什么類型的音頻,系統(tǒng)都能找到合適的"表演風(fēng)格"來匹配。
當(dāng)處理歌唱音頻時(shí),系統(tǒng)會(huì)讓人物的嘴型變化更加夸張和富有節(jié)奏感;處理演講音頻時(shí),會(huì)讓表情更加莊重和專注;處理日常對(duì)話時(shí),則會(huì)呈現(xiàn)更加輕松自然的狀態(tài)。這種自動(dòng)的風(fēng)格適應(yīng)能力讓生成的視頻看起來更加真實(shí)和符合情境。
背景環(huán)境的處理也展現(xiàn)了系統(tǒng)的強(qiáng)大適應(yīng)性。MagicInfinite不僅能夠保持原始照片的背景不變,還能根據(jù)文字指令對(duì)背景進(jìn)行修改。比如,可以將室內(nèi)場(chǎng)景變成戶外海灘,讓靜態(tài)的背景元素(如樹葉、波浪)產(chǎn)生動(dòng)態(tài)效果,甚至改變整體的光照和氛圍。
這種背景處理能力的實(shí)現(xiàn)依賴于系統(tǒng)對(duì)場(chǎng)景的深度理解。系統(tǒng)不是簡(jiǎn)單地替換背景,而是能夠理解人物與環(huán)境之間的關(guān)系,確保光照、陰影、反射等細(xì)節(jié)的一致性。這樣生成的視頻看起來就像是人物真的置身于新環(huán)境中一樣自然。
為了驗(yàn)證系統(tǒng)的適應(yīng)性,研究團(tuán)隊(duì)創(chuàng)建了一個(gè)專門的測(cè)試基準(zhǔn)——MagicInfinite-Benchmark。這個(gè)基準(zhǔn)包含了30張不同風(fēng)格的人像圖片,涵蓋了各種年齡段(從兒童到老人)、不同藝術(shù)風(fēng)格(真實(shí)照片、動(dòng)漫、雕塑等)、多種姿態(tài)角度(正面、側(cè)面、背面)以及各種背景環(huán)境(室內(nèi)、戶外、抽象背景等)。
同時(shí),基準(zhǔn)還包括20段不同類型的音頻(演講、對(duì)話、歌唱、說唱等)和20個(gè)文字提示(涵蓋各種情感和動(dòng)作描述)。通過這些多樣化的測(cè)試組合,研究團(tuán)隊(duì)驗(yàn)證了MagicInfinite在各種真實(shí)應(yīng)用場(chǎng)景中的表現(xiàn)都非常出色。
六、性能評(píng)估:科學(xué)驗(yàn)證與用戶體驗(yàn)
為了客觀評(píng)估MagicInfinite的性能表現(xiàn),研究團(tuán)隊(duì)進(jìn)行了全面而嚴(yán)格的測(cè)試。這個(gè)過程就像是為一位新演員安排試鏡,需要從多個(gè)角度驗(yàn)證其專業(yè)能力。
首先是技術(shù)指標(biāo)的量化評(píng)估。研究團(tuán)隊(duì)使用了業(yè)界公認(rèn)的幾項(xiàng)標(biāo)準(zhǔn)指標(biāo)來衡量系統(tǒng)性能。FID(Fréchet Inception Distance)用來評(píng)估生成圖像的整體質(zhì)量,可以理解為衡量生成圖像與真實(shí)圖像的"相似度打分";FVD(Fréchet Video Distance)專門用于評(píng)估視頻質(zhì)量,特別關(guān)注時(shí)間連貫性;Sync-C和Sync-D則專門測(cè)量嘴唇同步的準(zhǔn)確性,這是說話視頻最關(guān)鍵的指標(biāo)。
測(cè)試數(shù)據(jù)來源于兩個(gè)部分:公開的HDTF數(shù)據(jù)集和研究團(tuán)隊(duì)內(nèi)部收集的高質(zhì)量數(shù)據(jù)。測(cè)試方法是使用視頻的第一幀作為靜態(tài)輸入圖像,然后讓系統(tǒng)根據(jù)音頻重新生成整個(gè)視頻,最后將生成結(jié)果與原始視頻進(jìn)行對(duì)比。
測(cè)試結(jié)果顯示了MagicInfinite的顯著優(yōu)勢(shì)。在HDTF數(shù)據(jù)集上,MagicInfinite的Sync-C得分達(dá)到7.2777,明顯高于SadTalker的6.7526和Hallo3的6.7997;Sync-D得分為7.9670,也優(yōu)于對(duì)比方法。在內(nèi)部數(shù)據(jù)集上,優(yōu)勢(shì)更加明顯:Sync-C得分6.6943,Sync-D得分8.4012,都顯著優(yōu)于其他方法。
這些數(shù)字背后反映的是實(shí)際使用體驗(yàn)的差異。Sync-C得分的提升意味著生成視頻中的嘴唇動(dòng)作與音頻內(nèi)容更加匹配,觀眾能夠更清楚地"讀"出人物在說什么;Sync-D得分的改善則表示嘴唇動(dòng)作的時(shí)間精度更高,沒有明顯的延遲或提前。
除了技術(shù)指標(biāo),研究團(tuán)隊(duì)還進(jìn)行了大規(guī)模的用戶研究。他們邀請(qǐng)了30名來自世界不同地區(qū)的參與者,讓他們觀看由MagicInfinite、SadTalker和Hallo3生成的視頻,然后回答五個(gè)關(guān)鍵問題:哪個(gè)視頻的嘴唇同步最好?哪個(gè)視頻中的人物最像原始照片?哪個(gè)視頻看起來最流暢?哪個(gè)視頻的人物動(dòng)作最自然?哪個(gè)視頻的場(chǎng)景變化最真實(shí)?
結(jié)果非常令人鼓舞:在收集到的150份回答中,有137份(91.33%)認(rèn)為MagicInfinite在綜合表現(xiàn)上優(yōu)于其他兩種方法。這個(gè)壓倒性的優(yōu)勢(shì)說明了MagicInfinite不僅在技術(shù)指標(biāo)上更優(yōu)秀,在實(shí)際用戶體驗(yàn)上也確實(shí)更勝一籌。
特別值得一提的是加速版本的性能表現(xiàn)。經(jīng)過模型蒸餾優(yōu)化后,MagicInfinite的推理速度提升了20倍,但質(zhì)量幾乎沒有損失。這意味著用戶能夠以極快的速度獲得高質(zhì)量的結(jié)果,大大提升了實(shí)用性。在實(shí)際測(cè)試中,生成一個(gè)10秒的540x540分辨率視頻只需要10秒鐘,生成720x720分辨率的視頻也只需要30秒,這種速度在AI視頻生成領(lǐng)域是前所未有的。
為了展示系統(tǒng)的魯棒性,研究團(tuán)隊(duì)還測(cè)試了各種極端情況。比如,使用非常模糊的輸入圖像、處理極端的光照條件、應(yīng)對(duì)非??焖俚恼f話語音等。在這些挑戰(zhàn)性場(chǎng)景中,MagicInfinite仍然能夠保持相當(dāng)不錯(cuò)的表現(xiàn),顯示出其技術(shù)架構(gòu)的穩(wěn)定性和可靠性。
跨語言測(cè)試也是評(píng)估的重要部分。研究團(tuán)隊(duì)使用了英語、中文、日語、西班牙語等多種語言的音頻進(jìn)行測(cè)試,發(fā)現(xiàn)MagicInfinite能夠很好地適應(yīng)不同語言的發(fā)音特點(diǎn)。這種語言無關(guān)性使得系統(tǒng)具有廣泛的國(guó)際應(yīng)用前景。
七、實(shí)際應(yīng)用與未來展望
MagicInfinite的技術(shù)突破為眾多行業(yè)和應(yīng)用場(chǎng)景打開了新的可能性。這項(xiàng)技術(shù)就像是一把萬能鑰匙,能夠解鎖許多以前難以實(shí)現(xiàn)的創(chuàng)意想法。
在娛樂產(chǎn)業(yè)中,MagicInfinite可以徹底改變內(nèi)容創(chuàng)作的方式。電影制作人可以讓已故的經(jīng)典演員重新"出演"新作品,或者在預(yù)算有限的情況下創(chuàng)造出大量虛擬角色。動(dòng)畫工作室可以大大縮短角色動(dòng)畫的制作時(shí)間,只需要提供角色設(shè)計(jì)圖和配音,就能快速生成完整的動(dòng)畫序列。
游戲行業(yè)也將從中獲益良多。傳統(tǒng)的游戲角色對(duì)話系統(tǒng)通常只能顯示文字,或者需要大量的預(yù)錄音頻和動(dòng)畫資源。有了MagicInfinite,游戲開發(fā)者可以讓NPC(非玩家角色)根據(jù)動(dòng)態(tài)生成的對(duì)話內(nèi)容進(jìn)行說話表演,創(chuàng)造出更加沉浸式的游戲體驗(yàn)。
教育領(lǐng)域的應(yīng)用前景同樣令人興奮。歷史課上,拿破侖可以親自講述滑鐵盧戰(zhàn)役;文學(xué)課上,莎士比亞可以朗誦自己的十四行詩;科學(xué)課上,愛因斯坦可以解釋相對(duì)論的奧秘。這種"時(shí)空穿越"般的教學(xué)體驗(yàn)將大大提升學(xué)生的學(xué)習(xí)興趣和理解深度。
在商業(yè)應(yīng)用方面,MagicInfinite可以幫助企業(yè)大幅降低視頻營(yíng)銷的成本。傳統(tǒng)的廣告拍攝需要雇傭演員、布置場(chǎng)景、后期制作等多個(gè)環(huán)節(jié),成本高昂且耗時(shí)較長(zhǎng)?,F(xiàn)在,企業(yè)只需要提供一張產(chǎn)品代言人的照片和廣告文案,就能快速生成專業(yè)水準(zhǔn)的宣傳視頻。
客服行業(yè)也將迎來變革。傳統(tǒng)的文字客服或語音客服缺乏視覺互動(dòng),用戶體驗(yàn)相對(duì)較差。通過MagicInfinite技術(shù),企業(yè)可以創(chuàng)建虛擬客服代表,不僅能夠語音交流,還能通過面部表情和手勢(shì)來增強(qiáng)溝通效果,提供更加人性化的服務(wù)體驗(yàn)。
在個(gè)人應(yīng)用方面,MagicInfinite為普通用戶提供了前所未有的創(chuàng)意表達(dá)工具。人們可以讓家庭照片中的親人重新"說話",創(chuàng)造珍貴的數(shù)字回憶;可以將自己的照片制作成個(gè)性化的祝福視頻發(fā)送給朋友;甚至可以創(chuàng)建虛擬的個(gè)人代表,在社交媒體上發(fā)布內(nèi)容。
然而,這項(xiàng)技術(shù)的發(fā)展也帶來了一些需要認(rèn)真思考的問題。最主要的擔(dān)憂是技術(shù)被惡意使用的可能性,比如制作虛假的政治演講或者進(jìn)行身份欺詐。研究團(tuán)隊(duì)意識(shí)到了這些風(fēng)險(xiǎn),正在探索技術(shù)檢測(cè)手段和使用規(guī)范,希望在促進(jìn)技術(shù)創(chuàng)新的同時(shí)確保其負(fù)責(zé)任的使用。
從技術(shù)發(fā)展的角度來看,MagicInfinite還有很大的改進(jìn)空間。當(dāng)前版本主要關(guān)注面部動(dòng)畫,未來可能會(huì)擴(kuò)展到全身動(dòng)作的生成;現(xiàn)在的系統(tǒng)主要處理單人場(chǎng)景,未來可能會(huì)更好地支持復(fù)雜的多人互動(dòng)場(chǎng)景;當(dāng)前的背景變化能力還相對(duì)有限,未來可能會(huì)實(shí)現(xiàn)更加復(fù)雜和真實(shí)的環(huán)境模擬。
研究團(tuán)隊(duì)也在探索與其他AI技術(shù)的結(jié)合可能性。比如,與大語言模型結(jié)合可以實(shí)現(xiàn)更加智能的對(duì)話生成;與3D建模技術(shù)結(jié)合可以創(chuàng)造更加立體和真實(shí)的角色;與增強(qiáng)現(xiàn)實(shí)技術(shù)結(jié)合可以讓虛擬角色出現(xiàn)在真實(shí)環(huán)境中。
從產(chǎn)業(yè)發(fā)展的角度看,MagicInfinite代表了AI視頻生成技術(shù)的一個(gè)重要里程碑。它不僅在技術(shù)上實(shí)現(xiàn)了多項(xiàng)突破,更重要的是證明了AI可以在創(chuàng)意產(chǎn)業(yè)中發(fā)揮重要作用,為人類的創(chuàng)造力插上數(shù)字化的翅膀。
說到底,MagicInfinite的真正價(jià)值不僅僅在于它能讓靜態(tài)圖片"說話",更在于它為我們打開了一扇通往未來數(shù)字世界的大門。在這個(gè)世界里,創(chuàng)意的邊界不再受技術(shù)限制,每個(gè)人都可以成為內(nèi)容創(chuàng)作者,每張照片都可能講述一個(gè)動(dòng)人的故事。隨著技術(shù)的不斷完善和普及,我們有理由相信,這種"魔法"將逐漸走進(jìn)千家萬戶,成為我們?nèi)粘I钪胁豢苫蛉钡囊徊糠帧?/p>
當(dāng)然,就像所有強(qiáng)大的技術(shù)一樣,如何善用這種"魔法"將考驗(yàn)我們的智慧。我們需要在享受技術(shù)帶來的便利和創(chuàng)意可能的同時(shí),也要思考如何建立相應(yīng)的規(guī)范和標(biāo)準(zhǔn),確保這項(xiàng)技術(shù)能夠真正造福人類社會(huì)。有興趣深入了解這項(xiàng)技術(shù)的讀者,可以訪問研究團(tuán)隊(duì)提供的網(wǎng)站https://www.hedra.com/和https://magicinfinite.github.io/,獲取更多詳細(xì)信息和演示案例。
Q&A Q1:MagicInfinite能處理什么類型的圖片? A:MagicInfinite的適應(yīng)性非常廣泛,可以處理真實(shí)人物照片、動(dòng)漫角色、藝術(shù)作品、雕塑等各種風(fēng)格的人像圖片。無論是正面、側(cè)面還是背對(duì)鏡頭的人物,甚至是多人合影,系統(tǒng)都能成功讓它們"動(dòng)"起來。這種廣泛的兼容性使其適用于各種創(chuàng)意場(chǎng)景。
Q2:生成的視頻質(zhì)量如何?速度快嗎? A:經(jīng)過優(yōu)化后的MagicInfinite在保持高質(zhì)量的同時(shí)大幅提升了生成速度。系統(tǒng)可以在10秒內(nèi)生成10秒長(zhǎng)度的540x540分辨率視頻,30秒內(nèi)生成720x720分辨率視頻。在用戶測(cè)試中,91.33%的參與者認(rèn)為MagicInfinite的綜合表現(xiàn)優(yōu)于其他同類技術(shù),特別是在嘴唇同步準(zhǔn)確性和動(dòng)作自然度方面表現(xiàn)突出。
Q3:這項(xiàng)技術(shù)會(huì)不會(huì)被惡意使用?有什么防范措施嗎? A:研究團(tuán)隊(duì)確實(shí)意識(shí)到了技術(shù)被惡意使用的風(fēng)險(xiǎn),比如制作虛假政治演講或身份欺詐。目前他們正在探索相應(yīng)的技術(shù)檢測(cè)手段和使用規(guī)范,希望在推動(dòng)技術(shù)創(chuàng)新的同時(shí)確保其負(fù)責(zé)任的使用。隨著技術(shù)的普及,建立相應(yīng)的監(jiān)管機(jī)制和道德標(biāo)準(zhǔn)將是整個(gè)行業(yè)需要共同面對(duì)的重要課題。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對(duì)話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。