av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁(yè) Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM:讓AI生成的視頻動(dòng)起來(lái)不再是奢望

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM:讓AI生成的視頻動(dòng)起來(lái)不再是奢望

2025-09-09 13:57
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-09-09 13:57 ? 科技行者

這項(xiàng)由Meta GenAI團(tuán)隊(duì)的希拉·切弗(Hila Chefer)與特拉維夫大學(xué)的科研人員共同完成的研究,發(fā)表在2025年第42屆國(guó)際機(jī)器學(xué)習(xí)大會(huì)(ICML 2025)上。有興趣深入了解的讀者可以通過(guò)論文官網(wǎng) https://hila-chefer.github.io/videojam-paper.github.io/ 訪問(wèn)完整論文和演示效果。

過(guò)去幾年,AI生成視頻的技術(shù)突飛猛進(jìn),從模糊不清的幾秒鐘片段發(fā)展到能夠生成相當(dāng)逼真的視頻內(nèi)容。然而,任何嘗試過(guò)這些工具的人都會(huì)發(fā)現(xiàn)一個(gè)讓人頭疼的問(wèn)題:生成的視頻看起來(lái)確實(shí)很漂亮,畫面質(zhì)量也越來(lái)越好,但里面的人物和物體經(jīng)常做出一些違反常理的動(dòng)作。

比如,當(dāng)你讓AI生成一個(gè)"慢跑者"的視頻時(shí),畫面中的人可能會(huì)反復(fù)踩在同一條腿上,完全違背了人類跑步的基本動(dòng)作模式?;蛘咦孉I生成一個(gè)體操運(yùn)動(dòng)員做側(cè)手翻的視頻,結(jié)果人物可能會(huì)突然長(zhǎng)出額外的手臂,或者身體出現(xiàn)奇怪的扭曲變形。更令人哭笑不得的是,當(dāng)AI試圖生成一個(gè)女性轉(zhuǎn)呼啦圈的視頻時(shí),呼啦圈可能會(huì)直接穿過(guò)人的身體,完全無(wú)視物理定律。

這種現(xiàn)象不僅僅出現(xiàn)在復(fù)雜動(dòng)作上。即使是最基本的動(dòng)作,比如簡(jiǎn)單的慢跑,AI也經(jīng)常搞砸。更令研究者困惑的是,這些基本動(dòng)作在訓(xùn)練數(shù)據(jù)中應(yīng)該是非常常見的,按理說(shuō)AI應(yīng)該能夠很好地學(xué)會(huì)才對(duì)。這說(shuō)明問(wèn)題的根源可能不在于數(shù)據(jù)量的多少,而在于AI學(xué)習(xí)方式的某些根本性缺陷。

Meta和特拉維夫大學(xué)的研究團(tuán)隊(duì)深入研究了這個(gè)問(wèn)題,他們發(fā)現(xiàn)了一個(gè)關(guān)鍵洞察:現(xiàn)有的視頻生成模型就像一個(gè)只關(guān)注"顏值"而忽視"內(nèi)在"的攝影師。這些模型在訓(xùn)練過(guò)程中主要關(guān)注如何讓每一幀畫面看起來(lái)更漂亮、更逼真,卻沒(méi)有足夠重視幀與幀之間的運(yùn)動(dòng)連貫性和物理合理性。

為了解決這個(gè)問(wèn)題,研究團(tuán)隊(duì)開發(fā)了一個(gè)名為VideoJAM的創(chuàng)新框架。這個(gè)名稱來(lái)自"Joint Appearance-Motion"的縮寫,意思是"聯(lián)合外觀-運(yùn)動(dòng)"表示學(xué)習(xí)。簡(jiǎn)單來(lái)說(shuō),VideoJAM就像給AI配了一副特殊的眼鏡,讓它不僅能看到畫面的外觀,還能"看到"物體的運(yùn)動(dòng)軌跡和動(dòng)作規(guī)律。

VideoJAM的核心創(chuàng)新在于讓AI同時(shí)學(xué)習(xí)兩種信息:一是傳統(tǒng)的視覺(jué)外觀信息(物體長(zhǎng)什么樣),二是專門的運(yùn)動(dòng)信息(物體如何移動(dòng))。就好比教一個(gè)人跳舞時(shí),不僅要讓他看到舞蹈動(dòng)作的靜態(tài)造型,還要讓他理解音樂(lè)的節(jié)拍和身體的流動(dòng)性。

研究團(tuán)隊(duì)的實(shí)驗(yàn)結(jié)果令人印象深刻。在多項(xiàng)測(cè)試中,使用VideoJAM技術(shù)的AI模型在運(yùn)動(dòng)連貫性方面大幅超越了之前的最先進(jìn)模型,甚至在某些指標(biāo)上超過(guò)了一些商業(yè)化的專有模型,比如Sora和Kling等。更重要的是,這種改進(jìn)不僅提升了動(dòng)作的合理性,連帶著也讓整體的視覺(jué)質(zhì)量有所提升,證明了運(yùn)動(dòng)和外觀其實(shí)是相互促進(jìn)的,而不是互相沖突的。

這項(xiàng)研究的另一個(gè)亮點(diǎn)是其通用性和實(shí)用性。VideoJAM不需要對(duì)現(xiàn)有模型進(jìn)行大規(guī)模改造,只需要添加兩個(gè)簡(jiǎn)單的線性層就能顯著提升效果。這意味著各種現(xiàn)有的視頻生成模型都可以相對(duì)容易地集成這項(xiàng)技術(shù),而不需要從頭開始重新訓(xùn)練。

一、問(wèn)題的根源:當(dāng)AI只會(huì)"看臉"不會(huì)"看動(dòng)作"

要理解VideoJAM解決的問(wèn)題,我們需要先搞清楚為什么現(xiàn)有的AI視頻生成模型會(huì)在動(dòng)作方面表現(xiàn)得如此糟糕。

研究團(tuán)隊(duì)進(jìn)行了一個(gè)非常有趣的實(shí)驗(yàn)來(lái)揭示問(wèn)題的本質(zhì)。他們故意把一些訓(xùn)練視頻的幀序列打亂,把原本連貫的動(dòng)作視頻變成時(shí)間順序完全混亂的片段,然后觀察AI模型的反應(yīng)。按照常理,如果AI真的理解動(dòng)作和時(shí)間順序,那么面對(duì)這些被打亂的視頻,它應(yīng)該能察覺(jué)到異常并表現(xiàn)出更高的錯(cuò)誤率。

然而實(shí)驗(yàn)結(jié)果令人震驚:在生成過(guò)程的前60個(gè)步驟中,AI模型對(duì)于視頻幀序列是否被打亂幾乎毫無(wú)感知。換句話說(shuō),AI無(wú)法區(qū)分一個(gè)正常的跑步視頻和一個(gè)幀序列被隨機(jī)打亂的"偽跑步視頻"。這就好比一個(gè)人完全分不清正常播放的電影和被剪輯師惡意打亂順序的電影片段。

進(jìn)一步的分析顯示,這前60個(gè)生成步驟恰恰是決定視頻整體運(yùn)動(dòng)結(jié)構(gòu)的關(guān)鍵階段。在這個(gè)階段,AI應(yīng)該確定物體如何移動(dòng)、遵循什么樣的運(yùn)動(dòng)軌跡。但現(xiàn)有模型在這個(gè)最關(guān)鍵的時(shí)期對(duì)運(yùn)動(dòng)信息幾乎"視而不見",只專注于讓每一幀畫面看起來(lái)漂亮。

這種現(xiàn)象的根本原因在于傳統(tǒng)訓(xùn)練方法的局限性?,F(xiàn)有的視頻生成模型采用基于像素重建的訓(xùn)練目標(biāo),簡(jiǎn)單來(lái)說(shuō)就是讓AI努力生成與真實(shí)視頻在像素層面盡可能相似的畫面。這種方法天然地偏向于優(yōu)化視覺(jué)外觀,因?yàn)轭伾?、紋理、光照等外觀特征在像素層面的貢獻(xiàn)最為明顯。

相比之下,運(yùn)動(dòng)信息對(duì)像素層面差異的貢獻(xiàn)相對(duì)較小。一個(gè)人是向前跑還是原地踏步,在單幀畫面上可能差別不大,但在運(yùn)動(dòng)連貫性上卻是天壤之別。傳統(tǒng)的訓(xùn)練方法很難捕捉到這種跨幀的運(yùn)動(dòng)模式,因此AI學(xué)會(huì)了如何讓畫面好看,卻沒(méi)有學(xué)會(huì)如何讓動(dòng)作合理。

為了驗(yàn)證這個(gè)理論,研究團(tuán)隊(duì)還進(jìn)行了一個(gè)補(bǔ)充實(shí)驗(yàn)。他們選擇了不同的生成時(shí)間點(diǎn)來(lái)觀察AI的行為。結(jié)果發(fā)現(xiàn),在生成的早期階段(前20步),AI對(duì)幀序列混亂非常敏感,因?yàn)檫@時(shí)候還在確定整體的畫面布局。在生成的后期階段(80步之后),AI同樣對(duì)混亂很敏感,因?yàn)檫@時(shí)候在精修細(xì)節(jié)。但在中間的關(guān)鍵階段(20-60步),AI對(duì)運(yùn)動(dòng)的混亂程度幾乎無(wú)感,這正是運(yùn)動(dòng)連貫性應(yīng)該被確定的關(guān)鍵時(shí)期。

這個(gè)發(fā)現(xiàn)解釋了為什么即使是在訓(xùn)練數(shù)據(jù)中大量存在的簡(jiǎn)單動(dòng)作,AI也經(jīng)常搞錯(cuò)。問(wèn)題不在于AI沒(méi)有見過(guò)這些動(dòng)作,而在于它從一開始就沒(méi)有被訓(xùn)練去關(guān)注動(dòng)作的時(shí)間連貫性和物理合理性。

二、VideoJAM的巧妙設(shè)計(jì):給AI裝上"動(dòng)作雷達(dá)"

面對(duì)這個(gè)根本性問(wèn)題,研究團(tuán)隊(duì)設(shè)計(jì)了VideoJAM框架,其核心理念是讓AI同時(shí)掌握兩套"語(yǔ)言":外觀語(yǔ)言和運(yùn)動(dòng)語(yǔ)言。

VideoJAM的設(shè)計(jì)可以比作給汽車同時(shí)安裝GPS導(dǎo)航和雷達(dá)系統(tǒng)。傳統(tǒng)的AI就像只有GPS的汽車,能知道目的地在哪里(想要什么樣的畫面),但看不清路上的動(dòng)態(tài)障礙(運(yùn)動(dòng)規(guī)律)。VideoJAM則給AI額外裝上了"動(dòng)作雷達(dá)",讓它不僅能看到靜態(tài)的畫面目標(biāo),還能感知?jiǎng)討B(tài)的運(yùn)動(dòng)模式。

在技術(shù)實(shí)現(xiàn)上,VideoJAM采用了光流(optical flow)作為運(yùn)動(dòng)信息的載體。光流聽起來(lái)很專業(yè),但其實(shí)概念很簡(jiǎn)單:它記錄了畫面中每個(gè)像素點(diǎn)從一幀到下一幀是如何移動(dòng)的。想象在下雨天拍攝車窗,雨滴在玻璃上留下的軌跡就類似于光流信息。

研究團(tuán)隊(duì)將這種光流信息轉(zhuǎn)換成彩色圖像的形式,就像把風(fēng)的方向和強(qiáng)度用不同顏色的箭頭標(biāo)注在地圖上一樣。在這種表示方法中,不同的顏色代表不同的運(yùn)動(dòng)方向,顏色的深淺則代表運(yùn)動(dòng)的快慢。這樣,AI就能像人類看彩色地圖一樣直觀地"看到"運(yùn)動(dòng)信息。

VideoJAM的訓(xùn)練過(guò)程分為兩個(gè)關(guān)鍵步驟。第一步是讓AI學(xué)會(huì)同時(shí)理解外觀和運(yùn)動(dòng)。研究團(tuán)隊(duì)在原有模型的基礎(chǔ)上添加了兩個(gè)新的連接層,就像在原有的神經(jīng)網(wǎng)絡(luò)中安裝了兩個(gè)新的"翻譯器"。輸入端的翻譯器負(fù)責(zé)將外觀信息和運(yùn)動(dòng)信息融合成統(tǒng)一的內(nèi)部表示,輸出端的翻譯器則負(fù)責(zé)從這個(gè)融合表示中同時(shí)預(yù)測(cè)外觀和運(yùn)動(dòng)。

這種設(shè)計(jì)的巧妙之處在于強(qiáng)迫AI建立一個(gè)能夠同時(shí)包含外觀和運(yùn)動(dòng)信息的內(nèi)部表示。就好比教一個(gè)人同時(shí)用中文和英文思考同一個(gè)概念,最終這個(gè)人會(huì)形成一種更豐富、更全面的理解方式。

在訓(xùn)練階段,AI不僅要預(yù)測(cè)下一幀的畫面長(zhǎng)什么樣,還要預(yù)測(cè)畫面中的物體將如何運(yùn)動(dòng)。這種雙重任務(wù)迫使AI必須同時(shí)關(guān)注外觀的合理性和運(yùn)動(dòng)的連貫性,不能再像以前那樣只顧"顏值"不顧"動(dòng)作"。

三、內(nèi)在引導(dǎo)機(jī)制:讓AI自己糾正動(dòng)作錯(cuò)誤

僅僅讓AI學(xué)會(huì)理解運(yùn)動(dòng)還不夠,關(guān)鍵是要確保它在生成視頻時(shí)真正重視運(yùn)動(dòng)的合理性。為此,研究團(tuán)隊(duì)開發(fā)了一種稱為"內(nèi)在引導(dǎo)"(Inner-Guidance)的機(jī)制。

這種機(jī)制可以比作給AI配備了一個(gè)內(nèi)在的"動(dòng)作教練"。在傳統(tǒng)方法中,AI生成視頻時(shí)只有一個(gè)目標(biāo):讓畫面看起來(lái)像真實(shí)視頻。而內(nèi)在引導(dǎo)機(jī)制為AI添加了額外的內(nèi)在約束:生成的畫面不僅要好看,其中的運(yùn)動(dòng)也必須符合AI自己預(yù)測(cè)的運(yùn)動(dòng)模式。

內(nèi)在引導(dǎo)的工作原理頗為巧妙。在每一個(gè)生成步驟中,AI不僅會(huì)產(chǎn)生對(duì)下一幀畫面的預(yù)測(cè),還會(huì)產(chǎn)生對(duì)相應(yīng)運(yùn)動(dòng)的預(yù)測(cè)。然后,內(nèi)在引導(dǎo)機(jī)制會(huì)檢查這兩個(gè)預(yù)測(cè)是否互相匹配。如果畫面預(yù)測(cè)顯示一個(gè)人在向右跑,但運(yùn)動(dòng)預(yù)測(cè)顯示他在向左移動(dòng),那么引導(dǎo)機(jī)制就會(huì)調(diào)整生成過(guò)程,確保兩者保持一致。

這種方法的創(chuàng)新之處在于,它利用了AI自己的運(yùn)動(dòng)預(yù)測(cè)作為引導(dǎo)信號(hào),而不是依賴外部固定的約束。就像一個(gè)人在跳舞時(shí)不僅要聽音樂(lè),還要感受自己身體的節(jié)拍,確保動(dòng)作與內(nèi)在的節(jié)奏感保持協(xié)調(diào)。

從數(shù)學(xué)角度來(lái)看,內(nèi)在引導(dǎo)修改了AI的生成概率分布。傳統(tǒng)方法只考慮"給定文本提示,生成什么樣的畫面最合理"。內(nèi)在引導(dǎo)則同時(shí)考慮"給定文本提示和運(yùn)動(dòng)預(yù)測(cè),生成什么樣的畫面最合理"。這種多重約束確保了生成結(jié)果在多個(gè)維度上都保持合理性。

研究團(tuán)隊(duì)在設(shè)計(jì)內(nèi)在引導(dǎo)時(shí)面臨了一個(gè)技術(shù)挑戰(zhàn):與傳統(tǒng)的引導(dǎo)方法不同,運(yùn)動(dòng)預(yù)測(cè)本身是由AI模型產(chǎn)生的,因此它與模型的權(quán)重和其他條件存在復(fù)雜的依賴關(guān)系。這就像試圖用鏡子中的自己來(lái)指導(dǎo)自己的動(dòng)作一樣,需要處理復(fù)雜的反饋循環(huán)。

為了解決這個(gè)問(wèn)題,研究團(tuán)隊(duì)重新推導(dǎo)了引導(dǎo)機(jī)制的數(shù)學(xué)公式,確保即使在這種自引用的情況下,整個(gè)系統(tǒng)仍然穩(wěn)定可靠。他們的解決方案不僅在理論上更加嚴(yán)謹(jǐn),在實(shí)際應(yīng)用中也表現(xiàn)出更好的效果。

四、令人印象深刻的實(shí)驗(yàn)結(jié)果

為了驗(yàn)證VideoJAM的效果,研究團(tuán)隊(duì)進(jìn)行了大量的對(duì)比實(shí)驗(yàn),結(jié)果令人印象深刻。

研究團(tuán)隊(duì)首先構(gòu)建了一個(gè)專門的測(cè)試基準(zhǔn),稱為VideoJAM-bench。這個(gè)基準(zhǔn)包含128個(gè)精心設(shè)計(jì)的提示詞,涵蓋了四類對(duì)AI最具挑戰(zhàn)性的運(yùn)動(dòng)類型:基礎(chǔ)運(yùn)動(dòng)(如慢跑、走路)、復(fù)雜運(yùn)動(dòng)(如體操、舞蹈)、旋轉(zhuǎn)運(yùn)動(dòng)(如轉(zhuǎn)陀螺、轉(zhuǎn)籃球)和物理交互(如呼啦圈、球類運(yùn)動(dòng))。

在基礎(chǔ)運(yùn)動(dòng)測(cè)試中,VideoJAM展現(xiàn)出了顯著的改進(jìn)。當(dāng)要求生成"慢跑者沿著巖石海岸線奔跑"的視頻時(shí),傳統(tǒng)模型經(jīng)常產(chǎn)生不自然的步伐,比如反復(fù)踩在同一條腿上。而VideoJAM生成的視頻中,人物的步伐節(jié)奏自然,左右腿交替明確,完全符合真實(shí)跑步的運(yùn)動(dòng)模式。

在復(fù)雜運(yùn)動(dòng)方面,差異更加明顯。傳統(tǒng)模型在生成"男子做側(cè)手翻"時(shí),經(jīng)常出現(xiàn)身體嚴(yán)重變形,有時(shí)甚至產(chǎn)生額外的肢體。VideoJAM則能夠保持人體結(jié)構(gòu)的完整性,動(dòng)作流暢自然,雖然不是專業(yè)水平,但至少符合基本的人體運(yùn)動(dòng)規(guī)律。

物理交互的測(cè)試結(jié)果最為引人注目。在"女性轉(zhuǎn)呼啦圈"的測(cè)試中,傳統(tǒng)模型生成的呼啦圈經(jīng)常穿過(guò)人體,完全違背物理定律。VideoJAM生成的視頻中,呼啦圈始終圍繞腰部運(yùn)動(dòng),與人體保持合理的物理關(guān)系。

研究團(tuán)隊(duì)還與市面上最先進(jìn)的商業(yè)模型進(jìn)行了對(duì)比,包括OpenAI的Sora、快手的Kling以及Runway的Gen3等。在人類評(píng)估中,評(píng)估者在82%的情況下認(rèn)為VideoJAM在運(yùn)動(dòng)連貫性方面優(yōu)于其基礎(chǔ)模型,在與Sora、Kling等商業(yè)模型的對(duì)比中,VideoJAM也分別在68.5%和63.8%的情況下被認(rèn)為運(yùn)動(dòng)效果更好。

更令人驚喜的是,VideoJAM不僅改善了運(yùn)動(dòng)質(zhì)量,還提升了整體的視覺(jué)效果。在視覺(jué)質(zhì)量的評(píng)估中,人類評(píng)估者在77.3%的情況下認(rèn)為VideoJAM的整體效果優(yōu)于基礎(chǔ)模型。這證明了運(yùn)動(dòng)和外觀并非零和關(guān)系,而是可以相互促進(jìn)的。

自動(dòng)化評(píng)估指標(biāo)也支持了這些發(fā)現(xiàn)。在運(yùn)動(dòng)平滑度指標(biāo)上,VideoJAM達(dá)到了93.7分(滿分100),而基礎(chǔ)模型只有78.3分。在動(dòng)態(tài)程度指標(biāo)上,VideoJAM也從基礎(chǔ)模型的38.3分提升到87.5分,說(shuō)明生成的視頻不僅運(yùn)動(dòng)更連貫,運(yùn)動(dòng)量也更豐富。

五、深入的技術(shù)分析和局限性探討

為了更好地理解VideoJAM的工作機(jī)制,研究團(tuán)隊(duì)進(jìn)行了詳盡的消融實(shí)驗(yàn),分析了框架中每個(gè)組件的貢獻(xiàn)。

首先,他們測(cè)試了去除文本引導(dǎo)的效果。結(jié)果顯示,當(dāng)只使用運(yùn)動(dòng)引導(dǎo)而不使用文本引導(dǎo)時(shí),模型的運(yùn)動(dòng)連貫性仍然比基礎(chǔ)模型好63.3%,但整體效果有所下降。這說(shuō)明文本引導(dǎo)和運(yùn)動(dòng)引導(dǎo)各自發(fā)揮著重要作用,需要協(xié)同工作才能達(dá)到最佳效果。

接著,他們測(cè)試了去除內(nèi)在引導(dǎo)機(jī)制的影響。實(shí)驗(yàn)發(fā)現(xiàn),沒(méi)有內(nèi)在引導(dǎo)的VideoJAM在運(yùn)動(dòng)質(zhì)量上的提升幅度減少了約15%。這證明了內(nèi)在引導(dǎo)機(jī)制確實(shí)在幫助模型更好地利用學(xué)到的運(yùn)動(dòng)知識(shí)。

最有趣的是對(duì)比不同引導(dǎo)策略的實(shí)驗(yàn)。研究團(tuán)隊(duì)將他們的內(nèi)在引導(dǎo)方法與現(xiàn)有的InstructPix2Pix引導(dǎo)方法進(jìn)行了對(duì)比。結(jié)果顯示,內(nèi)在引導(dǎo)在運(yùn)動(dòng)連貫性上的表現(xiàn)明顯更好,驗(yàn)證了針對(duì)運(yùn)動(dòng)信息的特殊設(shè)計(jì)確實(shí)比通用方法更有效。

然而,VideoJAM也存在一些局限性。研究團(tuán)隊(duì)坦誠(chéng)地討論了這些不足之處。

首先是"變焦"場(chǎng)景的處理問(wèn)題。當(dāng)畫面中的運(yùn)動(dòng)物體占據(jù)很小的區(qū)域時(shí),比如"降落傘手展開降落傘"這樣的遠(yuǎn)景鏡頭,VideoJAM的效果會(huì)打折扣。這是因?yàn)楣饬餍畔⒃谶@種情況下變得非常稀疏,難以提供足夠的運(yùn)動(dòng)約束。研究團(tuán)隊(duì)分析認(rèn)為,這主要是由于訓(xùn)練分辨率的限制和運(yùn)動(dòng)表示方法的制約。

其次是復(fù)雜物理交互的處理能力仍有不足。雖然VideoJAM在簡(jiǎn)單的物理交互(如呼啦圈)方面表現(xiàn)良好,但對(duì)于更復(fù)雜的多物體交互,比如"足球運(yùn)動(dòng)員踢球"時(shí)球與腳的精確接觸,仍然存在挑戰(zhàn)。這主要是因?yàn)楣饬鞅硎痉椒ㄈ狈?duì)復(fù)雜物理約束的顯式編碼。

訓(xùn)練效率也是一個(gè)需要考慮的因素。雖然VideoJAM只需要在原有模型基礎(chǔ)上進(jìn)行微調(diào),但仍然需要重新計(jì)算所有訓(xùn)練視頻的光流信息,這在計(jì)算資源方面有一定的開銷。不過(guò)研究團(tuán)隊(duì)指出,這種開銷是一次性的,而且相比于從頭訓(xùn)練新模型,仍然要經(jīng)濟(jì)得多。

六、技術(shù)創(chuàng)新的深層意義

VideoJAM的成功不僅僅是一個(gè)具體技術(shù)問(wèn)題的解決,它還揭示了AI視頻生成領(lǐng)域的一些深層規(guī)律和未來(lái)發(fā)展方向。

最重要的洞察是確認(rèn)了多模態(tài)學(xué)習(xí)的價(jià)值。傳統(tǒng)觀點(diǎn)認(rèn)為,更大的模型規(guī)模和更多的訓(xùn)練數(shù)據(jù)總能解決質(zhì)量問(wèn)題。但VideoJAM的成功說(shuō)明,有時(shí)候問(wèn)題不在于"量"而在于"質(zhì)"——即如何讓AI學(xué)習(xí)更合適的表示方式。通過(guò)顯式地引入運(yùn)動(dòng)信息,AI能夠建立更豐富、更全面的世界理解。

這種思路可能對(duì)其他AI任務(wù)也有啟發(fā)意義。在自然語(yǔ)言處理中,是否也可以通過(guò)顯式建模語(yǔ)義關(guān)系來(lái)提升效果?在圖像生成中,是否可以通過(guò)顯式建模空間幾何來(lái)改善質(zhì)量?VideoJAM提供了一個(gè)成功的范例,說(shuō)明領(lǐng)域知識(shí)的顯式引入往往比單純的規(guī)模擴(kuò)張更有效。

VideoJAM的另一個(gè)重要貢獻(xiàn)是證明了外觀和運(yùn)動(dòng)的協(xié)同效應(yīng)。長(zhǎng)期以來(lái),研究者認(rèn)為視覺(jué)質(zhì)量和運(yùn)動(dòng)質(zhì)量之間存在權(quán)衡關(guān)系,提升一個(gè)可能會(huì)損害另一個(gè)。VideoJAM的實(shí)驗(yàn)結(jié)果打破了這種固有認(rèn)知,表明合理的運(yùn)動(dòng)約束實(shí)際上能夠提升整體的視覺(jué)質(zhì)量。這種協(xié)同效應(yīng)可能來(lái)自于運(yùn)動(dòng)信息提供的額外約束,幫助模型避免生成不合理的畫面內(nèi)容。

從工程實(shí)用性角度來(lái)看,VideoJAM展示了"輕量級(jí)改進(jìn)"的威力。與需要數(shù)百萬(wàn)美元訓(xùn)練成本的大型模型相比,VideoJAM只需要添加少量參數(shù)和有限的微調(diào)就能帶來(lái)顯著改進(jìn)。這種高效的改進(jìn)方式對(duì)于資源有限的研究團(tuán)隊(duì)和公司來(lái)說(shuō)特別有價(jià)值。

七、對(duì)行業(yè)發(fā)展的影響和應(yīng)用前景

VideoJAM的成功可能會(huì)推動(dòng)整個(gè)AI視頻生成行業(yè)的發(fā)展方向。

在短期內(nèi),我們可能會(huì)看到更多研究團(tuán)隊(duì)采用類似的多模態(tài)學(xué)習(xí)方法。VideoJAM使用光流作為運(yùn)動(dòng)表示,但其他形式的運(yùn)動(dòng)信息,比如3D姿態(tài)、深度信息、甚至音頻節(jié)拍,都可能成為新的研究方向。每種模態(tài)信息都可能為AI提供獨(dú)特的約束和指導(dǎo)。

商業(yè)應(yīng)用方面,VideoJAM的通用性使得現(xiàn)有的視頻生成服務(wù)可以相對(duì)容易地集成這項(xiàng)技術(shù)。無(wú)論是短視頻平臺(tái)的內(nèi)容生成、影視制作的預(yù)覽制作,還是教育培訓(xùn)的動(dòng)畫制作,都可能從更連貫的運(yùn)動(dòng)生成中受益。

特別值得關(guān)注的是在專業(yè)領(lǐng)域的應(yīng)用潛力。在體育訓(xùn)練中,教練可能會(huì)使用改進(jìn)的AI來(lái)生成標(biāo)準(zhǔn)動(dòng)作的示范視頻。在醫(yī)療康復(fù)中,治療師可能會(huì)用AI生成患者練習(xí)的參考動(dòng)作。在工業(yè)培訓(xùn)中,安全操作的演示視頻也可能更加準(zhǔn)確和有用。

從技術(shù)發(fā)展趨勢(shì)來(lái)看,VideoJAM可能代表了AI視頻生成從"模仿表面"向"理解本質(zhì)"的轉(zhuǎn)變。未來(lái)的研究可能會(huì)進(jìn)一步探索如何讓AI理解更深層的物理規(guī)律、社會(huì)常識(shí)和因果關(guān)系,而不僅僅是像素層面的相似性。

不過(guò),這種技術(shù)進(jìn)步也帶來(lái)了一些需要思考的問(wèn)題。隨著AI生成視頻越來(lái)越逼真,如何區(qū)分真實(shí)內(nèi)容和AI生成內(nèi)容變得更加重要。研究團(tuán)隊(duì)在論文中也提到了這個(gè)問(wèn)題,強(qiáng)調(diào)了開發(fā)檢測(cè)技術(shù)和建立使用規(guī)范的重要性。

八、研究方法的創(chuàng)新性分析

VideoJAM在研究方法上的創(chuàng)新值得深入分析,因?yàn)檫@些創(chuàng)新可能對(duì)未來(lái)的研究具有指導(dǎo)意義。

首先是問(wèn)題診斷方法的創(chuàng)新。研究團(tuán)隊(duì)沒(méi)有直接著手改進(jìn)算法,而是先通過(guò)巧妙的實(shí)驗(yàn)設(shè)計(jì)深入分析了問(wèn)題的根源。"打亂幀序列"的實(shí)驗(yàn)設(shè)計(jì)既簡(jiǎn)單又有效,直接揭示了現(xiàn)有模型對(duì)時(shí)間信息不敏感的核心問(wèn)題。這種"先診斷再治療"的研究思路值得其他研究者借鑒。

其次是多層次驗(yàn)證的研究設(shè)計(jì)。VideoJAM的驗(yàn)證不僅包括定量指標(biāo),還包括定性分析、消融實(shí)驗(yàn)、對(duì)比實(shí)驗(yàn)等多個(gè)層面。特別是人類評(píng)估的引入,為自動(dòng)化指標(biāo)提供了重要的補(bǔ)充驗(yàn)證。這種全方位的評(píng)估方法增強(qiáng)了研究結(jié)果的可信度。

在基準(zhǔn)構(gòu)建方面,VideoJAM-bench的設(shè)計(jì)也體現(xiàn)了研究者的深思熟慮。與現(xiàn)有基準(zhǔn)相比,這個(gè)新基準(zhǔn)更加關(guān)注運(yùn)動(dòng)質(zhì)量而非靜態(tài)美觀,填補(bǔ)了評(píng)估體系的空白?;鶞?zhǔn)的分類設(shè)計(jì)(基礎(chǔ)運(yùn)動(dòng)、復(fù)雜運(yùn)動(dòng)、旋轉(zhuǎn)運(yùn)動(dòng)、物理交互)覆蓋了AI視頻生成的主要挑戰(zhàn)場(chǎng)景。

技術(shù)實(shí)現(xiàn)上的"最小侵入性"設(shè)計(jì)也值得稱道。VideoJAM只添加了兩個(gè)線性層,這種輕量級(jí)的改進(jìn)既降低了實(shí)現(xiàn)難度,也提高了技術(shù)的可移植性。這種設(shè)計(jì)哲學(xué)——用最小的改動(dòng)獲得最大的效果提升——在工程實(shí)踐中具有重要價(jià)值。

九、未來(lái)研究方向的展望

基于VideoJAM的成功,研究團(tuán)隊(duì)和整個(gè)領(lǐng)域都可能在幾個(gè)方向上繼續(xù)深入探索。

運(yùn)動(dòng)表示方法的改進(jìn)是一個(gè)自然的延伸方向。雖然光流信息已經(jīng)帶來(lái)了顯著改進(jìn),但它仍然是一種相對(duì)簡(jiǎn)單的運(yùn)動(dòng)表示。未來(lái)的研究可能會(huì)探索更復(fù)雜的運(yùn)動(dòng)表示,比如3D運(yùn)動(dòng)場(chǎng)、語(yǔ)義級(jí)運(yùn)動(dòng)描述或者基于物理的運(yùn)動(dòng)模型。

多尺度運(yùn)動(dòng)建模也是一個(gè)有前景的方向。當(dāng)前的VideoJAM主要關(guān)注像素級(jí)的運(yùn)動(dòng),但人類對(duì)運(yùn)動(dòng)的理解是多層次的:從關(guān)節(jié)運(yùn)動(dòng)到整體姿態(tài),從局部動(dòng)作到全局行為。如何讓AI建立這種層次化的運(yùn)動(dòng)理解是一個(gè)重要挑戰(zhàn)。

跨模態(tài)的運(yùn)動(dòng)學(xué)習(xí)可能會(huì)帶來(lái)新的突破。音頻信息經(jīng)常與視覺(jué)運(yùn)動(dòng)高度相關(guān),比如腳步聲與走路動(dòng)作、音樂(lè)節(jié)拍與舞蹈動(dòng)作。如何將聽覺(jué)信息整合到運(yùn)動(dòng)建模中是一個(gè)有趣的研究方向。

從更長(zhǎng)遠(yuǎn)的角度看,物理知識(shí)的顯式整合可能是下一個(gè)重要突破點(diǎn)。VideoJAM已經(jīng)在一定程度上改善了物理合理性,但仍然是通過(guò)數(shù)據(jù)驅(qū)動(dòng)的方式學(xué)習(xí),而非基于物理定律的約束。如何將牛頓力學(xué)、流體動(dòng)力學(xué)等物理知識(shí)直接整合到AI模型中,是一個(gè)既有挑戰(zhàn)性又有實(shí)用價(jià)值的研究方向。

十、技術(shù)普及與應(yīng)用的思考

VideoJAM的成功也引發(fā)了關(guān)于技術(shù)普及和應(yīng)用的一些思考。

從技術(shù)門檻角度來(lái)看,VideoJAM的相對(duì)簡(jiǎn)單性是一個(gè)優(yōu)勢(shì)。與需要巨大計(jì)算資源的大型模型相比,VideoJAM的改進(jìn)可以在相對(duì)有限的資源下實(shí)現(xiàn)。這可能會(huì)加速技術(shù)的普及,讓更多的研究團(tuán)隊(duì)和小公司能夠受益于這種改進(jìn)。

然而,技術(shù)普及也帶來(lái)了新的挑戰(zhàn)。隨著AI生成視頻質(zhì)量的提升,如何防止技術(shù)被濫用變得更加重要。研究團(tuán)隊(duì)在論文中也強(qiáng)調(diào)了這一點(diǎn),呼吁開發(fā)相應(yīng)的檢測(cè)技術(shù)和使用規(guī)范。

在教育和培訓(xùn)應(yīng)用方面,VideoJAM可能會(huì)產(chǎn)生積極影響。更準(zhǔn)確的動(dòng)作生成可以幫助創(chuàng)建更好的教學(xué)視頻,特別是在體育、舞蹈、技能培訓(xùn)等需要精確動(dòng)作示范的領(lǐng)域。這種應(yīng)用不僅有商業(yè)價(jià)值,也有社會(huì)價(jià)值。

對(duì)于內(nèi)容創(chuàng)作行業(yè),VideoJAM可能會(huì)改變創(chuàng)作流程。傳統(tǒng)的視頻制作需要大量的人力和時(shí)間,而改進(jìn)的AI生成技術(shù)可能會(huì)讓創(chuàng)作者更專注于創(chuàng)意和故事,而非技術(shù)細(xì)節(jié)。當(dāng)然,這種變化也需要行業(yè)逐步適應(yīng)和規(guī)范。

說(shuō)到底,VideoJAM代表的不僅僅是一個(gè)技術(shù)進(jìn)步,更是AI理解世界方式的一個(gè)重要轉(zhuǎn)變。從單純模仿表面現(xiàn)象到理解內(nèi)在規(guī)律,從孤立學(xué)習(xí)單一模態(tài)到協(xié)同學(xué)習(xí)多種信息,這種轉(zhuǎn)變可能會(huì)影響整個(gè)AI領(lǐng)域的發(fā)展方向。雖然當(dāng)前的技術(shù)仍有局限性,但它為我們展示了一個(gè)更智能、更可靠的AI未來(lái)的可能性。對(duì)于普通用戶來(lái)說(shuō),這意味著將來(lái)可能會(huì)享受到更自然、更令人信服的AI生成視頻內(nèi)容。對(duì)于研究者來(lái)說(shuō),這提供了一個(gè)重要的范例,說(shuō)明有時(shí)候解決問(wèn)題的關(guān)鍵不在于更大的模型或更多的數(shù)據(jù),而在于更深入的理解和更巧妙的設(shè)計(jì)。

Q&A

Q1:VideoJAM技術(shù)是什么?它解決了什么問(wèn)題?

A:VideoJAM是Meta和特拉維夫大學(xué)開發(fā)的視頻生成改進(jìn)技術(shù),主要解決AI生成視頻中動(dòng)作不連貫的問(wèn)題。傳統(tǒng)AI生成的視頻畫面很漂亮,但人物動(dòng)作經(jīng)常違反常理,比如跑步時(shí)重復(fù)踩同一條腿,或呼啦圈穿過(guò)身體。VideoJAM通過(guò)讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著提升了動(dòng)作的合理性和連貫性。

Q2:VideoJAM相比其他視頻生成模型有什么優(yōu)勢(shì)?

A:VideoJAM在運(yùn)動(dòng)連貫性方面大幅超越傳統(tǒng)模型,在人類評(píng)估中82%的情況下被認(rèn)為運(yùn)動(dòng)效果更好,甚至在某些指標(biāo)上超過(guò)了Sora、Kling等商業(yè)模型。更重要的是,它不需要重新訓(xùn)練整個(gè)模型,只需添加兩個(gè)簡(jiǎn)單的連接層就能顯著改善效果,成本很低但效果明顯。

Q3:普通用戶什么時(shí)候能用上VideoJAM技術(shù)?

A:VideoJAM目前還是研究階段的技術(shù),但由于其改進(jìn)方式相對(duì)簡(jiǎn)單,現(xiàn)有的視頻生成服務(wù)可以比較容易地集成這項(xiàng)技術(shù)。預(yù)計(jì)在不久的將來(lái),各大視頻生成平臺(tái)可能會(huì)逐步采用類似技術(shù)來(lái)改善用戶體驗(yàn),讓生成的視頻動(dòng)作更加自然合理。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-