想象一下,如果你正在用手機(jī)拍攝一段視頻,突然發(fā)現(xiàn)鏡頭中的小貓?jiān)诓煌?huà)面里變成了不同顏色,或者一個(gè)人的臉在幾秒鐘內(nèi)完全變了模樣——這聽(tīng)起來(lái)很荒謬,對(duì)吧?但這正是當(dāng)前AI視頻生成技術(shù)面臨的一個(gè)大問(wèn)題。不過(guò),好消息是,來(lái)自韓國(guó)科學(xué)技術(shù)院(KAIST)的研究團(tuán)隊(duì)最近找到了一個(gè)巧妙的解決方案。
這項(xiàng)由KAIST AI實(shí)驗(yàn)室的黃成元、張孝鎮(zhèn)、金基南、樸民浩和趙在?共同完成的研究,發(fā)表于2025年6月10日的《神經(jīng)信息處理系統(tǒng)會(huì)議》(NeurIPS 2025)。有興趣深入了解技術(shù)細(xì)節(jié)的讀者可以通過(guò)論文編號(hào)arXiv:2506.09229v1訪問(wèn)完整研究報(bào)告,也可以訪問(wèn)項(xiàng)目網(wǎng)站https://crepavideo.github.io查看更多演示視頻。
這個(gè)問(wèn)題其實(shí)比我們想象的更復(fù)雜。當(dāng)前最先進(jìn)的AI視頻生成模型,比如那些能夠根據(jù)文字描述生成逼真視頻的系統(tǒng),雖然在單個(gè)畫(huà)面的質(zhì)量上已經(jīng)做得相當(dāng)不錯(cuò),但在保持視頻前后畫(huà)面的連貫性方面還存在明顯不足。就像一個(gè)健忘的畫(huà)家,每畫(huà)一幀都忘記了前一幀畫(huà)的是什么樣子。
研究團(tuán)隊(duì)發(fā)現(xiàn),問(wèn)題的根源在于現(xiàn)有的訓(xùn)練方法只關(guān)注每一幀畫(huà)面本身的質(zhì)量,而忽略了相鄰畫(huà)面之間的關(guān)系。這就好比我們?cè)趯W(xué)習(xí)畫(huà)連環(huán)畫(huà)時(shí),只練習(xí)畫(huà)單張圖片,卻從不考慮故事的連貫性。結(jié)果就是,AI生成的視頻雖然每一幀看起來(lái)都很漂亮,但連起來(lái)看就會(huì)發(fā)現(xiàn)人物的衣服顏色會(huì)突然改變,背景會(huì)莫名其妙地跳躍,物體的形狀也會(huì)發(fā)生不合理的變化。
為了解決這個(gè)問(wèn)題,KAIST團(tuán)隊(duì)提出了一種他們稱為"跨幀表示對(duì)齊"(CREPA)的新方法。這個(gè)名字聽(tīng)起來(lái)很專業(yè),但其背后的思路其實(shí)很像我們教孩子畫(huà)連環(huán)畫(huà)的方法:不僅要讓每一張畫(huà)都畫(huà)得好,還要確保前后的畫(huà)能夠連得上,形成一個(gè)完整的故事。
具體來(lái)說(shuō),研究團(tuán)隊(duì)的方法就像給AI安裝了一個(gè)"時(shí)間記憶系統(tǒng)"。當(dāng)AI在生成某一幀畫(huà)面時(shí),這個(gè)系統(tǒng)會(huì)提醒它:"嘿,別忘了前一幀和后一幀應(yīng)該是什么樣子的,你現(xiàn)在畫(huà)的內(nèi)容要和它們保持一致。"這樣,AI就不會(huì)在生成視頻時(shí)出現(xiàn)前言不搭后語(yǔ)的情況。
為了驗(yàn)證這種方法的效果,研究團(tuán)隊(duì)在多個(gè)大型AI視頻生成模型上進(jìn)行了測(cè)試,包括擁有50億參數(shù)的CogVideoX-5B和130億參數(shù)的Hunyuan Video。這些模型就像是AI界的"超級(jí)大腦",處理視頻生成任務(wù)時(shí)需要考慮海量的信息。
實(shí)驗(yàn)結(jié)果令人驚喜。在一個(gè)經(jīng)典的測(cè)試場(chǎng)景中,研究團(tuán)隊(duì)讓AI生成一段關(guān)于蒸汽船的黑白動(dòng)畫(huà)視頻。使用傳統(tǒng)方法訓(xùn)練的模型生成的視頻中,蒸汽船的形狀會(huì)發(fā)生奇怪的變化,煙囪冒出的煙霧也會(huì)突然消失或改變方向。而使用CREPA方法的模型生成的視頻則展現(xiàn)出了令人印象深刻的一致性:蒸汽船始終保持相同的外觀,煙霧的流動(dòng)也顯得自然而連貫,就像真正的動(dòng)畫(huà)師精心制作的作品一樣。
更有趣的是,這種改進(jìn)不僅體現(xiàn)在視覺(jué)效果上,還體現(xiàn)在語(yǔ)義理解方面。比如在生成一個(gè)關(guān)于物體被壓扁的視頻時(shí),傳統(tǒng)方法可能會(huì)讓物體的形狀發(fā)生不符合物理規(guī)律的變化,而CREPA方法則能確保整個(gè)壓扁過(guò)程看起來(lái)既逼真又符合我們對(duì)物理世界的認(rèn)知。
研究團(tuán)隊(duì)還特別關(guān)注了訓(xùn)練效率的問(wèn)題。他們發(fā)現(xiàn),使用CREPA方法只需要在單個(gè)A100 GPU上訓(xùn)練9到13小時(shí),就能顯著改善視頻生成的質(zhì)量。這相比傳統(tǒng)方法來(lái)說(shuō),既節(jié)省了計(jì)算資源,又提高了效果,可謂是一舉兩得。
在技術(shù)實(shí)現(xiàn)上,CREPA方法的核心思想是利用預(yù)訓(xùn)練的視覺(jué)編碼器來(lái)提供"參考標(biāo)準(zhǔn)"。這就像給AI提供了一本"標(biāo)準(zhǔn)答案冊(cè)",讓它在生成每一幀時(shí)都能參考這些標(biāo)準(zhǔn)來(lái)保持一致性。更巧妙的是,CREPA不僅讓AI參考當(dāng)前幀的標(biāo)準(zhǔn)答案,還會(huì)參考相鄰幀的標(biāo)準(zhǔn)答案,確保生成的內(nèi)容在時(shí)間維度上保持連貫。
為了更科學(xué)地評(píng)估改進(jìn)效果,研究團(tuán)隊(duì)設(shè)計(jì)了多維度的評(píng)估指標(biāo)。他們不僅測(cè)量了視頻的視覺(jué)質(zhì)量,還專門評(píng)估了語(yǔ)義一致性、運(yùn)動(dòng)平滑度和背景連貫性等關(guān)鍵指標(biāo)。結(jié)果顯示,CREPA方法在幾乎所有指標(biāo)上都取得了顯著改善。
特別值得一提的是,研究團(tuán)隊(duì)還探索了CREPA方法在新視角合成任務(wù)中的應(yīng)用。這就像是給AI一種"空間想象力"——當(dāng)你給它看一個(gè)物體的正面照片時(shí),它能想象出這個(gè)物體從側(cè)面或背面看是什么樣子。在這個(gè)任務(wù)中,CREPA方法同樣表現(xiàn)出色,生成的視頻在3D空間一致性方面有了明顯提升。
研究過(guò)程中,團(tuán)隊(duì)還進(jìn)行了大量的對(duì)比實(shí)驗(yàn)。他們將CREPA方法與傳統(tǒng)的訓(xùn)練方法以及其他改進(jìn)方法進(jìn)行了詳細(xì)比較。結(jié)果顯示,CREPA不僅在客觀指標(biāo)上表現(xiàn)更好,在人工評(píng)估中也獲得了更高的評(píng)分。參與評(píng)估的志愿者在文本-視頻匹配度、視覺(jué)質(zhì)量、運(yùn)動(dòng)質(zhì)量、語(yǔ)義一致性和整體偏好等多個(gè)維度上,都更傾向于選擇CREPA方法生成的視頻。
這項(xiàng)研究的意義遠(yuǎn)不止于技術(shù)層面的改進(jìn)。隨著AI視頻生成技術(shù)的日益成熟,它在教育、娛樂(lè)、廣告等領(lǐng)域的應(yīng)用前景越來(lái)越廣闊。CREPA方法的出現(xiàn),讓我們離真正實(shí)用的AI視頻生成工具又近了一步。想象一下,未來(lái)的內(nèi)容創(chuàng)作者可能只需要輸入一段文字描述,就能得到一段專業(yè)質(zhì)量的視頻內(nèi)容,這將大大降低視頻制作的門檻,讓更多人能夠參與到創(chuàng)意表達(dá)中來(lái)。
當(dāng)然,這項(xiàng)技術(shù)也帶來(lái)了一些需要思考的問(wèn)題。隨著AI生成視頻質(zhì)量的提升,如何確保這些技術(shù)被負(fù)責(zé)任地使用,如何防止虛假信息的傳播,如何保護(hù)創(chuàng)作者的權(quán)益等,都是需要我們認(rèn)真對(duì)待的社會(huì)議題。研究團(tuán)隊(duì)也在論文中提到了這些考慮,建議通過(guò)內(nèi)容標(biāo)記、使用指南和人工監(jiān)督等方式來(lái)確保技術(shù)的positive應(yīng)用。
有趣的是,CREPA方法的成功也給我們帶來(lái)了一些關(guān)于人工智能學(xué)習(xí)方式的啟發(fā)。它告訴我們,AI系統(tǒng)要想更好地理解和模擬現(xiàn)實(shí)世界,不僅需要關(guān)注局部的細(xì)節(jié),更需要理解全局的連貫性和一致性。這種"全局思維"可能是未來(lái)AI發(fā)展的一個(gè)重要方向。
總的來(lái)說(shuō),KAIST團(tuán)隊(duì)的這項(xiàng)研究為AI視頻生成技術(shù)的發(fā)展提供了一個(gè)新的思路和有效的解決方案。雖然在實(shí)際應(yīng)用中還有一些技術(shù)細(xì)節(jié)需要進(jìn)一步完善,比如如何為不同的視頻模型自動(dòng)選擇最優(yōu)的參數(shù)設(shè)置,但CREPA方法已經(jīng)展現(xiàn)出了巨大的潛力。相信隨著更多研究者的加入和技術(shù)的不斷完善,我們很快就能看到更多高質(zhì)量、高一致性的AI生成視頻出現(xiàn)在我們的生活中。
這項(xiàng)研究不僅推進(jìn)了AI視頻生成技術(shù)的發(fā)展,也為我們思考人工智能如何更好地理解和模擬時(shí)間序列數(shù)據(jù)提供了有價(jià)值的參考。正如研究團(tuán)隊(duì)所說(shuō),他們計(jì)劃將代碼開(kāi)源,讓更多的研究者和開(kāi)發(fā)者能夠在此基礎(chǔ)上繼續(xù)探索和改進(jìn)。這種開(kāi)放的態(tài)度無(wú)疑將加速整個(gè)領(lǐng)域的發(fā)展,讓我們對(duì)AI視頻生成技術(shù)的未來(lái)充滿期待。
好文章,需要你的鼓勵(lì)
新加坡國(guó)立大學(xué)研究團(tuán)隊(duì)開(kāi)發(fā)了SPIRAL框架,通過(guò)讓AI與自己對(duì)弈零和游戲來(lái)提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡(jiǎn)單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無(wú)需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開(kāi)發(fā)的GIGA-ToF技術(shù)通過(guò)融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問(wèn)題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺(jué)解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過(guò)對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺(jué)語(yǔ)言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無(wú)法有效利用視覺(jué)信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過(guò)動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語(yǔ)言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。