當(dāng)我們打開手機(jī)刷短視頻時(shí),可能很難想象背后蘊(yùn)含的技術(shù)挑戰(zhàn)有多么復(fù)雜。制作一段僅僅幾分鐘的高質(zhì)量視頻,往往需要專業(yè)團(tuán)隊(duì)數(shù)天甚至數(shù)周的精心制作。不過,這種情況可能即將改變。來自南洋理工大學(xué)、復(fù)旦大學(xué)、南京大學(xué)、英偉達(dá)公司和上海AI實(shí)驗(yàn)室的聯(lián)合研究團(tuán)隊(duì),最近發(fā)表了一項(xiàng)突破性研究成果,他們開發(fā)出名為L(zhǎng)ongVie的AI系統(tǒng),能夠生成長(zhǎng)達(dá)一分鐘的高質(zhì)量可控視頻。這項(xiàng)研究于2025年8月發(fā)表在計(jì)算機(jī)視覺領(lǐng)域的頂級(jí)學(xué)術(shù)會(huì)議上,感興趣的讀者可以通過論文網(wǎng)址https://vchitect.github.io/LongVie-project/獲取更多詳細(xì)信息。
要理解這項(xiàng)技術(shù)的革命性意義,我們可以把視頻生成比作指揮一場(chǎng)大型交響樂演出。傳統(tǒng)的AI視頻生成就像讓樂團(tuán)演奏一首短小的練習(xí)曲,雖然能保持基本和諧,但一旦要演奏長(zhǎng)篇交響樂,各個(gè)聲部就開始跑調(diào),節(jié)奏也變得混亂不堪。LongVie的出現(xiàn),就像為AI配備了一位經(jīng)驗(yàn)豐富的指揮家,不僅能讓整場(chǎng)演出保持完美同步,還能精確控制每個(gè)樂器在何時(shí)演奏什么旋律。
在這場(chǎng)技術(shù)交響樂中,研究團(tuán)隊(duì)面臨的最大挑戰(zhàn)是兩個(gè)看似簡(jiǎn)單卻極其復(fù)雜的問題。第一個(gè)問題是"時(shí)間一致性",就像確保交響樂的各個(gè)樂章能夠自然銜接,不會(huì)突然從輕柔的小提琴獨(dú)奏跳躍到震撼的打擊樂段落。在視頻生成中,這意味著前一秒的畫面必須與后一秒完美融合,人物的動(dòng)作要連貫,場(chǎng)景的光影要自然過渡。第二個(gè)問題是"視覺質(zhì)量保持",這就像確保交響樂從開頭到結(jié)尾都保持同樣的音質(zhì)水準(zhǔn),不會(huì)因?yàn)檠葑鄷r(shí)間過長(zhǎng)而出現(xiàn)音色衰減或失真。
研究團(tuán)隊(duì)通過深入分析發(fā)現(xiàn),傳統(tǒng)方法的問題根源在于三個(gè)關(guān)鍵因素,我們可以用烹飪一道復(fù)雜菜肴來理解這些問題。首先是"獨(dú)立調(diào)味問題",就像每次炒菜都重新調(diào)制調(diào)料,導(dǎo)致整道菜的口味前后不一致。在技術(shù)層面,這表現(xiàn)為每個(gè)視頻片段使用不同的初始參數(shù),造成畫面風(fēng)格的突變。其次是"分段調(diào)味標(biāo)準(zhǔn)問題",相當(dāng)于炒菜時(shí)對(duì)每一段食材使用不同的調(diào)味標(biāo)準(zhǔn),最終的成品自然無法達(dá)到統(tǒng)一的口感。最后是"單一調(diào)料依賴問題",就像只用鹽來調(diào)味整道菜,雖然某些部分可能味道不錯(cuò),但整體層次單調(diào),無法達(dá)到豐富的口感層次。
為了解決這些根本性問題,LongVie采用了一套全新的解決方案,我們可以把它比作一套精密的電影制作流程。在傳統(tǒng)的電影制作中,導(dǎo)演需要確保整部電影在視覺風(fēng)格、敘事節(jié)奏和人物表現(xiàn)上保持高度一致。LongVie就像一位經(jīng)驗(yàn)豐富的電影導(dǎo)演,通過四個(gè)核心技術(shù)創(chuàng)新來實(shí)現(xiàn)這一目標(biāo)。
第一個(gè)創(chuàng)新是"統(tǒng)一初始化策略",這就像為整部電影設(shè)定一個(gè)統(tǒng)一的視覺基調(diào)。在傳統(tǒng)方法中,AI為每個(gè)視頻片段單獨(dú)"擲骰子"來決定生成方向,這樣自然會(huì)產(chǎn)生風(fēng)格不一致的問題。LongVie改變了這種做法,它為整個(gè)視頻使用同一個(gè)"種子",就像畫家使用同一套調(diào)色板為整幅畫作上色,確保每個(gè)部分在色調(diào)和風(fēng)格上保持和諧統(tǒng)一。
第二個(gè)創(chuàng)新是"全局控制信號(hào)標(biāo)準(zhǔn)化",這個(gè)過程類似于為整部電影建立統(tǒng)一的攝影標(biāo)準(zhǔn)。在拍攝電影時(shí),攝影師會(huì)確保不同場(chǎng)景的光線、色彩和對(duì)比度都遵循同一套標(biāo)準(zhǔn),這樣最終剪輯時(shí)各個(gè)鏡頭才能無縫銜接。LongVie采用了類似的方法,它不是為每個(gè)視頻片段單獨(dú)設(shè)置控制參數(shù),而是為整個(gè)視頻建立一套全局標(biāo)準(zhǔn),確保從第一秒到最后一秒的畫面都遵循同樣的"拍攝規(guī)范"。
第三個(gè)創(chuàng)新是"多模態(tài)控制框架",這就像為電影導(dǎo)演配備了多種不同類型的攝像機(jī)和鏡頭。有些鏡頭適合拍攝宏大的全景,有些則擅長(zhǎng)捕捉細(xì)膩的特寫。在視頻生成中,LongVie同時(shí)使用了"密集控制信號(hào)"和"稀疏控制信號(hào)"兩種不同的控制方式。密集控制信號(hào)就像高分辨率的攝像機(jī),能夠精確捕捉畫面中每個(gè)像素的細(xì)節(jié)變化,比如人物面部表情的微妙變化或者物體表面紋理的精細(xì)呈現(xiàn)。稀疏控制信號(hào)則像是運(yùn)動(dòng)攝影中的關(guān)鍵幀標(biāo)記,它主要關(guān)注畫面中重要元素的整體運(yùn)動(dòng)軌跡和位置變化,比如人物的手勢(shì)動(dòng)作或者物體的移動(dòng)路徑。
第四個(gè)創(chuàng)新是"退化感知訓(xùn)練策略",這個(gè)概念可能聽起來有些抽象,但我們可以用運(yùn)動(dòng)員訓(xùn)練來理解它。優(yōu)秀的教練在訓(xùn)練運(yùn)動(dòng)員時(shí),會(huì)故意創(chuàng)造一些困難條件,比如增加重量負(fù)荷或者在惡劣天氣中練習(xí),這樣當(dāng)運(yùn)動(dòng)員在正常條件下比賽時(shí),就能發(fā)揮出更好的水平。LongVie的訓(xùn)練過程也采用了類似的策略,它會(huì)故意在訓(xùn)練過程中對(duì)某些控制信號(hào)施加"干擾"或"退化",讓AI學(xué)會(huì)在不完美的條件下仍然保持穩(wěn)定的生成質(zhì)量。這樣當(dāng)AI在實(shí)際應(yīng)用中遇到各種意外情況時(shí),比如輸入圖像略有模糊或者控制信號(hào)存在小的偏差,它仍然能夠生成高質(zhì)量的視頻內(nèi)容。
為了驗(yàn)證這套系統(tǒng)的實(shí)際效果,研究團(tuán)隊(duì)還專門構(gòu)建了一個(gè)名為"LongVGenBench"的測(cè)試數(shù)據(jù)集。這個(gè)數(shù)據(jù)集就像是視頻生成領(lǐng)域的"標(biāo)準(zhǔn)化考試題庫",包含了100個(gè)高質(zhì)量的長(zhǎng)視頻,每個(gè)都超過一分鐘,涵蓋了從現(xiàn)實(shí)世界的自然風(fēng)光到游戲場(chǎng)景的虛擬環(huán)境等各種復(fù)雜情況。這些測(cè)試視頻的分辨率達(dá)到1080p,相當(dāng)于我們?nèi)粘S^看的高清視頻標(biāo)準(zhǔn),為評(píng)估AI系統(tǒng)的實(shí)際應(yīng)用能力提供了嚴(yán)格而全面的測(cè)試標(biāo)準(zhǔn)。
研究團(tuán)隊(duì)通過大量實(shí)驗(yàn)對(duì)比發(fā)現(xiàn),LongVie在多個(gè)關(guān)鍵指標(biāo)上都顯著超越了現(xiàn)有的最先進(jìn)方法。在時(shí)間一致性方面,LongVie生成的視頻就像是由專業(yè)攝影師使用穩(wěn)定器拍攝的作品,畫面過渡自然流暢,沒有突兀的跳躍或閃爍。在視覺質(zhì)量保持方面,即使是長(zhǎng)達(dá)一分鐘的視頻,最后幾秒的畫面質(zhì)量仍然與開頭幾秒保持同樣的清晰度和色彩飽和度,這在以前的技術(shù)中是很難實(shí)現(xiàn)的。
更重要的是,LongVie不僅僅是一個(gè)視頻生成工具,它更像是一個(gè)多功能的創(chuàng)意平臺(tái)。研究團(tuán)隊(duì)展示了三種具體的應(yīng)用場(chǎng)景,每一種都展現(xiàn)了這項(xiàng)技術(shù)的實(shí)用潛力。
第一種應(yīng)用是視頻編輯,這就像擁有了一位永不疲倦的視頻剪輯師。用戶只需要提供一個(gè)初始畫面和一些簡(jiǎn)單的控制指令,LongVie就能自動(dòng)生成符合要求的長(zhǎng)視頻內(nèi)容。比如,用戶想要將視頻中的某個(gè)人物替換成另一個(gè)角色,傳統(tǒng)方法可能需要逐幀手工處理,而LongVie可以理解整體的人物動(dòng)作和場(chǎng)景變化,自動(dòng)完成整個(gè)替換過程,確保新角色的動(dòng)作與原始視頻完美同步。
第二種應(yīng)用是動(dòng)作和場(chǎng)景轉(zhuǎn)移,這個(gè)功能特別有趣,就像是給視頻施了"變身魔法"。研究團(tuán)隊(duì)展示了如何將一個(gè)人騎馬在草原上奔跑的動(dòng)作,轉(zhuǎn)移到完全不同的場(chǎng)景中,比如未來科幻城市或者古代宮殿。在這個(gè)過程中,人物的騎馬動(dòng)作保持完全一致,但背景環(huán)境發(fā)生了徹底改變,創(chuàng)造出了全新的視覺體驗(yàn)。這種技術(shù)對(duì)于電影制作來說具有巨大價(jià)值,制作團(tuán)隊(duì)可以在綠幕環(huán)境中拍攝演員表演,然后使用LongVie將其無縫融入任何想象中的場(chǎng)景。
第三種應(yīng)用是從3D模型生成視頻,這個(gè)功能將游戲開發(fā)和動(dòng)畫制作的工作流程徹底簡(jiǎn)化了。傳統(tǒng)上,要將一個(gè)3D角色模型轉(zhuǎn)換成生動(dòng)的視頻動(dòng)畫,需要專業(yè)的建模師、動(dòng)畫師和渲染工程師通力合作,整個(gè)過程可能需要數(shù)周時(shí)間。而LongVie可以直接理解3D模型的結(jié)構(gòu)和動(dòng)作設(shè)定,自動(dòng)生成逼真的視頻動(dòng)畫,就像是為靜態(tài)的3D模型注入了生命力。
當(dāng)然,這項(xiàng)技術(shù)目前也存在一些限制,主要體現(xiàn)在計(jì)算資源需求和處理時(shí)間上。生成一分鐘的高質(zhì)量視頻需要大約45分鐘的處理時(shí)間,這就像用高端單反相機(jī)拍攝RAW格式照片后需要后期處理一樣,質(zhì)量的提升往往伴隨著時(shí)間成本的增加。此外,目前的輸出分辨率雖然已達(dá)到實(shí)用水平,但要達(dá)到電影級(jí)別的4K或8K畫質(zhì),還需要進(jìn)一步的技術(shù)突破。
從更廣闊的視角來看,LongVie代表了AI視頻生成技術(shù)的一個(gè)重要里程碑。它不僅解決了長(zhǎng)時(shí)間視頻生成的技術(shù)難題,更為未來的內(nèi)容創(chuàng)作開辟了新的可能性。我們可以想象,在不久的將來,普通用戶只需要簡(jiǎn)單描述自己的創(chuàng)意想法,AI就能幫助生成專業(yè)水準(zhǔn)的視頻內(nèi)容,這將徹底改變內(nèi)容創(chuàng)作的門檻和方式。
對(duì)于內(nèi)容創(chuàng)作者來說,這項(xiàng)技術(shù)就像是擁有了一個(gè)永不疲倦的創(chuàng)作助手,可以快速將創(chuàng)意概念轉(zhuǎn)化為視覺作品。對(duì)于教育工作者來說,復(fù)雜的概念可以通過生動(dòng)的視頻演示變得更容易理解。對(duì)于企業(yè)來說,產(chǎn)品宣傳和培訓(xùn)材料的制作成本將大大降低。
說到底,LongVie的出現(xiàn)標(biāo)志著我們正在進(jìn)入一個(gè)新的視覺創(chuàng)作時(shí)代。就像數(shù)碼相機(jī)的出現(xiàn)讓攝影從專業(yè)人士的專屬技能變成了大眾化的表達(dá)方式一樣,AI視頻生成技術(shù)也將讓高質(zhì)量的視頻制作變得更加普及和便捷。當(dāng)然,技術(shù)的進(jìn)步也帶來了新的思考,比如如何在享受AI帶來的便利的同時(shí),保持人類創(chuàng)意的獨(dú)特價(jià)值,以及如何確保這項(xiàng)技術(shù)被負(fù)責(zé)任地使用。
這項(xiàng)研究的意義遠(yuǎn)不止于技術(shù)本身的突破,它更像是為我們打開了一扇通往未來創(chuàng)作世界的大門。在這個(gè)世界里,每個(gè)人都可能成為自己故事的導(dǎo)演,用AI作為工具來實(shí)現(xiàn)那些曾經(jīng)只存在于想象中的視覺奇跡。有興趣深入了解這項(xiàng)技術(shù)細(xì)節(jié)的讀者,可以通過訪問研究團(tuán)隊(duì)的項(xiàng)目網(wǎng)站https://vchitect.github.io/LongVie-project/獲取完整的論文和演示材料。
Q&A
Q1:LongVie視頻生成系統(tǒng)能做什么?和現(xiàn)有的AI視頻工具有什么區(qū)別?
A:LongVie是一個(gè)能夠生成長(zhǎng)達(dá)一分鐘高質(zhì)量可控視頻的AI系統(tǒng),最大特點(diǎn)是能精確控制視頻內(nèi)容并保持畫面的時(shí)間一致性。與現(xiàn)有工具相比,它解決了長(zhǎng)視頻生成中的畫面跳躍、質(zhì)量下降等關(guān)鍵問題,就像從制作短片升級(jí)到制作完整電影的能力提升。
Q2:普通用戶現(xiàn)在可以使用LongVie嗎?需要什么樣的設(shè)備?
A:目前LongVie還處于研究階段,普通用戶暫時(shí)無法直接使用。根據(jù)論文描述,生成一分鐘視頻需要約45分鐘處理時(shí)間和專業(yè)級(jí)顯卡支持。不過研究團(tuán)隊(duì)已經(jīng)公開了相關(guān)技術(shù)細(xì)節(jié),未來可能會(huì)有商業(yè)化產(chǎn)品基于這項(xiàng)技術(shù)開發(fā)。
Q3:LongVie生成的視頻質(zhì)量如何?能達(dá)到專業(yè)制作水準(zhǔn)嗎?
A:LongVie生成的視頻分辨率可達(dá)720p,在時(shí)間一致性和視覺質(zhì)量方面顯著超越現(xiàn)有技術(shù)。雖然還未達(dá)到電影級(jí)4K畫質(zhì),但已經(jīng)能滿足大多數(shù)商業(yè)和教育應(yīng)用需求。研究顯示其在多項(xiàng)評(píng)估指標(biāo)上都達(dá)到了當(dāng)前最先進(jìn)水平。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對(duì)話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。