av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 南洋理工大學團隊突破:兩分鐘長視頻生成不再是夢想

南洋理工大學團隊突破:兩分鐘長視頻生成不再是夢想

2025-07-25 11:47
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-07-25 11:47 ? 科技行者

這項由新加坡南洋理工大學S-Lab實驗室、商湯科技以及北京大學王選計算機技術研究所的研究團隊共同完成的突破性研究發(fā)表于2025年7月,論文題為《TokensGen: Harnessing Condensed Tokens for Long Video Generation》。研究的主要負責人包括歐陽文琦、肖澤琦、楊丹妮、周易凡等多位學者,有興趣深入了解的讀者可以通過arXiv:2507.15728v1訪問完整論文。

當你在抖音或YouTube上觀看一段精彩的長視頻時,你可能從未想過,讓計算機自動生成這樣一段連貫流暢的長視頻有多么困難。就像讓一個初學者畫出一幅長卷畫一樣,雖然可能畫好其中某一小段,但要保持整幅畫的風格統(tǒng)一、故事連貫,幾乎是不可能完成的任務。現(xiàn)在,這個看似不可能的挑戰(zhàn)被南洋理工大學的研究團隊成功攻克了。

目前的人工智能視頻生成技術雖然能夠創(chuàng)造出令人印象深刻的短視頻片段,但當需要生成更長的視頻內(nèi)容時,就會遇到兩個核心難題。第一個問題類似于電腦內(nèi)存不足,當視頻變長時,計算機需要處理的信息量急劇增加,很容易導致系統(tǒng)崩潰或運行極慢。第二個問題更像是連環(huán)畫的銜接問題,雖然單獨看每一幅畫都很精美,但連在一起時卻發(fā)現(xiàn)人物的服裝顏色變了,背景突然換了,故事情節(jié)也變得支離破碎。

研究團隊提出的TokensGen解決方案就像是為視頻生成找到了一套全新的"編劇和導演"系統(tǒng)。這個系統(tǒng)的核心思想是將長視頻的制作分解為三個相互配合的任務,每個任務都有專門的"工作人員"負責。

第一個任務由To2V模塊負責,可以把它想象成一位經(jīng)驗豐富的攝影師。這位攝影師不僅會根據(jù)劇本(文字描述)來拍攝畫面,還會參考導演提供的關鍵場景示意圖(視頻標記)來確保每個鏡頭都準確傳達想要表達的內(nèi)容。與傳統(tǒng)攝影師只能依據(jù)文字劇本不同,這位AI攝影師能夠同時理解文字描述和視覺線索,從而拍出更加精準的畫面。

這里有一個關鍵的創(chuàng)新點,就是視頻標記器的使用??梢园阉茸饕粋€超級壓縮專家,能夠?qū)⒁欢瓮暾囊曨l濃縮成幾個關鍵的"DNA片段"。這些DNA片段雖然看起來很小,但包含了原視頻的所有重要信息,包括畫面構圖、角色動作、場景變化等。就像一粒種子雖然微小,卻包含了整棵大樹的所有遺傳信息一樣。

第二個任務交給T2To模塊處理,它的作用相當于一位總體規(guī)劃師。當你想要拍攝一部兩分鐘的長視頻時,這位規(guī)劃師會首先從整體角度考慮整個視頻的脈絡和邏輯。它不會像傳統(tǒng)方法那樣一段一段地生成視頻,而是一開始就規(guī)劃好整部視頻的所有關鍵節(jié)點,確保從頭到尾的故事線索都保持連貫。這就像建筑師在動工之前就畫好了整棟樓的完整設計圖,而不是蓋一層想一層。

這種全局規(guī)劃的好處在于能夠避免傳統(tǒng)方法中常見的"錯誤積累"問題。傳統(tǒng)的自動生成方法就像接龍游戲,每個人只能看到前一個人寫的內(nèi)容,結果往往越到后面偏離主題越遠。而T2To模塊采用的方法更像是先寫好完整的故事大綱,然后再逐章填充內(nèi)容,從而保證整個故事的邏輯性和連貫性。

第三個創(chuàng)新點是自適應FIFO擴散策略,這個技術解決的是相鄰視頻片段之間的銜接問題。傳統(tǒng)的視頻生成方法在連接不同片段時,經(jīng)常會出現(xiàn)突兀的跳躍,就像電影剪輯時出現(xiàn)的"穿幫鏡頭"。研究團隊開發(fā)的這套策略就像是一位專業(yè)的剪輯師,能夠巧妙地處理片段之間的過渡,讓整個視頻看起來渾然一體。

這種處理方式的巧妙之處在于它采用了"對角線去噪"的技術。簡單來說,就是在處理相鄰片段的連接時,不是簡單粗暴地把兩段視頻拼在一起,而是讓它們在時間維度上有一個漸進的融合過程。這就像調(diào)色師在處理兩種顏色的過渡時,不是直接拼接,而是創(chuàng)造一個自然的漸變效果。

研究團隊的實驗結果證明了這套方法的有效性。他們使用了包含長視頻和結構化說明文字的MiraData數(shù)據(jù)集進行訓練,這個數(shù)據(jù)集包含了56000個視頻樣本。在訓練To2V模型時,他們從這些長視頻中隨機選取49幀的片段,以10幀每秒的速度進行處理。對于T2To模型的訓練,他們特別篩選出了16000個高質(zhì)量的長視頻,這些視頻至少有一分鐘長,主要包含游戲畫面和自然風景。

為了確保訓練效果,研究團隊還采用了漸進式學習策略。這就像學習繪畫時先從簡單的幾何圖形開始,然后逐漸過渡到復雜的人物肖像。他們先用較小的標記尺寸訓練模型1200次迭代,然后再轉(zhuǎn)換到完整尺寸繼續(xù)訓練2600次。這種漸進式的訓練方法幫助模型更好地收斂,能夠處理更復雜的長視頻生成任務。

在與其他先進方法的對比實驗中,TokensGen展現(xiàn)出了明顯的優(yōu)勢。研究團隊將他們的方法與Video-Infinity、DiTCtrl、Kling等當前主流的長視頻生成方法進行了詳細對比。結果顯示,其他方法在生成長視頻時都存在各自的問題。Video-Infinity雖然能產(chǎn)生一些過渡效果,但主要角色和場景往往保持靜態(tài),缺乏生動性。DiTCtrl在某些關鍵幀上表現(xiàn)不錯,但片段之間的過渡經(jīng)常顯得突兀,導致故事情節(jié)不連貫。Kling雖然能保持視覺一致性,但經(jīng)常出現(xiàn)不合理的運動,比如角色突然改變運動方向。

更重要的是,傳統(tǒng)的FIFO方法在處理復雜場景時會出現(xiàn)過度飽和和顏色突變的問題,特別是在生成數(shù)百幀的長視頻時這些問題更加明顯。相比之下,TokensGen能夠在整個兩分鐘的視頻中保持平滑的運動過渡和穩(wěn)定的角色表現(xiàn),完全符合輸入的文字描述。

在量化評估方面,研究團隊使用了VBench評測標準對100個隨機選擇的提示詞進行了測試。TokensGen在運動平滑度和動態(tài)程度兩個關鍵指標上都取得了最高分??紤]到某些評測指標可能偏向于動態(tài)較少的視頻,研究團隊還組織了人工評估,邀請24位參與者對不同方法生成的視頻進行盲測評分。結果顯示,TokensGen在文字-視覺對齊和運動內(nèi)容一致性兩個維度上都明顯優(yōu)于其他方法,分別獲得了75.69%和75.74%的支持率。

研究團隊還進行了詳細的消融實驗來驗證各個組件的重要性。他們測試了不同的視頻條件整合策略,包括不同的壓縮標記尺寸、是否使用通道投影,以及與超分辨率方法的對比。結果表明,適當大小的壓縮標記(4×8×12)能夠在保持語義保真度和計算效率之間取得最佳平衡。而基于PCA的投影方法提供了一種輕量級而有效的降維方案,在不犧牲圖像質(zhì)量的情況下減少了計算負擔。

關于FIFO擴散策略的改進效果,實驗結果清楚地顯示了自適應填充技術的重要性。沒有使用FIFO的版本在相鄰片段之間會出現(xiàn)突兀的場景變化,角色可能會瞬間移動或背景突然改變。而使用傳統(tǒng)FIFO但沒有自適應填充的版本在視頻開頭會產(chǎn)生嚴重的畫面瑕疵,因為模型依賴的重復幀偏離了訓練數(shù)據(jù)的分布。相比之下,完整的TokensGen系統(tǒng)能夠在片段邊界處實現(xiàn)自然的過渡,防止不自然的不連續(xù)現(xiàn)象。

除了長視頻生成之外,TokensGen還展現(xiàn)出了優(yōu)秀的視頻編輯能力。To2V模型能夠整合文本提示和源視頻數(shù)據(jù),實現(xiàn)在保持原始視頻基本結構的同時注入新的語義內(nèi)容的變換。這種能力特別適用于各種長視頻編輯場景,比如改變視頻的風格、替換場景元素或者調(diào)整整體色調(diào)。

實驗結果顯示,這種編輯方法能夠在保持原視頻時間結構和主要動作的基礎上,根據(jù)新的文本描述對視頻內(nèi)容進行相應的修改。比如,可以將一段雪地行駛的視頻轉(zhuǎn)換成沙漠場景,或者將白天的場景改為黃昏時分,同時保持車輛行駛的路徑和速度基本不變。

TokensGen框架的一個重要優(yōu)勢是其模塊化設計。由于每個組件都有明確的功能定位,這套系統(tǒng)可以很容易地與其他短期控制策略或多提示組合框架進行集成。這種靈活性意味著該方法不僅是一個獨立的解決方案,更可以作為一個基礎平臺,為未來的視頻生成技術發(fā)展提供支撐。

與其他長視頻生成方法相比,TokensGen通過利用預訓練的短視頻模型,繼承了強大的知識先驗和架構設計,使得從短片段到分鐘級序列的轉(zhuǎn)換變得更加順暢,無需大量的重新設計。通過將長視頻編碼為壓縮的標記表示,大大降低了分鐘級視頻生成的計算開銷。

當然,這項研究也存在一些局限性。由于專注于高級語義信息,標記化的方法可能無法保留所有細粒度的細節(jié),在擴展序列中可能會導致前景對象的逐漸變化。在復雜場景中,壓縮標記可能無法充分捕獲復雜的時空線索,需要更精細的標記化和比無調(diào)優(yōu)FIFO更強的短期一致性策略。目前的框架是在有限的游戲和風景視頻數(shù)據(jù)集上訓練和測試的,但可擴展到更大的數(shù)據(jù)集以支持更廣泛的應用。

研究團隊指出,未來的工作可能會探索多尺度標記化或混合表示方法,以增強細粒度的可控性,在保持可擴展性和資源效率的同時保留細微屬性。這樣的改進將使TokensGen能夠處理更加復雜和多樣化的視頻生成任務。

說到底,TokensGen為長視頻生成領域帶來了一個全新的解決思路。通過巧妙地結合壓縮標記技術、全局一致性控制和智能片段銜接,這套系統(tǒng)成功突破了傳統(tǒng)方法在內(nèi)存限制和長期一致性方面的瓶頸。對于普通用戶來說,這意味著未來我們可能會看到更多高質(zhì)量的AI生成長視頻內(nèi)容,無論是用于教育、娛樂還是創(chuàng)意表達。這項技術的成熟將大大降低視頻內(nèi)容創(chuàng)作的門檻,讓更多人能夠參與到視頻創(chuàng)作中來。當然,隨著技術的進步,我們也需要思考如何在享受AI帶來便利的同時,保持對內(nèi)容真實性和創(chuàng)作倫理的關注。有興趣深入了解技術細節(jié)的讀者可以訪問研究團隊的項目網(wǎng)頁或查閱完整的論文文檔。

Q&A Q1:TokensGen生成的長視頻有多長?效果如何? A:TokensGen能夠生成長達2分鐘(約1200幀)的連貫視頻。與傳統(tǒng)方法相比,它在運動平滑度和內(nèi)容一致性方面表現(xiàn)顯著更好,能避免常見的場景跳躍、角色突變等問題,生成的視頻在整個時長內(nèi)都能保持與文字描述的高度一致。

Q2:這項技術會不會很耗費計算資源? A:恰恰相反,TokensGen通過壓縮標記技術大大降低了計算開銷。它將視頻壓縮成語義豐富的小標記,實現(xiàn)了約3×8×8的壓縮比,相比直接處理原始視頻幀,大幅減少了內(nèi)存需求和計算時間。

Q3:普通人能使用TokensGen來創(chuàng)作視頻嗎? A:目前TokensGen還處于研究階段,普通用戶暫時無法直接使用。不過研究團隊已經(jīng)開源了相關代碼和模型,技術開發(fā)者可以基于此進行應用開發(fā)。隨著技術成熟,未來很可能會有基于此技術的消費級視頻生成產(chǎn)品面世。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-