這項(xiàng)令人矚目的研究來自字節(jié)跳動的Waver團(tuán)隊(duì),于2025年8月發(fā)表。有興趣深入了解技術(shù)細(xì)節(jié)的讀者可以通過arXiv:2508.15761v1訪問完整論文。這個研究團(tuán)隊(duì)不僅在技術(shù)上實(shí)現(xiàn)了重大突破,更在實(shí)際應(yīng)用效果上達(dá)到了前所未有的高度。
當(dāng)你在抖音或其他視頻平臺上看到那些精美的短視頻時,是否想過有一天只需要輸入幾個文字,AI就能為你生成同樣精彩的內(nèi)容?字節(jié)跳動的研究團(tuán)隊(duì)剛剛讓這個夢想變成了現(xiàn)實(shí)。他們開發(fā)的Waver系統(tǒng)就像一個超級智能的電影制作助手,不僅能根據(jù)你的文字描述生成5到10秒的高清視頻,還能將分辨率從720p提升到1080p,畫質(zhì)堪比專業(yè)攝影作品。
更令人驚喜的是,Waver不僅能憑空創(chuàng)造視頻內(nèi)容,還能接受你提供的圖片,然后讓圖片中的場景"動起來"。這就好比你有一張靜止的照片,Waver能夠理解照片中的內(nèi)容,然后為它續(xù)寫一個生動的故事情節(jié)。而且,這個AI助手還特別擅長處理復(fù)雜的運(yùn)動場景,比如籃球比賽、體操表演或網(wǎng)球?qū)?zhàn)等,這些在以往的AI視頻生成中都是公認(rèn)的難題。
在全球權(quán)威的AI視頻生成排行榜Artificial Analysis上,Waver在文本生成視頻和圖片生成視頻兩個賽道中都躋身前三名,這意味著它已經(jīng)能夠與谷歌、快手等科技巨頭的頂級產(chǎn)品分庭抗禮。更重要的是,字節(jié)跳動團(tuán)隊(duì)將他們的研究方法和訓(xùn)練秘訣全部公開分享,這就像是把一本珍貴的"武功秘籍"免費(fèi)送給了整個科技界。
一、統(tǒng)一架構(gòu)設(shè)計(jì):一個模型搞定三種任務(wù)
在傳統(tǒng)的AI視頻生成領(lǐng)域,就像你需要三把不同的鑰匙來開三扇不同的門一樣,研究人員通常需要分別訓(xùn)練三個獨(dú)立的模型來處理文本生成圖片、文本生成視頻和圖片生成視頻這三種不同任務(wù)。這不僅浪費(fèi)大量的計(jì)算資源和訓(xùn)練時間,而且三個模型之間無法相互學(xué)習(xí)和促進(jìn)。
Waver的創(chuàng)新之處在于設(shè)計(jì)了一種"萬能鑰匙"式的統(tǒng)一架構(gòu)。研究團(tuán)隊(duì)巧妙地設(shè)計(jì)了一種三部分輸入機(jī)制,就像制作三明治一樣,將不同類型的信息分層處理。第一層是主要的"噪聲潛在表示"(可以理解為待生成內(nèi)容的原始材料),第二層是"條件幀張量"(包含任何已知的參考圖片信息),第三層是"二進(jìn)制條件掩碼"(用來標(biāo)記哪些是已知內(nèi)容,哪些需要生成)。
這種設(shè)計(jì)的巧妙之處在于其極強(qiáng)的靈活性。當(dāng)系統(tǒng)需要處理文本生成圖片任務(wù)時,條件幀張量就填充黑色圖像,掩碼全部標(biāo)記為"需要生成";當(dāng)處理圖片生成視頻時,條件幀張量包含用戶提供的參考圖片,掩碼標(biāo)記該幀為"已知",其他幀為"需要生成"。這就好比有一個智能廚師,無論你提供什么原料,都能靈活調(diào)整烹飪方法來制作出你想要的菜品。
在架構(gòu)設(shè)計(jì)上,Waver采用了創(chuàng)新的"混合流"設(shè)計(jì)理念。系統(tǒng)前面部分使用"雙流"設(shè)計(jì),就像雙車道高速公路一樣,視頻信息和文本信息各走各的專用通道,但在關(guān)鍵節(jié)點(diǎn)會進(jìn)行信息交匯,確保兩種信息能夠充分理解和配合。這種設(shè)計(jì)讓系統(tǒng)能夠更好地理解文本描述和視頻內(nèi)容之間的對應(yīng)關(guān)系。
系統(tǒng)后半部分則切換到"單流"設(shè)計(jì),就像雙車道匯合成單車道一樣,將已經(jīng)充分交流的信息合并處理,提高計(jì)算效率。這種混合設(shè)計(jì)既保證了不同模態(tài)信息的充分對齊,又兼顧了計(jì)算效率,是一個非常聰明的工程解決方案。
為了更好地處理時空信息,研究團(tuán)隊(duì)還設(shè)計(jì)了混合位置編碼機(jī)制。這就像給視頻中的每個像素點(diǎn)都標(biāo)上了精確的"時空坐標(biāo)",不僅記錄它在畫面中的位置(空間坐標(biāo)),還記錄它出現(xiàn)的時間點(diǎn)(時間坐標(biāo))。這種編碼方式讓系統(tǒng)能夠更好地理解和生成復(fù)雜的運(yùn)動模式,特別是在處理長時間視頻和高分辨率內(nèi)容時表現(xiàn)出色。
二、兩階段生成策略:先畫草圖再精修細(xì)節(jié)
直接生成1080p高分辨率視頻就像試圖一口氣登上珠穆朗瑪峰一樣,不僅極其耗費(fèi)計(jì)算資源,而且成功率很低。Waver采用了更加聰明的兩階段策略,就像專業(yè)畫家先畫素描草圖,然后再添加細(xì)節(jié)和色彩一樣。
第一階段使用任務(wù)統(tǒng)一DiT模型生成720p分辨率的視頻。這個階段就像是制作視頻的"毛坯房",確定基本的場景布局、人物動作和故事情節(jié)。雖然分辨率不是最高的,但所有關(guān)鍵信息都已經(jīng)包含在內(nèi)了。這種方法讓系統(tǒng)能夠?qū)W⒂诶斫庥脩粜枨蠛蜕珊侠淼囊曨l內(nèi)容,而不被高分辨率的技術(shù)難題所困擾。
第二階段的級聯(lián)精煉器就像專業(yè)的裝修團(tuán)隊(duì),接手這個720p的"毛坯房",將其升級改造為1080p的"精裝房"。這個精煉器使用了窗口注意力機(jī)制來提高效率,就像裝修工人分區(qū)域作業(yè)一樣,將整個視頻畫面分割成小窗口,每次只處理局部區(qū)域,但通過巧妙的協(xié)調(diào)確保整體效果的連貫性。
更有趣的是,精煉器不僅僅是簡單的分辨率提升,它還具備一定的"視頻編輯"能力。研究團(tuán)隊(duì)發(fā)現(xiàn),當(dāng)調(diào)整某些參數(shù)時,精煉器甚至能夠修改視頻中的對象。比如,它能將視頻中的女性角色替換為男性角色,同時保持其他所有內(nèi)容不變。這種能力為未來的視頻編輯應(yīng)用開啟了新的可能性。
為了訓(xùn)練這個精煉器,研究團(tuán)隊(duì)設(shè)計(jì)了巧妙的數(shù)據(jù)準(zhǔn)備方法。他們首先對高清視頻進(jìn)行降質(zhì)處理,制造出"有缺陷"的低分辨率版本,然后訓(xùn)練精煉器學(xué)會如何將這些"有缺陷"的視頻恢復(fù)到原始的高清質(zhì)量。這就像訓(xùn)練一個修復(fù)師,讓他學(xué)會如何將破損的古畫恢復(fù)到原本的精美狀態(tài)。
這種兩階段設(shè)計(jì)的另一個重要優(yōu)勢是計(jì)算效率的顯著提升。相比直接生成1080p視頻,這種方法能夠節(jié)省大約40%的計(jì)算時間,這對于實(shí)際應(yīng)用來說是一個巨大的優(yōu)勢。畢竟,用戶等待視頻生成的時間越短,使用體驗(yàn)就越好。
三、海量數(shù)據(jù)精細(xì)篩選:2億視頻片段的"優(yōu)勝劣汰"
任何優(yōu)秀的AI模型都離不開高質(zhì)量的訓(xùn)練數(shù)據(jù),就像培養(yǎng)一個優(yōu)秀的廚師需要讓他品嘗各種頂級食材一樣。Waver團(tuán)隊(duì)建立了一個極其嚴(yán)格的數(shù)據(jù)篩選流程,從海量原始視頻中精心挑選出最適合訓(xùn)練的內(nèi)容。
整個數(shù)據(jù)處理流程就像一個層層遞進(jìn)的"選秀節(jié)目"。首先是海選階段,系統(tǒng)從多個來源收集原始視頻數(shù)據(jù),確保內(nèi)容的多樣性和豐富性。特別值得注意的是,對于那些特別有挑戰(zhàn)性的場景,比如復(fù)雜的球類運(yùn)動或高難度體操動作,團(tuán)隊(duì)還專門進(jìn)行了針對性的數(shù)據(jù)收集和補(bǔ)充。
接下來是分段處理階段,就像將長篇小說分解成若干個短篇故事一樣。系統(tǒng)使用智能場景檢測技術(shù),自動識別視頻中的場景變換點(diǎn),然后將長視頻切分成2到10秒的短片段。對于超過10秒的片段,系統(tǒng)還會進(jìn)一步分析其內(nèi)部的動作變化,選擇那些動作幅度最大、最具代表性的片段,確保訓(xùn)練數(shù)據(jù)的質(zhì)量和多樣性。
數(shù)據(jù)質(zhì)量評估階段更像是嚴(yán)格的"體檢"過程。每個視頻片段都要接受多維度的質(zhì)量檢查,包括技術(shù)質(zhì)量評估(幀率、分辨率、碼率等),美學(xué)質(zhì)量評估(構(gòu)圖、光線、色彩等),以及動態(tài)質(zhì)量評估(運(yùn)動幅度、運(yùn)動連貫性等)。系統(tǒng)還會使用光學(xué)流計(jì)算技術(shù)來分析視頻中的運(yùn)動模式,確保篩選出的視頻具有豐富而自然的動作內(nèi)容。
為了進(jìn)一步提升數(shù)據(jù)質(zhì)量,團(tuán)隊(duì)還訓(xùn)練了專門的視頻質(zhì)量評估模型。這個模型基于多模態(tài)大語言模型架構(gòu),能夠像人類專家一樣對視頻進(jìn)行綜合評判。它不僅能識別明顯的技術(shù)缺陷,比如模糊、閃爍或色彩失真,還能發(fā)現(xiàn)更加微妙的問題,比如不自然的運(yùn)動模式或不合理的物理現(xiàn)象。
最終,整個訓(xùn)練過程使用了超過2億個精心篩選的視頻片段。這些數(shù)據(jù)經(jīng)過了嚴(yán)格的分層過濾,在不同的訓(xùn)練階段使用不同質(zhì)量標(biāo)準(zhǔn)的數(shù)據(jù)。早期訓(xùn)練階段使用相對寬松的標(biāo)準(zhǔn),確保模型能夠?qū)W習(xí)到豐富多樣的內(nèi)容;后期精調(diào)階段則使用最嚴(yán)格的質(zhì)量標(biāo)準(zhǔn),只保留那些最優(yōu)質(zhì)的樣本,確保最終模型的生成質(zhì)量。
四、訓(xùn)練秘訣大公開:從粗糙到精美的進(jìn)化之路
Waver的訓(xùn)練過程就像培養(yǎng)一個從零開始學(xué)畫畫的學(xué)生一樣,需要循序漸進(jìn),從簡單到復(fù)雜,從粗糙到精細(xì)。整個訓(xùn)練過程被精心設(shè)計(jì)為多個階段,每個階段都有明確的目標(biāo)和特定的訓(xùn)練策略。
訓(xùn)練的第一步是讓模型學(xué)會理解文字和圖片的對應(yīng)關(guān)系。這就像教小朋友認(rèn)字一樣,先從最基礎(chǔ)的文本生成圖片任務(wù)開始。系統(tǒng)從256像素的小圖片開始學(xué)習(xí),逐步提升到512像素、1024像素,就像學(xué)畫畫先從簡筆畫開始,然后逐漸學(xué)會畫更復(fù)雜、更精細(xì)的作品。這個階段的重點(diǎn)是讓模型建立起文字描述和視覺內(nèi)容之間的基本對應(yīng)關(guān)系。
接下來是動態(tài)內(nèi)容的學(xué)習(xí)階段。系統(tǒng)開始處理視頻生成任務(wù),但同樣遵循從簡單到復(fù)雜的原則。先從192像素、12幀每秒的低分辨率視頻開始,然后提升到16幀每秒,最后到480像素、16幀每秒。這種漸進(jìn)式訓(xùn)練方法讓模型能夠先學(xué)會基本的運(yùn)動規(guī)律,然后再學(xué)習(xí)更復(fù)雜的動作細(xì)節(jié)。
研究團(tuán)隊(duì)發(fā)現(xiàn)了一個非常重要的訓(xùn)練技巧,就是低分辨率視頻訓(xùn)練對于運(yùn)動學(xué)習(xí)的重要性。這就像學(xué)舞蹈時先學(xué)基本動作,后學(xué)復(fù)雜編舞一樣。通過在低分辨率階段充分訓(xùn)練,模型能夠更好地理解運(yùn)動的本質(zhì)規(guī)律,而不會被高分辨率的視覺細(xì)節(jié)所干擾。實(shí)驗(yàn)證明,跳過低分辨率訓(xùn)練而直接進(jìn)行高分辨率訓(xùn)練的模型,在運(yùn)動生成方面明顯不如經(jīng)過完整漸進(jìn)訓(xùn)練的模型。
在訓(xùn)練過程中,團(tuán)隊(duì)還采用了多任務(wù)聯(lián)合訓(xùn)練策略。這就像讓學(xué)生同時學(xué)習(xí)多門相關(guān)課程一樣,文本生成圖片、文本生成視頻和圖片生成視頻三個任務(wù)被巧妙地結(jié)合在一起。這種方法不僅提高了訓(xùn)練效率,更重要的是讓不同任務(wù)之間能夠相互促進(jìn)和學(xué)習(xí)。
特別值得注意的是團(tuán)隊(duì)在運(yùn)動優(yōu)化方面的創(chuàng)新。他們發(fā)現(xiàn)傳統(tǒng)的時間步采樣策略并不適合視頻生成任務(wù),于是設(shè)計(jì)了專門的"模式采樣"方法。這種方法就像調(diào)整相機(jī)的快門速度一樣,能夠更好地捕捉動作的關(guān)鍵時刻,生成更大幅度、更自然的運(yùn)動效果。
為了提升視覺質(zhì)量,團(tuán)隊(duì)還引入了合成數(shù)據(jù)增強(qiáng)策略。他們使用模型本身生成高質(zhì)量的合成視頻樣本,然后通過嚴(yán)格的人工篩選,只保留那些質(zhì)量最高的樣本用于進(jìn)一步訓(xùn)練。這就像讓學(xué)生不僅學(xué)習(xí)教科書,還要學(xué)習(xí)優(yōu)秀同學(xué)的作品一樣,能夠快速提升整體水平。
五、性能表現(xiàn):挑戰(zhàn)行業(yè)巨頭的實(shí)力證明
Waver的實(shí)際表現(xiàn)就像一匹突然殺出的黑馬,在各種評測中都展現(xiàn)出了令人驚艷的實(shí)力。在全球最權(quán)威的AI視頻生成排行榜Artificial Analysis上,Waver在文本生成視頻和圖片生成視頻兩個賽道都穩(wěn)居前三名,與谷歌Veo、快手Kling等行業(yè)頂級產(chǎn)品并駕齊驅(qū)。
更令人印象深刻的是Waver在復(fù)雜運(yùn)動場景中的表現(xiàn)。研究團(tuán)隊(duì)專門設(shè)計(jì)了"赫爾墨斯運(yùn)動測試集",專門收集了各種高難度的體育運(yùn)動場景,比如網(wǎng)球?qū)?zhàn)、籃球比賽、體操表演等。這些場景對AI來說就像是"地獄級難度"的挑戰(zhàn),因?yàn)樗鼈儾粌H包含快速復(fù)雜的動作,還涉及多個對象之間的互動和物理規(guī)律的準(zhǔn)確表現(xiàn)。
在這個嚴(yán)苛的測試中,Waver展現(xiàn)出了明顯的優(yōu)勢。在運(yùn)動質(zhì)量方面,它比谷歌Veo3的勝率達(dá)到55%,比快手Kling2.0的勝率為45%,比開源模型Wan2.1的勝率更是高達(dá)47%。這意味著在大部分情況下,專業(yè)評估人員都認(rèn)為Waver生成的運(yùn)動效果更自然、更符合物理規(guī)律。
在通用場景的表現(xiàn)上,Waver同樣不俗。團(tuán)隊(duì)自建的Waver-bench 1.0基準(zhǔn)測試包含了304個覆蓋各種日常場景的測試樣本,從體育活動到日常生活,從風(fēng)景展示到動物行為,應(yīng)有盡有。在這個綜合性測試中,Waver在視覺質(zhì)量和運(yùn)動質(zhì)量方面都表現(xiàn)出色,特別是在視覺質(zhì)量方面,相比其他模型有明顯優(yōu)勢。
值得特別提到的是Waver在提示詞跟隨方面的表現(xiàn)。這個能力就像理解能力測試一樣,檢驗(yàn)AI是否能準(zhǔn)確理解用戶的文字描述并生成相應(yīng)的視頻內(nèi)容。雖然在這個方面Waver相比谷歌Veo3還有一定差距,但相比其他競品已經(jīng)有了明顯優(yōu)勢,而且團(tuán)隊(duì)正在通過prompt重寫等技術(shù)不斷改進(jìn)這一能力。
更有意思的是,Waver還展現(xiàn)出了很強(qiáng)的風(fēng)格適應(yīng)能力。通過簡單的提示詞標(biāo)簽,它能夠生成各種不同風(fēng)格的視頻內(nèi)容,比如3D動畫風(fēng)格、吉卜力2D動畫風(fēng)格、迪士尼動畫風(fēng)格、體素風(fēng)格等。這種多樣性讓它在實(shí)際應(yīng)用中具有更大的靈活性和創(chuàng)造空間。
六、技術(shù)創(chuàng)新:解決行業(yè)難題的巧妙方案
Waver在技術(shù)實(shí)現(xiàn)上有許多值得稱道的創(chuàng)新點(diǎn),這些創(chuàng)新就像是解決拼圖游戲中最困難部分的巧妙方案。其中最重要的一個創(chuàng)新是表示對齊技術(shù),這個技術(shù)就像給AI配備了一個"語義理解助手"。
傳統(tǒng)的視頻生成模型往往在理解復(fù)雜語義方面存在困難,生成的視頻可能在技術(shù)上沒問題,但在內(nèi)容理解上會出現(xiàn)偏差。Waver通過引入高級語義特征對齊機(jī)制,讓模型在訓(xùn)練過程中不僅要學(xué)會生成視頻,還要確保生成的內(nèi)容在語義層面與參考標(biāo)準(zhǔn)保持一致。這就像給學(xué)生配備了一個語文老師,不僅要求他們寫出文字,還要確保文字表達(dá)的意思準(zhǔn)確無誤。
在運(yùn)動生成優(yōu)化方面,Waver采用了多重策略。首先是噪聲調(diào)度優(yōu)化,就像調(diào)整相機(jī)參數(shù)來拍攝運(yùn)動場景一樣,團(tuán)隊(duì)發(fā)現(xiàn)不同的噪聲采樣策略對運(yùn)動生成有顯著影響。傳統(tǒng)的對數(shù)正態(tài)分布適合靜態(tài)圖像生成,但對于視頻生成,模式分布能夠產(chǎn)生更大幅度、更自然的運(yùn)動效果。
團(tuán)隊(duì)還發(fā)現(xiàn)了文本生成視頻和圖片生成視頻聯(lián)合訓(xùn)練的重要性。單獨(dú)訓(xùn)練圖片生成視頻任務(wù)往往會出現(xiàn)"運(yùn)動幅度不足"的問題,因?yàn)榻o定了初始幀后,模型傾向于生成變化較小的后續(xù)幀以確保連貫性。通過聯(lián)合訓(xùn)練,模型學(xué)會了在保持連貫性的同時生成更動態(tài)的內(nèi)容。
在數(shù)據(jù)處理方面,Waver特別注重運(yùn)動數(shù)據(jù)的篩選。團(tuán)隊(duì)開發(fā)了前景運(yùn)動評分系統(tǒng),能夠區(qū)分真正的主體運(yùn)動和單純的相機(jī)移動。這就像有一個智能的體育解說員,能夠準(zhǔn)確識別運(yùn)動員的技術(shù)動作,而不會被相機(jī)的拍攝角度變化所迷惑。
視覺質(zhì)量提升方面,Waver采用了合成數(shù)據(jù)增強(qiáng)策略。這個策略就像是讓AI成為自己的老師,使用訓(xùn)練好的模型生成高質(zhì)量的合成樣本,然后通過嚴(yán)格的人工篩選,將最優(yōu)質(zhì)的樣本加入訓(xùn)練集。這種自我迭代的訓(xùn)練方式能夠不斷提升模型的上限。
七、基礎(chǔ)設(shè)施優(yōu)化:讓訓(xùn)練更高效的工程智慧
在技術(shù)實(shí)現(xiàn)的背后,Waver團(tuán)隊(duì)在基礎(chǔ)設(shè)施優(yōu)化方面也展現(xiàn)了深厚的工程功底。這些優(yōu)化就像為一輛高性能賽車配備了最先進(jìn)的引擎和底盤系統(tǒng),確保所有先進(jìn)技術(shù)都能發(fā)揮出最佳性能。
團(tuán)隊(duì)采用了混合分片模式的完全分片數(shù)據(jù)并行技術(shù),這就像組織一個大型管弦樂隊(duì)一樣,需要精確的協(xié)調(diào)才能讓所有樂器協(xié)同演奏。在大規(guī)模分布式訓(xùn)練中,通信帶寬往往成為瓶頸,團(tuán)隊(duì)通過采用64或128的內(nèi)部分片大小,巧妙地平衡了單GPU內(nèi)存消耗和通信開銷。
為了最大化性能,團(tuán)隊(duì)還使用了PyTorch的動態(tài)編譯功能。這就像給程序裝上了一個智能優(yōu)化器,能夠自動分析代碼運(yùn)行模式,然后將相關(guān)的計(jì)算操作融合在一起,減少不必要的內(nèi)存讀寫操作。這種優(yōu)化雖然看起來技術(shù)性很強(qiáng),但實(shí)際效果非常顯著,能夠顯著提升訓(xùn)練速度。
在處理超長序列時,團(tuán)隊(duì)采用了尤利西斯序列并行技術(shù)。當(dāng)生成720p或1080p的長視頻時,輸入序列可能包含數(shù)十萬個標(biāo)記,這對GPU內(nèi)存提出了極高要求。尤利西斯技術(shù)就像將一本厚書分給多個人同時閱讀一樣,將序列計(jì)算分布到多個處理單元上,既保持了計(jì)算的完整性,又解決了內(nèi)存壓力問題。
為了支持不同長度的視頻訓(xùn)練,團(tuán)隊(duì)設(shè)計(jì)了桶式數(shù)據(jù)加載器。這個系統(tǒng)就像圖書管理員整理書籍一樣,將相似長度的視頻片段分組處理,確保每個批次中的數(shù)據(jù)都有相似的計(jì)算需求。這不僅提高了訓(xùn)練效率,還避免了因?yàn)閿?shù)據(jù)長度差異過大而造成的計(jì)算資源浪費(fèi)。
團(tuán)隊(duì)還實(shí)現(xiàn)了選擇性激活檢查點(diǎn)技術(shù),這是一種精巧的內(nèi)存優(yōu)化策略。就像一個聰明的倉庫管理員,這個技術(shù)能夠分析哪些中間計(jì)算結(jié)果重新計(jì)算的成本較低,哪些的成本較高,然后選擇性地保存那些重算成本高的結(jié)果,釋放那些重算成本低的結(jié)果所占用的內(nèi)存。
通過激活卸載技術(shù),團(tuán)隊(duì)進(jìn)一步擴(kuò)展了訓(xùn)練規(guī)模。這個技術(shù)就像在GPU和CPU之間建立了一個智能的"物流系統(tǒng)",在前向計(jì)算時將激活值從GPU轉(zhuǎn)移到CPU內(nèi)存,在反向計(jì)算需要時再預(yù)先取回。整個過程在專門的CUDA流中異步執(zhí)行,幾乎不影響主要計(jì)算流程。
八、開源貢獻(xiàn):推動整個行業(yè)發(fā)展的無私分享
Waver項(xiàng)目最令人敬佩的一點(diǎn)是研究團(tuán)隊(duì)的開放態(tài)度。他們沒有將研究成果秘而不宣,而是選擇將幾乎所有的技術(shù)細(xì)節(jié)、訓(xùn)練方法和經(jīng)驗(yàn)總結(jié)都公開分享給整個科技社區(qū)。這種做法就像是將一個珍貴的秘方免費(fèi)分享給所有同行,體現(xiàn)了真正的科學(xué)精神。
團(tuán)隊(duì)在論文中詳細(xì)披露了完整的訓(xùn)練配方,包括每個訓(xùn)練階段使用的數(shù)據(jù)量、學(xué)習(xí)率設(shè)置、批次大小等關(guān)鍵超參數(shù)。這些信息對于其他研究者來說價值巨大,因?yàn)樵贏I訓(xùn)練中,這些看似簡單的數(shù)字往往需要經(jīng)過大量實(shí)驗(yàn)和調(diào)優(yōu)才能確定,而錯誤的參數(shù)設(shè)置可能導(dǎo)致訓(xùn)練完全失敗。
更有價值的是,團(tuán)隊(duì)還分享了大量的訓(xùn)練技巧和經(jīng)驗(yàn)總結(jié)。比如他們發(fā)現(xiàn)在不同訓(xùn)練階段應(yīng)該使用不同的噪聲采樣策略,在早期階段使用對數(shù)正態(tài)分布有利于模型收斂,而在后期階段切換到模式分布能夠提升運(yùn)動生成質(zhì)量。這些經(jīng)驗(yàn)往往是通過大量試錯得出的,對后續(xù)研究者來說能夠節(jié)省巨大的時間和計(jì)算成本。
團(tuán)隊(duì)還公開了詳細(xì)的數(shù)據(jù)處理流程,包括視頻分段策略、質(zhì)量評估方法、動作評分算法等。這些技術(shù)細(xì)節(jié)通常是各個研究團(tuán)隊(duì)的核心競爭力,很少會完全公開。Waver團(tuán)隊(duì)的這種開放態(tài)度為整個視頻生成領(lǐng)域的發(fā)展做出了重要貢獻(xiàn)。
在基礎(chǔ)設(shè)施優(yōu)化方面,團(tuán)隊(duì)也毫無保留地分享了各種工程優(yōu)化技巧。從分布式訓(xùn)練的配置方法,到內(nèi)存優(yōu)化的具體實(shí)現(xiàn),再到各種并行策略的使用經(jīng)驗(yàn),這些實(shí)用的工程知識對于想要復(fù)現(xiàn)或改進(jìn)相關(guān)技術(shù)的研究者來說都是寶貴的資源。
特別值得一提的是,團(tuán)隊(duì)還分享了各種失敗案例和解決方案。他們詳細(xì)討論了在訓(xùn)練過程中遇到的各種問題,比如運(yùn)動幅度不足、視覺質(zhì)量不佳、提示詞理解偏差等,以及相應(yīng)的解決策略。這種坦誠的分享態(tài)度讓其他研究者能夠避免重復(fù)踩坑,加速整個領(lǐng)域的進(jìn)步。
說到底,Waver不僅僅是一個技術(shù)產(chǎn)品,更是整個AI視頻生成領(lǐng)域的一個里程碑。它證明了通過巧妙的架構(gòu)設(shè)計(jì)、精心的數(shù)據(jù)處理和系統(tǒng)性的優(yōu)化策略,AI已經(jīng)能夠生成接近專業(yè)水準(zhǔn)的視頻內(nèi)容。更重要的是,字節(jié)跳動團(tuán)隊(duì)通過開源分享的方式,為整個行業(yè)的發(fā)展貢獻(xiàn)了寶貴的知識和經(jīng)驗(yàn)。
這項(xiàng)研究的意義遠(yuǎn)超技術(shù)本身。它讓我們看到了AI視頻生成技術(shù)的巨大潛力,也為內(nèi)容創(chuàng)作者、教育工作者、營銷人員等各行各業(yè)的專業(yè)人士提供了全新的工具和可能性。雖然目前的技術(shù)還存在一些局限性,比如在高速運(yùn)動場景中人物細(xì)節(jié)的處理還不夠完美,但隨著技術(shù)的不斷進(jìn)步和優(yōu)化,我們有理由相信,AI視頻生成將會在不久的將來成為內(nèi)容創(chuàng)作的重要工具,甚至可能徹底改變我們制作和消費(fèi)視頻內(nèi)容的方式。
對于普通用戶來說,這項(xiàng)技術(shù)的普及意味著視頻創(chuàng)作的門檻將大大降低。未來,你可能只需要簡單描述一下想法,就能獲得專業(yè)質(zhì)量的視頻內(nèi)容,這將為個人創(chuàng)作者、小企業(yè)和教育機(jī)構(gòu)帶來前所未有的機(jī)會。而對于整個科技行業(yè)來說,Waver所展示的開放合作精神和技術(shù)創(chuàng)新能力,也為未來AI技術(shù)的發(fā)展指明了方向。
Q&A
Q1:Waver是什么?它能做什么?
A:Waver是字節(jié)跳動開發(fā)的AI視頻生成模型,能夠根據(jù)文字描述生成5-10秒的高清視頻,或者讓靜態(tài)圖片"動起來"生成視頻。它特別擅長處理復(fù)雜運(yùn)動場景,比如體育比賽、舞蹈表演等,生成的視頻分辨率可達(dá)1080p,在全球權(quán)威排行榜上位列前三。
Q2:Waver的視頻生成質(zhì)量有多好?
A:Waver在多項(xiàng)測試中表現(xiàn)出色,在復(fù)雜運(yùn)動場景測試中勝過谷歌Veo3、快手Kling2.0等頂級產(chǎn)品。特別是在籃球、網(wǎng)球、體操等高難度運(yùn)動場景中,它能生成更自然、更符合物理規(guī)律的動作效果,同時支持多種藝術(shù)風(fēng)格,從寫實(shí)到動畫都能很好掌握。
Q3:普通人什么時候能用上Waver技術(shù)?
A:雖然字節(jié)跳動已經(jīng)公開了Waver的技術(shù)細(xì)節(jié)和訓(xùn)練方法,但目前還沒有面向普通用戶的產(chǎn)品化應(yīng)用。不過考慮到字節(jié)跳動在抖音等平臺的應(yīng)用經(jīng)驗(yàn),相信不久的將來這項(xiàng)技術(shù)會以某種形式向公眾開放,讓更多人能夠輕松創(chuàng)作高質(zhì)量視頻內(nèi)容。
好文章,需要你的鼓勵
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學(xué)習(xí)外觀和運(yùn)動信息,顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運(yùn)動質(zhì)量,在多項(xiàng)測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報,準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。