av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<nobr id="5x22j"><code id="5x22j"></code></nobr>

微信掃一掃，關(guān)注公眾號

科技行者
算力行者

見證連接與計(jì)算的「力量」

字節(jié)跳動發(fā)布Waver：讓AI視頻生成進(jìn)入"專業(yè)級"時代，5-10秒1080p視頻隨心而動

視頻生成深度學(xué)習(xí)開源技術(shù)

字節(jié)跳動發(fā)布Waver：讓AI視頻生成進(jìn)入"專業(yè)級"時代，5-10秒1080p視頻隨心而動

作者：科技行者

2025-08-29 09:30

分享至：

字節(jié)跳動發(fā)布Waver AI視頻生成模型，可根據(jù)文字描述生成5-10秒的1080p高清視頻，支持文本生成視頻、圖片生成視頻等多種任務(wù)。在權(quán)威測試中位列全球前三，特別擅長處理復(fù)雜運(yùn)動場景如體育比賽等。團(tuán)隊(duì)采用創(chuàng)新的兩階段生成策略和統(tǒng)一架構(gòu)設(shè)計(jì)，訓(xùn)練使用超過2億視頻片段，并將完整技術(shù)方案開源分享。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-08-29 09:30 ? 科技行者

這項(xiàng)令人矚目的研究來自字節(jié)跳動的Waver團(tuán)隊(duì)，于2025年8月發(fā)表。有興趣深入了解技術(shù)細(xì)節(jié)的讀者可以通過arXiv:2508.15761v1訪問完整論文。這個研究團(tuán)隊(duì)不僅在技術(shù)上實(shí)現(xiàn)了重大突破，更在實(shí)際應(yīng)用效果上達(dá)到了前所未有的高度。

當(dāng)你在抖音或其他視頻平臺上看到那些精美的短視頻時，是否想過有一天只需要輸入幾個文字，AI就能為你生成同樣精彩的內(nèi)容？字節(jié)跳動的研究團(tuán)隊(duì)剛剛讓這個夢想變成了現(xiàn)實(shí)。他們開發(fā)的Waver系統(tǒng)就像一個超級智能的電影制作助手，不僅能根據(jù)你的文字描述生成5到10秒的高清視頻，還能將分辨率從720p提升到1080p，畫質(zhì)堪比專業(yè)攝影作品。

更令人驚喜的是，Waver不僅能憑空創(chuàng)造視頻內(nèi)容，還能接受你提供的圖片，然后讓圖片中的場景"動起來"。這就好比你有一張靜止的照片，Waver能夠理解照片中的內(nèi)容，然后為它續(xù)寫一個生動的故事情節(jié)。而且，這個AI助手還特別擅長處理復(fù)雜的運(yùn)動場景，比如籃球比賽、體操表演或網(wǎng)球?qū)?zhàn)等，這些在以往的AI視頻生成中都是公認(rèn)的難題。

在全球權(quán)威的AI視頻生成排行榜Artificial Analysis上，Waver在文本生成視頻和圖片生成視頻兩個賽道中都躋身前三名，這意味著它已經(jīng)能夠與谷歌、快手等科技巨頭的頂級產(chǎn)品分庭抗禮。更重要的是，字節(jié)跳動團(tuán)隊(duì)將他們的研究方法和訓(xùn)練秘訣全部公開分享，這就像是把一本珍貴的"武功秘籍"免費(fèi)送給了整個科技界。

一、統(tǒng)一架構(gòu)設(shè)計(jì)：一個模型搞定三種任務(wù)

在傳統(tǒng)的AI視頻生成領(lǐng)域，就像你需要三把不同的鑰匙來開三扇不同的門一樣，研究人員通常需要分別訓(xùn)練三個獨(dú)立的模型來處理文本生成圖片、文本生成視頻和圖片生成視頻這三種不同任務(wù)。這不僅浪費(fèi)大量的計(jì)算資源和訓(xùn)練時間，而且三個模型之間無法相互學(xué)習(xí)和促進(jìn)。

Waver的創(chuàng)新之處在于設(shè)計(jì)了一種"萬能鑰匙"式的統(tǒng)一架構(gòu)。研究團(tuán)隊(duì)巧妙地設(shè)計(jì)了一種三部分輸入機(jī)制，就像制作三明治一樣，將不同類型的信息分層處理。第一層是主要的"噪聲潛在表示"（可以理解為待生成內(nèi)容的原始材料），第二層是"條件幀張量"（包含任何已知的參考圖片信息），第三層是"二進(jìn)制條件掩碼"（用來標(biāo)記哪些是已知內(nèi)容，哪些需要生成）。

這種設(shè)計(jì)的巧妙之處在于其極強(qiáng)的靈活性。當(dāng)系統(tǒng)需要處理文本生成圖片任務(wù)時，條件幀張量就填充黑色圖像，掩碼全部標(biāo)記為"需要生成"；當(dāng)處理圖片生成視頻時，條件幀張量包含用戶提供的參考圖片，掩碼標(biāo)記該幀為"已知"，其他幀為"需要生成"。這就好比有一個智能廚師，無論你提供什么原料，都能靈活調(diào)整烹飪方法來制作出你想要的菜品。

在架構(gòu)設(shè)計(jì)上，Waver采用了創(chuàng)新的"混合流"設(shè)計(jì)理念。系統(tǒng)前面部分使用"雙流"設(shè)計(jì)，就像雙車道高速公路一樣，視頻信息和文本信息各走各的專用通道，但在關(guān)鍵節(jié)點(diǎn)會進(jìn)行信息交匯，確保兩種信息能夠充分理解和配合。這種設(shè)計(jì)讓系統(tǒng)能夠更好地理解文本描述和視頻內(nèi)容之間的對應(yīng)關(guān)系。

系統(tǒng)后半部分則切換到"單流"設(shè)計(jì)，就像雙車道匯合成單車道一樣，將已經(jīng)充分交流的信息合并處理，提高計(jì)算效率。這種混合設(shè)計(jì)既保證了不同模態(tài)信息的充分對齊，又兼顧了計(jì)算效率，是一個非常聰明的工程解決方案。

為了更好地處理時空信息，研究團(tuán)隊(duì)還設(shè)計(jì)了混合位置編碼機(jī)制。這就像給視頻中的每個像素點(diǎn)都標(biāo)上了精確的"時空坐標(biāo)"，不僅記錄它在畫面中的位置（空間坐標(biāo)），還記錄它出現(xiàn)的時間點(diǎn)（時間坐標(biāo)）。這種編碼方式讓系統(tǒng)能夠更好地理解和生成復(fù)雜的運(yùn)動模式，特別是在處理長時間視頻和高分辨率內(nèi)容時表現(xiàn)出色。

二、兩階段生成策略：先畫草圖再精修細(xì)節(jié)

直接生成1080p高分辨率視頻就像試圖一口氣登上珠穆朗瑪峰一樣，不僅極其耗費(fèi)計(jì)算資源，而且成功率很低。Waver采用了更加聰明的兩階段策略，就像專業(yè)畫家先畫素描草圖，然后再添加細(xì)節(jié)和色彩一樣。

第一階段使用任務(wù)統(tǒng)一DiT模型生成720p分辨率的視頻。這個階段就像是制作視頻的"毛坯房"，確定基本的場景布局、人物動作和故事情節(jié)。雖然分辨率不是最高的，但所有關(guān)鍵信息都已經(jīng)包含在內(nèi)了。這種方法讓系統(tǒng)能夠?qū)Ｗ⒂诶斫庥脩粜枨蠛蜕珊侠淼囊曨l內(nèi)容，而不被高分辨率的技術(shù)難題所困擾。

第二階段的級聯(lián)精煉器就像專業(yè)的裝修團(tuán)隊(duì)，接手這個720p的"毛坯房"，將其升級改造為1080p的"精裝房"。這個精煉器使用了窗口注意力機(jī)制來提高效率，就像裝修工人分區(qū)域作業(yè)一樣，將整個視頻畫面分割成小窗口，每次只處理局部區(qū)域，但通過巧妙的協(xié)調(diào)確保整體效果的連貫性。

更有趣的是，精煉器不僅僅是簡單的分辨率提升，它還具備一定的"視頻編輯"能力。研究團(tuán)隊(duì)發(fā)現(xiàn)，當(dāng)調(diào)整某些參數(shù)時，精煉器甚至能夠修改視頻中的對象。比如，它能將視頻中的女性角色替換為男性角色，同時保持其他所有內(nèi)容不變。這種能力為未來的視頻編輯應(yīng)用開啟了新的可能性。

為了訓(xùn)練這個精煉器，研究團(tuán)隊(duì)設(shè)計(jì)了巧妙的數(shù)據(jù)準(zhǔn)備方法。他們首先對高清視頻進(jìn)行降質(zhì)處理，制造出"有缺陷"的低分辨率版本，然后訓(xùn)練精煉器學(xué)會如何將這些"有缺陷"的視頻恢復(fù)到原始的高清質(zhì)量。這就像訓(xùn)練一個修復(fù)師，讓他學(xué)會如何將破損的古畫恢復(fù)到原本的精美狀態(tài)。

這種兩階段設(shè)計(jì)的另一個重要優(yōu)勢是計(jì)算效率的顯著提升。相比直接生成1080p視頻，這種方法能夠節(jié)省大約40%的計(jì)算時間，這對于實(shí)際應(yīng)用來說是一個巨大的優(yōu)勢。畢竟，用戶等待視頻生成的時間越短，使用體驗(yàn)就越好。

三、海量數(shù)據(jù)精細(xì)篩選：2億視頻片段的"優(yōu)勝劣汰"

任何優(yōu)秀的AI模型都離不開高質(zhì)量的訓(xùn)練數(shù)據(jù)，就像培養(yǎng)一個優(yōu)秀的廚師需要讓他品嘗各種頂級食材一樣。Waver團(tuán)隊(duì)建立了一個極其嚴(yán)格的數(shù)據(jù)篩選流程，從海量原始視頻中精心挑選出最適合訓(xùn)練的內(nèi)容。

整個數(shù)據(jù)處理流程就像一個層層遞進(jìn)的"選秀節(jié)目"。首先是海選階段，系統(tǒng)從多個來源收集原始視頻數(shù)據(jù)，確保內(nèi)容的多樣性和豐富性。特別值得注意的是，對于那些特別有挑戰(zhàn)性的場景，比如復(fù)雜的球類運(yùn)動或高難度體操動作，團(tuán)隊(duì)還專門進(jìn)行了針對性的數(shù)據(jù)收集和補(bǔ)充。

接下來是分段處理階段，就像將長篇小說分解成若干個短篇故事一樣。系統(tǒng)使用智能場景檢測技術(shù)，自動識別視頻中的場景變換點(diǎn)，然后將長視頻切分成2到10秒的短片段。對于超過10秒的片段，系統(tǒng)還會進(jìn)一步分析其內(nèi)部的動作變化，選擇那些動作幅度最大、最具代表性的片段，確保訓(xùn)練數(shù)據(jù)的質(zhì)量和多樣性。

數(shù)據(jù)質(zhì)量評估階段更像是嚴(yán)格的"體檢"過程。每個視頻片段都要接受多維度的質(zhì)量檢查，包括技術(shù)質(zhì)量評估（幀率、分辨率、碼率等），美學(xué)質(zhì)量評估（構(gòu)圖、光線、色彩等），以及動態(tài)質(zhì)量評估（運(yùn)動幅度、運(yùn)動連貫性等）。系統(tǒng)還會使用光學(xué)流計(jì)算技術(shù)來分析視頻中的運(yùn)動模式，確保篩選出的視頻具有豐富而自然的動作內(nèi)容。

為了進(jìn)一步提升數(shù)據(jù)質(zhì)量，團(tuán)隊(duì)還訓(xùn)練了專門的視頻質(zhì)量評估模型。這個模型基于多模態(tài)大語言模型架構(gòu)，能夠像人類專家一樣對視頻進(jìn)行綜合評判。它不僅能識別明顯的技術(shù)缺陷，比如模糊、閃爍或色彩失真，還能發(fā)現(xiàn)更加微妙的問題，比如不自然的運(yùn)動模式或不合理的物理現(xiàn)象。

最終，整個訓(xùn)練過程使用了超過2億個精心篩選的視頻片段。這些數(shù)據(jù)經(jīng)過了嚴(yán)格的分層過濾，在不同的訓(xùn)練階段使用不同質(zhì)量標(biāo)準(zhǔn)的數(shù)據(jù)。早期訓(xùn)練階段使用相對寬松的標(biāo)準(zhǔn)，確保模型能夠?qū)W習(xí)到豐富多樣的內(nèi)容；后期精調(diào)階段則使用最嚴(yán)格的質(zhì)量標(biāo)準(zhǔn)，只保留那些最優(yōu)質(zhì)的樣本，確保最終模型的生成質(zhì)量。

四、訓(xùn)練秘訣大公開：從粗糙到精美的進(jìn)化之路

Waver的訓(xùn)練過程就像培養(yǎng)一個從零開始學(xué)畫畫的學(xué)生一樣，需要循序漸進(jìn)，從簡單到復(fù)雜，從粗糙到精細(xì)。整個訓(xùn)練過程被精心設(shè)計(jì)為多個階段，每個階段都有明確的目標(biāo)和特定的訓(xùn)練策略。

訓(xùn)練的第一步是讓模型學(xué)會理解文字和圖片的對應(yīng)關(guān)系。這就像教小朋友認(rèn)字一樣，先從最基礎(chǔ)的文本生成圖片任務(wù)開始。系統(tǒng)從256像素的小圖片開始學(xué)習(xí)，逐步提升到512像素、1024像素，就像學(xué)畫畫先從簡筆畫開始，然后逐漸學(xué)會畫更復(fù)雜、更精細(xì)的作品。這個階段的重點(diǎn)是讓模型建立起文字描述和視覺內(nèi)容之間的基本對應(yīng)關(guān)系。

接下來是動態(tài)內(nèi)容的學(xué)習(xí)階段。系統(tǒng)開始處理視頻生成任務(wù)，但同樣遵循從簡單到復(fù)雜的原則。先從192像素、12幀每秒的低分辨率視頻開始，然后提升到16幀每秒，最后到480像素、16幀每秒。這種漸進(jìn)式訓(xùn)練方法讓模型能夠先學(xué)會基本的運(yùn)動規(guī)律，然后再學(xué)習(xí)更復(fù)雜的動作細(xì)節(jié)。

研究團(tuán)隊(duì)發(fā)現(xiàn)了一個非常重要的訓(xùn)練技巧，就是低分辨率視頻訓(xùn)練對于運(yùn)動學(xué)習(xí)的重要性。這就像學(xué)舞蹈時先學(xué)基本動作，后學(xué)復(fù)雜編舞一樣。通過在低分辨率階段充分訓(xùn)練，模型能夠更好地理解運(yùn)動的本質(zhì)規(guī)律，而不會被高分辨率的視覺細(xì)節(jié)所干擾。實(shí)驗(yàn)證明，跳過低分辨率訓(xùn)練而直接進(jìn)行高分辨率訓(xùn)練的模型，在運(yùn)動生成方面明顯不如經(jīng)過完整漸進(jìn)訓(xùn)練的模型。

在訓(xùn)練過程中，團(tuán)隊(duì)還采用了多任務(wù)聯(lián)合訓(xùn)練策略。這就像讓學(xué)生同時學(xué)習(xí)多門相關(guān)課程一樣，文本生成圖片、文本生成視頻和圖片生成視頻三個任務(wù)被巧妙地結(jié)合在一起。這種方法不僅提高了訓(xùn)練效率，更重要的是讓不同任務(wù)之間能夠相互促進(jìn)和學(xué)習(xí)。

特別值得注意的是團(tuán)隊(duì)在運(yùn)動優(yōu)化方面的創(chuàng)新。他們發(fā)現(xiàn)傳統(tǒng)的時間步采樣策略并不適合視頻生成任務(wù)，于是設(shè)計(jì)了專門的"模式采樣"方法。這種方法就像調(diào)整相機(jī)的快門速度一樣，能夠更好地捕捉動作的關(guān)鍵時刻，生成更大幅度、更自然的運(yùn)動效果。

為了提升視覺質(zhì)量，團(tuán)隊(duì)還引入了合成數(shù)據(jù)增強(qiáng)策略。他們使用模型本身生成高質(zhì)量的合成視頻樣本，然后通過嚴(yán)格的人工篩選，只保留那些質(zhì)量最高的樣本用于進(jìn)一步訓(xùn)練。這就像讓學(xué)生不僅學(xué)習(xí)教科書，還要學(xué)習(xí)優(yōu)秀同學(xué)的作品一樣，能夠快速提升整體水平。

五、性能表現(xiàn)：挑戰(zhàn)行業(yè)巨頭的實(shí)力證明

Waver的實(shí)際表現(xiàn)就像一匹突然殺出的黑馬，在各種評測中都展現(xiàn)出了令人驚艷的實(shí)力。在全球最權(quán)威的AI視頻生成排行榜Artificial Analysis上，Waver在文本生成視頻和圖片生成視頻兩個賽道都穩(wěn)居前三名，與谷歌Veo、快手Kling等行業(yè)頂級產(chǎn)品并駕齊驅(qū)。

更令人印象深刻的是Waver在復(fù)雜運(yùn)動場景中的表現(xiàn)。研究團(tuán)隊(duì)專門設(shè)計(jì)了"赫爾墨斯運(yùn)動測試集"，專門收集了各種高難度的體育運(yùn)動場景，比如網(wǎng)球?qū)?zhàn)、籃球比賽、體操表演等。這些場景對AI來說就像是"地獄級難度"的挑戰(zhàn)，因?yàn)樗鼈儾粌H包含快速復(fù)雜的動作，還涉及多個對象之間的互動和物理規(guī)律的準(zhǔn)確表現(xiàn)。

在這個嚴(yán)苛的測試中，Waver展現(xiàn)出了明顯的優(yōu)勢。在運(yùn)動質(zhì)量方面，它比谷歌Veo3的勝率達(dá)到55%，比快手Kling2.0的勝率為45%，比開源模型Wan2.1的勝率更是高達(dá)47%。這意味著在大部分情況下，專業(yè)評估人員都認(rèn)為Waver生成的運(yùn)動效果更自然、更符合物理規(guī)律。

在通用場景的表現(xiàn)上，Waver同樣不俗。團(tuán)隊(duì)自建的Waver-bench 1.0基準(zhǔn)測試包含了304個覆蓋各種日常場景的測試樣本，從體育活動到日常生活，從風(fēng)景展示到動物行為，應(yīng)有盡有。在這個綜合性測試中，Waver在視覺質(zhì)量和運(yùn)動質(zhì)量方面都表現(xiàn)出色，特別是在視覺質(zhì)量方面，相比其他模型有明顯優(yōu)勢。

值得特別提到的是Waver在提示詞跟隨方面的表現(xiàn)。這個能力就像理解能力測試一樣，檢驗(yàn)AI是否能準(zhǔn)確理解用戶的文字描述并生成相應(yīng)的視頻內(nèi)容。雖然在這個方面Waver相比谷歌Veo3還有一定差距，但相比其他競品已經(jīng)有了明顯優(yōu)勢，而且團(tuán)隊(duì)正在通過prompt重寫等技術(shù)不斷改進(jìn)這一能力。

更有意思的是，Waver還展現(xiàn)出了很強(qiáng)的風(fēng)格適應(yīng)能力。通過簡單的提示詞標(biāo)簽，它能夠生成各種不同風(fēng)格的視頻內(nèi)容，比如3D動畫風(fēng)格、吉卜力2D動畫風(fēng)格、迪士尼動畫風(fēng)格、體素風(fēng)格等。這種多樣性讓它在實(shí)際應(yīng)用中具有更大的靈活性和創(chuàng)造空間。

六、技術(shù)創(chuàng)新：解決行業(yè)難題的巧妙方案

Waver在技術(shù)實(shí)現(xiàn)上有許多值得稱道的創(chuàng)新點(diǎn)，這些創(chuàng)新就像是解決拼圖游戲中最困難部分的巧妙方案。其中最重要的一個創(chuàng)新是表示對齊技術(shù)，這個技術(shù)就像給AI配備了一個"語義理解助手"。

傳統(tǒng)的視頻生成模型往往在理解復(fù)雜語義方面存在困難，生成的視頻可能在技術(shù)上沒問題，但在內(nèi)容理解上會出現(xiàn)偏差。Waver通過引入高級語義特征對齊機(jī)制，讓模型在訓(xùn)練過程中不僅要學(xué)會生成視頻，還要確保生成的內(nèi)容在語義層面與參考標(biāo)準(zhǔn)保持一致。這就像給學(xué)生配備了一個語文老師，不僅要求他們寫出文字，還要確保文字表達(dá)的意思準(zhǔn)確無誤。

在運(yùn)動生成優(yōu)化方面，Waver采用了多重策略。首先是噪聲調(diào)度優(yōu)化，就像調(diào)整相機(jī)參數(shù)來拍攝運(yùn)動場景一樣，團(tuán)隊(duì)發(fā)現(xiàn)不同的噪聲采樣策略對運(yùn)動生成有顯著影響。傳統(tǒng)的對數(shù)正態(tài)分布適合靜態(tài)圖像生成，但對于視頻生成，模式分布能夠產(chǎn)生更大幅度、更自然的運(yùn)動效果。

團(tuán)隊(duì)還發(fā)現(xiàn)了文本生成視頻和圖片生成視頻聯(lián)合訓(xùn)練的重要性。單獨(dú)訓(xùn)練圖片生成視頻任務(wù)往往會出現(xiàn)"運(yùn)動幅度不足"的問題，因?yàn)榻o定了初始幀后，模型傾向于生成變化較小的后續(xù)幀以確保連貫性。通過聯(lián)合訓(xùn)練，模型學(xué)會了在保持連貫性的同時生成更動態(tài)的內(nèi)容。

在數(shù)據(jù)處理方面，Waver特別注重運(yùn)動數(shù)據(jù)的篩選。團(tuán)隊(duì)開發(fā)了前景運(yùn)動評分系統(tǒng)，能夠區(qū)分真正的主體運(yùn)動和單純的相機(jī)移動。這就像有一個智能的體育解說員，能夠準(zhǔn)確識別運(yùn)動員的技術(shù)動作，而不會被相機(jī)的拍攝角度變化所迷惑。

視覺質(zhì)量提升方面，Waver采用了合成數(shù)據(jù)增強(qiáng)策略。這個策略就像是讓AI成為自己的老師，使用訓(xùn)練好的模型生成高質(zhì)量的合成樣本，然后通過嚴(yán)格的人工篩選，將最優(yōu)質(zhì)的樣本加入訓(xùn)練集。這種自我迭代的訓(xùn)練方式能夠不斷提升模型的上限。

七、基礎(chǔ)設(shè)施優(yōu)化：讓訓(xùn)練更高效的工程智慧

在技術(shù)實(shí)現(xiàn)的背后，Waver團(tuán)隊(duì)在基礎(chǔ)設(shè)施優(yōu)化方面也展現(xiàn)了深厚的工程功底。這些優(yōu)化就像為一輛高性能賽車配備了最先進(jìn)的引擎和底盤系統(tǒng)，確保所有先進(jìn)技術(shù)都能發(fā)揮出最佳性能。

團(tuán)隊(duì)采用了混合分片模式的完全分片數(shù)據(jù)并行技術(shù)，這就像組織一個大型管弦樂隊(duì)一樣，需要精確的協(xié)調(diào)才能讓所有樂器協(xié)同演奏。在大規(guī)模分布式訓(xùn)練中，通信帶寬往往成為瓶頸，團(tuán)隊(duì)通過采用64或128的內(nèi)部分片大小，巧妙地平衡了單GPU內(nèi)存消耗和通信開銷。

為了最大化性能，團(tuán)隊(duì)還使用了PyTorch的動態(tài)編譯功能。這就像給程序裝上了一個智能優(yōu)化器，能夠自動分析代碼運(yùn)行模式，然后將相關(guān)的計(jì)算操作融合在一起，減少不必要的內(nèi)存讀寫操作。這種優(yōu)化雖然看起來技術(shù)性很強(qiáng)，但實(shí)際效果非常顯著，能夠顯著提升訓(xùn)練速度。

在處理超長序列時，團(tuán)隊(duì)采用了尤利西斯序列并行技術(shù)。當(dāng)生成720p或1080p的長視頻時，輸入序列可能包含數(shù)十萬個標(biāo)記，這對GPU內(nèi)存提出了極高要求。尤利西斯技術(shù)就像將一本厚書分給多個人同時閱讀一樣，將序列計(jì)算分布到多個處理單元上，既保持了計(jì)算的完整性，又解決了內(nèi)存壓力問題。

為了支持不同長度的視頻訓(xùn)練，團(tuán)隊(duì)設(shè)計(jì)了桶式數(shù)據(jù)加載器。這個系統(tǒng)就像圖書管理員整理書籍一樣，將相似長度的視頻片段分組處理，確保每個批次中的數(shù)據(jù)都有相似的計(jì)算需求。這不僅提高了訓(xùn)練效率，還避免了因?yàn)閿?shù)據(jù)長度差異過大而造成的計(jì)算資源浪費(fèi)。

團(tuán)隊(duì)還實(shí)現(xiàn)了選擇性激活檢查點(diǎn)技術(shù)，這是一種精巧的內(nèi)存優(yōu)化策略。就像一個聰明的倉庫管理員，這個技術(shù)能夠分析哪些中間計(jì)算結(jié)果重新計(jì)算的成本較低，哪些的成本較高，然后選擇性地保存那些重算成本高的結(jié)果，釋放那些重算成本低的結(jié)果所占用的內(nèi)存。

通過激活卸載技術(shù)，團(tuán)隊(duì)進(jìn)一步擴(kuò)展了訓(xùn)練規(guī)模。這個技術(shù)就像在GPU和CPU之間建立了一個智能的"物流系統(tǒng)"，在前向計(jì)算時將激活值從GPU轉(zhuǎn)移到CPU內(nèi)存，在反向計(jì)算需要時再預(yù)先取回。整個過程在專門的CUDA流中異步執(zhí)行，幾乎不影響主要計(jì)算流程。

八、開源貢獻(xiàn)：推動整個行業(yè)發(fā)展的無私分享

Waver項(xiàng)目最令人敬佩的一點(diǎn)是研究團(tuán)隊(duì)的開放態(tài)度。他們沒有將研究成果秘而不宣，而是選擇將幾乎所有的技術(shù)細(xì)節(jié)、訓(xùn)練方法和經(jīng)驗(yàn)總結(jié)都公開分享給整個科技社區(qū)。這種做法就像是將一個珍貴的秘方免費(fèi)分享給所有同行，體現(xiàn)了真正的科學(xué)精神。

團(tuán)隊(duì)在論文中詳細(xì)披露了完整的訓(xùn)練配方，包括每個訓(xùn)練階段使用的數(shù)據(jù)量、學(xué)習(xí)率設(shè)置、批次大小等關(guān)鍵超參數(shù)。這些信息對于其他研究者來說價值巨大，因?yàn)樵贏I訓(xùn)練中，這些看似簡單的數(shù)字往往需要經(jīng)過大量實(shí)驗(yàn)和調(diào)優(yōu)才能確定，而錯誤的參數(shù)設(shè)置可能導(dǎo)致訓(xùn)練完全失敗。

更有價值的是，團(tuán)隊(duì)還分享了大量的訓(xùn)練技巧和經(jīng)驗(yàn)總結(jié)。比如他們發(fā)現(xiàn)在不同訓(xùn)練階段應(yīng)該使用不同的噪聲采樣策略，在早期階段使用對數(shù)正態(tài)分布有利于模型收斂，而在后期階段切換到模式分布能夠提升運(yùn)動生成質(zhì)量。這些經(jīng)驗(yàn)往往是通過大量試錯得出的，對后續(xù)研究者來說能夠節(jié)省巨大的時間和計(jì)算成本。

團(tuán)隊(duì)還公開了詳細(xì)的數(shù)據(jù)處理流程，包括視頻分段策略、質(zhì)量評估方法、動作評分算法等。這些技術(shù)細(xì)節(jié)通常是各個研究團(tuán)隊(duì)的核心競爭力，很少會完全公開。Waver團(tuán)隊(duì)的這種開放態(tài)度為整個視頻生成領(lǐng)域的發(fā)展做出了重要貢獻(xiàn)。

在基礎(chǔ)設(shè)施優(yōu)化方面，團(tuán)隊(duì)也毫無保留地分享了各種工程優(yōu)化技巧。從分布式訓(xùn)練的配置方法，到內(nèi)存優(yōu)化的具體實(shí)現(xiàn)，再到各種并行策略的使用經(jīng)驗(yàn)，這些實(shí)用的工程知識對于想要復(fù)現(xiàn)或改進(jìn)相關(guān)技術(shù)的研究者來說都是寶貴的資源。

特別值得一提的是，團(tuán)隊(duì)還分享了各種失敗案例和解決方案。他們詳細(xì)討論了在訓(xùn)練過程中遇到的各種問題，比如運(yùn)動幅度不足、視覺質(zhì)量不佳、提示詞理解偏差等，以及相應(yīng)的解決策略。這種坦誠的分享態(tài)度讓其他研究者能夠避免重復(fù)踩坑，加速整個領(lǐng)域的進(jìn)步。

說到底，Waver不僅僅是一個技術(shù)產(chǎn)品，更是整個AI視頻生成領(lǐng)域的一個里程碑。它證明了通過巧妙的架構(gòu)設(shè)計(jì)、精心的數(shù)據(jù)處理和系統(tǒng)性的優(yōu)化策略，AI已經(jīng)能夠生成接近專業(yè)水準(zhǔn)的視頻內(nèi)容。更重要的是，字節(jié)跳動團(tuán)隊(duì)通過開源分享的方式，為整個行業(yè)的發(fā)展貢獻(xiàn)了寶貴的知識和經(jīng)驗(yàn)。

這項(xiàng)研究的意義遠(yuǎn)超技術(shù)本身。它讓我們看到了AI視頻生成技術(shù)的巨大潛力，也為內(nèi)容創(chuàng)作者、教育工作者、營銷人員等各行各業(yè)的專業(yè)人士提供了全新的工具和可能性。雖然目前的技術(shù)還存在一些局限性，比如在高速運(yùn)動場景中人物細(xì)節(jié)的處理還不夠完美，但隨著技術(shù)的不斷進(jìn)步和優(yōu)化，我們有理由相信，AI視頻生成將會在不久的將來成為內(nèi)容創(chuàng)作的重要工具，甚至可能徹底改變我們制作和消費(fèi)視頻內(nèi)容的方式。

對于普通用戶來說，這項(xiàng)技術(shù)的普及意味著視頻創(chuàng)作的門檻將大大降低。未來，你可能只需要簡單描述一下想法，就能獲得專業(yè)質(zhì)量的視頻內(nèi)容，這將為個人創(chuàng)作者、小企業(yè)和教育機(jī)構(gòu)帶來前所未有的機(jī)會。而對于整個科技行業(yè)來說，Waver所展示的開放合作精神和技術(shù)創(chuàng)新能力，也為未來AI技術(shù)的發(fā)展指明了方向。

Q&A

Q1：Waver是什么？它能做什么？

A：Waver是字節(jié)跳動開發(fā)的AI視頻生成模型，能夠根據(jù)文字描述生成5-10秒的高清視頻，或者讓靜態(tài)圖片"動起來"生成視頻。它特別擅長處理復(fù)雜運(yùn)動場景，比如體育比賽、舞蹈表演等，生成的視頻分辨率可達(dá)1080p，在全球權(quán)威排行榜上位列前三。

Q2：Waver的視頻生成質(zhì)量有多好？

A：Waver在多項(xiàng)測試中表現(xiàn)出色，在復(fù)雜運(yùn)動場景測試中勝過谷歌Veo3、快手Kling2.0等頂級產(chǎn)品。特別是在籃球、網(wǎng)球、體操等高難度運(yùn)動場景中，它能生成更自然、更符合物理規(guī)律的動作效果，同時支持多種藝術(shù)風(fēng)格，從寫實(shí)到動畫都能很好掌握。

Q3：普通人什么時候能用上Waver技術(shù)？

A：雖然字節(jié)跳動已經(jīng)公開了Waver的技術(shù)細(xì)節(jié)和訓(xùn)練方法，但目前還沒有面向普通用戶的產(chǎn)品化應(yīng)用。不過考慮到字節(jié)跳動在抖音等平臺的應(yīng)用經(jīng)驗(yàn)，相信不久的將來這項(xiàng)技術(shù)會以某種形式向公眾開放，讓更多人能夠輕松創(chuàng)作高質(zhì)量視頻內(nèi)容。

視頻生成深度學(xué)習(xí)開源技術(shù)

分享至

0贊

好文章，需要你的鼓勵

推薦文章

音頻生成
大語言模型
多模態(tài)AI

2025-09-10 09:47

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng)，首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù)，通過交錯式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練，能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異，為AI音頻創(chuàng)作開辟新方向。
視頻生成
深度學(xué)習(xí)
多模態(tài)學(xué)習(xí)

2025-09-09 13:57

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù)，通過讓AI同時學(xué)習(xí)外觀和運(yùn)動信息，顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運(yùn)動質(zhì)量，在多項(xiàng)測試中超越包括Sora在內(nèi)的商業(yè)模型，為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
多模態(tài)AI
人類價值觀對齊
數(shù)據(jù)集構(gòu)建

2025-09-09 13:56

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價值觀對齊難題

上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究，首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn)，通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法，讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平，為AI價值觀對齊提供了可行技術(shù)路徑。
人工智能
圖神經(jīng)網(wǎng)絡(luò)
天氣預(yù)報

2025-09-09 10:56

谷歌研究團(tuán)隊(duì)發(fā)布超級預(yù)測模型：讓AI像天氣預(yù)報員一樣預(yù)測全球大氣變化

谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型，能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報，準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù)，通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律，在極端天氣預(yù)測方面表現(xiàn)卓越，能耗僅為傳統(tǒng)方法的千分之一，為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

2025-09-10 09:47

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

2025-09-09 13:57

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價值觀對齊難題

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價值觀對齊難題

2025-09-09 13:56

谷歌研究團(tuán)隊(duì)發(fā)布超級預(yù)測模型：讓AI像天氣預(yù)報員一樣預(yù)測全球大氣變化

谷歌研究團(tuán)隊(duì)發(fā)布超級預(yù)測模型：讓AI像天氣預(yù)報員一樣預(yù)測全球大氣變化

2025-09-09 10:56

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時代

京ICP證15039648號京ICP備15039648號-9 京公網(wǎng)安備 11010802021500號

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報電話：010-62641205　涉未成年人舉報專線：010-62641208 舉報郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報專區(qū)：https://www.12377.cn