av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<big id="nw4jc"><fieldset id="nw4jc"></fieldset></big>

微信掃一掃，關(guān)注公眾號

科技行者
算力行者

見證連接與計算的「力量」

控制隨心，視頻隨意：ByteDance智能創(chuàng)作的ATI軌跡控制系統(tǒng)如何徹底改變視頻生成技術(shù)

視頻生成技術(shù)軌跡控制系統(tǒng)運動注入器

控制隨心，視頻隨意：ByteDance智能創(chuàng)作的ATI軌跡控制系統(tǒng)如何徹底改變視頻生成技術(shù)

作者：科技行者

2025-06-04 11:15

分享至：

ByteDance智能創(chuàng)作團(tuán)隊推出的ATI系統(tǒng)徹底改變了視頻生成技術(shù)的控制方式。這個統(tǒng)一框架通過簡單的點軌跡同時實現(xiàn)相機移動、物體平移和局部變形控制，不再需要分散的工具。用戶只需在初始圖像上標(biāo)記關(guān)鍵點并繪制運動路徑，系統(tǒng)就能生成符合指令的高質(zhì)量視頻。研究表明，ATI不僅提高了控制精度，還能兼容多種頂級視頻生成模型，有望讓專業(yè)級視頻創(chuàng)作變得更加直觀簡單。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-06-04 11:15 ? 科技行者

在視頻生成技術(shù)迅速發(fā)展的今天，來自ByteDance智能創(chuàng)作團(tuán)隊的研究者們發(fā)布了一項令人振奮的突破性成果。由Angtian Wang、Haibin Huang、Jacob Zhiyuan Fang、Yiding Yang和Chongyang Ma共同完成的研究論文《ATI: Any Trajectory Instruction for Controllable Video Generation》于2025年5月28日發(fā)布在arXiv預(yù)印本平臺（arXiv:2505.22944v1），這項工作徹底改變了我們控制AI生成視頻的方式。有興趣深入了解的讀者可以通過項目網(wǎng)站https://anytraj.github.io/查看更多細(xì)節(jié)。

為什么視頻控制如此重要？

想象一下，你手里有一張美麗的風(fēng)景照片，想讓它"活"起來——也許你希望云朵緩緩飄動，或者讓鳥兒從左向右飛過天空。在ATI出現(xiàn)之前，實現(xiàn)這樣的愿望可能需要使用多個不同的工具和技術(shù)：一個工具控制相機移動（比如縮放或平移），另一個工具控制物體運動（讓鳥兒飛起來），再加上第三個工具處理細(xì)微的局部變形（讓樹葉隨風(fēng)擺動）。這就像是烹飪一道復(fù)雜的菜肴，但必須在三個不同的廚房完成不同的步驟，最后再試圖將它們完美地組合在一起——結(jié)果常常令人失望。

ByteDance智能創(chuàng)作團(tuán)隊的研究者們認(rèn)識到這個問題，并提出了一個優(yōu)雅的解決方案：如果我們能用一種統(tǒng)一的方式來描述所有類型的運動呢？這就是ATI（Any Trajectory Instruction，任意軌跡指令）系統(tǒng)的核心思想。

ATI如何工作？從點到動態(tài)視頻的神奇過程

ATI的工作原理出奇地簡單又直觀。想象你手里有一張照片，你可以在上面標(biāo)記幾個你關(guān)心的點，然后為每個點畫出一條軌跡，指定它在未來視頻中應(yīng)該如何移動。這些點可以代表任何東西：

如果你在一只貓的眼睛和尾巴上標(biāo)記點，并畫出軌跡，ATI會讓貓按照你指定的方式動起來。

如果你在整個場景中均勻地標(biāo)記一些點，并讓它們?nèi)肯蛴乙苿樱珹TI會創(chuàng)建一個相機向左平移的效果。

如果你在場景中均勻標(biāo)記點，并讓它們從中心向外擴(kuò)散，ATI會生成一個相機縮放效果。

就像一個熟練的木偶師通過牽動幾根關(guān)鍵的線就能讓整個木偶栩栩如生，ATI通過控制幾個關(guān)鍵點的軌跡就能讓整個場景自然地動起來。

從技術(shù)角度來看，ATI的實現(xiàn)非常巧妙。研究團(tuán)隊首先將用戶定義的軌跡點投射到預(yù)訓(xùn)練的圖像到視頻生成模型的潛在空間中。簡單來說，這就像是在AI的"思維空間"中種下運動的種子，然后讓AI根據(jù)這些種子生成完整的視頻。

具體來說，ATI使用了一個叫做"運動注入器"（motion injector）的輕量級模塊，它能夠?qū)④壽E信息轉(zhuǎn)化為AI能理解的指令。這個過程類似于翻譯工作—將人類直觀的軌跡指令翻譯成AI系統(tǒng)能理解的語言。最妙的是，這個注入器非常輕量，可以輕松地集成到現(xiàn)有的視頻生成模型中，而無需對這些模型進(jìn)行重新訓(xùn)練。

數(shù)據(jù)是關(guān)鍵：如何教會AI理解軌跡

任何機器學(xué)習(xí)系統(tǒng)的成功都離不開高質(zhì)量的訓(xùn)練數(shù)據(jù)。為了教會ATI理解和遵循軌跡指令，研究團(tuán)隊構(gòu)建了一個包含240萬個高質(zhì)量視頻片段的大規(guī)模數(shù)據(jù)集。

這個數(shù)據(jù)收集過程可以類比為一個大規(guī)模的"追蹤游戲"。首先，研究團(tuán)隊從500萬個高質(zhì)量視頻片段中篩選出展示明顯物體運動的240萬個片段。然后，他們在每個視頻的第一幀上均勻地選取120個點，并使用一個名為TAP-Net的先進(jìn)跟蹤算法來記錄這些點在整個視頻中的運動軌跡。

這就像是給每個點貼上一個小標(biāo)簽，然后觀察它們在視頻中的"旅行路線"。通過收集大量這樣的"旅行日志"，AI系統(tǒng)學(xué)會了理解不同類型的運動模式，以及如何根據(jù)用戶指定的軌跡生成自然、連貫的視頻內(nèi)容。

為什么ATI如此特別？統(tǒng)一的控制方式改變游戲規(guī)則

ATI的最大創(chuàng)新在于它提供了一個統(tǒng)一的框架來處理所有類型的視頻運動控制。這就像是發(fā)明了一種通用語言，能夠同時描述跳舞、行走和飛行，而不需要為每種動作使用不同的語言。

在ATI之前，研究人員通常會為不同類型的運動控制開發(fā)專門的工具： - 相機控制工具使用特殊的坐標(biāo)系統(tǒng)來描述相機的移動 - 物體運動控制工具使用邊界框或光流來指導(dǎo)物體的位移 - 局部變形控制則需要更復(fù)雜的模型來處理細(xì)微的形狀變化

ATI打破了這些界限，提出了一個簡單而強大的見解：所有這些運動類型都可以通過點軌跡來統(tǒng)一表示。無論你想要控制相機移動、物體平移還是局部變形，都可以使用相同的軌跡指令來實現(xiàn)。

這種統(tǒng)一的方法大大簡化了用戶的工作流程。就像廚師不再需要在多個廚房之間奔波，而是在一個設(shè)備齊全的廚房中完成所有烹飪步驟，用戶現(xiàn)在可以在一個界面中完成所有的運動控制。

技術(shù)細(xì)節(jié)：ATI如何在幕后工作

從技術(shù)角度來看，ATI的工作流程非常優(yōu)雅。當(dāng)用戶提供一張輸入圖像和一組軌跡指令時，系統(tǒng)首先通過VAE（變分自編碼器）將圖像編碼為潛在特征。對于每個軌跡點，系統(tǒng)從其初始位置提取一個特征向量，并計算一個高斯分布來表示該特征在后續(xù)幀中的分布。

這個過程可以類比為在水面上投下一塊石頭。石頭（軌跡點）在水面上創(chuàng)造出漣漪（高斯分布），這些漣漪隨著時間的推移按照預(yù)定的路徑移動。系統(tǒng)使用這些移動的"漣漪"來指導(dǎo)視頻生成過程，確保生成的內(nèi)容遵循用戶指定的軌跡。

研究團(tuán)隊還解決了一個有趣的技術(shù)挑戰(zhàn)：當(dāng)一個軌跡在視頻結(jié)束前終止時，系統(tǒng)往往會生成不自然的遮擋。研究人員通過引入"尾部丟棄正則化"（Tail Dropout Regularization）技術(shù)解決了這個問題。在訓(xùn)練期間，系統(tǒng)隨機截斷一些軌跡，這樣模型就學(xué)會了理解軌跡的終止并不總是意味著遮擋或離開畫面。

這就像教導(dǎo)一個孩子理解，當(dāng)一個人離開你的視野范圍時，并不一定是躲到了什么東西后面，也可能只是停止了移動。

實驗結(jié)果：ATI在實際應(yīng)用中的表現(xiàn)

研究團(tuán)隊將ATI集成到兩個最先進(jìn)的視頻生成模型中：Seaweed-7B和Wan2.1-14B，并進(jìn)行了廣泛的評估。結(jié)果令人印象深刻：

ATI能夠成功處理各種復(fù)雜的視頻生成任務(wù)，包括:

物體運動控制：讓寵物、人物或其他物體按照指定軌跡移動，同時保持自然的外觀和運動。例如，讓一只海豚從水中躍起，或者讓一個角色的面部表情隨時間變化。

相機控制：實現(xiàn)平滑的相機移動效果，如縮放、平移或旋轉(zhuǎn)。ATI甚至可以模擬復(fù)雜的攝影技巧，如"杜比變焦"（Dolly Zoom）——這是一種通過同時調(diào)整相機位置和焦距來創(chuàng)造戲劇性視覺效果的技術(shù)。

組合控制：最令人印象深刻的是，ATI能夠同時處理相機移動和物體運動，創(chuàng)造出豐富、復(fù)雜的視頻效果。例如，相機可以環(huán)繞一個物體，同時該物體也在進(jìn)行自己的運動。

在量化評估中，研究人員測試了ATI在跟蹤準(zhǔn)確性方面的表現(xiàn)。對于Seaweed-7B模型，ATI在嚴(yán)格的跟蹤標(biāo)準(zhǔn)（誤差小于圖像對角線的1%）下達(dá)到了36%的準(zhǔn)確率，在較寬松的標(biāo)準(zhǔn)（誤差小于圖像對角線的5%）下達(dá)到了59%的準(zhǔn)確率?？梢姸嚷剩ㄏ到y(tǒng)正確預(yù)測點是否可見的比例）達(dá)到了67.9%。這些數(shù)字表明ATI能夠相當(dāng)準(zhǔn)確地遵循用戶指定的軌跡。

當(dāng)然，ATI也有一些局限性。對于非?？焖俚倪\動（例如，一個點在兩幀之間移動半個圖像寬度），系統(tǒng)可能無法準(zhǔn)確跟蹤軌跡。同樣，對于需要物體分解的軌跡（例如，強制一個物體分裂成多個部分），系統(tǒng)可能會生成不自然的變形或失敗。

但總的來說，ATI展示了出色的軌跡跟蹤能力，即使在軌跡交叉或重疊的情況下也能保持穩(wěn)定的表現(xiàn)。有趣的是，研究人員還觀察到ATI有時會找到創(chuàng)造性的解決方案來滿足用戶的軌跡指令，例如，旋轉(zhuǎn)相機而不是應(yīng)用不合理的物體變形。

從理論到實踐：ATI的實際應(yīng)用場景

ATI的出現(xiàn)為視頻創(chuàng)作者、設(shè)計師和普通用戶打開了新的可能性之門。這項技術(shù)可以應(yīng)用于多種實際場景：

內(nèi)容創(chuàng)作：藝術(shù)家和創(chuàng)作者可以輕松制作具有精確運動控制的動畫和視頻效果，而無需學(xué)習(xí)復(fù)雜的動畫軟件。

電影制作：電影制作人可以快速預(yù)覽不同的相機移動和角色動作，以低成本探索創(chuàng)意選擇。

社交媒體內(nèi)容：普通用戶可以為他們的照片添加生動的動態(tài)效果，使社交媒體分享更加引人注目。

教育和演示：教師和演講者可以創(chuàng)建動態(tài)的可視化內(nèi)容，使復(fù)雜的概念更容易理解。

設(shè)計原型：設(shè)計師可以快速創(chuàng)建動態(tài)原型，展示產(chǎn)品如何在實際使用中運動和交互。

ATI的真正魅力在于它的普適性和易用性。就像智能手機的觸摸界面讓復(fù)雜的計算任務(wù)變得簡單直觀一樣，ATI的軌跡控制方法讓復(fù)雜的視頻生成變得簡單易用，使更多人能夠參與創(chuàng)意視頻制作。

未來展望：ATI的發(fā)展方向

盡管ATI已經(jīng)展示了令人印象深刻的能力，研究團(tuán)隊仍然看到了進(jìn)一步改進(jìn)的空間。在論文的結(jié)論部分，他們提到計劃在未來增強控制能力，確保物體運動更好地遵循現(xiàn)實世界的物理規(guī)律和用戶輸入。

這可能意味著引入物理約束，使生成的運動更加自然；或者開發(fā)更復(fù)雜的軌跡規(guī)劃工具，讓用戶能夠更精確地控制運動的速度、加速度和其他屬性。

此外，ATI的統(tǒng)一控制框架也為其他類型的生成控制提供了啟示。未來的研究可能會探索如何將軌跡控制與其他控制信號（如文本、音頻或草圖）結(jié)合起來，創(chuàng)造更豐富、更多樣化的生成內(nèi)容。

隨著視頻生成技術(shù)的不斷發(fā)展，ATI代表了一個重要的里程碑——它不僅提高了控制的精度和質(zhì)量，更重要的是，它簡化了控制的方式，使這項技術(shù)更加平民化。

在過去，創(chuàng)造動態(tài)視覺效果需要專業(yè)的知識和復(fù)雜的工具；現(xiàn)在，有了ATI，任何人都可以通過簡單的點和線來指導(dǎo)AI創(chuàng)造生動的視頻內(nèi)容。這就像是從需要專業(yè)訓(xùn)練的管弦樂團(tuán)轉(zhuǎn)變?yōu)槿魏稳硕寄苁褂玫闹庇^樂器——音樂（或在這里，視頻創(chuàng)作）變得更加民主化和普及化。

結(jié)語：點線之間的視頻魔法

ATI的出現(xiàn)向我們展示了AI如何使復(fù)雜的創(chuàng)意任務(wù)變得簡單直觀。通過將各種類型的運動控制統(tǒng)一到一個基于軌跡的框架中，ByteDance智能創(chuàng)作團(tuán)隊不僅提高了視頻生成的控制精度，還大大簡化了用戶的創(chuàng)作流程。

歸根結(jié)底，ATI的成功在于它找到了一種直觀、統(tǒng)一的方式來表達(dá)我們對運動的意圖。就像人類可以通過簡單的手勢來指示方向和運動一樣，ATI讓我們可以通過簡單的軌跡來指導(dǎo)AI生成復(fù)雜、自然的視頻內(nèi)容。

這項研究讓我們離"思想直接轉(zhuǎn)化為視頻"的理想又近了一步。對于普通人來說，ATI可能意味著在不久的將來，我們將能夠更輕松地創(chuàng)建個性化的動態(tài)內(nèi)容，無論是為了工作、教育還是純粹的娛樂。

對于那些想深入了解ATI的技術(shù)細(xì)節(jié)或親自嘗試這項技術(shù)的讀者，可以訪問項目網(wǎng)站https://anytraj.github.io/獲取更多信息和資源。隨著這類技術(shù)的不斷發(fā)展，視頻創(chuàng)作的未來將變得越來越令人期待。

視頻生成技術(shù)軌跡控制系統(tǒng)運動注入器

分享至

0贊

好文章，需要你的鼓勵

推薦文章

音頻生成
大語言模型
多模態(tài)AI

2025-09-10 09:47

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實驗室團(tuán)隊AudioStory突破性進(jìn)展

騰訊ARC實驗室推出AudioStory系統(tǒng)，首次實現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù)，通過交錯式推理生成、解耦橋接機制和漸進(jìn)式訓(xùn)練，能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異，為AI音頻創(chuàng)作開辟新方向。
視頻生成
深度學(xué)習(xí)
多模態(tài)學(xué)習(xí)

2025-09-09 13:57

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù)，通過讓AI同時學(xué)習(xí)外觀和運動信息，顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運動質(zhì)量，在多項測試中超越包括Sora在內(nèi)的商業(yè)模型，為AI視頻生成的實用化應(yīng)用奠定了重要基礎(chǔ)。
多模態(tài)AI
人類價值觀對齊
數(shù)據(jù)集構(gòu)建

2025-09-09 13:56

上海AI實驗室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價值觀對齊難題

上海AI實驗室發(fā)布OmniAlign-V研究，首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn)，通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法，讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平，為AI價值觀對齊提供了可行技術(shù)路徑。
人工智能
圖神經(jīng)網(wǎng)絡(luò)
天氣預(yù)報

2025-09-09 10:56

谷歌研究團(tuán)隊發(fā)布超級預(yù)測模型：讓AI像天氣預(yù)報員一樣預(yù)測全球大氣變化

谷歌DeepMind團(tuán)隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型，能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報，準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù)，通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律，在極端天氣預(yù)測方面表現(xiàn)卓越，能耗僅為傳統(tǒng)方法的千分之一，為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實驗室團(tuán)隊AudioStory突破性進(jìn)展

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實驗室團(tuán)隊AudioStory突破性進(jìn)展

2025-09-10 09:47

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

2025-09-09 13:57

上海AI實驗室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價值觀對齊難題

上海AI實驗室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價值觀對齊難題

2025-09-09 13:56

谷歌研究團(tuán)隊發(fā)布超級預(yù)測模型：讓AI像天氣預(yù)報員一樣預(yù)測全球大氣變化

谷歌研究團(tuán)隊發(fā)布超級預(yù)測模型：讓AI像天氣預(yù)報員一樣預(yù)測全球大氣變化

2025-09-09 10:56

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時代

京ICP證15039648號京ICP備15039648號-9 京公網(wǎng)安備 11010802021500號

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報電話：010-62641205　涉未成年人舉報專線：010-62641208 舉報郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報專區(qū)：https://www.12377.cn

<ul id="1wibh"><li id="1wibh"></li></ul>