av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁 TalkingMachines:Character AI打造的實(shí)時(shí)音頻驅(qū)動(dòng)視頻會(huì)話系統(tǒng),讓虛擬形象自然對(duì)話成為現(xiàn)實(shí)

TalkingMachines:Character AI打造的實(shí)時(shí)音頻驅(qū)動(dòng)視頻會(huì)話系統(tǒng),讓虛擬形象自然對(duì)話成為現(xiàn)實(shí)

2025-06-07 17:02
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-07 17:02 ? 科技行者

在數(shù)字交互不斷發(fā)展的今天,視頻會(huì)話已成為我們?nèi)粘I畹闹匾M成部分。2025年6月,來自Character AI的研究者Chetwin Low和Weimin Wang發(fā)表了一篇題為《TalkingMachines: Real-Time Audio-Driven FaceTime-Style Video via Autoregressive Diffusion Models》的研究論文,向我們展示了一種突破性的技術(shù),讓虛擬角色能夠?qū)崟r(shí)地通過音頻進(jìn)行自然流暢的視頻對(duì)話。這項(xiàng)研究的演示視頻可以在https://aaxwaz.github.io/TalkingMachines/查看。

想象一下,你能與任何角色——無論是真人風(fēng)格、動(dòng)畫形象還是3D角色——進(jìn)行面對(duì)面般的實(shí)時(shí)對(duì)話,而這些角色能根據(jù)你的聲音自然地做出表情和動(dòng)作,嘴型與語音完美同步。這正是TalkingMachines帶給我們的體驗(yàn)。

一、研究背景:為何實(shí)時(shí)視頻生成如此具有挑戰(zhàn)性?

近年來,視頻生成技術(shù)取得了長(zhǎng)足進(jìn)步,許多基礎(chǔ)模型已經(jīng)能夠從文本提示或圖像生成高質(zhì)量視頻。然而,當(dāng)我們想將這些技術(shù)應(yīng)用于像視頻會(huì)議這樣的實(shí)時(shí)互動(dòng)場(chǎng)景時(shí),卻面臨著一個(gè)根本性的挑戰(zhàn)。

這個(gè)挑戰(zhàn)主要源于現(xiàn)有模型的工作方式。想象一下,傳統(tǒng)的視頻生成就像是一個(gè)電影導(dǎo)演需要先看完整部電影的劇本,了解所有情節(jié)發(fā)展和結(jié)局后,才能決定如何拍攝每一個(gè)場(chǎng)景。這種方式在專業(yè)術(shù)語中稱為"雙向注意力機(jī)制"——每一幀的生成都依賴于未來的幀內(nèi)容。

雖然這種方法能產(chǎn)生連貫的視頻,但它需要一次性處理整個(gè)視頻序列,這就導(dǎo)致了一個(gè)顯而易見的問題:你無法實(shí)時(shí)生成視頻流,因?yàn)橄到y(tǒng)需要"預(yù)知"未來才能生成當(dāng)前畫面。這就像你在視頻通話中需要預(yù)先知道5分鐘后你要說什么,這顯然不符合實(shí)時(shí)對(duì)話的本質(zhì)。

TalkingMachines的研究團(tuán)隊(duì)瞄準(zhǔn)了這一挑戰(zhàn),他們的目標(biāo)是將預(yù)訓(xùn)練的雙向視頻擴(kuò)散模型轉(zhuǎn)變?yōu)槟軌驅(qū)崟r(shí)進(jìn)行音頻驅(qū)動(dòng)角色動(dòng)畫的自回歸系統(tǒng)。簡(jiǎn)單來說,就是創(chuàng)造一個(gè)能夠像人類一樣,只需根據(jù)當(dāng)前和過去的信息(而非未來信息)即可自然響應(yīng)的系統(tǒng)。

二、TalkingMachines如何工作?三大核心創(chuàng)新

Character AI的研究團(tuán)隊(duì)在這項(xiàng)工作中解決了三個(gè)關(guān)鍵挑戰(zhàn):預(yù)訓(xùn)練模型的適應(yīng)、無限長(zhǎng)度生成和實(shí)時(shí)性能。讓我們深入了解他們是如何應(yīng)對(duì)這些挑戰(zhàn)的。

首先,團(tuán)隊(duì)利用了WAN 2.1的預(yù)訓(xùn)練圖像到視頻(I2V)模型作為基礎(chǔ)。這就像是從一個(gè)已經(jīng)精通繪畫技巧的藝術(shù)家開始,然后教會(huì)他如何將靜態(tài)畫作變成動(dòng)畫。具體來說,他們對(duì)這個(gè)擁有14億參數(shù)的模型進(jìn)行了改造,添加了4億參數(shù)的音頻處理模塊,使其能夠接收音頻信號(hào)作為輸入,并據(jù)此生成嘴唇動(dòng)作與音頻同步的視頻。

在技術(shù)上,他們采用了"流匹配"方法而非傳統(tǒng)的"隨機(jī)擴(kuò)散"訓(xùn)練。這就像是教導(dǎo)系統(tǒng)沿著一條確定的河流前進(jìn),而不是在湍急的水域中隨波逐流。流匹配通過預(yù)測(cè)速度場(chǎng)來建模潛在空間中的確定性軌跡,使訓(xùn)練和推理更加穩(wěn)定和高效。

研究團(tuán)隊(duì)還創(chuàng)新性地引入了"分布匹配蒸餾"(DMD)技術(shù)。想象一下,如果原始模型是一位需要經(jīng)過復(fù)雜步驟才能完成一幅畫的大師,DMD就像是教會(huì)一位學(xué)徒用更少的步驟達(dá)到類似的效果。他們成功地將原來需要24步的模型蒸餾成只需2步即可完成的輕量級(jí)版本,大大提高了生成速度。

更重要的是,團(tuán)隊(duì)修改了CausVid框架,實(shí)現(xiàn)了"稀疏因果注意力"機(jī)制。這就像是在看電影時(shí),你主要關(guān)注當(dāng)前場(chǎng)景、上一個(gè)場(chǎng)景以及電影開頭的關(guān)鍵信息,而不是去記憶每一個(gè)細(xì)節(jié)。具體來說,系統(tǒng)將視頻分成多個(gè)小塊(每塊3個(gè)潛在幀),每個(gè)塊只關(guān)注當(dāng)前塊、前一個(gè)塊和起始?jí)K(包含參考圖像)中的信息。這種設(shè)計(jì)不僅保證了時(shí)間連續(xù)性,還避免了錯(cuò)誤累積,因?yàn)槟P褪冀K能夠訪問干凈的參考圖像。

三、系統(tǒng)優(yōu)化:工程創(chuàng)新讓實(shí)時(shí)生成成為可能

光有理論上的創(chuàng)新還不夠,要實(shí)現(xiàn)真正的實(shí)時(shí)生成,還需要一系列工程層面的優(yōu)化。想象一個(gè)高效的工廠流水線,每個(gè)環(huán)節(jié)都需要精心設(shè)計(jì)才能確保整體流程的順暢運(yùn)行。

研究團(tuán)隊(duì)發(fā)現(xiàn),在單GPU配置中,VAE解碼(將模型生成的潛在表示轉(zhuǎn)換為實(shí)際圖像)和設(shè)備到主機(jī)的輸出傳輸占據(jù)了每個(gè)視頻塊端到端生成時(shí)間的約30%。這個(gè)瓶頸在使用序列并行化分布式計(jì)算時(shí)變得更加明顯——隨著擴(kuò)散計(jì)算越來越并行化,VAE解碼的相對(duì)成本占比越來越高,最終限制了可擴(kuò)展性和實(shí)時(shí)流媒體性能。

為了解決這個(gè)問題,團(tuán)隊(duì)設(shè)計(jì)了"Score-VAE分離"服務(wù)器架構(gòu)。這就像是將工廠的不同生產(chǎn)環(huán)節(jié)分配到專門的車間,而不是讓每個(gè)工人負(fù)責(zé)所有步驟。在這種設(shè)計(jì)中,一個(gè)GPU專門負(fù)責(zé)擴(kuò)散模型計(jì)算(工人),另一個(gè)專門負(fù)責(zé)VAE解碼(包裝工)。這種分工使得工人可以最大化擴(kuò)散吞吐量,而包裝工則同時(shí)處理解碼操作。

更精妙的是,團(tuán)隊(duì)利用CUDA流實(shí)現(xiàn)了高效的計(jì)算-通信重疊。想象一下,當(dāng)數(shù)據(jù)在不同設(shè)備間傳輸時(shí),其他設(shè)備并不是在閑等,而是同時(shí)進(jìn)行其他計(jì)算工作。通過使用額外的CUDA流來克服NCCL集合通信的阻塞性質(zhì),確保VAE解碼可以與這些集合通信并行進(jìn)行,從而顯著提高推理吞吐量。

此外,他們還實(shí)現(xiàn)了鍵值對(duì)和嵌入緩存。這就像是記住了已經(jīng)計(jì)算過的結(jié)果,避免重復(fù)計(jì)算。在推理過程中,系統(tǒng)緩存了前一塊ct-1和起始?jí)Kc0的所有鍵值對(duì),以及時(shí)間步嵌入、指導(dǎo)嵌入和上下文嵌入,大大提升了推理速度。

四、訓(xùn)練過程:從預(yù)訓(xùn)練到實(shí)時(shí)生成的三階段之旅

TalkingMachines的訓(xùn)練過程分為三個(gè)清晰的階段,就像建造一座復(fù)雜建筑的不同施工階段。

第一階段是"預(yù)訓(xùn)練模型熱身"。這就像是讓一個(gè)已經(jīng)會(huì)走路的孩子適應(yīng)新的鞋子。團(tuán)隊(duì)使用128臺(tái)H100 GPU,在一天內(nèi)完成了9,000步訓(xùn)練,目標(biāo)是讓預(yù)訓(xùn)練模型適應(yīng)新的512×512分辨率(原分辨率為480×832)以及以人為中心的訓(xùn)練數(shù)據(jù)。在這個(gè)階段,所有層都參與學(xué)習(xí),沒有凍結(jié)任何參數(shù)。

第二階段是"音頻預(yù)訓(xùn)練"。這相當(dāng)于教會(huì)孩子如何根據(jù)音樂節(jié)奏舞蹈。團(tuán)隊(duì)使用384臺(tái)H100 GPU,用了5天時(shí)間完成了30,000步訓(xùn)練,重點(diǎn)是學(xué)習(xí)新的音頻層和口型同步能力。在這個(gè)階段,團(tuán)隊(duì)初始化了新的音頻層,同時(shí)凍結(jié)了所有非音頻參數(shù),確保模型專注于音頻處理能力的提升。

第三階段是"稀疏自回歸蒸餾"。這就像是將所有學(xué)到的技能整合起來,并且優(yōu)化動(dòng)作流程,使其更加高效。團(tuán)隊(duì)使用128臺(tái)H100 GPU,用了10天時(shí)間完成了20,000步訓(xùn)練,目標(biāo)是將模型蒸餾為只需2步擴(kuò)散,并具備因果稀疏注意力的能力。在這個(gè)階段,所有層都參與學(xué)習(xí),沒有凍結(jié)任何參數(shù)。

值得一提的是,團(tuán)隊(duì)在訓(xùn)練基礎(chǔ)設(shè)施和策略上也做了精心設(shè)計(jì)。他們通過激活檢查點(diǎn)和參數(shù)分片,成功將峰值激活內(nèi)存限制在每個(gè)GPU內(nèi),消除了對(duì)模型并行性的需求,使訓(xùn)練能夠僅使用數(shù)據(jù)并行變體進(jìn)行。此外,為了優(yōu)化激活內(nèi)存分配,他們使用DeepSpeed ZeRO Stage 3來分片編碼器模塊,這釋放了超過20GB的GPU內(nèi)存,同時(shí)對(duì)每步性能的影響可以忽略不計(jì)。

五、實(shí)驗(yàn)結(jié)果:不同配置的權(quán)衡與選擇

研究團(tuán)隊(duì)進(jìn)行了一系列實(shí)驗(yàn),以了解塊大小和擴(kuò)散步驟在蒸餾過程中的權(quán)衡。他們使用了一個(gè)2×2的因子設(shè)計(jì),具體來說,他們改變了塊大?。?幀與7幀)和擴(kuò)散步驟數(shù)量(2步與4步),并使用感知指標(biāo)和GPU效率進(jìn)行評(píng)估。

結(jié)果顯示,口型同步質(zhì)量(通過Sync-C和Sync-D指標(biāo)衡量)在不同設(shè)置之間保持相對(duì)一致,只有微小波動(dòng)。這表明所有配置都提供了穩(wěn)健的口型同步性能。感知質(zhì)量(通過FVD測(cè)量)在塊大小從7減少到3且擴(kuò)散步驟從4減少到2時(shí)顯示出輕微下降。然而,這種下降是適度的。

特別值得注意的是計(jì)算成本的權(quán)衡。最計(jì)算效率高的設(shè)置(塊大小為3,擴(kuò)散步驟為2)僅需要1臺(tái)H100 GPU用于分?jǐn)?shù)模型,而最高質(zhì)量的設(shè)置則需要4臺(tái)H100。這導(dǎo)致了硬件成本和能源消耗的顯著減少,同時(shí)仍然提供可接受的生成質(zhì)量。

因此,用戶可以根據(jù)其特定的計(jì)算預(yù)算和質(zhì)量期望選擇配置。如果資源約束至關(guān)重要,3×2設(shè)置在性能和效率之間提供了令人信服的平衡;如果需要最大的感知保真度,則首選7×4設(shè)置。

六、應(yīng)用展示:實(shí)時(shí)FaceTime風(fēng)格的虛擬對(duì)話

為了展示TalkingMachines的實(shí)際應(yīng)用價(jià)值,研究團(tuán)隊(duì)構(gòu)建了一個(gè)實(shí)時(shí)FaceTime風(fēng)格的應(yīng)用程序,將其與音頻大語言模型(LLMs)集成,展示了系統(tǒng)在交互式視頻通信場(chǎng)景中的實(shí)際部署。

這個(gè)演示系統(tǒng)由三個(gè)主要組件組成:首先是音頻LLM集成,它能生成實(shí)時(shí)的口語回應(yīng),實(shí)現(xiàn)與用戶的自然對(duì)話交互;其次是視頻生成服務(wù)器,TalkingMachines模型部署在配備H100 GPU的云服務(wù)器上,其中分?jǐn)?shù)模型和VAE解碼器在單獨(dú)的GPU資源上運(yùn)行,從音頻輸入生成同步的口型同步動(dòng)畫;第三是WebRTC流媒體,他們使用LiveKit(一種基于云的WebRTC服務(wù))來處理實(shí)時(shí)視頻流和客戶端連接。

系統(tǒng)工作流程是通過一個(gè)分布式管道運(yùn)行的,用戶音頻通過Web界面捕獲,由音頻LLM處理以生成對(duì)話回應(yīng),然后轉(zhuǎn)發(fā)到視頻生成服務(wù)器。生成的視頻幀與音頻同步,并通過WebRTC服務(wù)流回客戶端,實(shí)現(xiàn)與AI生成的虛擬形象的實(shí)時(shí)互動(dòng)對(duì)話。

這一應(yīng)用成功實(shí)現(xiàn)了適合交互式視頻通話的實(shí)時(shí)性能,用戶可以通過桌面和移動(dòng)設(shè)備上的標(biāo)準(zhǔn)Web瀏覽器訪問系統(tǒng)。系統(tǒng)展示了在實(shí)時(shí)通信應(yīng)用中部署先進(jìn)視頻生成模型的實(shí)際可行性,為AI驅(qū)動(dòng)的交互式媒體體驗(yàn)奠定了基礎(chǔ)。

七、研究總結(jié)、局限性與未來展望

這項(xiàng)研究展示了如何將音頻驅(qū)動(dòng)動(dòng)畫和稀疏因果蒸餾有效應(yīng)用于預(yù)訓(xùn)練的視頻生成模型,將其轉(zhuǎn)變?yōu)橹С謱?shí)時(shí)、無限長(zhǎng)度FaceTime風(fēng)格視頻生成的流媒體網(wǎng)絡(luò)。最終的模型能夠動(dòng)畫化各種風(fēng)格的圖像——包括真實(shí)感、動(dòng)漫和3D虛擬形象——當(dāng)與主流音頻大語言模型配對(duì)時(shí),能實(shí)現(xiàn)自然、高質(zhì)量的口型同步語音。

研究團(tuán)隊(duì)還詳細(xì)介紹了在實(shí)時(shí)流媒體情境中減少計(jì)算瓶頸所需的系統(tǒng)級(jí)工程工作,包括GPU分配、通信-計(jì)算重疊和內(nèi)存重用等方面的優(yōu)化。這些設(shè)計(jì)選擇對(duì)于使模型能夠在實(shí)際部署場(chǎng)景中以最小延遲運(yùn)行至關(guān)重要。

盡管取得了這些進(jìn)展,當(dāng)前的方法仍存在一些局限性。音頻條件組件僅在訓(xùn)練的后期階段引入,這意味著預(yù)訓(xùn)練模型在初始學(xué)習(xí)階段并未從大規(guī)模音頻-視頻監(jiān)督中受益。雖然有效,但大型音頻投影層僅在相對(duì)較小的數(shù)據(jù)子集上訓(xùn)練,且迭代次數(shù)有限。這一瓶頸限制了模型在更多樣化或具挑戰(zhàn)性的音頻驅(qū)動(dòng)場(chǎng)景中的可擴(kuò)展性和表現(xiàn)力。

展望未來,探索將音頻條件更早納入預(yù)訓(xùn)練過程的大規(guī)模預(yù)訓(xùn)練策略將是很有前途的方向。特別是,從海量配對(duì)數(shù)據(jù)集聯(lián)合建模視頻和音頻可能會(huì)實(shí)現(xiàn)更強(qiáng)大的多模態(tài)表示、改進(jìn)的口型同步保真度,以及跨領(lǐng)域和語言的更穩(wěn)健性能。

總的來說,TalkingMachines展示了將復(fù)雜的視頻生成模型轉(zhuǎn)變?yōu)閷?shí)用的實(shí)時(shí)系統(tǒng)的可能性,為未來更自然、更具表現(xiàn)力的人機(jī)交互開辟了新的路徑。隨著技術(shù)的不斷進(jìn)步,我們可以期待這類系統(tǒng)在教育、娛樂、遠(yuǎn)程工作和輔助技術(shù)等多個(gè)領(lǐng)域的廣泛應(yīng)用。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-