在數(shù)字交互不斷發(fā)展的今天,視頻會話已成為我們?nèi)粘I畹闹匾M成部分。2025年6月,來自Character AI的研究者Chetwin Low和Weimin Wang發(fā)表了一篇題為《TalkingMachines: Real-Time Audio-Driven FaceTime-Style Video via Autoregressive Diffusion Models》的研究論文,向我們展示了一種突破性的技術(shù),讓虛擬角色能夠?qū)崟r地通過音頻進行自然流暢的視頻對話。這項研究的演示視頻可以在https://aaxwaz.github.io/TalkingMachines/查看。
想象一下,你能與任何角色——無論是真人風(fēng)格、動畫形象還是3D角色——進行面對面般的實時對話,而這些角色能根據(jù)你的聲音自然地做出表情和動作,嘴型與語音完美同步。這正是TalkingMachines帶給我們的體驗。
一、研究背景:為何實時視頻生成如此具有挑戰(zhàn)性?
近年來,視頻生成技術(shù)取得了長足進步,許多基礎(chǔ)模型已經(jīng)能夠從文本提示或圖像生成高質(zhì)量視頻。然而,當(dāng)我們想將這些技術(shù)應(yīng)用于像視頻會議這樣的實時互動場景時,卻面臨著一個根本性的挑戰(zhàn)。
這個挑戰(zhàn)主要源于現(xiàn)有模型的工作方式。想象一下,傳統(tǒng)的視頻生成就像是一個電影導(dǎo)演需要先看完整部電影的劇本,了解所有情節(jié)發(fā)展和結(jié)局后,才能決定如何拍攝每一個場景。這種方式在專業(yè)術(shù)語中稱為"雙向注意力機制"——每一幀的生成都依賴于未來的幀內(nèi)容。
雖然這種方法能產(chǎn)生連貫的視頻,但它需要一次性處理整個視頻序列,這就導(dǎo)致了一個顯而易見的問題:你無法實時生成視頻流,因為系統(tǒng)需要"預(yù)知"未來才能生成當(dāng)前畫面。這就像你在視頻通話中需要預(yù)先知道5分鐘后你要說什么,這顯然不符合實時對話的本質(zhì)。
TalkingMachines的研究團隊瞄準了這一挑戰(zhàn),他們的目標是將預(yù)訓(xùn)練的雙向視頻擴散模型轉(zhuǎn)變?yōu)槟軌驅(qū)崟r進行音頻驅(qū)動角色動畫的自回歸系統(tǒng)。簡單來說,就是創(chuàng)造一個能夠像人類一樣,只需根據(jù)當(dāng)前和過去的信息(而非未來信息)即可自然響應(yīng)的系統(tǒng)。
二、TalkingMachines如何工作?三大核心創(chuàng)新
Character AI的研究團隊在這項工作中解決了三個關(guān)鍵挑戰(zhàn):預(yù)訓(xùn)練模型的適應(yīng)、無限長度生成和實時性能。讓我們深入了解他們是如何應(yīng)對這些挑戰(zhàn)的。
首先,團隊利用了WAN 2.1的預(yù)訓(xùn)練圖像到視頻(I2V)模型作為基礎(chǔ)。這就像是從一個已經(jīng)精通繪畫技巧的藝術(shù)家開始,然后教會他如何將靜態(tài)畫作變成動畫。具體來說,他們對這個擁有14億參數(shù)的模型進行了改造,添加了4億參數(shù)的音頻處理模塊,使其能夠接收音頻信號作為輸入,并據(jù)此生成嘴唇動作與音頻同步的視頻。
在技術(shù)上,他們采用了"流匹配"方法而非傳統(tǒng)的"隨機擴散"訓(xùn)練。這就像是教導(dǎo)系統(tǒng)沿著一條確定的河流前進,而不是在湍急的水域中隨波逐流。流匹配通過預(yù)測速度場來建模潛在空間中的確定性軌跡,使訓(xùn)練和推理更加穩(wěn)定和高效。
研究團隊還創(chuàng)新性地引入了"分布匹配蒸餾"(DMD)技術(shù)。想象一下,如果原始模型是一位需要經(jīng)過復(fù)雜步驟才能完成一幅畫的大師,DMD就像是教會一位學(xué)徒用更少的步驟達到類似的效果。他們成功地將原來需要24步的模型蒸餾成只需2步即可完成的輕量級版本,大大提高了生成速度。
更重要的是,團隊修改了CausVid框架,實現(xiàn)了"稀疏因果注意力"機制。這就像是在看電影時,你主要關(guān)注當(dāng)前場景、上一個場景以及電影開頭的關(guān)鍵信息,而不是去記憶每一個細節(jié)。具體來說,系統(tǒng)將視頻分成多個小塊(每塊3個潛在幀),每個塊只關(guān)注當(dāng)前塊、前一個塊和起始塊(包含參考圖像)中的信息。這種設(shè)計不僅保證了時間連續(xù)性,還避免了錯誤累積,因為模型始終能夠訪問干凈的參考圖像。
三、系統(tǒng)優(yōu)化:工程創(chuàng)新讓實時生成成為可能
光有理論上的創(chuàng)新還不夠,要實現(xiàn)真正的實時生成,還需要一系列工程層面的優(yōu)化。想象一個高效的工廠流水線,每個環(huán)節(jié)都需要精心設(shè)計才能確保整體流程的順暢運行。
研究團隊發(fā)現(xiàn),在單GPU配置中,VAE解碼(將模型生成的潛在表示轉(zhuǎn)換為實際圖像)和設(shè)備到主機的輸出傳輸占據(jù)了每個視頻塊端到端生成時間的約30%。這個瓶頸在使用序列并行化分布式計算時變得更加明顯——隨著擴散計算越來越并行化,VAE解碼的相對成本占比越來越高,最終限制了可擴展性和實時流媒體性能。
為了解決這個問題,團隊設(shè)計了"Score-VAE分離"服務(wù)器架構(gòu)。這就像是將工廠的不同生產(chǎn)環(huán)節(jié)分配到專門的車間,而不是讓每個工人負責(zé)所有步驟。在這種設(shè)計中,一個GPU專門負責(zé)擴散模型計算(工人),另一個專門負責(zé)VAE解碼(包裝工)。這種分工使得工人可以最大化擴散吞吐量,而包裝工則同時處理解碼操作。
更精妙的是,團隊利用CUDA流實現(xiàn)了高效的計算-通信重疊。想象一下,當(dāng)數(shù)據(jù)在不同設(shè)備間傳輸時,其他設(shè)備并不是在閑等,而是同時進行其他計算工作。通過使用額外的CUDA流來克服NCCL集合通信的阻塞性質(zhì),確保VAE解碼可以與這些集合通信并行進行,從而顯著提高推理吞吐量。
此外,他們還實現(xiàn)了鍵值對和嵌入緩存。這就像是記住了已經(jīng)計算過的結(jié)果,避免重復(fù)計算。在推理過程中,系統(tǒng)緩存了前一塊ct-1和起始塊c0的所有鍵值對,以及時間步嵌入、指導(dǎo)嵌入和上下文嵌入,大大提升了推理速度。
四、訓(xùn)練過程:從預(yù)訓(xùn)練到實時生成的三階段之旅
TalkingMachines的訓(xùn)練過程分為三個清晰的階段,就像建造一座復(fù)雜建筑的不同施工階段。
第一階段是"預(yù)訓(xùn)練模型熱身"。這就像是讓一個已經(jīng)會走路的孩子適應(yīng)新的鞋子。團隊使用128臺H100 GPU,在一天內(nèi)完成了9,000步訓(xùn)練,目標是讓預(yù)訓(xùn)練模型適應(yīng)新的512×512分辨率(原分辨率為480×832)以及以人為中心的訓(xùn)練數(shù)據(jù)。在這個階段,所有層都參與學(xué)習(xí),沒有凍結(jié)任何參數(shù)。
第二階段是"音頻預(yù)訓(xùn)練"。這相當(dāng)于教會孩子如何根據(jù)音樂節(jié)奏舞蹈。團隊使用384臺H100 GPU,用了5天時間完成了30,000步訓(xùn)練,重點是學(xué)習(xí)新的音頻層和口型同步能力。在這個階段,團隊初始化了新的音頻層,同時凍結(jié)了所有非音頻參數(shù),確保模型專注于音頻處理能力的提升。
第三階段是"稀疏自回歸蒸餾"。這就像是將所有學(xué)到的技能整合起來,并且優(yōu)化動作流程,使其更加高效。團隊使用128臺H100 GPU,用了10天時間完成了20,000步訓(xùn)練,目標是將模型蒸餾為只需2步擴散,并具備因果稀疏注意力的能力。在這個階段,所有層都參與學(xué)習(xí),沒有凍結(jié)任何參數(shù)。
值得一提的是,團隊在訓(xùn)練基礎(chǔ)設(shè)施和策略上也做了精心設(shè)計。他們通過激活檢查點和參數(shù)分片,成功將峰值激活內(nèi)存限制在每個GPU內(nèi),消除了對模型并行性的需求,使訓(xùn)練能夠僅使用數(shù)據(jù)并行變體進行。此外,為了優(yōu)化激活內(nèi)存分配,他們使用DeepSpeed ZeRO Stage 3來分片編碼器模塊,這釋放了超過20GB的GPU內(nèi)存,同時對每步性能的影響可以忽略不計。
五、實驗結(jié)果:不同配置的權(quán)衡與選擇
研究團隊進行了一系列實驗,以了解塊大小和擴散步驟在蒸餾過程中的權(quán)衡。他們使用了一個2×2的因子設(shè)計,具體來說,他們改變了塊大?。?幀與7幀)和擴散步驟數(shù)量(2步與4步),并使用感知指標和GPU效率進行評估。
結(jié)果顯示,口型同步質(zhì)量(通過Sync-C和Sync-D指標衡量)在不同設(shè)置之間保持相對一致,只有微小波動。這表明所有配置都提供了穩(wěn)健的口型同步性能。感知質(zhì)量(通過FVD測量)在塊大小從7減少到3且擴散步驟從4減少到2時顯示出輕微下降。然而,這種下降是適度的。
特別值得注意的是計算成本的權(quán)衡。最計算效率高的設(shè)置(塊大小為3,擴散步驟為2)僅需要1臺H100 GPU用于分數(shù)模型,而最高質(zhì)量的設(shè)置則需要4臺H100。這導(dǎo)致了硬件成本和能源消耗的顯著減少,同時仍然提供可接受的生成質(zhì)量。
因此,用戶可以根據(jù)其特定的計算預(yù)算和質(zhì)量期望選擇配置。如果資源約束至關(guān)重要,3×2設(shè)置在性能和效率之間提供了令人信服的平衡;如果需要最大的感知保真度,則首選7×4設(shè)置。
六、應(yīng)用展示:實時FaceTime風(fēng)格的虛擬對話
為了展示TalkingMachines的實際應(yīng)用價值,研究團隊構(gòu)建了一個實時FaceTime風(fēng)格的應(yīng)用程序,將其與音頻大語言模型(LLMs)集成,展示了系統(tǒng)在交互式視頻通信場景中的實際部署。
這個演示系統(tǒng)由三個主要組件組成:首先是音頻LLM集成,它能生成實時的口語回應(yīng),實現(xiàn)與用戶的自然對話交互;其次是視頻生成服務(wù)器,TalkingMachines模型部署在配備H100 GPU的云服務(wù)器上,其中分數(shù)模型和VAE解碼器在單獨的GPU資源上運行,從音頻輸入生成同步的口型同步動畫;第三是WebRTC流媒體,他們使用LiveKit(一種基于云的WebRTC服務(wù))來處理實時視頻流和客戶端連接。
系統(tǒng)工作流程是通過一個分布式管道運行的,用戶音頻通過Web界面捕獲,由音頻LLM處理以生成對話回應(yīng),然后轉(zhuǎn)發(fā)到視頻生成服務(wù)器。生成的視頻幀與音頻同步,并通過WebRTC服務(wù)流回客戶端,實現(xiàn)與AI生成的虛擬形象的實時互動對話。
這一應(yīng)用成功實現(xiàn)了適合交互式視頻通話的實時性能,用戶可以通過桌面和移動設(shè)備上的標準Web瀏覽器訪問系統(tǒng)。系統(tǒng)展示了在實時通信應(yīng)用中部署先進視頻生成模型的實際可行性,為AI驅(qū)動的交互式媒體體驗奠定了基礎(chǔ)。
七、研究總結(jié)、局限性與未來展望
這項研究展示了如何將音頻驅(qū)動動畫和稀疏因果蒸餾有效應(yīng)用于預(yù)訓(xùn)練的視頻生成模型,將其轉(zhuǎn)變?yōu)橹С謱崟r、無限長度FaceTime風(fēng)格視頻生成的流媒體網(wǎng)絡(luò)。最終的模型能夠動畫化各種風(fēng)格的圖像——包括真實感、動漫和3D虛擬形象——當(dāng)與主流音頻大語言模型配對時,能實現(xiàn)自然、高質(zhì)量的口型同步語音。
研究團隊還詳細介紹了在實時流媒體情境中減少計算瓶頸所需的系統(tǒng)級工程工作,包括GPU分配、通信-計算重疊和內(nèi)存重用等方面的優(yōu)化。這些設(shè)計選擇對于使模型能夠在實際部署場景中以最小延遲運行至關(guān)重要。
盡管取得了這些進展,當(dāng)前的方法仍存在一些局限性。音頻條件組件僅在訓(xùn)練的后期階段引入,這意味著預(yù)訓(xùn)練模型在初始學(xué)習(xí)階段并未從大規(guī)模音頻-視頻監(jiān)督中受益。雖然有效,但大型音頻投影層僅在相對較小的數(shù)據(jù)子集上訓(xùn)練,且迭代次數(shù)有限。這一瓶頸限制了模型在更多樣化或具挑戰(zhàn)性的音頻驅(qū)動場景中的可擴展性和表現(xiàn)力。
展望未來,探索將音頻條件更早納入預(yù)訓(xùn)練過程的大規(guī)模預(yù)訓(xùn)練策略將是很有前途的方向。特別是,從海量配對數(shù)據(jù)集聯(lián)合建模視頻和音頻可能會實現(xiàn)更強大的多模態(tài)表示、改進的口型同步保真度,以及跨領(lǐng)域和語言的更穩(wěn)健性能。
總的來說,TalkingMachines展示了將復(fù)雜的視頻生成模型轉(zhuǎn)變?yōu)閷嵱玫膶崟r系統(tǒng)的可能性,為未來更自然、更具表現(xiàn)力的人機交互開辟了新的路徑。隨著技術(shù)的不斷進步,我們可以期待這類系統(tǒng)在教育、娛樂、遠程工作和輔助技術(shù)等多個領(lǐng)域的廣泛應(yīng)用。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機制和漸進式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學(xué)習(xí)外觀和運動信息,顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準,通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報,準確性超越傳統(tǒng)方法90%的指標。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。