這項(xiàng)由美團(tuán)視覺AI部門的郭穎、劉曦、甄成、閆鵬飛和魏曉明團(tuán)隊(duì)完成的研究發(fā)表在2025年7月1日的arXiv平臺(tái)上,論文編號(hào)為arXiv:2507.00472v1。有興趣深入了解技術(shù)細(xì)節(jié)的讀者可以通過https://jinyugy21.github.io/ARIG/訪問相關(guān)資源和演示效果。
回想一下你上次和朋友視頻通話的場(chǎng)景:當(dāng)朋友在說(shuō)話時(shí),你會(huì)點(diǎn)頭、微笑或皺眉;當(dāng)你想插話時(shí),朋友會(huì)注意到你的表情變化;當(dāng)雙方都沉默時(shí),你們會(huì)用眼神交流。這種自然的互動(dòng)看似簡(jiǎn)單,但對(duì)計(jì)算機(jī)來(lái)說(shuō)卻是個(gè)巨大挑戰(zhàn)。美團(tuán)的研究團(tuán)隊(duì)正是要解決這個(gè)問題——如何讓虛擬角色像真人一樣參與自然對(duì)話。
傳統(tǒng)的虛擬角色生成技術(shù)就像木偶表演,只能單方面"表演",要么只會(huì)說(shuō)話時(shí)張嘴,要么只會(huì)在別人說(shuō)話時(shí)點(diǎn)頭,完全無(wú)法處理真實(shí)對(duì)話中的復(fù)雜情況。比如當(dāng)你想打斷對(duì)方說(shuō)話時(shí),或者當(dāng)你在思考下一句話時(shí)的停頓,又或者當(dāng)你想給對(duì)方一個(gè)"哇,真棒"的反饋時(shí),傳統(tǒng)技術(shù)都顯得手足無(wú)措。
更麻煩的是,現(xiàn)有技術(shù)通常需要提前知道整個(gè)對(duì)話的內(nèi)容才能生成表情動(dòng)作,這就像要求演員提前知道觀眾的所有反應(yīng)一樣不現(xiàn)實(shí)。在真實(shí)對(duì)話中,我們需要根據(jù)當(dāng)下正在發(fā)生的事情立即做出反應(yīng),而不是等幾秒鐘后再表達(dá)。
研究團(tuán)隊(duì)開發(fā)的ARIG系統(tǒng)(Autoregressive Interactive Head Generation)就像給虛擬角色裝上了一個(gè)"聰明的大腦",讓它能夠?qū)崟r(shí)理解對(duì)話情況并做出恰當(dāng)反應(yīng)。這個(gè)系統(tǒng)的核心創(chuàng)新在于三個(gè)方面:首先是實(shí)時(shí)性,能夠像真人一樣立刻回應(yīng);其次是理解力,能夠讀懂對(duì)話的復(fù)雜狀態(tài);最后是自然度,生成的表情動(dòng)作看起來(lái)真實(shí)可信。
一、讓虛擬角色學(xué)會(huì)"察言觀色"
要讓虛擬角色真正融入對(duì)話,首先得教會(huì)它"察言觀色"。研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)名為交互行為理解模塊(IBU)的系統(tǒng),這就像給虛擬角色配備了一雙敏銳的眼睛和一對(duì)靈敏的耳朵。
這個(gè)模塊的工作原理很有趣:它不僅要聽對(duì)話雙方說(shuō)什么,還要看他們的表情動(dòng)作。就像你在和朋友聊天時(shí),不只是聽他們的話,還會(huì)觀察他們的眉毛是否挑起、嘴角是否上揚(yáng)、頭部是否傾斜等細(xì)節(jié)。虛擬角色也需要同時(shí)處理這些音頻和視覺信息。
但這里有個(gè)技術(shù)挑戰(zhàn):如何平衡短期記憶和長(zhǎng)期理解。如果虛擬角色只關(guān)注剛剛說(shuō)的幾個(gè)字,可能會(huì)錯(cuò)誤理解對(duì)話意圖;如果試圖記住整個(gè)對(duì)話歷史,又會(huì)因?yàn)樾畔⑦^載而反應(yīng)遲緩。研究團(tuán)隊(duì)想出了一個(gè)巧妙的解決方案,就像人類大腦處理信息的方式。
他們將對(duì)話切分成小片段,每個(gè)片段包含6幀畫面(約240毫秒)。在每個(gè)片段內(nèi),系統(tǒng)會(huì)仔細(xì)分析對(duì)話雙方的互動(dòng)細(xì)節(jié),然后將這些信息壓縮成一個(gè)簡(jiǎn)潔的"互動(dòng)摘要"。接著,系統(tǒng)會(huì)查看過去512個(gè)這樣的摘要,從中理解整個(gè)對(duì)話的上下文和發(fā)展趨勢(shì)。
這種方法就像你在看一部連續(xù)劇:你既要理解當(dāng)前這個(gè)鏡頭發(fā)生了什么,也要記住前面幾集的劇情發(fā)展,這樣才能真正理解當(dāng)前情節(jié)的意義。虛擬角色也是如此,它需要在理解當(dāng)下互動(dòng)細(xì)節(jié)的同時(shí),把握整個(gè)對(duì)話的脈絡(luò)。
更重要的是,這個(gè)模塊采用了"雙向整合學(xué)習(xí)"的方法。簡(jiǎn)單來(lái)說(shuō),系統(tǒng)會(huì)分別分析對(duì)話雙方的行為,然后讓他們的信息相互"對(duì)話",就像兩個(gè)人的思想在交流碰撞。這樣,虛擬角色不僅能理解自己應(yīng)該做什么,還能預(yù)測(cè)對(duì)方可能的反應(yīng)。
二、破解對(duì)話中的"潛臺(tái)詞"
真實(shí)對(duì)話遠(yuǎn)比表面看起來(lái)復(fù)雜。除了簡(jiǎn)單的說(shuō)話和傾聽,還存在許多微妙的狀態(tài):打斷、反饋、停頓思考、等待對(duì)方繼續(xù)等等。研究團(tuán)隊(duì)開發(fā)了對(duì)話狀態(tài)理解模塊(CSU),專門用來(lái)識(shí)別這些"潛臺(tái)詞"。
這個(gè)模塊的工作原理很像資深的心理咨詢師,能夠從細(xì)微的線索中讀出對(duì)話的真實(shí)狀態(tài)。它首先使用語(yǔ)音活動(dòng)檢測(cè)技術(shù),判斷對(duì)話雙方此刻是在說(shuō)話還是保持沉默。但這只是最基礎(chǔ)的信息,就像只看到了冰山一角。
真正的智慧在于理解沉默背后的含義。同樣是沉默,可能代表正在思考下一句話,可能是在等待對(duì)方繼續(xù),也可能是被對(duì)方的話震驚了。同樣是說(shuō)話,可能是正常陳述,可能是激動(dòng)的感嘆,也可能是禮貌的插話。
系統(tǒng)將這些復(fù)雜狀態(tài)歸納為七種主要類型,就像給對(duì)話情況做了一個(gè)詳細(xì)的"天氣預(yù)報(bào)"。當(dāng)系統(tǒng)識(shí)別出當(dāng)前的對(duì)話狀態(tài)后,會(huì)據(jù)此調(diào)整虛擬角色的表情動(dòng)作。比如,如果檢測(cè)到對(duì)方說(shuō)了"哇,太厲害了"這樣的話,虛擬角色就知道這是在給予正面反饋,應(yīng)該展現(xiàn)出自信或感謝的表情;如果檢測(cè)到對(duì)話雙方都沉默了一會(huì)兒,系統(tǒng)會(huì)判斷是否需要表現(xiàn)出思考的神態(tài)。
這種狀態(tài)理解能力讓虛擬角色的反應(yīng)更加準(zhǔn)確和自然。就像一個(gè)善解人意的朋友,總能在合適的時(shí)候給出恰當(dāng)?shù)幕貞?yīng),而不是機(jī)械地重復(fù)幾種固定的表情。
三、實(shí)時(shí)生成自然表情的"魔法"
有了理解能力,下一個(gè)挑戰(zhàn)就是如何實(shí)時(shí)生成自然的表情動(dòng)作。傳統(tǒng)方法就像用積木搭建,只能從有限的預(yù)設(shè)動(dòng)作中選擇組合,結(jié)果往往顯得僵硬不自然。研究團(tuán)隊(duì)采用了一種全新的"連續(xù)生成"方法,就像用橡皮泥塑形一樣,能夠創(chuàng)造出無(wú)限豐富的表情變化。
這個(gè)漸進(jìn)式運(yùn)動(dòng)預(yù)測(cè)模塊(PMP)的工作過程很像藝術(shù)家作畫:先勾勒出大致輪廓,再逐步添加細(xì)節(jié)。系統(tǒng)首先根據(jù)音頻信息生成一個(gè)粗略的表情框架,然后結(jié)合對(duì)話狀態(tài)和上下文信息,逐步細(xì)化出自然的面部動(dòng)作。
關(guān)鍵的技術(shù)突破在于使用了擴(kuò)散模型來(lái)生成最終的表情參數(shù)。這個(gè)過程就像從一團(tuán)混沌的噪聲中逐步"雕琢"出清晰的表情,每一步都讓表情更加精確和自然。相比傳統(tǒng)的離散選擇方法,這種連續(xù)生成能夠捕捉到更多微妙的表情變化,比如眼神的細(xì)微移動(dòng)、嘴角的輕微上揚(yáng)等。
為了保證動(dòng)作的連貫性,系統(tǒng)還會(huì)參考前面幾幀的表情,確保整個(gè)表情變化過程流暢自然,不會(huì)出現(xiàn)突兀的跳躍。這就像電影中的慢鏡頭,每一幀都與前后幀自然銜接,形成流暢的動(dòng)作序列。
四、"秒回"的實(shí)時(shí)交互能力
在現(xiàn)實(shí)對(duì)話中,timing就是一切。如果你的回應(yīng)總是慢半拍,再精彩的表情也會(huì)顯得別扭。研究團(tuán)隊(duì)特別強(qiáng)調(diào)了系統(tǒng)的實(shí)時(shí)性能,確保虛擬角色能夠像真人一樣立即做出反應(yīng)。
傳統(tǒng)系統(tǒng)通常需要等待一段完整的音頻片段(比如幾秒鐘)才能開始生成對(duì)應(yīng)的表情,這就像看電視時(shí)畫面比聲音慢幾拍一樣令人不適。ARIG系統(tǒng)采用了幀級(jí)別的自回歸生成方法,能夠在接收到當(dāng)前幀的音頻信號(hào)后,立即生成對(duì)應(yīng)的表情動(dòng)作。
這種"即時(shí)反應(yīng)"能力是通過巧妙的信息處理架構(gòu)實(shí)現(xiàn)的。系統(tǒng)維護(hù)著多個(gè)信息緩存:短期緩存存儲(chǔ)最近幾幀的詳細(xì)互動(dòng)信息,長(zhǎng)期緩存保存壓縮后的歷史上下文。這樣,在生成每一幀表情時(shí),系統(tǒng)既能快速訪問必要信息,又不會(huì)被過量數(shù)據(jù)拖累。
實(shí)測(cè)結(jié)果顯示,系統(tǒng)的推理速度達(dá)到每秒31幀,完全滿足實(shí)時(shí)交互的要求。這意味著虛擬角色能夠以毫秒級(jí)的速度對(duì)對(duì)話變化做出反應(yīng),就像真人一樣自然流暢。
五、效果驗(yàn)證:從數(shù)據(jù)到真實(shí)體驗(yàn)
為了驗(yàn)證ARIG系統(tǒng)的效果,研究團(tuán)隊(duì)進(jìn)行了全面的測(cè)試評(píng)估。他們使用了多個(gè)公開數(shù)據(jù)集,包括超過200小時(shí)的對(duì)話視頻數(shù)據(jù),涵蓋了各種真實(shí)的交互場(chǎng)景。
在客觀指標(biāo)方面,ARIG在多個(gè)關(guān)鍵維度上都超越了現(xiàn)有技術(shù)。運(yùn)動(dòng)同步性方面,系統(tǒng)生成的表情動(dòng)作與真實(shí)對(duì)話的相關(guān)性達(dá)到了新的高度;在唇形同步方面,系統(tǒng)的準(zhǔn)確度顯著優(yōu)于傳統(tǒng)方法;在表情多樣性方面,ARIG能夠生成更加豐富和自然的表情變化。
更重要的是真實(shí)用戶的主觀評(píng)價(jià)。研究團(tuán)隊(duì)邀請(qǐng)了25位用戶對(duì)生成的虛擬角色視頻進(jìn)行評(píng)分,評(píng)估維度包括整體自然度、用戶-角色協(xié)調(diào)性、動(dòng)作多樣性和唇形同步準(zhǔn)確性。結(jié)果顯示,ARIG在所有維度上都獲得了遠(yuǎn)超現(xiàn)有技術(shù)的評(píng)分,用戶普遍認(rèn)為生成的虛擬角色更加自然可信。
特別值得一提的是,ARIG不僅在交互式對(duì)話場(chǎng)景中表現(xiàn)出色,在單獨(dú)的說(shuō)話頭像生成和傾聽者反應(yīng)生成任務(wù)中也達(dá)到了最先進(jìn)的水平。這說(shuō)明該技術(shù)具有很強(qiáng)的通用性和適應(yīng)性。
六、技術(shù)細(xì)節(jié):讓"魔法"變?yōu)楝F(xiàn)實(shí)
雖然ARIG的效果看起來(lái)像魔法,但其背后是扎實(shí)的技術(shù)創(chuàng)新。整個(gè)系統(tǒng)的核心架構(gòu)基于Transformer模型,這是目前自然語(yǔ)言處理領(lǐng)域最成功的技術(shù)架構(gòu),研究團(tuán)隊(duì)巧妙地將其適配到了視覺-音頻的多模態(tài)交互場(chǎng)景。
在數(shù)據(jù)處理方面,系統(tǒng)使用預(yù)訓(xùn)練的Wav2Vec2模型提取音頻特征,這確保了對(duì)語(yǔ)音信息的準(zhǔn)確理解。視覺特征則通過3D面部重建技術(shù)提取,包含了表情、姿態(tài)和尺度等262維的詳細(xì)信息。
訓(xùn)練過程采用了多階段策略:首先在單獨(dú)的說(shuō)話和傾聽數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練,讓系統(tǒng)掌握基礎(chǔ)的表情生成能力;然后在交互式對(duì)話數(shù)據(jù)上進(jìn)行精調(diào),學(xué)習(xí)復(fù)雜的交互行為模式;最后通過對(duì)話狀態(tài)標(biāo)注數(shù)據(jù)訓(xùn)練狀態(tài)理解能力。
擴(kuò)散模型的應(yīng)用是技術(shù)上的一大亮點(diǎn)。與傳統(tǒng)的確定性生成方法不同,擴(kuò)散模型通過隨機(jī)過程生成表情參數(shù),這不僅提高了生成質(zhì)量,還增加了表情的自然變化性。系統(tǒng)使用15步擴(kuò)散采樣,在質(zhì)量和速度之間找到了很好的平衡。
七、應(yīng)用前景:虛擬交互的新時(shí)代
ARIG技術(shù)的成功標(biāo)志著虛擬交互領(lǐng)域的一個(gè)重要里程碑,其應(yīng)用前景極其廣闊。在娛樂產(chǎn)業(yè)中,這項(xiàng)技術(shù)可以革命性地改變虛擬主播、游戲角色和電影制作的方式。虛擬主播將能夠與觀眾進(jìn)行真正自然的實(shí)時(shí)互動(dòng),而不再是機(jī)械地播放預(yù)錄內(nèi)容。
在教育領(lǐng)域,ARIG可以創(chuàng)造出更加智能和有趣的虛擬教師。這些虛擬教師不僅能夠講解知識(shí)點(diǎn),還能根據(jù)學(xué)生的反應(yīng)調(diào)整教學(xué)節(jié)奏和方式,甚至在學(xué)生困惑時(shí)給出鼓勵(lì)的眼神,在學(xué)生回答正確時(shí)展現(xiàn)出贊許的表情。
商業(yè)服務(wù)領(lǐng)域也將受益匪淺。虛擬客服將能夠提供更加人性化的服務(wù)體驗(yàn),通過觀察用戶的表情和語(yǔ)調(diào)判斷其情緒狀態(tài),并相應(yīng)調(diào)整服務(wù)策略。在線會(huì)議和遠(yuǎn)程辦公場(chǎng)景中,這項(xiàng)技術(shù)可以讓虛擬化身更加真實(shí),減少視頻會(huì)議的疲勞感。
醫(yī)療健康領(lǐng)域的應(yīng)用也值得期待。虛擬治療師可以為需要心理支持的患者提供更加溫暖和人性化的交流體驗(yàn),特別是在心理咨詢和康復(fù)訓(xùn)練等場(chǎng)景中。
八、面臨的挑戰(zhàn)與未來(lái)發(fā)展
盡管ARIG在技術(shù)上取得了顯著進(jìn)步,但仍然面臨一些挑戰(zhàn)。首先是計(jì)算資源的要求。雖然系統(tǒng)能夠?qū)崿F(xiàn)實(shí)時(shí)生成,但仍需要相當(dāng)?shù)腉PU計(jì)算能力,這可能限制其在移動(dòng)設(shè)備上的應(yīng)用。
其次是個(gè)性化適應(yīng)的問題。不同的人有不同的表情習(xí)慣和交流風(fēng)格,如何讓虛擬角色快速學(xué)習(xí)并模仿特定用戶的表達(dá)方式,仍然是一個(gè)技術(shù)挑戰(zhàn)。
數(shù)據(jù)多樣性也是需要持續(xù)改進(jìn)的方面。雖然訓(xùn)練數(shù)據(jù)涵蓋了多種對(duì)話場(chǎng)景,但真實(shí)世界的交互情況幾乎是無(wú)限的,系統(tǒng)在遇到訓(xùn)練中未見過的特殊情況時(shí)可能還會(huì)出現(xiàn)不自然的反應(yīng)。
文化差異的處理是另一個(gè)重要課題。不同文化背景下的表情表達(dá)和交流習(xí)慣存在差異,如何讓系統(tǒng)適應(yīng)不同文化環(huán)境下的交互規(guī)范,需要更多的研究和數(shù)據(jù)支持。
展望未來(lái),研究團(tuán)隊(duì)表示將繼續(xù)改進(jìn)系統(tǒng)的個(gè)性化能力和文化適應(yīng)性,同時(shí)探索將技術(shù)擴(kuò)展到全身動(dòng)作生成的可能性。此外,他們還計(jì)劃研究如何在保持高質(zhì)量的同時(shí)進(jìn)一步降低計(jì)算要求,使技術(shù)能夠在更廣泛的設(shè)備上應(yīng)用。
說(shuō)到底,ARIG代表的不僅僅是一項(xiàng)技術(shù)突破,更是人機(jī)交互理念的重大轉(zhuǎn)變。它讓我們看到了一個(gè)未來(lái):虛擬角色不再是冰冷的程序,而是能夠真正理解和回應(yīng)人類情感的智能伙伴。雖然這項(xiàng)技術(shù)目前還主要局限于頭部表情的生成,但它為虛擬交互的未來(lái)發(fā)展奠定了堅(jiān)實(shí)的基礎(chǔ)。
當(dāng)我們回想起科幻電影中那些能夠與人類無(wú)縫交流的人工智能角色時(shí),ARIG讓我們意識(shí)到,這樣的未來(lái)可能比我們想象的更近。通過讓機(jī)器學(xué)會(huì)"察言觀色"和"讀懂人心",我們正在構(gòu)建一個(gè)人機(jī)和諧共存的新世界。在這個(gè)世界里,技術(shù)不再是冰冷的工具,而是能夠理解、關(guān)懷和陪伴人類的智慧伙伴。
對(duì)于那些想要深入了解這項(xiàng)技術(shù)的讀者,完整的研究論文已在arXiv平臺(tái)公開發(fā)布,相關(guān)的演示視頻和技術(shù)細(xì)節(jié)也可以通過研究團(tuán)隊(duì)提供的項(xiàng)目網(wǎng)站獲得。這項(xiàng)來(lái)自美團(tuán)視覺AI團(tuán)隊(duì)的創(chuàng)新成果,無(wú)疑將推動(dòng)整個(gè)虛擬交互領(lǐng)域向前邁進(jìn)一大步。
Q&A
Q1:ARIG技術(shù)是什么?它能做什么? A:ARIG是美團(tuán)開發(fā)的虛擬角色交互技術(shù),能讓虛擬角色像真人一樣參與對(duì)話。它不僅能根據(jù)音頻生成對(duì)應(yīng)的說(shuō)話表情,還能理解對(duì)話狀態(tài),在適當(dāng)時(shí)機(jī)做出點(diǎn)頭、微笑、思考等自然反應(yīng),實(shí)現(xiàn)真正的雙向交互。
Q2:這項(xiàng)技術(shù)會(huì)不會(huì)讓虛擬主播完全取代真人? A:目前不會(huì)完全取代真人,但會(huì)大大改變直播和視頻制作方式。ARIG主要提升了虛擬角色的自然度和交互能力,讓虛擬內(nèi)容更有吸引力,但真人的創(chuàng)意、情感深度和獨(dú)特個(gè)性仍然是不可替代的。
Q3:普通人什么時(shí)候能用上這項(xiàng)技術(shù)? A:雖然論文剛發(fā)布,但美團(tuán)作為大型科技公司,相關(guān)技術(shù)可能會(huì)逐步應(yīng)用到其產(chǎn)品中。考慮到技術(shù)的成熟度和實(shí)用性,預(yù)計(jì)1-2年內(nèi)可能會(huì)在一些商業(yè)產(chǎn)品中看到類似技術(shù)的應(yīng)用,但大規(guī)模普及還需要更長(zhǎng)時(shí)間。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語(yǔ)言模型的敘事推理能力與音頻生成技術(shù),通過交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語(yǔ)言模型人性化對(duì)話問題。該研究創(chuàng)建了包含20萬(wàn)高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來(lái)了效率和精度的雙重突破。