這項由美團視覺AI部門的郭穎、劉曦、甄成、閆鵬飛和魏曉明團隊完成的研究發(fā)表在2025年7月1日的arXiv平臺上,論文編號為arXiv:2507.00472v1。有興趣深入了解技術(shù)細節(jié)的讀者可以通過https://jinyugy21.github.io/ARIG/訪問相關(guān)資源和演示效果。
回想一下你上次和朋友視頻通話的場景:當朋友在說話時,你會點頭、微笑或皺眉;當你想插話時,朋友會注意到你的表情變化;當雙方都沉默時,你們會用眼神交流。這種自然的互動看似簡單,但對計算機來說卻是個巨大挑戰(zhàn)。美團的研究團隊正是要解決這個問題——如何讓虛擬角色像真人一樣參與自然對話。
傳統(tǒng)的虛擬角色生成技術(shù)就像木偶表演,只能單方面"表演",要么只會說話時張嘴,要么只會在別人說話時點頭,完全無法處理真實對話中的復(fù)雜情況。比如當你想打斷對方說話時,或者當你在思考下一句話時的停頓,又或者當你想給對方一個"哇,真棒"的反饋時,傳統(tǒng)技術(shù)都顯得手足無措。
更麻煩的是,現(xiàn)有技術(shù)通常需要提前知道整個對話的內(nèi)容才能生成表情動作,這就像要求演員提前知道觀眾的所有反應(yīng)一樣不現(xiàn)實。在真實對話中,我們需要根據(jù)當下正在發(fā)生的事情立即做出反應(yīng),而不是等幾秒鐘后再表達。
研究團隊開發(fā)的ARIG系統(tǒng)(Autoregressive Interactive Head Generation)就像給虛擬角色裝上了一個"聰明的大腦",讓它能夠?qū)崟r理解對話情況并做出恰當反應(yīng)。這個系統(tǒng)的核心創(chuàng)新在于三個方面:首先是實時性,能夠像真人一樣立刻回應(yīng);其次是理解力,能夠讀懂對話的復(fù)雜狀態(tài);最后是自然度,生成的表情動作看起來真實可信。
一、讓虛擬角色學(xué)會"察言觀色"
要讓虛擬角色真正融入對話,首先得教會它"察言觀色"。研究團隊設(shè)計了一個名為交互行為理解模塊(IBU)的系統(tǒng),這就像給虛擬角色配備了一雙敏銳的眼睛和一對靈敏的耳朵。
這個模塊的工作原理很有趣:它不僅要聽對話雙方說什么,還要看他們的表情動作。就像你在和朋友聊天時,不只是聽他們的話,還會觀察他們的眉毛是否挑起、嘴角是否上揚、頭部是否傾斜等細節(jié)。虛擬角色也需要同時處理這些音頻和視覺信息。
但這里有個技術(shù)挑戰(zhàn):如何平衡短期記憶和長期理解。如果虛擬角色只關(guān)注剛剛說的幾個字,可能會錯誤理解對話意圖;如果試圖記住整個對話歷史,又會因為信息過載而反應(yīng)遲緩。研究團隊想出了一個巧妙的解決方案,就像人類大腦處理信息的方式。
他們將對話切分成小片段,每個片段包含6幀畫面(約240毫秒)。在每個片段內(nèi),系統(tǒng)會仔細分析對話雙方的互動細節(jié),然后將這些信息壓縮成一個簡潔的"互動摘要"。接著,系統(tǒng)會查看過去512個這樣的摘要,從中理解整個對話的上下文和發(fā)展趨勢。
這種方法就像你在看一部連續(xù)劇:你既要理解當前這個鏡頭發(fā)生了什么,也要記住前面幾集的劇情發(fā)展,這樣才能真正理解當前情節(jié)的意義。虛擬角色也是如此,它需要在理解當下互動細節(jié)的同時,把握整個對話的脈絡(luò)。
更重要的是,這個模塊采用了"雙向整合學(xué)習(xí)"的方法。簡單來說,系統(tǒng)會分別分析對話雙方的行為,然后讓他們的信息相互"對話",就像兩個人的思想在交流碰撞。這樣,虛擬角色不僅能理解自己應(yīng)該做什么,還能預(yù)測對方可能的反應(yīng)。
二、破解對話中的"潛臺詞"
真實對話遠比表面看起來復(fù)雜。除了簡單的說話和傾聽,還存在許多微妙的狀態(tài):打斷、反饋、停頓思考、等待對方繼續(xù)等等。研究團隊開發(fā)了對話狀態(tài)理解模塊(CSU),專門用來識別這些"潛臺詞"。
這個模塊的工作原理很像資深的心理咨詢師,能夠從細微的線索中讀出對話的真實狀態(tài)。它首先使用語音活動檢測技術(shù),判斷對話雙方此刻是在說話還是保持沉默。但這只是最基礎(chǔ)的信息,就像只看到了冰山一角。
真正的智慧在于理解沉默背后的含義。同樣是沉默,可能代表正在思考下一句話,可能是在等待對方繼續(xù),也可能是被對方的話震驚了。同樣是說話,可能是正常陳述,可能是激動的感嘆,也可能是禮貌的插話。
系統(tǒng)將這些復(fù)雜狀態(tài)歸納為七種主要類型,就像給對話情況做了一個詳細的"天氣預(yù)報"。當系統(tǒng)識別出當前的對話狀態(tài)后,會據(jù)此調(diào)整虛擬角色的表情動作。比如,如果檢測到對方說了"哇,太厲害了"這樣的話,虛擬角色就知道這是在給予正面反饋,應(yīng)該展現(xiàn)出自信或感謝的表情;如果檢測到對話雙方都沉默了一會兒,系統(tǒng)會判斷是否需要表現(xiàn)出思考的神態(tài)。
這種狀態(tài)理解能力讓虛擬角色的反應(yīng)更加準確和自然。就像一個善解人意的朋友,總能在合適的時候給出恰當?shù)幕貞?yīng),而不是機械地重復(fù)幾種固定的表情。
三、實時生成自然表情的"魔法"
有了理解能力,下一個挑戰(zhàn)就是如何實時生成自然的表情動作。傳統(tǒng)方法就像用積木搭建,只能從有限的預(yù)設(shè)動作中選擇組合,結(jié)果往往顯得僵硬不自然。研究團隊采用了一種全新的"連續(xù)生成"方法,就像用橡皮泥塑形一樣,能夠創(chuàng)造出無限豐富的表情變化。
這個漸進式運動預(yù)測模塊(PMP)的工作過程很像藝術(shù)家作畫:先勾勒出大致輪廓,再逐步添加細節(jié)。系統(tǒng)首先根據(jù)音頻信息生成一個粗略的表情框架,然后結(jié)合對話狀態(tài)和上下文信息,逐步細化出自然的面部動作。
關(guān)鍵的技術(shù)突破在于使用了擴散模型來生成最終的表情參數(shù)。這個過程就像從一團混沌的噪聲中逐步"雕琢"出清晰的表情,每一步都讓表情更加精確和自然。相比傳統(tǒng)的離散選擇方法,這種連續(xù)生成能夠捕捉到更多微妙的表情變化,比如眼神的細微移動、嘴角的輕微上揚等。
為了保證動作的連貫性,系統(tǒng)還會參考前面幾幀的表情,確保整個表情變化過程流暢自然,不會出現(xiàn)突兀的跳躍。這就像電影中的慢鏡頭,每一幀都與前后幀自然銜接,形成流暢的動作序列。
四、"秒回"的實時交互能力
在現(xiàn)實對話中,timing就是一切。如果你的回應(yīng)總是慢半拍,再精彩的表情也會顯得別扭。研究團隊特別強調(diào)了系統(tǒng)的實時性能,確保虛擬角色能夠像真人一樣立即做出反應(yīng)。
傳統(tǒng)系統(tǒng)通常需要等待一段完整的音頻片段(比如幾秒鐘)才能開始生成對應(yīng)的表情,這就像看電視時畫面比聲音慢幾拍一樣令人不適。ARIG系統(tǒng)采用了幀級別的自回歸生成方法,能夠在接收到當前幀的音頻信號后,立即生成對應(yīng)的表情動作。
這種"即時反應(yīng)"能力是通過巧妙的信息處理架構(gòu)實現(xiàn)的。系統(tǒng)維護著多個信息緩存:短期緩存存儲最近幾幀的詳細互動信息,長期緩存保存壓縮后的歷史上下文。這樣,在生成每一幀表情時,系統(tǒng)既能快速訪問必要信息,又不會被過量數(shù)據(jù)拖累。
實測結(jié)果顯示,系統(tǒng)的推理速度達到每秒31幀,完全滿足實時交互的要求。這意味著虛擬角色能夠以毫秒級的速度對對話變化做出反應(yīng),就像真人一樣自然流暢。
五、效果驗證:從數(shù)據(jù)到真實體驗
為了驗證ARIG系統(tǒng)的效果,研究團隊進行了全面的測試評估。他們使用了多個公開數(shù)據(jù)集,包括超過200小時的對話視頻數(shù)據(jù),涵蓋了各種真實的交互場景。
在客觀指標方面,ARIG在多個關(guān)鍵維度上都超越了現(xiàn)有技術(shù)。運動同步性方面,系統(tǒng)生成的表情動作與真實對話的相關(guān)性達到了新的高度;在唇形同步方面,系統(tǒng)的準確度顯著優(yōu)于傳統(tǒng)方法;在表情多樣性方面,ARIG能夠生成更加豐富和自然的表情變化。
更重要的是真實用戶的主觀評價。研究團隊邀請了25位用戶對生成的虛擬角色視頻進行評分,評估維度包括整體自然度、用戶-角色協(xié)調(diào)性、動作多樣性和唇形同步準確性。結(jié)果顯示,ARIG在所有維度上都獲得了遠超現(xiàn)有技術(shù)的評分,用戶普遍認為生成的虛擬角色更加自然可信。
特別值得一提的是,ARIG不僅在交互式對話場景中表現(xiàn)出色,在單獨的說話頭像生成和傾聽者反應(yīng)生成任務(wù)中也達到了最先進的水平。這說明該技術(shù)具有很強的通用性和適應(yīng)性。
六、技術(shù)細節(jié):讓"魔法"變?yōu)楝F(xiàn)實
雖然ARIG的效果看起來像魔法,但其背后是扎實的技術(shù)創(chuàng)新。整個系統(tǒng)的核心架構(gòu)基于Transformer模型,這是目前自然語言處理領(lǐng)域最成功的技術(shù)架構(gòu),研究團隊巧妙地將其適配到了視覺-音頻的多模態(tài)交互場景。
在數(shù)據(jù)處理方面,系統(tǒng)使用預(yù)訓(xùn)練的Wav2Vec2模型提取音頻特征,這確保了對語音信息的準確理解。視覺特征則通過3D面部重建技術(shù)提取,包含了表情、姿態(tài)和尺度等262維的詳細信息。
訓(xùn)練過程采用了多階段策略:首先在單獨的說話和傾聽數(shù)據(jù)上進行預(yù)訓(xùn)練,讓系統(tǒng)掌握基礎(chǔ)的表情生成能力;然后在交互式對話數(shù)據(jù)上進行精調(diào),學(xué)習(xí)復(fù)雜的交互行為模式;最后通過對話狀態(tài)標注數(shù)據(jù)訓(xùn)練狀態(tài)理解能力。
擴散模型的應(yīng)用是技術(shù)上的一大亮點。與傳統(tǒng)的確定性生成方法不同,擴散模型通過隨機過程生成表情參數(shù),這不僅提高了生成質(zhì)量,還增加了表情的自然變化性。系統(tǒng)使用15步擴散采樣,在質(zhì)量和速度之間找到了很好的平衡。
七、應(yīng)用前景:虛擬交互的新時代
ARIG技術(shù)的成功標志著虛擬交互領(lǐng)域的一個重要里程碑,其應(yīng)用前景極其廣闊。在娛樂產(chǎn)業(yè)中,這項技術(shù)可以革命性地改變虛擬主播、游戲角色和電影制作的方式。虛擬主播將能夠與觀眾進行真正自然的實時互動,而不再是機械地播放預(yù)錄內(nèi)容。
在教育領(lǐng)域,ARIG可以創(chuàng)造出更加智能和有趣的虛擬教師。這些虛擬教師不僅能夠講解知識點,還能根據(jù)學(xué)生的反應(yīng)調(diào)整教學(xué)節(jié)奏和方式,甚至在學(xué)生困惑時給出鼓勵的眼神,在學(xué)生回答正確時展現(xiàn)出贊許的表情。
商業(yè)服務(wù)領(lǐng)域也將受益匪淺。虛擬客服將能夠提供更加人性化的服務(wù)體驗,通過觀察用戶的表情和語調(diào)判斷其情緒狀態(tài),并相應(yīng)調(diào)整服務(wù)策略。在線會議和遠程辦公場景中,這項技術(shù)可以讓虛擬化身更加真實,減少視頻會議的疲勞感。
醫(yī)療健康領(lǐng)域的應(yīng)用也值得期待。虛擬治療師可以為需要心理支持的患者提供更加溫暖和人性化的交流體驗,特別是在心理咨詢和康復(fù)訓(xùn)練等場景中。
八、面臨的挑戰(zhàn)與未來發(fā)展
盡管ARIG在技術(shù)上取得了顯著進步,但仍然面臨一些挑戰(zhàn)。首先是計算資源的要求。雖然系統(tǒng)能夠?qū)崿F(xiàn)實時生成,但仍需要相當?shù)腉PU計算能力,這可能限制其在移動設(shè)備上的應(yīng)用。
其次是個性化適應(yīng)的問題。不同的人有不同的表情習(xí)慣和交流風(fēng)格,如何讓虛擬角色快速學(xué)習(xí)并模仿特定用戶的表達方式,仍然是一個技術(shù)挑戰(zhàn)。
數(shù)據(jù)多樣性也是需要持續(xù)改進的方面。雖然訓(xùn)練數(shù)據(jù)涵蓋了多種對話場景,但真實世界的交互情況幾乎是無限的,系統(tǒng)在遇到訓(xùn)練中未見過的特殊情況時可能還會出現(xiàn)不自然的反應(yīng)。
文化差異的處理是另一個重要課題。不同文化背景下的表情表達和交流習(xí)慣存在差異,如何讓系統(tǒng)適應(yīng)不同文化環(huán)境下的交互規(guī)范,需要更多的研究和數(shù)據(jù)支持。
展望未來,研究團隊表示將繼續(xù)改進系統(tǒng)的個性化能力和文化適應(yīng)性,同時探索將技術(shù)擴展到全身動作生成的可能性。此外,他們還計劃研究如何在保持高質(zhì)量的同時進一步降低計算要求,使技術(shù)能夠在更廣泛的設(shè)備上應(yīng)用。
說到底,ARIG代表的不僅僅是一項技術(shù)突破,更是人機交互理念的重大轉(zhuǎn)變。它讓我們看到了一個未來:虛擬角色不再是冰冷的程序,而是能夠真正理解和回應(yīng)人類情感的智能伙伴。雖然這項技術(shù)目前還主要局限于頭部表情的生成,但它為虛擬交互的未來發(fā)展奠定了堅實的基礎(chǔ)。
當我們回想起科幻電影中那些能夠與人類無縫交流的人工智能角色時,ARIG讓我們意識到,這樣的未來可能比我們想象的更近。通過讓機器學(xué)會"察言觀色"和"讀懂人心",我們正在構(gòu)建一個人機和諧共存的新世界。在這個世界里,技術(shù)不再是冰冷的工具,而是能夠理解、關(guān)懷和陪伴人類的智慧伙伴。
對于那些想要深入了解這項技術(shù)的讀者,完整的研究論文已在arXiv平臺公開發(fā)布,相關(guān)的演示視頻和技術(shù)細節(jié)也可以通過研究團隊提供的項目網(wǎng)站獲得。這項來自美團視覺AI團隊的創(chuàng)新成果,無疑將推動整個虛擬交互領(lǐng)域向前邁進一大步。
Q&A
Q1:ARIG技術(shù)是什么?它能做什么? A:ARIG是美團開發(fā)的虛擬角色交互技術(shù),能讓虛擬角色像真人一樣參與對話。它不僅能根據(jù)音頻生成對應(yīng)的說話表情,還能理解對話狀態(tài),在適當時機做出點頭、微笑、思考等自然反應(yīng),實現(xiàn)真正的雙向交互。
Q2:這項技術(shù)會不會讓虛擬主播完全取代真人? A:目前不會完全取代真人,但會大大改變直播和視頻制作方式。ARIG主要提升了虛擬角色的自然度和交互能力,讓虛擬內(nèi)容更有吸引力,但真人的創(chuàng)意、情感深度和獨特個性仍然是不可替代的。
Q3:普通人什么時候能用上這項技術(shù)? A:雖然論文剛發(fā)布,但美團作為大型科技公司,相關(guān)技術(shù)可能會逐步應(yīng)用到其產(chǎn)品中。考慮到技術(shù)的成熟度和實用性,預(yù)計1-2年內(nèi)可能會在一些商業(yè)產(chǎn)品中看到類似技術(shù)的應(yīng)用,但大規(guī)模普及還需要更長時間。
好文章,需要你的鼓勵
新加坡國立大學(xué)研究團隊開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實驗顯示,僅訓(xùn)練AI玩簡單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟大學(xué)團隊開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實現(xiàn)37.9%的精度提升,并在真實設(shè)備上展現(xiàn)出色泛化能力,為機器人、AR和自動駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團隊通過對比實驗發(fā)現(xiàn),經(jīng)過強化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時刻"現(xiàn)象,但這些自我糾錯行為并不能實際提升推理準確率。研究揭示了AI模型存在"生成-驗證差距",即生成答案的能力強于驗證答案質(zhì)量的能力,且模型在自我驗證時無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動態(tài)稀疏性實現(xiàn)大語言模型訓(xùn)練加速1.6倍,計算成本降低2.2倍。該方法使用SVD稀疏性估計器智能選擇重要計算部分,在保持模型性能的同時顯著提升訓(xùn)練效率,已在多個任務(wù)上驗證有效性。