av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 新加坡國立大學團隊突破:讓AI學會"多人對話表演",一次生成四個人同時說話的視頻

新加坡國立大學團隊突破:讓AI學會"多人對話表演",一次生成四個人同時說話的視頻

2025-08-08 09:57
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-08-08 09:57 ? 科技行者

這項由新加坡國立大學Show Lab實驗室的朱澤宇、吳維佳和Mike Zheng Shou教授共同完成的研究發(fā)表于2025年8月,論文題目為"Multi-human Interactive Talking Dataset"。這項開創(chuàng)性的研究首次構(gòu)建了專門用于多人對話視頻生成的大規(guī)模數(shù)據(jù)集,并提出了相應(yīng)的基礎(chǔ)模型,為AI視頻生成領(lǐng)域開辟了全新方向。感興趣的讀者可以通過arXiv:2508.03050v1訪問完整論文,相關(guān)代碼已在GitHub開源。

現(xiàn)在的AI視頻生成技術(shù)就像是一位只會單人獨白的演員,無論多么逼真,都只能表演單口相聲,無法勝任真正的對話戲。新加坡國立大學的研究團隊注意到了這個問題,他們發(fā)現(xiàn)現(xiàn)有的AI視頻生成模型雖然能夠根據(jù)音頻生成單個人說話的視頻,但面對多人對話場景時就顯得力不從心。

研究團隊將這種局限性比作一個只會背誦臺詞的機器人演員,雖然能夠模仿人類的表情和嘴型,但完全不懂得與其他演員互動。在真實的對話中,當一個人說話時,其他人會有相應(yīng)的反應(yīng),比如點頭、微笑、眼神交流等非言語表達。這種互動的復雜性遠超單人表演,需要AI同時理解多個人的身體姿態(tài)、面部表情以及他們之間的互動關(guān)系。

為了解決這個問題,研究團隊構(gòu)建了名為MIT(Multi-human Interactive Talking dataset)的大規(guī)模數(shù)據(jù)集。這個數(shù)據(jù)集就像是為AI準備的"多人對話表演教材",包含了12小時的高清對話視頻,每個片段都有2到4個人參與,涵蓋了大約200個不同的身份。這些視頻不是簡單的錄制,而是經(jīng)過精心挑選和標注的珍貴素材。

收集這樣的數(shù)據(jù)集并非易事,就像導演選擇最佳鏡頭一樣復雜。研究團隊開發(fā)了一套自動化的數(shù)據(jù)收集流水線,這套系統(tǒng)像一個挑剔的導演助理,能夠自動識別和篩選出適合的多人對話場景。首先,系統(tǒng)會從原始視頻中識別出包含多個說話者的片段,然后過濾掉那些有鏡頭切換、攝像機抖動或遮擋問題的片段。接下來,系統(tǒng)使用先進的人工智能模型來標注每個人的身體姿態(tài)和說話狀態(tài)。

這個標注過程特別值得關(guān)注,因為它解決了一個關(guān)鍵難題:如何讓AI理解誰在什么時候說話。研究團隊使用了一種叫做"說話分數(shù)"的技術(shù),為每個人在每個時刻分配一個從-1到1的分數(shù)。當分數(shù)接近1時,表示這個人正在說話;當分數(shù)接近-1時,表示這個人在傾聽。這種精細的標注讓AI能夠?qū)W會區(qū)分說話者和傾聽者的不同行為模式。

在身體姿態(tài)標注方面,研究團隊使用了最新的Sapiens模型來提取每個人的關(guān)鍵身體點位。這些點位包括頭部、身體、手臂、腿部和手部的位置信息,總共59個關(guān)鍵點。有趣的是,研究團隊特意減少了面部關(guān)鍵點的數(shù)量,只保留了3個用于確定頭部朝向的點位,因為他們發(fā)現(xiàn)面部的細微表情主要由音頻驅(qū)動,過多的面部標注反而會干擾模型學習。

基于這個豐富的數(shù)據(jù)集,研究團隊還提出了一個名為CovOG(ConversationOriginal)的基礎(chǔ)模型。這個模型就像一個經(jīng)驗豐富的舞臺導演,能夠同時指揮多個演員進行自然的對話表演。CovOG的核心創(chuàng)新在于兩個關(guān)鍵組件:多人姿態(tài)編碼器(MPE)和交互式音頻驅(qū)動器(IAD)。

多人姿態(tài)編碼器的工作原理類似于一個善于協(xié)調(diào)的舞蹈教練。當面對不同數(shù)量的人時,這個編碼器能夠靈活地處理每個人的姿態(tài)信息,然后將它們巧妙地組合起來形成一個統(tǒng)一的表示。這種設(shè)計讓模型能夠處理從兩人對話到四人討論的各種場景,而不需要為每種人數(shù)配置專門訓練不同的模型。

交互式音頻驅(qū)動器則扮演著更加精細的角色,它像一個敏銳的觀察者,能夠根據(jù)音頻信息和說話分數(shù)來調(diào)節(jié)每個人的面部表情和頭部動作。當一個人正在說話時,這個驅(qū)動器會增強其嘴部動作和表情變化;而對于正在傾聽的人,它會生成更加自然的反應(yīng)表情,比如點頭、微笑或思考的神情。

為了驗證這個系統(tǒng)的有效性,研究團隊進行了全面的實驗對比。他們將CovOG與現(xiàn)有的主流方法進行了對比,包括AnimateAnyone和ControlSVD等知名模型。結(jié)果顯示,CovOG在各項評價指標上都表現(xiàn)優(yōu)異,特別是在處理多人場景時展現(xiàn)出了顯著優(yōu)勢。

在定量評價中,研究團隊使用了結(jié)構(gòu)相似性指數(shù)(SSIM)、峰值信噪比(PSNR)和視頻質(zhì)量評價指數(shù)(FVD)等標準指標。在兩人對話場景中,CovOG的SSIM達到0.62,PSNR為19.16,F(xiàn)VD為306.01,均優(yōu)于對比方法。在更復雜的多人場景中,CovOG的表現(xiàn)更加突出,SSIM提升到0.66,PSNR達到20.21,F(xiàn)VD降低到308.68,顯示出更好的視頻質(zhì)量和一致性。

更有說服力的是用戶研究的結(jié)果。研究團隊邀請了七位參與者對生成的視頻進行評價,評價維度包括角色一致性、背景一致性、音視頻同步性和整體視覺質(zhì)量。在所有維度上,CovOG都獲得了最高評分。特別是在音視頻同步方面,CovOG的評分達到3.22分(滿分5分),顯著高于AnimateAnyone的2.66分和ControlSVD的1.86分。

研究團隊還進行了一項有趣的跨模態(tài)實驗,他們將來自不同視頻的身份圖像、姿態(tài)序列和語音音頻隨機組合,測試模型的泛化能力。這就像要求一個演員根據(jù)完全陌生的劇本、服裝和配音來表演。結(jié)果顯示,CovOG在這種極具挑戰(zhàn)性的情況下仍能保持良好的表現(xiàn),在主體一致性、背景一致性、美學質(zhì)量和成像質(zhì)量等方面都優(yōu)于對比方法。

為了深入理解各個組件的作用,研究團隊還進行了細致的消融實驗。當移除多人姿態(tài)編碼器時,模型在處理多人姿態(tài)控制方面的能力顯著下降,生成的視頻中人物動作變得不協(xié)調(diào)。當去掉交互式音頻驅(qū)動器時,模型無法很好地區(qū)分說話者和傾聽者,導致所有人都呈現(xiàn)相似的表情狀態(tài),缺乏真實對話中應(yīng)有的互動感。

在定性評價中,研究團隊展示了一些典型的生成結(jié)果。在相對簡單的兩人對話場景中,CovOG能夠準確地讓說話者產(chǎn)生相應(yīng)的嘴部動作,同時讓傾聽者表現(xiàn)出自然的反應(yīng)表情。在更復雜的多人討論場景中,模型展現(xiàn)出了處理復雜互動模式的能力,包括輪流發(fā)言、同時說話和快速角色轉(zhuǎn)換等真實對話中常見的情況。

研究團隊特別強調(diào)了他們數(shù)據(jù)集中包含的豐富互動模式。除了最常見的輪流對話模式外,數(shù)據(jù)集還包含了許多真實對話中的復雜情況,比如打斷對方說話、重疊發(fā)言、停頓思考等。這些細節(jié)讓AI模型能夠?qū)W習到更加自然和真實的對話動態(tài)。

當然,這項研究也面臨著一些挑戰(zhàn)和局限。研究團隊誠實地指出了多人對話視頻生成中的幾個關(guān)鍵難點。首先是側(cè)臉說話的問題,當對話者轉(zhuǎn)頭看向其他人時,從側(cè)面角度準確地生成嘴部動作仍然是一個技術(shù)挑戰(zhàn)。其次是身份一致性問題,在大幅度頭部和身體旋轉(zhuǎn)時,保持面部特征的一致性需要更加精細的控制。

另一個重要挑戰(zhàn)是現(xiàn)有評價方法的局限性。傳統(tǒng)的嘴唇同步評價指標主要針對正面單人場景設(shè)計,對于多人互動場景中常見的側(cè)臉視角和復雜互動模式,這些指標往往無法提供準確的評價。研究團隊認為,如何有效評價多人對話視頻的質(zhì)量仍然是一個有待解決的開放問題。

數(shù)據(jù)集的規(guī)模也是一個需要持續(xù)改進的方面。雖然12小時的標注數(shù)據(jù)在當前階段已經(jīng)相當可觀,但相比于單人視頻生成任務(wù)動輒數(shù)百小時的訓練數(shù)據(jù),這個規(guī)模仍有提升空間。不過,研究團隊設(shè)計的自動化數(shù)據(jù)收集流水線為未來的規(guī)模擴展提供了可行的技術(shù)路徑。

從技術(shù)創(chuàng)新角度來看,這項研究的價值不僅在于構(gòu)建了首個多人對話視頻數(shù)據(jù)集,更重要的是提出了一個可擴展的技術(shù)框架。多人姿態(tài)編碼器的設(shè)計允許模型處理可變數(shù)量的參與者,這種靈活性為未來處理更大規(guī)模群體對話場景奠定了基礎(chǔ)。交互式音頻驅(qū)動器的設(shè)計理念也可以擴展到更多的非言語交流行為,比如眼神交流、手勢互動等。

從應(yīng)用前景來看,這項技術(shù)有著廣泛的應(yīng)用潛力。在影視制作領(lǐng)域,它可以用于快速生成對話場景的預覽版本,幫助導演在正式拍攝前驗證劇本效果。在教育培訓領(lǐng)域,可以用于生成各種對話場景的教學素材,特別是語言學習和社交技能訓練。在虛擬會議和遠程協(xié)作方面,這項技術(shù)可以用于創(chuàng)建更加生動的虛擬化身,增強在線交流的沉浸感。

研究團隊還展望了未來的發(fā)展方向。他們計劃繼續(xù)擴大數(shù)據(jù)集的規(guī)模和多樣性,包含更多的文化背景、語言類型和對話場景。在技術(shù)方面,他們希望進一步提高模型對細微情感表達的理解能力,讓生成的對話視頻不僅在動作上準確,在情感傳達上也更加真實。

這項研究的意義遠超技術(shù)層面的創(chuàng)新,它代表了AI視頻生成技術(shù)從單一個體向復雜社交互動的重要跨越。就像從單人獨白發(fā)展到群體戲劇一樣,這種技術(shù)進步為AI更好地理解和模擬人類社交行為開辟了新的可能性。

從更廣闊的視角來看,這項研究反映了人工智能發(fā)展的一個重要趨勢:從模擬單一任務(wù)向理解復雜社交情境的轉(zhuǎn)變。人類的交流本質(zhì)上是社交性的,充滿了微妙的互動和非言語信號。讓AI學會處理這些復雜的社交場景,是邁向更加智能和自然的人機交互的重要一步。

說到底,這項研究為我們展示了一個令人興奮的未來:AI不再是冰冷的工具,而是能夠理解和參與人類社交活動的智能伙伴。雖然距離完全實現(xiàn)這個愿景還有很長的路要走,但新加坡國立大學團隊的這項工作無疑是一個重要的里程碑。它不僅推動了技術(shù)的邊界,更重要的是啟發(fā)了我們對AI與人類交互方式的全新思考。

對于普通人來說,這項技術(shù)的發(fā)展意味著未來我們可能會看到更加自然和生動的AI生成內(nèi)容。無論是在娛樂、教育還是商業(yè)應(yīng)用中,這種能夠處理復雜對話場景的AI技術(shù)都將為我們帶來更加豐富和真實的體驗。隨著技術(shù)的不斷完善,我們有理由期待一個AI與人類更加和諧互動的未來。

Q&A

Q1:MIT數(shù)據(jù)集是什么?它與普通的視頻數(shù)據(jù)集有什么不同?

A:MIT數(shù)據(jù)集是新加坡國立大學構(gòu)建的首個多人對話視頻數(shù)據(jù)集,包含12小時高清視頻,每個片段有2-4個人參與對話。與普通數(shù)據(jù)集不同,它專門標注了每個人的說話狀態(tài)、身體姿態(tài)和互動模式,讓AI能學會區(qū)分誰在說話、誰在傾聽,以及他們之間的互動關(guān)系。

Q2:CovOG模型能處理多少人同時對話?效果如何?

A:CovOG模型可以處理2到4個人的同時對話場景。在實驗中,它在多人場景下的表現(xiàn)優(yōu)于現(xiàn)有方法,能夠準確區(qū)分說話者和傾聽者,生成自然的互動表情。在用戶評價中,CovOG在角色一致性、音視頻同步等方面都獲得了最高評分。

Q3:這項技術(shù)有什么實際應(yīng)用價值?普通人能用到嗎?

A:這項技術(shù)在影視制作、教育培訓、虛擬會議等領(lǐng)域有廣闊應(yīng)用前景??梢杂糜谏蓪υ拡鼍邦A覽、語言學習素材、虛擬化身等。目前還處于研究階段,但隨著技術(shù)成熟,未來可能會集成到視頻制作軟件、在線教育平臺等產(chǎn)品中,讓普通人也能受益。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-