這項(xiàng)由新加坡南洋理工大學(xué)的劉子威教授團(tuán)隊(duì)與國立新加坡大學(xué)、香港科技大學(xué)以及上海人工智能實(shí)驗(yàn)室合作完成的研究發(fā)表于2025年8月,論文名為"EgoTwin: Dreaming Body and View in First Person"。感興趣的讀者可以通過arXiv:2508.13013訪問完整論文,或訪問項(xiàng)目主頁https://egotwin.pages.dev/獲取更多演示內(nèi)容。
當(dāng)我們戴上VR眼鏡或者使用智能手機(jī)拍攝第一人稱視頻時,有沒有想過這樣一個問題:如果AI能夠像人類一樣,不僅"看到"我們眼前的世界,還能"感知"我們的身體動作,會發(fā)生什么?劉子威教授的研究團(tuán)隊(duì)就在思考這個有趣的問題。
設(shè)想一下,你戴著一副特殊的眼鏡在房間里走動,眼鏡記錄下你看到的一切畫面,同時另一套設(shè)備記錄你的身體姿勢?,F(xiàn)在問題來了:如果我們只給AI一句話描述"走進(jìn)廚房,打開冰箱",它能否同時生成出你眼中看到的畫面和你身體的動作,并且讓這兩者完美匹配?
傳統(tǒng)的AI要么擅長生成視頻畫面,要么擅長生成人體動作,但很少有系統(tǒng)能夠同時處理這兩個任務(wù),更別說讓它們保持完美同步了。這就像讓一個人同時用左手畫畫、右手寫字,還要求畫出來的內(nèi)容和寫出來的文字在講述同一個故事一樣困難。
研究團(tuán)隊(duì)發(fā)現(xiàn)了這個領(lǐng)域的兩大核心難題。第一個難題被他們稱為"視角對齊",簡單來說,就是AI生成的視頻中攝像頭的運(yùn)動軌跡必須和生成的人體動作中頭部的運(yùn)動軌跡完全一致。畢竟,攝像頭是固定在人的頭上的,頭怎么動,攝像頭就怎么動。第二個難題是"因果互動",也就是說,當(dāng)前看到的畫面會影響接下來的動作選擇,而新的動作又會改變后續(xù)看到的畫面,形成一個不斷循環(huán)的過程。
研究團(tuán)隊(duì)開發(fā)的EgoTwin系統(tǒng)巧妙地解決了這些問題。他們的核心創(chuàng)新可以用一個生動的比喻來理解:傳統(tǒng)方法就像兩個各自為政的工匠,一個負(fù)責(zé)畫畫,一個負(fù)責(zé)雕塑,他們雖然在同一個工作室里,但缺乏有效的溝通機(jī)制。而EgoTwin就像是為這兩個工匠建立了一套完整的對話體系,讓他們能夠時刻保持同步,共同創(chuàng)作出協(xié)調(diào)一致的作品。
一、重新定義人體動作的表達(dá)方式
在解決第一視角視頻和人體動作生成的同步問題之前,研究團(tuán)隊(duì)首先遇到了一個基礎(chǔ)性難題:如何讓AI更好地理解人體動作與第一人稱視角之間的關(guān)系。
傳統(tǒng)的人體動作表示方法就像是在描述一個人站在地面上的各種姿勢和動作,所有的動作都以腳下的地面為基準(zhǔn)點(diǎn)。這種方法對于第三人稱視角(比如監(jiān)控?cái)z像頭拍攝)來說很有效,因?yàn)槲覀兛偸菑耐獠坑^察一個人的整體動作。但是對于第一人稱視角來說,這就像是讓一個人通過腳底的感覺來推測自己眼睛看到的畫面一樣困難。
研究團(tuán)隊(duì)做了一個簡單的實(shí)驗(yàn)來驗(yàn)證這個問題。他們訓(xùn)練了一個基于傳統(tǒng)方法的AI系統(tǒng),讓它根據(jù)人體動作數(shù)據(jù)來推測頭部的位置和朝向。結(jié)果發(fā)現(xiàn),即使訓(xùn)練了很長時間,這個系統(tǒng)的錯誤率依然很高,就像讓人蒙著眼睛通過腳步聲來判斷頭部朝向一樣不靠譜。
為了解決這個問題,研究團(tuán)隊(duì)提出了一個創(chuàng)新性的"頭部中心"動作表示方法。與傳統(tǒng)方法以腳下地面為基準(zhǔn)不同,新方法將人體動作的描述中心轉(zhuǎn)移到頭部。這就像是從"以地面為圓心畫圓"轉(zhuǎn)變?yōu)?以頭部為圓心畫圓"。
在這種新的表示方法中,頭部的位置和朝向被明確記錄下來,其他身體部位的動作都以頭部為參考點(diǎn)來描述。這樣做的好處是顯而易見的:當(dāng)AI需要生成第一人稱視角的視頻時,它能夠直接從動作數(shù)據(jù)中提取出"攝像頭"(也就是眼睛)的精確位置和朝向,無需經(jīng)過復(fù)雜的推算過程。
這種改進(jìn)的效果立竿見影。使用新方法后,AI在預(yù)測頭部位置和朝向方面的準(zhǔn)確性得到了大幅提升,為后續(xù)的視頻生成奠定了堅(jiān)實(shí)基礎(chǔ)。這就像是給AI裝上了一個精準(zhǔn)的"內(nèi)置GPS",讓它能夠清晰地知道每一時刻"眼睛"應(yīng)該在哪里、朝向哪個方向。
二、構(gòu)建三位一體的AI架構(gòu)
解決了動作表示問題后,研究團(tuán)隊(duì)面臨的下一個挑戰(zhàn)是如何設(shè)計(jì)一個能夠同時處理文字描述、視頻畫面和人體動作三種不同類型信息的AI系統(tǒng)。這就像是要建造一座能夠同時容納畫家、音樂家和舞蹈家的創(chuàng)作工作室,不僅每個藝術(shù)家都需要自己的專業(yè)空間,還要確保他們能夠隨時進(jìn)行創(chuàng)意交流。
EgoTwin采用了一種被稱為"三分支變換器"的架構(gòu)設(shè)計(jì)??梢园堰@個架構(gòu)想象成一個有三個專業(yè)部門的公司:文字部門負(fù)責(zé)理解和處理語言描述,視頻部門負(fù)責(zé)生成和處理圖像畫面,動作部門負(fù)責(zé)生成和處理人體姿勢數(shù)據(jù)。每個部門都有自己的專業(yè)工具和處理流程,但它們通過一個統(tǒng)一的通信系統(tǒng)保持密切聯(lián)系。
文字部門使用了先進(jìn)的T5-XXL語言模型作為"翻譯器",將自然語言描述轉(zhuǎn)換成AI能夠理解的數(shù)字表示。視頻部門采用了3D因果視頻編碼器,能夠?qū)⒁曨l畫面壓縮成緊湊的數(shù)字表示,同時保持時間序列的連續(xù)性。動作部門則使用了專門設(shè)計(jì)的1D因果卷積網(wǎng)絡(luò),將人體動作序列轉(zhuǎn)換成便于處理的數(shù)字格式。
這三個部門之間的協(xié)作機(jī)制是整個系統(tǒng)的核心創(chuàng)新之一。研究團(tuán)隊(duì)設(shè)計(jì)了一套巧妙的"異步擴(kuò)散"機(jī)制,允許視頻和動作兩個部門按照各自的節(jié)奏工作,同時通過精心設(shè)計(jì)的交流規(guī)則保持同步。這就像是讓兩個工匠可以各自按照最適合自己的速度工作,但在關(guān)鍵時刻必須互相確認(rèn)進(jìn)度,確保最終作品的協(xié)調(diào)一致。
值得注意的是,研究團(tuán)隊(duì)在設(shè)計(jì)這個架構(gòu)時充分考慮了計(jì)算效率。動作部門只使用了文字和視頻部門一半的處理層數(shù),因?yàn)閯幼鲾?shù)據(jù)相比視頻畫面來說包含的信息密度較低,不需要過于復(fù)雜的處理網(wǎng)絡(luò)。這種不對稱設(shè)計(jì)既保證了處理質(zhì)量,又提高了整體效率,就像是根據(jù)不同任務(wù)的復(fù)雜程度配置不同規(guī)模的工作團(tuán)隊(duì)一樣合理。
三、設(shè)計(jì)智能交互機(jī)制
在解決了基礎(chǔ)架構(gòu)問題后,研究團(tuán)隊(duì)遇到了一個更加微妙但同樣重要的挑戰(zhàn):如何讓AI理解視頻畫面和人體動作之間復(fù)雜的因果關(guān)系。這個問題的核心在于,人的行為遵循一個基本規(guī)律:我們根據(jù)看到的情況來決定下一步動作,而我們的動作又會改變我們接下來看到的畫面。
研究團(tuán)隊(duì)從控制論(一門研究反饋系統(tǒng)的科學(xué))中獲得了靈感。在控制論中,有一個經(jīng)典的"觀察-行動"循環(huán):觀察當(dāng)前狀態(tài),基于觀察結(jié)果做出行動,行動產(chǎn)生新的狀態(tài),然后繼續(xù)觀察這個新狀態(tài)。這個循環(huán)不斷重復(fù),形成了一個完整的反饋系統(tǒng)。
將這個概念應(yīng)用到第一人稱視頻和動作生成中,就形成了一個清晰的邏輯框架:當(dāng)前看到的畫面影響接下來的動作選擇,新的動作又會導(dǎo)致畫面的變化。比如,當(dāng)你看到前方有一扇門時(觀察),你會走過去并伸手去開門(行動),然后你會看到門慢慢打開、室內(nèi)景象逐漸顯現(xiàn)(新的觀察狀態(tài))。
為了讓AI掌握這種復(fù)雜的時空關(guān)系,研究團(tuán)隊(duì)設(shè)計(jì)了一套精巧的"注意力掩碼"機(jī)制。這套機(jī)制可以比作一個智能的信息過濾系統(tǒng),它精確控制著AI在生成每一幀內(nèi)容時應(yīng)該"關(guān)注"哪些歷史信息,忽略哪些無關(guān)信息。
具體來說,當(dāng)AI生成某一時刻的視頻畫面時,它被允許"回顧"之前時刻的動作信息,理解當(dāng)前畫面是如何從之前的動作中"演化"而來的。同時,當(dāng)AI生成某一時刻的人體動作時,它不僅可以"觀察"當(dāng)前時刻的畫面,還可以"預(yù)期"下一時刻可能出現(xiàn)的畫面變化,從而做出更加合理的動作選擇。
這種設(shè)計(jì)巧妙地模擬了人類的行為模式。當(dāng)我們做出某個動作時,我們的大腦實(shí)際上在快速預(yù)測這個動作可能帶來的結(jié)果,并根據(jù)預(yù)期的結(jié)果來調(diào)整動作的細(xì)節(jié)。EgoTwin通過讓AI同時考慮當(dāng)前狀態(tài)和未來預(yù)期,實(shí)現(xiàn)了更加自然和連貫的視頻-動作生成效果。
研究團(tuán)隊(duì)還特別處理了時間分辨率的問題。由于人體動作通常比視頻幀率更高(動作捕捉系統(tǒng)通常以每秒16幀的速度記錄,而視頻通常是每秒8幀),他們將動作序列按照2:1的比例與視頻幀進(jìn)行對應(yīng)。這種設(shè)計(jì)確保了時間同步的精確性,就像是為兩個不同節(jié)拍的樂器找到了和諧共奏的方式。
四、訓(xùn)練AI的三階段策略
訓(xùn)練EgoTwin這樣一個復(fù)雜的多模態(tài)AI系統(tǒng),就像是培養(yǎng)一個能夠同時掌握繪畫、舞蹈和文學(xué)的全才藝術(shù)家。研究團(tuán)隊(duì)采用了一個精心設(shè)計(jì)的三階段訓(xùn)練策略,每個階段都有明確的學(xué)習(xí)目標(biāo)和重點(diǎn)。
第一階段專門訓(xùn)練動作處理能力。研究團(tuán)隊(duì)首先構(gòu)建了一個專門的動作編碼解碼系統(tǒng),這個系統(tǒng)的作用就像是學(xué)習(xí)一門新的"動作語言"。它需要學(xué)會如何將復(fù)雜的人體動作序列壓縮成簡潔的數(shù)字表示,同時還要能夠從這些數(shù)字表示中準(zhǔn)確恢復(fù)出原始的動作序列。這就像是學(xué)習(xí)速記,既要能快速記錄,又要能準(zhǔn)確還原。
在訓(xùn)練這個動作編碼系統(tǒng)時,研究團(tuán)隊(duì)采用了一個巧妙的分組策略。由于人體不同部位的動作特征差異很大(比如頭部的旋轉(zhuǎn)和手臂的揮舞),他們將動作數(shù)據(jù)分成了四個組:3D頭部位置、6D頭部朝向、3D關(guān)節(jié)位置和6D關(guān)節(jié)旋轉(zhuǎn)。每個組都用獨(dú)立的損失函數(shù)進(jìn)行訓(xùn)練,確保每個部位的動作特征都能得到精確建模。這種方法就像是分別練習(xí)鋼琴的左手和右手,最后再合并演奏一樣高效。
第二階段專注于文字到動作的轉(zhuǎn)換能力。在這個階段,研究團(tuán)隊(duì)讓AI學(xué)習(xí)如何根據(jù)文字描述生成相應(yīng)的人體動作。由于動作分支是全新設(shè)計(jì)的,沒有預(yù)訓(xùn)練的基礎(chǔ),這個階段的訓(xùn)練就像是讓一個從未見過舞蹈的學(xué)生學(xué)習(xí)根據(jù)文字描述來編排舞蹈動作。
為了提高訓(xùn)練效率,這個階段暫時不涉及視頻處理,只專注于文字和動作之間的對應(yīng)關(guān)系。同時,文字處理分支保持凍結(jié)狀態(tài),避免破壞已有的語言理解能力。這種策略既加快了訓(xùn)練速度,又確保了訓(xùn)練的穩(wěn)定性。
第三階段才是真正的"大合奏",所有三個分支開始聯(lián)合訓(xùn)練。在這個階段,AI需要學(xué)會同時處理文字描述、視頻畫面和人體動作,并且讓它們保持完美的協(xié)調(diào)。這是整個訓(xùn)練過程中最復(fù)雜也最關(guān)鍵的階段,就像是讓獨(dú)奏者學(xué)會合奏,不僅要演奏好自己的部分,還要與其他聲部保持和諧。
在這個聯(lián)合訓(xùn)練階段,研究團(tuán)隊(duì)采用了"異步擴(kuò)散"的訓(xùn)練策略。與傳統(tǒng)的同步訓(xùn)練不同,這種方法允許視頻和動作兩個模態(tài)按照各自的時間尺度進(jìn)行學(xué)習(xí),但通過精心設(shè)計(jì)的交互機(jī)制保持同步。這就像是讓兩個跑步速度不同的運(yùn)動員能夠保持并肩前進(jìn)一樣,既尊重了各自的特點(diǎn),又確保了整體的協(xié)調(diào)。
為了增強(qiáng)AI的泛化能力,研究團(tuán)隊(duì)在訓(xùn)練中還加入了"無條件生成"的環(huán)節(jié)。具體做法是隨機(jī)地丟棄10%的文字輸入,讓AI學(xué)會在沒有明確指令的情況下也能生成合理的視頻和動作內(nèi)容。這種訓(xùn)練方式提高了系統(tǒng)的魯棒性,使其能夠應(yīng)對各種不完整或模糊的輸入情況。
五、靈活多樣的生成模式
EgoTwin的一個突出優(yōu)勢在于它不僅能夠根據(jù)文字描述同時生成視頻和動作,還支持多種靈活的生成模式。這種靈活性使得系統(tǒng)能夠適應(yīng)不同的應(yīng)用場景和用戶需求,就像是一個多才多藝的創(chuàng)作工具,能夠根據(jù)需要扮演不同的角色。
最基礎(chǔ)的模式是"文字到視頻加動作"的聯(lián)合生成。用戶只需要輸入一句簡單的描述,比如"走進(jìn)廚房,打開冰箱門",系統(tǒng)就能同時生成對應(yīng)的第一人稱視頻和人體動作序列。這種模式最適合從零開始的創(chuàng)作場景,就像是給AI一個創(chuàng)作主題,讓它自由發(fā)揮想象力。
第二種模式是"文字加動作到視頻"的生成。在這種模式下,用戶可以提供文字描述和具體的動作序列,讓AI根據(jù)這些信息生成匹配的第一人稱視頻。這種應(yīng)用場景特別適合動畫制作或虛擬現(xiàn)實(shí)內(nèi)容開發(fā),創(chuàng)作者可以先設(shè)計(jì)好角色的動作,然后讓AI生成相應(yīng)的視覺效果。
第三種模式是"文字加視頻到動作"的生成。用戶提供文字描述和視頻內(nèi)容,AI會生成相應(yīng)的人體動作序列。這種模式在運(yùn)動分析、動作捕捉或者康復(fù)醫(yī)學(xué)領(lǐng)域有潛在的應(yīng)用價值,可以幫助分析和理解特定視頻中應(yīng)該對應(yīng)什么樣的人體動作。
這些不同模式的實(shí)現(xiàn)依賴于一個巧妙的"分類器自由引導(dǎo)"機(jī)制。這個機(jī)制的工作原理有點(diǎn)像調(diào)音師使用調(diào)音臺:通過調(diào)節(jié)不同輸入信號的強(qiáng)度和權(quán)重,可以得到不同的輸出效果。當(dāng)需要某種特定的生成模式時,系統(tǒng)會相應(yīng)地調(diào)整文字、視頻和動作三個模態(tài)的影響權(quán)重,確保生成結(jié)果符合用戶的具體需求。
研究團(tuán)隊(duì)還設(shè)計(jì)了一套精巧的引導(dǎo)公式來控制這個過程。這些公式看起來很復(fù)雜,但其實(shí)就像是烹飪菜譜中的配料比例表:不同的配料組合能夠做出不同口味的菜肴。通過調(diào)整這些參數(shù),用戶可以控制生成內(nèi)容的風(fēng)格和特征,比如讓動作更加夸張,或者讓視頻畫面更加穩(wěn)定。
這種多模式設(shè)計(jì)的另一個優(yōu)勢是提高了系統(tǒng)的實(shí)用性。在實(shí)際應(yīng)用中,用戶往往只有部分信息,或者對某些方面有特定的要求。傳統(tǒng)的單一模式系統(tǒng)無法很好地處理這種情況,而EgoTwin的靈活性使其能夠適應(yīng)各種不完整或特定的輸入條件,大大擴(kuò)展了應(yīng)用范圍。
六、構(gòu)建大規(guī)模真實(shí)數(shù)據(jù)集
為了訓(xùn)練和評估EgoTwin系統(tǒng),研究團(tuán)隊(duì)面臨著一個重大挑戰(zhàn):現(xiàn)有的數(shù)據(jù)集要么規(guī)模太小,要么是合成數(shù)據(jù),無法滿足大規(guī)模真實(shí)場景下的訓(xùn)練需求。他們需要構(gòu)建一個包含真實(shí)第一人稱視頻、對應(yīng)人體動作和文字描述的大規(guī)模數(shù)據(jù)集。
研究團(tuán)隊(duì)選擇了Nymeria數(shù)據(jù)集作為基礎(chǔ),這個數(shù)據(jù)集堪稱目前最全面的真實(shí)第一人稱多模態(tài)數(shù)據(jù)集。Nymeria數(shù)據(jù)集的收集過程就像是組織了一場大規(guī)模的"生活紀(jì)錄片拍攝":研究人員讓志愿者戴上Project Aria智能眼鏡進(jìn)行日?;顒?,這些眼鏡能夠記錄下佩戴者看到的一切畫面。與此同時,志愿者還穿戴Xsens慣性動作捕捉設(shè)備,精確記錄全身的動作數(shù)據(jù)。
數(shù)據(jù)收集涵蓋了豐富多樣的真實(shí)生活場景。志愿者們在室內(nèi)和戶外的各種環(huán)境中進(jìn)行日?;顒樱涸趶N房做飯、在客廳看電視、在辦公室工作、在公園散步、在商店購物等等。這種多樣性確保了訓(xùn)練數(shù)據(jù)能夠覆蓋人類日常生活的方方面面,而不是局限于特定的實(shí)驗(yàn)室環(huán)境。
為了給這些視頻和動作數(shù)據(jù)配上文字描述,研究團(tuán)隊(duì)組織了人工標(biāo)注工作。標(biāo)注人員觀看視頻內(nèi)容,用自然語言描述其中發(fā)生的動作和事件。這個過程就像是讓旁白員為無聲電影配解說詞,需要準(zhǔn)確捕捉視頻中的關(guān)鍵信息和動作要點(diǎn)。
數(shù)據(jù)預(yù)處理是一個精細(xì)的工作。研究團(tuán)隊(duì)將原始的長視頻切分成5秒鐘的片段,這個長度既能包含完整的動作序列,又不至于過于復(fù)雜難以處理。經(jīng)過篩選和清理,最終得到了大約17萬個高質(zhì)量的文字-視頻-動作三元組樣本,這個規(guī)模在相關(guān)研究領(lǐng)域是前所未有的。
數(shù)據(jù)集的劃分也經(jīng)過了精心設(shè)計(jì)。研究團(tuán)隊(duì)確保測試集中的人物和環(huán)境都沒有在訓(xùn)練過程中出現(xiàn)過,這樣可以真實(shí)地測試系統(tǒng)對新場景和新人物的泛化能力。這種劃分方式就像是讓學(xué)生用從未見過的題目來檢驗(yàn)學(xué)習(xí)效果,能夠更好地反映系統(tǒng)的實(shí)際性能。
為了便于其他研究人員使用,研究團(tuán)隊(duì)還制定了統(tǒng)一的數(shù)據(jù)格式標(biāo)準(zhǔn)。視頻數(shù)據(jù)被統(tǒng)一調(diào)整為480×480像素的分辨率,每秒8幀的幀率。動作數(shù)據(jù)采用23個關(guān)節(jié)點(diǎn)的人體模型,每秒16幀的采樣率。這種標(biāo)準(zhǔn)化處理確保了數(shù)據(jù)的一致性和可比性。
七、全面的評估體系
評估EgoTwin這樣一個多模態(tài)AI系統(tǒng)的性能是一項(xiàng)復(fù)雜的任務(wù),因?yàn)樾枰瑫r考慮視頻質(zhì)量、動作質(zhì)量以及兩者之間的一致性。研究團(tuán)隊(duì)設(shè)計(jì)了一套全面的評估體系,就像是為一場多項(xiàng)全能比賽制定評分標(biāo)準(zhǔn),需要從多個維度進(jìn)行綜合評估。
在視頻質(zhì)量方面,研究團(tuán)隊(duì)采用了三個經(jīng)典指標(biāo)。圖像弗雷歇特距離(I-FID)用來評估單個視頻幀的視覺質(zhì)量和真實(shí)感,就像是評判一幅畫作是否逼真。視頻弗雷歇特距離(FVD)則評估整個視頻序列的時間連貫性和自然度,就像是評判一部電影的畫面流暢程度。CLIP相似度用來測量生成的視頻內(nèi)容與文字描述的匹配程度,就像是檢查電影內(nèi)容是否符合劇本要求。
在動作質(zhì)量方面,評估同樣采用了多個角度。動作弗雷歇特距離(M-FID)評估生成動作的真實(shí)性和自然度,檢驗(yàn)AI生成的動作是否像真人的動作。檢索精度(R-Prec)測試文字描述與生成動作之間的對應(yīng)關(guān)系,就像是檢查舞蹈動作是否符合編舞師的要求。多模態(tài)距離(MM-Dist)則衡量文字和動作特征之間的匹配程度。
最具創(chuàng)新性的是研究團(tuán)隊(duì)專門設(shè)計(jì)的"視頻-動作一致性"評估指標(biāo),這是評估聯(lián)合生成系統(tǒng)必不可少的部分。這套指標(biāo)包含兩個主要方面。
視角一致性評估關(guān)注生成的視頻中攝像頭軌跡與動作中頭部軌跡的匹配程度。評估過程就像是驗(yàn)證GPS導(dǎo)航與實(shí)際路徑的吻合度:首先使用DROID-SLAM算法從生成的視頻中估計(jì)攝像頭的運(yùn)動軌跡,然后從生成的動作數(shù)據(jù)中提取頭部的運(yùn)動軌跡,最后通過普氏分析法對兩條軌跡進(jìn)行對齊和比較。平移誤差反映位置匹配的精度,旋轉(zhuǎn)誤差反映朝向匹配的精度。
手部一致性評估則關(guān)注一個更細(xì)致的細(xì)節(jié):生成視頻中手部的出現(xiàn)是否與動作數(shù)據(jù)中手部的可見性預(yù)測相符。這個評估就像是驗(yàn)證魔術(shù)師的手法是否天衣無縫:當(dāng)動作數(shù)據(jù)顯示手部應(yīng)該出現(xiàn)在視野中時,生成的視頻中是否真的能看到手部;當(dāng)動作數(shù)據(jù)顯示手部應(yīng)該在視野外時,視頻中是否確實(shí)看不到手部。通過計(jì)算真陽性、假陽性和假陰性的數(shù)量,得出一個綜合的F分?jǐn)?shù)來評估這種一致性。
為了確保評估結(jié)果的客觀性和可比性,所有的評估都在相同的測試集上進(jìn)行,使用相同的評估協(xié)議和參數(shù)設(shè)置。這種標(biāo)準(zhǔn)化的評估方式就像是奧運(yùn)會使用統(tǒng)一的比賽規(guī)則和評分標(biāo)準(zhǔn),確保了結(jié)果的公平性和可信度。
八、卓越的實(shí)驗(yàn)成果
通過在大規(guī)模真實(shí)數(shù)據(jù)集上的全面測試,EgoTwin展現(xiàn)出了令人印象深刻的性能表現(xiàn)。與基線方法VidMLD相比,EgoTwin在幾乎所有評估指標(biāo)上都取得了顯著的改進(jìn),這種全方位的提升證明了其設(shè)計(jì)理念和技術(shù)創(chuàng)新的有效性。
在視頻生成質(zhì)量方面,EgoTwin的改進(jìn)效果非常明顯。圖像質(zhì)量方面,I-FID分?jǐn)?shù)從157.86大幅降低到98.17(數(shù)值越低表示質(zhì)量越好),這意味著生成的視頻幀看起來更加真實(shí)自然。視頻連貫性方面,F(xiàn)VD分?jǐn)?shù)從1547.28降低到1033.52,顯示生成的視頻在時間序列上更加流暢連貫。語義匹配方面,CLIP相似度從25.58提升到27.34,說明生成的視頻內(nèi)容與文字描述的匹配度更高。
動作生成的改進(jìn)同樣顯著。M-FID分?jǐn)?shù)從45.09降低到41.80,表明生成的人體動作更加自然真實(shí)。檢索精度從0.47提升到0.62,說明生成的動作與文字描述的對應(yīng)關(guān)系更加準(zhǔn)確。多模態(tài)距離從19.12降低到15.05,顯示文字和動作之間的特征匹配更加緊密。
最引人注目的是視頻-動作一致性方面的巨大改進(jìn)。平移誤差從1.28大幅降低到0.67,旋轉(zhuǎn)誤差從1.53降低到0.46,這表明生成的視頻中攝像頭運(yùn)動軌跡與動作中頭部運(yùn)動軌跡的匹配精度得到了大幅提升。手部一致性F分?jǐn)?shù)從0.36大幅提升到0.81,說明視頻中手部的出現(xiàn)與動作預(yù)測的匹配程度顯著改善。
這些數(shù)值背后反映的是實(shí)際應(yīng)用效果的顯著提升。在定性評估中,研究團(tuán)隊(duì)展示了多個生成樣例,每個樣例都展現(xiàn)出了視頻和動作之間的高度同步性。比如在"走進(jìn)房間,右轉(zhuǎn),打開通向院子的門"這個場景中,生成的視頻不僅準(zhǔn)確地展現(xiàn)了從第一人稱視角看到的房間布局、行走路徑和開門過程,對應(yīng)的人體動作也完美地反映了行走、轉(zhuǎn)身和開門的完整動作序列。
更重要的是,EgoTwin生成的內(nèi)容在細(xì)節(jié)層面也表現(xiàn)出了令人驚喜的一致性。當(dāng)動作數(shù)據(jù)顯示人物伸手去夠門把手時,視頻中確實(shí)能看到手臂進(jìn)入視野;當(dāng)人物走向某個方向時,視頻中的場景變化也完全符合預(yù)期的移動軌跡。這種細(xì)致入微的同步性是傳統(tǒng)分離式生成方法難以實(shí)現(xiàn)的。
九、深入的消融實(shí)驗(yàn)分析
為了驗(yàn)證EgoTwin各個組件的有效性,研究團(tuán)隊(duì)進(jìn)行了一系列消融實(shí)驗(yàn),就像是逐個拆除建筑的不同部分來測試每個部分的重要性。這些實(shí)驗(yàn)為理解系統(tǒng)的工作機(jī)制提供了寶貴的洞察。
首先測試的是動作表示方法的改進(jìn)效果。當(dāng)研究團(tuán)隊(duì)將新設(shè)計(jì)的"頭部中心"動作表示方法替換回傳統(tǒng)的"根部中心"方法時,系統(tǒng)性能出現(xiàn)了全面下降。視頻質(zhì)量指標(biāo)I-FID從98.17上升到134.27,動作質(zhì)量指標(biāo)M-FID從41.80上升到43.65,最關(guān)鍵的是,視頻-動作一致性指標(biāo)出現(xiàn)了顯著惡化:平移誤差從0.67增加到0.96,旋轉(zhuǎn)誤差從0.46增加到1.22。這個結(jié)果清楚地證明了頭部中心表示方法對于第一人稱視角生成任務(wù)的重要性。
交互機(jī)制的作用同樣得到了驗(yàn)證。當(dāng)移除精心設(shè)計(jì)的注意力掩碼機(jī)制,讓視頻和動作模態(tài)進(jìn)行無約束的全注意力交互時,系統(tǒng)性能也出現(xiàn)了明顯下降。雖然下降幅度相對較小,但在關(guān)鍵的一致性指標(biāo)上仍然有顯著差異:平移誤差從0.67增加到0.85,旋轉(zhuǎn)誤差從0.46增加到0.89。這說明結(jié)構(gòu)化的交互設(shè)計(jì)對于捕捉視頻和動作之間的因果關(guān)系至關(guān)重要。
異步擴(kuò)散機(jī)制的重要性也通過對比實(shí)驗(yàn)得到了證實(shí)。當(dāng)將異步擴(kuò)散替換為傳統(tǒng)的同步擴(kuò)散方法時,系統(tǒng)在處理多模態(tài)數(shù)據(jù)的靈活性上受到了限制。雖然單個模態(tài)的質(zhì)量指標(biāo)沒有顯著惡化,但在需要精確時序控制的任務(wù)上表現(xiàn)不佳,特別是在視頻-動作同步性方面出現(xiàn)了一定程度的退化。
這些消融實(shí)驗(yàn)的結(jié)果形成了一個清晰的性能層次:完整的EgoTwin系統(tǒng)在所有指標(biāo)上都達(dá)到了最佳性能,每個組件的移除都會導(dǎo)致相應(yīng)方面的性能下降,而且這些下降是累積的。這說明系統(tǒng)的各個創(chuàng)新點(diǎn)不是孤立的,而是相互支撐、共同發(fā)揮作用的整體。
研究團(tuán)隊(duì)還對不同訓(xùn)練階段的作用進(jìn)行了分析。結(jié)果顯示,三階段訓(xùn)練策略中的每個階段都有其不可替代的價值:第一階段的動作VAE訓(xùn)練為整個系統(tǒng)提供了穩(wěn)定的動作表示基礎(chǔ);第二階段的文字-動作預(yù)訓(xùn)練讓系統(tǒng)掌握了語言到動作的映射關(guān)系;第三階段的聯(lián)合訓(xùn)練才真正讓三個模態(tài)學(xué)會了協(xié)調(diào)工作。跳過任何一個階段都會導(dǎo)致最終性能的顯著下降。
十、廣泛的應(yīng)用前景
EgoTwin的技術(shù)突破不僅在學(xué)術(shù)研究上具有重要意義,更在多個實(shí)際應(yīng)用領(lǐng)域展現(xiàn)出了巨大的潛力。這些應(yīng)用可能會改變我們與數(shù)字內(nèi)容交互的方式,就像智能手機(jī)改變了我們的日常生活一樣。
在虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)領(lǐng)域,EgoTwin可以大大簡化內(nèi)容創(chuàng)作流程。傳統(tǒng)的VR內(nèi)容制作需要復(fù)雜的動作捕捉設(shè)備、專業(yè)的3D建模軟件和大量的人工調(diào)整工作。有了EgoTwin,創(chuàng)作者只需要提供簡單的文字描述,就能自動生成同步的第一人稱視覺體驗(yàn)和對應(yīng)的人體動作。這對于教育培訓(xùn)、游戲開發(fā)、虛擬旅游等應(yīng)用來說都是革命性的改進(jìn)。
影視制作行業(yè)也將從這項(xiàng)技術(shù)中受益匪淺。在拍攝需要特殊視角或危險(xiǎn)場景的鏡頭時,導(dǎo)演可以先用EgoTwin生成預(yù)覽版本,確定具體的拍攝方案和演員動作,然后再進(jìn)行實(shí)際拍攝。這不僅能夠節(jié)省大量的試拍成本,還能提高拍攝效率和安全性。
在體育訓(xùn)練和運(yùn)動分析領(lǐng)域,EgoTwin展現(xiàn)出了獨(dú)特的價值。教練可以通過文字描述特定的運(yùn)動技巧,系統(tǒng)自動生成相應(yīng)的第一人稱視角示范和精確的身體動作分解。運(yùn)動員可以從運(yùn)動員的視角觀察標(biāo)準(zhǔn)動作,更好地理解和學(xué)習(xí)正確的技術(shù)要領(lǐng)。
醫(yī)療康復(fù)領(lǐng)域的應(yīng)用潛力同樣巨大。物理治療師可以為患者生成個性化的康復(fù)訓(xùn)練內(nèi)容,通過第一人稱視角展示正確的康復(fù)動作,幫助患者更好地理解和執(zhí)行治療方案。這對于行動不便或理解能力有限的患者來說特別有價值。
研究團(tuán)隊(duì)還展示了一個特別有趣的應(yīng)用:3D場景重建。通過將生成的第一人稱視頻和對應(yīng)的攝像頭軌跡輸入到3D高斯點(diǎn)云渲染系統(tǒng)中,可以重建出完整的三維場景,并將生成的人物動作精確地放置在場景中。這種能力為虛擬環(huán)境構(gòu)建、數(shù)字孿生城市等應(yīng)用提供了新的可能性。
教育培訓(xùn)領(lǐng)域也將受益于這項(xiàng)技術(shù)。復(fù)雜的操作流程、危險(xiǎn)的實(shí)驗(yàn)步驟、昂貴的設(shè)備操作等都可以通過EgoTwin生成逼真的第一人稱體驗(yàn),讓學(xué)習(xí)者在安全的虛擬環(huán)境中獲得實(shí)際操作的體驗(yàn)。這種沉浸式學(xué)習(xí)方式的效果往往比傳統(tǒng)的理論教學(xué)更加顯著。
除了這些直接應(yīng)用,EgoTwin還展現(xiàn)出了良好的擴(kuò)展性。系統(tǒng)支持條件生成,意味著用戶可以在已有的部分內(nèi)容基礎(chǔ)上進(jìn)行補(bǔ)充和完善。比如,有了現(xiàn)有的動作序列,可以生成匹配的第一人稱視頻;有了視頻素材,可以分析出對應(yīng)的人體動作。這種靈活性大大擴(kuò)展了技術(shù)的應(yīng)用范圍。
當(dāng)然,這些應(yīng)用的實(shí)現(xiàn)還需要解決一些技術(shù)和倫理挑戰(zhàn)。比如如何確保生成內(nèi)容的真實(shí)性和安全性,如何防止技術(shù)被惡意使用等。但毫無疑問,EgoTwin為我們展現(xiàn)了人工智能在多模態(tài)內(nèi)容生成領(lǐng)域的巨大潛力,為未來的數(shù)字內(nèi)容創(chuàng)作開辟了新的方向。
研究團(tuán)隊(duì)對EgoTwin的未來發(fā)展也有著清晰的規(guī)劃。他們希望進(jìn)一步提高生成內(nèi)容的質(zhì)量和多樣性,擴(kuò)展到更多的應(yīng)用場景,并探索與其他AI技術(shù)的結(jié)合可能性。隨著技術(shù)的不斷成熟,我們有理由相信,這種能夠同時"夢想"視覺和動作的AI系統(tǒng)將在不久的將來走進(jìn)我們的日常生活,為我們帶來前所未有的數(shù)字體驗(yàn)。
說到底,EgoTwin的核心價值在于它突破了傳統(tǒng)AI系統(tǒng)的局限,實(shí)現(xiàn)了多模態(tài)內(nèi)容的協(xié)同生成。這不僅是技術(shù)上的突破,更是對人工智能理解和模擬人類行為能力的重要推進(jìn)。通過讓AI學(xué)會像人類一樣同時處理視覺信息和身體動作,我們向著更加智能、更加自然的人機(jī)交互又邁進(jìn)了重要一步。
雖然目前EgoTwin還處于研究階段,但其展現(xiàn)出的能力和潛力已經(jīng)為我們描繪了一個激動人心的未來圖景。在那個未來里,創(chuàng)作數(shù)字內(nèi)容將變得像描述一個想法一樣簡單,虛擬體驗(yàn)將變得像真實(shí)體驗(yàn)一樣生動,人工智能將真正成為我們創(chuàng)意表達(dá)和學(xué)習(xí)探索的得力助手。有興趣深入了解這項(xiàng)研究的讀者可以訪問論文的完整版本和項(xiàng)目演示,親自體驗(yàn)這種革命性技術(shù)的魅力。
Q&A
Q1:EgoTwin能生成什么樣的內(nèi)容?需要什么輸入?
A:EgoTwin能同時生成第一人稱視頻和匹配的人體動作。只需要輸入一句文字描述(比如"走進(jìn)廚房,打開冰箱"),系統(tǒng)就能自動生成對應(yīng)的第一視角視頻畫面和完整的人體動作序列,兩者完全同步匹配。
Q2:EgoTwin與普通視頻生成AI有什么區(qū)別?
A:普通AI只能生成視頻或動作中的一種,而EgoTwin能同時生成兩者并保持完美同步。關(guān)鍵是它解決了視角對齊問題——確保視頻中的攝像頭運(yùn)動與人體頭部運(yùn)動完全一致,還能處理復(fù)雜的因果關(guān)系——當(dāng)前看到的畫面影響下一步動作,動作又改變后續(xù)畫面。
Q3:這項(xiàng)技術(shù)什么時候能實(shí)際使用?有哪些應(yīng)用場景?
A:目前還在研究階段,但已經(jīng)展現(xiàn)出在VR/AR內(nèi)容創(chuàng)作、影視制作、體育訓(xùn)練、醫(yī)療康復(fù)、教育培訓(xùn)等領(lǐng)域的應(yīng)用潛力。未來可能大大簡化虛擬內(nèi)容制作流程,讓創(chuàng)作者只需文字描述就能生成復(fù)雜的第一人稱體驗(yàn)內(nèi)容。
好文章,需要你的鼓勵
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學(xué)習(xí)外觀和運(yùn)動信息,顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運(yùn)動質(zhì)量,在多項(xiàng)測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。