av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 SViMo:突破次元壁!清華與南方科技大學(xué)聯(lián)手打造手物交互的視頻-動作同步生成系統(tǒng)

SViMo:突破次元壁!清華與南方科技大學(xué)聯(lián)手打造手物交互的視頻-動作同步生成系統(tǒng)

2025-06-10 08:13
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-10 08:13 ? 科技行者

在人機交互、游戲開發(fā)、動畫制作和機器人領(lǐng)域,手物交互(Hand-Object Interaction,HOI)的自然生成一直是一個極具挑戰(zhàn)性的難題。這項由清華大學(xué)自動化系、南方科技大學(xué)軟件工程學(xué)院、北京師范大學(xué)人工智能學(xué)院和Shadow AI等機構(gòu)共同合作的研究,發(fā)表于2025年6月5日的arXiv預(yù)印本(arXiv:2506.02444v3),為解決這一難題提出了創(chuàng)新方案。

一、研究背景:為何手物交互生成如此困難?

想象一下,你是一名動畫師,需要創(chuàng)作一個人物用勺子攪拌咖啡的場景。這個看似簡單的動作,在數(shù)字世界的重現(xiàn)卻面臨兩大挑戰(zhàn)。

首先,傳統(tǒng)的3D動作生成方法,如MDM(Motion Diffusion Model)等,主要依賴于實驗室中使用多視角相機和動作捕捉系統(tǒng)收集的高精度數(shù)據(jù)。就像只能在特定烹飪教室里學(xué)習(xí)有限菜譜的廚師,這些方法受限于數(shù)據(jù)的多樣性,導(dǎo)致它們在面對現(xiàn)實世界中各種各樣的物體和交互模式時表現(xiàn)不佳。更糟糕的是,這些方法需要預(yù)先定義好的3D物體模型作為輸入,就像必須事先準(zhǔn)備好特定形狀的容器才能烹飪一樣,極大限制了其靈活性。

另一方面,視頻生成領(lǐng)域如Sora、CogVideo和HunyuanVideo等基于大規(guī)模視頻訓(xùn)練的擴散變換器(Diffusion Transformer, DiT)模型,雖然能夠生成視覺效果逼真的交互視頻,但它們往往專注于像素級別的視覺效果,忽略了物理動力學(xué)和約束條件,導(dǎo)致生成的交互場景看似真實但物理上不合理,就像一部特效華麗但充滿物理錯誤的科幻電影。

一些研究者嘗試通過在圖像擴散模型(如SVD)的基礎(chǔ)上添加姿態(tài)引導(dǎo)管道來改進,但這些方法需要姿態(tài)序列或外部估計的運動軌跡作為輸入,無法實現(xiàn)完全端到端的文本/圖像條件生成。此外,它們的逐幀生成方式導(dǎo)致時間連貫性差,造成畫面閃爍和身份不一致的問題。

二、研究洞察:視覺外觀與運動模式的協(xié)同進化

研究團隊的核心洞察在于:視覺外觀和運動模式不是相互獨立的,而是共享著現(xiàn)實世界中的物理規(guī)律基礎(chǔ)。這就像一個高超的魔術(shù)師,不僅需要動作優(yōu)美,還需確保每個動作符合物理規(guī)律,二者缺一不可。

基于這一洞察,研究者提出了SViMo(Synchronized Video-Motion diffusion)框架,一個能夠在統(tǒng)一架構(gòu)中同時進行HOI視頻生成和運動合成的同步擴散框架。這就像一個能同時編排舞蹈動作和舞臺視覺效果的系統(tǒng),確保二者完美協(xié)調(diào)。

三、SViMo:視頻與動作同步生成的核心技術(shù)

SViMo的核心創(chuàng)新在于將預(yù)訓(xùn)練的圖像到視頻基礎(chǔ)模型擴展為多模態(tài)聯(lián)合生成框架。想象一下,這就像把一個只會制作靜態(tài)蛋糕的大廚培訓(xùn)成能同時烹飪美食并編排其上餐表演的全能大師。

### 異構(gòu)特征整合:三模態(tài)自適應(yīng)調(diào)制

在SViMo中,擴散變換器(DiT)的標(biāo)記序列由三種不同模態(tài)組成:文本標(biāo)記、視頻標(biāo)記和運動標(biāo)記,這些標(biāo)記在特征空間和數(shù)值尺度上差異顯著。這就像要在一部電影中協(xié)調(diào)對白(文本)、畫面(視頻)和角色動作(運動),三者原本使用完全不同的"語言"。

為了解決這一問題,研究團隊設(shè)計了三模態(tài)自適應(yīng)調(diào)制方法,從時間步信號中學(xué)習(xí)調(diào)制參數(shù),分別確定每個模態(tài)特征的縮放、偏移和門控操作。這就像為三種不同"語言"創(chuàng)建了一個實時翻譯系統(tǒng),使它們能在同一個"對話"中無縫融合。

此外,他們還采用了3D全注意力機制來捕捉模態(tài)內(nèi)和模態(tài)間的關(guān)系。這就像一個全知導(dǎo)演,既能理解每種元素內(nèi)部的邏輯,又能協(xié)調(diào)不同元素之間的互動。

### 渲染運動視頻:橋接表示鴻溝

視頻基礎(chǔ)模型很難直接學(xué)習(xí)顯式的3D交互動作。為了解決這個問題,研究團隊將3D動作投影到2D圖像平面上,構(gòu)建"渲染運動視頻"作為SViMo的運動表示。這就像將復(fù)雜的3D舞蹈編排轉(zhuǎn)化為簡化的2D舞谹,使學(xué)習(xí)過程更加容易。

### 視覺感知3D交互擴散模型:增強一致性的閉環(huán)

為進一步增強視頻-運動一致性,研究團隊設(shè)計了視覺感知3D交互擴散模型(Vision-aware 3D Interaction Diffusion model, VID)。該模型使用同步擴散的去噪潛碼生成顯式的3D手部姿態(tài)和物體點云,然后將其重新注入SViMo作為交互引導(dǎo)和梯度約束。

這形成了一個閉環(huán)反饋機制,其中動作引導(dǎo)改進視頻生成,而視頻潛碼更新動作結(jié)果,實現(xiàn)兩種模態(tài)的協(xié)同進化。這就像舞者和編舞相互啟發(fā),共同創(chuàng)造出更和諧的表演。

四、實驗結(jié)果:全面超越現(xiàn)有方法

研究團隊在TACO數(shù)據(jù)集上評估了SViMo的性能。TACO是一個大規(guī)模的雙手物體交互數(shù)據(jù)集,捕捉了多種工具使用行為,包括20個物體類別、196個3D模型和15種日常交互類型。

在視頻生成方面,SViMo在整體得分上超越了所有基準(zhǔn)方法,包括Hunyuan-13B、Wan-14B、Animate Anyone、Easy Animate和CogVideoX-5B。值得注意的是,SViMo在內(nèi)容質(zhì)量(主題一致性、背景一致性)和動態(tài)質(zhì)量(時間平滑度、動態(tài)程度)方面取得了優(yōu)越的平衡。

在3D動作生成方面,SViMo在所有指標(biāo)上均優(yōu)于MDM和EMDM等基準(zhǔn)方法,包括手部關(guān)節(jié)位置誤差(MPJPE)、運動平滑度(MSmooth)、Chamfer距離和FID分?jǐn)?shù)。可視化結(jié)果顯示,SViMo生成的動作具有更好的指令遵循性和幀一致性。

用戶研究進一步驗證了SViMo的有效性。在視頻生成方面,SViMo獲得了78.42%的偏好率,顯著優(yōu)于所有基準(zhǔn);在動作生成方面,SViMo的結(jié)果在97.56%的案例中超過了基準(zhǔn)。

更令人印象深刻的是,SViMo展示了在真實世界數(shù)據(jù)上的零樣本泛化能力。研究者使用日常家居物品(如搟面杖、鏟子、勺子和碗)設(shè)計操作任務(wù),收集圖像-提示對,然后輸入到同步擴散模型中生成HOI視頻和3D交互,結(jié)果顯示系統(tǒng)能夠輕松泛化到真實世界數(shù)據(jù)。

五、消融研究:驗證設(shè)計選擇

為驗證模型設(shè)計的有效性,研究團隊進行了一系列消融研究。

首先,他們論證了整合視覺先驗和物理動力學(xué)到同步擴散過程的重要性。實驗表明,相比于獨立建模視頻和動作,同步生成能夠顯著提高性能。這就像廚師同時考慮食材烹飪和盤飾擺放,比兩個專家分別處理這些任務(wù)更能創(chuàng)造和諧的菜肴。

其次,他們驗證了視覺感知3D交互擴散模型(VID)的有效性。實驗結(jié)果顯示,完整的VID在視頻和運動生成質(zhì)量上均優(yōu)于僅使用交互引導(dǎo)或僅使用梯度約束的變體。這證明了閉環(huán)反饋機制對于增強視頻-運動一致性的重要作用。

六、局限性與未來工作

盡管SViMo在手物交互生成方面取得了顯著進展,但仍存在一些局限性。

首先,該方法依賴于預(yù)訓(xùn)練的大規(guī)模視頻基礎(chǔ)模型,然后在較小規(guī)模的視頻-3D動作對數(shù)據(jù)集上進行微調(diào)。盡管后者規(guī)模相對較小,但對擴展仍然至關(guān)重要。

其次,雖然SViMo能生成多樣化的交互動作,但生成的3D物體點云目前僅限于剛性、簡單的物體,對結(jié)構(gòu)復(fù)雜的幾何體仍有挑戰(zhàn)。

第三,預(yù)訓(xùn)練基礎(chǔ)模型的能力直接影響訓(xùn)練效率和最終性能。例如,使用輕量級LoRA(低秩適應(yīng))策略與CogVideoX基礎(chǔ)模型會導(dǎo)致次優(yōu)結(jié)果,即使全參數(shù)微調(diào)模型在低分辨率采樣時也可能出現(xiàn)模糊偽影。

未來工作可以從三個方向進行:首先,用可微神經(jīng)表示(如NeRF風(fēng)格公式)替代非可微3D軌跡表示,實現(xiàn)無需顯式3D標(biāo)注的純視頻監(jiān)督;其次,持續(xù)跟進先進的開源基礎(chǔ)模型,因為它們的進化能力直接影響訓(xùn)練穩(wěn)定性和輸出質(zhì)量;最后,整合視覺強化學(xué)習(xí)策略進一步提高生成保真度。

七、結(jié)論:跨越視頻與動作的統(tǒng)一生成范式

SViMo為手物交互生成提供了一個新的范式,通過同步擴散過程集成視覺先驗和動態(tài)約束,實現(xiàn)了視覺逼真和物理合理的HOI序列生成。這一框架消除了對預(yù)定義物體模型或顯式姿態(tài)引導(dǎo)的依賴,同時展示了在未見過的真實場景中的出色泛化能力。

這種同步擴散范式為融合和對齊多模態(tài)表示以及構(gòu)建能夠理解復(fù)雜概念的世界模型提供了一條有前景的路徑。研究團隊相信,這一方法具有跨多個領(lǐng)域的潛在應(yīng)用價值。

就像一個能同時理解視覺美感和物理規(guī)律的藝術(shù)家,SViMo讓我們離創(chuàng)建真實自然的數(shù)字人類互動更近了一步,為游戲、動畫、虛擬現(xiàn)實和機器人技術(shù)等領(lǐng)域開辟了新的可能性。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-