這項(xiàng)由清華大學(xué)的陳凌皓和香港大學(xué)的駒村拓教授等人領(lǐng)導(dǎo)的研究團(tuán)隊(duì)發(fā)表于2025年8月的國(guó)際計(jì)算機(jī)圖形學(xué)頂級(jí)會(huì)議ACM Transactions on Graphics,為動(dòng)畫(huà)制作領(lǐng)域帶來(lái)了一項(xiàng)突破性技術(shù)。有興趣深入了解的讀者可以通過(guò)論文標(biāo)題"Motion2Motion: Cross-topology Motion Transfer with Sparse Correspondence"在學(xué)術(shù)網(wǎng)站上找到完整論文。
在動(dòng)畫(huà)制作的世界里,讓不同角色做出相同動(dòng)作一直是個(gè)令人頭疼的問(wèn)題。比如說(shuō),你有一段人類走路的動(dòng)畫(huà),現(xiàn)在想讓一只四足恐龍也做出同樣的走路動(dòng)作,這就像是讓一個(gè)習(xí)慣用筷子的人突然改用叉子吃飯一樣困難。傳統(tǒng)的做法需要?jiǎng)赢?huà)師花費(fèi)大量時(shí)間重新制作,或者需要復(fù)雜的計(jì)算機(jī)程序進(jìn)行大量訓(xùn)練。
現(xiàn)在,這個(gè)研究團(tuán)隊(duì)提出了一個(gè)名為"Motion2Motion"的新方法,它就像一個(gè)神奇的翻譯器,能夠?qū)⒁粋€(gè)角色的動(dòng)作"翻譯"給完全不同身體結(jié)構(gòu)的另一個(gè)角色。更令人驚喜的是,這個(gè)系統(tǒng)不需要大量的訓(xùn)練數(shù)據(jù),也不需要昂貴的GPU設(shè)備運(yùn)行,甚至可以在普通的筆記本電腦上實(shí)時(shí)工作。
這項(xiàng)技術(shù)的核心創(chuàng)新在于,它只需要知道兩個(gè)角色身體結(jié)構(gòu)之間的幾個(gè)關(guān)鍵對(duì)應(yīng)關(guān)系,就能夠智能地推斷出其他部位應(yīng)該如何運(yùn)動(dòng)。就好比你告訴翻譯器"人的手臂對(duì)應(yīng)恐龍的前爪",它就能自動(dòng)理解如何讓恐龍的尾巴和后腿配合前爪的動(dòng)作,創(chuàng)造出協(xié)調(diào)自然的整體運(yùn)動(dòng)。研究團(tuán)隊(duì)通過(guò)大量實(shí)驗(yàn)證明,這種方法不僅在相似角色間效果出色,在完全不同物種間的動(dòng)作轉(zhuǎn)移也表現(xiàn)優(yōu)異,為游戲開(kāi)發(fā)、電影制作和虛擬現(xiàn)實(shí)等領(lǐng)域開(kāi)辟了全新的可能性。
一、動(dòng)畫(huà)制作中的"翻譯"難題
在理解這項(xiàng)技術(shù)的價(jià)值之前,我們需要了解動(dòng)畫(huà)制作中一個(gè)長(zhǎng)期存在的挑戰(zhàn)。當(dāng)動(dòng)畫(huà)師制作出一個(gè)精彩的人類跑步動(dòng)畫(huà)后,如果想讓游戲中的怪獸角色也做出同樣的跑步動(dòng)作,傳統(tǒng)的做法就像讓一個(gè)只會(huì)說(shuō)中文的人去教外國(guó)人唱京劇一樣困難。
問(wèn)題的根源在于不同角色的身體結(jié)構(gòu)差異巨大。人類有兩條腿、兩只手臂,而蜘蛛有八條腿,龍有翅膀和尾巴,蛇甚至沒(méi)有四肢。這些身體結(jié)構(gòu)的差異就像不同的語(yǔ)言系統(tǒng),需要一個(gè)強(qiáng)大的"翻譯器"來(lái)實(shí)現(xiàn)動(dòng)作的轉(zhuǎn)換。
傳統(tǒng)的解決方案主要分為兩類。第一類就像請(qǐng)專業(yè)翻譯員一樣,需要?jiǎng)赢?huà)師手工為每個(gè)新角色重新制作動(dòng)作,這不僅耗時(shí)耗力,而且成本高昂。第二類則像訓(xùn)練一個(gè)AI翻譯系統(tǒng),需要收集大量不同角色的動(dòng)畫(huà)數(shù)據(jù)來(lái)訓(xùn)練深度學(xué)習(xí)模型,但這種方法面臨數(shù)據(jù)稀缺的問(wèn)題。畢竟,相比于人類動(dòng)作數(shù)據(jù),其他生物或奇幻角色的高質(zhì)量動(dòng)畫(huà)數(shù)據(jù)非常少見(jiàn)。
更棘手的是,即使有了訓(xùn)練好的模型,當(dāng)遇到訓(xùn)練時(shí)沒(méi)見(jiàn)過(guò)的新角色類型時(shí),比如一個(gè)有著復(fù)雜裙擺和飄逸長(zhǎng)發(fā)的角色,這些模型往往就像遇到了完全陌生方言的翻譯員,變得束手無(wú)策。
研究團(tuán)隊(duì)發(fā)現(xiàn),現(xiàn)有方法的另一個(gè)問(wèn)題是對(duì)計(jì)算資源的高需求。大多數(shù)先進(jìn)的動(dòng)作轉(zhuǎn)移系統(tǒng)都需要強(qiáng)大的GPU才能運(yùn)行,這就像需要一臺(tái)超級(jí)計(jì)算機(jī)才能做翻譯一樣,限制了技術(shù)的普及和應(yīng)用。在實(shí)際的動(dòng)畫(huà)制作流程中,創(chuàng)作者們希望能夠快速預(yù)覽不同角色的動(dòng)作效果,而不是等待幾分鐘甚至幾小時(shí)的計(jì)算時(shí)間。
面對(duì)這些挑戰(zhàn),研究團(tuán)隊(duì)提出了一個(gè)根本性的思考:是否可以設(shè)計(jì)一種方法,只需要很少的示例,不需要大量訓(xùn)練,就能實(shí)現(xiàn)不同角色間的動(dòng)作轉(zhuǎn)移?這個(gè)想法的核心在于,動(dòng)作轉(zhuǎn)移本質(zhì)上是一個(gè)匹配和混合的過(guò)程,就像一個(gè)經(jīng)驗(yàn)豐富的廚師能夠根據(jù)現(xiàn)有食材的特性,靈活調(diào)整菜譜來(lái)適應(yīng)不同的烹飪條件。
二、Motion2Motion的核心思想
Motion2Motion的設(shè)計(jì)思路就像一個(gè)聰明的動(dòng)作"翻譯員",它的工作原理可以用調(diào)制雞尾酒來(lái)類比。當(dāng)調(diào)酒師要為不同口味偏好的客人調(diào)制飲品時(shí),他們不會(huì)從頭開(kāi)始學(xué)習(xí)每一種可能的配方,而是基于幾種經(jīng)典基酒,通過(guò)巧妙的混合和調(diào)配來(lái)創(chuàng)造出適合不同客人的飲品。
這個(gè)系統(tǒng)的第一個(gè)關(guān)鍵特點(diǎn)是"稀疏對(duì)應(yīng)"的概念。傳統(tǒng)方法就像要求兩個(gè)角色的每個(gè)身體部位都要一一對(duì)應(yīng),但Motion2Motion只需要知道幾個(gè)關(guān)鍵的對(duì)應(yīng)關(guān)系。比如,在將人類動(dòng)作轉(zhuǎn)移給四足動(dòng)物時(shí),系統(tǒng)可能只需要知道人的腿對(duì)應(yīng)動(dòng)物的后腿這樣的基本信息。這就像學(xué)習(xí)一門新語(yǔ)言時(shí),你不需要掌握所有詞匯,只要知道幾個(gè)關(guān)鍵詞匯,就能開(kāi)始進(jìn)行基本交流。
系統(tǒng)的第二個(gè)巧妙之處在于"動(dòng)作片段匹配"的機(jī)制。它將整個(gè)動(dòng)作序列切分成許多小的片段,就像把一首歌分解成許多小節(jié)。然后,對(duì)于源角色的每個(gè)動(dòng)作片段,系統(tǒng)會(huì)在目標(biāo)角色的示例動(dòng)作庫(kù)中尋找最相似的片段。這個(gè)過(guò)程就像DJ混音一樣,通過(guò)智能地混合和拼接不同的音樂(lè)片段,創(chuàng)造出全新而和諧的作品。
更令人驚喜的是,這個(gè)系統(tǒng)采用了"迭代優(yōu)化"的策略。它不會(huì)一次性完成整個(gè)轉(zhuǎn)移過(guò)程,而是像畫(huà)家創(chuàng)作一幅畫(huà)一樣,先勾勒出基本輪廓,然后逐步添加細(xì)節(jié)和調(diào)整色彩。具體來(lái)說(shuō),系統(tǒng)會(huì)進(jìn)行多輪匹配和混合過(guò)程,每一輪都會(huì)讓結(jié)果變得更加自然和協(xié)調(diào)。
系統(tǒng)處理未知身體部位的方式也很獨(dú)特。對(duì)于目標(biāo)角色中那些在源角色身上找不到對(duì)應(yīng)的部位(比如龍的尾巴或翅膀),系統(tǒng)會(huì)先用隨機(jī)的"噪聲"進(jìn)行初始化,然后通過(guò)觀察目標(biāo)角色的示例動(dòng)作,學(xué)會(huì)這些部位應(yīng)該如何與已知部位協(xié)調(diào)運(yùn)動(dòng)。這就像一個(gè)從未見(jiàn)過(guò)尾巴的人,通過(guò)觀察幾個(gè)有尾巴動(dòng)物的運(yùn)動(dòng)示例,逐漸理解尾巴應(yīng)該如何配合整體動(dòng)作。
研究團(tuán)隊(duì)特別強(qiáng)調(diào)的一點(diǎn)是系統(tǒng)的"訓(xùn)練無(wú)關(guān)"特性。Motion2Motion不需要像傳統(tǒng)深度學(xué)習(xí)方法那樣進(jìn)行預(yù)先訓(xùn)練,而是在每次使用時(shí)現(xiàn)場(chǎng)進(jìn)行匹配和混合。這種設(shè)計(jì)使得系統(tǒng)能夠靈活應(yīng)對(duì)各種前所未見(jiàn)的角色類型,就像一個(gè)經(jīng)驗(yàn)豐富的即興演奏家,能夠根據(jù)現(xiàn)場(chǎng)的氛圍和聽(tīng)眾的反應(yīng)靈活調(diào)整表演內(nèi)容。
系統(tǒng)的計(jì)算效率也是一大亮點(diǎn)。由于不需要復(fù)雜的神經(jīng)網(wǎng)絡(luò)推理過(guò)程,Motion2Motion可以在普通的CPU上實(shí)時(shí)運(yùn)行,甚至在MacBook這樣的輕便設(shè)備上也能流暢工作。這種效率的提升為動(dòng)畫(huà)制作者提供了前所未有的創(chuàng)作自由度,他們可以快速嘗試不同的角色和動(dòng)作組合,即時(shí)預(yù)覽效果。
三、技術(shù)實(shí)現(xiàn)的巧妙設(shè)計(jì)
Motion2Motion的技術(shù)實(shí)現(xiàn)就像一套精心設(shè)計(jì)的拼圖游戲規(guī)則,每個(gè)環(huán)節(jié)都經(jīng)過(guò)深思熟慮的優(yōu)化。系統(tǒng)首先需要處理的是動(dòng)作的數(shù)字化表示問(wèn)題。在計(jì)算機(jī)的世界里,一個(gè)角色的動(dòng)作被表示為一系列數(shù)字,記錄著每個(gè)關(guān)節(jié)在每一幀中的旋轉(zhuǎn)和位置信息。這就像用樂(lè)譜記錄一首歌曲一樣,需要一套標(biāo)準(zhǔn)化的符號(hào)系統(tǒng)。
動(dòng)作片段化的過(guò)程類似于將一段連續(xù)的音樂(lè)切分成重疊的小節(jié)。系統(tǒng)使用滑動(dòng)窗口的方式,將源動(dòng)作序列分解成許多包含11幀的小片段。這個(gè)數(shù)字的選擇很有講究:太短的片段無(wú)法包含足夠的時(shí)間信息,太長(zhǎng)的片段又會(huì)失去靈活性。研究團(tuán)隊(duì)經(jīng)過(guò)大量實(shí)驗(yàn)發(fā)現(xiàn),11幀是一個(gè)理想的平衡點(diǎn),既能捕捉動(dòng)作的時(shí)間特征,又保持了足夠的匹配靈活性。
在建立角色間的對(duì)應(yīng)關(guān)系時(shí),系統(tǒng)采用了一種類似于地圖導(dǎo)航的方法。它構(gòu)建了一個(gè)"對(duì)應(yīng)矩陣",就像建立兩個(gè)城市間的交通路線圖。這個(gè)矩陣明確記錄了源角色的哪些身體部位對(duì)應(yīng)目標(biāo)角色的哪些部位,而對(duì)于那些沒(méi)有對(duì)應(yīng)關(guān)系的部位,系統(tǒng)會(huì)用特殊的標(biāo)記進(jìn)行區(qū)分。
系統(tǒng)的匹配過(guò)程展現(xiàn)了巧妙的平衡藝術(shù)。在尋找最相似的動(dòng)作片段時(shí),系統(tǒng)需要同時(shí)考慮兩個(gè)方面:已知對(duì)應(yīng)部位的相似性和未知部位的多樣性。這就像調(diào)制雞尾酒時(shí)既要保持基酒的特色,又要適當(dāng)加入新的風(fēng)味元素。系統(tǒng)通過(guò)一個(gè)權(quán)重參數(shù)α來(lái)控制這個(gè)平衡,α值設(shè)為0.85意味著85%的注意力放在保持動(dòng)作的核心特征上,15%的注意力用于引入適當(dāng)?shù)淖兓?/p>
混合過(guò)程采用了簡(jiǎn)單而有效的平均策略。當(dāng)系統(tǒng)為源動(dòng)作的每個(gè)片段找到匹配的目標(biāo)片段后,它會(huì)將這些片段進(jìn)行加權(quán)平均,就像調(diào)色師混合不同顏色的顏料來(lái)獲得理想的色調(diào)。雖然這種方法看似簡(jiǎn)單,但研究團(tuán)隊(duì)發(fā)現(xiàn),在有了合適的匹配基礎(chǔ)后,簡(jiǎn)單的平均往往比復(fù)雜的融合算法效果更好。
迭代優(yōu)化的設(shè)計(jì)體現(xiàn)了"精雕細(xì)琢"的理念。系統(tǒng)會(huì)重復(fù)進(jìn)行3次匹配和混合過(guò)程,每一次迭代都會(huì)讓結(jié)果更加精細(xì)。第一次迭代主要建立基本的動(dòng)作框架,后續(xù)迭代則專注于優(yōu)化細(xì)節(jié)和提高時(shí)間連貫性。這種迭代策略確保了最終結(jié)果既保持了源動(dòng)作的核心特征,又具有目標(biāo)角色的自然運(yùn)動(dòng)模式。
系統(tǒng)還具備了處理關(guān)鍵幀動(dòng)作的能力。當(dāng)用戶只提供幾個(gè)關(guān)鍵動(dòng)作幀而非完整動(dòng)作序列時(shí),Motion2Motion能夠通過(guò)智能插值和匹配來(lái)補(bǔ)全整個(gè)動(dòng)作序列。這種能力特別適合動(dòng)畫(huà)師的工作流程,因?yàn)樗麄兘?jīng)常只需要指定幾個(gè)關(guān)鍵姿態(tài),然后讓系統(tǒng)自動(dòng)生成中間過(guò)渡動(dòng)作。
值得一提的是,系統(tǒng)的特征匹配不僅限于傳統(tǒng)的關(guān)節(jié)旋轉(zhuǎn)信息。研究團(tuán)隊(duì)發(fā)現(xiàn),使用速度信息進(jìn)行匹配往往能獲得更好的時(shí)間連貫性,因?yàn)樗俣雀苯拥胤从沉藙?dòng)作的動(dòng)態(tài)特性。這就像音樂(lè)家更關(guān)注音符間的節(jié)奏變化,而不僅僅是音符本身的音高。
四、突破性的實(shí)驗(yàn)驗(yàn)證
研究團(tuán)隊(duì)設(shè)計(jì)了一套全面的實(shí)驗(yàn)來(lái)驗(yàn)證Motion2Motion的效果,這些實(shí)驗(yàn)就像為新發(fā)明的工具設(shè)計(jì)各種使用場(chǎng)景的測(cè)試。他們收集了包含1167幀動(dòng)畫(huà)的測(cè)試數(shù)據(jù)集,涵蓋了跑步、行走、跳躍和攻擊等各種動(dòng)作類型,測(cè)試角色從9個(gè)關(guān)節(jié)的簡(jiǎn)單角色到143個(gè)關(guān)節(jié)的復(fù)雜角色,形成了一個(gè)豐富多樣的測(cè)試環(huán)境。
在與現(xiàn)有最先進(jìn)方法的對(duì)比中,Motion2Motion展現(xiàn)出了顯著的優(yōu)勢(shì)。研究團(tuán)隊(duì)選擇了兩個(gè)代表性的對(duì)比方法:WalkTheDog和Pose-to-Motion。前者專門處理人類到四足動(dòng)物的動(dòng)作轉(zhuǎn)移,后者則從姿態(tài)數(shù)據(jù)生成連續(xù)動(dòng)作。在相似骨架的角色間轉(zhuǎn)移時(shí),Motion2Motion在所有關(guān)鍵指標(biāo)上都取得了最佳表現(xiàn)。
具體數(shù)據(jù)顯示,Motion2Motion的動(dòng)作質(zhì)量指標(biāo)(FID分?jǐn)?shù))為0.033,遠(yuǎn)低于WalkTheDog的0.507和Pose-to-Motion的0.389。這個(gè)數(shù)字差異就像比較不同畫(huà)家作品的逼真程度,數(shù)值越低表示生成的動(dòng)作越接近真實(shí)的目標(biāo)角色動(dòng)作。更令人印象深刻的是,在頻率一致性方面,Motion2Motion達(dá)到了96.2%的匹配度,這意味著轉(zhuǎn)移后的動(dòng)作幾乎完美保持了原始動(dòng)作的時(shí)間節(jié)奏。
在更具挑戰(zhàn)性的跨物種動(dòng)作轉(zhuǎn)移測(cè)試中,比如從雙足角色到四足角色的轉(zhuǎn)移,Motion2Motion同樣保持了領(lǐng)先優(yōu)勢(shì)。雖然這種轉(zhuǎn)移的難度大大增加,但系統(tǒng)仍然達(dá)到了90.3%的頻率一致性和79.7%的接觸一致性,這表明即使在面對(duì)完全不同的身體結(jié)構(gòu)時(shí),系統(tǒng)仍能維持動(dòng)作的自然性和協(xié)調(diào)性。
研究團(tuán)隊(duì)特別設(shè)計(jì)了一個(gè)創(chuàng)新性的測(cè)試:從無(wú)肢體的蛇類角色到有肢體的雙足角色的動(dòng)作轉(zhuǎn)移。這個(gè)測(cè)試就像要求一個(gè)從未見(jiàn)過(guò)腿的生物學(xué)會(huì)走路一樣極具挑戰(zhàn)性。結(jié)果顯示,通過(guò)僅僅4個(gè)脊椎對(duì)應(yīng)點(diǎn)的約束,系統(tǒng)成功地為雙足角色生成了協(xié)調(diào)的行走動(dòng)作,其中腿部動(dòng)作是基于蛇的身體波動(dòng)模式推斷出來(lái)的。
時(shí)間匹配的可視化分析揭示了系統(tǒng)工作的精妙之處。通過(guò)分析動(dòng)作的相位信息,研究團(tuán)隊(duì)發(fā)現(xiàn)轉(zhuǎn)移后的動(dòng)作在時(shí)間維度上保持了與源動(dòng)作一致的周期性模式。這種時(shí)間一致性對(duì)于動(dòng)作的自然感至關(guān)重要,就像音樂(lè)中保持節(jié)拍的重要性一樣。
用戶研究的結(jié)果進(jìn)一步證實(shí)了系統(tǒng)的實(shí)用價(jià)值。50名用戶對(duì)10組源動(dòng)作和轉(zhuǎn)移結(jié)果進(jìn)行評(píng)分,Motion2Motion在動(dòng)作質(zhì)量方面獲得4.36分(滿分5分),在動(dòng)作對(duì)齊性方面獲得4.60分,顯著超過(guò)了對(duì)比方法的表現(xiàn)。用戶普遍反映,Motion2Motion生成的動(dòng)作看起來(lái)更自然,更好地保持了原始動(dòng)作的特征。
系統(tǒng)的"測(cè)試時(shí)擴(kuò)展"特性也得到了驗(yàn)證。當(dāng)為目標(biāo)角色提供更多示例動(dòng)作時(shí),系統(tǒng)的表現(xiàn)會(huì)相應(yīng)提升。從1個(gè)示例增加到3個(gè)示例時(shí),動(dòng)作質(zhì)量指標(biāo)從0.263改善到0.230,這種改進(jìn)模式表明系統(tǒng)能夠有效利用額外的信息來(lái)提升輸出質(zhì)量。
效率測(cè)試顯示了系統(tǒng)的實(shí)用優(yōu)勢(shì)。Motion2Motion在普通MacBook上的運(yùn)行速度達(dá)到752幀每秒,而對(duì)比方法需要GPU支持且速度較慢。這種效率優(yōu)勢(shì)使得系統(tǒng)能夠支持實(shí)時(shí)預(yù)覽和交互式編輯,為動(dòng)畫(huà)創(chuàng)作者提供了前所未有的便利性。
五、從理論到實(shí)踐的應(yīng)用突破
Motion2Motion最激動(dòng)人心的方面在于它在實(shí)際應(yīng)用中展現(xiàn)出的巨大潛力。研究團(tuán)隊(duì)開(kāi)發(fā)了一個(gè)完整的Blender插件,讓這項(xiàng)技術(shù)能夠無(wú)縫集成到現(xiàn)有的動(dòng)畫(huà)制作流程中。這個(gè)插件就像給專業(yè)廚師提供了一套新的烹飪工具,既保持了原有工作習(xí)慣的連續(xù)性,又大大擴(kuò)展了創(chuàng)作的可能性。
在插件的使用界面中,動(dòng)畫(huà)師首先加載源動(dòng)作,比如一個(gè)火烈鳥(niǎo)的行走動(dòng)畫(huà)。然后選擇目標(biāo)角色的幾個(gè)參考動(dòng)作片段,系統(tǒng)會(huì)自動(dòng)分析兩個(gè)角色間的潛在對(duì)應(yīng)關(guān)系。用戶還可以手動(dòng)調(diào)整這些對(duì)應(yīng)關(guān)系,或者選擇讓系統(tǒng)自動(dòng)匹配。整個(gè)過(guò)程就像使用智能翻譯軟件一樣直觀簡(jiǎn)單。
一個(gè)特別令人印象深刻的應(yīng)用案例是SMPL人體模型到復(fù)雜角色的動(dòng)作轉(zhuǎn)移。SMPL是計(jì)算機(jī)視覺(jué)領(lǐng)域廣泛使用的標(biāo)準(zhǔn)人體表示模型,大量的人體動(dòng)作數(shù)據(jù)都基于這個(gè)模型。但在實(shí)際的游戲和影視制作中,角色往往具有更復(fù)雜的身體結(jié)構(gòu),包括飄逸的長(zhǎng)發(fā)、動(dòng)態(tài)的裙擺,甚至機(jī)械裝置等元素。
研究團(tuán)隊(duì)成功演示了如何將基于SMPL模型的動(dòng)作轉(zhuǎn)移到一個(gè)擁有331個(gè)關(guān)節(jié)的復(fù)雜角色上。這個(gè)目標(biāo)角色不僅有標(biāo)準(zhǔn)的人體骨架,還包括詳細(xì)的面部表情控制、復(fù)雜的服裝動(dòng)力學(xué)和長(zhǎng)發(fā)物理模擬。通過(guò)建立21個(gè)關(guān)鍵對(duì)應(yīng)關(guān)系,系統(tǒng)成功生成了包含頭發(fā)擺動(dòng)、裙擺飄動(dòng)等細(xì)節(jié)的完整動(dòng)作序列。
這種能力對(duì)于動(dòng)畫(huà)行業(yè)具有革命性的意義。過(guò)去,當(dāng)動(dòng)畫(huà)師從動(dòng)作捕捉數(shù)據(jù)或生成的SMPL動(dòng)作開(kāi)始工作時(shí),他們需要花費(fèi)大量時(shí)間手工添加頭發(fā)、服裝等次要元素的動(dòng)畫(huà)?,F(xiàn)在,Motion2Motion能夠通過(guò)觀察少量示例,自動(dòng)推斷這些元素應(yīng)該如何與主體動(dòng)作協(xié)調(diào)運(yùn)動(dòng)。
跨物種的動(dòng)作轉(zhuǎn)移展示了系統(tǒng)處理極端情況的能力。從雙足的火烈鳥(niǎo)到四足的猴子的轉(zhuǎn)移過(guò)程中,系統(tǒng)僅需要6個(gè)后肢關(guān)節(jié)的對(duì)應(yīng)關(guān)系,就能成功生成猴子的完整運(yùn)動(dòng)模式。更有趣的是,系統(tǒng)能夠自動(dòng)推斷猴子前肢和尾巴的運(yùn)動(dòng)模式,這些部位在火烈鳥(niǎo)身上并沒(méi)有直接對(duì)應(yīng)。
研究團(tuán)隊(duì)還展示了從無(wú)肢體角色到有肢體角色的極端轉(zhuǎn)移案例。從蟒蛇的攻擊動(dòng)作轉(zhuǎn)移到雙足恐龍的過(guò)程中,系統(tǒng)通過(guò)4個(gè)脊椎對(duì)應(yīng)點(diǎn),成功生成了恐龍協(xié)調(diào)的雙足攻擊動(dòng)作。這個(gè)結(jié)果特別令人驚喜,因?yàn)橄到y(tǒng)需要從蟒蛇的身體波動(dòng)模式中推斷出腿部應(yīng)該如何運(yùn)動(dòng),這種推斷能力展現(xiàn)了系統(tǒng)的智能程度。
系統(tǒng)的多樣性控制功能為創(chuàng)作者提供了額外的創(chuàng)意空間。通過(guò)調(diào)整噪聲權(quán)重參數(shù),用戶可以控制生成結(jié)果的變化程度。當(dāng)需要嚴(yán)格保持源動(dòng)作特征時(shí),可以提高對(duì)應(yīng)關(guān)系的權(quán)重;當(dāng)希望增加創(chuàng)意變化時(shí),可以增加隨機(jī)性的影響。這種控制機(jī)制就像調(diào)節(jié)音響的均衡器一樣,讓用戶能夠根據(jù)創(chuàng)作需求精確調(diào)節(jié)輸出效果。
系統(tǒng)在處理關(guān)鍵幀動(dòng)畫(huà)方面的能力也值得關(guān)注。當(dāng)用戶只提供稀疏的關(guān)鍵幀時(shí),比如一個(gè)飛行動(dòng)作中的幾個(gè)重要姿態(tài),Motion2Motion能夠智能地插值生成完整的飛行序列。這種能力特別適合傳統(tǒng)的關(guān)鍵幀動(dòng)畫(huà)工作流程,讓動(dòng)畫(huà)師能夠繼續(xù)使用熟悉的創(chuàng)作方式,同時(shí)享受AI技術(shù)帶來(lái)的效率提升。
六、技術(shù)創(chuàng)新背后的深層洞察
Motion2Motion的成功不僅僅在于技術(shù)實(shí)現(xiàn),更在于它對(duì)動(dòng)作轉(zhuǎn)移問(wèn)題本質(zhì)的深刻理解。研究團(tuán)隊(duì)發(fā)現(xiàn),傳統(tǒng)方法之所以需要大量數(shù)據(jù)和復(fù)雜訓(xùn)練,是因?yàn)樗鼈冊(cè)噲D學(xué)習(xí)一個(gè)通用的轉(zhuǎn)移模型。而Motion2Motion采用了完全不同的思路:與其學(xué)習(xí)如何轉(zhuǎn)移,不如直接進(jìn)行智能匹配和組合。
這種思路轉(zhuǎn)換就像從"教會(huì)機(jī)器如何翻譯"轉(zhuǎn)向"讓機(jī)器直接查找和組合現(xiàn)有的翻譯片段"。雖然后者看似簡(jiǎn)單,但在動(dòng)作轉(zhuǎn)移的特定場(chǎng)景下,這種方法反而更加有效。因?yàn)閯?dòng)作本身具有很強(qiáng)的組合性和可重復(fù)性,不同的動(dòng)作片段可以像積木一樣靈活組合。
研究團(tuán)隊(duì)對(duì)稀疏對(duì)應(yīng)的堅(jiān)持也體現(xiàn)了深刻的洞察。在動(dòng)物運(yùn)動(dòng)學(xué)研究中,科學(xué)家們發(fā)現(xiàn)不同物種的運(yùn)動(dòng)模式雖然表面上差異巨大,但往往遵循相似的動(dòng)力學(xué)原理。比如,所有四足動(dòng)物的跑步都會(huì)經(jīng)歷相似的重心轉(zhuǎn)移模式,盡管它們的身體比例和結(jié)構(gòu)各不相同。Motion2Motion正是利用了這種底層的運(yùn)動(dòng)學(xué)共性。
系統(tǒng)在處理未知身體部位時(shí)展現(xiàn)的"想象力"也值得深入探討。當(dāng)面對(duì)源角色沒(méi)有的身體部位時(shí),系統(tǒng)不是簡(jiǎn)單地忽略它們,而是通過(guò)觀察目標(biāo)角色的示例動(dòng)作,學(xué)習(xí)這些部位的運(yùn)動(dòng)模式。這個(gè)過(guò)程類似于人類學(xué)習(xí)新技能時(shí)的類比推理能力。
迭代優(yōu)化策略的有效性揭示了動(dòng)作轉(zhuǎn)移過(guò)程的漸進(jìn)性質(zhì)。就像畫(huà)家創(chuàng)作一幅畫(huà)不是一步到位,而是通過(guò)多層渲染逐步完善,動(dòng)作轉(zhuǎn)移也是一個(gè)逐步精化的過(guò)程。第一次迭代建立基本框架,后續(xù)迭代專注于細(xì)節(jié)優(yōu)化和時(shí)間連貫性調(diào)整。
研究團(tuán)隊(duì)在特征選擇方面的發(fā)現(xiàn)也很有趣。他們發(fā)現(xiàn)使用關(guān)節(jié)速度作為匹配特征往往比使用關(guān)節(jié)位置或旋轉(zhuǎn)角度效果更好。這個(gè)發(fā)現(xiàn)符合運(yùn)動(dòng)科學(xué)的理論,因?yàn)樗俣刃畔⒏苯拥胤从沉诉\(yùn)動(dòng)的動(dòng)態(tài)特性和節(jié)奏感。
系統(tǒng)的實(shí)時(shí)性能不僅僅是技術(shù)優(yōu)勢(shì),更代表了一種設(shè)計(jì)哲學(xué)的轉(zhuǎn)變。傳統(tǒng)的AI系統(tǒng)往往追求更高的精度,即使以犧牲速度為代價(jià)。但Motion2Motion證明了在特定應(yīng)用場(chǎng)景下,實(shí)時(shí)交互性比微小的精度提升更有價(jià)值。這種設(shè)計(jì)哲學(xué)更符合創(chuàng)意工作者的需求。
研究團(tuán)隊(duì)對(duì)多樣性和一致性之間平衡的處理也展現(xiàn)了系統(tǒng)設(shè)計(jì)的成熟度。通過(guò)權(quán)重參數(shù)α的調(diào)節(jié),系統(tǒng)能夠在保持源動(dòng)作特征和適應(yīng)目標(biāo)角色特性之間找到最佳平衡點(diǎn)。這種平衡不是固定的,而是可以根據(jù)具體應(yīng)用需求進(jìn)行調(diào)節(jié)的。
七、面向未來(lái)的技術(shù)展望
雖然Motion2Motion已經(jīng)取得了顯著的成功,但研究團(tuán)隊(duì)也坦誠(chéng)地討論了當(dāng)前技術(shù)的局限性和未來(lái)的發(fā)展方向。目前系統(tǒng)最明顯的限制是對(duì)示例動(dòng)作的依賴性。如果目標(biāo)角色的示例動(dòng)作與源動(dòng)作在語(yǔ)義上差異過(guò)大,比如將功夫動(dòng)作轉(zhuǎn)移給跳舞角色,系統(tǒng)的表現(xiàn)會(huì)受到影響。
這個(gè)問(wèn)題的根源在于系統(tǒng)的匹配機(jī)制依賴于動(dòng)作間的相似性。當(dāng)兩個(gè)動(dòng)作的基本模式完全不同時(shí),匹配過(guò)程可能找不到合適的對(duì)應(yīng)關(guān)系。研究團(tuán)隊(duì)認(rèn)為,未來(lái)的改進(jìn)方向之一是引入更高級(jí)的語(yǔ)義理解能力,讓系統(tǒng)能夠理解動(dòng)作的抽象含義而不僅僅是表面的運(yùn)動(dòng)模式。
另一個(gè)發(fā)展方向是進(jìn)一步減少對(duì)示例數(shù)據(jù)的需求。雖然Motion2Motion已經(jīng)實(shí)現(xiàn)了少樣本學(xué)習(xí),但研究團(tuán)隊(duì)希望未來(lái)能夠?qū)崿F(xiàn)真正的零樣本轉(zhuǎn)移,即在完全沒(méi)有目標(biāo)角色示例的情況下也能進(jìn)行合理的動(dòng)作轉(zhuǎn)移。這將需要系統(tǒng)具備更強(qiáng)的生物運(yùn)動(dòng)學(xué)知識(shí)和推理能力。
在應(yīng)用拓展方面,研究團(tuán)隊(duì)正在探索將這種技術(shù)應(yīng)用到更廣泛的領(lǐng)域。除了傳統(tǒng)的角色動(dòng)畫(huà),Motion2Motion的原理也可能適用于機(jī)器人運(yùn)動(dòng)控制、醫(yī)療康復(fù)訓(xùn)練,甚至虛擬現(xiàn)實(shí)中的身體映射等領(lǐng)域。每個(gè)應(yīng)用領(lǐng)域都會(huì)帶來(lái)新的技術(shù)挑戰(zhàn)和創(chuàng)新機(jī)會(huì)。
系統(tǒng)的智能化程度也有進(jìn)一步提升的空間。目前的自動(dòng)對(duì)應(yīng)關(guān)系識(shí)別主要基于骨架結(jié)構(gòu)的幾何相似性,未來(lái)可能引入更復(fù)雜的語(yǔ)義分析和功能理解。比如,系統(tǒng)可能學(xué)會(huì)識(shí)別"抓取"、"支撐"、"平衡"等功能性身體部位,而不僅僅是幾何上的相似性。
在用戶界面和交互設(shè)計(jì)方面,研究團(tuán)隊(duì)也在考慮更智能的輔助功能。未來(lái)的系統(tǒng)可能具備動(dòng)作風(fēng)格分析能力,能夠自動(dòng)識(shí)別源動(dòng)作的情感色彩和表達(dá)意圖,然后在轉(zhuǎn)移過(guò)程中保持這些高級(jí)特征。
研究團(tuán)隊(duì)還在探索與其他AI技術(shù)的融合可能。比如,結(jié)合自然語(yǔ)言處理技術(shù),讓用戶能夠通過(guò)文字描述來(lái)指導(dǎo)動(dòng)作轉(zhuǎn)移過(guò)程;或者結(jié)合計(jì)算機(jī)視覺(jué)技術(shù),讓系統(tǒng)能夠從視頻中直接學(xué)習(xí)動(dòng)作模式。這些融合將使Motion2Motion成為更加強(qiáng)大和易用的創(chuàng)作工具。
說(shuō)到底,Motion2Motion代表了AI輔助創(chuàng)作工具發(fā)展的一個(gè)重要方向:不是替代人類創(chuàng)作者,而是增強(qiáng)他們的創(chuàng)作能力。這項(xiàng)技術(shù)讓動(dòng)畫(huà)師能夠?qū)⒏嗑ν度氲絼?chuàng)意構(gòu)思和故事表達(dá)上,而不是被技術(shù)細(xì)節(jié)所束縛。正如一位知名動(dòng)畫(huà)導(dǎo)演所說(shuō):"最好的技術(shù)工具是那些讓你忘記它們存在,專注于創(chuàng)作本身的工具。"
從更廣闊的視角來(lái)看,Motion2Motion的成功也啟示我們重新思考AI技術(shù)的發(fā)展路徑。在追求更大模型和更多數(shù)據(jù)的主流趨勢(shì)中,這項(xiàng)研究證明了巧妙的算法設(shè)計(jì)和深刻的問(wèn)題理解同樣能夠帶來(lái)突破性的成果。有時(shí)候,解決問(wèn)題的關(guān)鍵不在于擁有更多資源,而在于找到更聰明的方法。
這項(xiàng)來(lái)自清華大學(xué)和香港大學(xué)團(tuán)隊(duì)的研究不僅為動(dòng)畫(huà)制作行業(yè)帶來(lái)了實(shí)用的工具,更為整個(gè)人工智能領(lǐng)域提供了寶貴的思路啟發(fā)。它證明了在特定領(lǐng)域深耕細(xì)作的價(jià)值,也展示了理論研究與實(shí)際應(yīng)用結(jié)合的美好前景。對(duì)于每一個(gè)關(guān)注AI技術(shù)發(fā)展的人來(lái)說(shuō),Motion2Motion都是一個(gè)值得深入思考的成功案例。
Q&A
Q1:Motion2Motion具體是什么技術(shù)?它解決了什么問(wèn)題?
A:Motion2Motion是一項(xiàng)動(dòng)作轉(zhuǎn)移技術(shù),能夠讓不同身體結(jié)構(gòu)的角色做出相同的動(dòng)作。比如將人類的走路動(dòng)作轉(zhuǎn)移給四足恐龍,或者讓蛇的攻擊動(dòng)作轉(zhuǎn)移給雙足鳥(niǎo)類。傳統(tǒng)方法需要大量數(shù)據(jù)訓(xùn)練或手工重制,而這個(gè)技術(shù)只需要很少的示例動(dòng)作和幾個(gè)關(guān)鍵身體部位的對(duì)應(yīng)關(guān)系,就能自動(dòng)生成自然協(xié)調(diào)的動(dòng)作。
Q2:Motion2Motion需要什么樣的設(shè)備才能運(yùn)行?
A:Motion2Motion最大的優(yōu)勢(shì)之一就是對(duì)硬件要求很低。它不需要昂貴的GPU顯卡,甚至可以在普通的MacBook筆記本電腦上流暢運(yùn)行,處理速度達(dá)到752幀每秒。這與傳統(tǒng)方法需要專業(yè)GPU設(shè)備形成鮮明對(duì)比,大大降低了使用門檻。
Q3:Motion2Motion能處理哪些類型的角色動(dòng)作轉(zhuǎn)移?
A:Motion2Motion可以處理從簡(jiǎn)單到極其復(fù)雜的各種轉(zhuǎn)移場(chǎng)景。包括相似角色間的轉(zhuǎn)移(比如不同人形角色),跨物種轉(zhuǎn)移(比如人類到四足動(dòng)物),甚至極端的轉(zhuǎn)移(比如無(wú)肢體的蛇到有肢體的恐龍)。系統(tǒng)還能處理復(fù)雜角色如帶有飄逸長(zhǎng)發(fā)、動(dòng)態(tài)裙擺的角色,這些在傳統(tǒng)方法中都是難點(diǎn)。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語(yǔ)言模型的敘事推理能力與音頻生成技術(shù),通過(guò)交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開(kāi)辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過(guò)讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問(wèn)題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語(yǔ)言模型人性化對(duì)話問(wèn)題。該研究創(chuàng)建了包含20萬(wàn)高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過(guò)創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開(kāi)發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過(guò)學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來(lái)了效率和精度的雙重突破。