音樂(lè)、說(shuō)話、手勢(shì)、表情——只需一張照片和一段音頻,就能讓靜態(tài)的人物照片瞬間活起來(lái)。這聽(tīng)起來(lái)像是科幻電影里的情節(jié),但現(xiàn)在已經(jīng)成為現(xiàn)實(shí)。ByteDance的研究團(tuán)隊(duì)在2025年6月發(fā)表了一項(xiàng)名為"OmniHuman-1: Rethinking the Scaling-Up of One-Stage Conditioned Human Animation Models"的重要研究成果,該研究由字節(jié)跳動(dòng)的林高杰、姜建文、楊佳琦、鄭澤榮、梁超等研究人員共同完成,已發(fā)表在arXiv平臺(tái)(論文編號(hào):arXiv:2502.01061v3),有興趣深入了解的讀者可以通過(guò)https://omnihuman-lab.github.io/訪問(wèn)項(xiàng)目詳情。
這項(xiàng)研究解決了一個(gè)普通人都能理解的問(wèn)題:如何讓靜態(tài)照片中的人物"動(dòng)起來(lái)"。以前,制作一個(gè)人物說(shuō)話或唱歌的視頻需要復(fù)雜的設(shè)備和專(zhuān)業(yè)技術(shù),現(xiàn)在只需要一張照片和想要的音頻內(nèi)容,AI就能自動(dòng)生成逼真的人物動(dòng)畫(huà)視頻。更令人驚喜的是,這個(gè)系統(tǒng)不僅能處理真人照片,還能讓卡通形象、動(dòng)漫角色甚至非人類(lèi)形象都能"開(kāi)口說(shuō)話",做出各種手勢(shì)和表情。
研究團(tuán)隊(duì)首次提出了"全方位條件訓(xùn)練"的創(chuàng)新理念,這就像是教一個(gè)學(xué)生不僅要會(huì)做數(shù)學(xué)題,還要會(huì)寫(xiě)作文、畫(huà)畫(huà)、唱歌一樣——通過(guò)讓AI系統(tǒng)同時(shí)學(xué)習(xí)多種不同類(lèi)型的控制信號(hào)(文字描述、音頻、動(dòng)作姿態(tài)),最終讓它在音頻驅(qū)動(dòng)的人物動(dòng)畫(huà)任務(wù)上表現(xiàn)得更加出色。這種方法突破了以往研究中數(shù)據(jù)稀缺的瓶頸,讓AI能夠從大規(guī)模混合數(shù)據(jù)中學(xué)習(xí),生成更加自然逼真的人物動(dòng)畫(huà)效果。
一、傳統(tǒng)方法的困境與突破口
在理解OmniHuman的創(chuàng)新之前,我們需要先了解傳統(tǒng)方法面臨的挑戰(zhàn)。制作AI驅(qū)動(dòng)的人物動(dòng)畫(huà)就像是在教一個(gè)從未見(jiàn)過(guò)人類(lèi)的機(jī)器人學(xué)會(huì)模仿人的動(dòng)作和表情。以往的研究就像是給這個(gè)機(jī)器人看大量的"教學(xué)視頻",但問(wèn)題在于,合格的"教學(xué)視頻"實(shí)在太少了。
以音頻驅(qū)動(dòng)的人物動(dòng)畫(huà)為例,研究人員需要收集大量的視頻數(shù)據(jù),這些視頻必須滿(mǎn)足嚴(yán)格的條件:人物必須正面面對(duì)鏡頭、背景要相對(duì)靜止、唇形要與音頻完全同步、手部動(dòng)作要自然協(xié)調(diào)。經(jīng)過(guò)層層篩選后,往往只有不到10%的原始數(shù)據(jù)能夠被保留下來(lái)用于訓(xùn)練。這就像是從1000個(gè)蘋(píng)果中只挑選出100個(gè)最完美的來(lái)做果汁——雖然質(zhì)量很高,但數(shù)量嚴(yán)重不足,導(dǎo)致最終的"果汁"(AI模型)缺乏豐富的"營(yíng)養(yǎng)"(多樣化的學(xué)習(xí)經(jīng)驗(yàn))。
更糟糕的是,音頻信號(hào)本身存在天然的局限性。當(dāng)我們聽(tīng)到一段說(shuō)話聲音時(shí),雖然能判斷說(shuō)話者的情緒和內(nèi)容,但很難準(zhǔn)確預(yù)測(cè)這個(gè)人此刻的身體姿態(tài)、手部動(dòng)作或者背景環(huán)境。音頻就像是拼圖游戲中的一小片,雖然重要,但僅憑這一片很難還原完整的畫(huà)面。傳統(tǒng)方法試圖僅僅依靠這"一小片拼圖"來(lái)重建整個(gè)場(chǎng)景,自然會(huì)遇到各種困難。
ByteDance的研究團(tuán)隊(duì)敏銳地意識(shí)到,問(wèn)題的根源不在于技術(shù)本身的復(fù)雜度,而在于訓(xùn)練策略的局限性。他們提出了一個(gè)關(guān)鍵洞察:與其拼命尋找更多符合嚴(yán)格標(biāo)準(zhǔn)的單一類(lèi)型數(shù)據(jù),不如改變游戲規(guī)則,讓AI學(xué)會(huì)使用多種不同類(lèi)型的"線索"來(lái)完成同一個(gè)任務(wù)。
二、全方位條件訓(xùn)練的創(chuàng)新理念
OmniHuman的核心創(chuàng)新可以用一個(gè)簡(jiǎn)單的比喻來(lái)理解:傳統(tǒng)方法就像是培養(yǎng)一個(gè)只會(huì)按照菜譜做菜的廚師,而OmniHuman則是培養(yǎng)一個(gè)能夠根據(jù)現(xiàn)有食材、客人喜好、季節(jié)變化等多種因素靈活調(diào)整的全能廚師。
研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)能夠同時(shí)處理三種不同"調(diào)料"的AI系統(tǒng):文字描述(最溫和的調(diào)料)、音頻信號(hào)(中等濃度的調(diào)料)、以及精確的動(dòng)作姿態(tài)(最濃烈的調(diào)料)。這三種"調(diào)料"按照從弱到強(qiáng)的順序排列,就像烹飪時(shí)需要先放基礎(chǔ)調(diào)料,再逐步添加重口味調(diào)料一樣。
文字描述就像是烹飪時(shí)的基礎(chǔ)鹽分——它提供了最基本的"味道"指導(dǎo)。比如"一個(gè)女孩在唱歌"這樣的文字描述雖然信息有限,但能夠給AI提供基本的場(chǎng)景理解。更重要的是,含有文字描述的訓(xùn)練數(shù)據(jù)數(shù)量龐大,就像鹽是最容易獲得的調(diào)料一樣。
音頻信號(hào)則像是胡椒粉——它能夠提供更具體的"風(fēng)味"指導(dǎo)。音頻不僅包含了說(shuō)話的內(nèi)容,還蘊(yùn)含著情緒、節(jié)奏、語(yǔ)調(diào)等豐富信息,能夠幫助AI生成更加準(zhǔn)確的面部表情和嘴部動(dòng)作。
動(dòng)作姿態(tài)信息就像是昂貴的香料——雖然效果最好,但獲取成本最高。精確的人體姿態(tài)數(shù)據(jù)能夠直接告訴AI每個(gè)關(guān)節(jié)應(yīng)該如何移動(dòng),手應(yīng)該擺在哪里,頭應(yīng)該轉(zhuǎn)向什么角度。但是,這種高質(zhì)量的標(biāo)注數(shù)據(jù)非常稀少且制作成本極高。
三、兩大訓(xùn)練原則的智慧設(shè)計(jì)
為了讓這三種"調(diào)料"能夠和諧共存并發(fā)揮最大效用,研究團(tuán)隊(duì)制定了兩個(gè)看似簡(jiǎn)單卻極其重要的訓(xùn)練原則,這兩個(gè)原則體現(xiàn)了深刻的工程智慧。
第一個(gè)原則可以這樣理解:強(qiáng)效藥物能夠借助溫和藥物的幫助擴(kuò)大治療范圍。在AI訓(xùn)練中,那些對(duì)動(dòng)作控制要求極高的任務(wù)(比如精確控制手部動(dòng)作)可以借助那些要求相對(duì)寬松的任務(wù)(比如文字描述驅(qū)動(dòng)的視頻生成)的訓(xùn)練數(shù)據(jù)。這就像是一個(gè)專(zhuān)攻高難度雜技的演員,通過(guò)練習(xí)基礎(chǔ)的體操動(dòng)作來(lái)增強(qiáng)身體素質(zhì)和協(xié)調(diào)能力。
具體來(lái)說(shuō),那些因?yàn)閯?dòng)作不夠精確、背景不夠穩(wěn)定而被音頻驅(qū)動(dòng)任務(wù)拋棄的視頻數(shù)據(jù),在文字驅(qū)動(dòng)任務(wù)中仍然具有價(jià)值。這些"次品"數(shù)據(jù)雖然不夠完美,但包含著豐富的人體動(dòng)作模式和環(huán)境變化規(guī)律,能夠幫助AI學(xué)會(huì)更加自然和多樣化的動(dòng)作表達(dá)。通過(guò)這種方式,原本只有10%可用的數(shù)據(jù),現(xiàn)在90%都能派上用場(chǎng),大大擴(kuò)展了AI的學(xué)習(xí)素材。
第二個(gè)原則體現(xiàn)了"平衡用藥"的智慧:越強(qiáng)效的藥物,使用頻率越要謹(jǐn)慎控制。在訓(xùn)練過(guò)程中,研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:當(dāng)AI同時(shí)接收到音頻信號(hào)和精確的動(dòng)作姿態(tài)指令時(shí),它會(huì)傾向于完全依賴(lài)更強(qiáng)的姿態(tài)信號(hào),而忽略音頻信息。這就像是一個(gè)學(xué)生如果總是有標(biāo)準(zhǔn)答案可以抄寫(xiě),就不會(huì)認(rèn)真聽(tīng)老師講解解題思路一樣。
為了避免這種"偷懶"行為,研究團(tuán)隊(duì)巧妙地調(diào)整了訓(xùn)練比例:文字驅(qū)動(dòng)任務(wù)占據(jù)最大比重(90%),音頻驅(qū)動(dòng)任務(wù)占中等比重(50%),而精確姿態(tài)驅(qū)動(dòng)任務(wù)只占最小比重(25%)。這種設(shè)計(jì)確保AI必須認(rèn)真學(xué)習(xí)每一種控制信號(hào)的特點(diǎn),不能過(guò)度依賴(lài)任何單一信息源。
四、技術(shù)架構(gòu)的精妙設(shè)計(jì)
OmniHuman的技術(shù)架構(gòu)就像是設(shè)計(jì)一座能夠同時(shí)容納多種不同功能的智能建筑。這座建筑的核心是一個(gè)名為MMDiT(Multi-Modal Diffusion Transformer)的"中央處理器",它就像建筑的主體結(jié)構(gòu),負(fù)責(zé)協(xié)調(diào)各個(gè)不同功能區(qū)域的運(yùn)作。
在這個(gè)智能建筑中,有三個(gè)專(zhuān)門(mén)的"輸入大廳"分別處理不同類(lèi)型的信息。第一個(gè)大廳專(zhuān)門(mén)接待"音頻訪客"——當(dāng)音頻信號(hào)到達(dá)時(shí),系統(tǒng)首先使用一個(gè)叫做wav2vec的"翻譯器"將聲音波形轉(zhuǎn)換成計(jì)算機(jī)能夠理解的數(shù)字特征。這些特征經(jīng)過(guò)壓縮處理后,被安排到與視頻幀率匹配的"座位"上(每秒25幀),確保聲音和畫(huà)面能夠完美同步。
第二個(gè)大廳負(fù)責(zé)接待"動(dòng)作姿態(tài)訪客"。當(dāng)人體姿態(tài)信息(通常以骨架圖的形式)輸入系統(tǒng)時(shí),一個(gè)專(zhuān)門(mén)的"姿態(tài)引導(dǎo)器"會(huì)將這些抽象的骨架信息轉(zhuǎn)換成與像素位置對(duì)應(yīng)的特征信息。這些信息隨后會(huì)與相鄰幀的姿態(tài)信息結(jié)合,形成連續(xù)的動(dòng)作序列指導(dǎo)。
第三個(gè)大廳則是傳統(tǒng)的"文字接待區(qū)",處理文字描述信息。這部分采用了成熟的文本編碼技術(shù),將人類(lèi)語(yǔ)言轉(zhuǎn)換成AI能夠理解的向量表示。
建筑的另一個(gè)重要設(shè)計(jì)是"外觀保持系統(tǒng)",它確保生成的視頻人物能夠保持與輸入照片一致的外貌特征。傳統(tǒng)方法通常需要構(gòu)建一個(gè)完全獨(dú)立的"外觀識(shí)別網(wǎng)絡(luò)",這就像是在建筑外另建一座同等規(guī)模的附屬建筑,既占用空間又增加成本。
OmniHuman采用了更加優(yōu)雅的解決方案:將參考圖像和待生成的視頻幀信息打包在一起,同時(shí)送入主處理器進(jìn)行處理。這就像是讓同一個(gè)大廳同時(shí)接待兩類(lèi)訪客,通過(guò)巧妙的"座位安排"(修改位置編碼)讓系統(tǒng)能夠區(qū)分哪些是參考信息,哪些是待生成的內(nèi)容。參考圖像的時(shí)間位置被設(shè)置為零,而視頻幀則保持正常的時(shí)序位置編碼。這種設(shè)計(jì)不僅節(jié)省了計(jì)算資源,還讓不同類(lèi)型的信息能夠在同一個(gè)處理空間內(nèi)充分交互。
五、分階段訓(xùn)練策略的實(shí)施
OmniHuman的訓(xùn)練過(guò)程就像是培養(yǎng)一個(gè)全能演員的三階段計(jì)劃,每個(gè)階段都有明確的學(xué)習(xí)目標(biāo)和重點(diǎn)。
第一階段可以比作"基礎(chǔ)表演訓(xùn)練"。在這個(gè)階段,AI需要掌握最基本的"表演技能":根據(jù)文字劇本生成對(duì)應(yīng)的視頻內(nèi)容。這就像是讓演員先學(xué)會(huì)根據(jù)劇本理解角色和場(chǎng)景,做出基本的動(dòng)作和表情。這個(gè)階段使用了最大量的訓(xùn)練數(shù)據(jù),因?yàn)槲淖置枋龅囊笙鄬?duì)寬松,大部分視頻素材都能派上用場(chǎng)。AI在這個(gè)階段學(xué)會(huì)了基本的人體動(dòng)作規(guī)律、常見(jiàn)的場(chǎng)景構(gòu)成、以及自然的運(yùn)動(dòng)模式。
第二階段是"聲音表演專(zhuān)訓(xùn)"。在掌握基本表演技能的基礎(chǔ)上,AI開(kāi)始學(xué)習(xí)如何根據(jù)音頻線索來(lái)生成更加精確的面部表情和嘴部動(dòng)作。這就像是讓演員學(xué)會(huì)配音表演——不僅要理解臺(tái)詞內(nèi)容,還要讓嘴形、表情與聲音完美匹配。在這個(gè)階段,系統(tǒng)開(kāi)始同時(shí)處理文字和音頻兩種輸入,學(xué)習(xí)它們之間的關(guān)聯(lián)關(guān)系。
第三階段是"精密動(dòng)作雕琢"。這是最高難度的訓(xùn)練階段,AI需要學(xué)會(huì)處理最精確的動(dòng)作控制要求。系統(tǒng)此時(shí)需要同時(shí)協(xié)調(diào)文字理解、音頻分析和精確姿態(tài)控制三種能力。這就像是讓演員掌握高難度的舞蹈動(dòng)作——既要保持音樂(lè)節(jié)拍,又要確保每個(gè)動(dòng)作都精確到位,還要讓整體表演自然流暢。
在整個(gè)訓(xùn)練過(guò)程中,研究團(tuán)隊(duì)使用了18700小時(shí)的人類(lèi)相關(guān)視頻數(shù)據(jù),這相當(dāng)于一個(gè)人連續(xù)觀看超過(guò)兩年的內(nèi)容。這些數(shù)據(jù)經(jīng)過(guò)美學(xué)質(zhì)量、圖像清晰度、動(dòng)作幅度等多個(gè)維度的篩選。其中只有13%的數(shù)據(jù)能夠滿(mǎn)足音頻同步和姿態(tài)可見(jiàn)性的嚴(yán)格要求,但通過(guò)全方位條件訓(xùn)練策略,剩下的87%數(shù)據(jù)也能在不同的訓(xùn)練階段發(fā)揮重要作用。
訓(xùn)練硬件方面,研究團(tuán)隊(duì)使用了400塊A100 GPU進(jìn)行并行計(jì)算,每個(gè)訓(xùn)練階段持續(xù)約10天時(shí)間。這樣的計(jì)算規(guī)模相當(dāng)于普通家用電腦連續(xù)運(yùn)行幾十萬(wàn)小時(shí)的工作量,體現(xiàn)了大規(guī)模AI訓(xùn)練的資源密集型特點(diǎn)。
六、實(shí)驗(yàn)驗(yàn)證與性能表現(xiàn)
為了驗(yàn)證OmniHuman的實(shí)際效果,研究團(tuán)隊(duì)設(shè)計(jì)了全面的測(cè)試體系,這就像是為一個(gè)全能演員安排各種不同類(lèi)型的"演出考核"。測(cè)試涵蓋了從面部特寫(xiě)到全身動(dòng)作、從真人照片到卡通形象、從說(shuō)話到唱歌的各種應(yīng)用場(chǎng)景。
在面部動(dòng)畫(huà)測(cè)試中,研究團(tuán)隊(duì)使用了兩個(gè)公開(kāi)數(shù)據(jù)集:CelebV-HQ(包含各種復(fù)雜場(chǎng)景的多樣化數(shù)據(jù)集)和RAVDESS(專(zhuān)注于室內(nèi)環(huán)境的語(yǔ)音和歌唱數(shù)據(jù)集)。測(cè)試結(jié)果顯示,OmniHuman在多個(gè)關(guān)鍵指標(biāo)上都達(dá)到了業(yè)界領(lǐng)先水平。
圖像質(zhì)量方面,OmniHuman生成的視頻在IQA(圖像質(zhì)量評(píng)估)指標(biāo)上得分3.875,相比之前最好的方法Loopy的3.780有了明顯提升。更重要的是,在美學(xué)評(píng)估(ASE)指標(biāo)上,OmniHuman達(dá)到了2.656分,這意味著生成的視頻不僅技術(shù)質(zhì)量高,而且在視覺(jué)美感方面也更加出色。
音唇同步性能是音頻驅(qū)動(dòng)人物動(dòng)畫(huà)最關(guān)鍵的指標(biāo)之一。在這方面,OmniHuman取得了5.199的Sync-C得分,顯著超過(guò)了所有對(duì)比方法。這個(gè)分?jǐn)?shù)意味著生成視頻中人物的嘴部動(dòng)作與音頻內(nèi)容的匹配度達(dá)到了極高水平,幾乎可以達(dá)到真實(shí)視頻的同步效果。
在更具挑戰(zhàn)性的全身動(dòng)畫(huà)任務(wù)中,OmniHuman同樣表現(xiàn)出色。與專(zhuān)門(mén)針對(duì)身體動(dòng)畫(huà)設(shè)計(jì)的CyberHost方法相比,OmniHuman在保持同等甚至更好視覺(jué)質(zhì)量的同時(shí),還在手部關(guān)鍵點(diǎn)置信度(HKC)上達(dá)到了0.898的高分,而手部動(dòng)作多樣性(HKV)更是達(dá)到47.561,遠(yuǎn)超其他方法。這表明OmniHuman不僅能生成質(zhì)量?jī)?yōu)秀的手部動(dòng)作,還能提供豐富多樣的手勢(shì)變化。
特別值得關(guān)注的是,研究團(tuán)隊(duì)通過(guò)詳細(xì)的消融實(shí)驗(yàn)驗(yàn)證了兩個(gè)核心訓(xùn)練原則的有效性。實(shí)驗(yàn)結(jié)果顯示,隨著文字條件數(shù)據(jù)比例的增加(從0%到100%),所有關(guān)鍵性能指標(biāo)都呈現(xiàn)穩(wěn)步改善的趨勢(shì)。當(dāng)文字?jǐn)?shù)據(jù)比例達(dá)到100%時(shí),F(xiàn)VD(視頻質(zhì)量指標(biāo))從47.86降低到43.74,Sync-C(音唇同步指標(biāo))從4.299提升到4.987。
在訓(xùn)練順序的對(duì)比實(shí)驗(yàn)中,先引入姿態(tài)條件再加入音頻條件的方法(IPA)導(dǎo)致了全面的性能下降,而先引入音頻條件再加入姿態(tài)條件的方法(IAP)則能夠達(dá)到最佳效果。這證實(shí)了研究團(tuán)隊(duì)提出的"由弱到強(qiáng)"訓(xùn)練原則的正確性。
七、應(yīng)用拓展與創(chuàng)新突破
OmniHuman最令人驚喜的特點(diǎn)在于其強(qiáng)大的泛化能力和多樣化應(yīng)用潛力。這就像是培養(yǎng)出了一個(gè)不僅會(huì)演戲、還會(huì)唱歌、跳舞、甚至能扮演各種角色的全能表演者。
在圖像適應(yīng)性方面,OmniHuman展現(xiàn)了前所未有的靈活性。它不僅能處理標(biāo)準(zhǔn)的人像照片,還能讓各種風(fēng)格的圖像"動(dòng)起來(lái)"。動(dòng)漫角色、卡通形象、甚至經(jīng)過(guò)藝術(shù)處理的人物肖像都能在OmniHuman的驅(qū)動(dòng)下展現(xiàn)生動(dòng)的動(dòng)作和表情。這種能力的實(shí)現(xiàn)得益于大規(guī)?;旌蠑?shù)據(jù)訓(xùn)練,讓AI學(xué)會(huì)了從不同藝術(shù)風(fēng)格中抽取共同的人物動(dòng)作規(guī)律。
在音頻內(nèi)容適應(yīng)性上,OmniHuman支持多種不同類(lèi)型的音頻輸入。無(wú)論是日常對(duì)話、激情演講、輕柔歌唱還是高亢嘹亮的歌聲,系統(tǒng)都能生成相應(yīng)的面部表情和身體動(dòng)作。特別是在處理音樂(lè)內(nèi)容時(shí),OmniHuman能夠捕捉到音樂(lè)的節(jié)拍和情緒變化,生成與之匹配的動(dòng)態(tài)表現(xiàn),這在以往的系統(tǒng)中是很難實(shí)現(xiàn)的。
在人物交互場(chǎng)景中,OmniHuman表現(xiàn)出了超越傳統(tǒng)方法的能力。它能夠生成人物與物品交互的自然動(dòng)作,比如彈奏吉他、抱著寵物、或是拿著麥克風(fēng)唱歌。這些復(fù)雜的交互動(dòng)作需要AI理解物體的物理特性和人體動(dòng)作的協(xié)調(diào)關(guān)系,這正是大規(guī)?;旌蠑?shù)據(jù)訓(xùn)練帶來(lái)的額外收益。
在實(shí)際應(yīng)用場(chǎng)景中,OmniHuman支持多種不同的輸入組合方式。用戶(hù)可以?xún)H提供音頻來(lái)驅(qū)動(dòng)人物說(shuō)話,也可以同時(shí)提供音頻和粗略的動(dòng)作指導(dǎo)來(lái)獲得更精確的控制效果,還可以純粹使用動(dòng)作姿態(tài)信息來(lái)創(chuàng)建無(wú)聲的動(dòng)作視頻。這種靈活性讓OmniHuman能夠適應(yīng)從簡(jiǎn)單的社交媒體內(nèi)容創(chuàng)作到專(zhuān)業(yè)影視制作的各種需求。
長(zhǎng)視頻生成是另一個(gè)重要的應(yīng)用亮點(diǎn)。通過(guò)巧妙的幀間連接策略,OmniHuman能夠生成時(shí)長(zhǎng)超過(guò)單次處理能力的連續(xù)視頻內(nèi)容。系統(tǒng)會(huì)將前一段生成視頻的最后幾幀作為下一段的"起始條件",確保整個(gè)長(zhǎng)視頻在時(shí)間上保持連貫性和身份一致性。這種技術(shù)讓用戶(hù)能夠創(chuàng)建完整的演講視頻、歌曲MV或是其他需要較長(zhǎng)時(shí)間展現(xiàn)的內(nèi)容。
八、技術(shù)限制與未來(lái)展望
盡管OmniHuman在多個(gè)方面實(shí)現(xiàn)了突破,但研究團(tuán)隊(duì)也坦誠(chéng)地指出了當(dāng)前系統(tǒng)的一些限制,這些限制為未來(lái)的改進(jìn)方向提供了清晰的指引。
音頻與動(dòng)作的關(guān)聯(lián)度問(wèn)題是一個(gè)根本性挑戰(zhàn)。人類(lèi)的身體動(dòng)作和音頻內(nèi)容之間的關(guān)聯(lián)本質(zhì)上具有很大的隨機(jī)性和個(gè)人差異性。同樣一句話,不同的人會(huì)配以完全不同的手勢(shì)和身體動(dòng)作,甚至同一個(gè)人在不同情境下也會(huì)有不同的表現(xiàn)。雖然混合條件訓(xùn)練策略在一定程度上緩解了這個(gè)問(wèn)題,但完全消除不協(xié)調(diào)或過(guò)度夸張的動(dòng)作仍然是一個(gè)挑戰(zhàn)。
物體交互的真實(shí)性是另一個(gè)需要持續(xù)改進(jìn)的領(lǐng)域。雖然OmniHuman能夠生成包含物體交互的動(dòng)作,但這些交互有時(shí)會(huì)顯得不夠自然或物理上不合理。比如,生成的人物可能會(huì)以不正確的方式握持物體,或是手部動(dòng)作與物體的物理特性不符。這主要是因?yàn)橛?xùn)練數(shù)據(jù)中包含精確物理交互標(biāo)注的樣本仍然相對(duì)稀少。
輸入圖像分布的敏感性也是一個(gè)實(shí)際應(yīng)用中需要考慮的因素。當(dāng)輸入的人物照片與訓(xùn)練數(shù)據(jù)的風(fēng)格差異較大時(shí),系統(tǒng)生成的結(jié)果可能會(huì)出現(xiàn)不自然的現(xiàn)象。雖然大規(guī)?;旌蠑?shù)據(jù)訓(xùn)練提高了系統(tǒng)的泛化能力,但面對(duì)極端的藝術(shù)風(fēng)格或特殊的拍攝角度,系統(tǒng)仍可能產(chǎn)生意外的結(jié)果。
計(jì)算資源需求是制約技術(shù)普及的另一個(gè)現(xiàn)實(shí)因素。為了保持生成質(zhì)量的穩(wěn)定性,OmniHuman需要使用相對(duì)較高的分類(lèi)器自由引導(dǎo)(CFG)參數(shù),這增加了推理時(shí)的計(jì)算負(fù)擔(dān)。這意味著普通用戶(hù)在個(gè)人設(shè)備上運(yùn)行完整版本的OmniHuman可能會(huì)遇到性能瓶頸。
針對(duì)這些限制,研究團(tuán)隊(duì)提出了未來(lái)的改進(jìn)方向。首先是引入更豐富的運(yùn)動(dòng)條件控制,包括動(dòng)作風(fēng)格、情感強(qiáng)度、個(gè)人習(xí)慣等更細(xì)粒度的控制信號(hào)。這就像是給AI提供更詳細(xì)的"表演指導(dǎo)",讓它能夠根據(jù)具體需求調(diào)整表現(xiàn)風(fēng)格。
其次是加強(qiáng)物理約束的建模。通過(guò)引入物理仿真和約束條件,未來(lái)版本的OmniHuman將能夠生成更加符合物理規(guī)律的人物動(dòng)作和物體交互效果。
最后是模型效率的優(yōu)化。研究團(tuán)隊(duì)計(jì)劃通過(guò)模型壓縮、知識(shí)蒸餾等技術(shù)手段,開(kāi)發(fā)適用于移動(dòng)設(shè)備和邊緣計(jì)算環(huán)境的輕量級(jí)版本,讓更多用戶(hù)能夠便捷地使用這項(xiàng)技術(shù)。
說(shuō)到底,OmniHuman代表了AI人物動(dòng)畫(huà)技術(shù)的一個(gè)重要轉(zhuǎn)折點(diǎn)。通過(guò)巧妙的訓(xùn)練策略設(shè)計(jì)和大規(guī)模數(shù)據(jù)利用,它成功地將靜態(tài)圖像轉(zhuǎn)換為生動(dòng)視頻的技術(shù)推向了新的高度。這項(xiàng)研究不僅在技術(shù)層面實(shí)現(xiàn)了多項(xiàng)突破,更重要的是為整個(gè)領(lǐng)域提供了一種全新的思路:通過(guò)混合多種條件和數(shù)據(jù)類(lèi)型,AI系統(tǒng)能夠在數(shù)據(jù)稀缺的專(zhuān)門(mén)任務(wù)上取得更好的表現(xiàn)。
這種"以多補(bǔ)少、以弱補(bǔ)強(qiáng)"的訓(xùn)練哲學(xué)很可能會(huì)被應(yīng)用到更多的AI研究領(lǐng)域中,成為解決數(shù)據(jù)不足問(wèn)題的通用策略。對(duì)于普通用戶(hù)而言,OmniHuman預(yù)示著一個(gè)人人都能成為視頻創(chuàng)作者的時(shí)代正在到來(lái)——只需要一張照片和一段音頻,就能創(chuàng)造出專(zhuān)業(yè)級(jí)的人物動(dòng)畫(huà)內(nèi)容。無(wú)論是為社交媒體制作個(gè)性化內(nèi)容,還是為商業(yè)用途創(chuàng)建虛擬代言人,這項(xiàng)技術(shù)都將大大降低視頻制作的門(mén)檻,讓創(chuàng)意表達(dá)變得更加自由和便捷。
Q&A
Q1:OmniHuman具體能做什么?只能處理真人照片嗎?
A:OmniHuman可以將任何靜態(tài)人物圖像轉(zhuǎn)換為生動(dòng)的說(shuō)話或唱歌視頻。它不僅能處理真人照片,還支持動(dòng)漫角色、卡通形象、藝術(shù)肖像等各種風(fēng)格的圖像。用戶(hù)只需提供一張圖片和音頻文件,系統(tǒng)就能自動(dòng)生成匹配的面部表情、嘴部動(dòng)作和手勢(shì)。它還支持人物與物體的交互場(chǎng)景,比如彈奏樂(lè)器或抱著寵物等復(fù)雜動(dòng)作。
Q2:OmniHuman的"全方位條件訓(xùn)練"相比傳統(tǒng)方法有什么優(yōu)勢(shì)?
A:傳統(tǒng)方法只使用高質(zhì)量的音頻-視頻配對(duì)數(shù)據(jù)訓(xùn)練,導(dǎo)致可用數(shù)據(jù)不足10%,限制了AI的學(xué)習(xí)能力。OmniHuman采用文字、音頻、動(dòng)作姿態(tài)三種不同強(qiáng)度的條件同時(shí)訓(xùn)練,讓原本被廢棄的90%數(shù)據(jù)也能發(fā)揮作用。這就像讓學(xué)生不僅做難題,還通過(guò)大量基礎(chǔ)練習(xí)打牢基礎(chǔ),最終在專(zhuān)門(mén)任務(wù)上表現(xiàn)更出色。
Q3:普通用戶(hù)現(xiàn)在可以使用OmniHuman技術(shù)嗎?
A:目前OmniHuman還是研究階段的技術(shù),普通用戶(hù)無(wú)法直接使用。研究團(tuán)隊(duì)來(lái)自ByteDance,未來(lái)可能會(huì)將這項(xiàng)技術(shù)集成到抖音、剪映等產(chǎn)品中。用戶(hù)可以關(guān)注項(xiàng)目網(wǎng)站https://omnihuman-lab.github.io/獲取最新進(jìn)展。隨著技術(shù)成熟,預(yù)計(jì)會(huì)有更多面向消費(fèi)者的應(yīng)用產(chǎn)品推出。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語(yǔ)言模型的敘事推理能力與音頻生成技術(shù),通過(guò)交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開(kāi)辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過(guò)讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問(wèn)題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語(yǔ)言模型人性化對(duì)話問(wèn)題。該研究創(chuàng)建了包含20萬(wàn)高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過(guò)創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開(kāi)發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過(guò)學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來(lái)了效率和精度的雙重突破。