當(dāng)你看到好萊塢大片中栩栩如生的人物說話時,是否想過有一天你也能僅僅用一張照片和一段音頻就制作出同樣逼真的說話視頻?ByteDance智能創(chuàng)作實驗室與清華大學(xué)的研究團隊在2025年9月發(fā)表了一篇突破性研究論文,題為"HuMo: Human-Centric Video Generation via Collaborative Multi-Modal Conditioning",這項研究讓這個夢想變成現(xiàn)實。有興趣深入了解的讀者可以通過項目頁面https://phantom-video.github.io/HuMo獲取完整論文、演示、代碼和模型。
這項研究就像是給普通人配備了一套專業(yè)的電影制作工具包。你只需要提供幾樣簡單的"原料":一段文字描述你想要的場景、一張或幾張參考照片展示你想要的人物或物體、再加上一段音頻錄制你想讓人物說的話,HuMo系統(tǒng)就能自動"烹飪"出一段高質(zhì)量的說話視頻。這就好比有了一個神奇的廚師,你只需要告訴他"我想要一道意大利面,用這些食材,做成這個樣子",他就能為你制作出完美的料理。
過去制作這樣的視頻需要復(fù)雜的拍攝設(shè)備、專業(yè)演員、昂貴的后期制作,現(xiàn)在普通人在家里就能完成。研究團隊解決了一個困擾業(yè)界已久的難題:如何讓計算機同時理解和協(xié)調(diào)文字描述、圖片信息和音頻內(nèi)容,并將它們完美融合成一個連貫的視頻。這不僅僅是技術(shù)突破,更是對內(nèi)容創(chuàng)作方式的根本性變革。
一、破解視頻制作的三重難題
要理解這項研究的意義,我們需要先了解傳統(tǒng)視頻制作面臨的挑戰(zhàn)。就像一個廚師要同時處理不同的食材、調(diào)料和烹飪方法一樣,視頻生成系統(tǒng)需要同時處理文字、圖片和音頻這三種完全不同的信息類型。
傳統(tǒng)的做法就像是分別準(zhǔn)備每道菜,然后簡單地擺在一個盤子里?,F(xiàn)有的方法通常采用兩步驟:首先根據(jù)文字描述生成一張包含所有元素的起始圖片,然后基于這張圖片和音頻制作說話動畫。這種方法的問題在于,一旦起始圖片確定了,你就很難再改變其中的內(nèi)容。比如說,如果起始圖片中的人穿著紅色衣服,但你后來想改成藍(lán)色,系統(tǒng)就無法靈活調(diào)整了。
另一種方法是使用參考圖片來保持人物的一致性,但這些方法通常無法處理音頻,就像一個只會做意大利面的廚師突然被要求做中國菜一樣力不從心。最近一些研究嘗試將這兩種方法結(jié)合起來,但結(jié)果往往是顧此失彼:強調(diào)了圖片一致性就丟失了音頻同步,注重了音頻同步又破壞了文字描述的準(zhǔn)確性。
研究團隊發(fā)現(xiàn)問題的根源在于兩個方面。第一是"食材"不夠好:訓(xùn)練這樣的系統(tǒng)需要大量同時包含文字、圖片和音頻的配套數(shù)據(jù),但這樣的高質(zhì)量數(shù)據(jù)集非常稀缺。第二是"烹飪技巧"不夠精妙:如何讓系統(tǒng)學(xué)會同時兼顧三種不同信息的要求,而不是讓它們互相沖突。
二、構(gòu)建完美的"食材庫"
為了解決第一個問題,研究團隊就像建立一個豐富的食材倉庫一樣,構(gòu)建了一個高質(zhì)量的多模態(tài)數(shù)據(jù)處理流水線。他們的做法非常巧妙,分為兩個階段進行。
第一階段從大規(guī)模的視頻數(shù)據(jù)開始。研究團隊利用強大的視覺語言模型為每個視頻生成詳細(xì)的文字描述,確保每個視頻樣本都有對應(yīng)的文字說明。然后,為了避免簡單的"復(fù)制粘貼"問題,他們采用了一種創(chuàng)新策略:不是直接從視頻中提取圖片作為參考,而是從十億級別的圖片庫中尋找具有相同語義但不同視覺屬性的圖片。
這個過程就像為一個角色尋找替身演員。比如視頻中有一個穿紅衣服的男性,系統(tǒng)會去圖片庫中尋找同一個人但穿著不同顏色衣服、不同發(fā)型、在不同場景中的照片。這樣做的好處是讓系統(tǒng)學(xué)會真正理解人物的本質(zhì)特征,而不是簡單記住某個特定的外觀。對于物體也是如此,比如視頻中有一輛紅色汽車,系統(tǒng)會尋找同類型但不同顏色、不同角度的汽車圖片作為參考。
第二階段專門處理音頻數(shù)據(jù)。研究團隊通過語音增強和語音-嘴唇對齊估計技術(shù),篩選出那些音頻與嘴唇動作高度同步的視頻片段。這個過程就像挑選最新鮮的食材,只有那些質(zhì)量最高、同步性最好的音視頻對才會被選入最終的訓(xùn)練數(shù)據(jù)集。
通過這個精心設(shè)計的流水線,研究團隊最終構(gòu)建了一個包含約100萬個視頻-圖片對和約5萬個高質(zhì)量音視頻同步對的數(shù)據(jù)集。這個數(shù)據(jù)集就像一個五星級餐廳的食材庫,為后續(xù)的模型訓(xùn)練提供了堅實的基礎(chǔ)。
三、漸進式學(xué)習(xí)的"烹飪秘籍"
有了優(yōu)質(zhì)的食材,接下來就是掌握精湛的烹飪技藝。研究團隊提出了一種漸進式多模態(tài)訓(xùn)練方法,就像學(xué)習(xí)烹飪一樣,先掌握基礎(chǔ)技能,再逐步學(xué)會更復(fù)雜的料理。
整個訓(xùn)練過程分為兩個階段,每個階段都有特定的學(xué)習(xí)目標(biāo)和策略。第一階段專注于"主題保持任務(wù)",讓系統(tǒng)學(xué)會如何在遵循文字描述的同時保持參考圖片中人物或物體的特征。研究團隊采用了一種"最小侵入式圖片注入策略",這就像在不改變菜譜主體結(jié)構(gòu)的前提下添加新的調(diào)料。
具體來說,他們將參考圖片的信息與視頻的噪聲表示沿時間維度連接起來,但巧妙地將參考圖片放在序列的末尾,而不是開頭。這個設(shè)計非常重要,因為如果放在開頭,系統(tǒng)可能會誤以為這是視頻的第一幀,從而只是簡單地延續(xù)這張圖片,而不是真正理解和提取其中的特征信息。通過將參考圖片放在末尾,系統(tǒng)被迫通過自注意力機制主動提取和傳播身份信息到所有視頻幀中。
為了保持原始模型的強大文本理解和視覺生成能力,研究團隊只更新自注意力層的參數(shù),而保持文本-視覺交叉注意力層不變。這就像一個有經(jīng)驗的廚師在學(xué)習(xí)新菜譜時,保留自己已有的基礎(chǔ)技能,只學(xué)習(xí)新的特殊技巧。
第二階段引入"音視頻同步任務(wù)",讓系統(tǒng)學(xué)會處理音頻信息并生成與音頻同步的人物動作。研究團隊在每個模型塊中插入音頻交叉注意力層,使用Whisper模型提取的音頻特征來實現(xiàn)跨語言和跨說話者的泛化能力。
音頻處理的一個關(guān)鍵創(chuàng)新是"焦點預(yù)測策略"。傳統(tǒng)方法通常直接指定音頻應(yīng)該影響的區(qū)域(比如臉部),但這在實際應(yīng)用中很困難,因為系統(tǒng)事先不知道臉部會出現(xiàn)在視頻的哪個位置。研究團隊的解決方案是讓系統(tǒng)自己學(xué)會預(yù)測哪些區(qū)域應(yīng)該與音頻產(chǎn)生關(guān)聯(lián)。
他們引入了一個面部位置預(yù)測器,訓(xùn)練系統(tǒng)預(yù)測視頻中人臉的潛在分布。這個預(yù)測器只在模型的最后四個塊中工作,因為早期的塊還沒有形成穩(wěn)定的空間表示。通過二元交叉熵?fù)p失和尺寸感知權(quán)重,系統(tǒng)逐漸學(xué)會將注意力聚焦在與音頻最相關(guān)的面部區(qū)域。
為了確保第一階段學(xué)到的主題保持能力不會在第二階段被削弱,研究團隊采用了漸進式任務(wù)權(quán)重調(diào)整策略。訓(xùn)練初期,80%的時間專注于主題保持任務(wù)(此時音頻輸入為空),只有20%的時間處理音視頻同步任務(wù)。隨著訓(xùn)練進行,逐漸將音視頻同步任務(wù)的比例提高到50%。這種漸進式策略確保了系統(tǒng)能夠平穩(wěn)地從雙模態(tài)控制過渡到三模態(tài)控制,就像學(xué)習(xí)駕駛時先在空曠道路練習(xí),再逐漸適應(yīng)復(fù)雜路況。
四、靈活精準(zhǔn)的"調(diào)味"技術(shù)
有了扎實的基礎(chǔ)能力,如何在實際使用時實現(xiàn)精細(xì)化控制就成了關(guān)鍵。研究團隊設(shè)計了一套時間自適應(yīng)的分類器無關(guān)引導(dǎo)策略,就像一個經(jīng)驗豐富的調(diào)味師,知道在烹飪的不同階段如何調(diào)整各種調(diào)料的比例。
在視頻生成過程中,系統(tǒng)需要逐步從噪聲中構(gòu)建出最終的視頻。研究團隊觀察到,這個過程中不同模態(tài)的影響力是動態(tài)變化的。在早期階段,文字描述起主導(dǎo)作用,決定整體的語義結(jié)構(gòu)和空間布局,比如場景中有哪些人物、他們在做什么、背景是什么樣的。而在后期階段,圖片和音頻的作用變得更加重要,負(fù)責(zé)精確的身份相似性和音視頻同步細(xì)節(jié)。
基于這個觀察,研究團隊提出了動態(tài)調(diào)整策略。在生成過程的前期(時間步從1.0到0.98),系統(tǒng)采用文本和圖片主導(dǎo)的配置,確保生成的內(nèi)容符合文字描述并保持人物身份的一致性。在后期(時間步從0.98到0),系統(tǒng)切換到強調(diào)音頻和圖片控制的配置,重點優(yōu)化音視頻同步效果和身份細(xì)節(jié)。
這種策略的巧妙之處在于它考慮了人類感知的特點。人們在觀看視頻時,首先關(guān)注的是整體內(nèi)容是否合理,然后才會注意到細(xì)節(jié)是否完美。通過模擬這種感知過程,系統(tǒng)能夠生成既符合整體要求又在細(xì)節(jié)上精益求精的視頻。
為了實現(xiàn)靈活的多模態(tài)控制,研究團隊還設(shè)計了獨立的引導(dǎo)權(quán)重系統(tǒng)。用戶可以分別調(diào)整文字、圖片和音頻三種模態(tài)的影響強度,甚至可以完全省略某些模態(tài)。比如,如果你只有文字描述和音頻,沒有參考圖片,系統(tǒng)仍然可以生成合理的說話視頻。如果你有文字和圖片但沒有音頻,系統(tǒng)可以生成靜態(tài)但符合描述的視頻。這種靈活性使得HuMo能夠適應(yīng)各種不同的應(yīng)用場景和用戶需求。
五、令人驚喜的實驗成果
為了驗證HuMo系統(tǒng)的效果,研究團隊進行了全面的對比實驗,結(jié)果令人印象深刻。在主題保持任務(wù)上,HuMo與多個最先進的方法進行了比較,包括商業(yè)化的Kling 1.6、開源的MAGREF、HunyuanCustom和Phantom等系統(tǒng)。
實驗結(jié)果顯示,HuMo在幾乎所有評估指標(biāo)上都表現(xiàn)出色。特別值得注意的是,HuMo的大版本(17B參數(shù))在文本遵循能力上得分達(dá)到3.939,顯著超過其他方法。在身份一致性方面,HuMo也展現(xiàn)出強大的能力,ID-Cur得分為0.731,ID-Glink得分為0.757,都明顯優(yōu)于競爭對手。
從具體的視覺效果來看,HuMo生成的視頻在多個方面表現(xiàn)優(yōu)異。比如在一個測試案例中,要求生成"一個穿黑西裝白襯衫的英俊男士優(yōu)雅地戴上深棕色皮手套"的視頻,其他方法要么無法準(zhǔn)確生成手套,要么在人物外觀上出現(xiàn)明顯缺陷,而HuMo不僅準(zhǔn)確生成了所有描述的元素,還保持了人物的自然動作和高質(zhì)量的視覺效果。
在多人場景的測試中,HuMo的優(yōu)勢更加明顯。當(dāng)要求生成"四個不同的人走進古代中國佛寺"的場景時,其他方法經(jīng)常出現(xiàn)人物丟失或身份混淆的問題,而HuMo能夠準(zhǔn)確維持四個不同人物的身份特征,并生成符合文字描述的動作和場景。
在音視頻同步任務(wù)上,研究團隊使用MoCha基準(zhǔn)進行了評估。結(jié)果顯示,HuMo在保持高視覺質(zhì)量的同時,在音視頻同步方面也表現(xiàn)出色。雖然在某些同步指標(biāo)上略遜于專門的商業(yè)化方法OmniHuman-1,但考慮到HuMo同時支持文字、圖片和音頻的多模態(tài)控制,這樣的表現(xiàn)已經(jīng)非常出色。
特別令人驚喜的是HuMo的泛化能力。系統(tǒng)不僅能夠處理真實人物,還能很好地處理風(fēng)格化的人物藝術(shù)作品和動畫角色。在一個測試中,HuMo成功為一個卡通風(fēng)格的小女巫角色生成了流暢的飛行動畫,這表明系統(tǒng)已經(jīng)學(xué)會了更加抽象和通用的視覺理解能力。
六、深入剖析技術(shù)細(xì)節(jié)的價值
為了驗證各個技術(shù)組件的重要性,研究團隊進行了詳細(xì)的消融實驗,就像拆解一臺精密機器來理解每個部件的作用。這些實驗的結(jié)果進一步證明了設(shè)計決策的正確性。
當(dāng)研究團隊嘗試更新整個模型的所有參數(shù)(全量微調(diào))時,發(fā)現(xiàn)這種做法實際上降低了系統(tǒng)的性能。美學(xué)質(zhì)量得分從0.589降到0.529,文本遵循能力也明顯下降。這就像一個熟練的廚師突然忘記了所有基礎(chǔ)技能,雖然學(xué)會了新菜譜,但連基本的刀工都做不好了。這個結(jié)果驗證了"最小侵入式"策略的重要性:在學(xué)習(xí)新能力時保持原有優(yōu)勢同樣關(guān)鍵。
去除漸進式訓(xùn)練策略的實驗同樣顯示了顯著的性能下降。當(dāng)系統(tǒng)試圖同時學(xué)習(xí)主題保持和音視頻同步兩個任務(wù)時,在身份一致性方面的表現(xiàn)明顯變差,得分從0.747降至0.724。這就像試圖同時學(xué)習(xí)兩門不同的語言,結(jié)果是兩門都學(xué)不好。漸進式學(xué)習(xí)讓系統(tǒng)能夠在鞏固已有能力的基礎(chǔ)上穩(wěn)步發(fā)展新技能。
焦點預(yù)測策略的效果也得到了實驗驗證。移除這個組件后,音視頻同步質(zhì)量明顯下降,Sync-C得分從6.252降至5.946。更重要的是,這個策略還意外地提升了身份一致性,表明它不僅幫助系統(tǒng)關(guān)注正確的面部區(qū)域,還間接改善了面部特征的保持效果。
時間自適應(yīng)的分類器無關(guān)引導(dǎo)策略的效果在定性實驗中表現(xiàn)得非常明顯。使用靜態(tài)權(quán)重配置時,系統(tǒng)往往在文本遵循和身份保持之間難以平衡,要么生成的內(nèi)容不符合文字描述,要么人物特征發(fā)生明顯變化。而動態(tài)調(diào)整策略成功地在兩者之間找到了最佳平衡點。
七、實際應(yīng)用的廣闊前景
HuMo系統(tǒng)的能力遠(yuǎn)不止于實驗室中的技術(shù)演示,它在實際應(yīng)用中展現(xiàn)出了巨大的潛力。研究團隊進行了一項特別有趣的實驗:重新創(chuàng)作著名電視劇《權(quán)力的游戲》的經(jīng)典場景,他們將這個項目命名為"無面權(quán)游"。
在這個實驗中,研究團隊從原始視頻中提取了文字描述和音頻,然后使用不同演員的肖像照片作為參考圖片,讓HuMo生成新的視頻版本。結(jié)果令人驚嘆:生成的視頻不僅保持了原始場景的布局和視覺元素,還成功地將新演員的面部特征融入到目標(biāo)語義環(huán)境中。這意味著僅憑一張簡單的頭像照片,就能讓任何人"出演"經(jīng)典影視作品。
這種能力開啟了內(nèi)容創(chuàng)作的全新可能性。獨立制片人可以用極低的成本制作高質(zhì)量的短片,只需要準(zhǔn)備劇本、找?guī)讖埡线m的照片、錄制對話音頻,HuMo就能幫助他們實現(xiàn)電影級別的視覺效果。教育工作者可以讓歷史人物"復(fù)活",用他們的聲音和形象講述歷史故事。企業(yè)可以快速制作產(chǎn)品宣傳視頻,而無需聘請專業(yè)演員和攝制團隊。
更有趣的是,HuMo支持同一個人物在不同文字描述下展現(xiàn)不同的外觀和風(fēng)格。比如,使用同一張參考照片,可以生成這個人穿不同服裝、做不同動作、處在不同環(huán)境中的多個視頻。這種"一人千面"的能力讓內(nèi)容創(chuàng)作變得前所未有的靈活。
系統(tǒng)的多模態(tài)靈活性也帶來了意想不到的應(yīng)用場景。當(dāng)只提供文字和音頻時,HuMo可以生成抽象的說話頭像,適用于播客、有聲讀物或語音助手的視覺化。當(dāng)只提供文字和圖片時,可以生成靜態(tài)但符合描述的場景圖片,適用于概念藝術(shù)或故事板制作。
八、技術(shù)突破的深層意義
HuMo的成功不僅僅是一個技術(shù)產(chǎn)品的突破,更代表了人工智能發(fā)展的一個重要里程碑。它展示了如何讓機器真正理解和協(xié)調(diào)多種不同類型的信息,這種能力在人工智能領(lǐng)域被稱為"多模態(tài)理解"。
過去,大多數(shù)AI系統(tǒng)就像專業(yè)化的工匠,每個只擅長處理一種類型的信息。文本生成模型專精于語言,圖像生成模型專長于視覺,音頻處理模型專注于聲音。而HuMo的突破在于它學(xué)會了像人類一樣,同時理解和整合多種感官信息,并在它們之間建立有意義的聯(lián)系。
這種多模態(tài)協(xié)調(diào)能力的實現(xiàn)需要解決幾個根本性挑戰(zhàn)。首先是表示學(xué)習(xí)問題:如何將文字、圖片和音頻這些本質(zhì)完全不同的信息轉(zhuǎn)換成機器能夠統(tǒng)一處理的形式。其次是對齊問題:如何確保不同模態(tài)的信息指向同一個語義概念。最后是協(xié)調(diào)問題:當(dāng)不同模態(tài)的信息發(fā)生沖突時,如何做出合理的平衡和選擇。
HuMo在這些方面的創(chuàng)新為未來的AI系統(tǒng)發(fā)展提供了重要啟示。它證明了通過精心設(shè)計的數(shù)據(jù)處理流程和訓(xùn)練策略,可以讓AI系統(tǒng)獲得類似人類的多感官協(xié)調(diào)能力。這種能力不僅適用于視頻生成,還可能推廣到機器人控制、虛擬現(xiàn)實、人機交互等眾多領(lǐng)域。
從技術(shù)架構(gòu)的角度看,HuMo的成功也驗證了漸進式學(xué)習(xí)和最小侵入式改進的有效性。這種策略避免了從零開始訓(xùn)練大型模型的巨大成本,同時保持了基礎(chǔ)模型的原有優(yōu)勢。這為如何在現(xiàn)有強大模型基礎(chǔ)上開發(fā)新功能提供了寶貴經(jīng)驗。
九、面向未來的思考與展望
HuMo的出現(xiàn)標(biāo)志著人工智能視頻生成技術(shù)進入了一個新的發(fā)展階段,但這僅僅是開始。當(dāng)我們展望未來時,可以看到這項技術(shù)還有巨大的發(fā)展?jié)摿透倪M空間。
從技術(shù)發(fā)展的角度來看,當(dāng)前的HuMo系統(tǒng)主要專注于人物為中心的視頻生成,未來可能會擴展到更廣泛的場景和對象類型。研究團隊已經(jīng)展示了系統(tǒng)在處理動物、物品和風(fēng)格化角色方面的能力,但要達(dá)到完全通用的視頻生成還需要更多的技術(shù)突破。
模型的規(guī)模和效率也是重要的發(fā)展方向。雖然17B參數(shù)的版本表現(xiàn)出色,但如何在保持高質(zhì)量的同時降低計算成本、提高生成速度,將直接影響技術(shù)的普及應(yīng)用。隨著硬件技術(shù)的進步和算法優(yōu)化,我們有理由期待更加高效的版本。
數(shù)據(jù)質(zhì)量和多樣性的持續(xù)改進也至關(guān)重要。當(dāng)前的訓(xùn)練數(shù)據(jù)雖然已經(jīng)相當(dāng)豐富,但要支持更多語言、更多文化背景、更多視覺風(fēng)格的內(nèi)容生成,還需要不斷擴大和完善數(shù)據(jù)集。特別是在處理不同語言的音頻和文化特定的視覺元素方面,還有很大的提升空間。
從應(yīng)用層面來看,HuMo類似的技術(shù)可能會深刻改變多個行業(yè)。在娛樂產(chǎn)業(yè)中,它可能讓獨立創(chuàng)作者獲得與大制片廠相媲美的制作能力。在教育領(lǐng)域,可能實現(xiàn)真正個性化的教學(xué)內(nèi)容。在企業(yè)培訓(xùn)中,可能讓復(fù)雜概念的解釋變得生動直觀。在社交媒體中,可能開啟全新的內(nèi)容表達(dá)形式。
然而,技術(shù)的發(fā)展也帶來了需要認(rèn)真考慮的倫理問題。研究團隊在論文中明確提到了這些擔(dān)憂:強大的人物視頻生成能力可能被濫用于制作深度偽造內(nèi)容或未經(jīng)授權(quán)的人物形象使用。確保知情同意、保護個人肖像權(quán)、防止技術(shù)被惡意使用,這些都是技術(shù)推廣過程中必須解決的重要問題。
這就需要在技術(shù)發(fā)展的同時建立相應(yīng)的倫理框架和監(jiān)管機制。開發(fā)者需要承擔(dān)起責(zé)任,在產(chǎn)品設(shè)計中內(nèi)置防濫用機制。使用者需要遵守道德規(guī)范,確保技術(shù)被用于正面目的。社會需要建立適當(dāng)?shù)姆煞ㄒ?guī),平衡技術(shù)創(chuàng)新與社會安全的關(guān)系。
說到底,HuMo代表的不僅僅是一項技術(shù)突破,更是人機協(xié)作創(chuàng)作新時代的開端。它讓專業(yè)級的視頻制作能力走向普通大眾,讓創(chuàng)意表達(dá)不再受限于技術(shù)門檻和資源限制。每個有想法的人都可能成為內(nèi)容創(chuàng)作者,每個有故事的人都可能成為導(dǎo)演。這種民主化的創(chuàng)作工具可能會釋放出前所未有的創(chuàng)造力和想象力。
當(dāng)然,就像任何強大的工具一樣,關(guān)鍵在于如何明智地使用它。HuMo提供了技術(shù)可能性,但如何將這種可能性轉(zhuǎn)化為有價值的內(nèi)容創(chuàng)作,如何在享受技術(shù)便利的同時維護道德底線,這些都需要我們共同探索和實踐。
ByteDance智能創(chuàng)作實驗室和清華大學(xué)的這項研究為我們打開了一扇通往未來的大門。在這個未來里,技術(shù)不是替代人類創(chuàng)造力,而是增強和釋放人類的創(chuàng)造潛能。對于每個關(guān)注技術(shù)發(fā)展、熱愛內(nèi)容創(chuàng)作或者只是對未來充滿好奇的人來說,HuMo都值得我們認(rèn)真關(guān)注和深入了解。有興趣的讀者可以通過項目頁面https://phantom-video.github.io/HuMo體驗這項技術(shù)的魅力,或者查閱完整的研究論文獲取更多技術(shù)細(xì)節(jié)。
Q&A
Q1:HuMo系統(tǒng)需要哪些輸入材料來生成說話視頻?
A:HuMo需要三種基本輸入材料:文字描述(說明想要的場景和動作)、參考圖片(展示想要的人物或物體外觀)、音頻文件(包含想讓人物說的話)。系統(tǒng)支持靈活組合,比如只用文字和圖片生成靜態(tài)視頻,或只用文字和音頻生成抽象人物視頻。
Q2:HuMo生成的視頻質(zhì)量如何,能達(dá)到專業(yè)制作水平嗎?
A:根據(jù)實驗結(jié)果,HuMo在多項評測中超越了現(xiàn)有的專業(yè)系統(tǒng),包括商業(yè)化的Kling 1.6等。它能生成高質(zhì)量的說話視頻,在文本遵循、身份保持和音視頻同步等方面都表現(xiàn)出色,基本達(dá)到了電影級別的視覺效果,特別是17B參數(shù)版本的表現(xiàn)尤其突出。
Q3:普通用戶如何使用HuMo技術(shù),有什么限制嗎?
A:目前HuMo主要作為研究項目發(fā)布,普通用戶可以通過項目頁面https://phantom-video.github.io/HuMo訪問演示、代碼和模型。由于涉及強大的人物視頻生成能力,使用時需要遵守倫理規(guī)范,確保獲得相關(guān)人物的知情同意,避免制作深度偽造內(nèi)容或侵犯他人肖像權(quán)。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機制和漸進式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學(xué)習(xí)外觀和運動信息,顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報,準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。