這項(xiàng)由阿里巴巴集團(tuán)高德地圖團(tuán)隊(duì)與北京郵電大學(xué)聯(lián)合完成的突破性研究發(fā)表于2025年4月,論文名為《FantasyTalking: Realistic Talking Portrait Generation via Coherent Motion Synthesis》。有興趣深入了解的讀者可以通過arXiv:2504.04842v1訪問完整論文。該研究首次實(shí)現(xiàn)了僅憑一張靜態(tài)照片就能生成栩栩如生的說話視頻,不僅嘴唇動(dòng)作完美同步,連表情、肢體動(dòng)作甚至背景都能自然變化。
說起AI生成視頻,你肯定見過那些機(jī)械僵硬的"數(shù)字人"——嘴巴一張一合像木偶戲,表情呆滯得像面具,背景靜得像畫框?,F(xiàn)在,阿里巴巴的研究團(tuán)隊(duì)徹底顛覆了這種狀況。他們開發(fā)的FantasyTalking系統(tǒng)就像一位神奇的魔法師,能把一張普通照片變成一個(gè)會(huì)說話、有表情、能做動(dòng)作的"真人"。
這個(gè)突破有多厲害?打個(gè)比方,以前的AI就像是只會(huì)動(dòng)嘴巴的提線木偶,現(xiàn)在的FantasyTalking更像是一個(gè)完整的數(shù)字演員。當(dāng)你給它播放一段音頻時(shí),它不僅能讓照片中的人物嘴唇完美同步,還能根據(jù)說話內(nèi)容自動(dòng)調(diào)整面部表情——說到激動(dòng)處眉毛上揚(yáng),談?wù)搰?yán)肅話題時(shí)神情凝重,甚至連肩膀的微妙動(dòng)作和背景的自然變化都處理得恰到好處。
更令人驚喜的是,這套系統(tǒng)還配備了"情緒調(diào)節(jié)器"。就像調(diào)整音響的音量旋鈕一樣,用戶可以控制生成視頻中人物的表情強(qiáng)度和動(dòng)作幅度。想要一個(gè)活潑外向的說話風(fēng)格?把"動(dòng)作強(qiáng)度"調(diào)高。希望表現(xiàn)更含蓄內(nèi)斂的氣質(zhì)?那就調(diào)成溫和模式。這種精細(xì)控制讓每個(gè)數(shù)字形象都能呈現(xiàn)獨(dú)特的個(gè)性特征。
### 一、傳統(tǒng)方法的困境:為什么舊技術(shù)總是差點(diǎn)意思
想象你要制作一個(gè)會(huì)說話的數(shù)字人,傳統(tǒng)方法就像是在拼裝一個(gè)復(fù)雜的機(jī)械裝置。工程師們通常會(huì)先構(gòu)建一個(gè)"三維臉部模型"——這有點(diǎn)像給人臉做CT掃描后重建的立體結(jié)構(gòu)。然后根據(jù)音頻信號(hào)控制這個(gè)模型的各個(gè)部位,讓嘴巴、臉頰、下巴按照特定規(guī)則運(yùn)動(dòng)。
這種方法的問題就像用積木搭房子——雖然能搭出基本形狀,但總是缺乏真實(shí)建筑的細(xì)膩質(zhì)感。首先,人類的面部表情極其復(fù)雜,包含了數(shù)百塊肌肉的協(xié)調(diào)運(yùn)動(dòng),而傳統(tǒng)的三維模型只能捕捉到其中很小一部分。其次,真實(shí)的說話過程不僅僅是嘴巴在動(dòng),眼神、眉毛、頭部姿態(tài)甚至肩膀都會(huì)有微妙的配合,但舊系統(tǒng)往往顧此失彼。
更要命的是,傳統(tǒng)方法制作出的視頻背景通常是完全靜止的,就像把人物貼在一張靜態(tài)畫報(bào)上。現(xiàn)實(shí)中,當(dāng)一個(gè)人說話時(shí),即使站在原地,周圍環(huán)境也會(huì)因?yàn)楣饩€變化、鏡頭微動(dòng)等因素產(chǎn)生自然的變化。這種細(xì)節(jié)的缺失讓整個(gè)視頻顯得極不自然。
近幾年,一些研究團(tuán)隊(duì)開始嘗試用深度學(xué)習(xí)技術(shù)來解決這個(gè)問題。這就像從手工拼裝轉(zhuǎn)向工廠流水線生產(chǎn)——效率提高了,但質(zhì)量仍然參差不齊。大多數(shù)現(xiàn)有方法專注于解決"音畫同步"這一個(gè)核心問題,卻忽略了表情的豐富性和動(dòng)作的協(xié)調(diào)性。結(jié)果就是生成的視頻雖然嘴型對(duì)得上,但整體效果仍然像是"會(huì)說話的照片"而非"真實(shí)的人"。
### 二、雙階段訓(xùn)練策略:從整體到細(xì)節(jié)的完美協(xié)調(diào)
阿里巴巴團(tuán)隊(duì)提出的解決方案可以比作培養(yǎng)一名優(yōu)秀演員的過程。他們沒有直接讓AI學(xué)習(xí)如何精確控制嘴唇動(dòng)作,而是采用了"先學(xué)表演,再練臺(tái)詞"的雙階段策略。
第一階段叫做"片段級(jí)訓(xùn)練",就像讓演員先學(xué)會(huì)整體的舞臺(tái)表現(xiàn)。在這個(gè)階段,系統(tǒng)觀看大量的真實(shí)說話視頻,學(xué)習(xí)音頻與整個(gè)畫面之間的關(guān)聯(lián)關(guān)系。這不僅包括嘴巴動(dòng)作,還包括面部表情的變化、頭部的微妙擺動(dòng)、肩膀的自然起伏,甚至背景中的細(xì)微變動(dòng)。
這種訓(xùn)練方式的巧妙之處在于,它讓AI理解了說話是一個(gè)全身性的活動(dòng)。當(dāng)一個(gè)人激動(dòng)地講述某件事時(shí),不僅嘴巴在動(dòng),眼神會(huì)更加明亮,眉毛可能上揚(yáng),身體也會(huì)不自覺地前傾。通過學(xué)習(xí)這些整體模式,AI獲得了更加自然的"表演直覺"。
然而,第一階段的訓(xùn)練雖然讓整體效果更自然,但在嘴唇同步的精確度上還有欠缺。這就像一個(gè)演員的整體表演很有感染力,但臺(tái)詞偶爾會(huì)對(duì)不上嘴型。因此,研究團(tuán)隊(duì)設(shè)計(jì)了第二階段的"幀級(jí)訓(xùn)練"。
第二階段就像給演員進(jìn)行專門的發(fā)音訓(xùn)練。系統(tǒng)將音頻和視頻精確地按幀對(duì)應(yīng),確保每一個(gè)音素都能找到對(duì)應(yīng)的嘴唇形狀。為了讓AI更專注于嘴部區(qū)域,研究人員還開發(fā)了一種"嘴唇追蹤遮罩"技術(shù)。這個(gè)遮罩就像給鏡頭加了一個(gè)特殊濾鏡,讓系統(tǒng)在訓(xùn)練時(shí)重點(diǎn)關(guān)注嘴唇區(qū)域的變化,從而實(shí)現(xiàn)更精確的音畫同步。
有趣的是,為了防止過度關(guān)注嘴部而忽略其他表情的自然性,研究團(tuán)隊(duì)還設(shè)置了一個(gè)"隨機(jī)開關(guān)"。在訓(xùn)練過程中,系統(tǒng)有一定概率會(huì)關(guān)閉嘴唇追蹤功能,讓AI在精確同步和自然表現(xiàn)之間找到最佳平衡點(diǎn)。這種設(shè)計(jì)確保了最終生成的視頻既有完美的音畫同步,又保持了豐富的表情變化。
### 三、身份保持技術(shù):讓數(shù)字分身更像真正的你
制作數(shù)字人視頻的另一個(gè)重大挑戰(zhàn)是如何讓生成的人物始終看起來像同一個(gè)人。這個(gè)問題就像要求一位化妝師根據(jù)一張照片給演員化妝,不僅要讓觀眾認(rèn)出這是同一個(gè)人,還要確保在不同表情和動(dòng)作下都能保持相似度。
傳統(tǒng)的解決方案就像給AI裝了一面"參考鏡子"——系統(tǒng)在生成每一幀畫面時(shí)都要對(duì)照原始照片,確保不要偏離太遠(yuǎn)。但這種方法有個(gè)致命缺陷:它往往過于保守。為了確保相似度,系統(tǒng)會(huì)傾向于生成較為靜態(tài)的畫面,限制了表情和動(dòng)作的豐富性。這就像一個(gè)演員為了不破壞妝容而不敢做太大的表情變化,結(jié)果反而顯得不自然。
阿里巴巴團(tuán)隊(duì)采用了一種更聰明的方法。他們首先從原始照片中精確裁切出面部區(qū)域,就像攝影師調(diào)整鏡頭焦距專門拍攝人像一樣。然后使用一種叫做ArcFace的先進(jìn)技術(shù)提取面部特征,這項(xiàng)技術(shù)就像是給每個(gè)人的臉制作了一份獨(dú)特的"身份證"。
接下來,他們使用了一種名為Q-Former的對(duì)齊技術(shù),將這份"面部身份證"轉(zhuǎn)換成AI能夠理解的格式。這個(gè)過程就像是翻譯——把人類能識(shí)別的面部特征翻譯成機(jī)器語言。
最關(guān)鍵的創(chuàng)新在于,他們沒有讓這個(gè)"身份信息"控制整個(gè)畫面的生成,而是通過一種叫做"交叉注意力"的機(jī)制,讓它專門負(fù)責(zé)面部特征的一致性。這就像給一個(gè)專業(yè)化妝師分配了明確的職責(zé):只管確保演員的面部輪廓、眼睛形狀、鼻子特征等關(guān)鍵身份信息保持一致,而不干涉表情、動(dòng)作等其他方面的自由發(fā)揮。
這種設(shè)計(jì)的巧妙之處在于實(shí)現(xiàn)了"身份保持"和"表現(xiàn)力"的完美平衡。生成的數(shù)字人既能保持與原始照片高度的相似性,又能自由地做出各種自然的表情和動(dòng)作,不會(huì)因?yàn)檫^度約束而顯得僵硬。
### 四、動(dòng)作強(qiáng)度控制:讓每個(gè)數(shù)字人都有獨(dú)特個(gè)性
每個(gè)人說話時(shí)的表現(xiàn)力都不一樣。有些人天生外向,說話時(shí)手舞足蹈、表情豐富;有些人性格內(nèi)斂,即使在激動(dòng)時(shí)也只是輕微的表情變化。為了讓生成的數(shù)字人能夠展現(xiàn)這種個(gè)性化差異,研究團(tuán)隊(duì)開發(fā)了一套"動(dòng)作強(qiáng)度控制系統(tǒng)"。
這套系統(tǒng)就像是給數(shù)字人配備了"情緒調(diào)節(jié)器"。它包含兩個(gè)主要控制旋鈕:面部表情強(qiáng)度和肢體動(dòng)作強(qiáng)度。面部表情強(qiáng)度控制著眉毛上揚(yáng)的幅度、嘴角上翹的程度、眼睛睜大的范圍等細(xì)微變化。肢體動(dòng)作強(qiáng)度則負(fù)責(zé)調(diào)節(jié)頭部擺動(dòng)、肩膀起伏、身體前傾等肢體語言的明顯程度。
技術(shù)實(shí)現(xiàn)上,研究團(tuán)隊(duì)使用了MediaPipe技術(shù)來分析真實(shí)視頻中人物的面部關(guān)鍵點(diǎn)變化,就像給每個(gè)表情動(dòng)作都做了精密的"動(dòng)作捕捉"。同時(shí),他們還使用DWPose技術(shù)追蹤身體關(guān)節(jié)的運(yùn)動(dòng)模式,記錄下不同強(qiáng)度說話時(shí)身體各部位的協(xié)調(diào)方式。
通過分析大量真實(shí)視頻,系統(tǒng)學(xué)會(huì)了如何將這些動(dòng)作參數(shù)與最終的視覺效果聯(lián)系起來。當(dāng)用戶設(shè)置較低的動(dòng)作強(qiáng)度時(shí),生成的數(shù)字人會(huì)表現(xiàn)得更加內(nèi)斂和穩(wěn)重;當(dāng)調(diào)高動(dòng)作強(qiáng)度時(shí),同樣的音頻內(nèi)容會(huì)產(chǎn)生更加生動(dòng)活潑的表現(xiàn)效果。
這種控制能力的實(shí)際應(yīng)用場(chǎng)景非常廣泛。比如制作企業(yè)培訓(xùn)視頻時(shí),可能需要更加嚴(yán)肅專業(yè)的表現(xiàn)風(fēng)格;而制作兒童教育內(nèi)容時(shí),則需要更加活潑有趣的表現(xiàn)方式。通過簡(jiǎn)單調(diào)節(jié)參數(shù),同一個(gè)數(shù)字人就能適應(yīng)完全不同的使用場(chǎng)景和受眾需求。
### 五、技術(shù)架構(gòu):在視頻生成領(lǐng)域的工程奇跡
整個(gè)FantasyTalking系統(tǒng)的技術(shù)架構(gòu)就像一座精密的現(xiàn)代化工廠,每個(gè)組件都有明確的分工和無縫的協(xié)作。系統(tǒng)的核心基于一種叫做"擴(kuò)散變換器"的先進(jìn)AI模型,這種模型就像是一位極其有經(jīng)驗(yàn)的視頻制作專家,能夠理解復(fù)雜的視聽關(guān)系并生成高質(zhì)量的動(dòng)態(tài)畫面。
音頻處理部分使用了Wav2Vec技術(shù),這項(xiàng)技術(shù)就像給AI配備了一對(duì)超級(jí)敏感的"耳朵",能夠從音頻信號(hào)中提取出豐富的聲學(xué)特征信息。這些信息不僅包括基本的音素內(nèi)容,還包括語調(diào)變化、情感色彩、說話節(jié)奏等細(xì)節(jié),為后續(xù)的視覺生成提供了詳盡的"指導(dǎo)手冊(cè)"。
視頻生成部分采用了3D視頻自編碼器技術(shù),這個(gè)組件的作用就像是一個(gè)能夠"壓縮"和"還原"視頻信息的魔法盒子。它先將高分辨率的視頻壓縮成緊湊的數(shù)學(xué)表示,在這個(gè)壓縮空間里進(jìn)行各種復(fù)雜的處理和變換,最后再將結(jié)果還原成完整的視頻畫面。
文本處理則使用了UMT5編碼器,這讓系統(tǒng)能夠理解用戶提供的文字描述,比如"一個(gè)嚴(yán)肅的商務(wù)場(chǎng)景"或"輕松愉快的聊天氛圍"。這種多模態(tài)理解能力讓生成的視頻能夠更好地符合用戶的具體需求和場(chǎng)景要求。
系統(tǒng)還集成了多個(gè)專門的神經(jīng)網(wǎng)絡(luò)模塊,每個(gè)模塊都專注于特定的任務(wù)。面部特征提取網(wǎng)絡(luò)專門負(fù)責(zé)識(shí)別和保持身份信息,動(dòng)作強(qiáng)度控制網(wǎng)絡(luò)負(fù)責(zé)調(diào)節(jié)表現(xiàn)力參數(shù),音視頻同步網(wǎng)絡(luò)確保完美的時(shí)序?qū)?yīng)關(guān)系。這些模塊之間通過精心設(shè)計(jì)的數(shù)據(jù)流和控制信號(hào)進(jìn)行協(xié)調(diào),形成了一個(gè)高效協(xié)作的處理流水線。
### 六、實(shí)驗(yàn)驗(yàn)證:數(shù)據(jù)說話的硬核證明
為了驗(yàn)證FantasyTalking的實(shí)際效果,研究團(tuán)隊(duì)進(jìn)行了大規(guī)模的對(duì)比實(shí)驗(yàn)。他們使用了包含15萬個(gè)視頻片段的訓(xùn)練數(shù)據(jù)集,這個(gè)數(shù)據(jù)集就像是給AI準(zhǔn)備的"演技教科書",涵蓋了各種不同的說話風(fēng)格、表情變化和場(chǎng)景環(huán)境。
實(shí)驗(yàn)分為兩個(gè)主要類別:溫和場(chǎng)景測(cè)試和復(fù)雜場(chǎng)景測(cè)試。溫和場(chǎng)景主要測(cè)試傳統(tǒng)的"說話頭像"效果,重點(diǎn)關(guān)注嘴唇同步的準(zhǔn)確性和面部表情的自然度。在這類測(cè)試中,F(xiàn)antasyTalking在視頻質(zhì)量、身份保持、表情相似度等關(guān)鍵指標(biāo)上都達(dá)到了最佳水平。
復(fù)雜場(chǎng)景測(cè)試則更加貼近實(shí)際應(yīng)用需求,包含了豐富的背景變化、復(fù)雜的肢體動(dòng)作和多樣的表情變化。在這類更具挑戰(zhàn)性的測(cè)試中,F(xiàn)antasyTalking展現(xiàn)出了明顯的優(yōu)勢(shì)。系統(tǒng)生成的視頻不僅在前景人物表現(xiàn)上更加自然生動(dòng),在背景動(dòng)態(tài)變化方面也遠(yuǎn)超其他競(jìng)爭(zhēng)方案。
研究團(tuán)隊(duì)還進(jìn)行了專門的用戶主觀評(píng)價(jià)實(shí)驗(yàn)。24位測(cè)試用戶從嘴唇同步、視頻質(zhì)量、身份保持和動(dòng)作多樣性四個(gè)維度對(duì)不同系統(tǒng)進(jìn)行打分。結(jié)果顯示,F(xiàn)antasyTalking在所有評(píng)價(jià)維度上都獲得了最高分?jǐn)?shù),特別是在動(dòng)作多樣性方面的得分大幅領(lǐng)先其他方案。
動(dòng)作強(qiáng)度控制功能的測(cè)試結(jié)果也非常令人鼓舞。實(shí)驗(yàn)證明,用戶可以通過調(diào)節(jié)參數(shù)在"內(nèi)斂"、"自然"和"活潑"三種不同風(fēng)格之間自由切換,而且每種風(fēng)格下的視頻質(zhì)量都保持在高水準(zhǔn)。這種靈活性為實(shí)際應(yīng)用提供了巨大的價(jià)值。
### 七、技術(shù)創(chuàng)新的深層意義:重新定義數(shù)字人交互
FantasyTalking的技術(shù)突破不僅僅是視頻生成質(zhì)量的提升,更重要的是它重新定義了人機(jī)交互的可能性。傳統(tǒng)的數(shù)字助手或虛擬客服往往給人一種"機(jī)器感"很強(qiáng)的印象,而高質(zhì)量的數(shù)字人視頻生成技術(shù)讓我們看到了更加自然、更有親和力的人機(jī)交互未來。
在在線教育領(lǐng)域,這項(xiàng)技術(shù)可以讓任何一位優(yōu)秀教師輕松制作出高質(zhì)量的視頻課程,而不需要復(fù)雜的錄制設(shè)備和后期制作。教師只需要提供一張照片和音頻講解,系統(tǒng)就能生成一個(gè)表情生動(dòng)、動(dòng)作自然的"數(shù)字老師",大大降低了優(yōu)質(zhì)教育內(nèi)容的制作門檻。
企業(yè)培訓(xùn)和營銷領(lǐng)域也將受益匪淺。公司可以使用高管或?qū)<业恼掌谱鳂?biāo)準(zhǔn)化的培訓(xùn)視頻,確保信息傳達(dá)的一致性和專業(yè)性。同時(shí),動(dòng)作強(qiáng)度控制功能讓同一個(gè)數(shù)字形象能夠適應(yīng)不同的溝通場(chǎng)景——嚴(yán)肅的合規(guī)培訓(xùn)需要穩(wěn)重的表現(xiàn)風(fēng)格,而團(tuán)隊(duì)建設(shè)活動(dòng)則可以使用更加活潑的設(shè)置。
在新聞和媒體行業(yè),這項(xiàng)技術(shù)為內(nèi)容制作帶來了革命性的變化。新聞機(jī)構(gòu)可以快速制作多語言版本的新聞播報(bào),或者在突發(fā)事件中迅速生成高質(zhì)量的新聞視頻。虛擬主播不再是僵硬的卡通形象,而是能夠傳達(dá)豐富情感和專業(yè)素養(yǎng)的數(shù)字人。
個(gè)人用戶也能從這項(xiàng)技術(shù)中獲得很多便利。社交媒體內(nèi)容創(chuàng)作者可以更高效地制作視頻內(nèi)容,而不必每次都親自出鏡。這對(duì)于一些希望保護(hù)隱私或者不善于鏡頭表現(xiàn)的創(chuàng)作者來說特別有價(jià)值。
### 八、技術(shù)挑戰(zhàn)與未來改進(jìn)方向
盡管FantasyTalking取得了顯著突破,但研究團(tuán)隊(duì)也坦誠地指出了當(dāng)前技術(shù)的一些局限性。最主要的挑戰(zhàn)是計(jì)算效率問題。由于采用了復(fù)雜的擴(kuò)散模型架構(gòu),系統(tǒng)需要進(jìn)行多輪迭代計(jì)算才能生成最終結(jié)果,這導(dǎo)致視頻生成速度相對(duì)較慢,還不能滿足實(shí)時(shí)應(yīng)用的需求。
目前生成一段幾秒鐘的高質(zhì)量視頻需要幾分鐘的處理時(shí)間,這對(duì)于直播或?qū)崟r(shí)聊天等應(yīng)用場(chǎng)景來說還不夠理想。研究團(tuán)隊(duì)正在探索各種加速策略,包括模型壓縮、算法優(yōu)化和專用硬件加速等方向。
另一個(gè)需要持續(xù)改進(jìn)的方面是生成視頻的長(zhǎng)度限制。當(dāng)前系統(tǒng)主要針對(duì)短視頻片段進(jìn)行了優(yōu)化,對(duì)于較長(zhǎng)時(shí)間的視頻生成,可能會(huì)出現(xiàn)身份特征逐漸偏移或動(dòng)作模式重復(fù)的問題。這需要在訓(xùn)練數(shù)據(jù)和算法設(shè)計(jì)上進(jìn)一步完善。
在應(yīng)用層面,如何確保這項(xiàng)技術(shù)的負(fù)責(zé)任使用也是一個(gè)重要考慮。高質(zhì)量的數(shù)字人生成技術(shù)可能被惡意使用來制作虛假信息或進(jìn)行身份冒充。研究團(tuán)隊(duì)呼吁建立相應(yīng)的技術(shù)檢測(cè)手段和使用規(guī)范,確保這項(xiàng)技術(shù)能夠造福社會(huì)而不是帶來負(fù)面影響。
### 九、產(chǎn)業(yè)應(yīng)用前景:數(shù)字人經(jīng)濟(jì)的新引擎
FantasyTalking技術(shù)的成熟將為多個(gè)產(chǎn)業(yè)帶來深遠(yuǎn)影響。在電商直播領(lǐng)域,商家可以使用品牌代言人或創(chuàng)始人的數(shù)字形象進(jìn)行24小時(shí)不間斷的產(chǎn)品推廣,大大降低了人力成本同時(shí)提高了品牌一致性。消費(fèi)者也能獲得更加標(biāo)準(zhǔn)化和專業(yè)的購物體驗(yàn)。
影視制作行業(yè)也將迎來新的創(chuàng)作可能性。制片方可以使用已故演員的數(shù)字形象完成未完成的作品,或者讓現(xiàn)役演員在不同項(xiàng)目中同時(shí)"出演"而不受檔期限制。這種技術(shù)還能幫助獨(dú)立制作人以較低成本制作出具有明星效應(yīng)的內(nèi)容。
醫(yī)療健康領(lǐng)域的應(yīng)用潛力同樣巨大。醫(yī)生可以使用自己的數(shù)字形象制作標(biāo)準(zhǔn)化的健康宣教視頻,確保醫(yī)療信息的準(zhǔn)確傳達(dá)。心理咨詢師也可以為無法面對(duì)面交流的患者提供更有親近感的遠(yuǎn)程服務(wù)。
政府和公共服務(wù)部門也能從這項(xiàng)技術(shù)中受益。公務(wù)員可以使用數(shù)字形象進(jìn)行政策解讀和公共服務(wù)指導(dǎo),提高信息傳達(dá)的效率和可及性。特別是在多語言社區(qū),同一個(gè)公務(wù)員的數(shù)字形象可以用不同語言為不同族群提供服務(wù)。
旅游和文化傳承領(lǐng)域也展現(xiàn)出了創(chuàng)新應(yīng)用的前景。博物館可以讓歷史人物"復(fù)活",為觀眾講述歷史故事。旅游景點(diǎn)可以制作虛擬導(dǎo)游,提供個(gè)性化的游覽體驗(yàn)。這種技術(shù)讓文化傳播變得更加生動(dòng)和易于接受。
從技術(shù)發(fā)展的角度來看,阿里巴巴團(tuán)隊(duì)的這項(xiàng)研究為AI視頻生成領(lǐng)域樹立了新的標(biāo)桿。它不僅在技術(shù)指標(biāo)上取得了突破,更重要的是提供了一種系統(tǒng)性的解決思路,為后續(xù)研究指明了方向。雙階段訓(xùn)練策略、面部專注的身份保持技術(shù)、可控的動(dòng)作強(qiáng)度調(diào)節(jié)等創(chuàng)新思路都將對(duì)整個(gè)領(lǐng)域產(chǎn)生深遠(yuǎn)影響。
說到底,F(xiàn)antasyTalking代表的不僅僅是一項(xiàng)技術(shù)進(jìn)步,更是人類對(duì)于數(shù)字化表達(dá)方式的新探索。它讓我們看到了一個(gè)未來:在這個(gè)未來中,任何人都可以輕松創(chuàng)造出高質(zhì)量的視頻內(nèi)容,數(shù)字形象將成為我們?cè)谔摂M世界中的重要代表,而人機(jī)交互將變得更加自然和富有人情味。
這項(xiàng)由阿里巴巴高德團(tuán)隊(duì)和北京郵電大學(xué)共同完成的研究,不僅展示了中國在AI技術(shù)創(chuàng)新方面的實(shí)力,也為全球的數(shù)字人技術(shù)發(fā)展貢獻(xiàn)了重要的理論基礎(chǔ)和實(shí)踐經(jīng)驗(yàn)。隨著技術(shù)的不斷完善和應(yīng)用場(chǎng)景的拓展,我們有理由相信,這種技術(shù)將在不久的將來深刻改變我們的工作和生活方式。
對(duì)于普通用戶來說,這意味著更便捷的內(nèi)容創(chuàng)作工具、更豐富的娛樂體驗(yàn)和更高效的信息獲取方式。對(duì)于企業(yè)和機(jī)構(gòu)來說,這代表著新的商業(yè)模式、更低的運(yùn)營成本和更廣闊的服務(wù)范圍。而對(duì)于整個(gè)社會(huì)來說,這項(xiàng)技術(shù)的普及將推動(dòng)數(shù)字經(jīng)濟(jì)的進(jìn)一步發(fā)展,為人類社會(huì)的數(shù)字化轉(zhuǎn)型提供強(qiáng)大的技術(shù)支撐。
當(dāng)然,在享受技術(shù)帶來便利的同時(shí),我們也需要保持理性和警覺,確保這項(xiàng)強(qiáng)大的技術(shù)能夠在適當(dāng)?shù)目蚣軆?nèi)發(fā)揮正面作用,為人類社會(huì)的進(jìn)步做出積極貢獻(xiàn)。有興趣深入了解技術(shù)細(xì)節(jié)的讀者,建議查閱原論文獲取更多專業(yè)信息。
Q&A
Q1:FantasyTalking是什么?它能做什么? A:FantasyTalking是阿里巴巴團(tuán)隊(duì)開發(fā)的AI視頻生成系統(tǒng),只需要一張靜態(tài)照片和一段音頻,就能生成嘴唇同步、表情自然、動(dòng)作協(xié)調(diào)的說話視頻。它還能控制人物的表情強(qiáng)度和肢體動(dòng)作幅度,讓同一個(gè)數(shù)字人呈現(xiàn)不同的性格特征。
Q2:這項(xiàng)技術(shù)會(huì)不會(huì)取代真人視頻制作? A:目前不會(huì)完全取代,但會(huì)大大改變視頻制作方式。它更適合標(biāo)準(zhǔn)化內(nèi)容制作、多語言版本生成、虛擬客服等場(chǎng)景。真人視頻在創(chuàng)意表達(dá)、情感深度和臨場(chǎng)反應(yīng)方面仍有不可替代的優(yōu)勢(shì),兩者更可能是互補(bǔ)關(guān)系。
Q3:普通人如何使用這項(xiàng)技術(shù)?有什么要求? A:目前這項(xiàng)技術(shù)還在研究階段,普通用戶暫時(shí)無法直接使用。未來商業(yè)化后,用戶只需要提供一張清晰的正面照片和想要說話的音頻文件即可。對(duì)照片質(zhì)量和音頻清晰度會(huì)有一定要求,但不需要專業(yè)的錄制設(shè)備。
好文章,需要你的鼓勵(lì)
新加坡國立大學(xué)研究團(tuán)隊(duì)開發(fā)了SPIRAL框架,通過讓AI與自己對(duì)弈零和游戲來提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡(jiǎn)單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。