想象一下,如果你只聽到一段錄音,就能在腦海中"看見"說話的人——他們的面部表情、手勢動作,甚至連眨眼的節(jié)奏都歷歷在目。這聽起來像是科幻小說中的情節(jié),但Captions公司的研究團隊最近在這個看似不可能的任務(wù)上取得了突破性進展。
這項由Captions公司的Aditi Sundararaman、Amogh Adishesha、Andrew Jaegle等十多位研究人員共同完成的研究,于2025年發(fā)表了名為"Mirage"的音頻生成視頻模型。有興趣深入了解的讀者可以通過訪問mirage.app/research/seeing-voices觀看研究成果,或在https://mirage.app親自體驗這項技術(shù)。
說到底,這項研究要解決的問題其實很簡單:能否讓計算機僅僅通過聽到聲音,就創(chuàng)造出一個真實的人在說話的視頻?就像我們?nèi)祟愒诖螂娫挄r,雖然看不見對方,但往往能在腦海中想象出對方說話時的樣子一樣。
為什么這個問題如此重要呢?想想看,從電影制作到網(wǎng)絡(luò)內(nèi)容創(chuàng)作,從新聞播報到在線教育,幾乎所有的視頻內(nèi)容都需要音頻和畫面的完美配合。傳統(tǒng)的做法要么是先拍攝視頻再配音,要么是用復(fù)雜的技術(shù)手段讓現(xiàn)有的圖片"動起來"。但如果能直接從音頻生成視頻,那就相當(dāng)于給內(nèi)容創(chuàng)作者提供了一支神奇的畫筆,只要有聲音,就能畫出對應(yīng)的畫面。
研究團隊將這個挑戰(zhàn)比作一個高度復(fù)雜的翻譯工作——不是語言之間的翻譯,而是從聽覺信息到視覺信息的翻譯。他們的Mirage模型就像一個極其聰明的翻譯官,能夠理解聲音中隱藏的各種線索,然后將這些線索轉(zhuǎn)化為生動的視覺表現(xiàn)。
一、破解聲音中的視覺密碼
要理解Mirage是如何工作的,我們首先需要明白聲音其實包含了比我們想象中更多的信息。就像福爾摩斯能從一個人的鞋印推斷出他的身高、體重和職業(yè)一樣,聲音中也藏著大量關(guān)于說話者的"線索"。
當(dāng)我們聽到一個人說話時,聲音的音調(diào)高低會暗示說話者的性別和年齡;說話的節(jié)奏和停頓會透露他們的情緒狀態(tài);甚至連背景的回音都能告訴我們他們所處的環(huán)境是室內(nèi)還是室外,是安靜的錄音棚還是嘈雜的咖啡廳。
研究團隊意識到,要讓計算機從聲音中"看見"畫面,就必須教會它識別這些隱藏的線索。這就像訓(xùn)練一個盲人通過聲音來描述世界一樣——雖然看不見,但通過仔細聆聽,依然能夠準(zhǔn)確地描述出眼前的場景。
Mirage模型的核心架構(gòu)基于一種叫做Diffusion Transformer的技術(shù),但別被這個聽起來很高深的名字嚇到。簡單來說,這就像一個非常聰明的素描師,它會先在腦海中構(gòu)想一個模糊的輪廓,然后逐步添加細節(jié),最終創(chuàng)造出一個完整的畫面。
不過,與傳統(tǒng)的素描師不同的是,Mirage需要同時處理聲音、文字描述和可能的參考圖片等多種信息。就像一個導(dǎo)演在拍攝電影時需要同時考慮劇本、演員表現(xiàn)和場景設(shè)計一樣,Mirage也需要將這些不同類型的信息融合在一起,創(chuàng)造出協(xié)調(diào)一致的視頻內(nèi)容。
研究團隊在設(shè)計Mirage時采用了一種特別巧妙的方法。他們沒有為每種類型的信息設(shè)計單獨的處理模塊,而是讓所有信息都通過同一個"注意力機制"進行處理。這就像一個優(yōu)秀的調(diào)音師,能夠同時聽到樂隊中每一件樂器的聲音,并確保它們和諧地融合在一起。
二、訓(xùn)練AI成為視聽翻譯大師
要讓Mirage學(xué)會從聲音中"看見"畫面,研究團隊面臨的挑戰(zhàn)就像教一個從未見過顏色的人學(xué)會繪畫一樣困難。他們需要收集大量的音視頻配對數(shù)據(jù),就像給學(xué)生提供教科書一樣。
研究團隊構(gòu)建了一個龐大的訓(xùn)練數(shù)據(jù)集,專門包含人們說話的視頻片段——在電影制作術(shù)語中稱為"A-roll"片段。這些片段就像是Mirage的"教科書",每一段都包含了聲音和對應(yīng)畫面的完美配對示例。
為了確保訓(xùn)練數(shù)據(jù)的質(zhì)量,研究團隊設(shè)計了一套嚴(yán)格的篩選標(biāo)準(zhǔn),就像一個挑剔的美食評論家在選擇餐廳一樣。他們會過濾掉那些畫面模糊、聲音不清晰或者包含過多文字覆蓋的視頻片段。他們甚至開發(fā)了專門的算法來檢測視頻中是否存在分屏顯示、過多的圖形覆蓋或者音畫不同步的問題。
特別有趣的是,研究團隊還使用了一種基于視頻壓縮技術(shù)的創(chuàng)新方法來評估視頻的"動感"程度。就像我們能夠通過觀察一張照片中的運動模糊來判斷拍攝時是否有移動一樣,他們通過分析視頻壓縮數(shù)據(jù)中的運動信息來篩選出那些包含豐富面部表情和手勢動作的片段。
在數(shù)據(jù)處理方面,研究團隊還面臨著一個類似于管理大型圖書館的挑戰(zhàn)——如何高效地存儲、檢索和處理海量的視頻數(shù)據(jù)。他們設(shè)計了一套分布式系統(tǒng),能夠同時在多臺計算機上處理不同的視頻片段,就像一個協(xié)調(diào)有序的流水線一樣。
為了讓AI更好地理解視頻內(nèi)容,研究團隊還為每個視頻片段生成了詳細的文字描述。這些描述不是簡單的標(biāo)簽,而是像電影解說員一樣詳細的敘述,包括說話者的外貌特征、表情狀態(tài)、背景環(huán)境甚至拍攝角度等信息。這就像給每本書都配上了詳細的內(nèi)容提要,幫助AI更好地理解不同元素之間的關(guān)聯(lián)。
三、從聲音到畫面的神奇轉(zhuǎn)換
當(dāng)Mirage真正開始工作時,整個過程就像一個技藝精湛的魔術(shù)師在表演變戲法。給它一段音頻,它就能變出一個活靈活現(xiàn)的說話視頻,而且這個過程的精確程度常常讓人驚嘆不已。
最令人印象深刻的是Mirage在處理發(fā)音細節(jié)方面的表現(xiàn)。當(dāng)音頻中出現(xiàn)"p"、"b"、"t"、"d"、"k"、"g"這些需要唇齒配合的爆破音時,Mirage能夠準(zhǔn)確地生成相應(yīng)的嘴型變化。就像一個優(yōu)秀的口型教練,它不僅知道每個音節(jié)應(yīng)該對應(yīng)什么樣的嘴型,還能把握準(zhǔn)確的時間節(jié)拍,讓生成的視頻看起來就像真人在說話一樣自然。
更加神奇的是,Mirage還學(xué)會了處理各種非語言的聲音表達。當(dāng)音頻中包含笑聲時,它會生成相應(yīng)的微笑表情和眼部的愉悅神態(tài);當(dāng)聽到咳嗽聲時,它會生成相應(yīng)的面部反應(yīng);甚至連打噴嚏這樣的突發(fā)動作,它都能準(zhǔn)確地表現(xiàn)出來。這就像一個敏感的演員,能夠準(zhǔn)確地捕捉并表達各種細微的情感變化。
Mirage在眼部表情方面的表現(xiàn)也相當(dāng)出色。雖然訓(xùn)練時沒有人專門教它什么時候應(yīng)該眨眼,但它卻學(xué)會了生成自然的眨眼節(jié)奏。更有趣的是,它還能根據(jù)說話內(nèi)容的情感色彩來調(diào)整眼神的方向和強度,比如在表達困惑時會出現(xiàn)向上看的眼神,在堅定表態(tài)時會保持直視的目光。
當(dāng)研究團隊測試Mirage的情感表達能力時,結(jié)果讓人贊嘆不已。同樣的一段音頻,如果在文字提示中描述說話者應(yīng)該表現(xiàn)出快樂的情緒,Mirage就會生成燦爛的笑容和明亮的眼神;如果描述為悲傷的情緒,生成的視頻中人物就會呈現(xiàn)出沮喪的表情和低垂的眼神。這種對情感細節(jié)的精準(zhǔn)把握,讓生成的視頻具有了真正的表現(xiàn)力。
更令人驚喜的是,Mirage展現(xiàn)出了一種類似"讀心術(shù)"的能力。當(dāng)音頻中的說話者表達贊同時,即使沒有明確的指示,生成的視頻中人物也會自然地點頭;當(dāng)表達否定或懷疑時,會出現(xiàn)輕微的搖頭動作;在解釋復(fù)雜概念時,甚至?xí)霈F(xiàn)相應(yīng)的手勢動作。這種對語言和非語言信號之間微妙關(guān)聯(lián)的掌握,讓Mirage生成的視頻具有了令人信服的真實感。
四、純音頻挑戰(zhàn):從聲音推測一切
最具挑戰(zhàn)性的測試出現(xiàn)在研究團隊讓Mirage僅僅依靠音頻信息,在沒有任何文字描述或參考圖片的情況下生成視頻的時候。這就像讓一個從未見過面的人僅僅通過電話通話來畫出對方的肖像畫一樣困難。
令人驚喜的是,Mirage在這個看似不可能的任務(wù)中展現(xiàn)出了令人嘆為觀止的推理能力。當(dāng)聽到男性的聲音時,它會生成男性的面部特征和體型;當(dāng)聽到女性的聲音時,會相應(yīng)地生成女性的外貌特征。這種對聲音特征和視覺外貌之間關(guān)聯(lián)的理解,讓人不禁想起我們?nèi)祟愒陔娫捊徽剷r在腦海中構(gòu)建對方形象的能力。
更加神奇的是,Mirage還學(xué)會了從音頻的環(huán)境特征中推測拍攝場景。當(dāng)音頻中包含明顯的室內(nèi)回聲和安靜的背景時,生成的視頻會顯示出典型的室內(nèi)環(huán)境,比如書架、盆栽或者溫馨的燈光;而當(dāng)音頻中包含戶外的環(huán)境噪音,比如風(fēng)聲、車聲或者人群嘈雜聲時,生成的視頻背景就會變成街道、公園或者其他戶外場景。
這種對音頻環(huán)境線索的敏感程度讓研究團隊都感到驚訝。Mirage似乎學(xué)會了像聲學(xué)工程師一樣分析聲音的特征——專業(yè)錄音棚的干凈音質(zhì)會對應(yīng)整潔的室內(nèi)環(huán)境,而回音豐富的音頻則會對應(yīng)空曠的空間。這種對聲音質(zhì)量和空間環(huán)境之間關(guān)系的理解,讓純音頻生成的視頻也能保持令人信服的一致性。
最有趣的發(fā)現(xiàn)是,Mirage生成的人物外貌往往與音頻中的聲音特征高度匹配,避免了那種讓人感到別扭的"聲畫不符"現(xiàn)象。當(dāng)聽到深沉厚重的男低音時,生成的人物往往具有成熟穩(wěn)重的外貌特征;而當(dāng)聽到清脆甜美的女聲時,生成的人物則會呈現(xiàn)出相應(yīng)的年輕活潑的視覺特征。這種"聲音與外貌"的和諧匹配,讓觀看者感覺一切都是那么自然合理。
五、技術(shù)創(chuàng)新的核心突破
Mirage的技術(shù)創(chuàng)新就像一個巧妙的工程解決方案,它沒有為不同類型的信息設(shè)計復(fù)雜的專門處理系統(tǒng),而是采用了一種統(tǒng)一而優(yōu)雅的方法。這就像一個多才多藝的廚師,不需要為每道菜準(zhǔn)備不同的廚具,而是用同一套刀具就能處理各種食材。
傳統(tǒng)的音頻到視頻生成系統(tǒng)往往需要為音頻信息和視覺信息設(shè)計不同的處理模塊,就像建造一座需要多個專門車間的工廠一樣復(fù)雜。但Mirage采用的方法更像是一個萬能工作臺,所有類型的信息——無論是音頻、文字還是參考圖片——都通過同一個"自注意力機制"進行處理。
這種設(shè)計的巧妙之處在于它的可擴展性。當(dāng)研究團隊想要添加新的條件信息時,比如參考圖片,他們不需要重新設(shè)計整個系統(tǒng)架構(gòu),只需要將新信息加入到現(xiàn)有的處理流程中即可。這就像一個設(shè)計精良的組裝系統(tǒng),可以輕松地添加新的組件而不影響整體功能。
在訓(xùn)練策略方面,研究團隊采用了一種叫做"流匹配"的技術(shù),這個過程就像教導(dǎo)一個藝術(shù)學(xué)生從亂涂亂畫逐步發(fā)展到創(chuàng)作精美畫作的過程。系統(tǒng)首先學(xué)會從隨機噪聲開始,然后逐步添加細節(jié),最終生成清晰的視頻內(nèi)容。這種訓(xùn)練方法不僅提高了生成質(zhì)量,還大大提升了訓(xùn)練效率。
研究團隊還解決了一個重要的技術(shù)挑戰(zhàn):如何處理音頻和視頻之間的時間同步問題。他們開發(fā)了特殊的位置編碼技術(shù),就像給每個音頻片段和視頻幀都貼上了精確的時間標(biāo)簽,確保聲音和畫面能夠完美地對應(yīng)起來。這種精確的時間控制讓生成的視頻具有了專業(yè)級別的同步質(zhì)量。
為了處理大規(guī)模的訓(xùn)練數(shù)據(jù)和復(fù)雜的計算需求,研究團隊還設(shè)計了先進的分布式訓(xùn)練系統(tǒng)。這個系統(tǒng)就像一個高效的協(xié)作網(wǎng)絡(luò),能夠?qū)⒂嬎闳蝿?wù)分配給多臺計算機同時處理,大大縮短了訓(xùn)練時間。他們甚至實現(xiàn)了訓(xùn)練過程中的容錯機制,當(dāng)某臺計算機出現(xiàn)故障時,系統(tǒng)能夠自動用備用設(shè)備替換,確保訓(xùn)練過程不會中斷。
六、性能優(yōu)化與實際應(yīng)用
當(dāng)Mirage從實驗室走向?qū)嶋H應(yīng)用時,研究團隊面臨著一個新的挑戰(zhàn):如何讓這個強大但復(fù)雜的系統(tǒng)能夠快速響應(yīng)用戶需求。畢竟,無論技術(shù)多么先進,如果用戶需要等待很長時間才能看到結(jié)果,那么實用價值就會大打折扣。
為了解決這個問題,研究團隊采用了多種優(yōu)化策略,就像汽車工程師為了提高燃油效率而對發(fā)動機進行各種改進一樣。他們首先采用了混合精度計算技術(shù),這就像用更輕便的材料制造汽車零件,在保持性能的同時減少了計算負(fù)擔(dān)。通過這種方法,系統(tǒng)的運行速度提升了約35%。
接下來,他們引入了一種叫做FlashAttention的優(yōu)化技術(shù),這個技術(shù)就像為計算機的"大腦"安裝了更高效的思考方式,進一步將性能提升了30%。這些看似微小的改進累積起來,讓整個系統(tǒng)的響應(yīng)速度有了顯著提升。
更巧妙的是,研究團隊發(fā)現(xiàn)了生成過程中的一個有趣現(xiàn)象:在視頻生成的后期階段,系統(tǒng)的計算模式會呈現(xiàn)出某種規(guī)律性,就像熟練的畫家在完成細節(jié)時會重復(fù)使用某些筆法一樣。利用這個發(fā)現(xiàn),他們開發(fā)了一種"緩存技術(shù)",能夠重復(fù)利用之前的計算結(jié)果,從而將推理時間減少了40%。
在量化處理方面,研究團隊還采用了FP8精度計算,這就像用更緊湊的方式存儲信息,在幾乎不影響質(zhì)量的前提下進一步提升了5%的運行速度。這些優(yōu)化技術(shù)的綜合應(yīng)用,讓Mirage能夠在保持高質(zhì)量輸出的同時,為用戶提供相對快速的響應(yīng)體驗。
為了提升生成質(zhì)量,研究團隊還采用了一些高級的采樣技術(shù)。他們發(fā)現(xiàn),通過調(diào)整生成過程中的某些參數(shù),就像調(diào)音師微調(diào)音響設(shè)備一樣,可以顯著改善最終輸出的視覺效果。特別是通過"時空跳躍指導(dǎo)"和"負(fù)文本提示"等技術(shù),生成的視頻在清晰度和自然度方面都有了明顯提升。
七、廣闊的應(yīng)用前景與未來可能
Mirage技術(shù)的出現(xiàn)就像打開了一扇通往新世界的大門,它的應(yīng)用潛力遠遠超出了研究團隊最初的設(shè)想。在內(nèi)容創(chuàng)作領(lǐng)域,這項技術(shù)可以為那些只有聲音素材的創(chuàng)作者提供全新的可能性。想象一下,播客制作人可以輕松地將音頻節(jié)目轉(zhuǎn)換為視頻內(nèi)容,擴大自己的受眾群體;有聲書作者可以為自己的作品創(chuàng)建生動的視覺表現(xiàn),讓讀者不僅能聽到故事,還能"看到"講述者的表情和動作。
在教育領(lǐng)域,Mirage可能會帶來革命性的變化。語言學(xué)習(xí)者可以通過觀看生成的視頻來更好地理解發(fā)音和口型,就像有了一個永不疲倦的語言老師;歷史教育可以通過重現(xiàn)歷史人物的演講來增強學(xué)習(xí)體驗,讓學(xué)生仿佛置身于歷史現(xiàn)場。
對于無障礙技術(shù)而言,Mirage也展現(xiàn)出了巨大的價值。聽力障礙人群可以通過觀看生成的視頻來理解音頻內(nèi)容,這就像為他們提供了一個視覺翻譯器;而對于那些因為各種原因無法出鏡的內(nèi)容創(chuàng)作者來說,Mirage可以成為他們與觀眾建立視覺連接的橋梁。
在商業(yè)應(yīng)用方面,Mirage的潛力同樣令人興奮。企業(yè)可以快速為產(chǎn)品演示、培訓(xùn)材料或營銷內(nèi)容創(chuàng)建專業(yè)級的視頻,而不需要復(fù)雜的拍攝制作流程;客服系統(tǒng)可以提供更加人性化的視覺交互體驗,讓用戶感覺像是在與真人對話。
新聞媒體行業(yè)也可能因為Mirage而發(fā)生變化。記者可以在緊急情況下快速創(chuàng)建新聞播報視頻,即使身處無法拍攝的環(huán)境中;國際新聞可以通過生成本地化的播報員形象來增強親近感,讓觀眾更容易接受和理解來自不同文化背景的新聞內(nèi)容。
當(dāng)然,隨著這項技術(shù)的發(fā)展,我們也需要思考相關(guān)的倫理和社會問題。如何確保生成的內(nèi)容不被惡意使用?如何保護個人的肖像權(quán)和聲音權(quán)?如何讓觀眾能夠區(qū)分真實內(nèi)容和AI生成內(nèi)容?這些問題需要技術(shù)開發(fā)者、政策制定者和社會各界共同思考和解決。
研究團隊已經(jīng)在Captions公司的多個產(chǎn)品中集成了Mirage技術(shù),用戶可以在https://mirage.app親自體驗這項技術(shù)的神奇效果。隨著技術(shù)的不斷改進和完善,我們有理由相信,音頻到視頻的轉(zhuǎn)換將成為數(shù)字內(nèi)容創(chuàng)作的重要工具,為創(chuàng)作者和觀眾帶來全新的體驗。
歸根結(jié)底,Mirage代表的不僅僅是一項技術(shù)突破,更是人工智能在理解和模擬人類交流方式方面的重要進步。它讓我們看到了一個未來的可能性:在這個未來中,聲音和畫面之間的界限變得模糊,創(chuàng)作變得更加自由,表達變得更加豐富。這項研究提醒我們,技術(shù)的真正價值不在于它有多么復(fù)雜,而在于它能夠多么自然地融入我們的生活,幫助我們更好地溝通、學(xué)習(xí)和創(chuàng)造。對于那些想要深入了解技術(shù)細節(jié)的讀者,完整的研究論文和演示視頻都可以在mirage.app/research/seeing-voices找到,那里有更多令人驚嘆的研究成果等待探索。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機制和漸進式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學(xué)習(xí)外觀和運動信息,顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報,準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。