這項(xiàng)由MiniMax公司開(kāi)發(fā)的突破性語(yǔ)音合成技術(shù)名為MiniMax-Speech,于2025年5月12日發(fā)表在arXiv平臺(tái)上(論文編號(hào):arXiv:2505.07916v1)。有興趣深入了解技術(shù)細(xì)節(jié)的讀者可以通過(guò)https://minimax-ai.github.io/tts_tech_report訪問(wèn)完整的技術(shù)報(bào)告和演示樣例。
當(dāng)你聽(tīng)到有人用完美的中文朗讀一篇文章,然后又用同樣的聲音流利地說(shuō)著英語(yǔ)、日語(yǔ)、法語(yǔ)時(shí),你可能會(huì)以為這是一個(gè)精通多國(guó)語(yǔ)言的播音員。但實(shí)際上,這可能只是一個(gè)從未說(shuō)過(guò)除中文以外任何語(yǔ)言的普通人的聲音,被MiniMax公司最新開(kāi)發(fā)的語(yǔ)音合成系統(tǒng)"復(fù)制"并"教會(huì)"了其他語(yǔ)言。
這種聽(tīng)起來(lái)像科幻電影的技術(shù),正是MiniMax-Speech所實(shí)現(xiàn)的核心功能。這套系統(tǒng)最令人驚訝的地方在于,它只需要你提供一小段錄音樣本,就能讓這個(gè)聲音用32種不同的語(yǔ)言說(shuō)出任何你想要的內(nèi)容。更重要的是,整個(gè)過(guò)程不需要你提供錄音的文字稿,也不需要對(duì)系統(tǒng)進(jìn)行任何專(zhuān)門(mén)的訓(xùn)練或調(diào)整。
要理解這項(xiàng)技術(shù)的革命性,可以把傳統(tǒng)的語(yǔ)音合成比作臨摹畫(huà)家。以前的系統(tǒng)就像需要參考照片才能畫(huà)畫(huà)的畫(huà)家,必須同時(shí)看著一個(gè)人的照片和這個(gè)人的詳細(xì)描述,才能勉強(qiáng)畫(huà)出相似的肖像。而MiniMax-Speech更像是一個(gè)天才畫(huà)家,只需要看一眼真人,就能立即掌握這個(gè)人的所有外貌特征,然后用任何風(fēng)格、在任何場(chǎng)景下都能畫(huà)出惟妙惟肖的作品。
在全球公開(kāi)的語(yǔ)音合成技術(shù)競(jìng)技場(chǎng)Artificial Arena上,MiniMax-Speech已經(jīng)登頂?shù)谝幻?,擊敗了包括OpenAI、ElevenLabs、Google、Microsoft和Amazon在內(nèi)的所有主要科技公司的產(chǎn)品。這個(gè)排名基于真實(shí)用戶(hù)的盲聽(tīng)測(cè)試,意味著普通人在不知道聲音來(lái)源的情況下,認(rèn)為MiniMax-Speech生成的語(yǔ)音最自然、最真實(shí)。
一、聲音的"指紋識(shí)別器":讓機(jī)器理解聲音的本質(zhì)
傳統(tǒng)的語(yǔ)音合成技術(shù)面臨著一個(gè)根本性的挑戰(zhàn),就像試圖教一個(gè)從未見(jiàn)過(guò)顏色的人畫(huà)彩畫(huà)一樣困難。大多數(shù)現(xiàn)有系統(tǒng)在克隆聲音時(shí),需要同時(shí)提供聲音樣本和對(duì)應(yīng)的文字內(nèi)容,這就好比告訴一個(gè)機(jī)器人"這是張三說(shuō)'你好世界'的錄音",然后期望它學(xué)會(huì)張三的聲音特征。
但這種方法存在明顯的局限性。當(dāng)你想讓張三的聲音說(shuō)一些他從未說(shuō)過(guò)的話,或者用他從未使用過(guò)的語(yǔ)言時(shí),系統(tǒng)就會(huì)出現(xiàn)各種問(wèn)題。聲音可能變得不自然,或者完全不像原來(lái)的人。這就像讓一個(gè)只見(jiàn)過(guò)某人正面照的畫(huà)家去畫(huà)這個(gè)人的側(cè)面像一樣,結(jié)果往往差強(qiáng)人意。
MiniMax-Speech采用了一種全新的方法,他們開(kāi)發(fā)了一個(gè)被稱(chēng)為"學(xué)習(xí)型聲音編碼器"的技術(shù)組件。如果把這個(gè)編碼器比作一個(gè)聲音專(zhuān)家,那它的工作就是專(zhuān)門(mén)負(fù)責(zé)"聽(tīng)懂"一個(gè)人聲音中的獨(dú)特特征。這個(gè)專(zhuān)家不關(guān)心說(shuō)話的內(nèi)容是什么,只專(zhuān)注于分析聲音的音色、語(yǔ)調(diào)習(xí)慣、發(fā)音特點(diǎn)等本質(zhì)特征。
這種設(shè)計(jì)的巧妙之處在于,編碼器能夠?qū)⒙曇舻?身份信息"和"內(nèi)容信息"完全分離開(kāi)來(lái)。就像一個(gè)經(jīng)驗(yàn)豐富的調(diào)音師,能夠從一段錄音中準(zhǔn)確識(shí)別出歌手的嗓音特色,而不被歌曲的旋律或歌詞所干擾。這樣,當(dāng)系統(tǒng)需要生成新的語(yǔ)音時(shí),它可以保持聲音身份的一致性,同時(shí)在表達(dá)內(nèi)容上擁有完全的自由度。
更重要的是,這個(gè)聲音編碼器是"可學(xué)習(xí)的",意味著它不是使用預(yù)先訓(xùn)練好的固定模塊,而是專(zhuān)門(mén)為語(yǔ)音合成任務(wù)量身定制的。這就像培養(yǎng)一個(gè)專(zhuān)門(mén)為某個(gè)畫(huà)派服務(wù)的藝術(shù)評(píng)論家,而不是使用一個(gè)通用的藝術(shù)史學(xué)家。通過(guò)這種專(zhuān)門(mén)化的訓(xùn)練,編碼器能夠更精確地捕捉對(duì)語(yǔ)音合成最重要的聲音特征。
研究團(tuán)隊(duì)發(fā)現(xiàn),與使用現(xiàn)成的聲音識(shí)別模塊相比,這種定制化的編碼器在聲音相似度和語(yǔ)音清晰度方面都表現(xiàn)得更加出色。在測(cè)試中,使用學(xué)習(xí)型編碼器的系統(tǒng)不僅能夠產(chǎn)生更像原聲的合成語(yǔ)音,還能顯著減少發(fā)音錯(cuò)誤和不自然的語(yǔ)調(diào)變化。
二、Flow-VAE:重新定義聲音的"數(shù)字基因"
除了聲音編碼器的創(chuàng)新,MiniMax-Speech還引入了一項(xiàng)名為Flow-VAE的技術(shù),這項(xiàng)技術(shù)解決了語(yǔ)音合成中另一個(gè)關(guān)鍵問(wèn)題:如何更好地理解和重建聲音的細(xì)微特征。
為了理解Flow-VAE的重要性,可以把傳統(tǒng)的聲音處理方法比作早期的黑白照片沖洗技術(shù)。傳統(tǒng)方法通常使用一種叫做梅爾頻譜圖的中間格式來(lái)處理聲音,這就像把彩色照片先轉(zhuǎn)換成黑白照片,然后再試圖還原成彩色一樣。雖然基本形狀保留了,但很多細(xì)節(jié)和色彩信息在轉(zhuǎn)換過(guò)程中丟失了。
Flow-VAE采用了一種更加直接和高效的方法。它不再依賴(lài)這種"黑白照片"式的中間格式,而是直接從聲音波形中提取和學(xué)習(xí)特征。這就像使用最先進(jìn)的數(shù)字?jǐn)z影技術(shù),能夠捕捉和保留聲音中的每一個(gè)細(xì)微變化。
這項(xiàng)技術(shù)的核心是將兩種不同的數(shù)學(xué)模型巧妙地結(jié)合起來(lái)。第一種叫做變分自編碼器(VAE),它的作用類(lèi)似于一個(gè)智能的信息壓縮專(zhuān)家,能夠找出聲音中最重要的特征并用緊湊的方式表示。第二種叫做流模型(Flow),它像一個(gè)精密的變換器,能夠?qū)W習(xí)復(fù)雜的數(shù)據(jù)分布模式。
當(dāng)這兩種技術(shù)結(jié)合時(shí),產(chǎn)生了一種全新的處理能力。Flow-VAE不僅能夠更準(zhǔn)確地捕捉聲音的基本特征,還能理解這些特征之間復(fù)雜的相互關(guān)系。這就像擁有一個(gè)既能識(shí)別照片中每個(gè)像素顏色,又能理解整體構(gòu)圖美學(xué)的智能系統(tǒng)。
在實(shí)際測(cè)試中,使用Flow-VAE技術(shù)的系統(tǒng)在多個(gè)評(píng)估指標(biāo)上都顯著超越了傳統(tǒng)方法。更重要的是,通過(guò)專(zhuān)業(yè)的聽(tīng)覺(jué)測(cè)試,人們發(fā)現(xiàn)Flow-VAE生成的語(yǔ)音在整體穩(wěn)定性和自然度方面有明顯提升,聽(tīng)起來(lái)更加真實(shí)可信。
三、零門(mén)檻克隆與一鍵增強(qiáng):兩種模式滿足不同需求
MiniMax-Speech的一個(gè)重要?jiǎng)?chuàng)新是它提供了兩種不同的聲音克隆模式,可以根據(jù)用戶(hù)的具體需求和可用資源靈活選擇。
第一種模式被稱(chēng)為"零門(mén)檻聲音克隆",這是MiniMax-Speech的核心優(yōu)勢(shì)。在這種模式下,用戶(hù)只需要提供一段目標(biāo)聲音的錄音樣本,系統(tǒng)就能立即開(kāi)始工作。這個(gè)過(guò)程就像拍立得相機(jī)一樣簡(jiǎn)單直接:放入照片,立即得到結(jié)果,無(wú)需任何額外的操作或等待。
這種模式的強(qiáng)大之處在于它完全不需要錄音的文字對(duì)應(yīng)內(nèi)容。無(wú)論你提供的是一段歌曲、一個(gè)電話錄音,還是一段外語(yǔ)對(duì)話,系統(tǒng)都能從中提取出聲音的本質(zhì)特征。這就像一個(gè)音樂(lè)家僅憑聽(tīng)覺(jué)就能識(shí)別出某個(gè)歌手的聲音,無(wú)論這個(gè)歌手唱的是什么歌曲。
第二種模式叫做"一鍵增強(qiáng)克隆",它在零門(mén)檻模式的基礎(chǔ)上增加了一個(gè)額外的參考樣本。具體來(lái)說(shuō),用戶(hù)除了提供聲音樣本外,還可以提供一段已知文字內(nèi)容的錄音作為示例。這就像給畫(huà)家提供了一張參考素描,能夠幫助畫(huà)家更準(zhǔn)確地把握細(xì)節(jié)。
研究團(tuán)隊(duì)通過(guò)大量測(cè)試發(fā)現(xiàn),這兩種模式各有優(yōu)勢(shì)。零門(mén)檻模式在語(yǔ)音清晰度方面表現(xiàn)更優(yōu),生成的語(yǔ)音發(fā)音更準(zhǔn)確,語(yǔ)調(diào)更自然。這是因?yàn)橄到y(tǒng)不受參考文本的束縛,可以根據(jù)目標(biāo)文本的內(nèi)容靈活調(diào)整語(yǔ)調(diào)和節(jié)奏。
一鍵增強(qiáng)模式雖然在清晰度方面略遜一籌,但在聲音相似度方面表現(xiàn)更好,生成的語(yǔ)音聽(tīng)起來(lái)更像原始說(shuō)話者。這種模式特別適合需要極高聲音還原度的應(yīng)用場(chǎng)景,比如為逝去的親人"復(fù)原"聲音,或者為影視作品中的特定角色配音。
在跨語(yǔ)言合成測(cè)試中,零門(mén)檻模式顯示出了壓倒性的優(yōu)勢(shì)。當(dāng)系統(tǒng)需要讓一個(gè)只會(huì)中文的人的聲音說(shuō)英語(yǔ)時(shí),零門(mén)檻模式生成的語(yǔ)音不僅發(fā)音準(zhǔn)確,而且保持了原有的聲音特色。這是因?yàn)槁曇艟幋a器提取的特征主要反映聲音的物理特性,而不依賴(lài)于特定語(yǔ)言的語(yǔ)法或語(yǔ)調(diào)模式。
四、多語(yǔ)言通用性:一次學(xué)習(xí),全球通用
MiniMax-Speech最令人印象深刻的功能之一是它對(duì)多語(yǔ)言的強(qiáng)大支持能力。這套系統(tǒng)支持32種不同語(yǔ)言的語(yǔ)音合成,從中文、英語(yǔ)、日語(yǔ)這樣的主要語(yǔ)言,到芬蘭語(yǔ)、泰語(yǔ)、越南語(yǔ)這樣的相對(duì)小眾語(yǔ)言,都能處理得游刃有余。
為了驗(yàn)證這種多語(yǔ)言能力,研究團(tuán)隊(duì)構(gòu)建了一個(gè)包含24種語(yǔ)言的專(zhuān)門(mén)測(cè)試集。每種語(yǔ)言包含100個(gè)不同的測(cè)試句子,使用來(lái)自Mozilla Common Voice數(shù)據(jù)庫(kù)的真實(shí)說(shuō)話者聲音進(jìn)行測(cè)試。這就像組織一個(gè)全球語(yǔ)言馬拉松,讓系統(tǒng)在不同的語(yǔ)言跑道上展示自己的能力。
測(cè)試結(jié)果令人印象深刻。在與ElevenLabs的多語(yǔ)言模型的對(duì)比中,MiniMax-Speech在幾乎所有語(yǔ)言上都表現(xiàn)出色。特別是在一些語(yǔ)言結(jié)構(gòu)復(fù)雜的語(yǔ)種上,比如中文、粵語(yǔ)、泰語(yǔ)、越南語(yǔ)和日語(yǔ),MiniMax-Speech的優(yōu)勢(shì)更加明顯。這些語(yǔ)言要么有聲調(diào)變化,要么有復(fù)雜的音韻結(jié)構(gòu),對(duì)語(yǔ)音合成系統(tǒng)來(lái)說(shuō)是真正的挑戰(zhàn)。
更有趣的是跨語(yǔ)言合成能力的測(cè)試。研究團(tuán)隊(duì)選擇了中文說(shuō)話者的聲音,然后讓這些聲音"學(xué)會(huì)"說(shuō)其他語(yǔ)言。結(jié)果顯示,即使是從未接觸過(guò)某種語(yǔ)言的說(shuō)話者,他們的聲音特征也能在新語(yǔ)言中得到很好的保持。這就像一個(gè)從未學(xué)過(guò)意大利語(yǔ)的中國(guó)人,突然能夠用完美的意大利語(yǔ)發(fā)音說(shuō)話,但聲音聽(tīng)起來(lái)仍然是他自己的。
這種跨語(yǔ)言能力的實(shí)現(xiàn),主要?dú)w功于聲音編碼器提取特征時(shí)的"語(yǔ)言無(wú)關(guān)性"。編碼器專(zhuān)注于捕捉聲帶振動(dòng)模式、共鳴腔體特征等物理屬性,這些特征在不同語(yǔ)言中基本保持一致。這就像一個(gè)人的指紋,無(wú)論他用哪只手寫(xiě)字,指紋的基本模式都不會(huì)改變。
在實(shí)際應(yīng)用中,這種多語(yǔ)言能力開(kāi)辟了許多有趣的可能性。比如,一個(gè)中文播客主播可以輕松制作英文版本的節(jié)目,一個(gè)英語(yǔ)教師可以用學(xué)生家長(zhǎng)的聲音錄制個(gè)性化的學(xué)習(xí)材料,或者一個(gè)跨國(guó)公司可以用同一個(gè)代言人的聲音制作不同語(yǔ)言版本的廣告。
五、客觀數(shù)據(jù)說(shuō)話:在權(quán)威測(cè)試中全面領(lǐng)先
為了客觀評(píng)估MiniMax-Speech的性能,研究團(tuán)隊(duì)采用了業(yè)界標(biāo)準(zhǔn)的測(cè)試方法,使用了兩個(gè)關(guān)鍵指標(biāo):詞錯(cuò)誤率(WER)和說(shuō)話者相似度(SIM)。這就像給一個(gè)語(yǔ)音系統(tǒng)進(jìn)行全面體檢,既要檢查它的"理解能力",也要檢查它的"模仿能力"。
詞錯(cuò)誤率測(cè)量的是生成語(yǔ)音的清晰度和準(zhǔn)確性。研究團(tuán)隊(duì)使用專(zhuān)業(yè)的語(yǔ)音識(shí)別軟件將合成語(yǔ)音轉(zhuǎn)換回文字,然后與原始文本進(jìn)行對(duì)比。錯(cuò)誤率越低,說(shuō)明生成的語(yǔ)音越清晰、越容易理解。這就像測(cè)試一個(gè)廣播員的吐字清晰度,看聽(tīng)眾能否準(zhǔn)確理解每一個(gè)詞。
說(shuō)話者相似度則衡量合成語(yǔ)音與原始說(shuō)話者聲音的相似程度。系統(tǒng)通過(guò)分析聲音的各種特征,計(jì)算出一個(gè)相似度分?jǐn)?shù)。分?jǐn)?shù)越高,說(shuō)明克隆的聲音越像原始說(shuō)話者。這就像評(píng)估一個(gè)模仿秀演員的表演水平,看觀眾是否能被"以假亂真"。
在Seed-TTS評(píng)估數(shù)據(jù)集上的測(cè)試結(jié)果令人矚目。這個(gè)數(shù)據(jù)集包含約2000個(gè)中文樣本和1000個(gè)英文樣本,每個(gè)樣本都包含參考音頻和對(duì)應(yīng)的目標(biāo)音頻。在中文測(cè)試中,MiniMax-Speech的零門(mén)檻模式實(shí)現(xiàn)了0.83%的詞錯(cuò)誤率,顯著低于競(jìng)爭(zhēng)對(duì)手Seed-TTS的1.12%和CosyVoice 2的1.45%。更令人驚訝的是,這個(gè)錯(cuò)誤率甚至低于真實(shí)人類(lèi)錄音的1.25%,說(shuō)明合成語(yǔ)音在清晰度方面已經(jīng)超越了人類(lèi)的平均水平。
在英文測(cè)試中,MiniMax-Speech同樣表現(xiàn)出色,詞錯(cuò)誤率為1.65%,遠(yuǎn)低于其他系統(tǒng)。在說(shuō)話者相似度方面,零門(mén)檻模式達(dá)到了0.783的高分,與人類(lèi)真實(shí)錄音的0.750分?jǐn)?shù)非常接近。當(dāng)切換到一鍵增強(qiáng)模式時(shí),相似度進(jìn)一步提升到0.799,超過(guò)了真實(shí)錄音的表現(xiàn)。
這些數(shù)字背后反映的是技術(shù)上的重大突破。傳統(tǒng)觀念認(rèn)為,要獲得高質(zhì)量的語(yǔ)音合成效果,必須在清晰度和相似度之間做出權(quán)衡。但MiniMax-Speech打破了這個(gè)限制,在兩個(gè)指標(biāo)上都取得了優(yōu)異成績(jī)。
六、真實(shí)用戶(hù)的終極考驗(yàn):登頂全球競(jìng)技場(chǎng)
除了實(shí)驗(yàn)室的客觀測(cè)試,MiniMax-Speech還接受了更嚴(yán)苛的挑戰(zhàn):在Artificial Arena這個(gè)全球公開(kāi)的語(yǔ)音合成競(jìng)技場(chǎng)上與其他頂級(jí)系統(tǒng)正面交鋒。這個(gè)平臺(tái)匯集了來(lái)自O(shè)penAI、ElevenLabs、Google、Microsoft、Amazon等科技巨頭的最先進(jìn)產(chǎn)品,通過(guò)真實(shí)用戶(hù)的盲聽(tīng)測(cè)試來(lái)評(píng)判優(yōu)劣。
Artificial Arena的評(píng)估機(jī)制非常嚴(yán)格和公正。用戶(hù)在不知道語(yǔ)音來(lái)源的情況下,聽(tīng)取不同系統(tǒng)生成的語(yǔ)音樣本,然后根據(jù)自然度、清晰度、表現(xiàn)力等因素進(jìn)行投票。系統(tǒng)根據(jù)這些投票計(jì)算ELO評(píng)分,這個(gè)評(píng)分系統(tǒng)最初用于國(guó)際象棋比賽,能夠客觀反映選手的真實(shí)實(shí)力水平。
在這個(gè)競(jìng)技場(chǎng)上,MiniMax-Speech(在平臺(tái)上以Speech-02-HD的名稱(chēng)參賽)獲得了1153分的最高ELO評(píng)分,成功登頂排行榜首位。這個(gè)成績(jī)不僅超越了OpenAI的TTS-1 HD(1151分)和ElevenLabs的Multilingual v2(1116分),更是大幅領(lǐng)先于Google、Microsoft、Amazon等傳統(tǒng)科技巨頭的產(chǎn)品。
更值得注意的是,MiniMax-Speech在競(jìng)技場(chǎng)上使用的完全是零門(mén)檻模式生成的語(yǔ)音。這意味著所有參賽的語(yǔ)音樣本都是系統(tǒng)僅憑借單一錄音樣本即時(shí)生成的,沒(méi)有經(jīng)過(guò)任何針對(duì)性的訓(xùn)練或優(yōu)化。這就像一個(gè)運(yùn)動(dòng)員不僅在正式比賽中獲得金牌,而且完全沒(méi)有針對(duì)比賽進(jìn)行專(zhuān)門(mén)訓(xùn)練,完全憑借日常實(shí)力取勝。
用戶(hù)反饋顯示,人們特別贊賞MiniMax-Speech生成語(yǔ)音的自然度和表現(xiàn)力。許多評(píng)論指出,這些合成語(yǔ)音聽(tīng)起來(lái)"就像真人在說(shuō)話",很難察覺(jué)到任何人工合成的痕跡。這種高度的自然性正是零門(mén)檻模式的優(yōu)勢(shì)體現(xiàn):由于不受參考文本的束縛,系統(tǒng)能夠根據(jù)目標(biāo)內(nèi)容自由調(diào)整語(yǔ)調(diào)和節(jié)奏,產(chǎn)生更加生動(dòng)和有感染力的表達(dá)。
七、技術(shù)架構(gòu)剖析:三大模塊的協(xié)同作戰(zhàn)
MiniMax-Speech的技術(shù)架構(gòu)可以比作一個(gè)高效的聲音工廠,由三個(gè)核心車(chē)間組成,每個(gè)車(chē)間負(fù)責(zé)特定的工作環(huán)節(jié),彼此協(xié)調(diào)配合完成最終的語(yǔ)音合成任務(wù)。
第一個(gè)車(chē)間是文本處理模塊,它的工作是理解和分析輸入的文字內(nèi)容。這個(gè)模塊使用字節(jié)對(duì)編碼(BPE)技術(shù)將文字分解成更小的單元,就像將一個(gè)復(fù)雜的機(jī)械裝置分解成基本零件一樣。這種分解方式能夠幫助系統(tǒng)更好地處理不同語(yǔ)言的文字,無(wú)論是中文的漢字、英文的字母,還是阿拉伯文的符號(hào),都能被統(tǒng)一處理。
第二個(gè)車(chē)間是聲音處理模塊,負(fù)責(zé)將連續(xù)的聲音波形轉(zhuǎn)換成離散的數(shù)字標(biāo)記。這個(gè)過(guò)程就像將流動(dòng)的水流分裝成標(biāo)準(zhǔn)化的瓶裝水,既保持了原有的本質(zhì)特性,又便于后續(xù)的處理和傳輸。系統(tǒng)使用編碼器-量化-解碼器架構(gòu),以每秒25個(gè)標(biāo)記的速度對(duì)梅爾頻譜圖進(jìn)行壓縮編碼,在大幅減少數(shù)據(jù)量的同時(shí)保留了充足的聲學(xué)細(xì)節(jié)。
第三個(gè)車(chē)間是自回歸變換器,這是整個(gè)系統(tǒng)的"大腦",負(fù)責(zé)將文字信息和聲音特征結(jié)合起來(lái),生成最終的語(yǔ)音標(biāo)記序列。這個(gè)過(guò)程類(lèi)似于一個(gè)經(jīng)驗(yàn)豐富的配音演員,根據(jù)劇本內(nèi)容和角色特點(diǎn),決定每個(gè)詞語(yǔ)應(yīng)該如何發(fā)音、用什么語(yǔ)調(diào)、在哪里停頓。
聲音編碼器作為一個(gè)特殊的輔助模塊,專(zhuān)門(mén)負(fù)責(zé)從參考音頻中提取說(shuō)話者的身份特征。它不關(guān)心說(shuō)話內(nèi)容,只專(zhuān)注于分析聲音的本質(zhì)屬性,比如音色、共鳴特點(diǎn)、發(fā)音習(xí)慣等。這些特征被轉(zhuǎn)換成一個(gè)固定大小的數(shù)字向量,作為"身份卡片"輸入到自回歸變換器中。
Flow-VAE模塊則充當(dāng)質(zhì)量控制部門(mén)的角色。它接收自回歸變換器生成的離散標(biāo)記,將其轉(zhuǎn)換為連續(xù)的聲學(xué)特征,然后通過(guò)神經(jīng)聲碼器最終生成音頻波形。這個(gè)過(guò)程就像將工廠生產(chǎn)的半成品進(jìn)行精加工和質(zhì)量檢驗(yàn),確保最終產(chǎn)品達(dá)到最高標(biāo)準(zhǔn)。
整個(gè)架構(gòu)的巧妙之處在于各個(gè)模塊之間的配合方式。聲音編碼器提供身份信息,文本處理模塊提供內(nèi)容信息,自回歸變換器負(fù)責(zé)融合這些信息并做出決策,F(xiàn)low-VAE負(fù)責(zé)將決策轉(zhuǎn)化為高質(zhì)量的音頻輸出。這種分工協(xié)作的方式不僅提高了系統(tǒng)的效率,也增強(qiáng)了各個(gè)模塊的專(zhuān)業(yè)化程度。
八、技術(shù)對(duì)決:深度解析關(guān)鍵創(chuàng)新的價(jià)值
為了驗(yàn)證各項(xiàng)技術(shù)創(chuàng)新的具體價(jià)值,研究團(tuán)隊(duì)進(jìn)行了詳細(xì)的對(duì)比實(shí)驗(yàn),就像在實(shí)驗(yàn)室中逐一測(cè)試每個(gè)組件的性能表現(xiàn)。
在聲音編碼器的對(duì)比測(cè)試中,研究團(tuán)隊(duì)設(shè)計(jì)了三種不同的配置方案。第一種使用他們開(kāi)發(fā)的學(xué)習(xí)型聲音編碼器,第二種使用從預(yù)訓(xùn)練聲音驗(yàn)證模型中提取的固定特征,第三種完全依賴(lài)文本提示樣本。測(cè)試結(jié)果清晰地顯示了學(xué)習(xí)型編碼器的優(yōu)勢(shì)。
學(xué)習(xí)型編碼器在零門(mén)檻模式下實(shí)現(xiàn)了1.252%的詞錯(cuò)誤率和0.730的說(shuō)話者相似度,這個(gè)組合在所有測(cè)試配置中表現(xiàn)最均衡。相比之下,使用預(yù)訓(xùn)練特征的配置雖然在相似度方面表現(xiàn)不錯(cuò)(0.746),但詞錯(cuò)誤率明顯較高(1.400),說(shuō)明語(yǔ)音清晰度有所下降。完全依賴(lài)文本提示的配置在清晰度方面表現(xiàn)最好(1.207),但說(shuō)話者相似度最低(0.726),意味著生成的聲音與原始說(shuō)話者差異較大。
這些結(jié)果揭示了一個(gè)重要的技術(shù)洞察:專(zhuān)門(mén)為語(yǔ)音合成任務(wù)訓(xùn)練的編碼器比通用的聲音識(shí)別模塊更適合這個(gè)特定應(yīng)用。這就像專(zhuān)業(yè)的運(yùn)動(dòng)鞋比通用的休閑鞋更適合跑步一樣,針對(duì)性的設(shè)計(jì)能夠帶來(lái)顯著的性能提升。
Flow-VAE技術(shù)的驗(yàn)證實(shí)驗(yàn)分為兩個(gè)層面進(jìn)行。在聲碼器重建測(cè)試中,F(xiàn)low-VAE在所有客觀指標(biāo)上都超越了傳統(tǒng)VAE模型。無(wú)論是語(yǔ)音質(zhì)量評(píng)分、頻譜失真度,還是可懂度指標(biāo),F(xiàn)low-VAE都表現(xiàn)出明顯優(yōu)勢(shì)。更重要的是,在主觀聽(tīng)覺(jué)測(cè)試中,使用Flow-VAE的系統(tǒng)生成的語(yǔ)音在整體穩(wěn)定性方面有顯著改善,聽(tīng)起來(lái)更加自然流暢。
在文本到語(yǔ)音的完整合成測(cè)試中,F(xiàn)low-VAE的價(jià)值進(jìn)一步得到驗(yàn)證。無(wú)論是在零門(mén)檻模式還是一鍵增強(qiáng)模式下,使用Flow-VAE的系統(tǒng)都比傳統(tǒng)VAE系統(tǒng)表現(xiàn)更好。特別是在說(shuō)話者相似度方面,改進(jìn)效果非常明顯,這對(duì)于聲音克隆應(yīng)用來(lái)說(shuō)至關(guān)重要。
這些對(duì)比實(shí)驗(yàn)不僅驗(yàn)證了技術(shù)創(chuàng)新的有效性,也為未來(lái)的系統(tǒng)優(yōu)化指明了方向。結(jié)果表明,在語(yǔ)音合成這個(gè)復(fù)雜的任務(wù)中,每個(gè)組件的專(zhuān)業(yè)化設(shè)計(jì)都能帶來(lái)實(shí)質(zhì)性的改進(jìn),而不是簡(jiǎn)單地堆疊更多的通用技術(shù)。
九、應(yīng)用拓展:從情感控制到專(zhuān)業(yè)配音的無(wú)限可能
MiniMax-Speech的技術(shù)架構(gòu)不僅在基礎(chǔ)語(yǔ)音合成方面表現(xiàn)出色,更重要的是它為各種創(chuàng)新應(yīng)用提供了堅(jiān)實(shí)的技術(shù)基礎(chǔ)。研究團(tuán)隊(duì)開(kāi)發(fā)了三個(gè)主要的擴(kuò)展應(yīng)用,展示了這項(xiàng)技術(shù)的巨大潛力。
第一個(gè)擴(kuò)展應(yīng)用是情感控制系統(tǒng),它能夠讓合成語(yǔ)音表達(dá)不同的情緒色彩。這個(gè)功能的實(shí)現(xiàn)基于LoRA(低秩適應(yīng))技術(shù),可以比作給聲音系統(tǒng)配備不同的"情感濾鏡"。系統(tǒng)預(yù)先訓(xùn)練了多個(gè)情感模塊,每個(gè)模塊專(zhuān)門(mén)負(fù)責(zé)某種特定情感的表達(dá),比如快樂(lè)、悲傷、憤怒、驚訝等。
在使用時(shí),用戶(hù)只需要選擇想要的情感類(lèi)型,系統(tǒng)就會(huì)動(dòng)態(tài)加載對(duì)應(yīng)的情感模塊,讓同一個(gè)聲音展現(xiàn)出完全不同的情感色彩。這就像一個(gè)演員能夠根據(jù)劇情需要隨時(shí)切換情緒狀態(tài)一樣。更巧妙的是,這些情感模塊是在原始系統(tǒng)基礎(chǔ)上輕量級(jí)訓(xùn)練的,不會(huì)影響基礎(chǔ)的聲音克隆能力。
研究團(tuán)隊(duì)在訓(xùn)練情感模塊時(shí)發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:使用情感對(duì)比強(qiáng)烈的訓(xùn)練樣本效果最好。比如,要訓(xùn)練"快樂(lè)"模塊,最好的方法是提供同一個(gè)人分別用快樂(lè)和中性語(yǔ)調(diào)說(shuō)同一句話的錄音。這種對(duì)比訓(xùn)練幫助系統(tǒng)準(zhǔn)確學(xué)會(huì)情感表達(dá)的精髓,而不是簡(jiǎn)單地模仿表面特征。
第二個(gè)擴(kuò)展應(yīng)用是文本驅(qū)動(dòng)的聲音生成(T2V),這個(gè)功能允許用戶(hù)僅通過(guò)文字描述就能創(chuàng)造出想要的聲音特征。用戶(hù)可以輸入類(lèi)似"一個(gè)溫暖的中年女性聲音,語(yǔ)速稍快"這樣的描述,系統(tǒng)就能生成符合要求的聲音特征。
這個(gè)功能的實(shí)現(xiàn)涉及到復(fù)雜的特征映射技術(shù)。系統(tǒng)首先收集了大量帶有詳細(xì)標(biāo)簽的語(yǔ)音數(shù)據(jù),包括性別、年齡、語(yǔ)速、音調(diào)、音量等多個(gè)維度的信息。然后使用主成分分析技術(shù)將高維的聲音特征壓縮到128維的緊湊表示中,同時(shí)保留最重要的聲音特征。
在訓(xùn)練過(guò)程中,系統(tǒng)學(xué)會(huì)了將自然語(yǔ)言描述映射到聲音特征空間。為了提高系統(tǒng)的魯棒性,研究團(tuán)隊(duì)還采用了隨機(jī)掩碼技術(shù),有意在訓(xùn)練時(shí)隱藏部分描述信息,讓系統(tǒng)學(xué)會(huì)處理不完整的輸入。這就像訓(xùn)練一個(gè)畫(huà)家在信息不全的情況下仍能創(chuàng)作出合理的作品。
第三個(gè)擴(kuò)展應(yīng)用是專(zhuān)業(yè)聲音克?。≒VC),專(zhuān)門(mén)為需要極高聲音還原度的場(chǎng)景設(shè)計(jì)。與基礎(chǔ)的零門(mén)檻克隆不同,PVC采用參數(shù)高效微調(diào)的方法,為特定說(shuō)話者優(yōu)化專(zhuān)屬的聲音表示。
PVC的工作原理可以比作為某個(gè)特定客戶(hù)量身定制服裝。系統(tǒng)首先收集目標(biāo)說(shuō)話者的多段錄音,然后僅針對(duì)這個(gè)人的聲音特征進(jìn)行專(zhuān)門(mén)優(yōu)化。整個(gè)優(yōu)化過(guò)程只調(diào)整與該說(shuō)話者相關(guān)的聲音特征向量,而不修改系統(tǒng)的其他部分。這種方法既保持了系統(tǒng)的通用性,又能為特定用戶(hù)提供最優(yōu)的服務(wù)質(zhì)量。
PVC特別適合那些對(duì)聲音還原度要求極高的應(yīng)用場(chǎng)景,比如為電影明星配音、為歷史人物"復(fù)活"聲音,或者為企業(yè)高管制作個(gè)性化的語(yǔ)音內(nèi)容。通過(guò)少量的專(zhuān)門(mén)訓(xùn)練,PVC能夠顯著提升聲音相似度和自然度,讓合成語(yǔ)音幾乎無(wú)法與真人錄音區(qū)分。
這三個(gè)擴(kuò)展應(yīng)用展示了MiniMax-Speech技術(shù)架構(gòu)的強(qiáng)大適應(yīng)性。由于核心的聲音編碼器提供了穩(wěn)定而靈活的聲音表示,各種創(chuàng)新應(yīng)用都能在不破壞基礎(chǔ)功能的前提下輕松集成。這就像在一個(gè)堅(jiān)固的地基上可以建造各種不同風(fēng)格的建筑一樣,技術(shù)的模塊化設(shè)計(jì)為未來(lái)的創(chuàng)新留下了無(wú)限的可能空間。
說(shuō)到底,MiniMax-Speech代表的不僅僅是語(yǔ)音合成技術(shù)的一次重大突破,更是人工智能技術(shù)向更加人性化、更加實(shí)用化方向發(fā)展的重要里程碑。這項(xiàng)技術(shù)讓機(jī)器真正學(xué)會(huì)了"聽(tīng)懂"人類(lèi)聲音的本質(zhì),并能夠用這種理解來(lái)創(chuàng)造出幾乎無(wú)法區(qū)分真假的語(yǔ)音內(nèi)容。
從技術(shù)角度來(lái)看,MiniMax-Speech解決了長(zhǎng)期困擾語(yǔ)音合成領(lǐng)域的幾個(gè)核心難題。零門(mén)檻的聲音克隆能力打破了傳統(tǒng)方法對(duì)文字對(duì)應(yīng)內(nèi)容的依賴(lài),讓聲音的"身份"和"內(nèi)容"實(shí)現(xiàn)了真正的分離。Flow-VAE技術(shù)的引入顯著提升了生成語(yǔ)音的質(zhì)量和穩(wěn)定性,而多語(yǔ)言支持能力則展現(xiàn)了系統(tǒng)的強(qiáng)大通用性。
從應(yīng)用角度來(lái)看,這項(xiàng)技術(shù)開(kāi)啟了無(wú)數(shù)令人興奮的可能性。無(wú)論是內(nèi)容創(chuàng)作者希望用不同語(yǔ)言制作節(jié)目,還是教育工作者想要個(gè)性化學(xué)習(xí)材料,或者是企業(yè)希望提供更好的客戶(hù)服務(wù)體驗(yàn),MiniMax-Speech都能提供前所未有的解決方案。
更重要的是,MiniMax-Speech在全球公開(kāi)競(jìng)技場(chǎng)上的優(yōu)異表現(xiàn)證明了中國(guó)科技企業(yè)在前沿人工智能技術(shù)方面的創(chuàng)新實(shí)力。在這個(gè)以O(shè)penAI、Google、Microsoft等國(guó)際巨頭為主導(dǎo)的競(jìng)爭(zhēng)格局中,MiniMax能夠脫穎而出并登頂榜首,不僅是技術(shù)實(shí)力的體現(xiàn),更是中國(guó)人工智能產(chǎn)業(yè)走向世界前沿的重要標(biāo)志。
當(dāng)然,任何先進(jìn)技術(shù)的發(fā)展都需要在應(yīng)用中不斷完善和優(yōu)化。隨著更多用戶(hù)開(kāi)始使用MiniMax-Speech,相信這項(xiàng)技術(shù)會(huì)在實(shí)際應(yīng)用中得到進(jìn)一步的改進(jìn)和發(fā)展。從實(shí)驗(yàn)室的突破到真正改變?nèi)藗兩畹墓ぞ?,MiniMax-Speech正站在這個(gè)轉(zhuǎn)變的關(guān)鍵節(jié)點(diǎn)上。
對(duì)于那些對(duì)這項(xiàng)技術(shù)感興趣并希望深入了解更多細(xì)節(jié)的讀者,可以訪問(wèn)研究團(tuán)隊(duì)提供的技術(shù)報(bào)告網(wǎng)站https://minimax-ai.github.io/tts_tech_report,那里有更多的演示樣例和技術(shù)細(xì)節(jié)可供參考。這項(xiàng)技術(shù)的故事才剛剛開(kāi)始,它將如何改變我們與聲音、與語(yǔ)言、與技術(shù)的關(guān)系,值得我們持續(xù)關(guān)注和期待。
Q&A
Q1:MiniMax-Speech的"零門(mén)檻"是什么意思?有什么特別之處? A:零門(mén)檻指的是只需要一段錄音樣本就能克隆聲音,不需要提供錄音的文字內(nèi)容,也不需要專(zhuān)門(mén)訓(xùn)練。這比傳統(tǒng)方法簡(jiǎn)單很多,傳統(tǒng)方法通常需要聲音樣本和對(duì)應(yīng)文字才能工作,而且效果還不如MiniMax-Speech。
Q2:這個(gè)技術(shù)能支持多少種語(yǔ)言?跨語(yǔ)言效果怎么樣? A:MiniMax-Speech支持32種語(yǔ)言,包括中文、英語(yǔ)、日語(yǔ)等主要語(yǔ)言,也包括芬蘭語(yǔ)、泰語(yǔ)等小眾語(yǔ)言。最神奇的是,它能讓一個(gè)只會(huì)中文的人的聲音完美地說(shuō)英語(yǔ)、法語(yǔ)等其他語(yǔ)言,而且聽(tīng)起來(lái)仍然是原來(lái)那個(gè)人的聲音。
Q3:MiniMax-Speech在實(shí)際應(yīng)用中表現(xiàn)如何?真的比其他公司的產(chǎn)品好嗎? A:在全球公開(kāi)的語(yǔ)音合成競(jìng)技場(chǎng)Artificial Arena上,MiniMax-Speech擊敗了OpenAI、Google、Microsoft等所有主要對(duì)手,獲得第一名。這個(gè)排名基于真實(shí)用戶(hù)的盲聽(tīng)測(cè)試,說(shuō)明普通人確實(shí)認(rèn)為它生成的語(yǔ)音最自然、最真實(shí)。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語(yǔ)言模型的敘事推理能力與音頻生成技術(shù),通過(guò)交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開(kāi)辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過(guò)讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問(wèn)題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語(yǔ)言模型人性化對(duì)話問(wèn)題。該研究創(chuàng)建了包含20萬(wàn)高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過(guò)創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開(kāi)發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過(guò)學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來(lái)了效率和精度的雙重突破。