在2025年5月29日,波森AI(Boson AI)的研究團(tuán)隊向?qū)W術(shù)界發(fā)布了一項開創(chuàng)性研究。這項名為"EmergentTTS-Eval"的工作由Ruskin Raj Manku、Yuzhi Tang、Xingjian Shi、Mu Li和Alex Smola共同完成,發(fā)表于arXiv預(yù)印本平臺(arXiv:2505.23009v1)。這項研究針對當(dāng)前文本轉(zhuǎn)語音(TTS)系統(tǒng)在面對復(fù)雜語言挑戰(zhàn)時的評估方法提出了全新解決方案,同時引入了"模型即評判者"的創(chuàng)新評估框架。
一、研究背景:為什么我們需要更好的語音合成評估方法?
想象一下,你正在使用一個語音助手朗讀你最喜歡的小說。當(dāng)故事進(jìn)行到緊張的對白部分,你希望助手能用激動的語氣朗讀;當(dāng)遇到外語短語時,你期待它能發(fā)音準(zhǔn)確;當(dāng)角色驚訝地說"哇哦!真是太——驚——人——了!"時,你希望它能表現(xiàn)出適當(dāng)?shù)捏@訝和語調(diào)變化。但現(xiàn)實中,大多數(shù)語音助手在處理這些復(fù)雜場景時往往顯得生硬、單調(diào),甚至出錯。
這正是波森AI研究團(tuán)隊關(guān)注的問題。他們發(fā)現(xiàn),雖然現(xiàn)代文本轉(zhuǎn)語音(TTS)技術(shù)在處理標(biāo)準(zhǔn)、格式良好的文本時已經(jīng)取得了顯著進(jìn)步,展現(xiàn)出接近人類的自然度和質(zhì)量,但當(dāng)面對更復(fù)雜、多樣化的文本提示時,系統(tǒng)性能往往大打折扣。例如,在處理代碼切換(在同一段話中混合使用多種語言)或復(fù)雜技術(shù)字符序列時,現(xiàn)有TTS系統(tǒng)的表現(xiàn)仍有明顯不足。
更令人擔(dān)憂的是,現(xiàn)有的TTS評估方法遠(yuǎn)遠(yuǎn)落后于實際應(yīng)用場景的復(fù)雜性。當(dāng)前的評估基準(zhǔn)通常存在幾個明顯缺陷:它們往往使用受限的文本領(lǐng)域,缺乏語言現(xiàn)象的多樣性,并依賴成本高昂、難以復(fù)制的人工評估,這些評估在不同聽眾群體之間可能存在顯著差異。更糟的是,多語言代碼切換的評估需要極其精通多語言的評估者(或許多專業(yè)評估者)。因此,出于實用性考慮,許多評估僅關(guān)注語音克隆這一單一方面。
二、EmergentTTS-Eval:一個全面的評估框架
為了解決這些問題,波森AI團(tuán)隊提出了EmergentTTS-Eval,這是一個專門設(shè)計用于評估TTS系統(tǒng)在復(fù)雜場景下表現(xiàn)的綜合基準(zhǔn)。想象它就像一個嚴(yán)格的駕駛考試,不僅要求你能在平坦道路上行駛,還要測試你在急轉(zhuǎn)彎、坡道、惡劣天氣等各種復(fù)雜條件下的駕駛能力。
EmergentTTS-Eval涵蓋了六個關(guān)鍵維度的挑戰(zhàn)場景:
首先是情感表達(dá)(Emotions)。就像演員需要表達(dá)各種情緒一樣,TTS系統(tǒng)需要準(zhǔn)確反映人類情感和聲音。例如,在朗讀奇幻或兒童文學(xué)作品時,系統(tǒng)必須真實地處理引用對話和非語言線索,以保持聽眾的參與感。
其次是非語言線索(Paralinguistics)。這類似于我們在說話時使用的各種聲音修飾,如"嗯..."表示思考,"哇!"表示驚訝,或者通過拉長某些音節(jié)"真——棒——啊"來強(qiáng)調(diào)情感。
第三是語法復(fù)雜性(Syntactic Complexity)。這就像閱讀法律文本或文學(xué)作品中那些結(jié)構(gòu)復(fù)雜的長句子,需要系統(tǒng)正確理解句子結(jié)構(gòu)并通過適當(dāng)?shù)耐nD和語調(diào)引導(dǎo)聽眾理解。
第四是問題表達(dá)(Questions)。TTS系統(tǒng)需要適當(dāng)?shù)靥幚硪蓡柧?,用合適的語調(diào)結(jié)束問句,這在對話場景中尤為重要。
第五是外語詞匯(Foreign Words)。在全球化世界中,文本常常包含多語言內(nèi)容,TTS系統(tǒng)需要準(zhǔn)確發(fā)音這些外語詞匯。
最后是復(fù)雜發(fā)音(Complex Pronunciation)。這包括特殊字符、數(shù)字以及科學(xué)和學(xué)術(shù)文本中的方程式等難以發(fā)音的內(nèi)容。
EmergentTTS-Eval的獨特之處在于其測試用例生成和評估的自動化框架。研究團(tuán)隊從一小組人工編寫的種子提示開始,使用大型語言模型(LLM)迭代擴(kuò)展這些提示,針對特定的結(jié)構(gòu)、語音和韻律挑戰(zhàn),最終產(chǎn)生了1,645個多樣化的測試用例。
三、模型即評判者:人工智能如何評估語音質(zhì)量?
傳統(tǒng)上,評估TTS系統(tǒng)的質(zhì)量需要人類評估者聆聽語音樣本并給出主觀評分。這種方法不僅成本高昂,而且難以大規(guī)模實施,更不用說其中可能存在的主觀偏差。
波森AI團(tuán)隊提出了一種創(chuàng)新方法:使用大型音頻語言模型(LALM)作為評判者。想象一下,這就像請一位音樂評論家評價一場音樂會的表現(xiàn)。這位"評論家"是一個經(jīng)過特殊訓(xùn)練的AI模型,能夠理解語音、文本和它們之間的關(guān)系。
具體來說,研究團(tuán)隊使用了Gemini 2.5 Pro作為主要評判模型,這是因為它在已建立的音頻推理基準(zhǔn)測試(如MMAU)上表現(xiàn)出色。在評估過程中,對于每個評估實例,兩個TTS系統(tǒng)會針對相同的輸入生成語音,并隨機(jī)指定為T1和T2以避免位置偏差。LALM評判者會收到原始文本、相關(guān)類別標(biāo)簽以及結(jié)構(gòu)化評估提示,包括目標(biāo)評估維度(例如,韻律、情感)、評分標(biāo)準(zhǔn)和詳細(xì)的類別特定推理指南。
評判模型會返回包含每個系統(tǒng)表現(xiàn)的自然語言解釋、比較分析、突出關(guān)鍵差異(標(biāo)記為微妙或顯著)、每個系統(tǒng)0-3范圍內(nèi)的標(biāo)量分?jǐn)?shù),以及最終的獲勝者標(biāo)簽:0表示平局,1表示T1優(yōu)勝,2表示T2優(yōu)勝。整個評估過程被設(shè)計為引出基于時間戳的鏈?zhǔn)剿伎纪评?,并鼓勵模型通過闡述細(xì)微差別來解決邊界情況,預(yù)測基于人類的偏好。
研究團(tuán)隊采用基于勝率的指標(biāo)來總結(jié)性能。如果一個系統(tǒng)Ti相對于基線Tj的勝率為W(Ti),計算方法是:獲勝次數(shù)加上0.5乘以平局次數(shù),然后除以總比較次數(shù)。0.5的分?jǐn)?shù)反映了與基線相當(dāng)?shù)谋憩F(xiàn),而偏離則表示相對優(yōu)勢或劣勢。
這種評估方法實現(xiàn)了穩(wěn)健、可解釋且可重現(xiàn)的TTS比較,而且規(guī)??蓴U(kuò)展。與人類評估者不同,LALM評判者可以在多語言和韻律豐富的語音上提供一致的判斷,其輸出包括基于時間戳的理由,支持細(xì)粒度的診斷分析。
四、研究發(fā)現(xiàn):誰是語音合成的佼佼者?
研究團(tuán)隊使用EmergentTTS-Eval評估了多個最先進(jìn)的開源和專有TTS系統(tǒng),包括11Labs、Deepgram和OpenAI的4o-mini-TTS。結(jié)果展示了這些系統(tǒng)在面對各種挑戰(zhàn)時的細(xì)粒度性能差異。
總體來看,GPT-4o-Audio(Ballad語音)取得了最高的整體性能,勝率達(dá)到65.17%。它在情感表達(dá)(88.84%)和非語言線索(82.14%)這些注重表現(xiàn)力的類別中表現(xiàn)特別強(qiáng)勁。值得注意的是,只有采用強(qiáng)提示的GPT-4o-mini-tts在"復(fù)雜發(fā)音"類別中超過了50%的勝率,這表明OpenAI可能針對這一能力進(jìn)行了專門優(yōu)化。
HumeAI排名為第二佳的閉源系統(tǒng),性能優(yōu)于Deepgram的Aura-2(Thalia)和ElevenLabs的Multilingual v2(Brian)。Aura-2在多語言設(shè)置中表現(xiàn)不佳,這與其缺乏顯式多語言支持一致;當(dāng)排除"外語詞匯"類別時,其勝率上升到約35%,略高于ElevenLabs。
在開源模型中,Orpheus-TTS表現(xiàn)最佳,Qwen 2.5 Omni緊隨其后。相比之下,Bark和Sesame1B展現(xiàn)出顯著的性能缺陷,特別是在"情感"類別中。所有開源模型在"復(fù)雜發(fā)音"類別中表現(xiàn)都很差。
研究團(tuán)隊還觀察到,強(qiáng)提示(即提供類別特定的指導(dǎo))一致地提高了所有可用提示和未提示評估的模型的性能。例如,在強(qiáng)提示下,GPT-4o-mini-tts達(dá)到了56%的勝率,顯示出相對于其基線配置的明顯改進(jìn)。GPT-4o-audio-preview也觀察到了類似的提升。
勝率和MOS(平均意見得分)衡量的是語音質(zhì)量的不同方面。例如,雖然Deepgram獲得了最高的MOS得分,但幾個MOS得分較低的模型卻有更高的勝率。同樣,Bark在MOS上優(yōu)于一些開源模型,但在勝率上明顯表現(xiàn)不佳。
五、深度分析:性能趨勢與系統(tǒng)失效模式
研究團(tuán)隊對每個類別在不同精煉深度上的模型勝率進(jìn)行了深入分析。模型自然地聚集為高性能(平均勝率>50%)和低性能組。雖然我們可能預(yù)期更深層次的語句會擴(kuò)大這一性能差距——強(qiáng)模型表現(xiàn)更出色而弱模型表現(xiàn)更差——但研究發(fā)現(xiàn)顯示出更微妙的模式。
在更高復(fù)雜度層次上,兩種模型可能都會遇到困難,增加平局的可能性。此外,強(qiáng)模型有時會在面對更大復(fù)雜性時顯示出系統(tǒng)性弱點,而表現(xiàn)較差的模型有時通過避免特定失效模式匹配或超過基線。盡管如此,六個類別中的四個展示出明顯的深度敏感性能趨勢。例外是"問題"和"語法復(fù)雜性",其中更微妙的韻律期望導(dǎo)致跨深度的差異化不那么明顯。
深度分析還揭示了一致的失效模式,并證明了評判者對韻律、語音和語義不匹配的敏感性。大多數(shù)開源模型能夠適當(dāng)處理"問題"和"語法復(fù)雜性",Sesame1B是明顯的例外,因為其平坦的語調(diào)和較差的停頓。Sesame1B在"情感"方面尤其掙扎,經(jīng)常插入隨機(jī)的插入語或產(chǎn)生單調(diào)的語音。所有開源模型在"復(fù)雜發(fā)音"上表現(xiàn)不佳,錯誤讀取小數(shù)點,丟棄數(shù)字,并在更高復(fù)雜度下崩潰,MiniCPM和Tortoise-TTS甚至在深度0處就完全失敗。
對于"外語詞匯",Sesame用不相關(guān)的內(nèi)容替代非英語標(biāo)記,而Orpheus將發(fā)音英語化到在語音上不正確的程度。
商業(yè)模型展示了不同的局限性:ElevenLabs在"復(fù)雜發(fā)音"方面表現(xiàn)不佳,而Deepgram Aura-2在處理較長語句時性能下降,并在表達(dá)豐富的非語言線索時掙扎。OpenAI模型在情感和多語言內(nèi)容方面表現(xiàn)出色,但仍然偶爾出現(xiàn)細(xì)微問題——偶爾的發(fā)音錯誤、丟失日期和合成崩潰——這些都被評判者成功識別。
評判者能夠有效區(qū)分強(qiáng)調(diào)表現(xiàn),識別同形異義詞歧義消除,并獎勵適當(dāng)?shù)捻嵚?,盡管微妙的非語言線索和情感轉(zhuǎn)變?nèi)匀皇峭昝涝u估的挑戰(zhàn)。
六、文本標(biāo)準(zhǔn)化的影響與人類評估的一致性
在復(fù)雜發(fā)音類別的主要挑戰(zhàn)在于解析不常見字符及其組合,這可以通過在將文本發(fā)送到TTS模型之前使用文本標(biāo)準(zhǔn)化(TN)技術(shù)來簡化。研究團(tuán)隊測量了各種TN技術(shù)對勝率變化的影響,并增加了使用LLM(GPT-4.1-mini)作為TN的數(shù)據(jù)點。
結(jié)果表明,基本的TN技術(shù)并不總是提高模型在基準(zhǔn)測試上的性能,有時甚至可能使其變差。例如,WeText將"$1,890.125375"轉(zhuǎn)換為"one thousand eight hundred and ninety point one dollars twenty five thousand three hundred and seventy five",這對TTS質(zhì)量有害。同樣,"0"有時被標(biāo)準(zhǔn)化為非正式的"oh",這在正式或小數(shù)上下文中并不理想。"SQL"被正確地標(biāo)準(zhǔn)化為"S Q L",但基線的發(fā)音"Sequel"是首選。使用LLM進(jìn)行TN解決了許多這些問題并顯著提高了勝率,盡管使用的基本提示仍存在一些錯誤。
為了測量模型評判者的偏好與人類偏好的相關(guān)性,研究團(tuán)隊進(jìn)行了人類評估研究。他們創(chuàng)建了一個在線調(diào)查,讓人類評判者呈現(xiàn)由基線TTS和比較TTS生成的音頻片段對,并指示評價哪個更好(或平局)。為確保評估的一致性,參與者根據(jù)改編自模型評判者使用的提示的指示和評估標(biāo)準(zhǔn)進(jìn)行指導(dǎo)。
研究團(tuán)隊計算了基于人類評分的比較模型排名(相對于基線)與每個模型評判者導(dǎo)出的排名之間的Spearman相關(guān)性。如表3b所示,所有評判者都獲得了高相關(guān)性分?jǐn)?shù),表明模型評判者與人類在確定哪個TTS系統(tǒng)表現(xiàn)更好方面密切鏡像人類偏好。
七、研究局限性與未來方向
研究團(tuán)隊指出了與數(shù)據(jù)集創(chuàng)建和LALM-as-judge范式相關(guān)的兩個主要限制。首先,LALM具有可能在合成數(shù)據(jù)集中表現(xiàn)出的內(nèi)在偏見,如偏好文學(xué)語言和形式措辭模式。對于"外語詞匯"和"語法復(fù)雜性"等類別,深度=3的精煉級別產(chǎn)生了語法正確但在自然交流中很少出現(xiàn)的有些人工化的語句,不過這些仍然可以作為TTS系統(tǒng)的可靠壓力測試。此外,他們的多語言評估側(cè)重于拉丁文轉(zhuǎn)寫而非本地字符集,這并不能完全捕捉真正多語言TTS的挑戰(zhàn)。
關(guān)于評估,使用Gemini 2.5 Pro會產(chǎn)生相當(dāng)大的成本——每次完整的TTS系統(tǒng)評估約50美元。然而,不同評判模型之間觀察到的強(qiáng)烈排名一致性表明,在不顯著損失質(zhì)量的情況下,有機(jī)會使用更經(jīng)濟(jì)的替代方案。研究團(tuán)隊還觀察到,評估情感、韻律和語調(diào)等主觀方面有時會導(dǎo)致LALM幻覺,評判者錯誤地識別發(fā)音問題。
盡管存在這些考慮因素,EmergentTTS-Eval代表了TTS評估方法的重大進(jìn)步,通過解決現(xiàn)有基準(zhǔn)中的關(guān)鍵差距。該方法系統(tǒng)地挑戰(zhàn)了TTS系統(tǒng)在傳統(tǒng)指標(biāo)忽視的維度上的表現(xiàn),同時提供了資源密集型人類評估的可擴(kuò)展替代方案。評判者與人類偏好之間的強(qiáng)相關(guān)性驗證了該方法,而基準(zhǔn)測試揭示細(xì)粒度性能差異的能力證明了其在推動創(chuàng)建更人性化合成語音方面的實用價值。
八、結(jié)語:語音合成評估的新時代
在數(shù)字助手、有聲讀物和無障礙工具日益普及的時代,能夠生成自然、表達(dá)豐富的語音的TTS系統(tǒng)變得越來越重要。波森AI團(tuán)隊的EmergentTTS-Eval代表了評估這些系統(tǒng)的一種新方法,超越了簡單的質(zhì)量度量,深入研究了真實世界應(yīng)用中TTS系統(tǒng)面臨的復(fù)雜挑戰(zhàn)。
這項研究的重要性不僅在于它提供了一個更全面的TTS評估框架,還在于它引入了使用人工智能評估人工智能的創(chuàng)新方法。通過將大型音頻語言模型作為評判者,研究團(tuán)隊能夠大規(guī)模進(jìn)行細(xì)粒度的評估,而這在傳統(tǒng)上需要大量人力和專業(yè)知識。
或許最令人興奮的是,該團(tuán)隊已經(jīng)開源了評估代碼和數(shù)據(jù)集,這意味著研究社區(qū)和行業(yè)可以建立在這項工作的基礎(chǔ)上,進(jìn)一步推進(jìn)TTS技術(shù)的發(fā)展。隨著語音合成繼續(xù)融入我們的日常生活,像EmergentTTS-Eval這樣的工具將幫助確保這些系統(tǒng)不僅能說話,還能以人類能夠理解和欣賞的方式說話。
感興趣的讀者可以通過訪問GitHub(https://github.com/boson-ai/EmergentTTS-Eval-public)和Hugging Face(https://huggingface.co/datasets/bosonai/EmergentTTS-Eval)獲取完整的評估代碼和數(shù)據(jù)集。
好文章,需要你的鼓勵
新加坡國立大學(xué)研究團(tuán)隊開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實驗顯示,僅訓(xùn)練AI玩簡單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實現(xiàn)37.9%的精度提升,并在真實設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊通過對比實驗發(fā)現(xiàn),經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時刻"現(xiàn)象,但這些自我糾錯行為并不能實際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗證差距",即生成答案的能力強(qiáng)于驗證答案質(zhì)量的能力,且模型在自我驗證時無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動態(tài)稀疏性實現(xiàn)大語言模型訓(xùn)練加速1.6倍,計算成本降低2.2倍。該方法使用SVD稀疏性估計器智能選擇重要計算部分,在保持模型性能的同時顯著提升訓(xùn)練效率,已在多個任務(wù)上驗證有效性。