研究背景與團隊介紹
想象一下,你能夠通過簡單的文字描述就讓AI說話的語調(diào)變得悲傷、興奮,甚至模仿特定口音,或在語音中加入敲門聲、笑聲等環(huán)境音效。這聽起來像科幻小說,但約翰·霍普金斯大學(xué)、北京大學(xué)、南加州大學(xué)、香港中文大學(xué)和麻省理工學(xué)院的研究團隊已經(jīng)讓這一切成為現(xiàn)實。他們最新發(fā)表的論文《CapSpeech: Enabling Downstream Applications in Style-Captioned Text-to-Speech》(CapSpeech:實現(xiàn)風(fēng)格描述文本轉(zhuǎn)語音的下游應(yīng)用)將在2025年6月發(fā)表于arXiv預(yù)印本平臺(arXiv:2506.02863v1)。
近年來,生成式AI在語音合成領(lǐng)域取得了巨大突破,特別是在模仿特定說話者的聲音方面。然而,對于說話風(fēng)格的精細控制,比如情緒表達、語速變化或口音模仿等,仍然面臨巨大挑戰(zhàn)。以往的文本轉(zhuǎn)語音(TTS)系統(tǒng)主要關(guān)注說話者身份特征,而對語音風(fēng)格的微妙變化研究不足。說話風(fēng)格包含兩大類特征:一類是與說話者身份緊密相關(guān)的內(nèi)在特征(如年齡、性別、音色);另一類是與特定表達相關(guān)的風(fēng)格特征(如情緒、語速)。
最近,研究人員開始嘗試使用自然語言描述(即"提示語")來控制這些風(fēng)格元素,這種方法被稱為"風(fēng)格描述文本轉(zhuǎn)語音"(CapTTS)。但要構(gòu)建這樣的系統(tǒng),需要大量帶有風(fēng)格標(biāo)注的語音-描述配對數(shù)據(jù),這些數(shù)據(jù)的標(biāo)注工作耗時費力且成本高昂。雖然已有一些數(shù)據(jù)集如Parler-TTS、ParaSpeechCaps等嘗試解決這個問題,但它們?nèi)狈y(tǒng)一的風(fēng)格描述框架,使得跨領(lǐng)域比較變得困難。更重要的是,目前對下游應(yīng)用的探索也很有限,比如將模型遷移到新的描述風(fēng)格或在合成語音中加入環(huán)境音效等。
CapSpeech:統(tǒng)一的風(fēng)格描述語音合成基準(zhǔn)
為了解決上述挑戰(zhàn),研究團隊提出了CapSpeech,這是一個創(chuàng)新的基準(zhǔn)數(shù)據(jù)集,專為風(fēng)格描述文本轉(zhuǎn)語音及其相關(guān)下游任務(wù)設(shè)計。想象CapSpeech就像一個巨大的樂高積木集,里面包含了各種形狀和顏色的積木(不同風(fēng)格的語音和描述),讓研究人員可以按照自己的需求組合出不同的語音效果。
CapSpeech包含兩個主要階段:預(yù)訓(xùn)練階段和監(jiān)督微調(diào)階段。預(yù)訓(xùn)練階段使用超過1000萬個機器標(biāo)注的語音-描述配對,而監(jiān)督微調(diào)階段則包含近36萬個人工標(biāo)注的高質(zhì)量語音-描述配對。這些數(shù)據(jù)涵蓋了廣泛的內(nèi)在說話者特征和表達風(fēng)格特征,數(shù)據(jù)來源包括Emilia、GigaSpeech、CommonVoice、MLS、LibriTTS-R、EARS、Expresso、VCTK、VoxCeleb和VoxCeleb2等多個公開語音庫。
除了整合現(xiàn)有數(shù)據(jù)集外,研究團隊還特別創(chuàng)建了兩個全新的數(shù)據(jù)集:一個用于聊天代理(AgentTTS)任務(wù),由專業(yè)配音演員錄制;另一個用于帶音效的風(fēng)格描述文本轉(zhuǎn)語音(CapTTS-SE)任務(wù),由五位經(jīng)驗豐富的音頻工程師精心處理。這些新數(shù)據(jù)集為研究人員提供了探索真實世界應(yīng)用場景的寶貴資源。
CapSpeech支持的五大下游任務(wù)
CapSpeech基準(zhǔn)支持五個相互關(guān)聯(lián)但各具特色的下游任務(wù),就像一個語音合成的"瑞士軍刀",每個任務(wù)都針對特定的應(yīng)用場景:
首先是基礎(chǔ)的風(fēng)格描述文本轉(zhuǎn)語音(CapTTS)任務(wù),這像是一種通用語音合成工具,通過自然語言描述控制語音的各種屬性,如說話者特征(年齡、性別、口音)、表達風(fēng)格(情緒、語速)或情境上下文(對話語調(diào)、耳語)。雖然這個任務(wù)不針對特定應(yīng)用,但它提供了一個多樣化的基準(zhǔn),用于評估在各種描述引導(dǎo)條件下的語音生成能力。
第二個任務(wù)是帶音效的風(fēng)格描述文本轉(zhuǎn)語音(CapTTS-SE),它擴展了CapTTS的功能,允許在合成語音中添加非語言聲音事件。想象一下有聲讀物,當(dāng)故事提到"敲門聲"時,系統(tǒng)會在適當(dāng)位置真的加入敲門聲,或者當(dāng)提到"背景嘈雜的咖啡廳"時,會添加相應(yīng)的環(huán)境音效。這些聲音事件可以作為語音的背景,也可以在特定位置插入。這個任務(wù)特別適合有聲書籍和直播等需要增強聽覺體驗的場景。
第三個任務(wù)專注于口音控制(AccCapTTS)。與傳統(tǒng)的依賴預(yù)定義類別的口音控制系統(tǒng)不同,AccCapTTS通過自由形式的自然語言提示提供更加用戶友好和靈活的控制。這非常適合跨文化聲音設(shè)計、個性化語音合成和本地化內(nèi)容創(chuàng)建等應(yīng)用場景。
第四個任務(wù)關(guān)注情感表達(EmoCapTTS)。這個任務(wù)通過自然語言描述同時控制說話者的情感狀態(tài)和身份。與傳統(tǒng)的依賴離散類別(如快樂、悲傷、憤怒)的情感TTS系統(tǒng)相比,EmoCapTTS通過自由形式的文本描述實現(xiàn)更加靈活和表現(xiàn)力豐富的情感控制。這個任務(wù)在故事敘述和游戲NPC(非玩家角色)等需要多個AI說話者的應(yīng)用中特別有用。
最后一個任務(wù)專注于表現(xiàn)力豐富的虛擬代理(AgentTTS)。雖然它也使用類似EmoCapTTS的描述,但它將廣泛的情感類別細化為更加細粒度的狀態(tài),捕捉情感狀態(tài)之間的微妙差異(如恐懼與驚慌),模擬情感狀態(tài)與低級說話風(fēng)格(如音高和速度)之間的相互作用,并整合表現(xiàn)力豐富的非語言發(fā)聲(如嘆息、笑聲、啜泣)。這個任務(wù)緊密反映了構(gòu)建定制對話代理、客戶服務(wù)機器人、AI治療師等會話AI應(yīng)用的真實場景需求。
數(shù)據(jù)集的構(gòu)建與處理
構(gòu)建CapSpeech數(shù)據(jù)集就像是一項精細的拼圖工作,需要將各種來源的語音數(shù)據(jù)和風(fēng)格描述巧妙地組合在一起。首先,在預(yù)訓(xùn)練階段,研究團隊對四個英語語音語料庫(Emilia、MLS、GigaSpeech和CommonVoice)進行了清洗和標(biāo)注。對于MLS、GigaSpeech和CommonVoice,他們標(biāo)注了年齡、性別、音高、語調(diào)表現(xiàn)力和語速,并使用大型語言模型生成基于這些特征的自然語言描述。對于Emilia,他們采用了ParaSpeechCaps中提供的風(fēng)格標(biāo)注,包括59種多樣化的風(fēng)格標(biāo)簽。
為了創(chuàng)建帶音效的預(yù)訓(xùn)練數(shù)據(jù)(CapTTS-SE-PT),他們使用LibriTTS-R語音語料庫和三個音效語料庫(VGGSound、FSDKaggle2018和ESC-50)進行模擬。他們從這些數(shù)據(jù)集的類別中精選了394種不同的音效,并使用兩種模式將音效引入語音:插入模式(在特定位置插入音效)和背景模式(將音效作為背景層疊在語音下方)。為了確保模擬的音頻聽起來自然流暢,他們在單詞之間選擇間隔至少0.3秒的插入點,以確保不會破壞詞語的連續(xù)性。最終,每個語音樣本都模擬了五種不同的配置,以擴大數(shù)據(jù)規(guī)模。
在監(jiān)督微調(diào)階段,CapTTS、EmoCapTTS和AccCapTTS共享相同的基礎(chǔ)語音語料庫和一些共同的風(fēng)格屬性(如音色、語速)。研究團隊整合了來自六個公開可用語料庫的人工標(biāo)注數(shù)據(jù):LibriTTS-R、VCTK、VoxCeleb、VoxCeleb2、EARS和Expresso。整合過程包括直接使用現(xiàn)有描述、用額外的說話者特征增強描述,以及使用基于結(jié)構(gòu)化標(biāo)簽的大型語言模型生成描述。
此外,研究團隊還創(chuàng)建了兩個全新的數(shù)據(jù)集。CapSpeech-SEDB包含500個音頻混合物,整合了10種常見音效(咳嗽聲、笑聲、掌聲、開罐聲、腳步聲、鍵盤打字聲、鬧鐘聲、敲門聲、狗叫聲和貓叫聲),由五位在音樂制作或電影音效設(shè)計方面有專業(yè)經(jīng)驗的音頻工程師精心制作。CapSpeech-AgentDB則包含約10,000對描述-語音配對,總計約25.2小時的單一女性說話者的高質(zhì)量錄音,其中500對保留用于測試。這個數(shù)據(jù)集捕捉了情感狀態(tài)之間的微妙變化,并包含了在現(xiàn)有語音情感語料庫中很少出現(xiàn)的情緒(如好奇、嫉妒、怨恨、專注、分心)。
模型架構(gòu)與實驗設(shè)計
為了評估CapSpeech數(shù)據(jù)集的有效性,研究團隊開發(fā)了兩種基于最先進生成式TTS骨架的風(fēng)格描述TTS模型:一種是自回歸(AR)模型,另一種是非自回歸(NAR)模型。
自回歸模型CapSpeech-AR基于Parler-TTS,這是一種基于編解碼器語言模型的最先進方法。它使用44.1kHz版本的Descript Audio Codec(DAC)提供離散音頻表示,應(yīng)用延遲模式處理多個碼本,并使用交叉注意力機制整合基于描述的風(fēng)格控制。FLAN-T5用于從轉(zhuǎn)錄文本和風(fēng)格描述中提取特征。為了支持CapTTS-SE任務(wù),他們在架構(gòu)中添加了特殊標(biāo)記。如圖1所示,CapTTS-SE中的轉(zhuǎn)錄支持兩種整合音效的模式:背景模式和插入模式。音效標(biāo)記(如``、``)放在序列開頭,標(biāo)簽``和``標(biāo)記背景音效段的開始和結(jié)束,而``和``則表示插入點。這種設(shè)計允許靈活控制合成語音中音效的位置和類型。
非自回歸模型CapSpeech-NAR基于F5-TTS,這是一種基于流匹配的擴散Transformer的最先進方法。在他們的改編中,移除了音頻提示掩碼組件,而是使用交叉注意力整合基于描述的風(fēng)格控制。BigVGAN用作聲碼器,并應(yīng)用QK-Norm穩(wěn)定訓(xùn)練。轉(zhuǎn)錄通過音素轉(zhuǎn)換處理,并插入特殊標(biāo)記``、``、``和``表示基于背景和插入的音效。為了增強泛化能力,他們不直接在輸入序列中包含音效標(biāo)記,而是提取指定音效的LAION-CLAP嵌入并將其作為額外輸入。這種設(shè)計允許模型在推理過程中泛化到未見過的音效。與AR模型類似,F(xiàn)LAN-T5用于從風(fēng)格描述中提取文本特征。由于NAR模型無法直接預(yù)測音頻持續(xù)時間,他們微調(diào)了一個BERT模型,該模型同時接收轉(zhuǎn)錄和描述作為輸入,以估計整個音頻的總持續(xù)時間。
所有模型都使用AdamW優(yōu)化器進行訓(xùn)練。AR模型的批量大小為32,預(yù)訓(xùn)練階段學(xué)習(xí)率為1e-3,微調(diào)階段為1e-4。NAR模型使用512的批量大小,預(yù)訓(xùn)練階段學(xué)習(xí)率為2e-4,微調(diào)階段為2e-5。預(yù)訓(xùn)練在8個NVIDIA H100 GPU上進行,而微調(diào)則在單個NVIDIA A100 GPU上執(zhí)行。
實驗結(jié)果與分析
研究團隊通過客觀和主觀兩種方法評估了模型性能??陀^評估包括風(fēng)格一致性、音頻質(zhì)量和清晰度三個方面。對于風(fēng)格一致性,他們計算了多個類別的分類準(zhǔn)確率,包括年齡、性別、音高、語調(diào)表現(xiàn)力、語速、口音和情感,并將這些屬性的平均準(zhǔn)確率報告為Style-ACC。音頻質(zhì)量通過UTMOSv2評估,而清晰度則通過計算生成語音的ASR轉(zhuǎn)錄與輸入轉(zhuǎn)錄之間的文本標(biāo)準(zhǔn)化WER來評估。
主觀評估方面,研究團隊招募了15名通過Prolific平臺篩選的母語為英語的評估者,評估三個主觀方面:風(fēng)格一致性MOS(SMOS)、自然度MOS(NMOS)和清晰度MOS(IMOS)。每個樣本由三名評估者評分,并報告平均分?jǐn)?shù)及95%置信區(qū)間。
預(yù)訓(xùn)練階段的結(jié)果顯示,在CapTTS任務(wù)上使用CapTTS預(yù)訓(xùn)練集訓(xùn)練的模型在風(fēng)格一致性、自然度和清晰度方面均顯著優(yōu)于使用先前的大規(guī)模數(shù)據(jù)集ParaSpeechCaps訓(xùn)練的模型,證明了研究團隊所提出數(shù)據(jù)集的有效性。與AR模型相比,NAR模型在所有指標(biāo)上一致取得更好的性能,突顯了它們在CapTTS任務(wù)上的進步。
微調(diào)階段的結(jié)果表明,預(yù)訓(xùn)練為所有下游任務(wù)提供了顯著益處,特別是對于數(shù)據(jù)有限的CapTTS-SE和AgentTTS任務(wù)。值得注意的是,研究基準(zhǔn)表明,在CapTTS、EmoCapTTS和AccCapTTS任務(wù)上可以實現(xiàn)較強的風(fēng)格一致性、自然度和清晰度,NAR模型的SMOS、NMOS和IMOS評分至少達到3.77、3.88和4.34。此外,AR模型在CapTTS-SE和AgentTTS任務(wù)的某些指標(biāo)上超過了NAR模型。
研究團隊還觀察到,在AgentTTS任務(wù)中保持風(fēng)格一致性以及在CapTTS-SE任務(wù)中實現(xiàn)高清晰度仍然特別具有挑戰(zhàn)性。特別是,在CapTTS-SE任務(wù)中,模型在WER指標(biāo)上表現(xiàn)良好但在IMOS上表現(xiàn)較差,表明音效的生成質(zhì)量低于語音。
研究意義與局限性
CapSpeech代表了風(fēng)格描述文本轉(zhuǎn)語音合成領(lǐng)域的重要進步,為研究人員提供了一個全面的基準(zhǔn)來評估和改進這一技術(shù)。通過引入多種下游任務(wù)和豐富的數(shù)據(jù)集,CapSpeech使研究人員能夠探索更多實際應(yīng)用場景,如帶音效的有聲讀物、具有細粒度情感控制的對話代理以及可靈活控制口音的跨文化語音合成等。
然而,這項研究也存在一些局限性。首先是AI安全方面的考慮,特別是關(guān)于水印和合成語音檢測的問題。隨著生成語音質(zhì)量的不斷提高,語音欺騙、身份冒充和錯誤信息傳播的風(fēng)險也在增加。雖然CapSpeech引入了幾種語音合成任務(wù),為水印和深度偽造檢測開辟了新的機會和挑戰(zhàn),但研究人員尚未在此方面進行深入探索。
其次是語言覆蓋范圍和評估指標(biāo)的局限性。雖然CapSpeech的設(shè)計可以輕松擴展到其他語言,但當(dāng)前的數(shù)據(jù)集僅限于英語。此外,風(fēng)格描述TTS任務(wù)依賴于昂貴且主觀的人工評估,因為缺乏可靠的自動評估指標(biāo)。目前,沒有現(xiàn)有的理解模型能夠生成高質(zhì)量的語音描述。不過,CapSpeech數(shù)據(jù)集為訓(xùn)練此類模型提供了有希望的基礎(chǔ),類似于圖像-文本模型如CLIP和BLIP的發(fā)展路徑。
結(jié)語
CapSpeech是風(fēng)格描述文本轉(zhuǎn)語音合成領(lǐng)域的一個重要里程碑,它不僅提供了大規(guī)模的數(shù)據(jù)資源,還設(shè)計了一系列具有實際應(yīng)用價值的下游任務(wù)。通過這項研究,我們看到了AI語音合成正朝著更加自然、富有表現(xiàn)力和可控的方向發(fā)展。
想象一下未來的可能性:有聲書籍能夠自動匹配角色情緒并添加恰當(dāng)?shù)沫h(huán)境音效;虛擬助手能夠根據(jù)對話情境調(diào)整語調(diào)和情感表達;語言學(xué)習(xí)應(yīng)用能夠展示各種真實的口音變體。這些應(yīng)用場景不再遙不可及,CapSpeech的出現(xiàn)讓它們變得觸手可及。
對于對該領(lǐng)域感興趣的讀者,研究團隊已經(jīng)公開發(fā)布了他們的數(shù)據(jù)集、聽音樣本、源代碼、預(yù)訓(xùn)練檢查點和評估工具,以支持未來的研究。所有資源都在CC BY-NC 4.0許可(知識共享署名-非商業(yè)性使用)下發(fā)布,允許在適當(dāng)歸屬的情況下用于非商業(yè)研究目的。
好文章,需要你的鼓勵
新加坡國立大學(xué)研究團隊開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實驗顯示,僅訓(xùn)練AI玩簡單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟大學(xué)團隊開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實現(xiàn)37.9%的精度提升,并在真實設(shè)備上展現(xiàn)出色泛化能力,為機器人、AR和自動駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團隊通過對比實驗發(fā)現(xiàn),經(jīng)過強化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時刻"現(xiàn)象,但這些自我糾錯行為并不能實際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗證差距",即生成答案的能力強于驗證答案質(zhì)量的能力,且模型在自我驗證時無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動態(tài)稀疏性實現(xiàn)大語言模型訓(xùn)練加速1.6倍,計算成本降低2.2倍。該方法使用SVD稀疏性估計器智能選擇重要計算部分,在保持模型性能的同時顯著提升訓(xùn)練效率,已在多個任務(wù)上驗證有效性。