av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<wbr id="4h1fa"><sup id="4h1fa"></sup></wbr>

<ruby id="4h1fa"></ruby>

微信掃一掃，關(guān)注公眾號

科技行者
算力行者

見證連接與計算的「力量」

從數(shù)十小時到數(shù)萬小時：突破語音識別的數(shù)據(jù)瓶頸，新加坡科技設計大學和字節(jié)跳動聯(lián)合研發(fā)突破性方案

語音識別零樣本文本轉(zhuǎn)語音數(shù)據(jù)增強

從數(shù)十小時到數(shù)萬小時：突破語音識別的數(shù)據(jù)瓶頸，新加坡科技設計大學和字節(jié)跳動聯(lián)合研發(fā)突破性方案

作者：科技行者

2025-05-29 15:55

分享至：

新加坡科技設計大學和字節(jié)跳動研究團隊提出了"語音反向翻譯"方法，解決語音識別中的數(shù)據(jù)稀缺問題。研究表明，僅用幾十小時的標注語音數(shù)據(jù)就能訓練TTS模型生成數(shù)萬小時高質(zhì)量合成語音，將數(shù)據(jù)擴充數(shù)百倍。他們引入歸一化可理解度指標評估合成語音質(zhì)量，確定了合成數(shù)據(jù)能有效增強ASR性能的質(zhì)量閾值。將方法擴展到十種語言，生成了50萬小時合成語音，對Whisper-large-v3模型進行預訓練，平均降低錯誤率30%，對低資源語言尤其有效，錯誤率降低46%。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-05-29 15:55 ? 科技行者

在數(shù)字時代，語音識別技術(shù)正快速改變著我們與設備交互的方式。無論是智能音箱、手機助手，還是自動字幕生成，這些技術(shù)都依賴于強大的自動語音識別（ASR）系統(tǒng)。2025年5月，來自新加坡科技設計大學StatNLP研究組的Tianduo Wang和Wei Lu，以及字節(jié)跳動Seed團隊的Lu Xu和Shanbo Cheng發(fā)表了一篇題為《從數(shù)十小時到數(shù)萬小時：擴展反向翻譯用于語音識別》的研究論文，為解決語音識別中的數(shù)據(jù)稀缺問題提供了一種創(chuàng)新方案。有興趣深入了解的讀者可以通過GitHub鏈接（https://github.com/tianduowang/speech-bt）獲取更多信息。

想象一下，你想教一個孩子認識各種動物。如果你有成百上千張不同動物的照片，這個學習過程會相對簡單。但如果你只有幾張照片，那么學習效果可能就會大打折扣。語音識別技術(shù)面臨著類似的挑戰(zhàn)——它需要大量的語音數(shù)據(jù)來"學習"如何準確識別人類語音。對于英語和中文等資源豐富的語言，已經(jīng)有海量的標注語音數(shù)據(jù)可供使用，但對于全球數(shù)千種語言中的大多數(shù)，收集足夠的數(shù)據(jù)仍是一個巨大挑戰(zhàn)。

這就像是一個家庭只有少量食材，卻想準備一頓豐盛的晚餐。研究團隊提出的解決方案——"語音反向翻譯"（Speech Back-Translation），就像是找到了一種魔法配方，能夠用有限的食材"變出"更多豐富的食材。具體來說，他們展示了如何利用僅僅幾十小時的真實語音數(shù)據(jù)，訓練出能生成數(shù)萬小時高質(zhì)量合成語音的系統(tǒng)，實現(xiàn)了幾百倍的數(shù)據(jù)擴充。

一、語音反向翻譯：從少到多的魔法轉(zhuǎn)變

語音反向翻譯的核心思想源自機器翻譯領(lǐng)域。在機器翻譯中，反向翻譯指的是使用一個從目標語言翻譯回源語言的模型，來生成額外的訓練數(shù)據(jù)。研究團隊創(chuàng)造性地將這一概念應用到語音識別領(lǐng)域：利用文本到語音（TTS）模型將大量文本數(shù)據(jù)轉(zhuǎn)換成合成語音，從而擴充語音識別模型的訓練數(shù)據(jù)。

這個過程就像是烹飪中的"一菜多吃"。假設你只有一小塊肉（少量真實語音數(shù)據(jù)），但你掌握了一種特殊烹飪技巧（TTS模型），可以用這塊肉的風味來調(diào)制各種素材（文本數(shù)據(jù)），使它們都帶有肉的香味（語音特征）。這樣，你就能用有限的肉，做出滿桌子的"肉味"菜肴（大量合成語音數(shù)據(jù)）。

研究團隊的方案包含幾個關(guān)鍵步驟。首先，他們選擇一個在高資源語言上預訓練的零樣本TTS模型。這類模型的特別之處在于，它們可以模仿任何聲音，即使是模型從未"聽到"過的聲音。這就像是一個模仿大師，只需聽幾句話，就能模仿出說話者的聲音風格。

接下來，研究人員用幾十小時的低資源語言語音數(shù)據(jù)對TTS模型進行微調(diào)。這個過程相當于教會模仿大師一種新的語言發(fā)音規(guī)則。在微調(diào)過程中，他們凍結(jié)了負責低層次聲學表示的模塊，只調(diào)整語言映射部分，這樣可以確保模型的基礎聲學能力不受干擾，同時有效適應新語言的發(fā)音和韻律特點。

為了評估合成語音的質(zhì)量，研究團隊提出了一種新的評估指標——"歸一化可理解度"（Normalized Intelligibility）。傳統(tǒng)上，合成語音的質(zhì)量通常通過使用ASR系統(tǒng)計算的詞錯誤率（WER）來衡量。但這種方法有兩個缺點：一是評判的ASR系統(tǒng)本身可能存在錯誤，特別是對于低資源語言；二是不同語言間的WER值無法直接比較。

研究團隊的創(chuàng)新方法是使用Fleurs數(shù)據(jù)集中的高質(zhì)量語音作為基準，并用Whisper-large-v3作為評判系統(tǒng)。他們計算了兩個WER值：合成語音的WER（WERs）和真實語音的WER（WERr），然后通過一個巧妙的公式：Norm_I = exp((WERr - WERs) / WERr)，得到歸一化可理解度分數(shù)。這個分數(shù)直觀地反映了合成語音相對于真實語音的質(zhì)量，使得不同語言間的比較成為可能。

二、從文字到聲音：打造數(shù)十萬小時的合成語音庫

生成大規(guī)模合成語音面臨兩個主要挑戰(zhàn)：一是需要大量多樣化的語音提示作為聲音風格的參考；二是需要豐富多樣的文本語料作為內(nèi)容來源。研究團隊針對這兩個方面都做了充分準備。

對于語音提示，他們收集了約100萬個短音頻片段，涵蓋不同的說話者和錄音條件。為了避免聲音特征的重復，他們使用ECAPA2說話者編碼器提取每個音頻片段的說話者嵌入，并通過比較余弦相似度（使用0.8作為閾值）去除重復的聲音。這就像是從人群中挑選各種獨特聲音的人，確保最終的"合唱團"具有足夠的多樣性。

對于文本語料，他們參考了開源大語言模型的數(shù)據(jù)混合實踐，從各種領(lǐng)域采樣句子，最大化語言多樣性。這些文本經(jīng)過分句、過濾（去除過短、過長或包含過多非字母字符的句子）和去重處理，確保最終用于合成的文本既豐富多樣又高質(zhì)量。

一個重要的技術(shù)挑戰(zhàn)是TTS模型的推理速度。生成大規(guī)模合成語音需要高效的推理過程，否則將耗費大量時間和計算資源。研究團隊采用了兩種互補的優(yōu)化技術(shù)：DeepSpeed-Inference和批量推理。

DeepSpeed-Inference涉及融合CUDA內(nèi)核和優(yōu)化內(nèi)核調(diào)度，可以顯著提高推理吞吐量。批量推理則是將具有相似長度的多個句子組合在一起，使用單個語音提示，然后應用定制的注意力掩碼，使模型能在一次前向傳遞中同時生成多個語音片段。通過這些優(yōu)化，他們在單個NVIDIA V100 GPU上實現(xiàn)了超過30倍的速度提升，使大規(guī)模語音合成變得可行。

三、從小到大：實驗驗證與擴展應用

研究團隊首先測試了他們的方法能否有效地將低資源語言的訓練數(shù)據(jù)從幾十小時擴展到上萬小時。他們選擇了三種低資源語言——越南語、捷克語和匈牙利語，分別只有100小時、50小時和60小時的真實標注語音數(shù)據(jù)。

實驗結(jié)果令人印象深刻：僅使用這些有限的真實語音，他們成功訓練了TTS模型，并生成了每種語言1萬小時的合成語音。使用這些合成數(shù)據(jù)訓練的Whisper-medium和Whisper-large模型在詞錯誤率（WER）上獲得了顯著改善。例如，對于越南語，Whisper-large模型的WER從24.5%降低到16.0%，捷克語從19.9%降低到9.1%，匈牙利語從23.8%降低到11.1%。

這就像是一位廚師只用幾種基本食材，就能烹飪出一整桌豐盛的宴席，而且每道菜的品質(zhì)都不錯。更重要的是，這種"食材倍增"的技術(shù)適用于各種不同的"菜系"（語言）。

進一步驗證方法的可擴展性，研究團隊將實驗擴展到七種語言：法語、德語和西班牙語（高資源語言）；荷蘭語和意大利語（中等資源語言）；捷克語和匈牙利語（低資源語言）。他們生成了總計16萬小時的合成語音，并用這些數(shù)據(jù)訓練不同大小的Whisper模型。

結(jié)果表明，合成數(shù)據(jù)不僅提高了模型在域內(nèi)（Common Voice測試集）的性能，還顯著增強了模型在域外（Voxpopuli數(shù)據(jù)集）的泛化能力。僅使用真實數(shù)據(jù)訓練的模型在域內(nèi)表現(xiàn)良好，但域外改進有限；而添加合成數(shù)據(jù)后，模型在兩個域上都取得了顯著進步。這表明合成數(shù)據(jù)不僅能幫助模型更好地學習特定領(lǐng)域的模式，還能增強其應對各種不同場景的能力。

研究人員還探索了TTS模型質(zhì)量與ASR性能之間的關(guān)系。他們發(fā)現(xiàn)，TTS模型質(zhì)量與ASR性能改進之間存在強烈的相關(guān)性，并確定了一個關(guān)鍵的可理解度閾值（約0.01）。低于這個閾值的合成語音會導致ASR性能下降，而一旦超過閾值，合成語音就能持續(xù)提升ASR準確率，且可理解度越高，WER降低越明顯。

一個有趣的發(fā)現(xiàn)是，雖然足夠的訓練數(shù)據(jù)對于跨越質(zhì)量閾值至關(guān)重要，但在歸一化可理解度接近1.0時，WER改進會趨于穩(wěn)定，大約降低3個百分點。這表明在達到一定質(zhì)量水平后，繼續(xù)提高TTS質(zhì)量可能不會帶來顯著的ASR性能提升。

四、有限域內(nèi)數(shù)據(jù)的有效利用

在實際應用中，研究人員經(jīng)常面臨一個現(xiàn)實問題：即使對于低資源語言，可能也只有極少量的目標域內(nèi)數(shù)據(jù)可用。例如，研究團隊在Common Voice越南語數(shù)據(jù)集中只找到了約3小時的轉(zhuǎn)錄音頻。如何有效利用這些寶貴但有限的域內(nèi)數(shù)據(jù)？

研究團隊提出了三種方法：

第一種方法是先用大規(guī)模合成數(shù)據(jù)預訓練Whisper模型，然后使用有限的域內(nèi)數(shù)據(jù)進行微調(diào)。這就像是先讓孩子通過模擬練習掌握基本技能，然后再通過少量真實比賽來適應實戰(zhàn)環(huán)境。

第二種方法是用域內(nèi)音頻片段作為TTS模型的提示，生成帶有域內(nèi)聲音特征的合成語音。這相當于讓模仿大師聽一小段目標人物的聲音，然后用這個聲音風格來朗讀大量文本。

第三種方法是先用大量通用語音數(shù)據(jù)訓練TTS模型，然后用有限的域內(nèi)數(shù)據(jù)進一步微調(diào)TTS模型，最后再用這個域適應的TTS模型生成合成語音。這就像是先培養(yǎng)一個通用的模仿能力，然后專門練習模仿特定人物的聲音，最后用這種精確模仿的聲音來朗讀各種內(nèi)容。

實驗結(jié)果表明，第三種方法最為有效。在Common Voice越南語測試集上，該方法將WER從25.4%降低到18.6%，相對改進達27.0%。這一發(fā)現(xiàn)強調(diào)了在低資源場景下，同時適應TTS和ASR模型到目標域的重要性。

五、超大規(guī)模應用：50萬小時合成語音的驚人效果

基于前面的實驗和發(fā)現(xiàn)，研究團隊將他們的方法擴展到了一個前所未有的規(guī)模——總計50萬小時的合成語音，涵蓋十種語言（增加了英語、中文和越南語）。他們還擴大了真實語音數(shù)據(jù)的規(guī)模，除了Common Voice，還包括了Multilingual LibriSpeech、Voxpopuli和viVoice數(shù)據(jù)集，總計1.5萬小時的真實數(shù)據(jù)。

這些數(shù)據(jù)用于繼續(xù)預訓練Whisper-large-v3模型，這是一個擁有15億參數(shù)的最先進多語言ASR模型。為了進行比較，他們選擇了兩個具有類似規(guī)模的ASR模型作為基準：SeamlessM4T-medium和Whisper-large-v2。

在三個基準測試（Common Voice、Voxpopuli和Multilingual LibriSpeech）上的評估結(jié)果令人震驚：通過50萬小時的語音反向翻譯數(shù)據(jù)增強，Whisper-large-v3在所有語言類別上都取得了顯著改進，平均錯誤率降低了30%。按語言組細分，高資源語言和中等資源語言分別實現(xiàn)了26%和30%的改進，而低資源語言更是取得了驚人的46%改進。

這些結(jié)果清晰地表明，語音反向翻譯方法在擴展多語言ASR系統(tǒng)方面具有卓越的效果，特別是對于傳統(tǒng)上資源不足的語言社區(qū)。這就像是一種教學方法，不僅能讓學生在熟悉的環(huán)境中表現(xiàn)出色，還能幫助他們在完全陌生的環(huán)境中也應對自如。

六、語音反向翻譯的局限性與未來方向

盡管研究團隊的方法取得了顯著成功，但也存在一些局限。首先，通過TTS模型生成的合成語音可能無法完全捕捉真實世界環(huán)境中的聲學復雜性，特別是在有背景噪音、多個說話者或錄音條件變化的情況下。這可能會影響模型在信噪比較低或聲學環(huán)境具有挑戰(zhàn)性的場景中的魯棒性。

其次，雖然研究團隊引入了基于可理解度的評估指標，但這個評估框架可能無法全面捕捉所有可能影響ASR訓練有效性的相關(guān)語音方面。未來的研究可以探索考慮韻律和情感表達等因素的額外質(zhì)量指標。

第三，實驗主要基于兩個零樣本TTS模型（XTTS和ChatTTS），這可能無法代表TTS能力和局限性的完整范圍。對更廣泛的TTS系統(tǒng)進行更全面的評估，可以提供關(guān)于方法通用性的額外見解，并識別潛在的TTS特定偏差或偽影。

最后，雖然研究團隊展示了方法的可擴展性，生成了50萬小時的合成語音，但語言覆蓋仍限于十種語言，其中九種已經(jīng)被現(xiàn)有TTS模型支持。未來的研究需要驗證該方法在其他低資源語言中的有效性，特別是那些具有獨特音韻特征或語言資源有限的語言。

盡管存在這些局限，研究團隊的工作仍然代表了多語言ASR領(lǐng)域的重要進步。他們證明了僅用幾十小時的標注語音數(shù)據(jù)就能生成數(shù)萬小時的高質(zhì)量合成語音，這一發(fā)現(xiàn)為克服全球數(shù)千種語言中大多數(shù)面臨的數(shù)據(jù)稀缺問題提供了可行的解決方案。

語音反向翻譯方法挑戰(zhàn)了對大規(guī)模人工標注數(shù)據(jù)集的需求，通過有效擴展有限數(shù)據(jù)，使先進的語音識別技術(shù)更容易在不同語言間普及。未來的工作可以將這種方法擴展到極低資源語言，完善特定語言的評估指標，并與其他數(shù)據(jù)增強技術(shù)相結(jié)合，進一步提高多語言ASR系統(tǒng)的性能和可訪問性。

歸根結(jié)底，這項研究表明，即使在資源嚴重受限的情況下，創(chuàng)新的數(shù)據(jù)生成方法也能顯著提升語音技術(shù)的性能。隨著這些技術(shù)的進一步發(fā)展和普及，我們可以期待語音技術(shù)將更加公平地惠及全球各種語言的使用者，無論其語言有多么小眾或資源有多么有限。對于那些母語不是主流語言的人來說，這意味著更好的語音交互體驗、更準確的自動字幕和更廣泛的數(shù)字服務可及性。

如果你對這項研究感興趣，可以通過前文提到的GitHub鏈接查看更多詳情，或直接閱讀他們發(fā)表在arXiv上的論文。隨著語音技術(shù)的不斷發(fā)展，我們正在見證一個更加包容、多元的數(shù)字語音世界的誕生。

語音識別零樣本文本轉(zhuǎn)語音數(shù)據(jù)增強

分享至

1贊

好文章，需要你的鼓勵

推薦文章

音頻生成
大語言模型
多模態(tài)AI

2025-09-10 09:47

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實驗室團隊AudioStory突破性進展

騰訊ARC實驗室推出AudioStory系統(tǒng)，首次實現(xiàn)AI根據(jù)復雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù)，通過交錯式推理生成、解耦橋接機制和漸進式訓練，能夠?qū)碗s指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準測試中表現(xiàn)優(yōu)異，為AI音頻創(chuàng)作開辟新方向。
視頻生成
深度學習
多模態(tài)學習

2025-09-09 13:57

Meta與特拉維夫大學聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

Meta與特拉維夫大學聯(lián)合研發(fā)的VideoJAM技術(shù)，通過讓AI同時學習外觀和運動信息，顯著解決了當前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運動質(zhì)量，在多項測試中超越包括Sora在內(nèi)的商業(yè)模型，為AI視頻生成的實用化應用奠定了重要基礎。
多模態(tài)AI
人類價值觀對齊
數(shù)據(jù)集構(gòu)建

2025-09-09 13:56

上海AI實驗室重磅發(fā)布：讓AI看圖"說人話"的神奇訓練法，解決多模態(tài)AI與人類價值觀對齊難題

上海AI實驗室發(fā)布OmniAlign-V研究，首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓練數(shù)據(jù)集和MM-AlignBench評測基準，通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法，讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平，為AI價值觀對齊提供了可行技術(shù)路徑。
人工智能
圖神經(jīng)網(wǎng)絡
天氣預報

2025-09-09 10:56

谷歌研究團隊發(fā)布超級預測模型：讓AI像天氣預報員一樣預測全球大氣變化

谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預測模型，能夠在不到一分鐘內(nèi)完成10天全球天氣預報，準確性超越傳統(tǒng)方法90%的指標。該模型采用圖神經(jīng)網(wǎng)絡技術(shù)，通過學習40年歷史數(shù)據(jù)掌握天氣變化規(guī)律，在極端天氣預測方面表現(xiàn)卓越，能耗僅為傳統(tǒng)方法的千分之一，為氣象學領(lǐng)域帶來了效率和精度的雙重突破。

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實驗室團隊AudioStory突破性進展

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實驗室團隊AudioStory突破性進展

2025-09-10 09:47

Meta與特拉維夫大學聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

Meta與特拉維夫大學聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

2025-09-09 13:57

上海AI實驗室重磅發(fā)布：讓AI看圖"說人話"的神奇訓練法，解決多模態(tài)AI與人類價值觀對齊難題

上海AI實驗室重磅發(fā)布：讓AI看圖"說人話"的神奇訓練法，解決多模態(tài)AI與人類價值觀對齊難題

2025-09-09 13:56

谷歌研究團隊發(fā)布超級預測模型：讓AI像天氣預報員一樣預測全球大氣變化

谷歌研究團隊發(fā)布超級預測模型：讓AI像天氣預報員一樣預測全球大氣變化

2025-09-09 10:56

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時代

京ICP證15039648號京ICP備15039648號-9 京公網(wǎng)安備 11010802021500號

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡我們

舉報電話：010-62641205　涉未成年人舉報專線：010-62641208 舉報郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報專區(qū)：https://www.12377.cn