這項(xiàng)由中國(guó)香港中文大學(xué)深圳分校王遠(yuǎn)程、陳德昆、張雪瑤、張俊安、李佳琦、吳志政等學(xué)者組成的研究團(tuán)隊(duì)完成的突破性研究,發(fā)表于2025年8月的學(xué)術(shù)論文預(yù)印本平臺(tái)。有興趣深入了解技術(shù)細(xì)節(jié)的讀者可以通過https://tadicodec.github.io/訪問演示頁(yè)面,或在https://github.com/HeCheng0625/Diffusion-Speech-Tokenizer獲取完整的代碼和模型。
當(dāng)今世界,AI語(yǔ)音助手已經(jīng)成為我們?nèi)粘I畹闹匾M成部分。從手機(jī)里的Siri到智能音箱的小愛同學(xué),這些AI系統(tǒng)需要將人類的語(yǔ)音轉(zhuǎn)換成計(jì)算機(jī)能理解的數(shù)字信號(hào),然后再將生成的語(yǔ)音轉(zhuǎn)換回我們能聽懂的聲音。然而,這個(gè)過程一直面臨著一個(gè)核心難題:如何在保證語(yǔ)音質(zhì)量的同時(shí),盡可能地壓縮語(yǔ)音數(shù)據(jù)。
傳統(tǒng)的語(yǔ)音壓縮技術(shù)就像是用巨大的行李箱裝幾件衣服——雖然能裝下所有東西,但效率極低,占用了大量的存儲(chǔ)空間和傳輸帶寬。研究團(tuán)隊(duì)形象地將這個(gè)問題比作"如何用最小的背包裝下旅行必需品,既要輕便又要確保什么都不缺"。
現(xiàn)有的語(yǔ)音編碼器大多采用多層量化結(jié)構(gòu),需要很高的幀率才能保證質(zhì)量,就像需要用多個(gè)背包才能裝下所有行李一樣。更糟糕的是,許多系統(tǒng)還依賴額外的預(yù)訓(xùn)練模型來提取語(yǔ)義信息,這就好比旅行時(shí)還要帶上一個(gè)專門的助手來幫忙整理行李,增加了系統(tǒng)的復(fù)雜性。
為了解決這些問題,研究團(tuán)隊(duì)開發(fā)了一種名為"文本感知擴(kuò)散變換器語(yǔ)音編解碼器"(TaDiCodec)的創(chuàng)新技術(shù)。這個(gè)技術(shù)的核心創(chuàng)新在于將文本信息融入到語(yǔ)音重建過程中,就像給壓縮算法配備了一個(gè)聰明的翻譯官,能夠理解語(yǔ)音的實(shí)際含義,從而實(shí)現(xiàn)更精準(zhǔn)的壓縮。
TaDiCodec最令人印象深刻的成就是將語(yǔ)音壓縮率推到了極限——僅需6.25赫茲的極低幀率和0.0875千比特每秒的比特率,就能處理24千赫茲的高質(zhì)量語(yǔ)音。為了讓讀者更好地理解這個(gè)成就的意義,我們可以這樣類比:如果傳統(tǒng)方法需要用一整個(gè)書架來存放一本書的所有信息,TaDiCodec只需要一個(gè)小抽屜就能完成同樣的任務(wù)。
一、技術(shù)架構(gòu)的巧妙設(shè)計(jì)
TaDiCodec的技術(shù)架構(gòu)采用了端到端的擴(kuò)散自編碼器設(shè)計(jì),這種設(shè)計(jì)就像是一個(gè)高效的翻譯系統(tǒng)。當(dāng)語(yǔ)音信號(hào)進(jìn)入系統(tǒng)時(shí),編碼器首先將連續(xù)的語(yǔ)音波形轉(zhuǎn)換成離散的標(biāo)記序列,就像將流動(dòng)的河水裝進(jìn)一個(gè)個(gè)標(biāo)準(zhǔn)的水桶。
在這個(gè)過程中,系統(tǒng)采用了二進(jìn)制球面量化技術(shù),這是一種不需要明確學(xué)習(xí)碼本的量化方法。傳統(tǒng)的量化技術(shù)就像是預(yù)先準(zhǔn)備好一本字典,每個(gè)詞匯都有固定的編碼,而二進(jìn)制球面量化則更像是一個(gè)聰明的即興翻譯官,能夠根據(jù)當(dāng)前的語(yǔ)境動(dòng)態(tài)地創(chuàng)建最合適的編碼。
具體來說,系統(tǒng)首先將編碼器輸出的特征投影到單位球面上,然后對(duì)每個(gè)維度獨(dú)立地進(jìn)行二進(jìn)制量化。這個(gè)過程可以想象成將一個(gè)復(fù)雜的三維物體的影子投射到一個(gè)標(biāo)準(zhǔn)的圓形屏幕上,然后用黑白兩色來描述這個(gè)影子的每個(gè)部分。通過這種方法,系統(tǒng)可以用14維的潛在空間生成16384個(gè)不同的標(biāo)記,相當(dāng)于用14個(gè)開關(guān)的不同組合來表示16384種不同的狀態(tài)。
解碼器采用了基于流匹配的擴(kuò)散模型,這種技術(shù)的工作原理就像是一個(gè)優(yōu)秀的畫家復(fù)原古畫。畫家從一張充滿噪聲的畫布開始,通過多個(gè)步驟逐步去除噪聲,最終復(fù)原出清晰的原畫。在訓(xùn)練過程中,系統(tǒng)學(xué)習(xí)如何預(yù)測(cè)從噪聲狀態(tài)到目標(biāo)語(yǔ)音的"速度場(chǎng)",就像學(xué)習(xí)每一筆畫應(yīng)該朝哪個(gè)方向畫,畫多快。
二、文本感知機(jī)制的創(chuàng)新突破
TaDiCodec最核心的創(chuàng)新在于引入了文本感知的解碼機(jī)制。在大多數(shù)語(yǔ)音生成場(chǎng)景中,目標(biāo)文本信息實(shí)際上是可用的。比如在文本轉(zhuǎn)語(yǔ)音系統(tǒng)中,目標(biāo)文本本身就是已知的;在端到端的語(yǔ)音對(duì)話系統(tǒng)中,文本和語(yǔ)音標(biāo)記通常是聯(lián)合生成的。
研究團(tuán)隊(duì)敏銳地意識(shí)到了這個(gè)機(jī)會(huì),將文本信息作為額外的指導(dǎo)信號(hào)引入到擴(kuò)散解碼器中。這就像給一個(gè)正在拼圖的人提供了完整的參考圖片,拼圖者不僅能看到每個(gè)碎片的形狀和顏色,還能知道這個(gè)碎片在整幅圖中應(yīng)該處于什么位置,表達(dá)什么內(nèi)容。
為了進(jìn)一步提升在極低壓縮率設(shè)置下的重建質(zhì)量,系統(tǒng)還引入了提示機(jī)制。在訓(xùn)練過程中,系統(tǒng)隨機(jī)選擇輸入語(yǔ)音的一個(gè)前綴作為提示,這個(gè)前綴保持原始狀態(tài)不添加噪聲,而損失函數(shù)只在噪聲部分計(jì)算。這種設(shè)計(jì)就像給畫家提供了畫作的一個(gè)角落作為參考,讓畫家能夠更準(zhǔn)確地把握整幅畫的風(fēng)格和特征。
實(shí)驗(yàn)結(jié)果表明,這種提示機(jī)制帶來了顯著的性能提升。當(dāng)研究團(tuán)隊(duì)嘗試移除文本條件時(shí),他們觀察到在極低標(biāo)記率和比特率設(shè)置下的性能出現(xiàn)了顯著下降。例如,在12.5赫茲的幀率下,詞錯(cuò)誤率超過了10%,這清楚地證明了文本感知機(jī)制的重要性。
三、訓(xùn)練策略的精心優(yōu)化
與傳統(tǒng)的兩階段訓(xùn)練方法不同,TaDiCodec采用了端到端的聯(lián)合優(yōu)化策略。傳統(tǒng)方法通常需要先訓(xùn)練一個(gè)向量量化模型,然后再訓(xùn)練一個(gè)單獨(dú)的擴(kuò)散模型用于去標(biāo)記化,這種方法就像是先學(xué)會(huì)騎自行車,再學(xué)會(huì)平衡,兩個(gè)過程相互獨(dú)立。
TaDiCodec的訓(xùn)練過程則更像是學(xué)習(xí)游泳——所有的技能都在同一個(gè)環(huán)境中同時(shí)學(xué)習(xí)和優(yōu)化。系統(tǒng)同時(shí)學(xué)習(xí)如何進(jìn)行特征量化和如何進(jìn)行重建,整個(gè)過程由單一的擴(kuò)散損失函數(shù)驅(qū)動(dòng)。這種設(shè)計(jì)不僅簡(jiǎn)化了訓(xùn)練流程,還避免了多階段訓(xùn)練可能帶來的次優(yōu)解問題。
訓(xùn)練目標(biāo)函數(shù)的設(shè)計(jì)相當(dāng)巧妙。系統(tǒng)需要學(xué)習(xí)預(yù)測(cè)從噪聲狀態(tài)到目標(biāo)語(yǔ)音的速度場(chǎng),這個(gè)過程可以理解為學(xué)習(xí)如何從一團(tuán)模糊的聲音云霧中雕刻出清晰的語(yǔ)音信號(hào)。在數(shù)學(xué)上,這個(gè)速度場(chǎng)定義為噪聲插值路徑的時(shí)間導(dǎo)數(shù),即原始語(yǔ)音減去添加的噪聲。
研究團(tuán)隊(duì)還發(fā)現(xiàn),在主要訓(xùn)練完成后,繼續(xù)訓(xùn)練解碼器同時(shí)凍結(jié)編碼器和量化模塊,能夠進(jìn)一步提升性能。這種策略就像是一個(gè)樂團(tuán)在基本排練完成后,讓各個(gè)聲部的首席演奏者進(jìn)行精細(xì)的調(diào)音,以達(dá)到更完美的和諧效果。
四、實(shí)驗(yàn)驗(yàn)證的全面評(píng)估
研究團(tuán)隊(duì)在多個(gè)維度對(duì)TaDiCodec進(jìn)行了全面的實(shí)驗(yàn)驗(yàn)證。他們使用了包含46.8千小時(shí)英語(yǔ)、49.9千小時(shí)中文以及其他多種語(yǔ)言的大規(guī)模多語(yǔ)言數(shù)據(jù)集Emilia進(jìn)行訓(xùn)練。這個(gè)數(shù)據(jù)集的規(guī)模相當(dāng)于一個(gè)人連續(xù)聽音頻內(nèi)容超過11年的時(shí)間,為模型提供了極其豐富的語(yǔ)音樣本。
在重建質(zhì)量評(píng)估中,TaDiCodec在多個(gè)關(guān)鍵指標(biāo)上都表現(xiàn)出色。詞錯(cuò)誤率方面,TaDiCodec在英語(yǔ)測(cè)試集上達(dá)到了2.73%,在中文測(cè)試集上達(dá)到了0.94%,這個(gè)成績(jī)意味著系統(tǒng)重建的語(yǔ)音中每100個(gè)詞只有不到3個(gè)會(huì)被識(shí)別錯(cuò)誤。
說話人相似度方面,TaDiCodec達(dá)到了0.69的高分,這意味著重建后的語(yǔ)音能夠很好地保持原說話人的聲音特征。語(yǔ)音質(zhì)量評(píng)分方面,系統(tǒng)獲得了3.73分的高分,接近自然語(yǔ)音的質(zhì)量水平。
更令人印象深刻的是,TaDiCodec在多語(yǔ)言環(huán)境下同樣表現(xiàn)優(yōu)秀。在法語(yǔ)、德語(yǔ)、日語(yǔ)和韓語(yǔ)的測(cè)試中,系統(tǒng)都展現(xiàn)了穩(wěn)定的性能,證明了其技術(shù)架構(gòu)的通用性和魯棒性。
五、零樣本語(yǔ)音合成的卓越表現(xiàn)
為了驗(yàn)證TaDiCodec在實(shí)際應(yīng)用中的效果,研究團(tuán)隊(duì)構(gòu)建了基于該技術(shù)的零樣本文本轉(zhuǎn)語(yǔ)音系統(tǒng)。零樣本意味著系統(tǒng)可以模仿它從未見過的說話人的聲音,就像一個(gè)天才的模仿者能夠僅僅聽?zhēng)酌腌姷匿浺艟屯昝缽?fù)制某個(gè)人的說話方式。
研究團(tuán)隊(duì)采用了兩種不同的語(yǔ)言建模方法:自回歸建模和掩碼生成建模。自回歸方法就像是一個(gè)人在逐詞朗讀,每個(gè)詞的發(fā)音都基于前面已經(jīng)說出的內(nèi)容。掩碼生成建模則更像是填字游戲,系統(tǒng)需要根據(jù)上下文推測(cè)出被遮住的詞匯應(yīng)該如何發(fā)音。
實(shí)驗(yàn)結(jié)果顯示,基于TaDiCodec的系統(tǒng)在多個(gè)具有挑戰(zhàn)性的測(cè)試集上都取得了優(yōu)異成績(jī)。在常規(guī)的英語(yǔ)和中文測(cè)試中,自回歸模型分別達(dá)到了2.28%和1.19%的詞錯(cuò)誤率。更令人印象深刻的是,在一些特別困難的測(cè)試場(chǎng)景中,比如繞口令、代碼切換和跨語(yǔ)言合成,TaDiCodec都展現(xiàn)出了顯著優(yōu)于現(xiàn)有系統(tǒng)的性能。
在繞口令測(cè)試中,系統(tǒng)需要處理大量相似音素的快速切換,這對(duì)語(yǔ)音合成系統(tǒng)來說是一個(gè)極大的挑戰(zhàn)。TaDiCodec在英語(yǔ)繞口令測(cè)試中達(dá)到了8.23%的詞錯(cuò)誤率,而在中文繞口令測(cè)試中更是達(dá)到了8.74%的優(yōu)異成績(jī)。
代碼切換測(cè)試要求系統(tǒng)在同一句話中處理多種語(yǔ)言的混合使用,這種情況在現(xiàn)實(shí)生活中越來越常見。TaDiCodec在英語(yǔ)-中文代碼切換測(cè)試中分別達(dá)到了9.16%和16.09%的詞錯(cuò)誤率,遠(yuǎn)超現(xiàn)有的最佳系統(tǒng)。
六、效率優(yōu)化的技術(shù)突破
TaDiCodec不僅在質(zhì)量上表現(xiàn)出色,在效率方面也有著顯著的優(yōu)勢(shì)。由于采用了極低的標(biāo)記率,系統(tǒng)在訓(xùn)練和推理過程中都需要處理更少的數(shù)據(jù),這直接轉(zhuǎn)化為更快的處理速度和更低的計(jì)算資源需求。
在模型規(guī)模擴(kuò)展實(shí)驗(yàn)中,研究團(tuán)隊(duì)訓(xùn)練了從0.2B到4.0B參數(shù)不等的不同規(guī)模模型。實(shí)驗(yàn)結(jié)果顯示,即使是0.5B參數(shù)的模型就已經(jīng)能夠達(dá)到或超越許多現(xiàn)有的先進(jìn)系統(tǒng),而4.0B參數(shù)的大模型在所有測(cè)試場(chǎng)景中都表現(xiàn)出了卓越的性能。
推理效率方面,TaDiCodec展現(xiàn)出了令人印象深刻的實(shí)時(shí)性能。即使是4.0B參數(shù)的大模型,在沒有任何部署優(yōu)化的情況下也能達(dá)到0.29的實(shí)時(shí)因子,意味著生成1秒的語(yǔ)音只需要0.29秒的計(jì)算時(shí)間。當(dāng)使用vLLM等優(yōu)化工具時(shí),這個(gè)數(shù)字進(jìn)一步降低到0.13,實(shí)現(xiàn)了真正的實(shí)時(shí)語(yǔ)音合成。
更小的模型在效率方面表現(xiàn)更加突出。0.6B參數(shù)的掩碼生成模型達(dá)到了0.12的實(shí)時(shí)因子,而0.5B參數(shù)的自回歸模型也只需要0.22的計(jì)算時(shí)間。這種高效性使得TaDiCodec能夠部署在各種計(jì)算資源受限的環(huán)境中,包括移動(dòng)設(shè)備和邊緣計(jì)算場(chǎng)景。
七、重建生成差距的顯著改善
傳統(tǒng)語(yǔ)音編解碼器面臨的一個(gè)重要問題是重建-生成差距,即系統(tǒng)在重建訓(xùn)練數(shù)據(jù)時(shí)表現(xiàn)良好,但在實(shí)際生成新語(yǔ)音時(shí)性能下降。這種現(xiàn)象就像一個(gè)學(xué)生在做練習(xí)題時(shí)得心應(yīng)手,但在面對(duì)全新的考試題目時(shí)卻表現(xiàn)不佳。
TaDiCodec在這方面取得了顯著的改進(jìn)。實(shí)驗(yàn)結(jié)果顯示,TaDiCodec在英語(yǔ)測(cè)試中展現(xiàn)出了-16.5%的詞錯(cuò)誤率差距,這意味著生成的語(yǔ)音質(zhì)量實(shí)際上比直接重建還要更好。在中文測(cè)試中,系統(tǒng)達(dá)到了+26.5%的詞錯(cuò)誤率差距和0%的說話人相似度差距,展現(xiàn)出了極高的一致性。
相比之下,現(xiàn)有的系統(tǒng)通常存在較大的重建-生成差距。例如,某些系統(tǒng)在英語(yǔ)測(cè)試中存在-104.5%的詞錯(cuò)誤率差距,在中文測(cè)試中更是達(dá)到了-265.9%的差距。這種巨大的差距表明這些系統(tǒng)在實(shí)際應(yīng)用中難以保持重建時(shí)的高質(zhì)量表現(xiàn)。
TaDiCodec能夠?qū)崿F(xiàn)如此小的重建-生成差距,主要得益于其端到端的訓(xùn)練策略和文本感知的設(shè)計(jì)。由于系統(tǒng)在訓(xùn)練過程中就考慮了文本信息的引導(dǎo),它能夠更好地學(xué)習(xí)語(yǔ)音和語(yǔ)義之間的對(duì)應(yīng)關(guān)系,從而在生成過程中保持更高的一致性和質(zhì)量。
八、消融實(shí)驗(yàn)的深入分析
為了更好地理解TaDiCodec各個(gè)組件的貢獻(xiàn),研究團(tuán)隊(duì)進(jìn)行了詳盡的消融實(shí)驗(yàn)。這些實(shí)驗(yàn)就像是拆解一臺(tái)精密機(jī)器,逐個(gè)檢驗(yàn)每個(gè)零件的作用,以確保整體設(shè)計(jì)的最優(yōu)性。
在量化方案的比較中,二進(jìn)制球面量化相比傳統(tǒng)的向量量化方法展現(xiàn)出了一致的性能優(yōu)勢(shì)。當(dāng)研究團(tuán)隊(duì)用相同大小的傳統(tǒng)碼本替換二進(jìn)制球面量化時(shí),所有評(píng)估指標(biāo)都出現(xiàn)了下降,這證明了二進(jìn)制球面量化在保持語(yǔ)音質(zhì)量和智能度方面的有效性。
模型規(guī)模的影響分析顯示了明顯的擴(kuò)展規(guī)律。當(dāng)解碼器規(guī)模從320M參數(shù)減少到160M參數(shù)時(shí),性能出現(xiàn)了顯著下降,特別是在英語(yǔ)詞錯(cuò)誤率方面。相反,將解碼器規(guī)模增加到480M參數(shù)時(shí),所有指標(biāo)都獲得了邊際改進(jìn)。這些結(jié)果表明TaDiCodec存在明確的模型擴(kuò)展規(guī)律,為未來的進(jìn)一步優(yōu)化指明了方向。
提示機(jī)制的重要性通過對(duì)比實(shí)驗(yàn)得到了充分驗(yàn)證。當(dāng)移除提示機(jī)制時(shí),所有三個(gè)評(píng)估指標(biāo)都出現(xiàn)了大幅下降。研究團(tuán)隊(duì)推測(cè),提示機(jī)制之所以有效,是因?yàn)樗鼮橄到y(tǒng)提供了全局條件信號(hào),比如說話人身份等信息,從而減輕了量化器編碼這類全局信息的負(fù)擔(dān)。
推理步數(shù)的影響分析展現(xiàn)了質(zhì)量和效率之間的權(quán)衡關(guān)系。增加推理步數(shù)到50步帶來了邊際的性能提升,而減少到10步只導(dǎo)致了輕微的性能下降。然而,進(jìn)一步減少到5步時(shí),性能出現(xiàn)了明顯的下降。考慮到效率和質(zhì)量之間的平衡,10到32步的推理步數(shù)范圍被認(rèn)為是合理的操作區(qū)間。
九、技術(shù)影響與未來展望
TaDiCodec的技術(shù)突破對(duì)整個(gè)語(yǔ)音處理領(lǐng)域產(chǎn)生了深遠(yuǎn)的影響。首先,極低的壓縮率使得大規(guī)模語(yǔ)音數(shù)據(jù)的存儲(chǔ)和傳輸成本大大降低,這對(duì)于構(gòu)建更大規(guī)模的語(yǔ)音數(shù)據(jù)集和支持更多用戶的語(yǔ)音服務(wù)具有重要意義。
在應(yīng)用層面,TaDiCodec的高效率使得實(shí)時(shí)語(yǔ)音合成在資源受限的環(huán)境中成為可能。這意味著高質(zhì)量的語(yǔ)音合成技術(shù)可以部署到手機(jī)、智能手表甚至物聯(lián)網(wǎng)設(shè)備中,為用戶提供更自然、更流暢的人機(jī)交互體驗(yàn)。
文本感知機(jī)制的引入也為語(yǔ)音處理技術(shù)的發(fā)展開辟了新的方向。通過將文本信息作為額外的指導(dǎo)信號(hào),系統(tǒng)能夠更好地理解和生成語(yǔ)音內(nèi)容,這種多模態(tài)融合的方法為未來的語(yǔ)音AI系統(tǒng)設(shè)計(jì)提供了重要啟示。
研究團(tuán)隊(duì)也坦誠(chéng)地指出了當(dāng)前技術(shù)的一些限制。由于采用了擴(kuò)散自編碼器進(jìn)行標(biāo)記化和去標(biāo)記化,系統(tǒng)在推理過程中需要多個(gè)步驟,相比基于生成對(duì)抗網(wǎng)絡(luò)的標(biāo)記器會(huì)有更高的解碼延遲。未來的工作可能會(huì)探索蒸餾技術(shù)或更強(qiáng)大的生成模型,以實(shí)現(xiàn)單步推理而不損失性能。
另一個(gè)限制是TaDiCodec目前需要文本輸入才能進(jìn)行解碼。雖然在大多數(shù)應(yīng)用場(chǎng)景中文本是可獲得的,但探索能夠同時(shí)進(jìn)行轉(zhuǎn)錄、標(biāo)記化和重建的統(tǒng)一模型將是一個(gè)有價(jià)值的研究方向,這將使單一模型能夠?qū)崿F(xiàn)聯(lián)合的理解、壓縮和重建功能。
總的來說,TaDiCodec代表了語(yǔ)音編解碼技術(shù)的一個(gè)重要里程碑。它不僅在技術(shù)性能上取得了顯著突破,更重要的是為整個(gè)領(lǐng)域提供了新的思路和方法。通過端到端的擴(kuò)散自編碼器設(shè)計(jì)、文本感知的解碼機(jī)制以及精心優(yōu)化的訓(xùn)練策略,TaDiCodec展現(xiàn)了在保持極高壓縮率的同時(shí)實(shí)現(xiàn)優(yōu)異語(yǔ)音質(zhì)量的可能性。隨著技術(shù)的進(jìn)一步發(fā)展和完善,我們有理由相信TaDiCodec及其衍生技術(shù)將在未來的語(yǔ)音AI應(yīng)用中發(fā)揮越來越重要的作用,為用戶帶來更加自然、高效和智能的語(yǔ)音交互體驗(yàn)。
Q&A
Q1:TaDiCodec相比傳統(tǒng)語(yǔ)音編碼器有什么優(yōu)勢(shì)?
A:TaDiCodec最大的優(yōu)勢(shì)是壓縮效率極高,只需要6.25赫茲的幀率和0.0875千比特每秒的比特率就能處理高質(zhì)量語(yǔ)音,相比傳統(tǒng)方法壓縮率提升了10倍以上。同時(shí)它采用端到端訓(xùn)練,不需要復(fù)雜的多階段訓(xùn)練和額外的預(yù)訓(xùn)練模型,大大簡(jiǎn)化了系統(tǒng)架構(gòu)。
Q2:TaDiCodec的文本感知機(jī)制是如何工作的?
A:文本感知機(jī)制將對(duì)應(yīng)的文本信息作為額外指導(dǎo)信號(hào)引入到語(yǔ)音重建過程中,就像給拼圖者提供完整的參考圖片。系統(tǒng)不僅能看到語(yǔ)音片段的聲學(xué)特征,還能理解這些片段應(yīng)該表達(dá)什么內(nèi)容,從而實(shí)現(xiàn)更精準(zhǔn)的語(yǔ)音重建和生成。
Q3:TaDiCodec在實(shí)際應(yīng)用中的性能如何?
A:TaDiCodec在零樣本語(yǔ)音合成中表現(xiàn)出色,英語(yǔ)和中文的詞錯(cuò)誤率分別達(dá)到2.28%和1.19%,說話人相似度達(dá)到0.69。更重要的是,4.0B參數(shù)模型的實(shí)時(shí)因子只有0.29,使用優(yōu)化工具后可降至0.13,完全滿足實(shí)時(shí)語(yǔ)音合成的需求。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語(yǔ)言模型的敘事推理能力與音頻生成技術(shù),通過交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語(yǔ)言模型人性化對(duì)話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。