這項(xiàng)由阿里巴巴國(guó)際數(shù)字商務(wù)團(tuán)隊(duì)的田鳳平、呂晨陽(yáng)等研究人員完成的突破性研究,發(fā)表于2025年8月的arXiv預(yù)印本平臺(tái)。研究團(tuán)隊(duì)開(kāi)發(fā)出了名為Marco-Voice的多功能語(yǔ)音合成系統(tǒng),同時(shí)還構(gòu)建了包含10小時(shí)中文情感語(yǔ)音數(shù)據(jù)的CSEMOTIONS數(shù)據(jù)集。感興趣的讀者可以通過(guò)https://github.com/AIDC-AI/Marco-Voice獲取代碼,通過(guò)https://huggingface.co/datasets/AIDC-AI/CSEMOTIONS訪問(wèn)數(shù)據(jù)集。
當(dāng)我們聽(tīng)到某個(gè)熟悉的聲音時(shí),大腦會(huì)瞬間識(shí)別出這是誰(shuí)在說(shuō)話,同時(shí)還能感受到說(shuō)話者的情緒狀態(tài)——是開(kāi)心、憤怒還是悲傷。這種看似簡(jiǎn)單的能力,對(duì)計(jì)算機(jī)來(lái)說(shuō)卻是一個(gè)巨大的挑戰(zhàn)。阿里巴巴的研究團(tuán)隊(duì)正是要讓機(jī)器掌握這種既能模仿不同人聲音特色,又能準(zhǔn)確表達(dá)各種情感的能力。
傳統(tǒng)的語(yǔ)音合成技術(shù)就像一個(gè)只會(huì)背書(shū)的學(xué)生,雖然能說(shuō)出清晰的話語(yǔ),但聲音聽(tīng)起來(lái)機(jī)械呆板,更別說(shuō)表達(dá)豐富的情感了。更糟糕的是,當(dāng)這些系統(tǒng)試圖模仿某個(gè)特定人的聲音時(shí),往往會(huì)把那個(gè)人的說(shuō)話風(fēng)格和情感表達(dá)方式混在一起,無(wú)法單獨(dú)控制。這就好比一個(gè)演員只能完全模仿某個(gè)角色的一切,卻無(wú)法在保持角色聲音特色的同時(shí)表演不同的情緒。
Marco-Voice的革命性突破在于,它能夠像一個(gè)真正優(yōu)秀的配音演員一樣,既能完美模仿任何人的聲音特色,又能根據(jù)需要表達(dá)各種不同的情感。研究團(tuán)隊(duì)通過(guò)巧妙的技術(shù)設(shè)計(jì),讓系統(tǒng)學(xué)會(huì)了將"聲音身份"和"情感表達(dá)"分開(kāi)處理,就像把一個(gè)人的外貌特征和性格特點(diǎn)分別記錄一樣。
一、機(jī)器學(xué)習(xí)人類(lèi)聲音的藝術(shù):Marco-Voice的核心創(chuàng)新
Marco-Voice的工作原理可以比作一個(gè)精通多種技能的聲音魔法師。當(dāng)我們要讓它合成語(yǔ)音時(shí),整個(gè)過(guò)程分為幾個(gè)精密配合的步驟。
首先,系統(tǒng)需要理解輸入的文字內(nèi)容,這就像讀劇本的過(guò)程。文本編碼器會(huì)仔細(xì)分析每個(gè)詞語(yǔ)、句子的含義和語(yǔ)法結(jié)構(gòu),為后續(xù)的語(yǔ)音生成提供基礎(chǔ)信息。同時(shí),語(yǔ)音標(biāo)記器會(huì)將參考音頻轉(zhuǎn)換成機(jī)器能夠理解的"聲音密碼",這些密碼包含了音頻的各種特征信息。
接下來(lái)是Marco-Voice最精彩的部分——情感和聲音特征的分離處理。研究團(tuán)隊(duì)設(shè)計(jì)了一套"旋轉(zhuǎn)情感嵌入整合方法",聽(tīng)起來(lái)很復(fù)雜,其實(shí)原理相當(dāng)巧妙。他們發(fā)現(xiàn),如果有同一個(gè)人說(shuō)話時(shí)的兩段錄音——一段是中性平靜的,另一段是帶有某種情感的,那么這兩段錄音在機(jī)器的"理解空間"中的差異,就代表了純粹的情感信息,而剔除了個(gè)人聲音特色的干擾。
這種方法就像從兩張照片中提取表情變化一樣。假設(shè)你有一張某人面無(wú)表情的照片和一張他微笑的照片,通過(guò)比較這兩張照片的差異,你就能提取出"微笑"這個(gè)純粹的表情信息,而不會(huì)受到這個(gè)人具體長(zhǎng)相特征的影響。Marco-Voice正是用這種方式學(xué)會(huì)了從語(yǔ)音中提取純粹的情感信息。
為了確保聲音身份和情感表達(dá)真正做到相互獨(dú)立,研究團(tuán)隊(duì)還引入了"交叉正交約束"機(jī)制。這個(gè)機(jī)制的作用就像一個(gè)嚴(yán)格的教練,不斷監(jiān)督系統(tǒng)確保聲音特征和情感特征在學(xué)習(xí)過(guò)程中保持相互垂直的關(guān)系,就像數(shù)學(xué)中的坐標(biāo)軸一樣,互不干擾。
二、讓機(jī)器學(xué)會(huì)情感表達(dá)的秘密武器
Marco-Voice在處理情感方面的突破,離不開(kāi)一個(gè)叫做"批次內(nèi)對(duì)比學(xué)習(xí)"的技術(shù)。這個(gè)技術(shù)的工作原理很像教小孩子區(qū)分不同顏色的過(guò)程。
當(dāng)我們教孩子認(rèn)識(shí)紅色時(shí),不僅會(huì)指著紅色的東西說(shuō)"這是紅色",還會(huì)同時(shí)指著藍(lán)色、綠色的東西說(shuō)"這些不是紅色"。批次內(nèi)對(duì)比學(xué)習(xí)就是這樣工作的:當(dāng)系統(tǒng)學(xué)習(xí)某種情感表達(dá)時(shí),它不僅要學(xué)會(huì)準(zhǔn)確識(shí)別這種情感,還要學(xué)會(huì)將其與其他情感區(qū)分開(kāi)來(lái)。
在每次訓(xùn)練過(guò)程中,系統(tǒng)會(huì)同時(shí)處理多個(gè)不同情感的語(yǔ)音樣本。對(duì)于其中的每一個(gè)樣本,系統(tǒng)都會(huì)努力讓它與表達(dá)相同情感的樣本更相似,同時(shí)與表達(dá)不同情感的樣本更不相似。這種學(xué)習(xí)方式大大提高了系統(tǒng)對(duì)各種情感的識(shí)別和表達(dá)能力。
Marco-Voice還使用了一種叫做"條件流匹配"的生成技術(shù)。這項(xiàng)技術(shù)的工作過(guò)程就像一個(gè)經(jīng)驗(yàn)豐富的調(diào)音師,能夠根據(jù)給定的條件(文本內(nèi)容、聲音特征、情感要求)精確地調(diào)整每一個(gè)聲音參數(shù),最終生成自然流暢的語(yǔ)音。
整個(gè)生成過(guò)程中最關(guān)鍵的創(chuàng)新是引入了交叉注意力機(jī)制。這個(gè)機(jī)制讓情感信息能夠深度參與到語(yǔ)音生成的每個(gè)環(huán)節(jié)中,確保最終合成的語(yǔ)音不僅在技術(shù)上準(zhǔn)確,在情感表達(dá)上也自然貼切。可以把這個(gè)過(guò)程想象成一個(gè)指揮家同時(shí)協(xié)調(diào)樂(lè)隊(duì)的不同聲部,確保每個(gè)樂(lè)器既保持自己的特色,又完美融入整體的情感氛圍中。
三、CSEMOTIONS:為中文情感語(yǔ)音合成量身打造的數(shù)據(jù)寶庫(kù)
要訓(xùn)練出優(yōu)秀的情感語(yǔ)音合成系統(tǒng),高質(zhì)量的訓(xùn)練數(shù)據(jù)是必不可少的。然而,研究團(tuán)隊(duì)發(fā)現(xiàn)現(xiàn)有的情感語(yǔ)音數(shù)據(jù)集存在諸多不足:要么是說(shuō)話人數(shù)量有限,要么是錄音質(zhì)量參差不齊,要么是情感類(lèi)別覆蓋不全。針對(duì)中文語(yǔ)音合成的需求,這個(gè)問(wèn)題更加突出。
為了解決這個(gè)問(wèn)題,研究團(tuán)隊(duì)構(gòu)建了CSEMOTIONS數(shù)據(jù)集。這個(gè)數(shù)據(jù)集包含了約10小時(shí)的高質(zhì)量中文情感語(yǔ)音,由6位專(zhuān)業(yè)配音演員錄制,其中男女各占一半。這些配音演員都具有豐富的聲音表演經(jīng)驗(yàn),能夠準(zhǔn)確地表達(dá)各種細(xì)膩的情感狀態(tài)。
CSEMOTIONS涵蓋了七種不同的情感類(lèi)別:中性、快樂(lè)、憤怒、悲傷、驚訝、恐懼和厭惡。每位配音演員都錄制了涵蓋所有情感類(lèi)別的語(yǔ)音樣本,確保了數(shù)據(jù)集在說(shuō)話人和情感覆蓋度方面的平衡性。
更重要的是,所有錄音都在專(zhuān)業(yè)錄音棚中完成,使用了高端的錄音設(shè)備,確保了音頻質(zhì)量的一致性和專(zhuān)業(yè)性。錄音環(huán)境的控制消除了背景噪音和混響的干擾,讓系統(tǒng)能夠?qū)W⒂趯W(xué)習(xí)純粹的語(yǔ)音特征和情感表達(dá)。
除了訓(xùn)練數(shù)據(jù),研究團(tuán)隊(duì)還為每種情感類(lèi)別精心設(shè)計(jì)了100個(gè)評(píng)估句子,這些句子既包含中文也包含英文內(nèi)容。這樣的設(shè)計(jì)使得系統(tǒng)的性能評(píng)估更加全面和客觀,也為跨語(yǔ)言的情感語(yǔ)音合成研究提供了寶貴的基準(zhǔn)測(cè)試資源。
四、實(shí)驗(yàn)驗(yàn)證:Marco-Voice的表現(xiàn)到底如何
為了全面評(píng)估Marco-Voice的性能,研究團(tuán)隊(duì)設(shè)計(jì)了一系列詳細(xì)的實(shí)驗(yàn)。這些實(shí)驗(yàn)就像給一個(gè)新生的配音演員安排試鏡一樣,從多個(gè)角度檢驗(yàn)系統(tǒng)的能力。
在聲音克隆能力的測(cè)試中,Marco-Voice的表現(xiàn)令人印象深刻。研究團(tuán)隊(duì)邀請(qǐng)了母語(yǔ)使用者對(duì)合成語(yǔ)音進(jìn)行評(píng)價(jià),評(píng)價(jià)維度包括語(yǔ)音清晰度、節(jié)奏和語(yǔ)速、自然度、整體滿意度以及說(shuō)話人相似度。結(jié)果顯示,Marco-Voice在所有維度上都超越了現(xiàn)有的主流系統(tǒng)。
特別值得注意的是說(shuō)話人相似度這一指標(biāo),Marco-Voice獲得了0.8275的高分,明顯超過(guò)了對(duì)比系統(tǒng)的0.605-0.700分。這意味著聽(tīng)眾很容易就能識(shí)別出合成語(yǔ)音確實(shí)來(lái)自目標(biāo)說(shuō)話人,聲音克隆的效果非常逼真。
在情感表達(dá)能力的測(cè)試中,Marco-Voice同樣展現(xiàn)出了顯著優(yōu)勢(shì)。系統(tǒng)在情感表達(dá)的準(zhǔn)確性和自然度方面都獲得了最高評(píng)分,達(dá)到了4.225分(滿分5分)。這個(gè)分?jǐn)?shù)表明,合成的情感語(yǔ)音不僅能準(zhǔn)確傳達(dá)指定的情感,而且聽(tīng)起來(lái)非常自然,不會(huì)讓人感覺(jué)機(jī)械或夸張。
研究團(tuán)隊(duì)還進(jìn)行了直接對(duì)比測(cè)試,讓聽(tīng)眾在不知道哪個(gè)是Marco-Voice合成的情況下,從成對(duì)的語(yǔ)音樣本中選擇更好的那一個(gè)。結(jié)果顯示,Marco-Voice在60%-65%的對(duì)比中勝出,這在語(yǔ)音合成領(lǐng)域是一個(gè)相當(dāng)不錯(cuò)的成績(jī)。
更詳細(xì)的客觀指標(biāo)分析顯示,Marco-Voice在保持較低詞錯(cuò)率的同時(shí),在說(shuō)話人相似度和感知質(zhì)量方面都表現(xiàn)出色。研究團(tuán)隊(duì)測(cè)試了系統(tǒng)的多個(gè)版本,發(fā)現(xiàn)隨著技術(shù)改進(jìn)的逐步加入,系統(tǒng)性能呈現(xiàn)出穩(wěn)步提升的趨勢(shì),最終的v4版本在大多數(shù)指標(biāo)上都達(dá)到了最優(yōu)水平。
五、跨語(yǔ)言表現(xiàn):Marco-Voice的語(yǔ)言適應(yīng)能力
Marco-Voice的另一個(gè)引人注目的特點(diǎn)是其出色的跨語(yǔ)言適應(yīng)能力。研究團(tuán)隊(duì)在英文和中文數(shù)據(jù)集上都進(jìn)行了詳細(xì)測(cè)試,結(jié)果顯示系統(tǒng)在兩種語(yǔ)言上都能保持穩(wěn)定的高質(zhì)量輸出。
在情感識(shí)別準(zhǔn)確率方面,Marco-Voice的最新版本在中文數(shù)據(jù)上達(dá)到了0.78的準(zhǔn)確率,在英文數(shù)據(jù)上達(dá)到了0.77的準(zhǔn)確率。這種跨語(yǔ)言的一致性表明,系統(tǒng)學(xué)到的不僅僅是特定語(yǔ)言的聲學(xué)特征,而是更深層次的情感表達(dá)規(guī)律。
有趣的是,研究團(tuán)隊(duì)發(fā)現(xiàn)不同情感在兩種語(yǔ)言中的表現(xiàn)模式存在一些差異。中性和憤怒情感在兩種語(yǔ)言中都能達(dá)到85%以上的識(shí)別準(zhǔn)確率,表現(xiàn)最為穩(wěn)定。而驚訝和悲傷情感的識(shí)別相對(duì)困難一些,但Marco-Voice的高級(jí)版本仍然能夠在這些具有挑戰(zhàn)性的情感類(lèi)別上達(dá)到73%以上的準(zhǔn)確率。
語(yǔ)言特定的表現(xiàn)模式也很有啟發(fā)性。在中文數(shù)據(jù)上,快樂(lè)和憤怒情感的識(shí)別效果更好,而在英文數(shù)據(jù)上,中性和悲傷情感的表現(xiàn)更出色。這種差異可能反映了不同文化背景下情感表達(dá)方式的微妙區(qū)別,Marco-Voice能夠捕捉并適應(yīng)這些差異,展現(xiàn)了其跨文化的適應(yīng)能力。
六、技術(shù)細(xì)節(jié)探秘:Marco-Voice是如何訓(xùn)練出來(lái)的
Marco-Voice的訓(xùn)練過(guò)程就像培養(yǎng)一個(gè)全能的語(yǔ)言表演藝術(shù)家,需要在多個(gè)方面同時(shí)提升能力。整個(gè)訓(xùn)練過(guò)程基于CosyVoice框架進(jìn)行改進(jìn),使用了8塊NVIDIA A100 GPU,訓(xùn)練時(shí)間約為數(shù)小時(shí)。
訓(xùn)練的核心挑戰(zhàn)在于如何平衡多個(gè)學(xué)習(xí)目標(biāo)。系統(tǒng)不僅要學(xué)會(huì)準(zhǔn)確的語(yǔ)音合成,還要掌握聲音克隆和情感表達(dá)兩項(xiàng)專(zhuān)門(mén)技能。研究團(tuán)隊(duì)設(shè)計(jì)的綜合損失函數(shù)就像一個(gè)經(jīng)驗(yàn)豐富的老師,同時(shí)關(guān)注學(xué)生在多個(gè)科目上的表現(xiàn)。
主要的文本到語(yǔ)音合成損失確保系統(tǒng)能夠生成清晰、自然的語(yǔ)音。正交性損失則專(zhuān)門(mén)負(fù)責(zé)維持聲音特征和情感特征之間的獨(dú)立性,防止兩者相互干擾。對(duì)比學(xué)習(xí)損失幫助系統(tǒng)更好地區(qū)分不同的情感表達(dá)。這三個(gè)損失函數(shù)的權(quán)重經(jīng)過(guò)精心調(diào)整,分別設(shè)置為主損失的0.1倍和0.5倍。
訓(xùn)練使用了Adam優(yōu)化器,對(duì)語(yǔ)言模型部分使用了1×10^-5的學(xué)習(xí)率,對(duì)流匹配部分使用了1×10^-4的學(xué)習(xí)率,并采用余弦衰減調(diào)度策略。批量大小設(shè)置為每個(gè)GPU處理32個(gè)樣本,確保了訓(xùn)練的穩(wěn)定性和效率。
研究團(tuán)隊(duì)還發(fā)現(xiàn),僅使用10個(gè)樣本進(jìn)行單次情感嵌入計(jì)算就足以產(chǎn)生高質(zhì)量的情感控制效果。這個(gè)發(fā)現(xiàn)對(duì)于實(shí)際應(yīng)用非常重要,意味著用戶(hù)不需要提供大量的情感語(yǔ)音樣本就能獲得滿意的合成效果。
七、深入分析:影響Marco-Voice表現(xiàn)的關(guān)鍵因素
研究團(tuán)隊(duì)對(duì)影響Marco-Voice性能的各種因素進(jìn)行了深入分析,這些發(fā)現(xiàn)為未來(lái)的改進(jìn)提供了重要指導(dǎo)。
音頻長(zhǎng)度對(duì)情感識(shí)別效果的影響呈現(xiàn)出明顯的規(guī)律。短于1秒的語(yǔ)音片段識(shí)別準(zhǔn)確率普遍較低,通常不到60%。這很容易理解,因?yàn)樘痰恼Z(yǔ)音片段包含的情感信息有限。1到3秒的語(yǔ)音片段表現(xiàn)最為理想,準(zhǔn)確率通常在60%-80%之間,這個(gè)長(zhǎng)度既包含了足夠的情感信息,又不會(huì)引入過(guò)多的干擾因素。超過(guò)3秒的長(zhǎng)語(yǔ)音片段雖然準(zhǔn)確率最高,但提升幅度有限,這表明1-3秒是實(shí)際應(yīng)用中的最佳選擇。
性別差異的分析揭示了一個(gè)令人關(guān)注的現(xiàn)象:系統(tǒng)在女性說(shuō)話人上的表現(xiàn)明顯優(yōu)于男性說(shuō)話人。女性說(shuō)話人的大多數(shù)情感類(lèi)別都能達(dá)到40%以上的準(zhǔn)確率,而男性說(shuō)話人往往低于20%,特別是在驚訝和悲傷情感上表現(xiàn)更差。這種性別偏差可能源于訓(xùn)練數(shù)據(jù)的不平衡或者男女情感表達(dá)方式的差異,提醒研究者在未來(lái)工作中需要更加注重性別平衡的數(shù)據(jù)收集和模型優(yōu)化。
跨語(yǔ)言性能對(duì)比顯示,雖然Marco-Voice在中英文兩種語(yǔ)言上都表現(xiàn)良好,但仍存在一些語(yǔ)言特定的模式。這種差異不僅體現(xiàn)在整體準(zhǔn)確率上,也體現(xiàn)在特定情感類(lèi)別的表現(xiàn)差異上。這些發(fā)現(xiàn)為開(kāi)發(fā)更加通用的多語(yǔ)言情感語(yǔ)音合成系統(tǒng)提供了寶貴的經(jīng)驗(yàn)。
八、Marco-Voice的實(shí)際應(yīng)用前景
Marco-Voice的技術(shù)突破為語(yǔ)音合成領(lǐng)域開(kāi)辟了廣闊的應(yīng)用前景。在虛擬助手領(lǐng)域,這項(xiàng)技術(shù)能夠讓AI助手不僅擁有個(gè)性化的聲音,還能根據(jù)對(duì)話內(nèi)容和用戶(hù)情緒調(diào)整自己的情感表達(dá),提供更加自然和人性化的交互體驗(yàn)。
在內(nèi)容創(chuàng)作方面,Marco-Voice為有聲讀物、播客制作和視頻配音提供了革命性的工具。創(chuàng)作者可以使用特定聲優(yōu)的聲音特色,同時(shí)根據(jù)內(nèi)容需要調(diào)整情感表達(dá),大大降低了專(zhuān)業(yè)配音的成本和制作周期。這對(duì)于獨(dú)立創(chuàng)作者和小型制作團(tuán)隊(duì)來(lái)說(shuō)特別有價(jià)值。
教育技術(shù)也是Marco-Voice的重要應(yīng)用領(lǐng)域。個(gè)性化的語(yǔ)音教學(xué)系統(tǒng)可以使用學(xué)生熟悉的聲音進(jìn)行教學(xué),同時(shí)根據(jù)教學(xué)內(nèi)容調(diào)整語(yǔ)調(diào)和情感,讓學(xué)習(xí)過(guò)程更加生動(dòng)有趣。特別是在語(yǔ)言學(xué)習(xí)中,學(xué)生可以聽(tīng)到標(biāo)準(zhǔn)發(fā)音的同時(shí),感受到豐富的情感表達(dá),提高學(xué)習(xí)效果。
對(duì)于有語(yǔ)言障礙或失去聲音能力的人群,Marco-Voice技術(shù)可能提供個(gè)性化的語(yǔ)音重建服務(wù)。通過(guò)分析用戶(hù)的歷史錄音或家人的聲音特征,系統(tǒng)可以幫助他們重新獲得個(gè)性化的語(yǔ)音表達(dá)能力。
九、當(dāng)前限制與未來(lái)改進(jìn)方向
盡管Marco-Voice展現(xiàn)出了令人印象深刻的性能,但研究團(tuán)隊(duì)也坦率地指出了系統(tǒng)目前存在的一些限制。
首先是對(duì)配對(duì)情感語(yǔ)音數(shù)據(jù)的依賴(lài)。系統(tǒng)需要同一說(shuō)話人的中性語(yǔ)音和情感語(yǔ)音樣本才能有效工作,這在實(shí)際應(yīng)用中可能限制了系統(tǒng)的使用范圍。許多潛在用戶(hù)可能無(wú)法提供完整的配對(duì)數(shù)據(jù),特別是對(duì)于歷史錄音或已故說(shuō)話人的聲音重建需求。
計(jì)算效率是另一個(gè)需要關(guān)注的問(wèn)題。雖然系統(tǒng)在質(zhì)量上表現(xiàn)出色,但在實(shí)時(shí)應(yīng)用場(chǎng)景中,特別是在資源受限的設(shè)備上,當(dāng)前的計(jì)算需求可能還是過(guò)高。這限制了技術(shù)在移動(dòng)設(shè)備和邊緣計(jì)算場(chǎng)景中的部署。
研究團(tuán)隊(duì)已經(jīng)為未來(lái)的改進(jìn)工作制定了明確的方向。他們正在探索半監(jiān)督和自監(jiān)督學(xué)習(xí)方法,以減少對(duì)配對(duì)數(shù)據(jù)的依賴(lài)。通過(guò)這些方法,系統(tǒng)有望僅使用少量標(biāo)注數(shù)據(jù)甚至無(wú)標(biāo)注數(shù)據(jù)就能實(shí)現(xiàn)高質(zhì)量的聲音克隆和情感合成。
在效率優(yōu)化方面,研究團(tuán)隊(duì)計(jì)劃采用模型壓縮技術(shù)和優(yōu)化的推理策略,使系統(tǒng)能夠在保持質(zhì)量的同時(shí)顯著降低計(jì)算需求。這將為Marco-Voice在更廣泛場(chǎng)景中的實(shí)際部署鋪平道路。
擴(kuò)大語(yǔ)言支持范圍也是重要的發(fā)展方向。研究團(tuán)隊(duì)希望將Marco-Voice的能力擴(kuò)展到更多語(yǔ)言,特別是資源較少的語(yǔ)言,為全球用戶(hù)提供更加包容的語(yǔ)音合成服務(wù)。
Marco-Voice代表了語(yǔ)音合成技術(shù)向更加自然、可控和個(gè)性化方向發(fā)展的重要里程碑。通過(guò)巧妙地解決聲音身份和情感表達(dá)的分離問(wèn)題,這項(xiàng)技術(shù)不僅在技術(shù)上實(shí)現(xiàn)了突破,也為人機(jī)交互開(kāi)啟了更加豐富和自然的可能性。隨著技術(shù)的不斷完善和優(yōu)化,我們有理由期待Marco-Voice在未來(lái)能夠?yàn)楦嘤脩?hù)帶來(lái)更加出色的語(yǔ)音體驗(yàn),讓機(jī)器的聲音變得更加人性化和富有表現(xiàn)力。
Q&A
Q1:Marco-Voice與傳統(tǒng)語(yǔ)音合成技術(shù)相比有什么突破性改進(jìn)?
A:Marco-Voice的核心突破在于能夠獨(dú)立控制聲音身份和情感表達(dá)。傳統(tǒng)語(yǔ)音合成系統(tǒng)往往將說(shuō)話人的聲音特色和情感表達(dá)混在一起,無(wú)法單獨(dú)調(diào)節(jié)。Marco-Voice通過(guò)創(chuàng)新的"旋轉(zhuǎn)情感嵌入整合方法"和"交叉正交約束"機(jī)制,實(shí)現(xiàn)了聲音克隆和情感控制的完全分離,讓系統(tǒng)能夠像優(yōu)秀配音演員一樣,既保持特定人物的聲音特色,又能根據(jù)需要表達(dá)不同情感。
Q2:CSEMOTIONS數(shù)據(jù)集有什么特殊價(jià)值?
A:CSEMOTIONS是專(zhuān)門(mén)為中文情感語(yǔ)音合成構(gòu)建的高質(zhì)量數(shù)據(jù)集,包含10小時(shí)專(zhuān)業(yè)配音員錄制的七種情感類(lèi)別語(yǔ)音。它解決了現(xiàn)有中文情感語(yǔ)音數(shù)據(jù)稀缺、質(zhì)量參差不齊的問(wèn)題。數(shù)據(jù)集采用專(zhuān)業(yè)錄音棚錄制,確保音質(zhì)一致性,并且男女配音員數(shù)量平衡,為中文語(yǔ)音合成研究提供了寶貴的標(biāo)準(zhǔn)化訓(xùn)練和評(píng)估資源。
Q3:Marco-Voice在實(shí)際應(yīng)用中有什么限制?
A:目前Marco-Voice主要有兩個(gè)限制:一是需要同一說(shuō)話人的中性和情感語(yǔ)音配對(duì)數(shù)據(jù)才能有效工作,這在實(shí)際應(yīng)用中可能難以獲??;二是計(jì)算資源需求較高,在移動(dòng)設(shè)備等資源受限環(huán)境中的實(shí)時(shí)應(yīng)用還面臨挑戰(zhàn)。不過(guò)研究團(tuán)隊(duì)正在開(kāi)發(fā)半監(jiān)督學(xué)習(xí)方法和模型壓縮技術(shù)來(lái)解決這些問(wèn)題。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語(yǔ)言模型的敘事推理能力與音頻生成技術(shù),通過(guò)交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開(kāi)辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過(guò)讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問(wèn)題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語(yǔ)言模型人性化對(duì)話問(wèn)題。該研究創(chuàng)建了包含20萬(wàn)高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過(guò)創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開(kāi)發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過(guò)學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來(lái)了效率和精度的雙重突破。