av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見(jiàn)證連接與計(jì)算的「力量」

首頁(yè) 阿里巴巴團(tuán)隊(duì)發(fā)布MinMo:讓AI和人類(lèi)像朋友一樣自然聊天的革命性語(yǔ)音模型

阿里巴巴團(tuán)隊(duì)發(fā)布MinMo:讓AI和人類(lèi)像朋友一樣自然聊天的革命性語(yǔ)音模型

2025-09-17 13:28
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-09-17 13:28 ? 科技行者

這項(xiàng)由阿里巴巴集團(tuán)通義實(shí)驗(yàn)室FunAudioLLM團(tuán)隊(duì)完成的研究發(fā)表于2025年1月,論文題目為《MinMo: A Multimodal Large Language Model for Seamless Voice Interaction》。感興趣的讀者可以通過(guò)論文官網(wǎng)https://funaudiollm.github.io/minmo查看完整內(nèi)容,代碼和模型也將很快開(kāi)源發(fā)布。

你有沒(méi)有想過(guò),未來(lái)有一天我們能和AI助手像和好朋友聊天一樣自然?不需要按下任何按鈕,不需要等待對(duì)方說(shuō)完,就像面對(duì)面談話(huà)那樣隨時(shí)插話(huà)、隨時(shí)回應(yīng)?阿里巴巴的研究團(tuán)隊(duì)剛剛讓這個(gè)夢(mèng)想變成了現(xiàn)實(shí)。他們開(kāi)發(fā)出了一個(gè)名為MinMo的AI模型,它能夠?qū)崿F(xiàn)真正"無(wú)縫"的語(yǔ)音交互,就像兩個(gè)人在咖啡廳里輕松聊天一樣自然流暢。

這個(gè)研究的重要性遠(yuǎn)超我們的想象?,F(xiàn)在的語(yǔ)音助手,比如Siri或小愛(ài)同學(xué),都需要你說(shuō)"嘿Siri"來(lái)喚醒,然后等它完全說(shuō)完才能繼續(xù)對(duì)話(huà),就像古時(shí)候的對(duì)講機(jī)一樣僵硬。而MinMo開(kāi)創(chuàng)了一個(gè)全新的時(shí)代:它能夠邊聽(tīng)邊說(shuō),能夠理解你想要插話(huà)的時(shí)機(jī),還能根據(jù)你的要求調(diào)節(jié)說(shuō)話(huà)的情緒、語(yǔ)速甚至方言,就像一個(gè)真正貼心的朋友。

更令人驚嘆的是,MinMo擁有約80億個(gè)參數(shù),在各種語(yǔ)音相關(guān)的任務(wù)上都達(dá)到了業(yè)界最佳水平。它不僅能夠完美理解多種語(yǔ)言的語(yǔ)音內(nèi)容,還能捕捉到說(shuō)話(huà)者的情緒變化、年齡特征,甚至能識(shí)別各種環(huán)境聲音。而且,它的反應(yīng)速度快得驚人:從聽(tīng)到你的話(huà)到開(kāi)始回應(yīng),只需要大約100毫秒,比眨眼還快;即使在復(fù)雜的雙向?qū)υ?huà)中,延遲也僅約800毫秒,幾乎感受不到任何停頓。

一、突破傳統(tǒng)束縛的全新語(yǔ)音交互革命

傳統(tǒng)的語(yǔ)音助手就像是一個(gè)嚴(yán)格按照劇本表演的演員。你必須等它完全念完臺(tái)詞,然后輪到你說(shuō)話(huà),再等它回應(yīng),整個(gè)過(guò)程就像兩個(gè)人在用對(duì)講機(jī)交流一樣別扭。更糟糕的是,這些系統(tǒng)往往只能理解語(yǔ)音的字面意思,卻錯(cuò)過(guò)了語(yǔ)調(diào)中包含的豐富情感信息,就像只看到了黑白照片而錯(cuò)過(guò)了彩色世界。

研究團(tuán)隊(duì)發(fā)現(xiàn),現(xiàn)有的多模態(tài)語(yǔ)音模型主要分為兩大類(lèi)。第一類(lèi)是"原生多模態(tài)模型",就像一個(gè)從零開(kāi)始學(xué)習(xí)說(shuō)話(huà)和理解語(yǔ)言的嬰兒,需要同時(shí)掌握語(yǔ)音和文字兩套完全不同的溝通系統(tǒng)。這種方法面臨著巨大的挑戰(zhàn):語(yǔ)音轉(zhuǎn)換成數(shù)字信號(hào)后,序列長(zhǎng)度往往是文字的兩倍多,就像要同時(shí)記住一首歌的歌詞和復(fù)雜的旋律一樣困難。更要命的是,高質(zhì)量的語(yǔ)音數(shù)據(jù)相比文字?jǐn)?shù)據(jù)稀缺得多,導(dǎo)致模型在學(xué)習(xí)過(guò)程中會(huì)"忘記"已經(jīng)掌握的文字理解能力,這種現(xiàn)象被稱(chēng)為"災(zāi)難性遺忘"。

第二類(lèi)是"對(duì)齊多模態(tài)模型",它們的策略更像是讓一個(gè)已經(jīng)精通文字交流的人學(xué)習(xí)語(yǔ)音表達(dá)。這種方法能更好地保持原有的文字理解能力,但以往的研究存在明顯不足:訓(xùn)練數(shù)據(jù)量太少(比如LLaMA-Omni只用了20萬(wàn)個(gè)樣本,F(xiàn)reeze-Omni用了12萬(wàn)小時(shí)),測(cè)試范圍有限,而且缺乏對(duì)復(fù)雜語(yǔ)音風(fēng)格控制的系統(tǒng)性探索。更重要的是,這些模型都無(wú)法實(shí)現(xiàn)真正的全雙工對(duì)話(huà)——也就是像人類(lèi)一樣能夠邊聽(tīng)邊說(shuō)、隨時(shí)打斷和被打斷的自然交流方式。

MinMo的出現(xiàn)徹底改變了這一局面。研究團(tuán)隊(duì)采用了一種全新的多階段訓(xùn)練策略,就像培養(yǎng)一個(gè)全才演員一樣:首先讓它精通語(yǔ)音理解,然后學(xué)會(huì)語(yǔ)音生成,接著掌握語(yǔ)音到語(yǔ)音的直接對(duì)話(huà),最后訓(xùn)練復(fù)雜的全雙工交互能力。這個(gè)過(guò)程使用了超過(guò)140萬(wàn)小時(shí)的多樣化語(yǔ)音數(shù)據(jù),涵蓋了從日常對(duì)話(huà)到專(zhuān)業(yè)翻譯、從情感識(shí)別到環(huán)境聲音理解的各個(gè)方面。

二、MinMo的核心架構(gòu):像搭建智能大腦一樣精巧

MinMo的整體架構(gòu)設(shè)計(jì)就像為一個(gè)智能助手精心搭建一套完整的感官和表達(dá)系統(tǒng)。整個(gè)系統(tǒng)的核心是一個(gè)強(qiáng)大的大語(yǔ)言模型——Qwen2.5-7B,它就像這個(gè)智能助手的"大腦",負(fù)責(zé)理解和思考。

在輸入端,MinMo配備了一個(gè)精密的"耳朵"——語(yǔ)音編碼器。這個(gè)組件基于SenseVoice-large編碼器開(kāi)發(fā),不僅能夠準(zhǔn)確識(shí)別多種語(yǔ)言的語(yǔ)音內(nèi)容,還能感知說(shuō)話(huà)者的情緒變化和環(huán)境中的各種聲音事件。就像一個(gè)敏感的聽(tīng)眾,它能從你的語(yǔ)調(diào)中察覺(jué)到你是高興、難過(guò)還是著急。

為了讓"大腦"能夠理解"耳朵"傳來(lái)的信息,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)巧妙的輸入投影器。這個(gè)組件就像一個(gè)精通多種語(yǔ)言的翻譯,能夠?qū)⒄Z(yǔ)音信號(hào)轉(zhuǎn)換成大語(yǔ)言模型能夠理解的"思維語(yǔ)言"。它由兩層Transformer和一個(gè)卷積神經(jīng)網(wǎng)絡(luò)層組成,還能將語(yǔ)音信號(hào)進(jìn)行2倍下采樣,提高處理效率。

在輸出端,MinMo擁有一套革命性的語(yǔ)音生成系統(tǒng)。這套系統(tǒng)的核心創(chuàng)新在于它的流式語(yǔ)音解碼器,就像一個(gè)能夠即興發(fā)揮的演說(shuō)家。傳統(tǒng)的語(yǔ)音生成系統(tǒng)往往需要先生成完整的文本,然后再轉(zhuǎn)換成語(yǔ)音,就像先寫(xiě)好演講稿再朗讀。而MinMo的解碼器能夠直接從"大腦"的思維狀態(tài)生成語(yǔ)音,實(shí)現(xiàn)真正的流式輸出。

這個(gè)語(yǔ)音解碼器的工作原理特別巧妙。它采用了一種5:15的固定比例混合機(jī)制:每5個(gè)文本語(yǔ)義向量后跟15個(gè)語(yǔ)音令牌。這種設(shè)計(jì)就像音樂(lè)中的節(jié)拍,既保證了語(yǔ)音的流暢性,又維持了內(nèi)容的準(zhǔn)確性。當(dāng)系統(tǒng)需要生成語(yǔ)音時(shí),它會(huì)在語(yǔ)義向量和語(yǔ)音令牌之間建立精確的對(duì)應(yīng)關(guān)系,確保最終輸出的語(yǔ)音不僅發(fā)音標(biāo)準(zhǔn),還能準(zhǔn)確表達(dá)預(yù)期的內(nèi)容和情感。

最令人驚嘆的是MinMo的全雙工預(yù)測(cè)器。這個(gè)組件就像一個(gè)善于觀(guān)察的談話(huà)伙伴,能夠?qū)崟r(shí)判斷對(duì)話(huà)的節(jié)奏。它由一個(gè)單層Transformer和一個(gè)線(xiàn)性輸出層組成,雖然結(jié)構(gòu)簡(jiǎn)單,但功能強(qiáng)大。它能夠分析當(dāng)前的對(duì)話(huà)語(yǔ)境,判斷是應(yīng)該繼續(xù)說(shuō)話(huà)、停下來(lái)聽(tīng)取用戶(hù)的新輸入,還是在用戶(hù)插話(huà)時(shí)優(yōu)雅地讓出話(huà)語(yǔ)權(quán)。

整個(gè)系統(tǒng)總共包含約80億個(gè)參數(shù),但其中大部分來(lái)自預(yù)訓(xùn)練的組件。真正需要從零訓(xùn)練的部分相對(duì)較少,這種設(shè)計(jì)哲學(xué)就像站在巨人的肩膀上創(chuàng)新,既保證了系統(tǒng)的強(qiáng)大能力,又提高了訓(xùn)練效率。從用戶(hù)說(shuō)話(huà)到系統(tǒng)開(kāi)始回應(yīng)的理論延遲約為600毫秒,在實(shí)際應(yīng)用中約為800毫秒,這個(gè)速度已經(jīng)接近人類(lèi)對(duì)話(huà)的自然節(jié)奏。

三、創(chuàng)新性的流式語(yǔ)音解碼器:讓AI學(xué)會(huì)"即興發(fā)揮"

MinMo最具突破性的創(chuàng)新之一是它的流式語(yǔ)音解碼器設(shè)計(jì)。這個(gè)組件的重要性就像給一個(gè)優(yōu)秀的作家配上了一支能夠即興創(chuàng)作的神筆,讓AI能夠在理解的同時(shí)就開(kāi)始表達(dá),而不需要像傳統(tǒng)系統(tǒng)那樣"先想好再說(shuō)"。

傳統(tǒng)的語(yǔ)音生成方法就像一個(gè)嚴(yán)格按照說(shuō)明書(shū)操作的工廠(chǎng)流水線(xiàn)。LLaMA-Omni使用的是非自回歸流式Transformer,它接收語(yǔ)言模型的輸出,然后使用連接主義時(shí)序分類(lèi)方法來(lái)預(yù)測(cè)語(yǔ)音令牌序列。這種方法雖然速度快,但就像用模板印刷文章一樣,生成質(zhì)量往往不夠理想。而Freeze-Omni則采用了三個(gè)不同的語(yǔ)音解碼器,包括非自回歸前綴語(yǔ)音解碼器、非自回歸語(yǔ)音解碼器和自回歸語(yǔ)音解碼器,整個(gè)系統(tǒng)就像一個(gè)過(guò)于復(fù)雜的樂(lè)器,雖然功能全面但操作繁瑣。

MinMo采用了一種全新的設(shè)計(jì)哲學(xué)。它的自回歸流式Transformer就像一個(gè)能夠邊思考邊說(shuō)話(huà)的智慧演說(shuō)家。這個(gè)解碼器能夠同時(shí)處理語(yǔ)言模型的隱藏狀態(tài)和語(yǔ)音令牌,按照5:15的固定比例進(jìn)行混合處理。這種設(shè)計(jì)的妙處在于,它能夠充分利用語(yǔ)言模型豐富的語(yǔ)義信息,同時(shí)保持語(yǔ)音生成的自然流暢性。

具體來(lái)說(shuō),系統(tǒng)在每個(gè)對(duì)話(huà)輪次開(kāi)始時(shí),會(huì)將用戶(hù)輸入的嵌入信息和語(yǔ)言模型最后一層的隱藏狀態(tài)連接起來(lái),形成查詢(xún)嵌入向量。這些向量就像包含了完整背景信息的"說(shuō)話(huà)指令",告訴語(yǔ)音生成系統(tǒng)不僅要說(shuō)什么,還要怎么說(shuō)。然后,系統(tǒng)會(huì)將這些查詢(xún)嵌入與5個(gè)采樣文本令牌及其對(duì)應(yīng)的隱藏狀態(tài)沿著序列維度連接,輸入到投影器中。投影器的輸出被稱(chēng)為語(yǔ)義向量,它們承載著豐富而準(zhǔn)確的語(yǔ)義信息。

語(yǔ)音令牌語(yǔ)言模型接收到這些語(yǔ)義向量后,會(huì)以5:15的比例自回歸生成語(yǔ)音令牌。在訓(xùn)練過(guò)程中,系統(tǒng)采用教師強(qiáng)制策略,并引入一個(gè)特殊的令牌來(lái)指示下一組語(yǔ)義向量的連接時(shí)機(jī)。當(dāng)語(yǔ)言模型的文本響應(yīng)完成且語(yǔ)義向量用盡時(shí),系統(tǒng)會(huì)插入一個(gè)"語(yǔ)音輪次"令牌,指示語(yǔ)音令牌語(yǔ)言模型后續(xù)只生成語(yǔ)音令牌。整個(gè)語(yǔ)音合成過(guò)程在遇到"語(yǔ)音結(jié)束"令牌時(shí)終止。

為了重建最終的音頻波形,MinMo使用了一個(gè)現(xiàn)成的流式令牌到波形合成器。這個(gè)合成器包含了一個(gè)塊感知的流匹配模型和一個(gè)mel譜到波形的聲碼器,能夠以15個(gè)令牌為單位合成音頻波形塊。這種設(shè)計(jì)確保了音頻輸出的高質(zhì)量和低延遲。

理論上,語(yǔ)音解碼器的延遲可以用一個(gè)簡(jiǎn)單的公式來(lái)計(jì)算:延遲 = 5×語(yǔ)言模型生成一個(gè)文本令牌的時(shí)間 + 15×語(yǔ)音語(yǔ)言模型生成一個(gè)語(yǔ)音令牌的時(shí)間 + 15×令牌到波形合成器處理每個(gè)語(yǔ)音令牌的時(shí)間。這種透明的延遲計(jì)算讓整個(gè)系統(tǒng)的性能變得可預(yù)測(cè)和可優(yōu)化。

四、多樣化訓(xùn)練數(shù)據(jù):打造語(yǔ)音理解的"全科醫(yī)生"

MinMo的卓越性能很大程度上歸功于其豐富多樣的訓(xùn)練數(shù)據(jù)。整個(gè)訓(xùn)練數(shù)據(jù)集就像一個(gè)包羅萬(wàn)象的語(yǔ)音博物館,總計(jì)超過(guò)140萬(wàn)小時(shí),涵蓋了語(yǔ)音交互可能遇到的各種場(chǎng)景和挑戰(zhàn)。

在語(yǔ)音轉(zhuǎn)文本類(lèi)別中,系統(tǒng)接受了約120萬(wàn)小時(shí)的訓(xùn)練,就像讓一個(gè)學(xué)生同時(shí)精通多門(mén)外語(yǔ)和各種專(zhuān)業(yè)技能。這些數(shù)據(jù)包括自動(dòng)語(yǔ)音識(shí)別、語(yǔ)音翻譯、語(yǔ)言識(shí)別、上下文偏置語(yǔ)音識(shí)別、語(yǔ)音情感識(shí)別、音頻事件檢測(cè)、說(shuō)話(huà)人分析、口語(yǔ)語(yǔ)言平滑和語(yǔ)音轉(zhuǎn)文本聊天等多個(gè)任務(wù)。每種任務(wù)都有其獨(dú)特的挑戰(zhàn):自動(dòng)語(yǔ)音識(shí)別需要精確理解語(yǔ)音內(nèi)容,語(yǔ)音翻譯要求跨語(yǔ)言的準(zhǔn)確轉(zhuǎn)換,情感識(shí)別則需要捕捉語(yǔ)調(diào)中的細(xì)微變化。

研究團(tuán)隊(duì)為這些任務(wù)設(shè)計(jì)了統(tǒng)一的數(shù)據(jù)格式,就像為不同的學(xué)科制定了標(biāo)準(zhǔn)的教學(xué)大綱。每個(gè)訓(xùn)練樣本都采用ChatML格式組織,包含系統(tǒng)提示、用戶(hù)輸入和助手輸出三個(gè)部分。用戶(hù)輸入部分包含任務(wù)指令和音頻文件路徑,任務(wù)指令用自然語(yǔ)言描述不同的語(yǔ)音轉(zhuǎn)文本任務(wù)。例如,"語(yǔ)音轉(zhuǎn)錄"用于語(yǔ)音識(shí)別任務(wù),"將中文翻譯成英文"用于語(yǔ)音翻譯任務(wù)。這種統(tǒng)一的格式設(shè)計(jì)讓模型能夠同時(shí)掌握多種技能,就像一個(gè)全科醫(yī)生能夠處理各種不同的病癥。

文本轉(zhuǎn)語(yǔ)音類(lèi)別的訓(xùn)練數(shù)據(jù)主要來(lái)自CosyVoice 2的基礎(chǔ)合成數(shù)據(jù),包含17萬(wàn)小時(shí)的文本-語(yǔ)音配對(duì)數(shù)據(jù),支持中文、英文、韓文和日文四種語(yǔ)言。此外,研究團(tuán)隊(duì)還構(gòu)建了約1000小時(shí)的指令控制音頻生成數(shù)據(jù),這些指令被擴(kuò)展為自然語(yǔ)言描述,涵蓋了情感、語(yǔ)速、方言和角色扮演等多個(gè)維度。例如,用戶(hù)可以說(shuō)"請(qǐng)用快速的語(yǔ)調(diào)說(shuō):今天是快樂(lè)的一天,充滿(mǎn)了歡聲笑語(yǔ)",系統(tǒng)就會(huì)生成相應(yīng)風(fēng)格的語(yǔ)音。這種訓(xùn)練讓MinMo不僅能夠生成準(zhǔn)確的語(yǔ)音內(nèi)容,還能夠根據(jù)用戶(hù)的具體要求調(diào)節(jié)說(shuō)話(huà)風(fēng)格。

語(yǔ)音轉(zhuǎn)語(yǔ)音類(lèi)別的數(shù)據(jù)主要通過(guò)仿真獲得,包含約1萬(wàn)小時(shí)的多輪對(duì)話(huà)語(yǔ)音和100小時(shí)的風(fēng)格可控多輪對(duì)話(huà)語(yǔ)音。研究團(tuán)隊(duì)采用了巧妙的數(shù)據(jù)生成策略:首先從Alpaca和ShareGPT等開(kāi)源文本對(duì)話(huà)數(shù)據(jù)開(kāi)始,使用CosyVoice的零樣本上下文生成方法將用戶(hù)文本轉(zhuǎn)換為用戶(hù)語(yǔ)音。然后,他們使用2小時(shí)的特定說(shuō)話(huà)人數(shù)據(jù)微調(diào)CosyVoice基礎(chǔ)模型,創(chuàng)建了針對(duì)目標(biāo)說(shuō)話(huà)人的語(yǔ)音合成模型CosyVoice-SFT,用于合成助手語(yǔ)音。

為了解決合成音頻與真實(shí)音頻之間的差異,研究團(tuán)隊(duì)還從自動(dòng)語(yǔ)音識(shí)別數(shù)據(jù)中選擇合適的真實(shí)語(yǔ)音作為用戶(hù)查詢(xún),使用相應(yīng)的文本作為Qwen-Max的輸入來(lái)生成回應(yīng)文本,然后用CosyVoice-SFT模型合成助手語(yǔ)音。這種策略進(jìn)一步增強(qiáng)了模型對(duì)真實(shí)用戶(hù)音頻輸入的魯棒性。

語(yǔ)音轉(zhuǎn)控制令牌類(lèi)別主要包含用于全雙工交互的訓(xùn)練數(shù)據(jù),約4000小時(shí)。這些數(shù)據(jù)分為兩部分:一部分來(lái)自現(xiàn)有的真實(shí)語(yǔ)音交互數(shù)據(jù),包括Alimeeting、Fisher和內(nèi)部語(yǔ)音交互數(shù)據(jù);另一部分通過(guò)文本對(duì)話(huà)數(shù)據(jù)仿真獲得,主要包括開(kāi)源MOSS數(shù)據(jù)集和內(nèi)部文本對(duì)話(huà)數(shù)據(jù)合成的語(yǔ)音對(duì)話(huà)。

五、四階段漸進(jìn)訓(xùn)練策略:像培養(yǎng)天才一樣循序漸進(jìn)

MinMo的訓(xùn)練過(guò)程就像培養(yǎng)一個(gè)語(yǔ)言天才的完整教育方案,分為四個(gè)精心設(shè)計(jì)的階段,每個(gè)階段都有其特定的學(xué)習(xí)目標(biāo)和訓(xùn)練重點(diǎn)。這種漸進(jìn)式的訓(xùn)練策略確保了模型能夠逐步掌握從基礎(chǔ)理解到高級(jí)交互的各種能力。

第一階段是語(yǔ)音轉(zhuǎn)文本對(duì)齊訓(xùn)練,就像教會(huì)一個(gè)孩子首先學(xué)會(huì)"聽(tīng)懂"別人在說(shuō)什么。在這個(gè)階段,系統(tǒng)主要學(xué)習(xí)將音頻信號(hào)轉(zhuǎn)換為可理解的文本信息。由于語(yǔ)音編碼器和大語(yǔ)言模型都是預(yù)訓(xùn)練的,而輸入投影器的參數(shù)是隨機(jī)初始化的,研究團(tuán)隊(duì)采用了一種巧妙的預(yù)對(duì)齊策略。他們首先使用語(yǔ)音轉(zhuǎn)文本數(shù)據(jù)的一個(gè)子集進(jìn)行預(yù)對(duì)齊訓(xùn)練,只更新輸入投影器的參數(shù)。這個(gè)過(guò)程就像讓翻譯員先熟悉基本詞匯,避免隨機(jī)初始化的參數(shù)對(duì)預(yù)訓(xùn)練語(yǔ)音編碼器產(chǎn)生過(guò)大的梯度影響。

預(yù)對(duì)齊之后,系統(tǒng)進(jìn)入完全對(duì)齊階段,使用完整的語(yǔ)音轉(zhuǎn)文本數(shù)據(jù)同時(shí)訓(xùn)練輸入投影器和語(yǔ)音編碼器,而保持大語(yǔ)言模型參數(shù)凍結(jié)。這個(gè)過(guò)程被稱(chēng)為Full-Align。接下來(lái)是監(jiān)督微調(diào)階段,使用約130萬(wàn)個(gè)樣本涵蓋各種任務(wù),此時(shí)通過(guò)LoRA方法更新大語(yǔ)言模型,增強(qiáng)模型的指令跟隨能力。整個(gè)第一階段的數(shù)據(jù)分布經(jīng)過(guò)精心設(shè)計(jì),確保模型能夠均衡地掌握各種語(yǔ)音理解技能。

第二階段是文本轉(zhuǎn)語(yǔ)音對(duì)齊訓(xùn)練,就像教會(huì)學(xué)生不僅要聽(tīng)懂別人說(shuō)話(huà),還要學(xué)會(huì)清晰地表達(dá)自己。這個(gè)階段首先訓(xùn)練輸出投影器,然后聯(lián)合訓(xùn)練輸出投影器和語(yǔ)音令牌語(yǔ)言模型,而保持MinMo的其他參數(shù)凍結(jié)。除了基本的文本轉(zhuǎn)語(yǔ)音功能外,這個(gè)階段還利用端到端框架讓MinMo能夠根據(jù)用戶(hù)指令進(jìn)行風(fēng)格可控的語(yǔ)音生成。約1000小時(shí)的指令語(yǔ)音合成數(shù)據(jù)讓MinMo學(xué)會(huì)了根據(jù)用戶(hù)要求調(diào)節(jié)情感、語(yǔ)速、方言口音或說(shuō)話(huà)人風(fēng)格。

第三階段是語(yǔ)音轉(zhuǎn)語(yǔ)音對(duì)齊訓(xùn)練,使用約1萬(wàn)小時(shí)的配對(duì)音頻數(shù)據(jù)繼續(xù)訓(xùn)練。這個(gè)階段繼續(xù)只更新輸出投影器和語(yǔ)音令牌語(yǔ)言模型。訓(xùn)練數(shù)據(jù)不僅包括一般的語(yǔ)音轉(zhuǎn)語(yǔ)音對(duì)話(huà),還包括各種設(shè)置的音頻生成指令,如采用特定方言、語(yǔ)速和情感的口語(yǔ)對(duì)話(huà)。研究團(tuán)隊(duì)發(fā)現(xiàn),即使不更新大語(yǔ)言模型,僅通過(guò)與小規(guī)模指令數(shù)據(jù)集對(duì)齊的嵌入,大模型仍能學(xué)會(huì)相當(dāng)有效的音頻生成控制能力。

第四階段是全雙工交互對(duì)齊訓(xùn)練,這是最復(fù)雜也是最關(guān)鍵的階段。在完成前三個(gè)訓(xùn)練階段后,MinMo已經(jīng)具備了音頻理解、音頻生成和半雙工語(yǔ)音對(duì)話(huà)的能力。在此基礎(chǔ)上,研究團(tuán)隊(duì)進(jìn)一步添加了使用4000小時(shí)長(zhǎng)篇人機(jī)對(duì)話(huà)訓(xùn)練的全雙工模塊。這個(gè)階段專(zhuān)門(mén)訓(xùn)練全雙工預(yù)測(cè)器模塊,它接收大語(yǔ)言模型的隱藏嵌入作為輸入,預(yù)測(cè)模型是否需要生成回應(yīng)。

全雙工預(yù)測(cè)器利用大語(yǔ)言模型固有的語(yǔ)義理解能力來(lái)確定兩個(gè)關(guān)鍵問(wèn)題:第一,模型是否應(yīng)該對(duì)當(dāng)前用戶(hù)查詢(xún)做出回應(yīng);第二,模型是否應(yīng)該停止正在進(jìn)行的音頻輸出來(lái)聽(tīng)取用戶(hù)查詢(xún)并提供適當(dāng)回應(yīng)。這種設(shè)計(jì)讓MinMo能夠像人類(lèi)一樣進(jìn)行自然的雙向?qū)υ?huà),既能夠在適當(dāng)?shù)臅r(shí)候主動(dòng)說(shuō)話(huà),也能夠在用戶(hù)需要插話(huà)時(shí)優(yōu)雅地讓出話(huà)語(yǔ)權(quán)。

六、全面的性能評(píng)估:在各個(gè)維度都達(dá)到頂尖水平

為了驗(yàn)證MinMo的性能,研究團(tuán)隊(duì)進(jìn)行了全面而嚴(yán)格的評(píng)估,涵蓋了語(yǔ)音識(shí)別和翻譯、語(yǔ)音分析和理解、語(yǔ)音轉(zhuǎn)文本增強(qiáng)、語(yǔ)音生成以及語(yǔ)音聊天等多個(gè)維度。這些評(píng)估就像給一個(gè)全能運(yùn)動(dòng)員進(jìn)行各項(xiàng)體能測(cè)試,確保在每個(gè)項(xiàng)目上都達(dá)到世界級(jí)水平。

在多語(yǔ)言語(yǔ)音識(shí)別方面,MinMo在包括Aishell-2、LibriSpeech、WenetSpeech、Fleurs和Common Voice在內(nèi)的多個(gè)公開(kāi)測(cè)試集上都取得了優(yōu)異成績(jī)。特別值得注意的是,無(wú)論是否提供語(yǔ)言識(shí)別信息作為提示,MinMo都表現(xiàn)出了穩(wěn)定的性能。例如,在Fleurs數(shù)據(jù)集上,MinMo在中文、英文、日文、韓文、粵語(yǔ)等10種語(yǔ)言的平均表現(xiàn)都超過(guò)了Whisper Large v3和Qwen2-Audio等強(qiáng)基線(xiàn)模型。更重要的是,MinMo在有無(wú)語(yǔ)言識(shí)別信息的情況下性能差異很小,這說(shuō)明它具有很強(qiáng)的魯棒性,不像其他模型那樣嚴(yán)重依賴(lài)語(yǔ)言識(shí)別信息。

在多語(yǔ)言語(yǔ)音翻譯任務(wù)上,MinMo同樣表現(xiàn)出色。在Fleurs和CoVoST2測(cè)試集上,MinMo在大多數(shù)翻譯方向上都超過(guò)了cascaded模型(Whisper Large V3 + Qwen2.5-7B-Instruct)和其他端到端基線(xiàn)模型。特別是在中英互譯和日英互譯方向上,MinMo取得了最佳性能。即使只在CoVoST2數(shù)據(jù)集上進(jìn)行訓(xùn)練而沒(méi)有使用Fleurs訓(xùn)練數(shù)據(jù),MinMo在兩個(gè)測(cè)試集上都保持了一致的高性能,這表明了模型的泛化能力。

語(yǔ)音情感識(shí)別是另一個(gè)展現(xiàn)MinMo綜合能力的重要測(cè)試。在包括CREMA-D、MELD、IEMOCAP等在內(nèi)的七個(gè)廣泛使用的情感識(shí)別數(shù)據(jù)集上,MinMo都超過(guò)了SALMONN和Qwen-Audio等基線(xiàn)模型。特別是在表演類(lèi)音頻數(shù)據(jù)集上,MinMo達(dá)到了接近100%的準(zhǔn)確率。為了更公平地比較,研究團(tuán)隊(duì)還使用了專(zhuān)門(mén)設(shè)計(jì)用于評(píng)估大型音頻語(yǔ)言模型的Air-Bench基準(zhǔn)測(cè)試,結(jié)果顯示MinMo在語(yǔ)言識(shí)別、性別識(shí)別、年齡識(shí)別、情感識(shí)別和聲音分類(lèi)等所有任務(wù)上都超過(guò)了所有基線(xiàn)模型。

在語(yǔ)音轉(zhuǎn)文本增強(qiáng)任務(wù)方面,MinMo展現(xiàn)了處理復(fù)雜語(yǔ)音場(chǎng)景的能力??谡Z(yǔ)語(yǔ)言平滑任務(wù)要求將自動(dòng)語(yǔ)音識(shí)別的轉(zhuǎn)錄結(jié)果轉(zhuǎn)換為正式的書(shū)面文本風(fēng)格。在SWAB數(shù)據(jù)集上,MinMo與Qwen2.5-7B的性能相當(dāng),在保持內(nèi)容忠實(shí)性和正式性方面都表現(xiàn)良好。在標(biāo)點(diǎn)符號(hào)插入和逆文本規(guī)范化任務(wù)上,雖然這些任務(wù)具有主觀(guān)性,但通過(guò)GPT-4 Turbo的評(píng)估,MinMo在主觀(guān)評(píng)價(jià)方面表現(xiàn)更好。

語(yǔ)音生成能力的評(píng)估同樣令人印象深刻。在文本轉(zhuǎn)語(yǔ)音任務(wù)上,MinMo的語(yǔ)音解碼器在內(nèi)容一致性和語(yǔ)音質(zhì)量方面都達(dá)到了很高的水平。更重要的是,在指令跟隨語(yǔ)音生成方面,MinMo展現(xiàn)了卓越的控制能力。在包含情感、方言、語(yǔ)速、角色扮演等12種指令控制類(lèi)型的測(cè)試中,MinMo達(dá)到了98.4%的指令跟隨準(zhǔn)確率,大幅超過(guò)了GLM-4-Voice等基線(xiàn)模型,特別是在方言和角色扮演方面達(dá)到了100%的控制精度。

七、全雙工對(duì)話(huà)能力:實(shí)現(xiàn)真正自然的人機(jī)交互

MinMo最引人注目的創(chuàng)新之一是其全雙工對(duì)話(huà)能力,這項(xiàng)技術(shù)讓AI助手第一次具備了像人類(lèi)一樣進(jìn)行自然雙向?qū)υ?huà)的能力。傳統(tǒng)的語(yǔ)音助手只能進(jìn)行"半雙工"通信,就像古老的對(duì)講機(jī)一樣,必須嚴(yán)格按照"說(shuō)話(huà)-等待-回應(yīng)"的模式進(jìn)行交流。而MinMo實(shí)現(xiàn)的全雙工通信就像面對(duì)面的自然對(duì)話(huà),可以隨時(shí)插話(huà)、隨時(shí)回應(yīng),真正做到了無(wú)縫交流。

為了評(píng)估這種復(fù)雜的交互能力,研究團(tuán)隊(duì)構(gòu)建了三個(gè)測(cè)試數(shù)據(jù)集:中文Alimeeting數(shù)據(jù)集、英文Fisher數(shù)據(jù)集,以及專(zhuān)門(mén)設(shè)計(jì)的更接近真實(shí)人機(jī)對(duì)話(huà)場(chǎng)景的仿真測(cè)試集。評(píng)估從預(yù)測(cè)性能和預(yù)測(cè)效率兩個(gè)角度進(jìn)行,就像測(cè)試一個(gè)交通指揮員既要判斷準(zhǔn)確,又要反應(yīng)迅速。

在預(yù)測(cè)性能方面,評(píng)估分為三個(gè)具體任務(wù):助手輪次接管、用戶(hù)輪次接管和用戶(hù)反向通道。助手輪次接管指的是系統(tǒng)判斷用戶(hù)說(shuō)完話(huà)后應(yīng)該開(kāi)始回應(yīng)的時(shí)機(jī);用戶(hù)輪次接管則是系統(tǒng)識(shí)別用戶(hù)想要插話(huà)時(shí)應(yīng)該停止說(shuō)話(huà)并轉(zhuǎn)為傾聽(tīng)的能力;用戶(hù)反向通道是指系統(tǒng)區(qū)分用戶(hù)的簡(jiǎn)短反饋(如"嗯"、"是的")和真正的插話(huà)意圖的能力。

結(jié)果顯示,MinMo在人機(jī)對(duì)話(huà)數(shù)據(jù)集上表現(xiàn)出色,無(wú)論是用戶(hù)輪次接管還是助手輪次接管,在允許10個(gè)時(shí)間單位偏差的情況下,預(yù)測(cè)性能都接近99%。在實(shí)際人際對(duì)話(huà)的測(cè)試集上,雖然助手輪次接管的性能有所下降,但這主要是因?yàn)檎鎸?shí)人際對(duì)話(huà)中存在大量背景噪音、語(yǔ)速變化、停頓等復(fù)雜因素。然而,MinMo在用戶(hù)輪次接管預(yù)測(cè)方面仍保持高靈敏度和預(yù)測(cè)性能,確保系統(tǒng)能夠及時(shí)停止說(shuō)話(huà)當(dāng)用戶(hù)開(kāi)始插話(huà)時(shí),避免與用戶(hù)產(chǎn)生語(yǔ)音沖突。

在預(yù)測(cè)效率方面,MinMo展現(xiàn)了令人驚嘆的響應(yīng)速度。用戶(hù)輪次接管的平均響應(yīng)延遲為250毫秒,其中在人機(jī)對(duì)話(huà)測(cè)試集上最快達(dá)到88.8毫秒,即使在最具挑戰(zhàn)性的Alimeeting測(cè)試集上也只有448.8毫秒的延遲。助手輪次接管的平均響應(yīng)延遲約為660毫秒,這個(gè)延遲相比用戶(hù)輪次接管略長(zhǎng),主要是因?yàn)橹州喆谓庸苌婕坝脩?hù)話(huà)語(yǔ)即將結(jié)束的部分,需要更全面的上下文語(yǔ)義信息來(lái)做決策。

系統(tǒng)延遲分析顯示,MinMo的全雙工交互由四個(gè)模塊組成:全雙工預(yù)測(cè)器、語(yǔ)音轉(zhuǎn)文本模塊、文本轉(zhuǎn)語(yǔ)音令牌模塊和令牌轉(zhuǎn)波形模塊。以助手輪次接管為例,當(dāng)用戶(hù)實(shí)際語(yǔ)音結(jié)束時(shí),全雙工模塊通常需要250毫秒的延遲進(jìn)行評(píng)估,語(yǔ)音轉(zhuǎn)文本過(guò)程中預(yù)測(cè)前5個(gè)文本令牌需要約150毫秒,預(yù)測(cè)前15個(gè)語(yǔ)音令牌需要約70毫秒,從語(yǔ)音令牌轉(zhuǎn)換到第一個(gè)音頻包需要額外的130毫秒。因此,基于MinMo開(kāi)發(fā)全雙工語(yǔ)音對(duì)話(huà)系統(tǒng)時(shí),助手輪次接管的標(biāo)準(zhǔn)體驗(yàn)延遲約為600毫秒,這個(gè)速度已經(jīng)非常接近人類(lèi)對(duì)話(huà)的自然節(jié)奏。

八、語(yǔ)音聊天與問(wèn)答:展現(xiàn)智能對(duì)話(huà)的全方位能力

MinMo在語(yǔ)音對(duì)話(huà)和問(wèn)答方面的表現(xiàn)同樣令人矚目,它不僅能夠準(zhǔn)確理解各種復(fù)雜的問(wèn)題,還能以自然流暢的語(yǔ)音進(jìn)行回答,就像一個(gè)知識(shí)淵博、反應(yīng)敏捷的好朋友。

在口語(yǔ)問(wèn)答能力評(píng)估中,研究團(tuán)隊(duì)使用了三個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集:Llama Questions、TriviaQA和Web Questions。這些數(shù)據(jù)集涵蓋了從日常常識(shí)到專(zhuān)業(yè)知識(shí)的各種問(wèn)題類(lèi)型。評(píng)估分為語(yǔ)音轉(zhuǎn)文本和語(yǔ)音轉(zhuǎn)語(yǔ)音兩種模式,前者測(cè)試MinMo理解語(yǔ)音問(wèn)題并生成文本答案的能力,后者則測(cè)試完整的語(yǔ)音到語(yǔ)音問(wèn)答流程。

結(jié)果顯示,MinMo在語(yǔ)音轉(zhuǎn)語(yǔ)音模式下相較于現(xiàn)有的頂級(jí)模型取得了顯著優(yōu)勢(shì)。在Llama Questions數(shù)據(jù)集上,MinMo達(dá)到了64.1%的準(zhǔn)確率,相比Moshi的21%和GLM-4-Voice的50.7%有了大幅提升。在Web Questions上,MinMo達(dá)到了39.9%的準(zhǔn)確率,遠(yuǎn)超Moshi的9.2%和GLM-4-Voice的15.9%。雖然語(yǔ)音轉(zhuǎn)語(yǔ)音模式的性能相比語(yǔ)音轉(zhuǎn)文本模式有所下降,但研究團(tuán)隊(duì)認(rèn)為這主要是因?yàn)樵S多測(cè)試集中的答案包含豐富的文本結(jié)構(gòu)和專(zhuān)業(yè)詞匯,對(duì)語(yǔ)音合成能力提出了更高要求。

為了更全面地評(píng)估MinMo的對(duì)話(huà)能力,研究團(tuán)隊(duì)還構(gòu)建了兩個(gè)內(nèi)部測(cè)試集:Alpaca測(cè)試集和ChitChat測(cè)試集。Alpaca測(cè)試集重點(diǎn)評(píng)估邏輯推理能力,ChitChat測(cè)試集則針對(duì)日常閑聊場(chǎng)景。使用Qwen-Max作為評(píng)判模型,每個(gè)對(duì)話(huà)樣本獲得0到10分的評(píng)分。

測(cè)試結(jié)果表明,通過(guò)在MinMo訓(xùn)練中加入額外的語(yǔ)音轉(zhuǎn)文本任務(wù)數(shù)據(jù),系統(tǒng)能夠有效保持基礎(chǔ)模型的對(duì)話(huà)能力。與使用自動(dòng)語(yǔ)音識(shí)別結(jié)合純文本基礎(chǔ)模型相比,MinMo的對(duì)話(huà)能力基本保持一致。雖然MinMo的回應(yīng)質(zhì)量略低于Ground Truth回應(yīng),但這種差異主要?dú)w因于兩個(gè)方面:首先,多種語(yǔ)音任務(wù)的集成以及在基礎(chǔ)模型上實(shí)施LoRA訓(xùn)練在一定程度上影響了原始大語(yǔ)言模型的邏輯生成能力;其次,MinMo的音頻理解能力仍有改進(jìn)空間,在自動(dòng)語(yǔ)音識(shí)別任務(wù)中還存在進(jìn)一步降低字符錯(cuò)誤率的潛力。

特別值得一提的是,MinMo支持風(fēng)格可控的語(yǔ)音生成,這讓它能夠根據(jù)用戶(hù)的具體要求調(diào)節(jié)回應(yīng)的語(yǔ)調(diào)、情感和風(fēng)格。無(wú)論用戶(hù)希望得到正式的商務(wù)風(fēng)格回應(yīng),還是輕松的朋友式對(duì)話(huà),或者是特定方言的表達(dá),MinMo都能靈活適應(yīng)。這種能力讓人機(jī)對(duì)話(huà)變得更加豐富多彩,也更符合不同用戶(hù)的個(gè)性化需求。

說(shuō)到底,MinMo的出現(xiàn)標(biāo)志著人工智能語(yǔ)音交互技術(shù)邁入了一個(gè)全新的時(shí)代。它不僅在技術(shù)指標(biāo)上全面超越了現(xiàn)有系統(tǒng),更重要的是在用戶(hù)體驗(yàn)上實(shí)現(xiàn)了質(zhì)的飛躍。從此以后,我們與AI助手的交流將變得像與朋友聊天一樣自然輕松??梢韵胂螅诓贿h(yuǎn)的將來(lái),當(dāng)我們?cè)趶N房做飯時(shí)可以隨時(shí)向AI助手詢(xún)問(wèn)食譜建議,開(kāi)車(chē)時(shí)可以自然地與AI討論路線(xiàn)選擇,工作時(shí)可以無(wú)縫地與AI協(xié)作完成各種任務(wù),而所有這些交互都將如同與老朋友對(duì)話(huà)般自然流暢。

這項(xiàng)研究為整個(gè)行業(yè)樹(shù)立了新的標(biāo)桿,也為我們描繪了一個(gè)更加智能、便捷的未來(lái)生活圖景。隨著代碼和模型的開(kāi)源發(fā)布,相信會(huì)有更多開(kāi)發(fā)者在MinMo的基礎(chǔ)上創(chuàng)造出各種創(chuàng)新應(yīng)用,讓這項(xiàng)技術(shù)真正惠及每一個(gè)人的日常生活。

Q&A

Q1:MinMo是什么?它有什么特別之處?

A:MinMo是阿里巴巴通義實(shí)驗(yàn)室開(kāi)發(fā)的多模態(tài)大語(yǔ)言模型,專(zhuān)門(mén)用于實(shí)現(xiàn)無(wú)縫語(yǔ)音交互。它最大的特別之處是支持全雙工對(duì)話(huà),意思是可以像人類(lèi)一樣邊聽(tīng)邊說(shuō)、隨時(shí)插話(huà),不需要等待對(duì)方說(shuō)完再回應(yīng)。它還能根據(jù)用戶(hù)要求調(diào)節(jié)情感、語(yǔ)速、方言等說(shuō)話(huà)風(fēng)格,反應(yīng)速度只有100-800毫秒,幾乎感受不到延遲。

Q2:MinMo的全雙工對(duì)話(huà)功能具體是怎么工作的?

A:MinMo通過(guò)一個(gè)全雙工預(yù)測(cè)器來(lái)實(shí)現(xiàn)自然對(duì)話(huà)。這個(gè)組件能實(shí)時(shí)分析對(duì)話(huà)語(yǔ)境,判斷三種情況:什么時(shí)候應(yīng)該開(kāi)始回應(yīng)用戶(hù)、什么時(shí)候應(yīng)該停止說(shuō)話(huà)聽(tīng)取用戶(hù)新輸入、什么時(shí)候用戶(hù)只是簡(jiǎn)單反饋而不是真正插話(huà)。它的反應(yīng)速度很快,識(shí)別用戶(hù)想插話(huà)只需250毫秒,開(kāi)始正式回應(yīng)約需600毫秒,這個(gè)速度已經(jīng)接近人類(lèi)對(duì)話(huà)的自然節(jié)奏。

Q3:MinMo支持哪些語(yǔ)言和功能?普通用戶(hù)能使用嗎?

A:MinMo支持中文、英文、日文、韓文等多種語(yǔ)言,具備語(yǔ)音識(shí)別、語(yǔ)音翻譯、情感識(shí)別、說(shuō)話(huà)人分析等多種功能。它能進(jìn)行語(yǔ)音問(wèn)答、多輪對(duì)話(huà),還能根據(jù)指令生成不同風(fēng)格的語(yǔ)音回應(yīng)。目前研究團(tuán)隊(duì)承諾將開(kāi)源代碼和模型,普通用戶(hù)未來(lái)可以通過(guò)https://funaudiollm.github.io/minmo網(wǎng)站了解更多信息和使用方式。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-