在當(dāng)今人工智能快速發(fā)展的時(shí)代,語(yǔ)音識(shí)別技術(shù)已成為我們?nèi)粘I钪胁豢苫蛉钡囊徊糠?。無(wú)論是語(yǔ)音助手、語(yǔ)音輸入還是翻譯應(yīng)用,它們背后都依賴(lài)于強(qiáng)大的語(yǔ)音模型。然而,業(yè)界領(lǐng)先的語(yǔ)音模型大多來(lái)自資源豐富的商業(yè)公司,如OpenAI的Whisper模型,它們雖然性能卓越,但往往不公開(kāi)其訓(xùn)練數(shù)據(jù)、代碼和訓(xùn)練日志,這引發(fā)了有關(guān)隱私、透明度和可重復(fù)性的擔(dān)憂(yōu)。
這項(xiàng)由卡內(nèi)基梅隆大學(xué)的彭亦凡、William Chen、田金川、林啟俊和渡邊慎二,以及本田研究所日本分部的Muhammad Shakeel和Yui Sudo共同完成的研究,于2024年5月發(fā)表在arXiv上。他們的研究成果"OWSM v4: 通過(guò)數(shù)據(jù)擴(kuò)充和清洗改進(jìn)開(kāi)放Whisper風(fēng)格語(yǔ)音模型"為我們帶來(lái)了一個(gè)好消息:學(xué)術(shù)團(tuán)隊(duì)也能打造媲美商業(yè)巨頭的開(kāi)源語(yǔ)音模型!
想象一下,你打算做一道美味的蛋糕。你需要什么?當(dāng)然是優(yōu)質(zhì)的原料和正確的配方。在語(yǔ)音模型的世界里,數(shù)據(jù)就是原料,而訓(xùn)練方法則是配方。卡內(nèi)基梅隆大學(xué)的研究團(tuán)隊(duì)正是通過(guò)改良"原料"——大規(guī)模清洗和擴(kuò)充訓(xùn)練數(shù)據(jù),成功打造了一系列名為OWSM v4的開(kāi)源語(yǔ)音模型,這些模型在多項(xiàng)測(cè)試中不僅超越了之前的開(kāi)源版本,甚至在某些方面超越了由資源豐富的商業(yè)公司開(kāi)發(fā)的頂尖模型,如OpenAI的Whisper和Meta的MMS。
這就像一位家庭廚師用精心挑選的食材,做出了媲美米其林餐廳的美食——這在語(yǔ)音識(shí)別的世界里是一項(xiàng)了不起的成就!讓我們一起深入了解這個(gè)研究團(tuán)隊(duì)是如何實(shí)現(xiàn)這一壯舉的。
一、研究背景:為什么我們需要更好的開(kāi)源語(yǔ)音模型?
在語(yǔ)音技術(shù)的世界里,有一些巨無(wú)霸級(jí)的模型,比如OpenAI的Whisper,它能聽(tīng)懂多種語(yǔ)言的語(yǔ)音并將其轉(zhuǎn)換為文字,甚至可以翻譯成英語(yǔ)。這類(lèi)模型通常被稱(chēng)為語(yǔ)音基礎(chǔ)模型(Speech Foundation Models,簡(jiǎn)稱(chēng)SFMs)。這些模型之所以表現(xiàn)出色,是因?yàn)樗鼈?吃"了海量的訓(xùn)練數(shù)據(jù)——Whisper模型就"消化"了680,000到500萬(wàn)小時(shí)的語(yǔ)音數(shù)據(jù)!
然而,Whisper模型有一個(gè)不小的問(wèn)題:盡管它的模型權(quán)重是公開(kāi)的,但它的訓(xùn)練數(shù)據(jù)、訓(xùn)練代碼和訓(xùn)練日志并不對(duì)外開(kāi)放。這就像一個(gè)大廚給你展示了一道美味佳肴,卻不告訴你具體的食譜和烹飪過(guò)程。這引發(fā)了科研界對(duì)隱私保護(hù)、研究透明度和可重復(fù)性的擔(dān)憂(yōu)。
為了解決這個(gè)問(wèn)題,卡內(nèi)基梅隆大學(xué)的研究者們開(kāi)發(fā)了一系列完全開(kāi)源的Whisper風(fēng)格語(yǔ)音模型(Open Whisper-style Speech Models,簡(jiǎn)稱(chēng)OWSM)。這些模型使用公開(kāi)可獲取的數(shù)據(jù)和開(kāi)源工具包ESPnet進(jìn)行訓(xùn)練。盡管早期的OWSM v1、v2和v3版本建立了可重復(fù)的Whisper風(fēng)格訓(xùn)練流程,但它們的性能仍然有限,這主要是因?yàn)橛?xùn)練數(shù)據(jù)不足。
最近的研究著眼于兩個(gè)方面來(lái)提升語(yǔ)音基礎(chǔ)模型的效果和效率。第一個(gè)方向是改進(jìn)模型架構(gòu),例如Conformer、Branchformer和Zipformer等新型架構(gòu)比傳統(tǒng)的Transformer表現(xiàn)更好。OWSM v3.1采用了E-Branchformer架構(gòu),相比OWSM v3有了顯著提升。OWSM-CTC則提出了一種基于層次化自條件連接時(shí)序分類(lèi)(CTC)的新型非自回歸架構(gòu),將語(yǔ)音識(shí)別、語(yǔ)音翻譯和語(yǔ)言識(shí)別統(tǒng)一在一個(gè)僅有編碼器的模型中,相比基于注意力的編碼器-解碼器(AED)模型,OWSM-CTC提高了推理速度并減少了幻覺(jué)生成。
第二個(gè)方向是改進(jìn)訓(xùn)練數(shù)據(jù)。無(wú)監(jiān)督數(shù)據(jù)選擇和數(shù)據(jù)清洗技術(shù)被廣泛用于創(chuàng)建高質(zhì)量的語(yǔ)音識(shí)別數(shù)據(jù)集。受此啟發(fā),田金川等人基于語(yǔ)音識(shí)別錯(cuò)誤率篩選OWSM v3.1的訓(xùn)練數(shù)據(jù),并使用大型語(yǔ)言模型恢復(fù)標(biāo)點(diǎn)和大小寫(xiě)。與OWSM v3.1相比,由此產(chǎn)生的OWSM v3.2模型在語(yǔ)音識(shí)別性能相當(dāng)?shù)那闆r下,在語(yǔ)音翻譯方面略有提升,盡管訓(xùn)練數(shù)據(jù)減少了15%。然而,這種數(shù)據(jù)過(guò)濾方法僅針對(duì)原始的v3.1數(shù)據(jù),這些數(shù)據(jù)質(zhì)量本身就不錯(cuò),并沒(méi)有包括來(lái)自其他公開(kāi)來(lái)源的新數(shù)據(jù),因此數(shù)據(jù)過(guò)濾帶來(lái)的性能提升是有限的,且并不穩(wěn)定。
受到數(shù)據(jù)規(guī)模擴(kuò)大能提升多語(yǔ)言語(yǔ)音識(shí)別系統(tǒng)性能的啟發(fā),研究團(tuán)隊(duì)提出通過(guò)整合來(lái)自YODAS的高質(zhì)量數(shù)據(jù)來(lái)增強(qiáng)OWSM。YODAS是一個(gè)大規(guī)模的網(wǎng)絡(luò)爬取數(shù)據(jù)集,具有創(chuàng)作共享許可證。與其他流行的數(shù)據(jù)集如MSR-86K、LibriHeavy、GigaSpeech和MOSEL相比,YODAS有幾個(gè)顯著特點(diǎn):(1) YODAS以創(chuàng)作共享許可證公開(kāi)發(fā)布音頻文件,而不僅僅是原始來(lái)源的鏈接,簡(jiǎn)化了數(shù)據(jù)下載并提供了靜態(tài)源供再分發(fā);(2) YODAS建立了一個(gè)可擴(kuò)展的流程來(lái)爬取網(wǎng)絡(luò)數(shù)據(jù),目前版本已包含149種語(yǔ)言的37萬(wàn)小時(shí)音頻,未來(lái)版本可以進(jìn)一步擴(kuò)大;(3) YODAS涵蓋多樣的講話(huà)風(fēng)格和聲學(xué)環(huán)境,還發(fā)布了未分割的長(zhǎng)音頻錄音,這些都適合Whisper風(fēng)格的訓(xùn)練。
然而,簡(jiǎn)單地添加更多數(shù)據(jù)而不進(jìn)行仔細(xì)清理可能會(huì)因?yàn)樵紨?shù)據(jù)中的噪聲注釋而降低性能。因此,數(shù)據(jù)清洗對(duì)于確保高質(zhì)量至關(guān)重要。
二、數(shù)據(jù)清洗的魔法:如何從雜亂無(wú)章的數(shù)據(jù)中提煉出珍珠?
想象你繼承了一箱舊書(shū),里面混雜著各種語(yǔ)言、內(nèi)容錯(cuò)亂的書(shū)籍,有些甚至扉頁(yè)和內(nèi)容不符。如果你想建立一個(gè)有價(jià)值的圖書(shū)收藏,首先需要做的是什么?當(dāng)然是整理和篩選!這正是研究團(tuán)隊(duì)面對(duì)YODAS數(shù)據(jù)集時(shí)所做的工作。
原始的YODAS數(shù)據(jù)集尚未經(jīng)過(guò)嚴(yán)格的清洗過(guò)程,可能包含各種注釋錯(cuò)誤。常見(jiàn)問(wèn)題包括語(yǔ)言標(biāo)簽錯(cuò)誤和音頻與文本的不匹配。因此,數(shù)據(jù)清洗對(duì)于確保準(zhǔn)確性和可靠性至關(guān)重要。研究團(tuán)隊(duì)設(shè)計(jì)的數(shù)據(jù)清洗流程包括三個(gè)步驟:重新分割、基于語(yǔ)言識(shí)別的過(guò)濾和基于CTC得分的過(guò)濾。
首先,在重新分割階段,研究人員面對(duì)的是YODAS提供的未分割的長(zhǎng)格式錄音,每條錄音都附有帶有開(kāi)始和結(jié)束時(shí)間戳的文本轉(zhuǎn)錄列表。但這些時(shí)間戳往往不準(zhǔn)確。因此,第一步是使用CTC分割算法重新對(duì)齊音頻和文本。研究團(tuán)隊(duì)使用公開(kāi)可用的OWSM-CTC v3.2模型進(jìn)行這項(xiàng)工作,該模型支持YODAS中存在的一部分語(yǔ)言。重新對(duì)齊后,長(zhǎng)格式音頻被分割成較短的片段,每個(gè)片段最長(zhǎng)30秒。僅包含非語(yǔ)音元素(如音樂(lè))的片段被移除。經(jīng)過(guò)處理后的數(shù)據(jù)集包含83種語(yǔ)言的34.5萬(wàn)小時(shí)音頻。此外,CTC分割后,每個(gè)短片段都被分配了一個(gè)置信度分?jǐn)?shù),該分?jǐn)?shù)量化了音頻和相應(yīng)文本之間的對(duì)齊質(zhì)量。這個(gè)置信度分?jǐn)?shù)隨后被用于過(guò)濾低質(zhì)量數(shù)據(jù)。
其次,在基于語(yǔ)言識(shí)別的過(guò)濾階段,研究人員觀察到某些片段的語(yǔ)言標(biāo)簽是不正確的。為解決這個(gè)問(wèn)題,他們對(duì)音頻和文本都進(jìn)行了語(yǔ)言識(shí)別。具體來(lái)說(shuō),基于文本的語(yǔ)言識(shí)別模型來(lái)自fastText,而基于語(yǔ)音的語(yǔ)言識(shí)別模型則基于SpeechBrain開(kāi)發(fā)的ECAPA-TDNN。他們只保留了那些原始語(yǔ)言標(biāo)簽與文本預(yù)測(cè)語(yǔ)言和音頻預(yù)測(cè)語(yǔ)言都匹配的片段。應(yīng)用這一過(guò)濾步驟后,得到了包含75種語(yǔ)言的28.4萬(wàn)小時(shí)音頻的數(shù)據(jù)集。
最后,在基于CTC得分的過(guò)濾階段,研究人員移除了具有低質(zhì)量音頻-文本對(duì)齊的片段,這些片段由之前步驟計(jì)算的CTC分?jǐn)?shù)指示。CTC置信度分?jǐn)?shù)是與語(yǔ)言相關(guān)的,因此他們?cè)诿糠N語(yǔ)言?xún)?nèi)對(duì)短片段的分?jǐn)?shù)進(jìn)行排序,并選擇一個(gè)相對(duì)閾值(分位數(shù))θCTC。對(duì)于每個(gè)長(zhǎng)格式片段,如果其任何構(gòu)成的短片段落在最低的θCTC分位數(shù)內(nèi),則整個(gè)片段將被丟棄。
不同的閾值會(huì)導(dǎo)致保留不同數(shù)量的數(shù)據(jù)。為確定合適的閾值,研究團(tuán)隊(duì)在不同閾值過(guò)濾的清洗YODAS數(shù)據(jù)上微調(diào)了一個(gè)預(yù)訓(xùn)練的小型OWSM v3.1(3.67億參數(shù))模型,然后在Common Voice和一個(gè)網(wǎng)絡(luò)演講語(yǔ)料庫(kù)上評(píng)估它們的短格式和長(zhǎng)格式語(yǔ)音識(shí)別性能。
當(dāng)θCTC = 0.00時(shí),沒(méi)有應(yīng)用過(guò)濾,所有經(jīng)過(guò)語(yǔ)言識(shí)別過(guò)濾后的28.4萬(wàn)小時(shí)音頻都用于微調(diào)。然而,在Common Voice上的表現(xiàn)非常差且不穩(wěn)定。解碼過(guò)程經(jīng)常陷入幾個(gè)標(biāo)記的重復(fù),導(dǎo)致單詞錯(cuò)誤率(WER)超過(guò)100%。這一觀察確認(rèn)了原始YODAS數(shù)據(jù)中存在大量的錯(cuò)位問(wèn)題。
相反,應(yīng)用CTC得分過(guò)濾(θCTC > 0)后,性能顯著提高,證明了數(shù)據(jù)清洗的有效性。不同測(cè)試集上的性能趨勢(shì)各不相同。在某些情況下,增加數(shù)據(jù)移除會(huì)帶來(lái)更好的性能,而在其他情況下,則呈現(xiàn)相反的趨勢(shì)。雖然更精細(xì)的過(guò)濾可能會(huì)為個(gè)別語(yǔ)言?xún)?yōu)化性能,但研究團(tuán)隊(duì)選擇了θCTC = 0.10的閾值。這個(gè)值保留了大部分?jǐn)?shù)據(jù),同時(shí)在各種語(yǔ)言上提供了普遍良好的性能。這一過(guò)濾過(guò)程最終得到了75種語(yǔ)言的16.6萬(wàn)小時(shí)音頻。
與原始YODAS數(shù)據(jù)相似,清洗后的數(shù)據(jù)在不同語(yǔ)言之間的分布仍然高度不平衡。英語(yǔ)占據(jù)最大份額,而許多其他語(yǔ)言繼續(xù)代表性不足。為簡(jiǎn)單起見(jiàn),研究團(tuán)隊(duì)在這項(xiàng)工作中保持了原始分布,沒(méi)有進(jìn)行任何重采樣。
三、OWSM v4模型:學(xué)術(shù)資源下的開(kāi)源語(yǔ)音模型如何與商業(yè)巨頭抗衡?
為進(jìn)一步評(píng)估清洗后的YODAS數(shù)據(jù)質(zhì)量,研究團(tuán)隊(duì)使用這些精心整理的數(shù)據(jù)與之前的OWSM v3.2數(shù)據(jù)一起訓(xùn)練了一系列新的OWSM v4模型。這個(gè)系列包括三個(gè)基于注意力編碼器-解碼器(AED)的模型,參數(shù)范圍從1億到10億不等,以及一個(gè)具有10億參數(shù)的基于CTC的模型。
v4模型采用了與之前的v3.1相同的配置,只是將Mel濾波器組數(shù)量從80增加到128,這一改變參考了Whisper-large-v3的設(shè)置。語(yǔ)音特征以8倍下采樣,導(dǎo)致80毫秒的時(shí)間移動(dòng)。語(yǔ)音編碼器采用E-Branchformer架構(gòu),而解碼器(如果存在的話(huà))則采用Transformer架構(gòu)。模型基于PyTorch在ESPnet中實(shí)現(xiàn)。為了提高效率,使用了FlashAttention-2技術(shù)。優(yōu)化器采用AdamW,批量大小為320。所有模型訓(xùn)練70萬(wàn)步,相當(dāng)于約3個(gè)訓(xùn)練周期。
研究團(tuán)隊(duì)在多語(yǔ)言語(yǔ)音識(shí)別、語(yǔ)言識(shí)別和語(yǔ)音翻譯基準(zhǔn)測(cè)試上評(píng)估了OWSM v4模型,使用貪婪解碼,除非另有說(shuō)明。雖然研究團(tuán)隊(duì)確實(shí)包括了由資源豐富的商業(yè)實(shí)體(如OpenAI的Whisper和Meta的MMS)開(kāi)發(fā)的模型的結(jié)果,但他們主要與來(lái)自學(xué)術(shù)機(jī)構(gòu)的基線(xiàn)進(jìn)行比較,考慮到他們的資源有限。
在語(yǔ)言識(shí)別方面,OWSM v4系列在FLEURS基準(zhǔn)測(cè)試上大幅超越了早期版本。與工業(yè)規(guī)模的模型相比,OWSM v4 medium和OWSM-CTC v4都實(shí)現(xiàn)了高于Whisper和MMS-lid的準(zhǔn)確率,其中OWSM v4 medium達(dá)到了95.6%的最高準(zhǔn)確率。這些結(jié)果表明,清洗后的YODAS數(shù)據(jù)包含高質(zhì)量的語(yǔ)言標(biāo)簽,這得益于語(yǔ)言識(shí)別過(guò)濾階段。
在多語(yǔ)言語(yǔ)音識(shí)別方面,OWSM v4系列在MLS基準(zhǔn)測(cè)試上實(shí)現(xiàn)了比之前的OWSM模型低得多的錯(cuò)誤率,突顯了數(shù)據(jù)擴(kuò)充和清洗的益處。與領(lǐng)先的工業(yè)模型相比,OWSM v4 medium實(shí)現(xiàn)了比Whisper-medium更低的平均WER(9.4%對(duì)9.7%),推理速度相似。OWSM-CTC v4實(shí)現(xiàn)了比MMS-fl102低得多的WER(10.7%對(duì)17.6%)和與MMS-all相似的WER(10.7%對(duì)10.6%),同時(shí)速度快20%。
在FLEURS基準(zhǔn)測(cè)試上,OWSM-CTC v4在所有102種語(yǔ)言上都優(yōu)于v3.1,并在100種語(yǔ)言上超過(guò)v3.2。表1展示了OWSM-CTC v4錯(cuò)誤率低于20%的21種語(yǔ)言。在這些語(yǔ)言中,OWSM-CTC v4在13種語(yǔ)言上優(yōu)于MMS-all。這些發(fā)現(xiàn)進(jìn)一步驗(yàn)證了研究方法的有效性。
在英語(yǔ)語(yǔ)音識(shí)別方面,OWSM-CTC v4在Hugging Face Open ASR排行榜上的8個(gè)測(cè)試集中的6個(gè)上優(yōu)于之前的OWSM-CTC。平均WER從8.12%改善到7.44%。該模型也顯著超越了MMS-fl102和MMS-all,盡管它們具有相似的大小。與在專(zhuān)有數(shù)據(jù)上訓(xùn)練的領(lǐng)先工業(yè)模型相比,該模型優(yōu)于Whisper-medium,并達(dá)到了與Whisper-large-v3和Parakeet-CTC相當(dāng)?shù)男阅?。在推理速度方面,OWSM-CTC v4比AED模型(如Whisper和Canary)快幾倍,這與之前的研究發(fā)現(xiàn)一致。
在長(zhǎng)格式英語(yǔ)語(yǔ)音識(shí)別方面,OWSM v4模型顯著優(yōu)于相同大小和類(lèi)別(AED或CTC)的之前的OWSM v3.1和v3.2。值得注意的是,OWSM v4 base(1億參數(shù))已經(jīng)超越了OWSM v3.1 medium(10億參數(shù))。與前沿工業(yè)模型相比,OWSM-CTC v4實(shí)現(xiàn)了最低的長(zhǎng)格式WER 3.3%,略?xún)?yōu)于Whisper-large-v3,后者參數(shù)多50%且訓(xùn)練數(shù)據(jù)多15倍。這些發(fā)現(xiàn)突顯了從YODAS清洗的英語(yǔ)數(shù)據(jù)的質(zhì)量,并展示了數(shù)據(jù)擴(kuò)充的好處。
在語(yǔ)音翻譯方面,研究團(tuán)隊(duì)沒(méi)有添加任何新的語(yǔ)音翻譯數(shù)據(jù),使用與v3.2完全相同的語(yǔ)音翻譯數(shù)據(jù)。他們的目標(biāo)是展示v4模型維持類(lèi)似的語(yǔ)音翻譯性能。他們?cè)贑oVoST-2 X-En和En-X上評(píng)估語(yǔ)音翻譯性能。OWSM-CTC v4在四個(gè)X-En測(cè)試集上實(shí)現(xiàn)了比之前的OWSM更高的BLEU分?jǐn)?shù),并在En-X測(cè)試集上達(dá)到與v3.2相當(dāng)?shù)姆謹(jǐn)?shù),證實(shí)使用來(lái)自YODAS的額外語(yǔ)音識(shí)別數(shù)據(jù)不會(huì)對(duì)語(yǔ)音翻譯性能產(chǎn)生負(fù)面影響。
四、結(jié)果解讀:開(kāi)源語(yǔ)音模型的新紀(jì)元已經(jīng)到來(lái)?
研究團(tuán)隊(duì)的實(shí)驗(yàn)結(jié)果令人印象深刻,也給我們帶來(lái)了一些深刻的啟示。
首先,數(shù)據(jù)質(zhì)量比數(shù)據(jù)數(shù)量更重要。從原始YODAS數(shù)據(jù)集到最終清洗后的數(shù)據(jù)集,數(shù)量減少了一半以上(從37萬(wàn)小時(shí)減少到16.6萬(wàn)小時(shí)),但模型性能卻大幅提升。這就像烹飪一樣,使用少量精心挑選的新鮮食材,往往比大量平庸的食材做出更美味的菜肴。
其次,開(kāi)源社區(qū)的力量不容小覷。OWSM團(tuán)隊(duì)使用的是學(xué)術(shù)規(guī)模的資源,遠(yuǎn)低于商業(yè)巨頭如OpenAI和Meta的資源投入,但通過(guò)精心設(shè)計(jì)的數(shù)據(jù)清洗流程和有效的訓(xùn)練方法,他們的模型在多項(xiàng)測(cè)試中不僅超越了之前的開(kāi)源模型,甚至在某些情況下超越了由資源豐富的商業(yè)公司開(kāi)發(fā)的頂尖模型。這向我們展示了,即使資源有限,只要方法得當(dāng),也能取得出色的成果。
第三,數(shù)據(jù)清洗是一個(gè)值得投入精力的過(guò)程。研究團(tuán)隊(duì)開(kāi)發(fā)的三步清洗流程——重新分割、基于語(yǔ)言識(shí)別的過(guò)濾和基于CTC得分的過(guò)濾——為我們提供了一個(gè)可擴(kuò)展的范例,說(shuō)明如何處理大規(guī)模、來(lái)源多樣的語(yǔ)音數(shù)據(jù)。這個(gè)流程不僅適用于YODAS數(shù)據(jù)集,也可以應(yīng)用于其他大規(guī)模語(yǔ)音數(shù)據(jù)集的處理。
第四,模型架構(gòu)的選擇也很關(guān)鍵。研究團(tuán)隊(duì)的OWSM-CTC v4模型采用了非自回歸架構(gòu),這使得它在推理速度上比基于注意力的編碼器-解碼器模型快許多倍,同時(shí)還能保持競(jìng)爭(zhēng)性的準(zhǔn)確率。這對(duì)于實(shí)際應(yīng)用來(lái)說(shuō)是一個(gè)很大的優(yōu)勢(shì),特別是在資源受限的環(huán)境中。
最后,這項(xiàng)研究為開(kāi)源語(yǔ)音模型的未來(lái)發(fā)展指明了方向。通過(guò)結(jié)合高質(zhì)量的公開(kāi)數(shù)據(jù)和有效的模型架構(gòu),開(kāi)源社區(qū)有潛力開(kāi)發(fā)出與商業(yè)閉源模型相媲美的語(yǔ)音技術(shù),從而促進(jìn)這一領(lǐng)域的民主化和透明度。
值得一提的是,研究團(tuán)隊(duì)承諾將公開(kāi)發(fā)布他們的數(shù)據(jù)清洗流程、清洗后的YODAS數(shù)據(jù)、訓(xùn)練代碼、預(yù)訓(xùn)練模型權(quán)重和訓(xùn)練日志。這種開(kāi)放態(tài)度不僅有助于研究的可重復(fù)性,也為整個(gè)社區(qū)提供了寶貴的資源,使更多研究者能夠在此基礎(chǔ)上進(jìn)行進(jìn)一步的改進(jìn)和創(chuàng)新。
五、未來(lái)展望:開(kāi)源語(yǔ)音模型的潛力與挑戰(zhàn)
盡管OWSM v4系列模型取得了顯著成就,但仍有一些挑戰(zhàn)和潛在的改進(jìn)方向。
首先,清洗后的YODAS數(shù)據(jù)在不同語(yǔ)言之間的分布仍然高度不平衡,英語(yǔ)占據(jù)了最大份額,而許多其他語(yǔ)言的代表性不足。未來(lái)的工作可以探索如何通過(guò)數(shù)據(jù)增強(qiáng)或重采樣來(lái)平衡不同語(yǔ)言的表示,從而進(jìn)一步提高模型在低資源語(yǔ)言上的性能。
其次,盡管研究團(tuán)隊(duì)的數(shù)據(jù)清洗流程非常有效,但它依賴(lài)于現(xiàn)有的語(yǔ)言識(shí)別和語(yǔ)音識(shí)別模型,這些模型本身可能對(duì)某些語(yǔ)言有偏見(jiàn)。未來(lái)的研究可以探索如何減輕這種潛在的偏見(jiàn),確保清洗過(guò)程對(duì)所有語(yǔ)言都公平。
再者,雖然OWSM-CTC模型在推理速度上有顯著優(yōu)勢(shì),但在某些語(yǔ)言的翻譯任務(wù)上,其性能仍有提升空間。未來(lái)的工作可以探索如何在保持高推理速度的同時(shí),進(jìn)一步提高翻譯質(zhì)量。
最后,隨著更多高質(zhì)量的公開(kāi)數(shù)據(jù)集的出現(xiàn),以及更先進(jìn)的模型架構(gòu)的發(fā)展,我們有理由相信,開(kāi)源語(yǔ)音模型的性能將繼續(xù)提高,最終可能全面超越閉源商業(yè)模型。這將為語(yǔ)音技術(shù)的民主化和透明度帶來(lái)重大推動(dòng),使更多人能夠訪問(wèn)和利用先進(jìn)的語(yǔ)音技術(shù)。
總結(jié)來(lái)說(shuō),卡內(nèi)基梅隆大學(xué)研究團(tuán)隊(duì)的這項(xiàng)工作不僅推動(dòng)了開(kāi)源語(yǔ)音模型的技術(shù)邊界,也為如何有效利用公開(kāi)數(shù)據(jù)資源提供了寶貴經(jīng)驗(yàn)。隨著他們承諾公開(kāi)的各種資源的發(fā)布,我們期待看到更多研究者基于這些資源進(jìn)行創(chuàng)新,共同推動(dòng)語(yǔ)音技術(shù)的發(fā)展。正如他們?cè)谡撐闹兴鶑?qiáng)調(diào)的,這項(xiàng)工作旨在"推進(jìn)開(kāi)放學(xué)術(shù)研究",這種開(kāi)放和協(xié)作的精神正是科學(xué)進(jìn)步的核心動(dòng)力。
想了解更多詳情的讀者可以通過(guò)arXiv訪問(wèn)完整論文(arXiv:2506.00338v1),或者關(guān)注OWSM項(xiàng)目官方網(wǎng)站(https://www.wavlab.org/activities/2024/owsm/)獲取最新進(jìn)展和資源。
好文章,需要你的鼓勵(lì)
新加坡國(guó)立大學(xué)研究團(tuán)隊(duì)開(kāi)發(fā)了SPIRAL框架,通過(guò)讓AI與自己對(duì)弈零和游戲來(lái)提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡(jiǎn)單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無(wú)需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開(kāi)發(fā)的GIGA-ToF技術(shù)通過(guò)融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問(wèn)題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺(jué)解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過(guò)對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺(jué)語(yǔ)言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無(wú)法有效利用視覺(jué)信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過(guò)動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語(yǔ)言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。