在2025年6月,阿姆斯特丹大學(xué)、蒂爾堡大學(xué)和奈梅亨拉德堡大學(xué)的研究團(tuán)隊(duì)聯(lián)合發(fā)表了一篇探討自監(jiān)督語(yǔ)音模型對(duì)荷蘭語(yǔ)理解能力的研究論文。這篇題為《自監(jiān)督語(yǔ)音模型對(duì)荷蘭語(yǔ)了解多少?分析語(yǔ)言特定預(yù)訓(xùn)練的優(yōu)勢(shì)》的論文由Marianne de Heer Kloots、Hosein Mohebbi、Charlotte Pouw、Gaofei Shen、Willem Zuidema和Martijn Bentum共同完成,發(fā)表在arXiv預(yù)印本平臺(tái)上(arXiv:2506.00981v1)。該研究提供了寶貴的見(jiàn)解,探索了語(yǔ)言特定預(yù)訓(xùn)練對(duì)自監(jiān)督語(yǔ)音模型性能的影響,并且開源了一個(gè)專門針對(duì)荷蘭語(yǔ)的Wav2Vec2模型。有興趣的讀者可以通過(guò)研究團(tuán)隊(duì)提供的鏈接(http://doi.org/10.5281/zenodo.15548947和http://doi.org/10.5281/zenodo.15550628)獲取他們開發(fā)的評(píng)估數(shù)據(jù)集和預(yù)訓(xùn)練模型。
近年來(lái),自監(jiān)督學(xué)習(xí)(SSL)在語(yǔ)音處理領(lǐng)域取得了顯著進(jìn)展。想象一下,如果我們讓一個(gè)人工智能系統(tǒng)僅僅通過(guò)聽(tīng)大量的語(yǔ)音,不需要人工標(biāo)注的轉(zhuǎn)錄文本,就能學(xué)會(huì)識(shí)別語(yǔ)音中的聲音模式。這就是自監(jiān)督學(xué)習(xí)的魔力所在。這些模型不僅在下游任務(wù)(如語(yǔ)音識(shí)別)上表現(xiàn)出色,而且它們的內(nèi)部表示也包含豐富的語(yǔ)言學(xué)信息。
但有一個(gè)問(wèn)題一直困擾著研究人員:這些模型學(xué)到的語(yǔ)言表示到底有多"語(yǔ)言特定"?換句話說(shuō),一個(gè)專門在荷蘭語(yǔ)上訓(xùn)練的模型,是否比一個(gè)在英語(yǔ)或多語(yǔ)言上訓(xùn)練的模型更擅長(zhǎng)理解荷蘭語(yǔ)的特點(diǎn)?這就像問(wèn):一個(gè)從小在荷蘭長(zhǎng)大的人是否比一個(gè)在英語(yǔ)環(huán)境中長(zhǎng)大或者會(huì)說(shuō)多種語(yǔ)言的人更了解荷蘭語(yǔ)的微妙之處?
以往的研究主要集中在英語(yǔ)模型上,很少有研究專門探討非英語(yǔ)語(yǔ)言的特點(diǎn)。此外,不同的研究使用不同的評(píng)估方法,使得結(jié)果難以直接比較。有些研究使用"零樣本"方法(直接分析模型表示空間中的距離),而另一些則使用訓(xùn)練好的分類器來(lái)檢測(cè)模型內(nèi)部表示中的語(yǔ)言特定信息。
為了解決這些問(wèn)題,研究團(tuán)隊(duì)開發(fā)了專門用于評(píng)估荷蘭語(yǔ)的SSL-NL數(shù)據(jù)集,并訓(xùn)練了一個(gè)專門針對(duì)荷蘭語(yǔ)的Wav2Vec2模型(w2v2-nl)。他們將這個(gè)模型與一個(gè)僅在英語(yǔ)上訓(xùn)練的模型和一個(gè)多語(yǔ)言模型進(jìn)行了比較,發(fā)現(xiàn)專門針對(duì)荷蘭語(yǔ)訓(xùn)練的模型在表示荷蘭語(yǔ)的音素和詞匯特征方面確實(shí)具有優(yōu)勢(shì),這種優(yōu)勢(shì)也反映在語(yǔ)音識(shí)別等下游任務(wù)的性能上。
一、研究模型與方法:用不同的"耳朵"聆聽(tīng)荷蘭語(yǔ)
為了比較語(yǔ)言特定預(yù)訓(xùn)練的效果,研究團(tuán)隊(duì)使用了幾個(gè)結(jié)構(gòu)完全相同的Wav2Vec2模型(都有7層CNN和12層Transformer網(wǎng)絡(luò)),但這些模型在預(yù)訓(xùn)練數(shù)據(jù)上有所不同,就像幾個(gè)人雖然耳朵結(jié)構(gòu)相同,但聽(tīng)過(guò)的語(yǔ)言內(nèi)容不同。
首先,他們訓(xùn)練了w2v2-nl模型,這個(gè)模型在960小時(shí)的荷蘭語(yǔ)語(yǔ)音上進(jìn)行了訓(xùn)練。這些語(yǔ)音數(shù)據(jù)來(lái)自荷蘭語(yǔ)語(yǔ)料庫(kù)(CGN)、多語(yǔ)言LibriSpeech(MLS)和CommonVoice(CV)。想象一下,這個(gè)模型就像一個(gè)只在荷蘭語(yǔ)環(huán)境中長(zhǎng)大的孩子,整天聽(tīng)著各種荷蘭語(yǔ)對(duì)話、故事和新聞報(bào)道。
除了這個(gè)荷蘭語(yǔ)模型,他們還使用了兩個(gè)現(xiàn)有的模型作為比較:一個(gè)是fb-en,這是原始Wav2Vec2發(fā)布時(shí)的英語(yǔ)模型,在960小時(shí)的英語(yǔ)有聲書上訓(xùn)練;另一個(gè)是fb-voxp-100k,一個(gè)在歐洲議會(huì)23種語(yǔ)言(包括4500小時(shí)荷蘭語(yǔ))的10萬(wàn)小時(shí)錄音上訓(xùn)練的多語(yǔ)言模型。此外,他們還使用了一個(gè)在非語(yǔ)音聲音(如環(huán)境聲音)上訓(xùn)練的模型作為基線比較。
為了評(píng)估這些模型對(duì)荷蘭語(yǔ)的理解,研究團(tuán)隊(duì)創(chuàng)建了SSL-NL評(píng)估集,該評(píng)估集包含兩個(gè)不同來(lái)源的荷蘭語(yǔ)語(yǔ)音:MLS有聲書片段和IFADV對(duì)話語(yǔ)料庫(kù)。他們使用WebMAUS API為這些語(yǔ)音獲取了音素級(jí)和詞級(jí)的強(qiáng)制對(duì)齊。簡(jiǎn)單來(lái)說(shuō),就是精確標(biāo)記出每個(gè)聲音片段中每個(gè)音素和單詞的開始和結(jié)束時(shí)間。
二、評(píng)估方法:多角度檢測(cè)模型的"荷蘭語(yǔ)感"
研究團(tuán)隊(duì)設(shè)計(jì)了多種方法來(lái)評(píng)估模型對(duì)荷蘭語(yǔ)音素和詞匯的理解程度,就像通過(guò)不同的考試來(lái)測(cè)試一個(gè)人的語(yǔ)言能力。
在音素分析方面,他們采用了三種不同的方法:
第一種是音素身份探測(cè)(Phone Identity Probing)。這就像給模型做一個(gè)聽(tīng)寫測(cè)試,看它能否正確識(shí)別出37種荷蘭語(yǔ)音素類別。研究人員為每個(gè)模型的每一層訓(xùn)練了一個(gè)線性分類器,來(lái)預(yù)測(cè)音素類別,并在不同的說(shuō)話者上進(jìn)行評(píng)估。
第二種是音素ABX測(cè)試(Phone ABX)。這個(gè)測(cè)試更像是一個(gè)"找相似"的游戲。想象有三個(gè)聲音A、B和X,其中A和X是同一個(gè)音素類別(比如都是/a:/),而B是不同類別(比如/o:/)。測(cè)試檢查模型是否認(rèn)為A和X比A和B更相似。研究團(tuán)隊(duì)構(gòu)建了基于59個(gè)荷蘭語(yǔ)音素對(duì)比的ABX三元組,測(cè)試模型的音素分類能力。
第三種是音素聚類(Phone Clustering)。這就像看模型是否能把相似的聲音歸為一組。研究人員使用了輪廓分?jǐn)?shù)(silhouette score)來(lái)測(cè)量模型表示空間中同一音素類別樣本的聚集程度。他們使用了兩種降維方法:無(wú)監(jiān)督的主成分分析(PCA)和有監(jiān)督的線性判別分析(LDA)。
在詞匯分析方面,他們使用了兩種方法:
一種是詞聚類(Word Clustering),選擇了荷蘭語(yǔ)學(xué)前兒童基礎(chǔ)詞匯表(BAK)中最常見(jiàn)的50個(gè)詞,采樣每個(gè)詞的多個(gè)不同實(shí)例,并評(píng)估模型在表示空間中對(duì)相同詞的聚類程度。
另一種是詞分布結(jié)構(gòu)分析(Word-distributional Structure),使用表示相似性分析(RSA)來(lái)比較基于語(yǔ)音的詞嵌入與基于文本的詞嵌入(Fasttext)之間的相似性,檢查模型是否捕捉到了荷蘭語(yǔ)詞匯的分布式語(yǔ)義結(jié)構(gòu)。
這些分析方法就像從不同角度觀察模型的"荷蘭語(yǔ)理解"能力,有些方法直接測(cè)試模型的原始表示空間(零樣本方法),有些則通過(guò)訓(xùn)練探測(cè)器來(lái)挖掘模型內(nèi)部可能蘊(yùn)含的語(yǔ)言知識(shí)。
三、研究發(fā)現(xiàn):荷蘭語(yǔ)模型確實(shí)更"懂"荷蘭語(yǔ)
研究結(jié)果表明,專門針對(duì)荷蘭語(yǔ)訓(xùn)練的w2v2-nl模型在大多數(shù)音素和詞匯分析中都取得了最高分?jǐn)?shù),展示了語(yǔ)言特定預(yù)訓(xùn)練的明顯優(yōu)勢(shì)。這就像一個(gè)在荷蘭長(zhǎng)大的人確實(shí)比一個(gè)在英語(yǔ)環(huán)境或多語(yǔ)言環(huán)境中成長(zhǎng)的人更能捕捉荷蘭語(yǔ)的細(xì)微特點(diǎn)。
在音素分析中,荷蘭語(yǔ)特有的高前元音如[y:]、[?:]和雙元音[oey]在荷蘭語(yǔ)模型的隱藏層表示中表現(xiàn)得更為清晰和區(qū)分度更高。這就像荷蘭語(yǔ)模型的"耳朵"對(duì)這些荷蘭語(yǔ)特有的發(fā)音更為敏感。如圖1所示,這些荷蘭語(yǔ)特有的元音在荷蘭語(yǔ)模型的表示空間中形成了更為清晰的聚類,而在多語(yǔ)言和英語(yǔ)模型中則相對(duì)模糊。
不過(guò),研究團(tuán)隊(duì)也發(fā)現(xiàn),不同的分析方法顯示出不同程度的語(yǔ)言特定優(yōu)勢(shì)。使用線性變換優(yōu)化音素識(shí)別的方法(如探測(cè)和LDA)明顯顯示出荷蘭語(yǔ)模型的優(yōu)勢(shì),而直接分析模型表示空間的方法(如ABX和PCA)則顯示的差異較小。這表明語(yǔ)言特定的音素信息可能編碼在模型內(nèi)部表示的一個(gè)小子空間中,通過(guò)線性變換可以提取出來(lái),但在整個(gè)表示空間中并不特別突出。
相比之下,詞級(jí)分析顯示,無(wú)論是使用零樣本方法(PCA、RSA)還是優(yōu)化方法(LDA),語(yǔ)言特定預(yù)訓(xùn)練的好處都很明顯。這可能是因?yàn)樵~匯身份在模型表示空間中表現(xiàn)得更為突出,特別是當(dāng)對(duì)詞內(nèi)所有20毫秒幀表示進(jìn)行平均池化時(shí)。
研究還發(fā)現(xiàn),不同數(shù)據(jù)集之間也存在差異。在IFADV對(duì)話數(shù)據(jù)集上,模型之間的差異通常比在MLS朗讀語(yǔ)音數(shù)據(jù)集上更為明顯。這反映了預(yù)訓(xùn)練數(shù)據(jù)領(lǐng)域的影響:荷蘭語(yǔ)模型的預(yù)訓(xùn)練數(shù)據(jù)包含對(duì)話語(yǔ)音,而英語(yǔ)和多語(yǔ)言模型主要在朗讀文本和較不自然的語(yǔ)音上訓(xùn)練。這種差異在詞分布結(jié)構(gòu)分析中尤為明顯,這可能是因?yàn)榭谡Z(yǔ)和書面語(yǔ)的詞分布模式有顯著差異。
四、下游任務(wù)表現(xiàn):從理解到應(yīng)用
研究團(tuán)隊(duì)還通過(guò)微調(diào)這些模型用于自動(dòng)語(yǔ)音識(shí)別(ASR)任務(wù),檢驗(yàn)語(yǔ)言特定預(yù)訓(xùn)練的優(yōu)勢(shì)是否能轉(zhuǎn)化為實(shí)際應(yīng)用的性能提升。他們?cè)诤商m語(yǔ)CGN朗讀部分的78小時(shí)訓(xùn)練數(shù)據(jù)上微調(diào)各個(gè)模型,并在多個(gè)測(cè)試集上評(píng)估詞錯(cuò)誤率(WER)。
結(jié)果顯示,荷蘭語(yǔ)預(yù)訓(xùn)練的w2v2-nl模型在所有測(cè)試集上都取得了最低的WER,一致地優(yōu)于英語(yǔ)和多語(yǔ)言模型。例如,在CGN-o測(cè)試集上,荷蘭語(yǔ)模型的WER為10.4%,而多語(yǔ)言模型為12.7%,英語(yǔ)模型為21.5%,非語(yǔ)音模型則高達(dá)43.5%。這種性能排序與他們?cè)谝羲睾驮~匯分析中觀察到的模式一致,證明了語(yǔ)言特定預(yù)訓(xùn)練的優(yōu)勢(shì)確實(shí)能轉(zhuǎn)化為實(shí)際應(yīng)用性能的提升。
特別值得注意的是,在IFADV對(duì)話語(yǔ)料庫(kù)上,所有模型的WER都相對(duì)較高(荷蘭語(yǔ)模型為65.6%,多語(yǔ)言模型為78.8%,英語(yǔ)模型為84.4%),這反映了自然對(duì)話語(yǔ)音識(shí)別的固有難度。但即使在這種困難場(chǎng)景下,荷蘭語(yǔ)模型依然保持了顯著的優(yōu)勢(shì),進(jìn)一步證明了語(yǔ)言特定預(yù)訓(xùn)練的價(jià)值。
五、討論與結(jié)論:語(yǔ)言特定訓(xùn)練的價(jià)值與未來(lái)方向
研究團(tuán)隊(duì)通過(guò)這項(xiàng)工作,揭示了語(yǔ)言特定預(yù)訓(xùn)練對(duì)自監(jiān)督語(yǔ)音模型性能的積極影響。就像一個(gè)在特定語(yǔ)言環(huán)境中成長(zhǎng)的人自然會(huì)對(duì)該語(yǔ)言的細(xì)微特點(diǎn)更為敏感,專門在荷蘭語(yǔ)上訓(xùn)練的模型確實(shí)能更好地捕捉荷蘭語(yǔ)的音素和詞匯特征。
這項(xiàng)研究還強(qiáng)調(diào)了評(píng)估方法選擇的重要性。音素ABX任務(wù)雖然被廣泛用于評(píng)估自監(jiān)督語(yǔ)音表示,但可能不如訓(xùn)練分類或聚類探測(cè)器敏感,尤其是在檢測(cè)高維表示空間中的語(yǔ)言特定信息時(shí)。這一發(fā)現(xiàn)對(duì)未來(lái)研究自監(jiān)督表示的語(yǔ)言特定性與通用性具有重要啟示。
研究還發(fā)現(xiàn),預(yù)訓(xùn)練數(shù)據(jù)的領(lǐng)域(如對(duì)話vs朗讀)對(duì)模型性能有顯著影響,超出了純粹的語(yǔ)言特定性。在對(duì)話數(shù)據(jù)上訓(xùn)練的模型在處理自然對(duì)話時(shí)表現(xiàn)更好,這不僅體現(xiàn)在對(duì)話級(jí)結(jié)構(gòu)的表示上,也體現(xiàn)在更小的語(yǔ)言單位如音素和詞的編碼上。
值得注意的是,雖然探針性能和下游任務(wù)準(zhǔn)確性通常有關(guān)聯(lián),但它們并不總是直接相關(guān)。自監(jiān)督模型在作為特征提取器(被探測(cè))時(shí)與被微調(diào)用于評(píng)估任務(wù)時(shí)的排名可能存在顯著差異。未來(lái)研究可以探索語(yǔ)言特征的表示如何因果地影響下游文本轉(zhuǎn)錄性能,例如使用特征移除技術(shù)來(lái)操縱模型表示空間。
這項(xiàng)研究比較的是音素相似度相對(duì)較高的語(yǔ)言(荷蘭語(yǔ)和英語(yǔ)),但仍然發(fā)現(xiàn)了語(yǔ)言特定預(yù)訓(xùn)練的可觀察優(yōu)勢(shì)。研究人員指出,對(duì)于語(yǔ)言學(xué)上差異更大的語(yǔ)言,語(yǔ)言特定訓(xùn)練的效果可能更為顯著。
總的來(lái)說(shuō),這項(xiàng)研究不僅提供了關(guān)于自監(jiān)督語(yǔ)音模型中語(yǔ)言特定表示的寶貴見(jiàn)解,還開源了荷蘭語(yǔ)Wav2Vec2模型(w2v2-nl)和SSL-NL評(píng)估集,為進(jìn)一步研究提供了重要資源。這些發(fā)現(xiàn)對(duì)開發(fā)更適合特定語(yǔ)言的語(yǔ)音技術(shù)具有重要意義,也為我們理解語(yǔ)言學(xué)習(xí)的計(jì)算模型提供了新的視角。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語(yǔ)言模型的敘事推理能力與音頻生成技術(shù),通過(guò)交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過(guò)讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問(wèn)題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語(yǔ)言模型人性化對(duì)話問(wèn)題。該研究創(chuàng)建了包含20萬(wàn)高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過(guò)創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過(guò)學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來(lái)了效率和精度的雙重突破。