在口語(yǔ)交流中,我們不僅通過(guò)詞匯傳遞信息,還通過(guò)語(yǔ)調(diào)、情感和重音表達(dá)更深層次的含義。當(dāng)我們強(qiáng)調(diào)句子中的特定詞語(yǔ)時(shí),這種"句子重音"能夠傳達(dá)說(shuō)話者的真正意圖,對(duì)語(yǔ)言理解至關(guān)重要。近日,來(lái)自以色列耶路撒冷希伯來(lái)大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院的研究團(tuán)隊(duì)Iddo Yosha、Dorin Shteyman和Yossi Adi在這一領(lǐng)域取得了重要突破,他們開(kāi)發(fā)了一種名為WHISTRESS的創(chuàng)新方法,能夠在語(yǔ)音識(shí)別過(guò)程中自動(dòng)檢測(cè)句子重音,從而生成更加豐富、更接近人類自然表達(dá)的文本轉(zhuǎn)錄。這項(xiàng)研究成果已發(fā)表并可通過(guò)項(xiàng)目頁(yè)面(https://pages.cs.huji.ac.il/adiyoss-lab/whistress)了解詳情。
語(yǔ)言學(xué)研究長(zhǎng)期以來(lái)將句子重音分為兩種理論視角。第一種視角認(rèn)為,正常的重音是一種默認(rèn)模式,遵循特定的語(yǔ)音規(guī)則,與語(yǔ)義無(wú)關(guān);第二種視角則將句子重音視為一種語(yǔ)義工具,說(shuō)話者可以對(duì)任何詞語(yǔ)施加重音以突顯其語(yǔ)義重要性。從聲學(xué)角度來(lái)看,句子重音主要通過(guò)語(yǔ)音信號(hào)中的持續(xù)時(shí)間、振幅和音高變化來(lái)體現(xiàn)。
想象一下,當(dāng)你說(shuō)"我沒(méi)有偷那輛車"這句話時(shí),根據(jù)你強(qiáng)調(diào)的詞語(yǔ)不同,整句話的含義會(huì)發(fā)生微妙變化。如果你強(qiáng)調(diào)"我",表示不是你而是別人偷了車;如果強(qiáng)調(diào)"偷",可能表示你只是借用而非偷竊;如果強(qiáng)調(diào)"那輛",則暗示你可能偷了其他車輛。這些微妙的語(yǔ)調(diào)變化在面對(duì)面交流中很容易捕捉,但在語(yǔ)音識(shí)別技術(shù)中卻常常被忽略。
現(xiàn)有的句子重音檢測(cè)模型大多依賴于聲學(xué)特征,而語(yǔ)言信息的整合則相對(duì)有限。一些模型需要在推理過(guò)程中提供口語(yǔ)話語(yǔ)的轉(zhuǎn)錄文本、通過(guò)強(qiáng)制對(duì)齊或手動(dòng)標(biāo)注獲取的詞邊界等先驗(yàn)信息,這不僅增加了模型的復(fù)雜性,還使其性能受到強(qiáng)制對(duì)齊器準(zhǔn)確性、轉(zhuǎn)錄質(zhì)量和數(shù)據(jù)可擴(kuò)展性的影響。
WHISTRESS的獨(dú)特之處在于它采用了一種"無(wú)需對(duì)齊"的方法。研究團(tuán)隊(duì)基于流行的Whisper語(yǔ)音識(shí)別模型,增加了一個(gè)額外的重音檢測(cè)組件,該組件能夠?yàn)槊總€(gè)詞元預(yù)測(cè)重音目標(biāo),從而在不影響原始模型性能的前提下生成更具信息量的轉(zhuǎn)錄文本。這就像是給語(yǔ)音識(shí)別系統(tǒng)配備了一雙能聽(tīng)出"言外之音"的耳朵,讓它不僅能聽(tīng)懂你說(shuō)了什么,還能理解你想表達(dá)的強(qiáng)調(diào)點(diǎn)。
為了訓(xùn)練這樣一個(gè)高性能的模型,研究團(tuán)隊(duì)面臨著數(shù)據(jù)質(zhì)量和一致性的挑戰(zhàn)。現(xiàn)有的句子重音檢測(cè)模型大多依賴于封閉源數(shù)據(jù)、帶有非標(biāo)準(zhǔn)重音標(biāo)注的數(shù)據(jù)集,或通過(guò)眾包方式依靠人類標(biāo)注者判斷來(lái)標(biāo)記重音詞語(yǔ),這些方法都可能導(dǎo)致數(shù)據(jù)質(zhì)量參差不齊,從而影響模型的表現(xiàn)。
為解決這個(gè)問(wèn)題,研究團(tuán)隊(duì)開(kāi)發(fā)了TINYSTRESS-15K,這是一個(gè)專為句子重音檢測(cè)設(shè)計(jì)的可擴(kuò)展合成數(shù)據(jù)集,包含約15小時(shí)的語(yǔ)音。這個(gè)數(shù)據(jù)集是如何創(chuàng)建的呢?首先,研究團(tuán)隊(duì)從TinyStories數(shù)據(jù)集中提取句子作為基礎(chǔ)文本;然后,他們指導(dǎo)GPT-4o-mini為每個(gè)句子提供兩種不同的重音詞選項(xiàng),確保所選詞語(yǔ)能夠反映自然的句子重音,即在語(yǔ)義上顯著影響句子的解釋;最后,他們使用Google文本到語(yǔ)音API合成帶有強(qiáng)調(diào)的語(yǔ)音,通過(guò)調(diào)整重音詞的音量、持續(xù)時(shí)間和音高來(lái)模擬自然的語(yǔ)音重音。
這個(gè)自動(dòng)化的數(shù)據(jù)生成流程就像是為AI模型創(chuàng)建了一本"說(shuō)話的藝術(shù)"教材,教它如何辨識(shí)人類說(shuō)話時(shí)的微妙語(yǔ)調(diào)變化。通過(guò)這種方式,研究團(tuán)隊(duì)能夠生成大量多樣化的數(shù)據(jù),專門(mén)用于訓(xùn)練重音檢測(cè)模型。
WHISTRESS模型的架構(gòu)由兩個(gè)主要組件組成:作為骨干的Whisper模型和新增的重音檢測(cè)頭部。Whisper模型負(fù)責(zé)將原始音頻處理成隱藏表示,這些表示編碼了語(yǔ)音、語(yǔ)言和韻律特征,既用于重音檢測(cè)頭部的輸入,也用于生成Whisper的語(yǔ)音轉(zhuǎn)錄。重音檢測(cè)頭部則是一個(gè)可學(xué)習(xí)的組件,包含一個(gè)Whisper解碼器塊和一個(gè)全連接神經(jīng)網(wǎng)絡(luò)分類器。解碼器塊在Whisper模型的骨干編碼器和解碼器隱藏狀態(tài)之間應(yīng)用交叉注意力,學(xué)習(xí)有助于重音檢測(cè)的聲學(xué)和語(yǔ)言特征。分類器則是一個(gè)兩層全連接神經(jīng)網(wǎng)絡(luò),處理額外解碼器塊的輸出,為每個(gè)詞元分配重音標(biāo)簽(重音為1,非重音為0)。
在訓(xùn)練過(guò)程中,研究團(tuán)隊(duì)采用了一種巧妙的標(biāo)簽對(duì)齊程序。首先,將詞級(jí)別的重音標(biāo)簽轉(zhuǎn)換為與無(wú)錯(cuò)誤轉(zhuǎn)錄詞元對(duì)齊的詞元級(jí)別標(biāo)簽。然而,Whisper生成的隱藏狀態(tài)可能包含轉(zhuǎn)錄錯(cuò)誤,這些錯(cuò)誤會(huì)通過(guò)移動(dòng)解碼器輸入詞元而導(dǎo)致重音標(biāo)簽錯(cuò)位。為了保留這些在詞級(jí)別仍具有聲學(xué)信息價(jià)值的樣本,研究團(tuán)隊(duì)過(guò)濾掉了Whisper生成的轉(zhuǎn)錄詞長(zhǎng)度與地面真實(shí)詞長(zhǎng)度不同的訓(xùn)練樣本,同時(shí)允許詞級(jí)別的轉(zhuǎn)錄錯(cuò)誤。這種長(zhǎng)度過(guò)濾方法可以減輕重音詞的錯(cuò)誤標(biāo)記,從而確保可靠的監(jiān)督。
與先前的方法不同,WHISTRESS的標(biāo)簽對(duì)齊程序僅依賴于訓(xùn)練前地面真實(shí)(即重音標(biāo)簽)和生成轉(zhuǎn)錄之間的松散詞到詞匹配作為預(yù)處理步驟,在推理過(guò)程中不需要對(duì)齊。值得注意的是,在任何階段,它都不需要詞級(jí)別的時(shí)間戳(即不需要時(shí)間對(duì)齊),因?yàn)閃hisper本身就能將生成的詞元與音頻特征對(duì)齊。
為了深入了解WHISTRESS如何識(shí)別句子重音,研究團(tuán)隊(duì)分析了Whisper的內(nèi)部表示,確定了哪些層捕獲了語(yǔ)調(diào)特征,特別是音高、能量和持續(xù)時(shí)間。他們使用CREMA-D數(shù)據(jù)集的一個(gè)子集進(jìn)行分析,該子集包含具有不同情感內(nèi)容的語(yǔ)音樣本,使語(yǔ)調(diào)特征在信號(hào)中更加突出。
對(duì)于能量和音高目標(biāo)的分析,研究團(tuán)隊(duì)利用了Whisper編碼器嵌入,這些嵌入捕獲了純聲學(xué)特征,不受轉(zhuǎn)錄的條件約束。他們?cè)?5毫秒的窗口中計(jì)算基頻(F0)和均方根(RMS)能量,步長(zhǎng)為20毫秒,以與音頻嵌入的幀率對(duì)齊。為了構(gòu)建目標(biāo),他們對(duì)300毫秒窗口的F0應(yīng)用最大池化,對(duì)RMS能量應(yīng)用平均池化。對(duì)于每個(gè)窗口,在每一層,他們池化平均編碼器嵌入,形成每個(gè)編碼器層的相應(yīng)嵌入和目標(biāo)。
對(duì)于持續(xù)時(shí)間的分析,研究團(tuán)隊(duì)分析了Whisper解碼器嵌入,假設(shè)持續(xù)時(shí)間與通過(guò)交叉注意力學(xué)習(xí)的文本-語(yǔ)音對(duì)齊相關(guān)。為了生成目標(biāo)持續(xù)時(shí)間,他們使用WhisperX強(qiáng)制對(duì)齊語(yǔ)音信號(hào),并提取轉(zhuǎn)錄中每個(gè)詞的持續(xù)時(shí)間。然后,他們計(jì)算對(duì)應(yīng)于每個(gè)詞的平均解碼器嵌入,為每個(gè)解碼器層形成嵌入和目標(biāo)。
研究結(jié)果顯示,Whisper的更深層在其嵌入中捕獲的語(yǔ)調(diào)信息較少。然而,當(dāng)研究團(tuán)隊(duì)進(jìn)一步探索語(yǔ)調(diào)信息與重音檢測(cè)之間的關(guān)系時(shí),他們發(fā)現(xiàn)使用中間層(第9層)的嵌入效果最佳,這表明在語(yǔ)調(diào)信息和語(yǔ)言知識(shí)的編碼之間可能存在權(quán)衡。這一發(fā)現(xiàn)與之前關(guān)于wav2vec 2.0語(yǔ)音表示變換器模型的研究一致,該研究觀察到聲學(xué)和語(yǔ)義相關(guān)性在各層之間呈現(xiàn)相反的趨勢(shì)。
為了評(píng)估WHISTRESS的性能,研究團(tuán)隊(duì)將其與多個(gè)競(jìng)爭(zhēng)基線進(jìn)行了比較,并在不同的數(shù)據(jù)集上進(jìn)行了測(cè)試。他們使用了包括精確度、召回率和F1分?jǐn)?shù)在內(nèi)的標(biāo)準(zhǔn)分類指標(biāo),如果WHISTRESS模型將詞的至少一個(gè)詞元標(biāo)記為重音,則認(rèn)為該詞被強(qiáng)調(diào)。
在TINYSTRESS-15K數(shù)據(jù)集上,WHISTRESS實(shí)現(xiàn)了0.909的F1分?jǐn)?shù),明顯優(yōu)于基線方法。在Aix-MARSEC語(yǔ)料庫(kù)上,WHISTRESS也取得了0.961的F1分?jǐn)?shù),超過(guò)了先前的BLSTM分層網(wǎng)絡(luò)和CRF模型。更令人印象深刻的是,盡管只在合成數(shù)據(jù)上訓(xùn)練,WHISTRESS在Expresso和EmphAssess基準(zhǔn)測(cè)試中展示了強(qiáng)大的零樣本泛化能力,在Expresso上超過(guò)了EmphaClass的性能。
這些結(jié)果證明了WHISTRESS方法的有效性和泛化能力。通過(guò)消除對(duì)強(qiáng)制對(duì)齊或人工標(biāo)注的需求,WHISTRESS提供了一種更干凈、更易于使用的方法來(lái)將句子重音檢測(cè)集成到自動(dòng)語(yǔ)音識(shí)別系統(tǒng)中。
總的來(lái)說(shuō),WHISTRESS代表了語(yǔ)音識(shí)別技術(shù)的一個(gè)重要進(jìn)步,它不僅能識(shí)別說(shuō)話者所說(shuō)的內(nèi)容,還能捕捉到如何說(shuō)的微妙之處。這種能力對(duì)于各種應(yīng)用都至關(guān)重要,從虛擬助手到語(yǔ)言學(xué)習(xí)工具,再到輔助聽(tīng)力障礙人士的技術(shù),都能從中受益。隨著語(yǔ)音交互在我們?nèi)粘I钪凶兊迷絹?lái)越普遍,WHISTRESS這樣能夠理解人類語(yǔ)言細(xì)微差別的技術(shù)將成為構(gòu)建更自然、更人性化的人機(jī)交互系統(tǒng)的關(guān)鍵一步。
對(duì)于希望進(jìn)一步探索這項(xiàng)研究的讀者,完整的代碼、WHISTRESS模型權(quán)重和TINYSTRESS-15K數(shù)據(jù)集已經(jīng)公開(kāi)發(fā)布,可以通過(guò)項(xiàng)目頁(yè)面(https://pages.cs.huji.ac.il/adiyoss-lab/whistress)獲取。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語(yǔ)言模型的敘事推理能力與音頻生成技術(shù),通過(guò)交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開(kāi)辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過(guò)讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問(wèn)題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語(yǔ)言模型人性化對(duì)話問(wèn)題。該研究創(chuàng)建了包含20萬(wàn)高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過(guò)創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開(kāi)發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過(guò)學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來(lái)了效率和精度的雙重突破。