av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁 WHISTRESS:用句子重音檢測(cè)豐富語音轉(zhuǎn)錄,希伯來大學(xué)最新語音識(shí)別突破

WHISTRESS:用句子重音檢測(cè)豐富語音轉(zhuǎn)錄,希伯來大學(xué)最新語音識(shí)別突破

2025-05-30 12:19
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-30 12:19 ? 科技行者

在口語交流中,我們不僅通過詞匯傳遞信息,還通過語調(diào)、情感和重音表達(dá)更深層次的含義。當(dāng)我們強(qiáng)調(diào)句子中的特定詞語時(shí),這種"句子重音"能夠傳達(dá)說話者的真正意圖,對(duì)語言理解至關(guān)重要。近日,來自以色列耶路撒冷希伯來大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院的研究團(tuán)隊(duì)Iddo Yosha、Dorin Shteyman和Yossi Adi在這一領(lǐng)域取得了重要突破,他們開發(fā)了一種名為WHISTRESS的創(chuàng)新方法,能夠在語音識(shí)別過程中自動(dòng)檢測(cè)句子重音,從而生成更加豐富、更接近人類自然表達(dá)的文本轉(zhuǎn)錄。這項(xiàng)研究成果已發(fā)表并可通過項(xiàng)目頁面(https://pages.cs.huji.ac.il/adiyoss-lab/whistress)了解詳情。

語言學(xué)研究長(zhǎng)期以來將句子重音分為兩種理論視角。第一種視角認(rèn)為,正常的重音是一種默認(rèn)模式,遵循特定的語音規(guī)則,與語義無關(guān);第二種視角則將句子重音視為一種語義工具,說話者可以對(duì)任何詞語施加重音以突顯其語義重要性。從聲學(xué)角度來看,句子重音主要通過語音信號(hào)中的持續(xù)時(shí)間、振幅和音高變化來體現(xiàn)。

想象一下,當(dāng)你說"我沒有偷那輛車"這句話時(shí),根據(jù)你強(qiáng)調(diào)的詞語不同,整句話的含義會(huì)發(fā)生微妙變化。如果你強(qiáng)調(diào)"我",表示不是你而是別人偷了車;如果強(qiáng)調(diào)"偷",可能表示你只是借用而非偷竊;如果強(qiáng)調(diào)"那輛",則暗示你可能偷了其他車輛。這些微妙的語調(diào)變化在面對(duì)面交流中很容易捕捉,但在語音識(shí)別技術(shù)中卻常常被忽略。

現(xiàn)有的句子重音檢測(cè)模型大多依賴于聲學(xué)特征,而語言信息的整合則相對(duì)有限。一些模型需要在推理過程中提供口語話語的轉(zhuǎn)錄文本、通過強(qiáng)制對(duì)齊或手動(dòng)標(biāo)注獲取的詞邊界等先驗(yàn)信息,這不僅增加了模型的復(fù)雜性,還使其性能受到強(qiáng)制對(duì)齊器準(zhǔn)確性、轉(zhuǎn)錄質(zhì)量和數(shù)據(jù)可擴(kuò)展性的影響。

WHISTRESS的獨(dú)特之處在于它采用了一種"無需對(duì)齊"的方法。研究團(tuán)隊(duì)基于流行的Whisper語音識(shí)別模型,增加了一個(gè)額外的重音檢測(cè)組件,該組件能夠?yàn)槊總€(gè)詞元預(yù)測(cè)重音目標(biāo),從而在不影響原始模型性能的前提下生成更具信息量的轉(zhuǎn)錄文本。這就像是給語音識(shí)別系統(tǒng)配備了一雙能聽出"言外之音"的耳朵,讓它不僅能聽懂你說了什么,還能理解你想表達(dá)的強(qiáng)調(diào)點(diǎn)。

為了訓(xùn)練這樣一個(gè)高性能的模型,研究團(tuán)隊(duì)面臨著數(shù)據(jù)質(zhì)量和一致性的挑戰(zhàn)?,F(xiàn)有的句子重音檢測(cè)模型大多依賴于封閉源數(shù)據(jù)、帶有非標(biāo)準(zhǔn)重音標(biāo)注的數(shù)據(jù)集,或通過眾包方式依靠人類標(biāo)注者判斷來標(biāo)記重音詞語,這些方法都可能導(dǎo)致數(shù)據(jù)質(zhì)量參差不齊,從而影響模型的表現(xiàn)。

為解決這個(gè)問題,研究團(tuán)隊(duì)開發(fā)了TINYSTRESS-15K,這是一個(gè)專為句子重音檢測(cè)設(shè)計(jì)的可擴(kuò)展合成數(shù)據(jù)集,包含約15小時(shí)的語音。這個(gè)數(shù)據(jù)集是如何創(chuàng)建的呢?首先,研究團(tuán)隊(duì)從TinyStories數(shù)據(jù)集中提取句子作為基礎(chǔ)文本;然后,他們指導(dǎo)GPT-4o-mini為每個(gè)句子提供兩種不同的重音詞選項(xiàng),確保所選詞語能夠反映自然的句子重音,即在語義上顯著影響句子的解釋;最后,他們使用Google文本到語音API合成帶有強(qiáng)調(diào)的語音,通過調(diào)整重音詞的音量、持續(xù)時(shí)間和音高來模擬自然的語音重音。

這個(gè)自動(dòng)化的數(shù)據(jù)生成流程就像是為AI模型創(chuàng)建了一本"說話的藝術(shù)"教材,教它如何辨識(shí)人類說話時(shí)的微妙語調(diào)變化。通過這種方式,研究團(tuán)隊(duì)能夠生成大量多樣化的數(shù)據(jù),專門用于訓(xùn)練重音檢測(cè)模型。

WHISTRESS模型的架構(gòu)由兩個(gè)主要組件組成:作為骨干的Whisper模型和新增的重音檢測(cè)頭部。Whisper模型負(fù)責(zé)將原始音頻處理成隱藏表示,這些表示編碼了語音、語言和韻律特征,既用于重音檢測(cè)頭部的輸入,也用于生成Whisper的語音轉(zhuǎn)錄。重音檢測(cè)頭部則是一個(gè)可學(xué)習(xí)的組件,包含一個(gè)Whisper解碼器塊和一個(gè)全連接神經(jīng)網(wǎng)絡(luò)分類器。解碼器塊在Whisper模型的骨干編碼器和解碼器隱藏狀態(tài)之間應(yīng)用交叉注意力,學(xué)習(xí)有助于重音檢測(cè)的聲學(xué)和語言特征。分類器則是一個(gè)兩層全連接神經(jīng)網(wǎng)絡(luò),處理額外解碼器塊的輸出,為每個(gè)詞元分配重音標(biāo)簽(重音為1,非重音為0)。

在訓(xùn)練過程中,研究團(tuán)隊(duì)采用了一種巧妙的標(biāo)簽對(duì)齊程序。首先,將詞級(jí)別的重音標(biāo)簽轉(zhuǎn)換為與無錯(cuò)誤轉(zhuǎn)錄詞元對(duì)齊的詞元級(jí)別標(biāo)簽。然而,Whisper生成的隱藏狀態(tài)可能包含轉(zhuǎn)錄錯(cuò)誤,這些錯(cuò)誤會(huì)通過移動(dòng)解碼器輸入詞元而導(dǎo)致重音標(biāo)簽錯(cuò)位。為了保留這些在詞級(jí)別仍具有聲學(xué)信息價(jià)值的樣本,研究團(tuán)隊(duì)過濾掉了Whisper生成的轉(zhuǎn)錄詞長(zhǎng)度與地面真實(shí)詞長(zhǎng)度不同的訓(xùn)練樣本,同時(shí)允許詞級(jí)別的轉(zhuǎn)錄錯(cuò)誤。這種長(zhǎng)度過濾方法可以減輕重音詞的錯(cuò)誤標(biāo)記,從而確保可靠的監(jiān)督。

與先前的方法不同,WHISTRESS的標(biāo)簽對(duì)齊程序僅依賴于訓(xùn)練前地面真實(shí)(即重音標(biāo)簽)和生成轉(zhuǎn)錄之間的松散詞到詞匹配作為預(yù)處理步驟,在推理過程中不需要對(duì)齊。值得注意的是,在任何階段,它都不需要詞級(jí)別的時(shí)間戳(即不需要時(shí)間對(duì)齊),因?yàn)閃hisper本身就能將生成的詞元與音頻特征對(duì)齊。

為了深入了解WHISTRESS如何識(shí)別句子重音,研究團(tuán)隊(duì)分析了Whisper的內(nèi)部表示,確定了哪些層捕獲了語調(diào)特征,特別是音高、能量和持續(xù)時(shí)間。他們使用CREMA-D數(shù)據(jù)集的一個(gè)子集進(jìn)行分析,該子集包含具有不同情感內(nèi)容的語音樣本,使語調(diào)特征在信號(hào)中更加突出。

對(duì)于能量和音高目標(biāo)的分析,研究團(tuán)隊(duì)利用了Whisper編碼器嵌入,這些嵌入捕獲了純聲學(xué)特征,不受轉(zhuǎn)錄的條件約束。他們?cè)?5毫秒的窗口中計(jì)算基頻(F0)和均方根(RMS)能量,步長(zhǎng)為20毫秒,以與音頻嵌入的幀率對(duì)齊。為了構(gòu)建目標(biāo),他們對(duì)300毫秒窗口的F0應(yīng)用最大池化,對(duì)RMS能量應(yīng)用平均池化。對(duì)于每個(gè)窗口,在每一層,他們池化平均編碼器嵌入,形成每個(gè)編碼器層的相應(yīng)嵌入和目標(biāo)。

對(duì)于持續(xù)時(shí)間的分析,研究團(tuán)隊(duì)分析了Whisper解碼器嵌入,假設(shè)持續(xù)時(shí)間與通過交叉注意力學(xué)習(xí)的文本-語音對(duì)齊相關(guān)。為了生成目標(biāo)持續(xù)時(shí)間,他們使用WhisperX強(qiáng)制對(duì)齊語音信號(hào),并提取轉(zhuǎn)錄中每個(gè)詞的持續(xù)時(shí)間。然后,他們計(jì)算對(duì)應(yīng)于每個(gè)詞的平均解碼器嵌入,為每個(gè)解碼器層形成嵌入和目標(biāo)。

研究結(jié)果顯示,Whisper的更深層在其嵌入中捕獲的語調(diào)信息較少。然而,當(dāng)研究團(tuán)隊(duì)進(jìn)一步探索語調(diào)信息與重音檢測(cè)之間的關(guān)系時(shí),他們發(fā)現(xiàn)使用中間層(第9層)的嵌入效果最佳,這表明在語調(diào)信息和語言知識(shí)的編碼之間可能存在權(quán)衡。這一發(fā)現(xiàn)與之前關(guān)于wav2vec 2.0語音表示變換器模型的研究一致,該研究觀察到聲學(xué)和語義相關(guān)性在各層之間呈現(xiàn)相反的趨勢(shì)。

為了評(píng)估WHISTRESS的性能,研究團(tuán)隊(duì)將其與多個(gè)競(jìng)爭(zhēng)基線進(jìn)行了比較,并在不同的數(shù)據(jù)集上進(jìn)行了測(cè)試。他們使用了包括精確度、召回率和F1分?jǐn)?shù)在內(nèi)的標(biāo)準(zhǔn)分類指標(biāo),如果WHISTRESS模型將詞的至少一個(gè)詞元標(biāo)記為重音,則認(rèn)為該詞被強(qiáng)調(diào)。

在TINYSTRESS-15K數(shù)據(jù)集上,WHISTRESS實(shí)現(xiàn)了0.909的F1分?jǐn)?shù),明顯優(yōu)于基線方法。在Aix-MARSEC語料庫上,WHISTRESS也取得了0.961的F1分?jǐn)?shù),超過了先前的BLSTM分層網(wǎng)絡(luò)和CRF模型。更令人印象深刻的是,盡管只在合成數(shù)據(jù)上訓(xùn)練,WHISTRESS在Expresso和EmphAssess基準(zhǔn)測(cè)試中展示了強(qiáng)大的零樣本泛化能力,在Expresso上超過了EmphaClass的性能。

這些結(jié)果證明了WHISTRESS方法的有效性和泛化能力。通過消除對(duì)強(qiáng)制對(duì)齊或人工標(biāo)注的需求,WHISTRESS提供了一種更干凈、更易于使用的方法來將句子重音檢測(cè)集成到自動(dòng)語音識(shí)別系統(tǒng)中。

總的來說,WHISTRESS代表了語音識(shí)別技術(shù)的一個(gè)重要進(jìn)步,它不僅能識(shí)別說話者所說的內(nèi)容,還能捕捉到如何說的微妙之處。這種能力對(duì)于各種應(yīng)用都至關(guān)重要,從虛擬助手到語言學(xué)習(xí)工具,再到輔助聽力障礙人士的技術(shù),都能從中受益。隨著語音交互在我們?nèi)粘I钪凶兊迷絹碓狡毡?,WHISTRESS這樣能夠理解人類語言細(xì)微差別的技術(shù)將成為構(gòu)建更自然、更人性化的人機(jī)交互系統(tǒng)的關(guān)鍵一步。

對(duì)于希望進(jìn)一步探索這項(xiàng)研究的讀者,完整的代碼、WHISTRESS模型權(quán)重和TINYSTRESS-15K數(shù)據(jù)集已經(jīng)公開發(fā)布,可以通過項(xiàng)目頁面(https://pages.cs.huji.ac.il/adiyoss-lab/whistress)獲取。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-