av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 聽聲音懂內(nèi)容:微軟與臺灣大學(xué)研究團隊開發(fā)音頻感知大模型評估說話風(fēng)格的新方法

聽聲音懂內(nèi)容:微軟與臺灣大學(xué)研究團隊開發(fā)音頻感知大模型評估說話風(fēng)格的新方法

2025-06-10 13:53
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-10 13:53 ? 科技行者

在2025年6月發(fā)布于arXiv的一項最新研究《音頻感知大型語言模型作為說話風(fēng)格的評判者》(Audio-Aware Large Language Models as Judges for Speaking Styles)中,來自臺灣大學(xué)的鐘成漢(Cheng-Han Chiang)和李鴻毅(Hung-yi Lee)與微軟的王曉飛(Xiaofei Wang)、林忠慶(Chung-Ching Lin)、林凱文(Kevin Lin)、李林杰(Linjie Li)、拉杜·科佩茨(Radu Kopetz)、錢姚(Yao Qian)、王振東(Zhendong Wang)、楊正元(Zhengyuan Yang)和王麗娟(Lijuan Wang)共同探索了一個引人注目的問題:能否讓具有音頻理解能力的大語言模型(ALLMs)來評估語音的說話風(fēng)格?

想象一下,你正在使用一個語音助手,比如蘋果的Siri或者亞馬遜的Alexa。你可能希望它不僅能理解你說的內(nèi)容,還能以適當(dāng)?shù)那楦泻驼Z調(diào)回應(yīng)你。例如,當(dāng)你興奮地分享好消息時,你希望它也能用歡快的語調(diào)回應(yīng),而不是像朗讀天氣預(yù)報一樣平淡無奇。但如何評判這些語音助手的說話風(fēng)格是否自然、是否符合情境呢?這正是這項研究要解決的問題。

研究團隊使用了兩種具有音頻感知能力的大語言模型——GPT-4o-audio和Gemini-2.5-pro——來評估語音生成模型(SLMs)的說話風(fēng)格。就像美食評論家會品評一道菜肴的口感、香氣和擺盤一樣,這些"音頻評判員"會評估語音中的情感、音量、語速、重音、音調(diào)和非語言元素(如笑聲、停頓)是否恰當(dāng)。

這項研究構(gòu)建了兩個任務(wù)來測試:一是"語音風(fēng)格指令跟隨"(voice style instruction following),二是"角色扮演"(role-playing)。在第一個任務(wù)中,研究人員要求語音模型按照特定的說話風(fēng)格指令來朗讀一句話,比如"用顫抖的聲音說這句話"或"在說到某個詞時加重語氣"。在第二個任務(wù)中,則要求語音模型扮演特定角色進行對話,例如扮演一位剛剛訂婚的人和她的朋友之間的對話。

研究團隊評估了四個語音生成模型的表現(xiàn):GPT-4o-audio、GPT-4o-mini-audio、Step-Audio和Qwen-2.5-Omni。他們發(fā)現(xiàn),Gemini-2.5-pro作為評判員時,其評分與人類評判者的一致性甚至高于人類評判者之間的一致性。這就像兩位專業(yè)音樂評論家對一首歌的評價比兩位普通聽眾之間的評價更加一致。

這項研究的結(jié)果令人振奮,它表明音頻感知大語言模型可以作為自動評判員來評估語音生成模型的說話風(fēng)格,這可能會大大加速語音技術(shù)的發(fā)展。同時,研究也發(fā)現(xiàn),即使是像GPT-4o-audio這樣先進的語音模型,在控制說話風(fēng)格和生成自然對話方面仍有很大的改進空間。

一、研究背景與動機:為何我們需要語音風(fēng)格的自動評判員?

語音交互技術(shù)正在迅速發(fā)展。自從OpenAI在2024年推出GPT-4o語音模式以來,許多研究團隊都在努力開發(fā)能夠理解語音輸入并生成流暢語音輸出的系統(tǒng)。這類研究主要分為兩種:一種是音頻感知大語言模型(ALLMs),它們能夠接收文本和音頻作為輸入,然后生成文本;另一種是口語語言模型(SLMs),它們能接收音頻和文本作為輸入,然后生成語音輸出。

當(dāng)我們評估這些語音生成模型時,評價文本內(nèi)容相對簡單——我們可以先將語音轉(zhuǎn)錄為文本,然后使用各種文本評估指標來評價。例如,對于問答任務(wù),我們可以檢查答案的準確性;或者使用"大語言模型作為評判員"(LLM-as-a-judge)的方法進行無參考評估。

但評估語音的非語言方面,比如情感、韻律和重音,就困難得多。傳統(tǒng)上,這通常需要人工評估,如同品酒師需要親自品嘗葡萄酒一樣。人工評估不僅成本高,還往往存在較大的評分差異,就像不同人對同一部電影的評價可能大相徑庭。

這項研究的核心問題是:能否讓那些已經(jīng)具備音頻理解能力的大語言模型來擔(dān)任這個"語音風(fēng)格評判員"的角色?如果可行,這將極大地簡化評估過程,就像有了一個永不疲倦、標準一致的專業(yè)評委一樣。

二、研究方法:如何設(shè)計語音風(fēng)格評估任務(wù)?

為了探究音頻感知大語言模型是否能勝任說話風(fēng)格的評判工作,研究團隊精心設(shè)計了兩個任務(wù),這兩個任務(wù)都要求語音模型生成具有適當(dāng)說話風(fēng)格的語音,然后用人類和音頻感知大語言模型來評估這些語音。

第一個任務(wù)是"語音風(fēng)格指令跟隨"。想象一下,你在指導(dǎo)一位演員如何朗讀一段臺詞:"請用顫抖的聲音,表達出害怕的情緒來說這句話。"在這個任務(wù)中,研究者給語音模型一個句子和詳細的說話風(fēng)格指令,然后評估模型是否能準確按照指令生成語音。

研究團隊構(gòu)建了20個多樣化的案例,每個案例都包含一個需要說出的句子和特定的說話風(fēng)格。與以往的語音風(fēng)格轉(zhuǎn)換或指令跟隨文本轉(zhuǎn)語音研究不同,這項研究的風(fēng)格指令涵蓋了不同的粒度和說話風(fēng)格的廣泛方面。有些指令要求在一個句子內(nèi)改變音量、語速或音調(diào);有些要求強調(diào)特定的詞;有些要求以特定的情緒說話;有些甚至要求在說話時加入啜泣、結(jié)巴或非語言元素(如笑聲、嘆息或停頓)。

評估采用5分李克特量表。1分表示語音沒有按照給定的文本生成;2到5分表示語音遵循了文本,但在風(fēng)格方面的表現(xiàn)從"完全不符合要求"到"完全符合要求"不等。評估者(無論是人類還是AI)會收到應(yīng)該說的文本、期望的說話風(fēng)格和生成的語音,然后根據(jù)評分標準給出評分。

第二個任務(wù)是"角色扮演"。這個任務(wù)同樣旨在評估語音模型是否能生成具有適當(dāng)說話風(fēng)格的語音,但方式更加自然和開放。在這個任務(wù)中,研究者只給語音模型一個角色扮演的背景和對話的第一句話,然后期望模型生成符合角色的對話,并使用適當(dāng)?shù)恼f話風(fēng)格。

研究團隊從IEMOCAP數(shù)據(jù)集創(chuàng)建了20個對話情境。有趣的是,他們讓同一個語音模型扮演對話中的兩個角色,就像一個演員在一人獨角戲中扮演多個角色一樣。模型需要在兩個角色之間切換說話,形成一個多回合的對話。然后,研究者將兩個角色生成的語音連接起來,形成一個對話,并截取一分鐘的音頻進行評估。

對角色扮演任務(wù)的評估基于兩個方面:風(fēng)格和真實感。風(fēng)格評估使用5分量表,1分表示模型未能完成角色扮演任務(wù),2到5分表示模型能夠保持角色一致性且內(nèi)容適當(dāng),但說話風(fēng)格從"差"到"非常自然"不等。真實感評估則使用二元判斷,0表示對話不太可能是人類生成的,1表示對話可能是人類生成的。

三、研究設(shè)置:誰是參賽選手,誰是評判員?

在這場語音風(fēng)格的"選秀比賽"中,四位"選手"(語音生成模型)需要完成上述兩個任務(wù),而評判則由兩位AI評委和人類評委組成。

四位參賽的語音生成模型包括: - GPT-4o-audio(簡稱4o-audio):OpenAI開發(fā)的先進語音模型 - GPT-4o-mini-audio(簡稱4o-mini-audio):OpenAI開發(fā)的較小版本語音模型 - Step-Audio:一個開源語音模型 - Qwen-2.5-Omni:另一個開源語音模型

研究者選擇這些模型的原因是它們都是公開可用的,且支持多回合對話。這就像選擇市面上常見的、消費者可以使用的產(chǎn)品進行測試一樣。

擔(dān)任評判的兩個音頻感知大語言模型是: - GPT-4o-audio(是的,它既是參賽者也是評判員,這有點像運動員兼任裁判) - Gemini-2.5-pro:谷歌開發(fā)的先進AI模型

為了驗證這些AI評判員的可靠性,研究團隊還招募了人類評估者進行同樣的評估任務(wù)。他們盡可能保持給人類評估者和AI評判員的指令相似,就像在一場比賽中確保所有裁判使用相同的評分標準一樣。

在模型生成評估結(jié)果時,研究者允許AI評判員使用"思維鏈"(chain-of-thought)推理,這就像讓評委在給出最終分數(shù)前先寫下自己的思考過程。對于每個評估實例,研究者會采樣五個評判結(jié)果并合并判斷,這就像在體操比賽中去掉最高分和最低分,取平均值一樣,可以減少偶然因素的影響。

四、研究發(fā)現(xiàn):AI評判員與人類評判有多一致?

在語音風(fēng)格指令跟隨任務(wù)中,人類評判者給予GPT-4o-audio最高評分(平均3.65分),而其他三個模型得分相對較低且彼此接近。這表明GPT-4o-audio能夠跟隨一些或大部分風(fēng)格指令,但仍然遠非完美。通過分析模型表現(xiàn)不佳的例子,研究者發(fā)現(xiàn)所有模型都無法在一個句子內(nèi)改變說話速度。他們還發(fā)現(xiàn)Qwen-2.5-Omni和Step-Audio有時無法插入非語言元素,如笑聲或嘆息,而是直接讀出"嘆息"這個詞。

有趣的是,AI評判員也給GPT-4o-audio打出了最高分。雖然使用GPT-4o-audio評判自己可能存在自我提升偏差,但人類評估和Gemini-2.5-pro的結(jié)果都支持這一判斷。對于剩下三個模型的排名,AI評判員和人類評判員之間存在一些不一致,但這并不奇怪,因為這三個模型在人類評估中的平均分非常接近。這表明雖然AI評判員能夠區(qū)分好的語音模型和不好的語音模型,但可能難以比較幾個同樣表現(xiàn)不佳的模型。

研究者還計算了不同評判者之間評分的皮爾遜相關(guān)系數(shù)。人類評判者之間的平均相關(guān)系數(shù)為0.596,這相當(dāng)高,證明了人類評估的質(zhì)量。Gemini與人類評判者的平均相關(guān)系數(shù)達到0.640,甚至高于人類評判者之間的相關(guān)性。而GPT-4o評判員與人類評判者的相關(guān)性則明顯較低,僅為0.355。這驗證了在這個任務(wù)上使用Gemini作為評判員可以獲得接近人類評估的結(jié)果。

在角色扮演任務(wù)中,人類評判者給予IEMOCAP中人類錄制的對話平均4.03分,明顯高于所有語音模型。人類錄制的對話和GPT-4o生成的角色扮演在5分制的風(fēng)格方面只相差0.64分,這看起來差距不大。但在真實感評分上,人類錄制的對話得分幾乎是GPT-4o的兩倍。這表明當(dāng)前的語音模型仍然不足以生成真實的對話。

Gemini評判員在很大程度上與人類評判者一致。它也將人類錄制的對話評為風(fēng)格最佳且最真實,而GPT-4o-audio是表現(xiàn)最好的語音模型但仍落后于人類。GPT-4o和GPT-4o-mini之間的差距不是很明顯,這與人類評估結(jié)果一致。Qwen-2.5-Omni和Step-Audio的表現(xiàn)不如兩個GPT-4o系列模型;它們的表現(xiàn)相似,難以確定哪一個更好,這也與人類評估結(jié)果一致。

在角色扮演任務(wù)中,人類評判者之間的平均皮爾遜相關(guān)系數(shù)只有0.253,這表明評估對話的風(fēng)格可能有些主觀,但人類評估者之間仍存在一定的弱一致性。人類-GPT-4o相關(guān)性和人類-Gemini相關(guān)性都高于0.30,超過了人類-人類相關(guān)性。這表明使用AI評判員評估角色扮演至少與使用人類評估者一樣好。

五、研究意義與啟示:我們能從中學(xué)到什么?

這項研究首次嘗試使用音頻感知大語言模型來評判語音生成模型的說話風(fēng)格,就像邀請一個精通音樂的AI來評判歌唱比賽一樣。研究結(jié)果表明,特別是Gemini-2.5-pro,確實可以作為自動評判員來評估語音風(fēng)格,其與人類評判者的一致性甚至超過了人類評判者之間的一致性。

這一發(fā)現(xiàn)具有深遠的意義。傳統(tǒng)上,評估語音的非語言方面需要耗時且昂貴的人工評估。現(xiàn)在,我們可以使用AI評判員來自動化這一過程,這不僅可以節(jié)省時間和成本,還可以提供更一致的評估結(jié)果。這就像有了一個永不疲倦、標準始終如一的專業(yè)評委,可以大大加速語音技術(shù)的發(fā)展和評估過程。

研究也揭示了當(dāng)前語音生成模型的局限性。即使是像GPT-4o-audio這樣先進的模型,在控制說話風(fēng)格和生成自然對話方面仍有很大的改進空間。例如,所有測試的模型都無法在一個句子內(nèi)改變說話速度,有些模型甚至無法正確插入非語言元素。這些發(fā)現(xiàn)為未來語音模型的開發(fā)提供了明確的改進方向。

此外,研究中使用的兩個任務(wù)——語音風(fēng)格指令跟隨和角色扮演——為評估語音模型的說話風(fēng)格控制能力提供了有用的框架。這些任務(wù)可以被自動評估,這使得開發(fā)和測試語音模型變得更加高效。

總的來說,這項研究不僅展示了音頻感知大語言模型作為語音風(fēng)格評判員的潛力,還為語音技術(shù)的評估和發(fā)展提供了新的思路和工具。隨著語音交互技術(shù)繼續(xù)發(fā)展,這類自動評估方法將變得越來越重要,幫助我們創(chuàng)造出能夠以更自然、更富有表現(xiàn)力的方式與人交流的AI系統(tǒng)。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-