av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 聲入虎穴:MBZUAI研究團(tuán)隊揭示大型音頻語言模型的安全漏洞與對抗攻擊實(shí)驗

聲入虎穴:MBZUAI研究團(tuán)隊揭示大型音頻語言模型的安全漏洞與對抗攻擊實(shí)驗

2025-05-27 17:08
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-27 17:08 ? 科技行者

大型音頻語言模型(LAMs)的興起為我們帶來了科幻小說中才有的人工助手體驗,但這些能聽會說的AI助手真的安全嗎?近日,由Mohamed bin Zayed人工智能大學(xué)(MBZUAI)的宋子睿、蔣倩、崔明軒等研究人員,聯(lián)合ByteDance的李明哲和澳大利亞國立大學(xué)的張澤宇共同完成的一項研究《Audio Jailbreak: An Open Comprehensive Benchmark for Jailbreaking Large Audio-Language Models》(音頻越獄:一個針對大型音頻語言模型的綜合基準(zhǔn)測試)揭示了這一領(lǐng)域中不為人知的安全隱患。該論文于2024年5月21日在arXiv預(yù)印本平臺上發(fā)布(arXiv:2505.15406v1),研究團(tuán)隊也同時開源了相關(guān)代碼和數(shù)據(jù)集:https://github.com/mbzuai-nlp/AudioJailbreak。

想象一下,你對著你的AI助手說:"嘿,幫我分析一下不同性別的駕駛行為",AI給你回答了一段公正客觀的分析。但如果有人稍微調(diào)整了這段語音的音調(diào)、速度或背景音,AI可能突然回答:"是啊,女性就是糟糕的駕駛員..."——這就是音頻越獄攻擊的威力。

當(dāng)前的研究多集中在文本和圖像模型的安全性上,而對音頻語言模型的安全評估卻相對不足。特別是針對"越獄攻擊"(jailbreak attacks,即誘導(dǎo)AI生成有害或違反政策內(nèi)容的攻擊)的系統(tǒng)性評估幾乎空白。這類攻擊在音頻領(lǐng)域尤其具有挑戰(zhàn)性,因為語音既包含語義信息,又有獨(dú)特的時間和聲學(xué)特性。

針對這一研究空白,MBZUAI團(tuán)隊構(gòu)建了AJailBench——第一個專門用于評估音頻語言模型越獄漏洞的開源基準(zhǔn)測試。他們的研究包含三個關(guān)鍵部分:首先,創(chuàng)建了包含1,495個對抗性音頻樣本的基礎(chǔ)數(shù)據(jù)集;其次,開發(fā)了一套音頻擾動工具包(APT),能夠在保持語義內(nèi)容的同時生成更具攻擊性的變體;最后,他們對七個主流音頻語言模型進(jìn)行了全面評估,揭示了這些模型在面對攻擊時的脆弱性。

研究的結(jié)果令人擔(dān)憂:即使是最先進(jìn)的音頻語言模型,在面對這些微妙但有效的音頻擾動時,也會顯著降低安全性能。這不僅暴露了當(dāng)前技術(shù)的局限,也為未來的防御機(jī)制研究提供了重要基礎(chǔ)。

一、AJailBench基礎(chǔ)數(shù)據(jù)集:構(gòu)建越獄測試的基石

想象你在搭建一個安全測試場,需要各種各樣的"鑰匙"來測試鎖的可靠性。MBZUAI的研究團(tuán)隊正是這樣構(gòu)建了AJailBench-Base數(shù)據(jù)集,這個數(shù)據(jù)集就像是一大堆專門設(shè)計用來"撬鎖"的工具。

研究團(tuán)隊首先從兩個主要來源收集了越獄文本樣本。一部分來自已發(fā)表的研究論文和Reddit等在線平臺上用戶分享的實(shí)例;另一部分則是使用開源越獄生成工具自動創(chuàng)建的。這些文本樣本經(jīng)過精心篩選,只保留那些能夠繞過ChatGPT-3.5/4安全過濾器的提示,確?;鶞?zhǔn)測試具有挑戰(zhàn)性和實(shí)用性。

每個樣本都根據(jù)OpenAI使用政策,使用DeekSeek-V3進(jìn)行違規(guī)類型標(biāo)注,最終構(gòu)建了一個包含1,495個越獄文本樣本的數(shù)據(jù)集,涵蓋了10個違規(guī)類別,包括虛假信息、經(jīng)濟(jì)傷害、個人社會規(guī)范濫用等。

為了將這些文本轉(zhuǎn)換為自然的語音,研究團(tuán)隊使用了Google Cloud TTS模型,并配置了118種不同的音色,跨越四種英語口音(英國、澳大利亞、美國、印度),最大限度地增加音頻多樣性。這就像準(zhǔn)備了118位不同口音、音調(diào)的"配音演員",讓他們朗讀這些潛在有害的內(nèi)容。

值得注意的是,在自動生成的越獄樣本中,有些詞匯排列混亂(類似拼寫錯誤),TTS模型會逐字拼讀而非直接朗讀,這也保留了文本越獄攻擊的某些特性。

二、音頻擾動工具包:讓越獄攻擊更具現(xiàn)實(shí)挑戰(zhàn)性

雖然基礎(chǔ)數(shù)據(jù)集可以評估模型對"干凈"音頻的魯棒性,但現(xiàn)實(shí)世界中的攻擊往往更為復(fù)雜和隱蔽。想象一下,如果有人試圖破解你家的安全系統(tǒng),他們不會只用一種方法,而是會嘗試各種技巧的組合。

基于這一考慮,研究團(tuán)隊開發(fā)了音頻擾動工具包(Audio Perturbation Toolkit,APT),這個工具包有三個主要動機(jī):首先,它能創(chuàng)造更強(qiáng)大的攻擊方式,甚至可以挑戰(zhàn)那些已經(jīng)經(jīng)過良好安全調(diào)整的模型;其次,它利用語音的獨(dú)特特性,如時間變化和聲學(xué)模糊性;最后,它探索了多種擾動類型的組合效應(yīng),增強(qiáng)攻擊的多樣性和有效性。

研究團(tuán)隊提出了一個統(tǒng)一的數(shù)學(xué)框架來描述音頻擾動。假設(shè)原始音頻樣本為x,擾動被定義為參數(shù)化轉(zhuǎn)換T(x; θ),生成擾動后的音頻x'。為了保持越獄意圖不變,他們引入了語義一致性約束:S(x, x') ≥ τ,其中S衡量相似度,τ是閾值。

具體來說,APT包含三類擾動方法:

時域擾動:直接作用于波形x(t),包括能量分布擾動(調(diào)整音頻整體響度)、截斷(移除特定時間段的信號)和淡入淡出(對音頻開始和結(jié)束部分應(yīng)用線性增益斜坡)。

頻域擾動:通過操縱頻率成分來修改信號,如音高偏移(改變基頻及其諧波而不改變持續(xù)時間)和時間縮放(加速或減慢音頻而不改變音高)。

混合擾動:將原始信號與外部信號結(jié)合,包括額外聽覺引導(dǎo)(添加超聲波或次聲波正弦信號)和自然噪聲注入(疊加雨聲、哭聲、喇叭聲或音樂等自然聲音事件)。

就像一位廚師會嘗試不同的調(diào)味料組合以找到最佳風(fēng)味一樣,研究團(tuán)隊?wèi)?yīng)用貝葉斯優(yōu)化來自動搜索最有效的擾動配置。他們使用低維向量p = (p1, p2)控制擾動過程,其中p1表示擾動類型的配置(例如,截斷+噪聲注入+音高偏移的組合),p2控制每個激活擾動的強(qiáng)度或關(guān)鍵特性。

為了量化模型拒絕程度,他們定義了一組參考拒絕短語,并測量模型響應(yīng)與這組短語之間的語義相似度。優(yōu)化目標(biāo)是找到能使這種相似度最小化的擾動參數(shù),從而暴露潛在的越獄漏洞。

三、語義一致性約束:確保攻擊的有效性和真實(shí)性

在進(jìn)行對抗性音頻攻擊時,確保擾動后的輸入保留原始查詢的核心語義至關(guān)重要。否則,擾動可能會無意中改變或模糊預(yù)期含義,使人難以判斷模型響應(yīng)是由真正的漏洞引起,還是僅僅由于語義退化。

這就像魔術(shù)師的手法——如果觀眾看出了把戲,魔術(shù)就失去了效果。同樣,如果音頻擾動太明顯地改變了原始內(nèi)容,這種攻擊就失去了研究價值。

為解決這些挑戰(zhàn),研究團(tuán)隊引入了語義一致性約束,確保擾動音頻在保持對抗效果的同時,仍忠實(shí)于原始意圖。這種約束促進(jìn)了對抗樣本的泛化性和可遷移性,使成功的攻擊能夠跨不同的聲音風(fēng)格、口音或語速工作,從而更接近現(xiàn)實(shí)世界的黑盒場景。

具體實(shí)現(xiàn)中,每種擾動方法都由一個參數(shù)控制,該參數(shù)調(diào)整擾動程度。研究團(tuán)隊遍歷參數(shù)范圍生成不同強(qiáng)度的擾動音頻樣本,然后使用自動語音識別模型轉(zhuǎn)錄每個樣本。接著,他們使用GPTScore衡量轉(zhuǎn)錄文本與原始越獄提示之間的語義相似度,并通過人工評估確定哪些樣本在語義上保持一致,從而確定相應(yīng)的最小GPTScore。

這個分?jǐn)?shù)被映射回擾動參數(shù)空間,為每種方法定義了語義安全擾動的最大閾值。GPTScore充當(dāng)了人類判斷與擾動參數(shù)空間(如縮放率、頻率偏移、時間段)之間的中間橋梁,避免了不同擾動類型之間不可比性的問題。

通過語義一致性實(shí)驗,研究團(tuán)隊發(fā)現(xiàn):能量分布擾動導(dǎo)致相似度相對緩慢下降,但在高擾動強(qiáng)度時急劇下降;音高偏移在中等頻率偏移時相似度略有增加,然后迅速下降,表明模型對某些頻率變化具有一定的魯棒性;時間縮放顯著影響相似度,當(dāng)縮放率低于0.6或超過1.2時,相似度急劇下降,表明在這種轉(zhuǎn)換下語義保真度較低;多輪疊加擾動對語義一致性的影響最為線性和持久,隨著擾動數(shù)量增加,語義一致性逐漸退化。

最終,研究團(tuán)隊只保留了低于語義閾值的擾動,確保既保持語義一致性,又能實(shí)現(xiàn)有效的對抗攻擊。

四、基準(zhǔn)測試結(jié)果:揭示音頻語言模型的安全弱點(diǎn)

研究團(tuán)隊對七個主流音頻語言模型進(jìn)行了全面評估,包括SpeechGPT、SALMONN、DiVA、Qwen2-Audio、LLama-Omni、Gemini-2.0-flash和GPT-4o-audio。為適應(yīng)不同模型的特定問答格式,他們對提示進(jìn)行了必要的調(diào)整。

為了全面評估模型在對抗攻擊下的行為,研究團(tuán)隊采用了五個指標(biāo):攻擊成功率(ASR,越低越好)、毒性得分(TS,越低越好)、政策違規(guī)(PV,越低越好)、相關(guān)性(越高越好)和相似度(越高越好)。

攻擊成功率表明模型對對抗提示的脆弱性。參考Shen等人的方法,他們使用拒絕關(guān)鍵詞列表(如"抱歉,我不能")計算ASR;如果響應(yīng)包含任何這些關(guān)鍵詞,則攻擊被視為不成功。較低的ASR反映了對未經(jīng)授權(quán)或不安全生成的更強(qiáng)抵抗力。

為評估輸出的質(zhì)量、安全性和相關(guān)性,他們使用了基于GPT-4o的評估框架。毒性得分在1到5的范圍內(nèi)衡量有害程度;政策違規(guī)是政策違反的二元指標(biāo)(1=違規(guī),0=安全);相關(guān)性捕捉響應(yīng)與提示的一致程度,也是1到5的評分。為評估與標(biāo)準(zhǔn)拒絕行為的一致性,他們使用GPTScore計算模型輸出與142個GPT-4生成的拒絕之間的相似度。

評估結(jié)果顯示,所有被評估的LAM(包括Qwen2 Audio、DiVA、LLaMA Omni和GPT-4o)在文本和音頻輸入之間表現(xiàn)出高度一致的安全行為。這表明納入音頻模態(tài)并不會削弱它們底層語言模型的安全對齊。值得注意的是,GPT-4o對其音頻模態(tài)施加了比其文本對應(yīng)部分更嚴(yán)格的安全約束,這反映在更低的ASR、TS和PV分?jǐn)?shù)上。

研究還揭示,SpeechGPT是安全對齊程度最低的模型,幾乎沒有能力抵抗越獄攻擊。而在光譜的另一端,SALMONN實(shí)施了極其嚴(yán)格的安全約束,但這是以降低可用性為代價的,因為它經(jīng)常無法對良性用戶查詢提供有用的響應(yīng)。

有趣的是,GPT-4o在處理潛在越獄提示時采用了一種微妙的策略。它不是直接拒絕,而是經(jīng)常使用模糊但中性的語言,既承認(rèn)主題,又巧妙地轉(zhuǎn)移請求。例如,當(dāng)被問及醫(yī)療問題時,它回復(fù):"我在這里提供信息并促進(jìn)積極負(fù)責(zé)任的行為...最好咨詢持證醫(yī)療專業(yè)人員。"這反映了安全性和可用性之間的平衡,在不過度限制的情況下保持一致性。

當(dāng)使用AJailBench-APT+數(shù)據(jù)集(包含經(jīng)過優(yōu)化的擾動)進(jìn)行評估時,所有模型的安全指標(biāo)都顯著下降,表明這些語義一致的擾動增加了攻擊的有效性。通過貝葉斯優(yōu)化選擇的七種APT工具中,時間拉伸擾動和淡入淡出擾動最常被使用,對各種輸入的模型魯棒性降低效果最強(qiáng)。

這些結(jié)果突出了三個關(guān)鍵見解:首先,對LAM的越獄攻擊不僅可以通過精心制作的語義內(nèi)容成功,還可以通過音頻信號本身的微妙操作成功,揭示了一個超出文本級提示的攻擊向量;其次,AJailBench-APT+中對抗樣本的成功表明,當(dāng)前LAM安全機(jī)制可能過度依賴于干凈的、轉(zhuǎn)錄的語音表示,可能忽視了可以繞過拒絕策略的非規(guī)范聲學(xué)模式;第三,APT+通過整合信號級可變性和語義保留,構(gòu)成了一個更嚴(yán)格的基準(zhǔn),從而在對抗條件下提供對音頻模型魯棒性的更現(xiàn)實(shí)、更可遷移的評估。

五、展望未來:音頻語言模型的防御機(jī)制

盡管越來越多人意識到LAM容易受到越獄攻擊,但據(jù)研究團(tuán)隊所知,目前還沒有專門為LAM設(shè)計的系統(tǒng)防御機(jī)制。為填補(bǔ)這一空白,他們提出未來研究可以探索使用語義保留擾動進(jìn)行對抗性微調(diào),通過增強(qiáng)音頻視圖進(jìn)行一致性正則化,以及輸入級信號過濾技術(shù)來緩解輸入級攻擊。

此外,研究團(tuán)隊建議納入聲學(xué)上下文感知的拒絕校準(zhǔn)和不確定性感知的解碼策略可能有助于LAM在遇到異常或?qū)剐砸纛l信號時檢測并避免不安全的完成。

雖然AJailBench提供了系統(tǒng)評估LAM在音頻攻擊下越獄漏洞的框架,但仍有幾個未探索的方向。首先,他們沒有調(diào)查針對音頻對抗攻擊的防御,主要是因為這一領(lǐng)域的進(jìn)展有限——目前還沒有專門為音頻模態(tài)設(shè)計的成熟防御方法。其次,研究主要集中在英語音頻輸入上,雖然包含了各種口音,但跨語言魯棒性在對抗擾動下仍未探索,這對多語言部署場景可能至關(guān)重要。

結(jié)論:研究團(tuán)隊的AJailBench基準(zhǔn)測試首次系統(tǒng)地評估了大型音頻語言模型面對各種對抗性音頻輸入時的安全漏洞。實(shí)驗結(jié)果令人擔(dān)憂:即使是最先進(jìn)的音頻語言模型,在面對精心設(shè)計的音頻擾動時,也會顯著降低其安全表現(xiàn)。這項研究不僅揭示了當(dāng)前技術(shù)的局限性,也為未來開發(fā)更強(qiáng)大、語義感知的防御機(jī)制鋪平了道路。

從更廣泛的角度看,隨著音頻語言模型在各種應(yīng)用中的普及,確保它們能夠抵抗這類攻擊變得至關(guān)重要。研究團(tuán)隊開源的AJailBench基準(zhǔn)測試和音頻擾動工具包,為研究人員和開發(fā)者提供了評估和增強(qiáng)模型安全性的寶貴資源。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-