在人工智能發(fā)展的當(dāng)前階段,大型語(yǔ)言模型(LLM)的安全性成為了一個(gè)廣受關(guān)注的話題。來自于德國(guó)蒂賓根的ELLIS研究所、馬克斯·普朗克智能系統(tǒng)研究所和蒂賓根AI中心的Alexander Panfilov,以及來自思科系統(tǒng)公司的Paul Kassianik,瑞士洛桑聯(lián)邦理工學(xué)院的Maksym Andriushchenko,和蒂賓根AI中心的Jonas Geiping共同完成的這項(xiàng)研究于2025年5月發(fā)表在arXiv上,文章題為《Capability-Based Scaling Laws for LLM Red-Teaming》(基于能力的LLM紅隊(duì)測(cè)試縮放規(guī)律)。
想象一下這樣的場(chǎng)景:你有一個(gè)保險(xiǎn)箱,你雇了一位安全專家(紅隊(duì))來測(cè)試它的安全性。隨著保險(xiǎn)箱(語(yǔ)言模型)變得越來越先進(jìn),如果安全專家的技能沒有相應(yīng)提高,他們還能找到保險(xiǎn)箱的漏洞嗎?這正是研究團(tuán)隊(duì)試圖回答的核心問題。
隨著大型語(yǔ)言模型(LLM)變得越來越強(qiáng)大,確保它們的安全性變得尤為重要。目前,研究人員和公司通常雇傭人類"紅隊(duì)"來測(cè)試這些模型,嘗試誘導(dǎo)模型產(chǎn)生有害回應(yīng)。這種做法被稱為"越獄攻擊"(jailbreaking)。但隨著模型能力的提升,人類測(cè)試者可能會(huì)面臨一個(gè)根本性的問題:當(dāng)模型變得比測(cè)試者更聰明時(shí),人類還能有效地測(cè)試它們嗎?
研究團(tuán)隊(duì)提出了一個(gè)創(chuàng)新的視角:通過研究攻擊者和目標(biāo)模型之間的"能力差距"來預(yù)測(cè)越獄攻擊的成功率。他們進(jìn)行了一項(xiàng)大規(guī)模實(shí)驗(yàn),評(píng)估了超過500個(gè)攻擊者-目標(biāo)模型組合,覆蓋了包括Llama2、Llama3、Mistral、Vicuna、Qwen2.5和Gemini在內(nèi)的多個(gè)模型家族。
就像一場(chǎng)智力角力,如果攻擊者(紅隊(duì)測(cè)試者)比防守者(語(yǔ)言模型)更聰明,那么攻擊就更可能成功。但是,一旦防守者的能力超過攻擊者,攻擊成功率就會(huì)迅速下降。研究人員發(fā)現(xiàn),這種關(guān)系可以被精確地建模為一個(gè)S形曲線(sigmoid函數(shù)),并且可以根據(jù)攻擊者和目標(biāo)之間的能力差距來預(yù)測(cè)攻擊成功率。
讓我們深入了解這項(xiàng)研究的具體發(fā)現(xiàn)和它對(duì)AI安全的重要啟示。
一、研究背景:紅隊(duì)測(cè)試的演變挑戰(zhàn)
想象你正在訓(xùn)練一個(gè)高級(jí)保安系統(tǒng)。隨著系統(tǒng)變得越來越智能,你需要更聰明的測(cè)試人員來發(fā)現(xiàn)漏洞。但如果系統(tǒng)最終變得比任何測(cè)試人員都聰明,你如何確保它仍然安全?這就是大型語(yǔ)言模型(LLM)安全測(cè)試面臨的根本挑戰(zhàn)。
目前的語(yǔ)言模型安全評(píng)估主要依靠?jī)煞N方式:一種是人類"紅隊(duì)",即安全專家嘗試通過精心設(shè)計(jì)的提示詞讓模型生成有害內(nèi)容;另一種是自動(dòng)化的測(cè)試方法,使用其他AI模型來執(zhí)行類似任務(wù)。但隨著模型能力的提升,這種測(cè)試方法可能會(huì)面臨一個(gè)根本性的困境:當(dāng)被測(cè)試的模型比測(cè)試者更聰明時(shí),測(cè)試還能有效嗎?
研究人員將這種情況描述為從"強(qiáng)對(duì)弱"轉(zhuǎn)變?yōu)?弱對(duì)強(qiáng)"的問題。傳統(tǒng)上,測(cè)試者(人類或AI)比被測(cè)試的模型更強(qiáng),他們可以找到模型的弱點(diǎn)。但未來,如果模型變得比測(cè)試者更強(qiáng),這種傳統(tǒng)測(cè)試方法可能會(huì)失效。
正如研究人員所指出的,有些專家如Kokotajlo等人預(yù)測(cè)未來的AI系統(tǒng)可能變得"無法越獄",雖然這種預(yù)測(cè)缺乏實(shí)證支持,但兩個(gè)趨勢(shì)確實(shí)指向這種可能性:一方面,安全機(jī)制正變得更強(qiáng)(包括系統(tǒng)級(jí)和模型級(jí));另一方面,模型本身變得更聰明,更善于遵循安全指南和理解用戶意圖。
這項(xiàng)研究試圖回答的核心問題是:當(dāng)目標(biāo)模型的能力超過紅隊(duì)測(cè)試者時(shí),人類式的紅隊(duì)測(cè)試在什么能力差距下可能變得無效?
二、研究方法:模擬人類紅隊(duì)測(cè)試的創(chuàng)新實(shí)驗(yàn)設(shè)計(jì)
為了探索這個(gè)問題,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)巧妙的實(shí)驗(yàn)框架。想象一下,如果我們可以精確控制紅隊(duì)測(cè)試者和目標(biāo)模型的能力水平,那么我們就可以系統(tǒng)地研究能力差距如何影響測(cè)試效果。但在現(xiàn)實(shí)中,我們無法隨意調(diào)整人類的能力。研究人員的解決方案是:使用不同能力水平的語(yǔ)言模型來模擬不同能力的人類紅隊(duì)測(cè)試者。
具體來說,研究團(tuán)隊(duì)使用了兩種模擬人類紅隊(duì)測(cè)試策略的AI攻擊方法:PAIR(由Chao等人在2025年提出)和Crescendo(由Russinovich等人在2024年提出)。這些方法模擬了人類紅隊(duì)測(cè)試者使用的策略,如角色扮演、文字替換、情感訴求等。
研究人員構(gòu)建了一個(gè)包含三個(gè)關(guān)鍵角色的實(shí)驗(yàn)框架:
首先是"目標(biāo)模型"(Target),這是需要被測(cè)試安全性的語(yǔ)言模型。研究團(tuán)隊(duì)選擇了27個(gè)不同的模型,包括Llama2、Llama3、Vicuna、Mistral、Qwen2.5以及Gemini和o系列(如OpenAI的模型)等,涵蓋了不同家族、不同參數(shù)規(guī)模和不同能力水平的模型。
其次是"攻擊者模型"(Attacker),這是模擬人類紅隊(duì)測(cè)試者的語(yǔ)言模型。為了確保公平比較,研究人員對(duì)所有作為攻擊者的開源模型進(jìn)行了"解鎖"處理,移除了安全防護(hù),同時(shí)保留它們的一般能力。這是因?yàn)橛邪踩雷o(hù)的模型通常會(huì)拒絕參與紅隊(duì)測(cè)試任務(wù)。
最后是"評(píng)判模型"(Judge),負(fù)責(zé)評(píng)估目標(biāo)模型的響應(yīng)是否符合有害查詢的要求。研究使用了HarmBench評(píng)判標(biāo)準(zhǔn),這是一個(gè)已知與人類判斷高度一致的標(biāo)準(zhǔn)。
通過這個(gè)設(shè)計(jì),研究團(tuán)隊(duì)評(píng)估了超過500個(gè)攻擊者-目標(biāo)組合,系統(tǒng)地探索了不同能力水平下的攻擊成功率。他們使用MMLU-Pro基準(zhǔn)測(cè)試(一個(gè)綜合評(píng)估語(yǔ)言模型能力的標(biāo)準(zhǔn))來量化模型的一般能力,從而計(jì)算攻擊者和目標(biāo)之間的"能力差距"。
這就像是組織了一場(chǎng)大規(guī)模的智力競(jìng)賽,讓不同能力水平的參賽者(攻擊者模型)挑戰(zhàn)不同難度的題目(目標(biāo)模型),然后觀察他們的成功率如何隨能力差距變化。
三、核心發(fā)現(xiàn):能力差距決定攻擊成功率
研究團(tuán)隊(duì)的實(shí)驗(yàn)揭示了三個(gè)強(qiáng)有力的發(fā)現(xiàn),這些發(fā)現(xiàn)可以幫助我們理解語(yǔ)言模型安全性測(cè)試的根本規(guī)律。
首先,更強(qiáng)大的模型是更好的攻擊者。想象一下,如果你想闖入一個(gè)保安系統(tǒng),你自己的能力越強(qiáng),成功的可能性就越大。研究發(fā)現(xiàn),攻擊者的平均成功率與其一般能力(用MMLU-Pro分?jǐn)?shù)衡量)幾乎呈線性關(guān)系,相關(guān)系數(shù)超過0.84。這意味著,隨著開源模型能力的提升,它們作為攻擊者的威脅也會(huì)相應(yīng)增加。
其次,當(dāng)目標(biāo)的能力超過攻擊者時(shí),攻擊成功率會(huì)急劇下降。研究人員觀察到一個(gè)有趣的現(xiàn)象:當(dāng)目標(biāo)模型的能力接近最強(qiáng)攻擊者的能力水平(MMLU-Pro分?jǐn)?shù)約為0.62)時(shí),目標(biāo)的漏洞開始逐漸減少;一旦目標(biāo)超過攻擊者,漏洞急劇減少,呈現(xiàn)出一個(gè)S形曲線(R?= 0.80)。換句話說,越獄成功率取決于能力差距,而不是攻擊者的絕對(duì)實(shí)力。攻擊者只有在能力超過或匹配目標(biāo)時(shí)才高度有效,一旦目標(biāo)超過攻擊者,攻擊者就會(huì)失去優(yōu)勢(shì)。
第三,與STEM知識(shí)相比,社會(huì)科學(xué)能力是更強(qiáng)的攻擊成功率預(yù)測(cè)因素。研究團(tuán)隊(duì)分析了解鎖后的攻擊者模型,發(fā)現(xiàn)攻擊成功率與MMLU-Pro的社會(huì)科學(xué)部分(如心理學(xué)、經(jīng)濟(jì)學(xué)、法律等)的相關(guān)性最強(qiáng),而與STEM部分(如數(shù)學(xué)、物理、工程等)的相關(guān)性較弱。這表明,有效的攻擊者可能依賴于心理洞察力和說服能力,類似于人類的社會(huì)工程學(xué)技術(shù)。
這些發(fā)現(xiàn)匯總成一個(gè)"基于能力的越獄縮放規(guī)律":對(duì)于固定的目標(biāo)模型,攻擊成功率可以被準(zhǔn)確地預(yù)測(cè)為攻擊者-目標(biāo)能力差距的函數(shù)。這個(gè)關(guān)系呈S形曲線,可以用logit空間中的線性模型精確描述。
四、越獄縮放規(guī)律:預(yù)測(cè)未來攻擊成功率
基于上述發(fā)現(xiàn),研究團(tuán)隊(duì)構(gòu)建了一個(gè)預(yù)測(cè)模型,可以根據(jù)攻擊者和目標(biāo)之間的能力差距預(yù)測(cè)攻擊成功率。這就像是一個(gè)天氣預(yù)報(bào)系統(tǒng),但它預(yù)測(cè)的是安全漏洞,而不是雨水。
研究人員對(duì)每個(gè)目標(biāo)模型分別建立了預(yù)測(cè)模型,并發(fā)現(xiàn)對(duì)于Qwen2.5、Mistral和Vicuna模型,攻擊成功率都遵循一致的S形曲線;而Llama3模型的曲線偏右,反映了更強(qiáng)的安全措施。早期的三個(gè)Llama模型在"強(qiáng)對(duì)弱"場(chǎng)景中表現(xiàn)異常穩(wěn)健,表明MMLU-Pro可能不是衡量它們防御能力的良好指標(biāo)。
假設(shè)同一模型家族和同一代的模型具有類似的安全調(diào)整,研究人員還展示了按家族聚合的縮放規(guī)律。Qwen2.5家族的曲線對(duì)新的前沿目標(biāo)(最先進(jìn)的閉源推理模型)泛化得最好。這些測(cè)試點(diǎn)始終具有負(fù)差距,因?yàn)樗鼈兊哪芰Τ^了分析中的每個(gè)攻擊者。
基于這些模型,研究人員預(yù)測(cè)了固定攻擊者(如人類)對(duì)未來模型的攻擊成功率。由于目前尚不清楚未來模型是否會(huì)遵循像Llama3那樣更安全的軌跡,還是像Qwen2.5那樣更寬松的軌跡,他們使用了所有考慮的目標(biāo)模型(不包括Llama2和Llama3-8b)的中值縮放規(guī)律來進(jìn)行預(yù)測(cè)。
這個(gè)預(yù)測(cè)表明,隨著模型能力的提升,人類紅隊(duì)測(cè)試的成功率將會(huì)下降。如果未來模型采用像早期Llama版本那樣強(qiáng)的安全措施,這種下降可能會(huì)發(fā)生得更早。
五、深入分析:誰(shuí)是最佳攻擊者?評(píng)判重要嗎?
除了主要發(fā)現(xiàn)外,研究團(tuán)隊(duì)還進(jìn)行了一系列分析,深入探討了影響攻擊成功率的因素。
首先,他們分析了哪些能力使模型成為良好的攻擊者。研究人員計(jì)算了平均攻擊者成功率與各種基準(zhǔn)測(cè)試分?jǐn)?shù)之間的相關(guān)性,發(fā)現(xiàn)攻擊成功率與MMLU-Pro的社會(huì)科學(xué)部分相關(guān)性最強(qiáng),而與STEM部分相關(guān)性較弱。這表明,有效的攻擊者可能依賴于心理洞察力和說服能力,類似于人類在社會(huì)工程學(xué)中使用的技術(shù)。
這一發(fā)現(xiàn)指出了當(dāng)前安全討論中的一個(gè)盲點(diǎn):當(dāng)前的安全討論過度關(guān)注模型的危險(xiǎn)技術(shù)能力,而對(duì)模型的說服力關(guān)注不足。隨著模型能力的提升,它們的說服力也會(huì)增強(qiáng),但用于衡量和限制這種特性的系統(tǒng)基準(zhǔn)測(cè)試卻很少。研究人員建議,評(píng)估和跟蹤模型的說服和心理能力應(yīng)成為優(yōu)先事項(xiàng),既可以預(yù)測(cè)攻擊者的實(shí)力,也可以保護(hù)用戶和基于LLM的系統(tǒng)免受操縱風(fēng)險(xiǎn)。
其次,研究團(tuán)隊(duì)調(diào)查了評(píng)判模型的選擇對(duì)攻擊成功率的影響。他們確認(rèn),更強(qiáng)大的模型確實(shí)是更好的評(píng)判者:評(píng)判者的MMLU-Pro得分與其評(píng)分與中性HarmBench評(píng)判的一致性呈正相關(guān)。然而,有趣的是,評(píng)判者并不影響攻擊成功率,它只影響選擇。ASR@25(在所有生成的提示詞中的最大值)在不同評(píng)判者之間保持穩(wěn)定,而ASR@1(僅使用排名最高的提示詞)隨評(píng)判者能力的提高而增加,因?yàn)楦鼜?qiáng)的評(píng)判者能夠選擇更好的輸入。
這一發(fā)現(xiàn)對(duì)越獄研究社區(qū)很有價(jià)值,因?yàn)樗砻靼嘿F的閉源評(píng)判者在攻擊循環(huán)內(nèi)是不必要的,選擇可以在事后完成。
最后,研究人員還分析了不同攻擊方法如何影響縮放規(guī)律。他們發(fā)現(xiàn),盡管斜率幾乎保持不變,但更強(qiáng)的攻擊會(huì)使曲線向左移動(dòng),增加可行越獄的能力差距。總體而言,Crescendo在相同查詢預(yù)算下表現(xiàn)不如PAIR,這與最近的研究一致。研究人員將Crescendo的原始成功歸因于它使用了高能力的GPT-4攻擊者。
六、研究局限性與未來展望
像所有研究一樣,這項(xiàng)工作也有其局限性。研究主要依賴PAIR和Crescendo攻擊,這些可能無法窮盡人類紅隊(duì)測(cè)試者可能采用的所有策略。人類作為終身學(xué)習(xí)者,能夠?qū)⑿掳l(fā)現(xiàn)的漏洞從一種有害行為轉(zhuǎn)移到另一種有害行為。雖然有研究如AutoDan-Turbo探索了這個(gè)方向,但最近的研究表明,PAIR類方法(如TAP)仍然是最有效的。
此外,一些研究討論了訓(xùn)練專門的模型來學(xué)習(xí)越獄其他模型。如果較弱的模型可以被訓(xùn)練成更強(qiáng)的攻擊者,研究團(tuán)隊(duì)的能力差距框架可能無法捕捉這種跳躍,因?yàn)樗褂肕MLU-Pro作為攻擊能力的固定代理。然而,當(dāng)前訓(xùn)練的攻擊者模型通常難以泛化到新的目標(biāo),這突顯了需要更好地理解從白盒和灰盒設(shè)置到新的黑盒場(chǎng)景的攻擊轉(zhuǎn)移的縮放規(guī)律。
這項(xiàng)研究對(duì)不同利益相關(guān)者有重要啟示。對(duì)于模型提供者來說:安全調(diào)整是有效的,精心防護(hù)的模型即使面對(duì)遠(yuǎn)強(qiáng)于它們的攻擊者也保持穩(wěn)??;危險(xiǎn)能力評(píng)估應(yīng)超越"硬科學(xué)",檢查模型的說服和心理技能;在發(fā)布前應(yīng)對(duì)模型的攻擊能力進(jìn)行基準(zhǔn)測(cè)試;更強(qiáng)大的開源模型的發(fā)布需要重新評(píng)估現(xiàn)有部署系統(tǒng)的穩(wěn)健性。
對(duì)于越獄研究社區(qū)來說:攻擊者的強(qiáng)度驅(qū)動(dòng)了攻擊成功率,昂貴的評(píng)判者的好處有限;隨著能力差距的擴(kuò)大,人工人類紅隊(duì)測(cè)試將變得更加困難,這使得自動(dòng)化紅隊(duì)測(cè)試成為未來評(píng)估的關(guān)鍵工具。
七、結(jié)論:能力差距與AI安全的未來
歸根結(jié)底,這項(xiàng)研究揭示了一個(gè)基本的縮放規(guī)律:越獄成功受攻擊者和目標(biāo)之間的能力差距支配。在500多個(gè)攻擊者-目標(biāo)對(duì)的實(shí)驗(yàn)中,研究人員證明了更強(qiáng)的模型既是更好的攻擊者,也是更堅(jiān)固的目標(biāo),并且他們推導(dǎo)出了一個(gè)可以從這種差距預(yù)測(cè)攻擊成功率的縮放規(guī)律。
這些結(jié)果為推理基于LLM應(yīng)用程序在面對(duì)不斷進(jìn)步的攻擊者時(shí)可能保持安全的時(shí)間提供了實(shí)用框架。它們強(qiáng)調(diào)了模型提供者需要進(jìn)一步投資于提高穩(wěn)健性、可擴(kuò)展的自動(dòng)化紅隊(duì)測(cè)試和對(duì)模型說服和操縱能力的系統(tǒng)基準(zhǔn)測(cè)試。
特別是,研究發(fā)現(xiàn)社會(huì)科學(xué)相關(guān)技能比STEM知識(shí)更強(qiáng)烈地預(yù)測(cè)攻擊者成功率,這突顯了需要測(cè)量和控制模型的說服和操縱能力。這對(duì)于預(yù)測(cè)攻擊者的強(qiáng)度和保護(hù)用戶免受操縱風(fēng)險(xiǎn)都至關(guān)重要。
這項(xiàng)研究不僅僅是學(xué)術(shù)探索,它對(duì)AI安全的實(shí)際應(yīng)用具有深遠(yuǎn)影響。隨著語(yǔ)言模型繼續(xù)變得更加強(qiáng)大,理解這些能力縮放規(guī)律將有助于確保它們的安全部署和使用。正如研究人員所指出的,越獄成功取決于能力差距,而不是攻擊者的絕對(duì)實(shí)力。這意味著,隨著模型能力的提升,傳統(tǒng)的人類紅隊(duì)測(cè)試可能會(huì)變得不那么有效,而自動(dòng)化的AI紅隊(duì)測(cè)試將變得更加重要。
最終,這項(xiàng)研究為我們提供了一個(gè)窗口,讓我們了解AI安全的未來可能如何發(fā)展。隨著模型變得越來越強(qiáng)大,確保它們的安全性將需要新的方法和技術(shù)。理解能力縮放規(guī)律是朝著這個(gè)目標(biāo)邁出的重要一步。
好文章,需要你的鼓勵(lì)
新加坡國(guó)立大學(xué)研究團(tuán)隊(duì)開發(fā)了SPIRAL框架,通過讓AI與自己對(duì)弈零和游戲來提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡(jiǎn)單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語(yǔ)言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語(yǔ)言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。