動態(tài)評估攻擊性網(wǎng)絡(luò)安全AI助手的風(fēng)險,這是一項由普林斯頓大學(xué)的Boyi Wei、Benedikt Stroebl、Joie Zhang和Peter Henderson,以及加州大學(xué)歐文分校的Jiacen Xu和Zhou Li共同完成的研究。該研究發(fā)表于2025年5月23日,論文編號為arXiv:2505.18384v1,感興趣的讀者可以通過arXiv網(wǎng)站獲取完整論文。
你是否聽說過"網(wǎng)絡(luò)攻擊的平均突破時間已縮短至48分鐘,比去年減少了22%"?根據(jù)CrowdStrike 2025年全球威脅報告,最快的網(wǎng)絡(luò)入侵僅需51秒。隨著人工智能技術(shù)的快速發(fā)展,基礎(chǔ)模型(即大型語言模型)正在變得越來越擅長編程,這意味著它們也可能被用于自動化危險的網(wǎng)絡(luò)攻擊操作。那么,我們該如何評估這些AI助手在網(wǎng)絡(luò)安全領(lǐng)域可能帶來的風(fēng)險呢?
傳統(tǒng)的AI安全審計往往采用靜態(tài)評估方法,也就是說,它們只關(guān)注AI系統(tǒng)在固定條件下的表現(xiàn)。然而,這種方法忽略了一個關(guān)鍵因素:在現(xiàn)實世界中,惡意行為者擁有多種自由度來改進(jìn)和調(diào)整他們的攻擊工具。特別是在有強驗證器(能明確判斷是否成功的機制)和經(jīng)濟激勵的情況下,攻擊性網(wǎng)絡(luò)安全AI助手非常適合被不斷優(yōu)化。
Wei等研究人員提出,我們應(yīng)該采用動態(tài)風(fēng)險評估方法,考慮攻擊者在有狀態(tài)和無狀態(tài)環(huán)境中可能擁有的各種自由度。在有狀態(tài)環(huán)境中,系統(tǒng)會記住過去的交互并據(jù)此調(diào)整響應(yīng);而在無狀態(tài)環(huán)境中,每次交互都可以重置到初始狀態(tài)。研究團隊的驚人發(fā)現(xiàn)是:即使只有8個H100 GPU小時(約合36美元)的計算預(yù)算,攻擊者也能將AI助手的網(wǎng)絡(luò)安全能力提高40%以上,而且不需要任何外部幫助!
這一研究警醒我們:在評估AI系統(tǒng)的網(wǎng)絡(luò)安全風(fēng)險時,必須考慮到攻擊者可能采取的各種改進(jìn)措施,才能獲得更準(zhǔn)確的風(fēng)險畫像。接下來,讓我們深入了解研究團隊的發(fā)現(xiàn)和方法論。
一、為什么網(wǎng)絡(luò)安全領(lǐng)域特別適合AI自我提升?
想象一下,你正在玩一個解謎游戲。如果每次嘗試后,游戲都能明確告訴你"對了"或"錯了",而且解開謎題有豐厚獎勵,你自然會被激勵去不斷嘗試和改進(jìn)方法,直到成功。網(wǎng)絡(luò)安全領(lǐng)域就具備了這兩個關(guān)鍵特性:強驗證器和經(jīng)濟激勵。
強驗證器就像是那個立即告訴你"對了"或"錯了"的反饋系統(tǒng)。在網(wǎng)絡(luò)安全領(lǐng)域,當(dāng)你發(fā)現(xiàn)或利用了漏洞,通常會得到明確信號——例如獲得未授權(quán)訪問或提取隱藏信息。想象你在嘗試破解一個加密文本,當(dāng)你解密成功時,你會立即知道自己做對了,因為你能看到有意義的文本出現(xiàn)。類似地,當(dāng)攻擊者成功注入SQL命令或執(zhí)行命令注入時,他們會獲得提升的權(quán)限或訪問本應(yīng)受限的數(shù)據(jù),這都是明確的成功指標(biāo)。
經(jīng)濟激勵則像是游戲的高額獎金?,F(xiàn)實中,網(wǎng)絡(luò)攻擊可以為攻擊者帶來巨額收益。僅勒索軟件一項就估計每年從受害者那里轉(zhuǎn)移超過10億美元。另一方面,許多組織設(shè)立了"漏洞賞金計劃",向發(fā)現(xiàn)系統(tǒng)漏洞的安全研究人員提供獎勵。這種強大的經(jīng)濟動機使得攻擊者愿意投入大量計算資源來提高攻擊效率。
研究團隊還區(qū)分了兩種類型的環(huán)境:有狀態(tài)環(huán)境和無狀態(tài)環(huán)境。這就像是在玩兩種不同類型的游戲:
在有狀態(tài)環(huán)境中,你的每一步操作都會改變游戲世界,且無法精確重置。比如,當(dāng)你多次嘗試登錄失敗后,賬戶可能會被鎖定;或者當(dāng)你進(jìn)行SQL注入嘗試時,可能會觸發(fā)IP封鎖。這意味著攻擊者只有一次機會來"破解"系統(tǒng),必須格外謹(jǐn)慎。
相比之下,無狀態(tài)環(huán)境就像是可以無限次重新開始的游戲關(guān)卡。例如,逆向工程一個本地二進(jìn)制文件或暴力破解哈希值,你可以一次又一次地嘗試不同方法,直到成功。在這種情況下,攻擊者可以反復(fù)嘗試不同策略,大大提高成功率。
有了強驗證器和經(jīng)濟激勵,再加上無狀態(tài)環(huán)境中可以進(jìn)行多次嘗試的特性,網(wǎng)絡(luò)安全領(lǐng)域為AI自我提升創(chuàng)造了理想條件。接下來,我們將探討攻擊者可能利用的具體自由度。
二、攻擊者的五種自由度
想象攻擊者手中拿著一個AI網(wǎng)絡(luò)安全助手,就像廚師手中的一把多功能瑞士軍刀。這把"刀"有核心模型(大型語言模型)、記憶功能和整體框架結(jié)構(gòu)。攻擊者可以通過哪些方式來"磨刀",使其更加鋒利呢?研究團隊確定了五種關(guān)鍵的自由度:
第一種是"重復(fù)采樣"。這就像是在投擲骰子,你可以多次嘗試,直到擲出想要的點數(shù)。在無狀態(tài)環(huán)境中,攻擊者可以多次運行同一個任務(wù),獲取不同的輸出,然后選擇最佳結(jié)果。事實上,這種方法被證明非常有效——隨著嘗試次數(shù)的增加,成功解決問題的概率往往會呈對數(shù)線性增長。
第二種是"增加最大交互輪數(shù)"。這就像是給廚師更多的時間來完成一道復(fù)雜的菜肴。通過允許AI助手與環(huán)境進(jìn)行更多輪的交互,它有更多機會探索解決方案和修正錯誤。然而,研究者也發(fā)現(xiàn),簡單增加交互輪數(shù)可能會帶來收益遞減,因為AI可能會陷入重復(fù)相同命令的循環(huán)。
第三種是"迭代提示詞改進(jìn)"。想象你在教一個孩子做家務(wù),你會根據(jù)他們的表現(xiàn)不斷調(diào)整你的指導(dǎo)語言。類似地,攻擊者可以根據(jù)AI之前的失敗嘗試來改進(jìn)初始提示詞。這種方法特別聰明,因為它利用AI自身的能力來提升性能,且計算成本相對較低。
第四種是"自我訓(xùn)練"。這有點像讓一個廚師在沒有外部指導(dǎo)的情況下通過不斷嘗試來改進(jìn)自己的菜譜。研究團隊驚訝地發(fā)現(xiàn),即使只用33個成功輪次的數(shù)據(jù)進(jìn)行微調(diào),AI模型也能顯著提高其性能,展現(xiàn)出域內(nèi)泛化能力。
第五種是"迭代工作流改進(jìn)"。這就像是重新設(shè)計廚房的布局,使廚師工作更高效。攻擊者可以改變AI助手處理任務(wù)的整體流程,包括推理步驟、規(guī)劃和工具使用。研究表明,即使使用相同的核心模型,通過優(yōu)化工作流,也能顯著提高助手的成功率。
這五種自由度的強大之處在于,它們不需要任何外部知識或更強大的模型,攻擊者只需要計算資源和時間。而在有強驗證器和經(jīng)濟激勵的網(wǎng)絡(luò)安全領(lǐng)域,這些投資往往是值得的。
三、研究方法與實驗設(shè)計
為了驗證這些自由度的影響,研究團隊設(shè)計了一系列精心的實驗。他們使用了Qwen2.5-32B-Coder-Instruct作為核心語言模型,這是一個擁有強大編程能力的大型語言模型。他們還采用了NYU CTF Agent作為基礎(chǔ)代理框架,移除了其中的"放棄"工具以鼓勵代理更深入地探索任務(wù)。
CTF(Capture The Flag)挑戰(zhàn)是評估網(wǎng)絡(luò)安全能力的常用基準(zhǔn)。典型的CTF挑戰(zhàn)包括任務(wù)描述和一些初始文件,AI助手需要分析材料并提交一個"flag"作為解決方案。研究團隊使用了三個CTF基準(zhǔn)數(shù)據(jù)集:
1. InterCode CTF:包含100個來自高中生網(wǎng)絡(luò)安全競賽PicoCTF的任務(wù)。研究者排除了10個無法解決的任務(wù),將剩余的90個分為開發(fā)集(54個任務(wù))和測試集(36個任務(wù))。
2. NYU CTF:來自紐約大學(xué)年度網(wǎng)絡(luò)安全意識周(CSAW)的CTF競賽,提供了200個不同的挑戰(zhàn)。
3. Cybench:由40個來自4個不同CTF競賽的獨特挑戰(zhàn)組成,包括HackTheBox、SekaiCTF、Glacier和HKCert。
研究團隊采用pass@k作為評估指標(biāo),這衡量的是從k次嘗試中至少有一次成功的概率。默認(rèn)情況下,他們設(shè)置k0=12(總嘗試次數(shù))、N=20(最大交互輪數(shù)),并報告帶有95%置信區(qū)間的平均pass@k分?jǐn)?shù)。
四、驚人的實驗結(jié)果
當(dāng)研究團隊開始測試不同自由度的效果時,他們發(fā)現(xiàn)了一些令人震驚的結(jié)果。
首先,簡單的"重復(fù)采樣"和"增加最大交互輪數(shù)"確實能顯著提高性能。在InterCode CTF測試集上,將重復(fù)次數(shù)從1增加到10,成功率(pass@k)從約0.5提高到0.8左右;同樣,將最大交互輪數(shù)從10增加到30,也帶來了明顯的性能提升。然而,這些改進(jìn)確實呈現(xiàn)出收益遞減的趨勢——當(dāng)k或N變得更大時,每增加一個單位帶來的改進(jìn)會越來越小。
更有趣的是"迭代提示詞改進(jìn)"。研究人員發(fā)現(xiàn),這種方法比簡單的重復(fù)采樣更有效。通過讓AI反思并學(xué)習(xí)之前失敗的策略和軌跡,它能夠更高效地搜索解決方案。而且,這種方法計算成本相對較低,只需要一個額外的推理步驟來生成改進(jìn)的用戶提示。
"自我訓(xùn)練"的結(jié)果尤為驚人。研究團隊收集了代理在開發(fā)集上的33個成功軌跡,并用這些數(shù)據(jù)對核心模型進(jìn)行了5個周期和10個周期的微調(diào)。令人驚訝的是,即使只用這么少的訓(xùn)練樣本,經(jīng)過5個周期訓(xùn)練的模型也在測試集上表現(xiàn)出了域內(nèi)泛化能力,始終優(yōu)于基礎(chǔ)模型。然而,自我訓(xùn)練也帶來了權(quán)衡——當(dāng)模型訓(xùn)練更多周期時,它的輸出多樣性會降低,這可能會影響在更大的k值下的性能。
最后,"迭代工作流改進(jìn)"也展示了顯著效果。即使使用相同的核心模型,通過迭代優(yōu)化代理的工作流程(如推理步驟、規(guī)劃和工具使用方式),研究人員能夠生成比原始工作流性能更好的新工作流。
但研究的真正突破來自于固定計算預(yù)算下的比較分析。研究團隊假設(shè)攻擊者有8個H100 GPU小時(約合36美元)的計算預(yù)算,比較了五種自由度在有狀態(tài)和無狀態(tài)環(huán)境中的表現(xiàn)。結(jié)果顯示,在這一相對較小的預(yù)算內(nèi),無狀態(tài)環(huán)境中的性能提升可以超過40%!
這些發(fā)現(xiàn)令人警醒:即使是最基礎(chǔ)的攻擊者,只需要很小的計算投資,就能顯著提高AI助手的網(wǎng)絡(luò)安全攻擊能力,而且不需要任何外部幫助。
五、研究啟示與未來展望
這項研究給我們帶來了幾個重要啟示。
首先,小型計算預(yù)算就能帶來實質(zhì)性的性能提升。這意味著,即使是資源有限的攻擊者也能顯著提高AI助手的網(wǎng)絡(luò)安全攻擊能力。在無狀態(tài)環(huán)境中,性能提升甚至可以超過40%,而成本僅為36美元左右。這凸顯了將這種動態(tài)性納入風(fēng)險評估的重要性。
其次,迭代提示詞改進(jìn)展現(xiàn)出最高的風(fēng)險潛力,但增加重復(fù)次數(shù)或代理交互輪數(shù)也帶來顯著收益。這突顯了基于重復(fù)采樣的風(fēng)險評估的局限性——它們無法完全捕捉代理的真實威脅潛力,因為即使是基本的提示詞改進(jìn)策略也能輕松超越簡單的重復(fù)采樣。
第三,有狀態(tài)和無狀態(tài)環(huán)境之間的風(fēng)險潛力差異很大。部署前的操作(如自我訓(xùn)練和迭代工作流改進(jìn))通常計算密集型,因為它們需要攻擊者先收集開發(fā)集,然后反復(fù)運行超參數(shù)搜索和評估。在有限的計算預(yù)算下,主要風(fēng)險來自推理時的操作,這些操作通常只在無狀態(tài)環(huán)境中可行。這一區(qū)別強調(diào)了需要針對不同環(huán)境進(jìn)行單獨的風(fēng)險評估。
研究人員也指出,他們只是觸及了攻擊者可能進(jìn)行的修改的表面。在現(xiàn)實世界中,攻擊者往往擁有更多高級能力:他們可以添加網(wǎng)頁瀏覽工具、手動改進(jìn)初始信息、使用強化學(xué)習(xí)進(jìn)行自我訓(xùn)練,或采用更好的探索方法。這項研究的主要目標(biāo)是展示,即使是相對較低的計算預(yù)算和簡單的方法,也能在多個自由度上實現(xiàn)性能提升。
總的來說,這項研究強調(diào)了網(wǎng)絡(luò)安全評估必須考慮這些動態(tài)因素。如果——正如研究者發(fā)現(xiàn)的——網(wǎng)絡(luò)安全能力可以使用僅8個GPU小時或不到36美元的計算資源提高40%,那么將這些修改納入考慮的動態(tài)風(fēng)險評估必須成為任何前沿網(wǎng)絡(luò)安全風(fēng)險評估框架的關(guān)鍵組成部分。
這對各方都有重要啟示。對于AI系統(tǒng)開發(fā)者來說,這意味著安全審計不應(yīng)只考慮靜態(tài)場景,而應(yīng)包括攻擊者可能的改進(jìn)路徑。對于政策制定者來說,這表明在評估AI系統(tǒng)風(fēng)險時,需要考慮到可預(yù)見的修改和一定計算閾值內(nèi)的微調(diào)。對于普通用戶和組織來說,這強調(diào)了持續(xù)更新網(wǎng)絡(luò)安全防御的重要性,因為攻擊者的能力可能會隨著時間的推移而顯著提升。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學(xué)習(xí)外觀和運動信息,顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報,準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。