動(dòng)態(tài)評(píng)估攻擊性網(wǎng)絡(luò)安全AI助手的風(fēng)險(xiǎn),這是一項(xiàng)由普林斯頓大學(xué)的Boyi Wei、Benedikt Stroebl、Joie Zhang和Peter Henderson,以及加州大學(xué)歐文分校的Jiacen Xu和Zhou Li共同完成的研究。該研究發(fā)表于2025年5月23日,論文編號(hào)為arXiv:2505.18384v1,感興趣的讀者可以通過(guò)arXiv網(wǎng)站獲取完整論文。
你是否聽(tīng)說(shuō)過(guò)"網(wǎng)絡(luò)攻擊的平均突破時(shí)間已縮短至48分鐘,比去年減少了22%"?根據(jù)CrowdStrike 2025年全球威脅報(bào)告,最快的網(wǎng)絡(luò)入侵僅需51秒。隨著人工智能技術(shù)的快速發(fā)展,基礎(chǔ)模型(即大型語(yǔ)言模型)正在變得越來(lái)越擅長(zhǎng)編程,這意味著它們也可能被用于自動(dòng)化危險(xiǎn)的網(wǎng)絡(luò)攻擊操作。那么,我們?cè)撊绾卧u(píng)估這些AI助手在網(wǎng)絡(luò)安全領(lǐng)域可能帶來(lái)的風(fēng)險(xiǎn)呢?
傳統(tǒng)的AI安全審計(jì)往往采用靜態(tài)評(píng)估方法,也就是說(shuō),它們只關(guān)注AI系統(tǒng)在固定條件下的表現(xiàn)。然而,這種方法忽略了一個(gè)關(guān)鍵因素:在現(xiàn)實(shí)世界中,惡意行為者擁有多種自由度來(lái)改進(jìn)和調(diào)整他們的攻擊工具。特別是在有強(qiáng)驗(yàn)證器(能明確判斷是否成功的機(jī)制)和經(jīng)濟(jì)激勵(lì)的情況下,攻擊性網(wǎng)絡(luò)安全AI助手非常適合被不斷優(yōu)化。
Wei等研究人員提出,我們應(yīng)該采用動(dòng)態(tài)風(fēng)險(xiǎn)評(píng)估方法,考慮攻擊者在有狀態(tài)和無(wú)狀態(tài)環(huán)境中可能擁有的各種自由度。在有狀態(tài)環(huán)境中,系統(tǒng)會(huì)記住過(guò)去的交互并據(jù)此調(diào)整響應(yīng);而在無(wú)狀態(tài)環(huán)境中,每次交互都可以重置到初始狀態(tài)。研究團(tuán)隊(duì)的驚人發(fā)現(xiàn)是:即使只有8個(gè)H100 GPU小時(shí)(約合36美元)的計(jì)算預(yù)算,攻擊者也能將AI助手的網(wǎng)絡(luò)安全能力提高40%以上,而且不需要任何外部幫助!
這一研究警醒我們:在評(píng)估AI系統(tǒng)的網(wǎng)絡(luò)安全風(fēng)險(xiǎn)時(shí),必須考慮到攻擊者可能采取的各種改進(jìn)措施,才能獲得更準(zhǔn)確的風(fēng)險(xiǎn)畫像。接下來(lái),讓我們深入了解研究團(tuán)隊(duì)的發(fā)現(xiàn)和方法論。
一、為什么網(wǎng)絡(luò)安全領(lǐng)域特別適合AI自我提升?
想象一下,你正在玩一個(gè)解謎游戲。如果每次嘗試后,游戲都能明確告訴你"對(duì)了"或"錯(cuò)了",而且解開(kāi)謎題有豐厚獎(jiǎng)勵(lì),你自然會(huì)被激勵(lì)去不斷嘗試和改進(jìn)方法,直到成功。網(wǎng)絡(luò)安全領(lǐng)域就具備了這兩個(gè)關(guān)鍵特性:強(qiáng)驗(yàn)證器和經(jīng)濟(jì)激勵(lì)。
強(qiáng)驗(yàn)證器就像是那個(gè)立即告訴你"對(duì)了"或"錯(cuò)了"的反饋系統(tǒng)。在網(wǎng)絡(luò)安全領(lǐng)域,當(dāng)你發(fā)現(xiàn)或利用了漏洞,通常會(huì)得到明確信號(hào)——例如獲得未授權(quán)訪問(wèn)或提取隱藏信息。想象你在嘗試破解一個(gè)加密文本,當(dāng)你解密成功時(shí),你會(huì)立即知道自己做對(duì)了,因?yàn)槟隳芸吹接幸饬x的文本出現(xiàn)。類似地,當(dāng)攻擊者成功注入SQL命令或執(zhí)行命令注入時(shí),他們會(huì)獲得提升的權(quán)限或訪問(wèn)本應(yīng)受限的數(shù)據(jù),這都是明確的成功指標(biāo)。
經(jīng)濟(jì)激勵(lì)則像是游戲的高額獎(jiǎng)金?,F(xiàn)實(shí)中,網(wǎng)絡(luò)攻擊可以為攻擊者帶來(lái)巨額收益。僅勒索軟件一項(xiàng)就估計(jì)每年從受害者那里轉(zhuǎn)移超過(guò)10億美元。另一方面,許多組織設(shè)立了"漏洞賞金計(jì)劃",向發(fā)現(xiàn)系統(tǒng)漏洞的安全研究人員提供獎(jiǎng)勵(lì)。這種強(qiáng)大的經(jīng)濟(jì)動(dòng)機(jī)使得攻擊者愿意投入大量計(jì)算資源來(lái)提高攻擊效率。
研究團(tuán)隊(duì)還區(qū)分了兩種類型的環(huán)境:有狀態(tài)環(huán)境和無(wú)狀態(tài)環(huán)境。這就像是在玩兩種不同類型的游戲:
在有狀態(tài)環(huán)境中,你的每一步操作都會(huì)改變游戲世界,且無(wú)法精確重置。比如,當(dāng)你多次嘗試登錄失敗后,賬戶可能會(huì)被鎖定;或者當(dāng)你進(jìn)行SQL注入嘗試時(shí),可能會(huì)觸發(fā)IP封鎖。這意味著攻擊者只有一次機(jī)會(huì)來(lái)"破解"系統(tǒng),必須格外謹(jǐn)慎。
相比之下,無(wú)狀態(tài)環(huán)境就像是可以無(wú)限次重新開(kāi)始的游戲關(guān)卡。例如,逆向工程一個(gè)本地二進(jìn)制文件或暴力破解哈希值,你可以一次又一次地嘗試不同方法,直到成功。在這種情況下,攻擊者可以反復(fù)嘗試不同策略,大大提高成功率。
有了強(qiáng)驗(yàn)證器和經(jīng)濟(jì)激勵(lì),再加上無(wú)狀態(tài)環(huán)境中可以進(jìn)行多次嘗試的特性,網(wǎng)絡(luò)安全領(lǐng)域?yàn)锳I自我提升創(chuàng)造了理想條件。接下來(lái),我們將探討攻擊者可能利用的具體自由度。
二、攻擊者的五種自由度
想象攻擊者手中拿著一個(gè)AI網(wǎng)絡(luò)安全助手,就像廚師手中的一把多功能瑞士軍刀。這把"刀"有核心模型(大型語(yǔ)言模型)、記憶功能和整體框架結(jié)構(gòu)。攻擊者可以通過(guò)哪些方式來(lái)"磨刀",使其更加鋒利呢?研究團(tuán)隊(duì)確定了五種關(guān)鍵的自由度:
第一種是"重復(fù)采樣"。這就像是在投擲骰子,你可以多次嘗試,直到擲出想要的點(diǎn)數(shù)。在無(wú)狀態(tài)環(huán)境中,攻擊者可以多次運(yùn)行同一個(gè)任務(wù),獲取不同的輸出,然后選擇最佳結(jié)果。事實(shí)上,這種方法被證明非常有效——隨著嘗試次數(shù)的增加,成功解決問(wèn)題的概率往往會(huì)呈對(duì)數(shù)線性增長(zhǎng)。
第二種是"增加最大交互輪數(shù)"。這就像是給廚師更多的時(shí)間來(lái)完成一道復(fù)雜的菜肴。通過(guò)允許AI助手與環(huán)境進(jìn)行更多輪的交互,它有更多機(jī)會(huì)探索解決方案和修正錯(cuò)誤。然而,研究者也發(fā)現(xiàn),簡(jiǎn)單增加交互輪數(shù)可能會(huì)帶來(lái)收益遞減,因?yàn)锳I可能會(huì)陷入重復(fù)相同命令的循環(huán)。
第三種是"迭代提示詞改進(jìn)"。想象你在教一個(gè)孩子做家務(wù),你會(huì)根據(jù)他們的表現(xiàn)不斷調(diào)整你的指導(dǎo)語(yǔ)言。類似地,攻擊者可以根據(jù)AI之前的失敗嘗試來(lái)改進(jìn)初始提示詞。這種方法特別聰明,因?yàn)樗肁I自身的能力來(lái)提升性能,且計(jì)算成本相對(duì)較低。
第四種是"自我訓(xùn)練"。這有點(diǎn)像讓一個(gè)廚師在沒(méi)有外部指導(dǎo)的情況下通過(guò)不斷嘗試來(lái)改進(jìn)自己的菜譜。研究團(tuán)隊(duì)驚訝地發(fā)現(xiàn),即使只用33個(gè)成功輪次的數(shù)據(jù)進(jìn)行微調(diào),AI模型也能顯著提高其性能,展現(xiàn)出域內(nèi)泛化能力。
第五種是"迭代工作流改進(jìn)"。這就像是重新設(shè)計(jì)廚房的布局,使廚師工作更高效。攻擊者可以改變AI助手處理任務(wù)的整體流程,包括推理步驟、規(guī)劃和工具使用。研究表明,即使使用相同的核心模型,通過(guò)優(yōu)化工作流,也能顯著提高助手的成功率。
這五種自由度的強(qiáng)大之處在于,它們不需要任何外部知識(shí)或更強(qiáng)大的模型,攻擊者只需要計(jì)算資源和時(shí)間。而在有強(qiáng)驗(yàn)證器和經(jīng)濟(jì)激勵(lì)的網(wǎng)絡(luò)安全領(lǐng)域,這些投資往往是值得的。
三、研究方法與實(shí)驗(yàn)設(shè)計(jì)
為了驗(yàn)證這些自由度的影響,研究團(tuán)隊(duì)設(shè)計(jì)了一系列精心的實(shí)驗(yàn)。他們使用了Qwen2.5-32B-Coder-Instruct作為核心語(yǔ)言模型,這是一個(gè)擁有強(qiáng)大編程能力的大型語(yǔ)言模型。他們還采用了NYU CTF Agent作為基礎(chǔ)代理框架,移除了其中的"放棄"工具以鼓勵(lì)代理更深入地探索任務(wù)。
CTF(Capture The Flag)挑戰(zhàn)是評(píng)估網(wǎng)絡(luò)安全能力的常用基準(zhǔn)。典型的CTF挑戰(zhàn)包括任務(wù)描述和一些初始文件,AI助手需要分析材料并提交一個(gè)"flag"作為解決方案。研究團(tuán)隊(duì)使用了三個(gè)CTF基準(zhǔn)數(shù)據(jù)集:
1. InterCode CTF:包含100個(gè)來(lái)自高中生網(wǎng)絡(luò)安全競(jìng)賽PicoCTF的任務(wù)。研究者排除了10個(gè)無(wú)法解決的任務(wù),將剩余的90個(gè)分為開(kāi)發(fā)集(54個(gè)任務(wù))和測(cè)試集(36個(gè)任務(wù))。
2. NYU CTF:來(lái)自紐約大學(xué)年度網(wǎng)絡(luò)安全意識(shí)周(CSAW)的CTF競(jìng)賽,提供了200個(gè)不同的挑戰(zhàn)。
3. Cybench:由40個(gè)來(lái)自4個(gè)不同CTF競(jìng)賽的獨(dú)特挑戰(zhàn)組成,包括HackTheBox、SekaiCTF、Glacier和HKCert。
研究團(tuán)隊(duì)采用pass@k作為評(píng)估指標(biāo),這衡量的是從k次嘗試中至少有一次成功的概率。默認(rèn)情況下,他們?cè)O(shè)置k0=12(總嘗試次數(shù))、N=20(最大交互輪數(shù)),并報(bào)告帶有95%置信區(qū)間的平均pass@k分?jǐn)?shù)。
四、驚人的實(shí)驗(yàn)結(jié)果
當(dāng)研究團(tuán)隊(duì)開(kāi)始測(cè)試不同自由度的效果時(shí),他們發(fā)現(xiàn)了一些令人震驚的結(jié)果。
首先,簡(jiǎn)單的"重復(fù)采樣"和"增加最大交互輪數(shù)"確實(shí)能顯著提高性能。在InterCode CTF測(cè)試集上,將重復(fù)次數(shù)從1增加到10,成功率(pass@k)從約0.5提高到0.8左右;同樣,將最大交互輪數(shù)從10增加到30,也帶來(lái)了明顯的性能提升。然而,這些改進(jìn)確實(shí)呈現(xiàn)出收益遞減的趨勢(shì)——當(dāng)k或N變得更大時(shí),每增加一個(gè)單位帶來(lái)的改進(jìn)會(huì)越來(lái)越小。
更有趣的是"迭代提示詞改進(jìn)"。研究人員發(fā)現(xiàn),這種方法比簡(jiǎn)單的重復(fù)采樣更有效。通過(guò)讓AI反思并學(xué)習(xí)之前失敗的策略和軌跡,它能夠更高效地搜索解決方案。而且,這種方法計(jì)算成本相對(duì)較低,只需要一個(gè)額外的推理步驟來(lái)生成改進(jìn)的用戶提示。
"自我訓(xùn)練"的結(jié)果尤為驚人。研究團(tuán)隊(duì)收集了代理在開(kāi)發(fā)集上的33個(gè)成功軌跡,并用這些數(shù)據(jù)對(duì)核心模型進(jìn)行了5個(gè)周期和10個(gè)周期的微調(diào)。令人驚訝的是,即使只用這么少的訓(xùn)練樣本,經(jīng)過(guò)5個(gè)周期訓(xùn)練的模型也在測(cè)試集上表現(xiàn)出了域內(nèi)泛化能力,始終優(yōu)于基礎(chǔ)模型。然而,自我訓(xùn)練也帶來(lái)了權(quán)衡——當(dāng)模型訓(xùn)練更多周期時(shí),它的輸出多樣性會(huì)降低,這可能會(huì)影響在更大的k值下的性能。
最后,"迭代工作流改進(jìn)"也展示了顯著效果。即使使用相同的核心模型,通過(guò)迭代優(yōu)化代理的工作流程(如推理步驟、規(guī)劃和工具使用方式),研究人員能夠生成比原始工作流性能更好的新工作流。
但研究的真正突破來(lái)自于固定計(jì)算預(yù)算下的比較分析。研究團(tuán)隊(duì)假設(shè)攻擊者有8個(gè)H100 GPU小時(shí)(約合36美元)的計(jì)算預(yù)算,比較了五種自由度在有狀態(tài)和無(wú)狀態(tài)環(huán)境中的表現(xiàn)。結(jié)果顯示,在這一相對(duì)較小的預(yù)算內(nèi),無(wú)狀態(tài)環(huán)境中的性能提升可以超過(guò)40%!
這些發(fā)現(xiàn)令人警醒:即使是最基礎(chǔ)的攻擊者,只需要很小的計(jì)算投資,就能顯著提高AI助手的網(wǎng)絡(luò)安全攻擊能力,而且不需要任何外部幫助。
五、研究啟示與未來(lái)展望
這項(xiàng)研究給我們帶來(lái)了幾個(gè)重要啟示。
首先,小型計(jì)算預(yù)算就能帶來(lái)實(shí)質(zhì)性的性能提升。這意味著,即使是資源有限的攻擊者也能顯著提高AI助手的網(wǎng)絡(luò)安全攻擊能力。在無(wú)狀態(tài)環(huán)境中,性能提升甚至可以超過(guò)40%,而成本僅為36美元左右。這凸顯了將這種動(dòng)態(tài)性納入風(fēng)險(xiǎn)評(píng)估的重要性。
其次,迭代提示詞改進(jìn)展現(xiàn)出最高的風(fēng)險(xiǎn)潛力,但增加重復(fù)次數(shù)或代理交互輪數(shù)也帶來(lái)顯著收益。這突顯了基于重復(fù)采樣的風(fēng)險(xiǎn)評(píng)估的局限性——它們無(wú)法完全捕捉代理的真實(shí)威脅潛力,因?yàn)榧词故腔镜奶崾驹~改進(jìn)策略也能輕松超越簡(jiǎn)單的重復(fù)采樣。
第三,有狀態(tài)和無(wú)狀態(tài)環(huán)境之間的風(fēng)險(xiǎn)潛力差異很大。部署前的操作(如自我訓(xùn)練和迭代工作流改進(jìn))通常計(jì)算密集型,因?yàn)樗鼈冃枰粽呦仁占_(kāi)發(fā)集,然后反復(fù)運(yùn)行超參數(shù)搜索和評(píng)估。在有限的計(jì)算預(yù)算下,主要風(fēng)險(xiǎn)來(lái)自推理時(shí)的操作,這些操作通常只在無(wú)狀態(tài)環(huán)境中可行。這一區(qū)別強(qiáng)調(diào)了需要針對(duì)不同環(huán)境進(jìn)行單獨(dú)的風(fēng)險(xiǎn)評(píng)估。
研究人員也指出,他們只是觸及了攻擊者可能進(jìn)行的修改的表面。在現(xiàn)實(shí)世界中,攻擊者往往擁有更多高級(jí)能力:他們可以添加網(wǎng)頁(yè)瀏覽工具、手動(dòng)改進(jìn)初始信息、使用強(qiáng)化學(xué)習(xí)進(jìn)行自我訓(xùn)練,或采用更好的探索方法。這項(xiàng)研究的主要目標(biāo)是展示,即使是相對(duì)較低的計(jì)算預(yù)算和簡(jiǎn)單的方法,也能在多個(gè)自由度上實(shí)現(xiàn)性能提升。
總的來(lái)說(shuō),這項(xiàng)研究強(qiáng)調(diào)了網(wǎng)絡(luò)安全評(píng)估必須考慮這些動(dòng)態(tài)因素。如果——正如研究者發(fā)現(xiàn)的——網(wǎng)絡(luò)安全能力可以使用僅8個(gè)GPU小時(shí)或不到36美元的計(jì)算資源提高40%,那么將這些修改納入考慮的動(dòng)態(tài)風(fēng)險(xiǎn)評(píng)估必須成為任何前沿網(wǎng)絡(luò)安全風(fēng)險(xiǎn)評(píng)估框架的關(guān)鍵組成部分。
這對(duì)各方都有重要啟示。對(duì)于AI系統(tǒng)開(kāi)發(fā)者來(lái)說(shuō),這意味著安全審計(jì)不應(yīng)只考慮靜態(tài)場(chǎng)景,而應(yīng)包括攻擊者可能的改進(jìn)路徑。對(duì)于政策制定者來(lái)說(shuō),這表明在評(píng)估AI系統(tǒng)風(fēng)險(xiǎn)時(shí),需要考慮到可預(yù)見(jiàn)的修改和一定計(jì)算閾值內(nèi)的微調(diào)。對(duì)于普通用戶和組織來(lái)說(shuō),這強(qiáng)調(diào)了持續(xù)更新網(wǎng)絡(luò)安全防御的重要性,因?yàn)楣粽叩哪芰赡軙?huì)隨著時(shí)間的推移而顯著提升。
好文章,需要你的鼓勵(lì)
新加坡國(guó)立大學(xué)研究團(tuán)隊(duì)開(kāi)發(fā)了SPIRAL框架,通過(guò)讓AI與自己對(duì)弈零和游戲來(lái)提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡(jiǎn)單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無(wú)需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開(kāi)發(fā)的GIGA-ToF技術(shù)通過(guò)融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問(wèn)題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺(jué)解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過(guò)對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺(jué)語(yǔ)言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無(wú)法有效利用視覺(jué)信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過(guò)動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語(yǔ)言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。