在網(wǎng)絡(luò)安全日益重要的今天,每天都有成千上萬(wàn)的軟件漏洞被發(fā)現(xiàn),就像醫(yī)院里不斷涌入的病人一樣。但是,給這些漏洞評(píng)定危險(xiǎn)等級(jí)(就像給病人分診輕重緩急)卻是一個(gè)既費(fèi)時(shí)又費(fèi)力的過(guò)程?,F(xiàn)在,盧森堡計(jì)算機(jī)事件響應(yīng)中心(CIRCL)的研究團(tuán)隊(duì)帶來(lái)了一個(gè)革命性的解決方案——他們開發(fā)了一個(gè)名為VLAI的人工智能系統(tǒng),能夠僅僅通過(guò)閱讀漏洞的文字描述,就立即判斷出它的危險(xiǎn)程度。
這項(xiàng)研究由CIRCL的兩位研究員Cédric Bonhomme和Alexandre Dulaunoy共同完成,于2025年7月4日發(fā)表在計(jì)算機(jī)科學(xué)領(lǐng)域的權(quán)威預(yù)印本平臺(tái)arXiv上。感興趣的讀者可以通過(guò)arXiv:2507.03607v1來(lái)訪問(wèn)完整論文。這項(xiàng)工作不僅在學(xué)術(shù)界引起了廣泛關(guān)注,更重要的是,它已經(jīng)被實(shí)際部署到了真實(shí)的網(wǎng)絡(luò)安全服務(wù)中,為全球的網(wǎng)絡(luò)安全專家提供實(shí)時(shí)幫助。
要理解這項(xiàng)研究的重要性,我們需要先了解當(dāng)前網(wǎng)絡(luò)安全面臨的挑戰(zhàn)。每當(dāng)發(fā)現(xiàn)一個(gè)新的軟件漏洞時(shí),安全專家需要使用一套復(fù)雜的評(píng)分系統(tǒng)(稱為CVSS,通用漏洞評(píng)分系統(tǒng))來(lái)判斷這個(gè)漏洞的嚴(yán)重程度。這個(gè)過(guò)程就像醫(yī)生診斷病情一樣,需要考慮多個(gè)因素:漏洞能否被遠(yuǎn)程利用、是否需要特殊權(quán)限、會(huì)造成什么樣的影響等等。然而,這種人工評(píng)估往往需要幾天甚至幾周的時(shí)間,而在這個(gè)等待期間,網(wǎng)絡(luò)管理員們必須在沒(méi)有明確指導(dǎo)的情況下決定優(yōu)先修復(fù)哪些漏洞。
研究團(tuán)隊(duì)的解決方案就像是為網(wǎng)絡(luò)安全領(lǐng)域培養(yǎng)了一個(gè)"速讀醫(yī)生"。他們使用了一種名為RoBERTa的先進(jìn)人工智能模型作為基礎(chǔ),這種模型原本就擅長(zhǎng)理解人類語(yǔ)言的細(xì)微差別。然后,他們收集了超過(guò)60萬(wàn)個(gè)真實(shí)世界的漏洞案例,包括這些漏洞的文字描述和最終的危險(xiǎn)等級(jí)評(píng)分,用這些數(shù)據(jù)來(lái)訓(xùn)練AI系統(tǒng)。就像教一個(gè)醫(yī)學(xué)生通過(guò)閱讀病癥描述來(lái)快速判斷病情輕重一樣,這個(gè)AI系統(tǒng)學(xué)會(huì)了從漏洞描述中識(shí)別關(guān)鍵信息,并據(jù)此預(yù)測(cè)危險(xiǎn)程度。
這個(gè)數(shù)據(jù)集的構(gòu)建過(guò)程本身就是一個(gè)工程奇跡。研究團(tuán)隊(duì)從多個(gè)權(quán)威來(lái)源收集信息,包括官方的CVE程序(這是全球最主要的漏洞數(shù)據(jù)庫(kù))、GitHub安全公告、Python包安全公告,以及來(lái)自紅帽、思科和美國(guó)網(wǎng)絡(luò)安全局等組織的安全通告。這些數(shù)據(jù)源就像是不同醫(yī)院的病歷檔案,每個(gè)都有自己的特點(diǎn)和側(cè)重點(diǎn)。CVE程序提供了標(biāo)準(zhǔn)化的漏洞描述和官方評(píng)分,GitHub安全公告涵蓋了開源軟件中的安全問(wèn)題,而各廠商的安全通告則提供了更詳細(xì)的技術(shù)信息。
整個(gè)系統(tǒng)的運(yùn)行過(guò)程就像是一條高度自動(dòng)化的生產(chǎn)線。首先,系統(tǒng)會(huì)從各種來(lái)源持續(xù)收集新的安全公告,這個(gè)過(guò)程每小時(shí)進(jìn)行一次,確保信息的及時(shí)性。然后,每天系統(tǒng)會(huì)將收集到的數(shù)據(jù)整理成標(biāo)準(zhǔn)格式,生成一個(gè)訓(xùn)練數(shù)據(jù)集。這個(gè)數(shù)據(jù)集不僅會(huì)用于訓(xùn)練AI模型,還會(huì)公開發(fā)布到Hugging Face平臺(tái)上,供其他研究人員和開發(fā)者使用。
訓(xùn)練過(guò)程是整個(gè)系統(tǒng)的核心環(huán)節(jié)。研究團(tuán)隊(duì)使用了兩塊強(qiáng)大的NVIDIA L40S圖形處理器,每塊都配備了48GB的顯存,來(lái)處理這個(gè)龐大的數(shù)據(jù)集。訓(xùn)練過(guò)程就像是讓AI學(xué)生反復(fù)練習(xí)閱讀理解題——系統(tǒng)會(huì)讀取漏洞描述,然后嘗試預(yù)測(cè)其危險(xiǎn)等級(jí),如果預(yù)測(cè)錯(cuò)誤,就會(huì)調(diào)整自己的判斷標(biāo)準(zhǔn)。這個(gè)過(guò)程重復(fù)了5輪,每輪都會(huì)處理約55萬(wàn)個(gè)訓(xùn)練樣本,整個(gè)訓(xùn)練過(guò)程大約需要6個(gè)小時(shí)才能完成。
AI系統(tǒng)的架構(gòu)相對(duì)簡(jiǎn)單但非常有效。它基于RoBERTa模型,這是一種經(jīng)過(guò)大量文本訓(xùn)練的語(yǔ)言理解模型,就像是一個(gè)精通多種語(yǔ)言的翻譯專家。在這個(gè)基礎(chǔ)上,研究團(tuán)隊(duì)添加了一個(gè)分類層,專門用于將漏洞描述分類為四個(gè)危險(xiǎn)等級(jí):低、中、高、嚴(yán)重。系統(tǒng)會(huì)將漏洞描述轉(zhuǎn)換成數(shù)字序列(最多512個(gè)標(biāo)記),然后通過(guò)復(fù)雜的神經(jīng)網(wǎng)絡(luò)處理,最終輸出每個(gè)危險(xiǎn)等級(jí)的概率分?jǐn)?shù)。
為了評(píng)估系統(tǒng)的準(zhǔn)確性,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)特別有意思的實(shí)驗(yàn)。他們選擇了一批剛剛發(fā)布但尚未獲得官方危險(xiǎn)等級(jí)評(píng)分的漏洞,讓AI系統(tǒng)進(jìn)行預(yù)測(cè),然后等待官方評(píng)分出來(lái)后進(jìn)行對(duì)比。結(jié)果顯示,AI系統(tǒng)的預(yù)測(cè)準(zhǔn)確率達(dá)到了85%,這意味著在絕大多數(shù)情況下,AI給出的危險(xiǎn)等級(jí)都與人類專家的最終判斷一致。即使在不完全匹配的15%情況下,AI的預(yù)測(cè)通常也只是偏差一個(gè)等級(jí),比如將"高危"預(yù)測(cè)為"嚴(yán)重",很少出現(xiàn)完全錯(cuò)誤的判斷。
這個(gè)系統(tǒng)的實(shí)際應(yīng)用效果令人印象深刻。當(dāng)一個(gè)新的漏洞被發(fā)現(xiàn)時(shí),網(wǎng)絡(luò)安全專家只需要將漏洞描述輸入系統(tǒng),幾秒鐘內(nèi)就能得到一個(gè)初步的危險(xiǎn)等級(jí)評(píng)估。比如,如果輸入"緩沖區(qū)溢出漏洞允許遠(yuǎn)程代碼執(zhí)行并獲取根權(quán)限"這樣的描述,系統(tǒng)會(huì)立即識(shí)別出"遠(yuǎn)程代碼執(zhí)行"和"根權(quán)限"這些關(guān)鍵詞,并以98%的置信度將其分類為"嚴(yán)重"等級(jí)。這種快速響應(yīng)能力對(duì)于需要處理大量漏洞信息的安全團(tuán)隊(duì)來(lái)說(shuō)具有巨大價(jià)值。
系統(tǒng)的部署架構(gòu)也經(jīng)過(guò)了精心設(shè)計(jì)。研究團(tuán)隊(duì)開發(fā)了一個(gè)名為ML-Gateway的輕量級(jí)服務(wù)器,專門用于在本地環(huán)境中運(yùn)行AI模型。這個(gè)設(shè)計(jì)確保了所有的漏洞信息都在內(nèi)部處理,不會(huì)泄露給外部服務(wù)提供商,這對(duì)于處理敏感安全信息來(lái)說(shuō)至關(guān)重要。同時(shí),系統(tǒng)還提供了完整的API接口和文檔,使得其他開發(fā)者可以輕松地將這個(gè)AI功能集成到自己的安全工具中。
值得特別提到的是,整個(gè)項(xiàng)目都采用了開源的方式。訓(xùn)練好的模型、數(shù)據(jù)集、訓(xùn)練工具都可以在Hugging Face平臺(tái)上免費(fèi)獲取,任何人都可以下載使用或者基于這些資源進(jìn)行二次開發(fā)。這種開放的態(tài)度不僅促進(jìn)了學(xué)術(shù)研究的發(fā)展,也為整個(gè)網(wǎng)絡(luò)安全行業(yè)提供了寶貴的資源。
當(dāng)然,這個(gè)系統(tǒng)也不是完美無(wú)缺的。研究團(tuán)隊(duì)坦誠(chéng)地指出了幾個(gè)潛在的風(fēng)險(xiǎn)和限制。首先,由于系統(tǒng)完全依賴于文字描述來(lái)判斷危險(xiǎn)程度,惡意的漏洞報(bào)告者可能會(huì)故意使用模糊或誤導(dǎo)性的語(yǔ)言來(lái)影響AI的判斷。比如,他們可能會(huì)避免使用"遠(yuǎn)程代碼執(zhí)行"這樣的關(guān)鍵詞,或者用更模糊的表述來(lái)掩蓋漏洞的真實(shí)嚴(yán)重程度。
另外,就像任何AI系統(tǒng)一樣,這個(gè)模型也可能會(huì)反映訓(xùn)練數(shù)據(jù)中存在的偏見(jiàn)。如果某些類型的漏洞在歷史數(shù)據(jù)中被低估或高估,模型可能會(huì)學(xué)習(xí)到這些偏見(jiàn)并在新的預(yù)測(cè)中重復(fù)這些錯(cuò)誤。因此,研究團(tuán)隊(duì)強(qiáng)調(diào),這個(gè)AI系統(tǒng)應(yīng)該被視為輔助工具,而不是人類專家判斷的替代品。
為了解決這些問(wèn)題,研究團(tuán)隊(duì)提出了幾個(gè)改進(jìn)方向。首先,他們計(jì)劃增加模型的可解釋性,讓用戶能夠看到AI在做出判斷時(shí)重點(diǎn)關(guān)注了哪些詞語(yǔ)或短語(yǔ)。這就像是讓醫(yī)生不僅給出診斷結(jié)果,還要解釋他是根據(jù)哪些癥狀做出的判斷。其次,他們希望將模型擴(kuò)展到預(yù)測(cè)完整的CVSS評(píng)分向量,而不僅僅是危險(xiǎn)等級(jí)分類,這將提供更詳細(xì)和精確的風(fēng)險(xiǎn)評(píng)估。
研究團(tuán)隊(duì)還看到了這項(xiàng)技術(shù)在其他網(wǎng)絡(luò)安全領(lǐng)域的應(yīng)用潛力。比如,可以將類似的方法應(yīng)用到威脅情報(bào)分析平臺(tái),幫助自動(dòng)分析和分類各種安全事件報(bào)告。他們還計(jì)劃開發(fā)多語(yǔ)言版本,使得這個(gè)工具能夠處理中文、日語(yǔ)等非英語(yǔ)的漏洞描述,這對(duì)于全球化的網(wǎng)絡(luò)安全防護(hù)來(lái)說(shuō)具有重要意義。
從技術(shù)發(fā)展的角度來(lái)看,這項(xiàng)研究代表了AI技術(shù)在網(wǎng)絡(luò)安全領(lǐng)域應(yīng)用的一個(gè)重要里程碑。它不僅展示了現(xiàn)代自然語(yǔ)言處理技術(shù)的強(qiáng)大能力,也為如何將學(xué)術(shù)研究成果轉(zhuǎn)化為實(shí)際應(yīng)用提供了一個(gè)優(yōu)秀的范例。更重要的是,這個(gè)系統(tǒng)的開源特性和持續(xù)更新機(jī)制,為整個(gè)網(wǎng)絡(luò)安全社區(qū)提供了一個(gè)可以共同改進(jìn)和完善的平臺(tái)。
目前,這個(gè)AI系統(tǒng)已經(jīng)被集成到了CIRCL的Vulnerability-Lookup服務(wù)中,每天為全球的網(wǎng)絡(luò)安全專家提供實(shí)時(shí)的漏洞危險(xiǎn)等級(jí)評(píng)估。用戶可以通過(guò)該服務(wù)的網(wǎng)站查詢?nèi)魏我阎┒吹男畔ⅲ绻俜皆u(píng)分還未發(fā)布,系統(tǒng)會(huì)自動(dòng)顯示AI預(yù)測(cè)的危險(xiǎn)等級(jí),幫助用戶做出更好的安全決策。
說(shuō)到底,這項(xiàng)研究解決了網(wǎng)絡(luò)安全領(lǐng)域一個(gè)實(shí)際而緊迫的問(wèn)題:如何在官方評(píng)分發(fā)布之前快速判斷漏洞的危險(xiǎn)程度。通過(guò)將先進(jìn)的AI技術(shù)與大規(guī)模的實(shí)際數(shù)據(jù)相結(jié)合,研究團(tuán)隊(duì)創(chuàng)造了一個(gè)既實(shí)用又準(zhǔn)確的解決方案。雖然這個(gè)系統(tǒng)還不能完全替代人類專家的判斷,但它確實(shí)為網(wǎng)絡(luò)安全防護(hù)提供了一個(gè)強(qiáng)有力的輔助工具。
對(duì)于普通互聯(lián)網(wǎng)用戶來(lái)說(shuō),雖然他們可能不會(huì)直接使用這個(gè)AI系統(tǒng),但這項(xiàng)技術(shù)的廣泛應(yīng)用將間接提高整個(gè)網(wǎng)絡(luò)環(huán)境的安全性。當(dāng)網(wǎng)絡(luò)管理員和安全專家能夠更快速、更準(zhǔn)確地識(shí)別和修復(fù)高危漏洞時(shí),我們所有人都能從中受益。這就像是有了更高效的疫苗分發(fā)系統(tǒng),雖然普通人不需要了解具體的技術(shù)細(xì)節(jié),但整個(gè)社會(huì)的健康水平都會(huì)得到提升。
這項(xiàng)研究也為未來(lái)的網(wǎng)絡(luò)安全AI應(yīng)用指明了方向。隨著漏洞數(shù)量的不斷增加和攻擊手段的日益復(fù)雜,傳統(tǒng)的人工分析方法已經(jīng)難以應(yīng)對(duì)。通過(guò)AI技術(shù)的幫助,我們可以建立更加智能和高效的安全防護(hù)體系,讓網(wǎng)絡(luò)空間變得更加安全可靠。
Q&A
Q1:VLAI是什么?它能做什么? A:VLAI是由盧森堡計(jì)算機(jī)事件響應(yīng)中心開發(fā)的AI系統(tǒng),基于RoBERTa模型。它能夠僅通過(guò)閱讀軟件漏洞的文字描述,就立即判斷出漏洞的危險(xiǎn)等級(jí)(低、中、高、嚴(yán)重),準(zhǔn)確率達(dá)到82.8%。這個(gè)系統(tǒng)主要用于在官方評(píng)分發(fā)布之前,為網(wǎng)絡(luò)安全專家提供快速的漏洞風(fēng)險(xiǎn)評(píng)估。
Q2:VLAI會(huì)不會(huì)取代網(wǎng)絡(luò)安全專家的工作? A:不會(huì)完全取代,但會(huì)大大提高工作效率。研究團(tuán)隊(duì)明確表示,VLAI應(yīng)該被視為輔助工具,而不是人類專家判斷的替代品。它的主要作用是在官方評(píng)分發(fā)布之前提供初步的危險(xiǎn)等級(jí)評(píng)估,幫助安全專家更快地確定優(yōu)先處理的漏洞,最終的決策仍需要人類專家的參與。
Q3:普通人可以使用VLAI嗎?如何使用? A:可以間接使用。VLAI已經(jīng)集成到CIRCL的Vulnerability-Lookup服務(wù)中(網(wǎng)址:https://vulnerability-lookup.org/),任何人都可以免費(fèi)查詢漏洞信息。對(duì)于技術(shù)開發(fā)者,完整的模型和數(shù)據(jù)集都在Hugging Face平臺(tái)上開源發(fā)布,可以下載使用或進(jìn)行二次開發(fā)。
好文章,需要你的鼓勵(lì)
北航團(tuán)隊(duì)推出Easy Dataset框架,通過(guò)直觀的圖形界面和角色驅(qū)動(dòng)的生成方法,讓普通用戶能夠輕松將各種格式文檔轉(zhuǎn)換為高質(zhì)量的AI訓(xùn)練數(shù)據(jù)。該工具集成了智能文檔解析、混合分塊策略和個(gè)性化問(wèn)答生成功能,在金融領(lǐng)域?qū)嶒?yàn)中顯著提升了AI模型的專業(yè)表現(xiàn),同時(shí)保持通用能力。項(xiàng)目已開源并獲得超過(guò)9000顆GitHub星標(biāo)。
中國(guó)電信研究院等機(jī)構(gòu)聯(lián)合開發(fā)的xVerify系統(tǒng),專門解決復(fù)雜AI推理模型的評(píng)估難題。該系統(tǒng)能夠準(zhǔn)確判斷包含多步推理過(guò)程的AI輸出,在準(zhǔn)確率和效率方面均超越現(xiàn)有方法,為AI評(píng)估領(lǐng)域提供了重要突破。
昆侖公司Skywork AI團(tuán)隊(duì)開發(fā)的Skywork R1V模型,成功將文本推理能力擴(kuò)展到視覺(jué)領(lǐng)域。該模型僅用380億參數(shù)就實(shí)現(xiàn)了與大型閉源模型相媲美的多模態(tài)推理性能,在MMMU測(cè)試中達(dá)到69.0分,在MathVista獲得67.5分,同時(shí)保持了優(yōu)秀的文本推理能力。研究團(tuán)隊(duì)采用高效的多模態(tài)遷移、混合優(yōu)化框架和自適應(yīng)推理鏈蒸餾三項(xiàng)核心技術(shù),成功實(shí)現(xiàn)了視覺(jué)理解與邏輯推理的完美結(jié)合,并將所有代碼和權(quán)重完全開源。
Essential AI團(tuán)隊(duì)通過(guò)系統(tǒng)研究發(fā)現(xiàn),大語(yǔ)言模型的反思能力在預(yù)訓(xùn)練階段就開始萌芽,而非傳統(tǒng)認(rèn)為的僅在強(qiáng)化學(xué)習(xí)后出現(xiàn)。研究團(tuán)隊(duì)對(duì)OLMo-2等模型的240個(gè)檢查點(diǎn)進(jìn)行測(cè)試,發(fā)現(xiàn)簡(jiǎn)單的"Wait,"觸發(fā)詞就能激發(fā)模型識(shí)別和糾正推理錯(cuò)誤的能力。這種反思能力隨預(yù)訓(xùn)練規(guī)模增長(zhǎng)而提升,在數(shù)學(xué)、編程、邏輯推理等六個(gè)領(lǐng)域都有體現(xiàn),為AI系統(tǒng)的高效開發(fā)提供了新思路。