av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 TECHNIQUERAG:一種創(chuàng)新方法,讓安全專家更準確找出網(wǎng)絡威脅技術

TECHNIQUERAG:一種創(chuàng)新方法,讓安全專家更準確找出網(wǎng)絡威脅技術

2025-05-23 07:39
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-23 07:39 ? 科技行者

網(wǎng)絡安全是一場永無休止的攻與防較量。在這個戰(zhàn)場上,準確識別攻擊者使用的技術至關重要,就像醫(yī)生需要精準診斷病癥才能開出有效藥方。2025年5月,卡塔爾計算研究所的艾哈邁德·萊克薩伊斯(Ahmed Lekssays)、獨立研究員烏薩夫·舒克拉(Utsav Shukla)以及卡塔爾計算研究所的胡斯雷夫·塔哈·森卡爾(Husrev Taha Sencar)和穆罕默德·里茲萬·帕爾維茲(Md Rizwan Parvez)在論文《TECHNIQUERAG: Retrieval Augmented Generation for Adversarial Technique Annotation in Cyber Threat Intelligence Text》中,提出了一種創(chuàng)新的解決方案。這項研究發(fā)表于arXiv預印本平臺(arXiv:2505.11988v1),為安全分析師提供了更精準的工具,幫助他們在復雜的安全報告中識別攻擊者的技術手段。

一、為什么我們需要自動識別攻擊技術?

想象一下,你是一名網(wǎng)絡安全分析師,每天面對大量的安全報告和事件描述。這些文本中隱藏著攻擊者使用的戰(zhàn)術、技術和程序(TTPs)信息,但要手動識別它們卻異常耗時且需要專業(yè)知識。就像在厚厚的偵探小說中找出關鍵線索一樣,這項工作既繁瑣又容易出錯。

MITRE ATT&CK框架已成為網(wǎng)絡安全行業(yè)的標準,它提供了一個全面的知識庫,用于分類和映射攻擊者的行為。然而,將模糊的威脅描述與標準化的ATT&CK(子)技術對應起來是一項挑戰(zhàn)。例如,當你看到"Monero礦工腳本從TeamTNT的服務器下載,并通過使用存儲在'/tmp/TeamTNT'的私鑰以'root'用戶身份建立的SSH會話管道到'bash'"這樣的描述時,你需要識別出多個相關技術,如"T1098.004:SSH授權密鑰"、"T1195:供應鏈攻擊"、"T1059.004:Unix Shell"等。

現(xiàn)有的自動識別方法面臨一個根本性的權衡:它們要么依賴通用模型(準確性有限),要么需要資源密集型管道(依賴大量標記數(shù)據(jù)和特定任務優(yōu)化)。這就像是在選擇快速但粗略的草圖和精細但耗時的油畫之間做選擇。而在專業(yè)領域中,像網(wǎng)絡安全這樣的專業(yè)領域中,我們很少有足夠的資源來支持后者。

二、TECHNIQUERAG:構建一座通用性和專業(yè)性之間的橋梁

TECHNIQUERAG像是一位經(jīng)驗豐富的偵探助手,它能夠在有限的線索和資源下,幫助分析師快速定位攻擊技術。這個框架采用了一種領域特定的檢索增強生成(RAG)方法,巧妙地將三個關鍵部分組合在一起:現(xiàn)成的檢索器、經(jīng)過指令微調的大語言模型(LLM)和最少量的文本-技術配對數(shù)據(jù)。

想象一下,這就像是一個三步法烹飪菜肴:首先,我們使用現(xiàn)成的食材(檢索器從現(xiàn)有數(shù)據(jù)中找出相關例子);然后,我們有一位經(jīng)驗豐富的廚師(LLM重新排序這些例子);最后,我們有一本精簡的食譜(少量的文本-技術配對數(shù)據(jù)用于微調生成模型)。

TECHNIQUERAG通過兩個創(chuàng)新點解決了現(xiàn)有方法的局限性:

首先,它巧妙地緩解了數(shù)據(jù)稀缺問題。傳統(tǒng)方法需要大量的標記數(shù)據(jù)來訓練整個系統(tǒng),但TECHNIQUERAG只對生成組件進行微調,僅使用有限的領域內(nèi)示例,從而避免了對檢索組件進行資源密集型的訓練。這就像是我們不需要從頭開始訓練一名偵探,而只需要教會他如何使用現(xiàn)有的工具和少量示例進行推理。

其次,它增強了檢索質量和領域特定性。雖然常規(guī)的RAG方法通過耦合檢索和生成來減少"幻覺"(AI生成不存在的內(nèi)容),但它們對通用檢索器的依賴往往會引入噪聲候選項,從而限制了領域特定的精確性。TECHNIQUERAG通過零樣本LLM重新排序來解決這個問題,明確地將檢索到的候選項與對抗性技術對齊。這就像是讓一位專家對初步搜集的線索進行二次篩選,確保它們真正與案件相關。

三、TECHNIQUERAG如何工作?

讓我們深入了解TECHNIQUERAG的工作原理,就像拆解一臺精密儀器看它內(nèi)部的齒輪如何運轉。

首先,我們需要理解問題:給定一段安全文本(如攻擊行為描述),我們的目標是預測相應的對抗性(子)技術,這些技術來自MITRE ATT&CK框架中定義的標準集合。

TECHNIQUERAG框架包含三個主要組件:檢索器、重新排序器和生成器。

**檢索器:找出相似的案例**

檢索器的工作就像是在案例檔案庫中查找類似案例。當收到一個查詢安全文本時,檢索器會在已有的數(shù)據(jù)集中找出最相關的文本和相應的技術對。比如,當看到一個描述使用PowerShell下載文件的文本時,它會找出過去類似的例子,如"PowerShell.exe從45.33.12.x下載文件"及其對應的技術標簽(如T1059.001、T1105)。

TECHNIQUERAG可以使用任何現(xiàn)成的檢索器,不論是基于關鍵詞的(如BM25)還是基于語義的(如預訓練的句子嵌入模型)。這種靈活性使系統(tǒng)能夠適應不同的場景和資源限制。

**重新排序器:專家審核初步結果**

檢索出初步的候選項后,LLM重新排序器會對它們進行更精細的評估。這不是簡單的排序,而是一次深入的分析過程,考慮到安全領域的特殊需求。

重新排序器面臨三個關鍵挑戰(zhàn),并通過巧妙的提示工程來解決:

首先,安全文本中很少提供技術映射的明確理由。例如,文本"惡意軟件連接到C2使用自定義編碼"暗示了命令與控制(TA0011)和防御規(guī)避(TA0005)策略,但并未直接說明這種關系。重新排序器指導LLM通過結構化推理來分解這些隱含連接,將文本拆解為不同的攻擊步驟或階段,識別任何隱含或明確提到的行為。

其次,安全活動通常涉及多種技術。重新排序器確保通過并行評估進行全面覆蓋,指導LLM探索每種可能的技術。對于同一個查詢"惡意軟件連接到C2使用自定義編碼",它會分析主要技術(T1071應用層協(xié)議,因為直接的C2通信行為)和次要技術(T1027混淆文件或信息,因為使用自定義編碼進行規(guī)避)。

第三,某些技術有多個子技術,而有些則沒有。TECHNIQUERAG評估它們之間的細微差異,來指導整體排名。它不僅分析主要技術,還評估特定的子技術是否適用,比如對編碼PowerShell腳本的查詢,會識別出PowerShell的精確子技術T1059.001。

這種結構化、推理式的方法使重新排序器能夠重新排列候選項,同時保持與ATT&CK分類法的一致性,解決初始檢索中的模糊之處。

**生成器:產(chǎn)生最終答案**

生成器是系統(tǒng)的最后一環(huán),它接收查詢文本和重新排序后的候選項,然后生成最終的技術標注。生成器通過微調訓練,學習如何根據(jù)上下文生成最相關的技術。

這個過程就像是一位有經(jīng)驗的偵探,在檢查了所有證據(jù)和相似案例后,做出最終的判斷。生成器被設計為不僅關注文本的直接內(nèi)容,還考慮到示例中提供的上下文,從而減少"幻覺"并提高預測的準確性。

四、實驗設置與實施細節(jié)

研究團隊在三個安全基準數(shù)據(jù)集上測試了TECHNIQUERAG,這些數(shù)據(jù)集代表了不同的挑戰(zhàn)級別:Tram(單標簽,包含198個唯一技術)、Procedures(單標簽,包含488個唯一技術)和Expert(多標簽,包含290個唯一技術)。

作為檢索器,團隊使用了BM25,設置為檢索前40個結果,并選擇前3個用于增強。對于重新排序,他們使用了DeepSeek v3模型,處理批次大小為40,重疊為20。生成器則是一個8B參數(shù)的Ministral Instruct模型,通過LoRA方法進行微調。

為了全面評估TECHNIQUERAG的性能,研究團隊將其與多種基線方法進行比較:

基于檢索/排序的方法:包括NCE(用于對比領域特定學習)、Text2TTP(結合雙編碼器語義搜索和交叉編碼器重新排序)、基礎BM25檢索器和RankGPT重新排序框架。

基于生成的方法:包括強大的LLM模型如GPT-4、DeepSeek V3和Ministral 8B。對每個模型,團隊實現(xiàn)了直接提示和思維鏈方法與自反思。他們還比較了IntelEX,這是一種混合檢索和LLM判斷方法。

此外,研究團隊還實現(xiàn)了上述LLM的檢索增強版本,使用來自TECHNIQUERAG檢索和重新排序的相同示例。

五、令人印象深刻的實驗結果

實驗結果令人振奮,證明了TECHNIQUERAG的有效性和優(yōu)勢。

在技術級別預測方面,TECHNIQUERAG在Procedures數(shù)據(jù)集上取得了91.09%的F1分數(shù),遠超其他方法。在更具挑戰(zhàn)性的Expert數(shù)據(jù)集上,它達到了50.19%的F1分數(shù),與專有模型GPT-4o(RAG)的51.30%相當。當計算三個數(shù)據(jù)集上的平均F1分數(shù)時,TECHNIQUERAG達到了約80.76%,而GPT-4o(RAG)僅約58.11%。

在子技術級別預測方面,我們看到了類似的趨勢。TECHNIQUERAG在Procedures上保持領先(F1為88.11%,而NCE為73.74%),并在Expert上取得了與GPT-4o(RAG)相近的性能(42.22%比43.73%)。

多標簽預測任務證明比單標簽更具挑戰(zhàn)性。例如,GPT-4o在Procedure(單標簽)數(shù)據(jù)集上達到了76.75%的F1分數(shù),但在Expert(多標簽)數(shù)據(jù)集上僅為19.77%。雖然檢索增強生成提高了所有生成模型的性能,但開源LLM的提升仍然有限。

重新排序器的貢獻尤為突出。在Expert數(shù)據(jù)集上的排名方法比較中,TECHNIQUERAG的重新排序器在技術級別取得了47.2%的F1@1分數(shù),遠高于其他方法,如NCE(35.9%)和Text2TTP(35.1%)。

六、深入分析:TECHNIQUERAG的優(yōu)勢與局限性

TECHNIQUERAG方法的成功歸功于幾個關鍵因素的結合。

首先,它優(yōu)雅地解決了數(shù)據(jù)稀缺性問題。網(wǎng)絡安全領域特有的標記數(shù)據(jù)有限——盡管MITRE ATT&CK框架定義了550多種對抗性(子)技術,但公開可用的標記示例僅約10,000個。TECHNIQUERAG通過僅對生成組件進行微調,最大化了這些有限數(shù)據(jù)的使用。

其次,通過零樣本LLM重新排序,TECHNIQUERAG增強了領域特定性,而無需額外的訓練數(shù)據(jù)。普通LLM在排序對抗性(子)技術時面臨挑戰(zhàn),因為這需要區(qū)分可能在文本中共同出現(xiàn)且沒有明確指標的細微不同技術。TECHNIQUERAG通過結構化分解和明確推理解決了這一問題。

然而,研究也揭示了一些限制和挑戰(zhàn):

預測不足:模型通常能夠捕捉主要技術,但可能錯過同一攻擊模式中的相關技術。例如,識別T1055(進程注入)但錯過T1106(本機API)。

上下文錯誤:模型在區(qū)分同一策略族內(nèi)的類似技術時面臨困難,特別是命令和腳本解釋器技術(T1059.*)。它還可能錯過文本中隱含但未明確說明的技術。

層次問題:在處理父子技術關系時存在困難,有時會生成無效的子技術ID。

重新排序器限制:由于模糊查詢和復合語句,某些技術被遺漏,并通過傳播影響生成器。

技術相似性:難以區(qū)分具有重疊描述和關鍵詞的技術(如網(wǎng)絡釣魚相關技術T1598.003、T1566.002、T1204.001)。

類別不平衡的影響:模型性能受到數(shù)據(jù)不平衡的根本影響——在203種技術中,只有47種(23.2%)有超過50個訓練樣本。數(shù)據(jù)豐富的技術顯示出高精確度和召回率,而稀有技術則受到誤分類和預測不足的困擾。

七、TECHNIQUERAG對安全領域的意義

從MITRE ATT&CK框架中標注威脅情報文本中的對抗性技術是安全分析師每天必須執(zhí)行的手動和耗時任務。其自動化需要能夠在數(shù)百種可能性中準確識別技術和子技術的方法,同時處理復雜的安全術語、多樣的文本格式和有限的標記數(shù)據(jù)。

TECHNIQUERAG通過檢索增強微調方法有效地解決了這些挑戰(zhàn)。它不僅在技術性能上超越了現(xiàn)有方法,還提供了一個實用的框架,該框架可以利用有限的資源進行部署和使用。

對于網(wǎng)絡安全行業(yè),這意味著:

更高效的威脅情報處理:分析師可以更快地處理更多的報告,從文本中自動提取關鍵技術信息。

更一致的分析:減少依賴分析師個人專業(yè)知識的差異,提供更標準化的結果。

更好的知識共享:系統(tǒng)地映射技術可以改進組織間的信息共享和威脅情報的整合。

在不斷發(fā)展的網(wǎng)絡安全領域,TECHNIQUERAG代表了一個重要進步,將人工智能的最新進展應用于實際安全挑戰(zhàn),幫助防御者更好地理解和應對復雜的威脅形勢。

八、未來研究方向

盡管TECHNIQUERAG取得了顯著成果,但研究團隊也認識到了一些局限性和未來改進的方向:

數(shù)據(jù)平衡和覆蓋:獲取更加平衡的訓練數(shù)據(jù),特別是對于那些在現(xiàn)有數(shù)據(jù)集中代表性不足的技術。這就像是確保我們的偵探有足夠多樣的案例經(jīng)驗,涵蓋各種類型的犯罪手法。

上下文理解增強:改進模型在識別文本中隱含但未明確說明的技術方面的能力,這需要更深入的上下文理解和推理能力。

跨語言和跨格式支持:擴展框架以支持多語言威脅情報和各種文檔格式,增強其在國際網(wǎng)絡安全環(huán)境中的適用性。

這些改進將進一步增強TECHNIQUERAG框架的有效性和實用性,使其成為網(wǎng)絡安全社區(qū)中更加強大和全面的工具。

總的來說,TECHNIQUERAG不僅代表了一種技術創(chuàng)新,還為網(wǎng)絡安全領域中人工智能應用開辟了新的可能性。它展示了如何將先進的AI技術與領域專業(yè)知識相結合,創(chuàng)造出既精確又實用的解決方案,幫助防御者在不斷演變的網(wǎng)絡威脅形勢中保持領先地位。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-