這項(xiàng)由浙江大學(xué)張勝宇教授團(tuán)隊(duì)聯(lián)合廈門大學(xué)和上海交通大學(xué)研究人員共同完成的研究發(fā)表于2025年8月,論文題目為《HarmonyGuard: Toward Safety and Utility in Web Agents via Adaptive Policy Enhancement and Dual-Objective Optimization》。有興趣深入了解的讀者可以通過(guò)項(xiàng)目地址 https://github.com/YurunChen/HarmonyGuard 訪問(wèn)完整資料。這項(xiàng)研究首次系統(tǒng)性地解決了智能網(wǎng)絡(luò)代理在執(zhí)行任務(wù)時(shí)面臨的安全與效率平衡難題,為構(gòu)建更可靠的AI助手奠定了重要基礎(chǔ)。
在我們?nèi)粘I钪校珹I助手正變得越來(lái)越智能,它們可以幫我們?cè)诰€購(gòu)物、預(yù)訂機(jī)票、處理各種網(wǎng)絡(luò)事務(wù)。但是,這些智能代理就像是剛剛學(xué)會(huì)開(kāi)車的新手司機(jī),雖然能夠完成基本操作,卻可能在復(fù)雜路況中出現(xiàn)危險(xiǎn)駕駛行為。它們面臨著一個(gè)經(jīng)典的兩難選擇:要么過(guò)分謹(jǐn)慎導(dǎo)致效率低下,要么積極行動(dòng)卻可能觸發(fā)安全風(fēng)險(xiǎn)。
研究團(tuán)隊(duì)發(fā)現(xiàn),現(xiàn)有的AI網(wǎng)絡(luò)代理普遍存在兩個(gè)關(guān)鍵問(wèn)題。第一個(gè)問(wèn)題可以比作是"規(guī)則手冊(cè)過(guò)時(shí)"的困境。就像一本老舊的交通規(guī)則手冊(cè)無(wú)法應(yīng)對(duì)現(xiàn)代城市的復(fù)雜路況一樣,現(xiàn)有的安全策略往往來(lái)自靜態(tài)的文檔,無(wú)法及時(shí)響應(yīng)網(wǎng)絡(luò)環(huán)境中不斷出現(xiàn)的新威脅。第二個(gè)問(wèn)題則像是"開(kāi)車時(shí)的注意力分配"難題,司機(jī)需要同時(shí)關(guān)注安全駕駛和到達(dá)目的地,AI代理同樣需要在確保安全的同時(shí)高效完成任務(wù),這種平衡極其微妙。
為了解決這些挑戰(zhàn),研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)名為HarmonyGuard的多智能體協(xié)作框架。這個(gè)系統(tǒng)就像是為AI代理配備了一個(gè)經(jīng)驗(yàn)豐富的教練團(tuán)隊(duì),其中包含三個(gè)不同角色的"教練":負(fù)責(zé)執(zhí)行具體網(wǎng)絡(luò)任務(wù)的Web Agent(主要執(zhí)行者),負(fù)責(zé)制定和更新安全規(guī)則的Policy Agent(安全顧問(wèn)),以及負(fù)責(zé)優(yōu)化任務(wù)執(zhí)行效果的Utility Agent(效率顧問(wèn))。
一、自適應(yīng)策略增強(qiáng):讓安全規(guī)則與時(shí)俱進(jìn)
Policy Agent的工作原理就像一位勤奮的圖書(shū)館管理員,它需要從各種復(fù)雜的外部文檔中提取有用的安全規(guī)則,然后將這些規(guī)則整理成清晰、結(jié)構(gòu)化的指導(dǎo)手冊(cè)。這個(gè)過(guò)程包含三個(gè)核心步驟,每一步都經(jīng)過(guò)精心設(shè)計(jì)以確保最終得到的安全策略既全面又實(shí)用。
首先是文本提取階段,Policy Agent利用MCP(模型上下文協(xié)議)服務(wù)器提供的工具,從PDF文檔、網(wǎng)頁(yè)內(nèi)容或純文本文件中提取原始信息。這個(gè)過(guò)程就像考古學(xué)家仔細(xì)挖掘文物一樣,需要準(zhǔn)確識(shí)別和獲取每一份有價(jià)值的信息。接下來(lái)是策略精煉階段,Agent使用大型語(yǔ)言模型對(duì)提取的文本進(jìn)行語(yǔ)義理解,消除歧義,移除冗余內(nèi)容,并規(guī)范表達(dá)方式。這一步驟相當(dāng)于將考古發(fā)現(xiàn)的文物進(jìn)行清洗、分類和整理,確保每件物品都能清晰地傳達(dá)其歷史信息。
第三步是去重處理,通過(guò)計(jì)算語(yǔ)義相似度并利用大型語(yǔ)言模型識(shí)別重復(fù)條目,Agent能夠檢測(cè)并合并來(lái)自不同來(lái)源的相似或重復(fù)策略條目,確保知識(shí)庫(kù)中每條規(guī)則的獨(dú)特性。最后是結(jié)構(gòu)化轉(zhuǎn)換,將精煉和去重后的策略信息轉(zhuǎn)換為高度結(jié)構(gòu)化的數(shù)據(jù)模型。每條策略都包含策略ID、適用范圍、約束條件、風(fēng)險(xiǎn)級(jí)別等預(yù)定義字段,就像為每本書(shū)制作詳細(xì)的圖書(shū)卡片一樣。
更重要的是,Policy Agent不是一個(gè)靜態(tài)的系統(tǒng),而是具備動(dòng)態(tài)更新能力的智能體。當(dāng)Utility Agent在實(shí)時(shí)監(jiān)控過(guò)程中發(fā)現(xiàn)策略違規(guī)行為時(shí),它會(huì)為每個(gè)違規(guī)案例構(gòu)建相應(yīng)的違規(guī)參考資料,并將其映射到相關(guān)的策略條目進(jìn)行后續(xù)存儲(chǔ)。Policy Agent接收到這些違規(guī)參考后,會(huì)通過(guò)兩種核心機(jī)制來(lái)更新策略數(shù)據(jù)庫(kù)。
第一種機(jī)制是語(yǔ)義相似性過(guò)濾,采用基于格式塔模式匹配的啟發(fā)式語(yǔ)義相似性過(guò)濾方法。相似度得分超過(guò)85%的樣本會(huì)被移除,以確保違規(guī)數(shù)據(jù)的多樣性和代表性。這就像篩選考試題庫(kù)時(shí),要確保每道題目都有其獨(dú)特的考查點(diǎn),避免過(guò)度重復(fù)。第二種機(jī)制是分層有界隊(duì)列,為了應(yīng)對(duì)不斷演變的威脅形勢(shì),系統(tǒng)實(shí)施了基于威脅級(jí)別的可變長(zhǎng)度先進(jìn)先出隊(duì)列機(jī)制。隊(duì)列長(zhǎng)度根據(jù)威脅級(jí)別動(dòng)態(tài)調(diào)整,低、中、高風(fēng)險(xiǎn)威脅分別對(duì)應(yīng)不同的隊(duì)列長(zhǎng)度,確保高風(fēng)險(xiǎn)威脅保留更多違規(guī)參考資料并具有更長(zhǎng)的保留期。這種設(shè)計(jì)既提高了對(duì)關(guān)鍵威脅的響應(yīng)能力,又防止了對(duì)過(guò)時(shí)或低影響事件的過(guò)度擬合。
二、雙目標(biāo)優(yōu)化:在安全與效率間尋找最佳平衡
Utility Agent的核心能力體現(xiàn)在通過(guò)兩個(gè)階段實(shí)現(xiàn)雙目標(biāo)優(yōu)化:推理評(píng)估和推理修正。這個(gè)過(guò)程就像一位經(jīng)驗(yàn)豐富的駕駛教練,既要確保學(xué)員的駕駛安全,又要幫助他們高效到達(dá)目的地。
在評(píng)估策略方面,研究團(tuán)隊(duì)采用了一種巧妙的"二階馬爾可夫評(píng)估策略"。這種方法的設(shè)計(jì)理念類似于觀察一個(gè)人的行為模式,不僅要看他現(xiàn)在在做什么,還要考慮他上一步做了什么。具體來(lái)說(shuō),在約束馬爾可夫決策過(guò)程框架下,Utility Agent將網(wǎng)絡(luò)代理的推理序列定義為{r1, r2, ..., rt},在每個(gè)推理步驟t,評(píng)估僅依賴于當(dāng)前輸出rt和緊鄰的前一個(gè)輸出rt-1,這構(gòu)成了一個(gè)二階馬爾可夫過(guò)程。
這種評(píng)估策略的優(yōu)勢(shì)在于既能捕捉到時(shí)間上相鄰的違規(guī)行為模式,又避免了過(guò)多歷史依賴帶來(lái)的干擾。就像判斷一個(gè)司機(jī)的駕駛習(xí)慣時(shí),我們主要關(guān)注他連續(xù)的幾個(gè)動(dòng)作是否協(xié)調(diào)一致,而不需要回溯到很久之前的操作。從安全角度來(lái)看,網(wǎng)絡(luò)代理任務(wù)中的約束違規(guī)往往表現(xiàn)出短期時(shí)間連續(xù)性,比如在連續(xù)兩個(gè)推理步驟中產(chǎn)生高風(fēng)險(xiǎn)動(dòng)作。通過(guò)評(píng)估局部轉(zhuǎn)換(rt-1, rt),代理能夠有效捕捉這種時(shí)間相鄰的違規(guī)行為,同時(shí)避免整體安全評(píng)估的顯著損失。
在雙目標(biāo)決策階段,Utility Agent通過(guò)識(shí)別代理推理是否違反兩個(gè)目標(biāo)來(lái)評(píng)估失效情況:安全性和實(shí)用性。系統(tǒng)會(huì)判斷當(dāng)前推理是否違反策略或偏離任務(wù)目標(biāo)。給定推理序列{r1, r2, ..., rt},Utility Agent在每個(gè)推理步驟t評(píng)估兩個(gè)標(biāo)準(zhǔn),以確定當(dāng)前推理輸出是否違反策略或偏離任務(wù)目標(biāo)。這個(gè)評(píng)估過(guò)程用一個(gè)布爾指示向量來(lái)表示,其中R(rt | rt-1) ∈ {0, 1}?,向量分別指示策略違規(guī)和任務(wù)偏離的存在。
函數(shù)f^policy_θ和f^goal_θ是基于大型語(yǔ)言模型的評(píng)估器,返回布爾值以表示在推理步驟t-1和t之間是否發(fā)生了策略違規(guī)或目標(biāo)偏移。指示函數(shù)I(·)將評(píng)估結(jié)果映射到{0, 1},其中1表示檢測(cè)到問(wèn)題,0表示沒(méi)有問(wèn)題。這種聯(lián)合布爾評(píng)估使Utility Agent能夠在安全或?qū)嵱眯约s束被違反時(shí)及時(shí)檢測(cè)并響應(yīng)。
當(dāng)檢測(cè)到策略違規(guī)或任務(wù)偏離時(shí),Utility Agent會(huì)啟動(dòng)元認(rèn)知能力機(jī)制。這個(gè)過(guò)程就像是給AI代理安裝了一個(gè)"內(nèi)省反思系統(tǒng)",讓它能夠?qū)ψ约旱耐评磉^(guò)程進(jìn)行批判性思考。元認(rèn)知過(guò)程通常包括理解輸入文本、形成初始判斷、對(duì)初步分析進(jìn)行批判性評(píng)估,以及基于反思得出最終決策。Utility Agent利用大型語(yǔ)言模型生成優(yōu)化指導(dǎo),引導(dǎo)網(wǎng)絡(luò)代理完成這個(gè)過(guò)程中的批判性評(píng)估步驟。這種干預(yù)為網(wǎng)絡(luò)代理提供了元認(rèn)知能力,顯著增強(qiáng)了其推理修正能力。
構(gòu)建的優(yōu)化指導(dǎo)內(nèi)容包含了對(duì)威脅風(fēng)險(xiǎn)和任務(wù)一致性的詳細(xì)解釋,以及具體的改進(jìn)建議。當(dāng)系統(tǒng)檢測(cè)到安全風(fēng)險(xiǎn)時(shí),指導(dǎo)內(nèi)容會(huì)明確指出違反了哪些策略條款,并提供避免類似威脅的具體指導(dǎo)。當(dāng)任務(wù)執(zhí)行出現(xiàn)偏離時(shí),指導(dǎo)會(huì)指出偏離的原因,并提供重新與任務(wù)目標(biāo)保持一致的具體指令。
三、實(shí)驗(yàn)驗(yàn)證:在真實(shí)環(huán)境中檢驗(yàn)效果
為了全面評(píng)估HarmonyGuard框架的有效性,研究團(tuán)隊(duì)設(shè)計(jì)了一系列綜合性實(shí)驗(yàn),就像為新開(kāi)發(fā)的安全駕駛系統(tǒng)進(jìn)行路試一樣,需要在各種復(fù)雜的真實(shí)場(chǎng)景中驗(yàn)證其性能表現(xiàn)。
實(shí)驗(yàn)基于兩個(gè)具有代表性的真實(shí)安全基準(zhǔn)進(jìn)行:ST-WebAgentBench和WASP,這兩個(gè)基準(zhǔn)都托管在AWS網(wǎng)站上,提供了真實(shí)的網(wǎng)絡(luò)環(huán)境測(cè)試條件。ST-WebAgentBench包含235個(gè)任務(wù),涵蓋同意(Consent)、邊界(Boundary)和執(zhí)行(Execution)三類安全策略。WASP則包含84個(gè)任務(wù),專注于GitHub和Reddit平臺(tái)上的純文本和URL注入攻擊,具體包括GitHub純文本注入(GPI)、GitHub URL注入(GUI)、Reddit純文本注入(RPI)和Reddit URL注入(RUI)四種注入類型。研究團(tuán)隊(duì)還測(cè)試了基于WASP的多模態(tài)代理版本W(wǎng)ASP(SoM),以驗(yàn)證框架在處理更復(fù)雜輸入形式時(shí)的表現(xiàn)。
在實(shí)驗(yàn)設(shè)置方面,所有實(shí)驗(yàn)中的網(wǎng)絡(luò)代理都使用gpt-4o和gpt-4o-mini模型,Utility Agent使用Qwen-Max-2025-01-25模型,Policy Agent使用gpt-4o模型。所有大型語(yǔ)言模型的溫度參數(shù)都固定為0,以確保結(jié)果的一致性和可重現(xiàn)性。策略隊(duì)列長(zhǎng)度根據(jù)威脅級(jí)別定義:低風(fēng)險(xiǎn)為5,中風(fēng)險(xiǎn)為7,高風(fēng)險(xiǎn)為10。相似度閾值設(shè)置為默認(rèn)值85%。
研究團(tuán)隊(duì)將HarmonyGuard與四種不同的保護(hù)機(jī)制進(jìn)行了對(duì)比。第一種是無(wú)防護(hù)機(jī)制,作為基準(zhǔn)對(duì)照。第二種是提示防護(hù),直接將原始策略文檔作為提示的一部分提供給代理進(jìn)行解釋。第三種是策略遍歷,將結(jié)構(gòu)化策略提供給代理進(jìn)行自我解釋,但不進(jìn)行任何額外處理。第四種是Guard-Base,這是HarmonyGuard的基礎(chǔ)版本,其中Policy Agent不執(zhí)行策略更新功能。
實(shí)驗(yàn)結(jié)果顯示,HarmonyGuard在所有基準(zhǔn)測(cè)試中都取得了顯著的性能提升。在策略合規(guī)性方面,HarmonyGuard在ST-WebAgentBench上分別在同意、邊界和執(zhí)行策略類別下達(dá)到了92.5%、99.4%和91.5%的最高策略合規(guī)率。在WASP和WASP(SoM)基準(zhǔn)上,HarmonyGuard展現(xiàn)出了強(qiáng)大的防御能力,多個(gè)策略合規(guī)率達(dá)到了100%。特別值得注意的是,在URL注入場(chǎng)景中,它顯著優(yōu)于其他方法,展現(xiàn)出了優(yōu)異的適應(yīng)性和魯棒性。
在任務(wù)效用性能方面,HarmonyGuard在多個(gè)基準(zhǔn)測(cè)試中展現(xiàn)出了顯著的實(shí)用性改進(jìn)優(yōu)勢(shì)。在ST-WebAgentBench上,HarmonyGuard在所有三個(gè)威脅類別中實(shí)現(xiàn)了約20%的策略下完成率提升。在WASP和WASP(SoM)上,HarmonyGuard也大都達(dá)到了最優(yōu)性能,最高策略下完成率達(dá)到95.2%。與無(wú)防護(hù)基準(zhǔn)相比,HarmonyGuard帶來(lái)了實(shí)質(zhì)性的效用改進(jìn),最高相對(duì)提升達(dá)到133%。
更重要的是,研究團(tuán)隊(duì)通過(guò)比較整體完成率和策略下完成率,引入了"違規(guī)"指標(biāo)來(lái)衡量代理依賴策略違規(guī)來(lái)完成任務(wù)的程度。較小的違規(guī)表明代理傾向于在嚴(yán)格遵守策略的同時(shí)完成任務(wù),展現(xiàn)了更安全、更魯棒的防御能力。相反,較大的違規(guī)表明更多任務(wù)是通過(guò)違反策略完成的,表示更高的安全風(fēng)險(xiǎn)。結(jié)果顯示,HarmonyGuard在所有基準(zhǔn)測(cè)試中具有最小甚至零違規(guī),表明該框架有效地指導(dǎo)網(wǎng)絡(luò)代理在確保策略合規(guī)的同時(shí)高效完成任務(wù)。
四、帕累托最優(yōu):實(shí)現(xiàn)真正的雙贏
在雙目標(biāo)優(yōu)化分析中,研究團(tuán)隊(duì)采用帕累托前沿分析方法來(lái)評(píng)估HarmonyGuard與現(xiàn)有保護(hù)機(jī)制在雙目標(biāo)優(yōu)化下的比較效果。這種分析方法就像是在尋找投資組合中的最佳平衡點(diǎn),既要考慮收益最大化,又要控制風(fēng)險(xiǎn)在可接受范圍內(nèi)。
帕累托前沿圖展示了所有保護(hù)方法在策略合規(guī)率(x軸)和策略下完成率(y軸)兩個(gè)維度上的表現(xiàn),這兩個(gè)指標(biāo)共同反映了代理的安全性和實(shí)用性。在ST-WebAgentBench和WASP及WASP(SoM)兩個(gè)基準(zhǔn)測(cè)試中,HarmonyGuard始終達(dá)到了帕累托最優(yōu),展現(xiàn)了在策略合規(guī)和任務(wù)有效性之間的卓越平衡能力,而其他保護(hù)機(jī)制在至少一個(gè)目標(biāo)上表現(xiàn)不足。
這種帕累托最優(yōu)的實(shí)現(xiàn)意味著HarmonyGuard找到了安全與效率之間的最佳平衡點(diǎn)。在這個(gè)平衡點(diǎn)上,任何試圖進(jìn)一步提高安全性的努力都會(huì)導(dǎo)致效率的損失,反之亦然。但HarmonyGuard成功地推進(jìn)了這個(gè)邊界,實(shí)現(xiàn)了傳統(tǒng)方法無(wú)法達(dá)到的雙重優(yōu)化效果。
五、評(píng)估策略對(duì)比:為什么二階馬爾可夫最有效
為了驗(yàn)證二階馬爾可夫評(píng)估策略的有效性,研究團(tuán)隊(duì)在ST-WebAgentBench基準(zhǔn)上使用gpt-4o-mini模型對(duì)不同評(píng)估策略的效果進(jìn)行了對(duì)比分析。這個(gè)對(duì)比實(shí)驗(yàn)就像是測(cè)試不同的體檢方案,看哪種方案既能準(zhǔn)確發(fā)現(xiàn)問(wèn)題,又不會(huì)產(chǎn)生過(guò)多的誤診。
實(shí)驗(yàn)對(duì)比了四種不同的策略:無(wú)評(píng)估策略作為基準(zhǔn),基于代理完整執(zhí)行軌跡的全軌跡評(píng)估策略,僅基于當(dāng)前推理步驟的當(dāng)前步驟評(píng)估策略,以及研究團(tuán)隊(duì)提出的二階馬爾可夫評(píng)估策略。
結(jié)果顯示,二階馬爾可夫評(píng)估策略展現(xiàn)出了強(qiáng)大且平衡的性能,在所有威脅類別和整體表現(xiàn)中,策略合規(guī)率和策略下完成率都達(dá)到了最佳或第二最佳的結(jié)果。相比之下,全軌跡評(píng)估策略雖然獲得了最高的整體策略合規(guī)率,但在策略下完成率方面表現(xiàn)明顯下降,甚至低于當(dāng)前步驟評(píng)估策略。
進(jìn)一步分析表明,雖然融合完整軌跡信息能夠幫助識(shí)別潛在違規(guī)從而提升策略合規(guī)率,但也可能導(dǎo)致將早期階段的違規(guī)錯(cuò)誤歸因于當(dāng)前推理步驟。這種誤判增加了合規(guī)評(píng)估中的假陽(yáng)性數(shù)量,導(dǎo)致不必要的修正和相應(yīng)的策略下完成率下降。本質(zhì)上,模型采用了"寧可錯(cuò)殺"的策略,通過(guò)將更多推理案例標(biāo)記為違規(guī)來(lái)提高策略合規(guī)率,但這是以任務(wù)完成為代價(jià)的,同時(shí)也會(huì)造成不必要且頻繁的策略更新請(qǐng)求。
另一方面,當(dāng)前步驟評(píng)估策略避免了這種過(guò)度懲罰,產(chǎn)生了更平衡的結(jié)果,但在策略下完成率方面仍然不如二階馬爾可夫評(píng)估策略。通過(guò)利用前兩個(gè)狀態(tài)的短期歷史上下文,二階馬爾可夫評(píng)估策略能夠更準(zhǔn)確地捕捉局部策略轉(zhuǎn)換,從而實(shí)現(xiàn)更好的合規(guī)評(píng)估和改進(jìn)的任務(wù)完成率,提升了模型的可靠性和實(shí)用效用。
六、多輪策略適應(yīng):在實(shí)戰(zhàn)中不斷進(jìn)化
為了驗(yàn)證HarmonyGuard的長(zhǎng)期適應(yīng)能力,研究團(tuán)隊(duì)在WASP基準(zhǔn)上進(jìn)行了多輪適應(yīng)過(guò)程的比較分析。這個(gè)實(shí)驗(yàn)過(guò)程就像觀察一個(gè)新手司機(jī)在不同路況中的學(xué)習(xí)成長(zhǎng)過(guò)程,看他是否能夠從每次的駕駛經(jīng)驗(yàn)中汲取教訓(xùn)并持續(xù)改進(jìn)。
實(shí)驗(yàn)結(jié)果顯示,經(jīng)過(guò)三輪測(cè)試后結(jié)果趨于相對(duì)穩(wěn)定,HarmonyGuard在第三輪中達(dá)到了最佳性能。在第一輪更新中,由于策略數(shù)據(jù)庫(kù)最初為空,Policy Agent缺乏先驗(yàn)參考,策略調(diào)整主要集中在構(gòu)建策略數(shù)據(jù)庫(kù)上,在這個(gè)過(guò)程中逐步增強(qiáng)威脅感知能力。雖然第二輪中某些指標(biāo)有所波動(dòng),但整體趨勢(shì)穩(wěn)定并繼續(xù)改善。這反映了框架對(duì)策略的迭代優(yōu)化,顯著提升了策略合規(guī)性和任務(wù)完成能力。
特別值得注意的是,在第三輪中,系統(tǒng)在安全性和實(shí)用性方面表現(xiàn)出了更加平衡和魯棒的性能,表明多輪適應(yīng)有效增強(qiáng)了網(wǎng)絡(luò)代理應(yīng)對(duì)重復(fù)攻擊的能力。這種持續(xù)學(xué)習(xí)和適應(yīng)的能力使得HarmonyGuard不僅能夠應(yīng)對(duì)當(dāng)前的威脅,還能夠?yàn)槲磥?lái)可能出現(xiàn)的新威脅做好準(zhǔn)備。
整個(gè)多輪適應(yīng)過(guò)程展現(xiàn)了HarmonyGuard框架的一個(gè)重要特性:它不是一個(gè)靜態(tài)的防護(hù)系統(tǒng),而是一個(gè)能夠從經(jīng)驗(yàn)中學(xué)習(xí)并持續(xù)改進(jìn)的智能防護(hù)框架。這種特性使得系統(tǒng)能夠在面對(duì)不斷演化的網(wǎng)絡(luò)威脅時(shí)保持有效性,就像一個(gè)經(jīng)驗(yàn)豐富的安全專家能夠根據(jù)新出現(xiàn)的攻擊模式及時(shí)調(diào)整防護(hù)策略一樣。
說(shuō)到底,這項(xiàng)研究解決了一個(gè)看似簡(jiǎn)單卻極其復(fù)雜的問(wèn)題:如何讓AI助手既聰明又安全。研究團(tuán)隊(duì)通過(guò)HarmonyGuard框架,成功地證明了智能代理不必在安全與效率之間做出痛苦的選擇。這套系統(tǒng)就像是為AI代理配備了一位既懂安全又懂效率的貼身顧問(wèn),能夠在復(fù)雜多變的網(wǎng)絡(luò)環(huán)境中幫助它們做出最佳決策。
從實(shí)際應(yīng)用角度來(lái)看,這項(xiàng)研究的意義遠(yuǎn)超學(xué)術(shù)范疇。隨著AI助手在我們生活中扮演越來(lái)越重要的角色,確保它們既能高效完成任務(wù)又不會(huì)帶來(lái)安全隱患,這對(duì)每個(gè)人都至關(guān)重要。無(wú)論是幫我們處理網(wǎng)上銀行業(yè)務(wù)的AI助手,還是代表我們進(jìn)行在線購(gòu)物的智能代理,都需要具備這種平衡能力。
研究團(tuán)隊(duì)的工作還揭示了幾個(gè)重要洞察。首先,外部策略知識(shí)不應(yīng)該被當(dāng)作靜態(tài)輸入,而應(yīng)該作為結(jié)構(gòu)化且可演化的知識(shí)資產(chǎn)來(lái)管理。其次,具備元認(rèn)知能力的代理架構(gòu)是增強(qiáng)代理魯棒性和適應(yīng)性的關(guān)鍵因素。第三,負(fù)面案例(即策略違規(guī))可以幫助代理理解策略合規(guī)的邊界。最后,在多輪推理或任務(wù)分解場(chǎng)景中,構(gòu)建清晰的上下文表示至關(guān)重要。
這些發(fā)現(xiàn)不僅為當(dāng)前的AI安全研究提供了寶貴指導(dǎo),也為未來(lái)構(gòu)建更加智能和可靠的AI系統(tǒng)指明了方向。隨著技術(shù)的不斷進(jìn)步,我們有理由相信,在不久的將來(lái),我們將擁有既高效又安全的AI助手,它們能夠在復(fù)雜的網(wǎng)絡(luò)世界中為我們提供更好的服務(wù),而不必?fù)?dān)心安全風(fēng)險(xiǎn)的問(wèn)題。有興趣進(jìn)一步了解這項(xiàng)研究的讀者,可以通過(guò)GitHub項(xiàng)目地址獲取更詳細(xì)的技術(shù)資料和實(shí)現(xiàn)代碼。
Q&A
Q1:HarmonyGuard框架是什么?它如何同時(shí)保證AI助手的安全性和效率?
A:HarmonyGuard是由浙江大學(xué)團(tuán)隊(duì)開(kāi)發(fā)的多智能體協(xié)作框架,通過(guò)三個(gè)角色的AI代理協(xié)同工作:負(fù)責(zé)執(zhí)行任務(wù)的Web Agent、負(fù)責(zé)管理安全規(guī)則的Policy Agent和負(fù)責(zé)優(yōu)化效率的Utility Agent。它采用自適應(yīng)策略增強(qiáng)技術(shù)讓安全規(guī)則能夠?qū)崟r(shí)更新,并使用二階馬爾可夫評(píng)估策略在每個(gè)操作步驟都同時(shí)檢查安全性和任務(wù)完成情況,從而實(shí)現(xiàn)安全與效率的最佳平衡。
Q2:為什么傳統(tǒng)的AI安全防護(hù)方法無(wú)法很好地平衡安全與效率?
A:傳統(tǒng)方法主要存在兩個(gè)問(wèn)題:一是安全規(guī)則過(guò)于靜態(tài),就像使用過(guò)時(shí)的交通手冊(cè)無(wú)法應(yīng)對(duì)現(xiàn)代復(fù)雜路況一樣,無(wú)法及時(shí)應(yīng)對(duì)新出現(xiàn)的網(wǎng)絡(luò)威脅;二是采用單一目標(biāo)優(yōu)化,要么過(guò)分注重安全導(dǎo)致效率低下,要么追求效率而忽視安全風(fēng)險(xiǎn)。而HarmonyGuard通過(guò)動(dòng)態(tài)策略更新和雙目標(biāo)同時(shí)優(yōu)化,成功解決了這個(gè)"魚(yú)和熊掌"的難題。
Q3:HarmonyGuard在實(shí)際測(cè)試中的表現(xiàn)如何?普通用戶能否受益?
A:在真實(shí)網(wǎng)絡(luò)環(huán)境測(cè)試中,HarmonyGuard將策略合規(guī)率提升了38%,任務(wù)完成率提升了20%,并在所有測(cè)試中實(shí)現(xiàn)了超過(guò)90%的策略合規(guī)率。這意味著使用這項(xiàng)技術(shù)的AI助手能夠更安全地幫用戶處理網(wǎng)上購(gòu)物、預(yù)訂服務(wù)、處理郵件等日常網(wǎng)絡(luò)任務(wù),既不會(huì)因?yàn)檫^(guò)度謹(jǐn)慎而影響效率,也不會(huì)因?yàn)樽非笏俣榷鴰?lái)安全風(fēng)險(xiǎn)。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語(yǔ)言模型的敘事推理能力與音頻生成技術(shù),通過(guò)交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開(kāi)辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過(guò)讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問(wèn)題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語(yǔ)言模型人性化對(duì)話問(wèn)題。該研究創(chuàng)建了包含20萬(wàn)高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過(guò)創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開(kāi)發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過(guò)學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來(lái)了效率和精度的雙重突破。