近日,來自向量研究所、康奈爾大學(xué)和格羅寧根大學(xué)的研究團(tuán)隊(duì)聯(lián)合發(fā)布了一項(xiàng)重要綜述研究,聚焦于大語言模型(LLM)驅(qū)動的代理型多智能體系統(tǒng)中的信任、風(fēng)險和安全管理(TRiSM)挑戰(zhàn)。這篇題為《代理型AI的TRiSM:LLM多智能體系統(tǒng)中的信任、風(fēng)險和安全管理綜述》的論文由Shaina Raza、Ranjan Sapkota、Manoj Karkee和Christos Emmanouilidis共同完成,發(fā)表于2025年6月4日的arXiv預(yù)印本平臺(arXiv:2506.04133v1)。在AI代理市場預(yù)計(jì)2025年將增長至76億美元,且超過70%的企業(yè)AI部署將涉及多智能體或行動型系統(tǒng)的背景下,這項(xiàng)研究的重要性不言而喻。
想象一下,不久的將來,你的數(shù)字世界里生活著一群看不見的"數(shù)字助手"。這些助手不再是簡單的問答機(jī)器人,而是能夠自主思考、規(guī)劃、協(xié)作并完成復(fù)雜任務(wù)的智能體。就像一個由專家組成的團(tuán)隊(duì),有的負(fù)責(zé)研究,有的專注編程,有的擅長分析,它們互相配合完成你交代的任務(wù)。這聽起來很美好,但如果其中一個助手被誤導(dǎo)或出錯,可能會像多米諾骨牌一樣影響整個團(tuán)隊(duì),導(dǎo)致隱私泄露或錯誤決策。這正是本研究要解決的核心問題:如何確保這些協(xié)作的AI代理是安全、可信且透明的?
本研究不僅詳細(xì)探討了代理型AI的概念基礎(chǔ)和架構(gòu)差異,還提出了一個全面的TRiSM框架,包括治理、可解釋性、模型運(yùn)營和隱私/安全四大支柱。研究團(tuán)隊(duì)識別了獨(dú)特的威脅向量,并引入了全面的風(fēng)險分類法,通過真實(shí)案例研究展示了潛在的脆弱性。此外,論文還調(diào)查了構(gòu)建信任的機(jī)制、透明度和監(jiān)督技術(shù),以及分布式LLM代理系統(tǒng)中最先進(jìn)的可解釋性策略。值得一提的是,研究還審查了評估信任、可解釋性和以人為中心的性能的指標(biāo),并提出了開放的基準(zhǔn)挑戰(zhàn)。最后,論文通過加密、對抗性防御和符合不斷發(fā)展的AI法規(guī)來解決安全和隱私問題,并提出了負(fù)責(zé)任的代理型AI路線圖。
一、從傳統(tǒng)AI代理到代理型AI:理解基礎(chǔ)概念
傳統(tǒng)的AI代理和今天的代理型AI系統(tǒng)之間有著本質(zhì)的區(qū)別,這就像比較一個按照固定食譜烹飪的機(jī)器人廚師和一個能根據(jù)食材、口味偏好和營養(yǎng)需求即興創(chuàng)作美食的大廚團(tuán)隊(duì)。傳統(tǒng)的AI代理就像那個按部就班的機(jī)器人廚師,依賴預(yù)定義的規(guī)則、工作流程或確定性邏輯,在狹窄的、邊界明確的環(huán)境中表現(xiàn)出色。例如,傳統(tǒng)的代理可能擅長信息檢索、數(shù)據(jù)總結(jié)或?qū)υ掜憫?yīng),但它們?nèi)狈ι疃韧评怼⑦m應(yīng)性和持久性。
相比之下,代理型AI系統(tǒng)由具有專業(yè)角色(如規(guī)劃師、編碼員、分析師)的協(xié)作代理組成,通過大語言模型(LLM)和工具使用獲得能力。這些系統(tǒng)可以動態(tài)地分解任務(wù),共享上下文,并在長時間內(nèi)追求高級目標(biāo)。就像一個精密協(xié)作的廚師團(tuán)隊(duì),有人負(fù)責(zé)菜單設(shè)計(jì),有人專注于切菜,有人掌控火候,共同創(chuàng)造出單個廚師無法完成的復(fù)雜盛宴。這種轉(zhuǎn)變不僅僅是技術(shù)升級,而是在復(fù)雜性和自主性方面的質(zhì)的飛躍,標(biāo)志著能夠產(chǎn)生去中心化行為的機(jī)器集體的出現(xiàn)。
然而,這種演變帶來了嚴(yán)峻的挑戰(zhàn)。與確定性代理不同,代理型AI系統(tǒng)可能產(chǎn)生非線性、不透明的決策,增加了失敗、偏見和意外后果的風(fēng)險。例如,一個多代理供應(yīng)鏈優(yōu)化器可能會在采購代理和物流代理之間自主協(xié)調(diào),但如果缺乏保障措施,可能會無意中泄露敏感信息或違反合規(guī)協(xié)議。
為傳統(tǒng)或單功能AI構(gòu)建的傳統(tǒng)評估和安全框架已不再足夠。這凸顯了迫切需要一個將信任、風(fēng)險和安全作為核心設(shè)計(jì)原則整合的新范式。為了解決這一差距,最近的框架如AI TRiSM(信任、風(fēng)險和安全管理)提出了生命周期級別的控制,包括可解釋性、安全模型編排和隱私管理。這些對于在金融、醫(yī)療保健和國防等高風(fēng)險領(lǐng)域部署代理系統(tǒng)至關(guān)重要。
二、代理型AI系統(tǒng)的基本架構(gòu)
代理型多智能體系統(tǒng)(AMAS)代表了AI中的一種新興范式,其中多個LLM驅(qū)動的代理半自主運(yùn)行,與外部工具交互,并協(xié)作完成復(fù)雜任務(wù)。想象一個現(xiàn)代化的辦公團(tuán)隊(duì),每個成員都有特定的專長,使用共享的辦公工具,通過會議和電子郵件進(jìn)行溝通,并由一位項(xiàng)目經(jīng)理協(xié)調(diào)工作流程——代理型AI系統(tǒng)的架構(gòu)與此類似。
在這個架構(gòu)的核心是多個基于LLM的代理,每個代理都能夠推理、規(guī)劃和調(diào)用工具。這些代理可以訪問共享的工具鏈接口,執(zhí)行代碼、執(zhí)行搜索或與特定領(lǐng)域的API交互。就像團(tuán)隊(duì)成員使用共享的辦公軟件套件一樣。溝通和協(xié)調(diào)通過通信中間件實(shí)現(xiàn),允許代理共享目標(biāo)、觀察結(jié)果或中間結(jié)果——就像同事之間的即時消息和電子郵件。任務(wù)管理器或編排器管理高級規(guī)劃,根據(jù)代理的角色或?qū)I(yè)化分配子任務(wù)——類似于項(xiàng)目經(jīng)理分配工作。
代理可以從世界模型或共享內(nèi)存中讀取和寫入,該內(nèi)存存儲上下文知識、系統(tǒng)狀態(tài)或不斷變化的任務(wù)數(shù)據(jù)——就像團(tuán)隊(duì)的共享云存儲。人類通過人機(jī)協(xié)作界面進(jìn)行監(jiān)督,使用戶能夠提示、糾正或停止代理行為——想象這是團(tuán)隊(duì)領(lǐng)導(dǎo)提供的指導(dǎo)和反饋。為確保問責(zé)制,信任和審計(jì)模塊監(jiān)控代理操作,記錄工具使用情況,并生成行為跟蹤——就像公司的合規(guī)部門。
然而,這種模塊化和分布式結(jié)構(gòu)帶來了重大的TRiSM挑戰(zhàn)。當(dāng)多個自主代理訪問外部資源時,安全網(wǎng)關(guān)對于執(zhí)行訪問控制、身份驗(yàn)證和沙箱化變得至關(guān)重要——就像辦公網(wǎng)絡(luò)的防火墻和安全協(xié)議。同樣,專用的隱私管理層對于防止敏感或個人身份信息泄露至關(guān)重要,尤其是當(dāng)數(shù)據(jù)在多個代理或工具之間傳輸時——類似于數(shù)據(jù)保護(hù)官員確保公司遵守隱私法規(guī)。最后,可解釋性界面必須為多代理決策提供可解釋的理由,支持透明度和信任校準(zhǔn)——如同確保團(tuán)隊(duì)決策過程對所有利益相關(guān)者透明。
綜合這些架構(gòu)元素使AMAS既強(qiáng)大又復(fù)雜,提出了關(guān)于如何確保它們的可信度、減輕系統(tǒng)性風(fēng)險和保護(hù)它們免受對抗性行為的獨(dú)特而緊迫的問題。
在典型的代理型AI系統(tǒng)中,語言模型核心(代理大腦)是中心組件,該系統(tǒng)通過用戶目標(biāo)和結(jié)構(gòu)化代理提示初始化,定義其角色、能力和工具訪問權(quán)限。它生成逐步?jīng)Q策或行動,解釋指令,產(chǎn)生推理軌跡,并選擇下一步,要么以自然語言形式,要么以結(jié)構(gòu)化行動格式。
規(guī)劃和推理模塊通過鏈?zhǔn)剿伎迹–oT)或思維樹提示等技術(shù)分解復(fù)雜目標(biāo),模型在得出最終決策前進(jìn)行中間推理。有些實(shí)現(xiàn)通過將目標(biāo)轉(zhuǎn)換為結(jié)構(gòu)化規(guī)劃語言并使用經(jīng)典規(guī)劃器進(jìn)行長期決策,采用外部規(guī)劃系統(tǒng)。規(guī)劃通常與執(zhí)行和反饋交織:代理根據(jù)結(jié)果完善其計(jì)劃,在推理、行動和整合觀察之間交替。
內(nèi)存模塊將上下文保持在迭代之間,包括短期內(nèi)存(在提示上下文中保存的最近交互)和長期內(nèi)存(積累的知識或經(jīng)驗(yàn))。長期內(nèi)存通常使用向量數(shù)據(jù)庫實(shí)現(xiàn),通過相似性搜索存儲和檢索關(guān)鍵事實(shí)或過去事件。通過將過去的數(shù)據(jù)重新整合到LLM的提示中,代理可以跨會話回憶相關(guān)信息,避免重復(fù),并支持連貫的長期規(guī)劃。
工具使用接口擴(kuò)展代理的能力,允許調(diào)用網(wǎng)絡(luò)搜索、API、代碼解釋器或數(shù)據(jù)庫等外部工具??捎霉ぞ咴诖硖崾局幸悦钅J街付?。當(dāng)LLM確定需要工具時,它會發(fā)出結(jié)構(gòu)化命令,該命令在外部執(zhí)行,結(jié)果作為新的觀察結(jié)果反饋給LLM。
對于與動態(tài)環(huán)境(如網(wǎng)絡(luò)界面、模擬世界或物理系統(tǒng))交互的代理,觀察-行動接口至關(guān)重要。感知模塊將原始輸入(如傳感器數(shù)據(jù)、圖像或文本狀態(tài))轉(zhuǎn)換為LLM可以處理的表示。相反,代理選擇的行動在環(huán)境中執(zhí)行,產(chǎn)生的狀態(tài)變化作為觀察結(jié)果返回給代理。這個循環(huán)支持感知-規(guī)劃-行動周期,直到任務(wù)完成或停止。
這些模塊共同形成一個閉環(huán)架構(gòu)。LLM在內(nèi)存和工具的指導(dǎo)下規(guī)劃和推理任務(wù),并與環(huán)境接口執(zhí)行決策并觀察結(jié)果。每次迭代都豐富了代理的上下文,使其能夠自我提示、生成子任務(wù)、評估進(jìn)度并隨時間調(diào)整策略。這種集成設(shè)計(jì)使代理系統(tǒng)能夠自主運(yùn)行,追求長期目標(biāo),并在動態(tài)環(huán)境中展示適應(yīng)性行為。
三、代理型AI的TRiSM框架
AI信任、風(fēng)險和安全管理(AI TRiSM)是一個全面的治理框架,旨在確保AI系統(tǒng)是可信的、穩(wěn)健的并符合安全標(biāo)準(zhǔn)。最初在行業(yè)AI治理指南中突出的TRiSM提供了一個結(jié)構(gòu)化方法來管理基于LLM的"代理型"AI系統(tǒng)的獨(dú)特挑戰(zhàn)。這些系統(tǒng)由能夠做出獨(dú)立決策、與其他代理協(xié)作并隨時間調(diào)整行為的自主LLM代理組成。這些特性:自主性、多代理交互和不斷發(fā)展的行為,引入了傳統(tǒng)單模型部署中未見的新風(fēng)險。
例如,一個單獨(dú)行動的代理可能是良性的,但當(dāng)與其他代理跨組織或信任邊界交互時,它可能會操縱同伴或泄露機(jī)密信息。TRiSM框架通過專注于四個關(guān)鍵支柱來解決這些問題:可解釋性、模型運(yùn)營(ModelOps)、應(yīng)用安全和模型隱私。每個支柱針對安全或風(fēng)險管理的一個關(guān)鍵方面,確保代理型LLM系統(tǒng)保持透明、可靠、安全,并符合道德和監(jiān)管要求。
讓我們詳細(xì)了解每個支柱及其如何應(yīng)用于基于LLM的代理系統(tǒng):
可解釋性是使AI代理的內(nèi)部工作和決策對人類可解釋的能力。在代理型LLM系統(tǒng)的背景下,可解釋性對建立用戶信任至關(guān)重要,因?yàn)榻Y(jié)果通常來自多個代理之間的復(fù)雜交互,而不是單個模型的預(yù)測。因此,TRiSM框架將可解釋性提升為核心支柱,以確保每個代理的行動和整個系統(tǒng)的行為都可以被理解和審核。
在多代理LLM系統(tǒng)中實(shí)現(xiàn)可解釋性具有挑戰(zhàn)性,因?yàn)椴粌H要解釋單個模型決策,還要解釋代理間動態(tài),后者導(dǎo)致最終結(jié)果。已建立的可解釋AI技術(shù)提供了起點(diǎn)。例如,本地可解釋的模型無關(guān)解釋(LIME)和Shapley加性解釋(SHAP)可以適應(yīng)分析LLM決策。這些技術(shù)識別哪些特征或輸入因素最影響代理的輸出,提供對為什么采取特定行動或響應(yīng)的洞察。在代理型環(huán)境中,"特征"可能是代理輸入上下文的組成部分或來自另一個代理的信號。
除了局部解釋外,反事實(shí)分析對多代理可解釋性越來越重要。反事實(shí)技術(shù)檢查如果某些條件被改變,系統(tǒng)的行為將如何變化,例如,如果特定代理的貢獻(xiàn)被移除或修改。這種扎根于因果推斷的方法有助于隔離每個代理在協(xié)作決策中的角色。例如,通過系統(tǒng)地切換代理或改變其輸出,可以觀察集體結(jié)果的變化,從而確定代理X對決策Y有關(guān)鍵影響。這種分析揭示了代理之間的依賴關(guān)系和影響,有效解釋了系統(tǒng)級別的涌現(xiàn)行為。
此外,關(guān)于可解釋AMAS的最新研究表明,記錄中間推理步驟(例如鏈?zhǔn)剿伎继崾净虼碇g的對話)可以進(jìn)一步增強(qiáng)透明度。人類審計(jì)員也可以幫助跟蹤代理如何達(dá)成決策,例如,哪個代理貢獻(xiàn)了什么信息以及為什么,為其結(jié)果產(chǎn)生敘述性解釋。
簡而言之,TRiSM的可解釋性支柱要求使用這些技術(shù)(代理模型、特征歸因、反事實(shí)測試和透明推理軌跡)來確保即使高度自主的LLM代理也保持對人類監(jiān)督的可解釋性和責(zé)任性。
ModelOps是管理AI模型整個生命周期的學(xué)科,從開發(fā)和部署到監(jiān)控、維護(hù)和最終退役。它擴(kuò)展了MLOps(機(jī)器學(xué)習(xí)運(yùn)營)的原則,專注于模型治理和生產(chǎn)中的可靠運(yùn)行。在代理型LLM系統(tǒng)中,ModelOps不僅包括單個模型,還包括多個代理的編排和支持它們安全運(yùn)行的基礎(chǔ)設(shè)施。有效的ModelOps對于維持一致性、性能和監(jiān)管合規(guī)至關(guān)重要,特別是隨著LLM代理的發(fā)展或系統(tǒng)中添加新代理。
LLM代理需要嚴(yán)格的生命周期治理,因?yàn)樗鼈兊男袨榭赡茈S著模型更新、提示調(diào)整或環(huán)境漂移而變化。在此背景下,ModelOps的基石是版本控制,即跟蹤和管理每個代理的模型和提示配置的版本。此外,穩(wěn)健的CI/CD管道(持續(xù)集成/持續(xù)部署)用于在模型微調(diào)或代理邏輯修改時自動測試代理的性能和安全性。在部署前,多代理模擬和單元測試驗(yàn)證新的代理行為不會引入回歸或不安全的交互。這與LLM操作(LLMOps)最佳實(shí)踐一致,將MLOps原則整合到針對大語言模型挑戰(zhàn)的解決方案中。
一個挑戰(zhàn)是模型漂移,即隨著時間推移,代理的響應(yīng)可能因數(shù)據(jù)分布變化或真實(shí)條件變化而變得不太準(zhǔn)確或相關(guān)。因此,需要持續(xù)監(jiān)控來檢測性能下降或與預(yù)期行為的偏差,在需要時觸發(fā)再訓(xùn)練或重新校準(zhǔn)。此外,實(shí)時監(jiān)控和日志記錄對多代理設(shè)置至關(guān)重要。每個代理的操作(例如API調(diào)用、做出的決策、遇到的錯誤)都被記錄和分析,以提供對系統(tǒng)功能的可觀察性。
在大規(guī)模代理生態(tài)系統(tǒng)中,編排服務(wù)可能監(jiān)督代理,調(diào)度它們的任務(wù)并管理代理間通信。ModelOps必須管理這些編排層,確保例如,如果一個代理失敗或產(chǎn)生可疑輸出,它可以被隔離或關(guān)閉而不會導(dǎo)致整個系統(tǒng)崩潰。
總之,根據(jù)TRiSM目標(biāo),穩(wěn)健的ModelOps確保代理型AI系統(tǒng)保持可靠和可維護(hù)。它正式化變更管理(使更新不會引入新風(fēng)險),提供對模型行為的持續(xù)驗(yàn)證,并通過記錄審計(jì)數(shù)據(jù)和執(zhí)行策略(例如防止未授權(quán)的模型更改)支持合規(guī)。
應(yīng)用安全性在TRiSM框架中聚焦于保護(hù)AI代理及其生態(tài)系統(tǒng)免受惡意攻擊和濫用?;贚LM的代理容易受到一系列利用其基于語言的接口和協(xié)作行為的新型安全威脅。一個有據(jù)可查的威脅是提示注入,攻擊者設(shè)計(jì)含有隱藏或惡意指令的輸入數(shù)據(jù)。最近的研究表明,在AMAS中,這種提示注入可以從一個代理傳播到另一個代理,一種被稱為"提示感染"的現(xiàn)象,類似于計(jì)算機(jī)病毒在網(wǎng)絡(luò)中傳播。在提示感染場景中,引入到代理A的惡意提示可能會秘密修改代理A的輸出,這些輸出隨后成為代理B輸入的一部分,從而欺騙代理B,依此類推。這種級聯(lián)攻擊可能導(dǎo)致廣泛的數(shù)據(jù)泄露、欺詐交易、錯誤信息或整個代理社會的協(xié)調(diào)不當(dāng)行為。
另一個關(guān)鍵的漏洞是身份欺騙和冒充。在多代理系統(tǒng)中,代理通常相互通信或協(xié)調(diào)任務(wù),它們可能依賴憑證或令牌來相互認(rèn)證。例如,如果一個對手竊取了代理的API密鑰或欺騙系統(tǒng)將惡意模型視為可信伙伴,他們可能會以虛假身份發(fā)出命令或接收信息。
為了緩解這些威脅,TRiSM的安全支柱規(guī)定了一種針對LLM代理量身定制的深度防御方法:
首先是提示衛(wèi)生:代理應(yīng)通過清理和過濾提示防御性地處理輸入,并使用護(hù)欄或內(nèi)容策略檢測和拒絕可疑指令。提示強(qiáng)化(例如,添加安全前綴或驗(yàn)證步驟)是使代理對注入不那么敏感的方法之一。
其次是強(qiáng)認(rèn)證和訪問控制:每個代理和人類用戶必須安全認(rèn)證,最小權(quán)限原則應(yīng)限制代理可以自主執(zhí)行的操作。
第三是持續(xù)監(jiān)控:如果代理突然開始發(fā)出不尋常的請求或偏離其正常行為模式,自動監(jiān)視器可以標(biāo)記這些行為以進(jìn)行調(diào)查,或觸發(fā)代理操作的自動關(guān)閉。
最近的框架,如LangChain/LangFlow、AutoGen、CrewAI,引入了代理間信任分?jǐn)?shù)或聲譽(yù)的概念,代理驗(yàn)證彼此的輸出并交叉檢查決策,以捕捉不一致或妥協(xié)的跡象。此外,考慮對抗性魯棒性訓(xùn)練LLM代理(例如在對抗性示例上微調(diào),采用對抗性訓(xùn)練方案)可以提高它們抵抗惡意輸入的能力。
總之,TRiSM的應(yīng)用安全支柱強(qiáng)調(diào)了針對外部攻擊者和潛在惡意代理的主動保障措施。通過實(shí)施嚴(yán)格的認(rèn)證、輸入驗(yàn)證、加密通信、執(zhí)行沙箱化(對于可以使用工具或代碼的代理)和全面監(jiān)控,組織可以顯著降低自主多代理AI系統(tǒng)中特有的基于提示的利用、冒充和其他橫向漏洞的風(fēng)險。這種分層安全方法對于維護(hù)代理型LLM部署在對抗性環(huán)境中的完整性和可靠性至關(guān)重要。
模型隱私支柱解決了AI代理系統(tǒng)內(nèi)敏感數(shù)據(jù)的保護(hù),確保個人或機(jī)密信息的使用符合隱私法規(guī)和道德規(guī)范?;贚LM的代理通常需要處理用戶數(shù)據(jù)、專有業(yè)務(wù)信息或其他敏感輸入來完成任務(wù)。在多代理環(huán)境中,這一挑戰(zhàn)因代理可能共享信息(例如通過共享內(nèi)存存儲或消息傳遞)以進(jìn)行協(xié)作而放大。如果沒有嚴(yán)格的隱私控制,代理可能會無意中向未授權(quán)方暴露私人數(shù)據(jù),或敏感信息可能通過語言模型的輸出"泄漏"。因此,TRiSM的隱私支柱要求組織建立措施,在AI生命周期中保護(hù)數(shù)據(jù),從訓(xùn)練和推理到代理間通信。
隱私保護(hù)技術(shù)包括:
差分隱私(DP):在模型訓(xùn)練期間注入校準(zhǔn)噪聲,防止記憶單個數(shù)據(jù)條目,確保沒有單個記錄顯著影響輸出。這項(xiàng)技術(shù)在需要共享結(jié)果而不暴露個人數(shù)據(jù)的跨組織任務(wù)(如合作欺詐檢測)中尤其有用。
數(shù)據(jù)匿名化和最小化:限制代理間數(shù)據(jù)共享到僅必要的內(nèi)容,通常使用聚合或假名化格式。例如,"30-40歲年齡段"而不是精確出生日期。
安全多方計(jì)算(SMPC):使代理能夠計(jì)算聯(lián)合函數(shù)而不暴露私有輸入。在跨組織任務(wù)中很有用,如合作欺詐檢測。
同態(tài)加密(HE):允許代理在加密數(shù)據(jù)上計(jì)算。使用完全同態(tài)加密(FHE),甚至明文查詢和響應(yīng)對代理也保持不可見。
可信執(zhí)行環(huán)境(安全飛地):基于硬件的隔離確保即使特權(quán)系統(tǒng)用戶也無法訪問代理處理的數(shù)據(jù)。對于安全內(nèi)存共享和執(zhí)行很有用。
模型隱私策略和合規(guī):執(zhí)行數(shù)據(jù)保留限制,維護(hù)審計(jì)日志,并確保遵守管理代理行為和數(shù)據(jù)使用的法規(guī)(例如,GDPR,HIPAA)。
通過實(shí)施這些隱私防御層,從模型訓(xùn)練中的差分隱私到數(shù)據(jù)共享的同態(tài)加密,再到嚴(yán)格的訪問控制政策,代理型AI系統(tǒng)可以保護(hù)用戶數(shù)據(jù)和專有信息,即使它們利用這些數(shù)據(jù)進(jìn)行智能決策。
TRiSM框架為基于LLM的代理型AI提供了一個全面的治理模型,整合了可解釋性、ModelOps、應(yīng)用安全和模型隱私來管理自主代理系統(tǒng)的復(fù)雜性。基于已證明的方法,如SHAP、CI/CD、對抗性防御和同態(tài)加密,TRiSM增強(qiáng)了安全性、透明度和信任。隨著AI系統(tǒng)的發(fā)展,TRiSM提供了一個穩(wěn)定的基礎(chǔ),以確保負(fù)責(zé)任和安全的代理行為,將先進(jìn)能力與人類價值觀和操作完整性結(jié)合起來。
四、LLM多智能體系統(tǒng)的威脅與風(fēng)險
代理型AI系統(tǒng)引入了一組與傳統(tǒng)單代理LLM架構(gòu)相比截然不同的安全和可靠性問題。這些風(fēng)險主要源于代理的自主性、持久狀態(tài)管理以及多代理協(xié)調(diào)的復(fù)雜需求。就像一個高度專業(yè)化的團(tuán)隊(duì)需要更復(fù)雜的管理結(jié)構(gòu)和安全協(xié)議一樣,多智能體系統(tǒng)也需要更全面的風(fēng)險管理方法。
自主性濫用是最重要的威脅。具有重要決策權(quán)限的代理可能由于錯誤推理或受操縱的輸入而誤解目標(biāo)或?qū)嵤┯泻τ?jì)劃。與確定性模型不同,代理型系統(tǒng)動態(tài)生成行動,使定義和執(zhí)行安全操作狀態(tài)的努力復(fù)雜化。想象一個獲得過多系統(tǒng)訪問權(quán)限的金融代理,可能會因錯誤理解指令而執(zhí)行不必要的或錯誤的交易。
持久性內(nèi)存,雖然對上下文保留至關(guān)重要,但也引入了獨(dú)特的漏洞,通過潛在的對抗性注入和積累。這種污染可以通過共享內(nèi)存微妙地傳播,尤其是在缺乏詳細(xì)版本控制和強(qiáng)大審計(jì)機(jī)制的情況下。類似于計(jì)算機(jī)系統(tǒng)中的內(nèi)存泄漏會隨著時間的推移降低性能,記憶污染可能會逐漸侵蝕代理決策的完整性。
代理編排涉及角色分配和工作流調(diào)解的中央或分布式控制機(jī)制。受損的編排器可能會扭曲任務(wù)分配或錯誤路由信息,觸發(fā)級聯(lián)故障。這些脆弱性在MetaGPT和AutoGen等系統(tǒng)中有記錄,與傳統(tǒng)的無狀態(tài)、單線程LLM部署明顯不同。想象一個類似于一個項(xiàng)目經(jīng)理被誤導(dǎo)后分配了互相矛盾的任務(wù)給團(tuán)隊(duì)成員的情景。
為了系統(tǒng)地理解代理型AI中的安全格局,我們將風(fēng)險分為四大類:對抗性攻擊、數(shù)據(jù)泄漏、代理勾結(jié)和涌現(xiàn)行為。
對抗性攻擊:代理仍然容易受到提示注入、基于梯度的操縱和精心設(shè)計(jì)的推理陷阱的影響,這些風(fēng)險在AMAS中由于代理交互間的傳播而被放大。一個說明性例子是在ChatDev中觀察到的角色交換攻擊,其中一個代理的角色被惡意修改,使整個團(tuán)隊(duì)偏離其原定任務(wù)。
數(shù)據(jù)泄漏:持久內(nèi)存和廣泛的代理間通信增加了敏感信息意外暴露的可能性。在金融服務(wù)和人力資源等敏感領(lǐng)域,邊界執(zhí)行不足和無效的消毒放大了這些泄漏風(fēng)險。
代理勾結(jié)和模式崩潰:協(xié)調(diào)機(jī)制可能無意中導(dǎo)致代理相互強(qiáng)化錯誤,導(dǎo)致群體思維或回音室。AutoGen實(shí)驗(yàn)說明了代理間的迭代對話如何放大有缺陷的設(shè)計(jì),突顯了緊急錯位的風(fēng)險。
涌現(xiàn)行為:代理、內(nèi)存組件、工具和任務(wù)之間的復(fù)雜交互產(chǎn)生不可預(yù)測的行為,這些行為逃避傳統(tǒng)的測試和驗(yàn)證方法。為效率而優(yōu)化的代理可能會無意中繞過關(guān)鍵驗(yàn)證步驟或抑制矛盾信息,這些場景在區(qū)塊鏈和音頻驗(yàn)證環(huán)境中得到了例證。
幾個真實(shí)世界和研究案例說明了這些風(fēng)險在部署或?qū)嶒?yàn)性代理系統(tǒng)中的有形影響:
案例研究1:代理系統(tǒng)中的提示泄漏。在AutoGPT等基于LLM的代理框架中觀察到提示泄漏實(shí)例,其中遞歸提示增強(qiáng)和內(nèi)存控制不足可能導(dǎo)致敏感信息的無意暴露。在一個報告的場景中,敏感令牌存儲在持久內(nèi)存中,后來在規(guī)劃摘要或外部日志中暴露。這些漏洞突顯了實(shí)施內(nèi)存消毒、訪問控制和提示邊界保護(hù)以保護(hù)代理系統(tǒng)免受級聯(lián)信息泄漏的關(guān)鍵重要性。
案例研究2:ChatDev中的勾結(jié)故障。在ChatDev框架內(nèi)涉及規(guī)劃師、編碼員和測試員代理的協(xié)作代碼生成會話中,共享規(guī)劃模塊中的錯誤導(dǎo)致有缺陷的設(shè)計(jì)假設(shè)傳播。由于缺乏外部基準(zhǔn)真相或客觀反饋循環(huán),所有代理驗(yàn)證了彼此的輸出,導(dǎo)致錯誤確認(rèn)的反饋循環(huán)。這種情況強(qiáng)調(diào)了在代理循環(huán)中納入多樣化信息源和對抗性檢查的必要性,以防止此類勾結(jié)故障。
案例研究3:群體機(jī)器人學(xué)中的模擬攻擊。在利用基于LLM的規(guī)劃策略的模擬群體機(jī)器人學(xué)實(shí)驗(yàn)中,一個代理被提供了誤導(dǎo)性的環(huán)境假設(shè),導(dǎo)致由空間擁堵和任務(wù)不完成為特征的協(xié)調(diào)失敗。這一事件強(qiáng)調(diào)了真實(shí)世界部署中的潛在漏洞,特別是在關(guān)鍵基礎(chǔ)設(shè)施或物流中,這種失敗可能產(chǎn)生重大后果。該案例突顯了穩(wěn)健驗(yàn)證機(jī)制和整合多樣化信息源以確??煽咳后w行為的重要性。
案例研究4:多代理聊天機(jī)器人中的內(nèi)存中毒。在一個多代理客戶支持系統(tǒng)中,一個面向客戶的代理將諷刺性反饋?zhàn)⑷氲匠志眯苑答伨彌_區(qū)。這個緩沖區(qū)后來被策略改進(jìn)代理用來調(diào)整對話策略,導(dǎo)致帶有不適當(dāng)語調(diào)的響應(yīng)。這一事件強(qiáng)調(diào)了在自適應(yīng)系統(tǒng)中實(shí)施驗(yàn)證過濾器、情感監(jiān)控和強(qiáng)健的反饋循環(huán)治理的重要性,以防止此類內(nèi)存中毒漏洞。
案例研究5:自主內(nèi)存代理中的系統(tǒng)提示漂移。在使用系統(tǒng)級內(nèi)存(如LangGraph或BabyAGI)的代理實(shí)驗(yàn)中,隨著時間的推移,系統(tǒng)提示開始漂移,這是由于自我附加的上下文內(nèi)存沒有被正確版本化或驗(yàn)證。這導(dǎo)致目標(biāo)幻覺和與初始意圖不一致的涌現(xiàn)行為。這些情況指向從提示累積和對內(nèi)存版本控制、審計(jì)跟蹤和重置機(jī)制的需求產(chǎn)生的風(fēng)險。
這些案例說明,將自主性、內(nèi)存和編排引入基于LLM的AI引入了一個擴(kuò)展的威脅面,這不能用傳統(tǒng)的LLM安全協(xié)議單獨(dú)緩解。隨著代理系統(tǒng)的發(fā)展,需要新的方法進(jìn)行嚴(yán)格的、系統(tǒng)范圍的威脅建模和運(yùn)行時保證,跨越多個代理、角色和內(nèi)存上下文。
五、代理型AI中的信任與可解釋性
代理型AI系統(tǒng)是高度自主的代理,能夠在沒有持續(xù)人類監(jiān)督的情況下做出決策和采取行動。這些系統(tǒng)對人類信任提出了獨(dú)特的挑戰(zhàn)和機(jī)遇。確保用戶和利益相關(guān)者對這類系統(tǒng)有信心對于它們在現(xiàn)實(shí)環(huán)境中的采用至關(guān)重要。兩個關(guān)鍵因素影響代理型AI的信任:代理決策過程的透明度和用人類可理解的術(shù)語解釋或證明其行動的能力。
在代理型AI系統(tǒng)中建立信任是用戶接受、系統(tǒng)可靠性和負(fù)責(zé)任部署的基礎(chǔ),尤其是隨著這些系統(tǒng)開始在醫(yī)療保健、金融和科學(xué)研究等關(guān)鍵領(lǐng)域做出自主決策。與傳統(tǒng)軟件代理不同,自主LLM代理的特點(diǎn)是自主推理、適應(yīng)性記憶和動態(tài)協(xié)作,這使它們的操作變得不透明且常常不可預(yù)測。因此,建立對此類系統(tǒng)的信任需要技術(shù)透明度、用戶反饋整合和強(qiáng)大的監(jiān)督機(jī)制的組合。
透明度和決策可追蹤性是信任的核心使能因素之一。為了讓用戶理解和評估代理決策,推理鏈、決策狀態(tài)和行動觸發(fā)器必須是可觀察的。一些代理系統(tǒng)現(xiàn)在正在集成決策可追蹤性,通過鏈?zhǔn)剿伎继崾竞妥越忉屇K等機(jī)制。例如,SciAgent生成科學(xué)摘要并通過檢索增強(qiáng)生成(RAG)將輸出鏈接到源文檔,提供證明。同樣,MetaGPT使用基于角色的輸出構(gòu)建其推理,每個代理(例如規(guī)劃師、編碼員)明確說明其任務(wù)執(zhí)行背后的邏輯,創(chuàng)建模塊化可解釋性。
狀態(tài)報告和進(jìn)展可見性也同樣重要。人類協(xié)作者通常需要了解代理在做什么,為什么任務(wù)需要更長時間,或者代理如何解釋模糊的指令。像AutoGen和ChatDev這樣的工具已經(jīng)整合了結(jié)構(gòu)化聊天界面,代理在其中總結(jié)它們的中間進(jìn)展、決策和遇到的錯誤。
人機(jī)協(xié)作監(jiān)督進(jìn)一步增強(qiáng)信任。允許人類用戶審核、編輯或批準(zhǔn)代理生成的輸出不僅防止錯誤,還表明系統(tǒng)尊重用戶權(quán)威。許多系統(tǒng)采用人機(jī)協(xié)作范式,代理在執(zhí)行高風(fēng)險或不可逆行動前請求確認(rèn)。
行為一致性和有界自主性也很關(guān)鍵。信任需要可預(yù)測性。代理應(yīng)遵循定義的角色,以預(yù)期格式輸出,并保持在授權(quán)范圍內(nèi)。比如,在用于自動化數(shù)據(jù)分析的企業(yè)AI平臺中,代理可能生成洞見或儀表板,但在領(lǐng)域?qū)<覍徍瞬牧锨巴七t發(fā)布。同樣,在像ChemCrow這樣的自主研究助手中,代理暫停以允許化學(xué)家在繼續(xù)前驗(yàn)證提議的反應(yīng)或數(shù)據(jù)管道,增強(qiáng)安全部署。
超越系統(tǒng)級機(jī)制,行為一致性和有界自主性至關(guān)重要。如果代理行為不可預(yù)測或不一致,即使技術(shù)上正確,用戶也不太可能信任它。行為對齊機(jī)制,如預(yù)定義的角色協(xié)議、輸出風(fēng)格一致性和語言建模約束,有助于標(biāo)準(zhǔn)化響應(yīng)。在使用AI導(dǎo)師的自適應(yīng)教育平臺中,代理可能被允許修改課程計(jì)劃,但不能更改評分標(biāo)準(zhǔn),保持機(jī)構(gòu)信任邊界。
最后,社交信任提示,如禮貌語言、輪流和協(xié)作姿態(tài),已被證明在強(qiáng)化非專家環(huán)境下的用戶信任方面有前景。研究表明,當(dāng)代理表達(dá)不確定性("我不確定,但這是我找到的內(nèi)容")而不是過度自信時,用戶更信任代理。這已在配置了安全調(diào)整指令集的GPT-4等模型中實(shí)現(xiàn),提高了可靠性感知而不損害能力。
這些機(jī)制共同形成了代理型AI的分層信任策略。隨著自主性和復(fù)雜性的增加,結(jié)合透明度、監(jiān)督和社交對齊將對維持用戶信心至關(guān)重要。
就可解釋性技術(shù)而言,可解釋性仍然是在代理型AI系統(tǒng)中培養(yǎng)信任、問責(zé)制和可靠性的基石,特別是當(dāng)它們在高風(fēng)險環(huán)境中運(yùn)行,多代理協(xié)調(diào)和自主決策直接影響人類生活時。與傳統(tǒng)AI系統(tǒng)相比,代理型AI引入了獨(dú)特的可解釋性挑戰(zhàn),因?yàn)槠浞稚⒓軜?gòu)、動態(tài)角色分配和在多個交互代理之間不斷發(fā)展的任務(wù)分解。
LIME和SHAP等局部后續(xù)技術(shù)是廣泛采用的技術(shù),提供后續(xù)可解釋性。LIME使用可解釋的代理模型在局部近似黑盒模型,而SHAP通過Shapley值將預(yù)測歸因于輸入特征。這些技術(shù)已整合到代理管道中,特別是在金融和多代理欺詐檢測系統(tǒng)中,其中特征級透明度支持監(jiān)管合規(guī)。然而,它們在代理型AI中的直接應(yīng)用是有限的。每個代理可能以自己的目標(biāo)、上下文和工具訪問權(quán)限運(yùn)行,導(dǎo)致不同的決策路徑,局部技術(shù)難以協(xié)調(diào)。
涌現(xiàn)行為帶來了另一個挑戰(zhàn):單個代理的可解釋性并不一定意味著整個系統(tǒng)的可解釋性。在像ChatDev或AutoGen這樣的平臺中,代理模擬專門角色(如工程師、審閱者),追蹤最終行動回到其源代理通常是非常困難的。為了解決這個問題,研究人員提出了將局部解釋與全局決策可追蹤性相結(jié)合的復(fù)合框架。例如,決策來源圖可視化代理間的通信流和相互依賴性,而因果影響鏈跟蹤操作在角色之間的傳播。為多代理設(shè)置調(diào)整的SHAP技術(shù)現(xiàn)在旨在將結(jié)果歸因于共享內(nèi)存和代理協(xié)作。
另一個有前景的方向是在混合架構(gòu)中使用固有可解釋的模塊,如基于規(guī)則的規(guī)劃器和決策樹。這些代理提供內(nèi)置可解釋性,同時保留LLM對更廣泛上下文理解的生成能力。這種設(shè)計(jì)越來越多地用于優(yōu)先考慮結(jié)構(gòu)和可解釋性的領(lǐng)域,如教育AI或任務(wù)規(guī)劃。
注意力圖可視化已用于突顯多模態(tài)語言代理中的焦點(diǎn)區(qū)域,提供輕量級但信息豐富的模型行為洞察。提示審計(jì)跟蹤記錄提示歷史、代理操作和響應(yīng)元數(shù)據(jù)也已獲得關(guān)注。這些機(jī)制支持系統(tǒng)調(diào)試、安全評估和人機(jī)協(xié)作微調(diào)在多代理環(huán)境中。
盡管這些進(jìn)展,在代理型AI系統(tǒng)中實(shí)現(xiàn)強(qiáng)大的可解釋性仍然是一個開放的研究問題。許多技術(shù)關(guān)注孤立的預(yù)測或模塊,無法捕捉系統(tǒng)級動態(tài)。未來工作應(yīng)優(yōu)先考慮代理交互間的縱向可解釋性、因果推理管道和支持實(shí)時透明度的交互查詢接口。
六、代理型AI系統(tǒng)的評估指標(biāo)
代理型AI系統(tǒng)需要超越傳統(tǒng)準(zhǔn)確性的全面評估。我們概述了五個關(guān)鍵類別的指標(biāo):可信度、可解釋性、以用戶為中心的性能、協(xié)調(diào)和綜合分?jǐn)?shù),每個類別都捕捉了代理型AI性能的不同方面及其現(xiàn)實(shí)世界的含義。
可信度評估代理的可靠性、安全性和道德一致性。一個可信的代理始終產(chǎn)生正確和無偏見的結(jié)果,遵守約束,并避免有害或不可預(yù)測的行為??尚哦戎笜?biāo)包括在不同條件下的任務(wù)成功率(衡量魯棒性)、安全或道德準(zhǔn)則的違反率(應(yīng)該是最小的)以及代理信心校準(zhǔn)(代理自我報告的信心與實(shí)際準(zhǔn)確性的一致程度)。一些方法將這些因素組合成一個整體信任分?jǐn)?shù)。例如,一個模型定義可信度分?jǐn)?shù)T為T=(C+R+I)/S,其中C是代理的可信度(輸出的準(zhǔn)確性和正確性),R是可靠性(隨時間的一致性能),I是用戶對齊或交流水平(類似于信任建模中的"親密度"),S是自我導(dǎo)向(代理追求自己目標(biāo)而非用戶目標(biāo)的程度)。更高的T表示代理準(zhǔn)確、一致、用戶對齊且不自私,對應(yīng)于更高的可信度。實(shí)際上,實(shí)現(xiàn)高可信度意味著代理按照道德AI原則(如公平性和問責(zé)制)以可預(yù)測和透明的方式行事。
可解釋性指標(biāo)評估代理決策對人類的可理解和可追蹤程度。這些指標(biāo)關(guān)注代理為其行動提供的理由的清晰度和完整性。例如,可以測量解釋覆蓋率(帶有充分解釋的決策或輸出的百分比)和解釋保真度(解釋準(zhǔn)確反映真實(shí)推理或模型邏輯的程度)。對類似場景的解釋一致性是另一個重要指標(biāo):代理應(yīng)以類似方式解釋可比決策,表明穩(wěn)定的推理過程。在定量方面,像OpenXAI這樣的方法提供了一套指標(biāo)來評估解釋質(zhì)量,包括忠實(shí)度、穩(wěn)定性和公平性等維度。高可解釋性建立用戶信任,因?yàn)橛脩艨梢愿櫞碜龀鰶Q策的原因,并有助于調(diào)試,揭示代理的內(nèi)部決策過程。在受監(jiān)管領(lǐng)域(如醫(yī)療保健或金融),可解釋性通常對合規(guī)和用戶接受至關(guān)重要。
以用戶為中心的指標(biāo)捕捉AI代理與用戶交互和滿足用戶需求的有效程度。這些標(biāo)準(zhǔn)強(qiáng)調(diào)用戶體驗(yàn)和結(jié)果。關(guān)鍵指標(biāo)包括用戶滿意度評分,通常通過交互后的調(diào)查或反饋收集,反映用戶目標(biāo)是否達(dá)成以及他們對代理行為的舒適度。從用戶角度看的任務(wù)成功(代理是否滿足了用戶的請求或解決了用戶的問題?)是一個基本衡量標(biāo)準(zhǔn)。
此外,像需要的來回澄清查詢數(shù)量(越少表示代理很好地理解了用戶)和對話流的連貫性或自然性等交互指標(biāo)也有助于以用戶為中心的評估。人機(jī)協(xié)作評估通常在這里采用:例如,用戶研究可能根據(jù)有用性、語言的清晰度和自然性以及對用戶指令的遵守等標(biāo)準(zhǔn)對代理進(jìn)行評分。最終,以用戶為中心的代理系統(tǒng)應(yīng)將其行動與用戶意圖和偏好對齊。
像ChatDev這樣的基準(zhǔn),模擬多代理軟件開發(fā)團(tuán)隊(duì)通過自然語言交互,隱含地評估代理如何在協(xié)作項(xiàng)目中履行用戶定義的角色和需求。這突顯了用戶導(dǎo)向成功在復(fù)雜、現(xiàn)實(shí)任務(wù)中的重要性。
協(xié)調(diào)(多代理或模塊化)指標(biāo)在代理型AI系統(tǒng)由多個協(xié)作代理或模塊化組件組成的情況下,協(xié)調(diào)指標(biāo)衡量這些部分如何有效地共同工作。良好的協(xié)調(diào)意味著代理共享信息,在沒有沖突或冗余的情況下分工,并有效地匯聚解決方案。
定量衡量包括協(xié)作任務(wù)的團(tuán)隊(duì)成功率(代理組是否實(shí)現(xiàn)了整體目標(biāo))和通信效率指標(biāo)(例如,代理之間達(dá)成決策所需的消息或迭代數(shù)量,更少通常表示更有效的交互)。
一個具體例子是組件協(xié)同分?jǐn)?shù)(CSS),它計(jì)算或權(quán)衡代理之間的有效交互,反映每個代理的行動如何補(bǔ)充其他代理(更高的CSS意味著代理具有協(xié)同性,而不是相互抵觸)。像ChatDev和MetaGPT這樣的多代理框架為這些指標(biāo)提供了實(shí)際測試平臺:它們編排專門的代理(例如,軟件工程管道中的不同角色),這些代理必須協(xié)作完成復(fù)雜項(xiàng)目。
在這些框架上的評估檢查代理是否保持一致的共享計(jì)劃,是否順利處理代理間依賴關(guān)系,以及是否從誤解中恢復(fù)。例如,如果一個代理生成計(jì)劃,另一個執(zhí)行,協(xié)調(diào)指標(biāo)將評估執(zhí)行代理是否正確遵循規(guī)劃者的意圖,以及兩個代理在整個過程中是否保持一致。高協(xié)調(diào)分?jǐn)?shù)表明代理系統(tǒng)作為一個凝聚的整體運(yùn)行,這對超出任何單個代理能力的復(fù)雜任務(wù)至關(guān)重要。
綜合指標(biāo)是聚合多個評估方面到單一整體分?jǐn)?shù)的指標(biāo)。這些在比較不同系統(tǒng)時很有用,特別是在進(jìn)行基準(zhǔn)測試時。綜合指標(biāo)通常是上述類別的加權(quán)組合,例如:
Mcomposite = wTMT + wEME + wUMU + wCMC
其中MT、ME、MU、MC分別是可信度、可解釋性、以用戶為中心的性能和協(xié)調(diào)的標(biāo)準(zhǔn)化分?jǐn)?shù)(在共同尺度上),而wT、wE、wU、wC是反映給定應(yīng)用中每個方面相對重要性的權(quán)重。權(quán)重wi的選擇可以是特定領(lǐng)域的(例如,在醫(yī)療保健應(yīng)用中,可信度和可解釋性可能被賦予更高的權(quán)重,而不是原始效率)。
代理環(huán)境中專門綜合指標(biāo)的一個例子是工具利用效率(TUE)分?jǐn)?shù),它結(jié)合了評估代理如何正確和高效使用外部工具(包括正確的工具選擇和工具調(diào)用中的正確參數(shù)使用)的子指標(biāo)。通過濃縮多個標(biāo)準(zhǔn),綜合指標(biāo)使代理系統(tǒng)的高級比較和基準(zhǔn)測試成為可能。例如,AgentBench是一個全面的基準(zhǔn),評估代理在各種任務(wù)和環(huán)境中的表現(xiàn)(從操作系統(tǒng)操作到網(wǎng)絡(luò)購物),有效提供代理的綜合性能概況。
這種聚合分?jǐn)?shù)突顯了代理是否全面表現(xiàn)強(qiáng)勁,或者它是否在某些方面表現(xiàn)出色而在其他方面表現(xiàn)不佳。解釋綜合分?jǐn)?shù)時,考慮其組成部分很重要:單一數(shù)字可能掩蓋特定弱點(diǎn)(例如,代理可能通過在任務(wù)完成和協(xié)調(diào)方面表現(xiàn)良好而獲得高總體分?jǐn)?shù),但仍然具有較差的可解釋性)。因此,綜合指標(biāo)在伴隨代理按類別的性能細(xì)分時最具信息性。
七、LLM多智能體架構(gòu)的安全與隱私
代理型AI系統(tǒng),由松散耦合但協(xié)同運(yùn)作的基于LLM的代理組成,相比傳統(tǒng)AI代理引入了一個擴(kuò)展的攻擊面。確保此類系統(tǒng)的安全需要一個多層防御架構(gòu),解決數(shù)據(jù)保護(hù)、執(zhí)行完整性、代理間通信和模型魯棒性。這就像一個復(fù)雜的安全系統(tǒng),不僅要保護(hù)建筑物,還要監(jiān)督員工之間的互動,并確保所有人都遵循安全協(xié)議。
在基本安全機(jī)制中,加密在保護(hù)代理之間交換的數(shù)據(jù)方面起著關(guān)鍵作用,特別是當(dāng)涉及敏感或受監(jiān)管內(nèi)容(如醫(yī)療記錄、金融數(shù)據(jù))時。代理工作流程通常包括部分處理結(jié)果、模型或提示的代理間交接。像SSL/TLS、同態(tài)加密和安全飛地(如Intel SGX)這樣的實(shí)現(xiàn)越來越多地集成到代理型AI管道中,以確??缦鬟f協(xié)議的機(jī)密性。
當(dāng)編排器或共享內(nèi)存模塊管理具有不同能力和職責(zé)的代理的權(quán)限時,訪問控制變得至關(guān)重要。例如,在像AutoGen和CrewAI這樣的系統(tǒng)中,代理承擔(dān)專門角色(如總結(jié)器、規(guī)劃師、編碼器),執(zhí)行最小權(quán)限原則可防止權(quán)限升級和未授權(quán)工具調(diào)用?;诖淼脑L問控制政策通常與基于角色的訪問控制(RBAC)和基于屬性的訪問控制(ABAC)范式一致,可以根據(jù)上下文信任級別動態(tài)限制哪些代理可以訪問敏感API、文件或內(nèi)存緩沖區(qū)。
對抗性魯棒性是一個日益關(guān)注的領(lǐng)域,因?yàn)榛贚LM的代理容易受到提示注入、通過中毒工具輸出的操縱,或通過格式錯誤的中間結(jié)果的協(xié)調(diào)中斷。最近的研究表明,多代理LLM框架可能會因?yàn)橐粋€受損代理傳播誤導(dǎo)信息給其他代理而不穩(wěn)定。對抗性訓(xùn)練方法,如輸入擾動、獎勵塑造和對比學(xué)習(xí),可以部分緩解這些漏洞。集成安全約束和在執(zhí)行前驗(yàn)證工具響應(yīng)也是有效的緩解策略。
運(yùn)行時監(jiān)控系統(tǒng)支持檢測異常代理行為,特別是在像自動化醫(yī)療保健或網(wǎng)絡(luò)安全這樣的高風(fēng)險領(lǐng)域?;谌罩镜膶徲?jì)、使用LSTM或自動編碼器的異常檢測,以及代理間的信任評分成為實(shí)時監(jiān)控層的關(guān)鍵組件。例如,Microsoft的Copilot治理層監(jiān)控跨會話的異常代理行為,以確保合規(guī)執(zhí)行并標(biāo)記潛在有害的交互。
隨著代理型AI繼續(xù)擴(kuò)展到關(guān)鍵任務(wù)領(lǐng)域,開發(fā)標(biāo)準(zhǔn)化、可擴(kuò)展的安全機(jī)制將至關(guān)重要。未來的方法必須包括零信任框架、安全多方計(jì)算和代理間協(xié)議的形式化驗(yàn)證,以確保跨分散式自主代理集體的安全和彈性操作。
在隱私保護(hù)技術(shù)方面,LLM代理型AI系統(tǒng)的分散和交互性質(zhì)引入了新的隱私挑戰(zhàn),特別是當(dāng)代理持續(xù)通信、訪問外部數(shù)據(jù)源和存儲情景或共享內(nèi)存時。為確保數(shù)據(jù)機(jī)密性和保護(hù)個人身份信息(PII),代理型AI系統(tǒng)必須采用強(qiáng)大的隱私保護(hù)技術(shù),如差分隱私、數(shù)據(jù)最小化和安全計(jì)算。
差分隱私(DP)通過在輸出中注入統(tǒng)計(jì)噪聲提供數(shù)學(xué)基礎(chǔ)保證,確保個人用戶貢獻(xiàn)不能被重新識別。在多代理LLM系統(tǒng)中,DP可以在訓(xùn)練期間或在代理交換信息時的推理時應(yīng)用。例如,Google在聯(lián)邦學(xué)習(xí)框架中實(shí)現(xiàn)的DP可以擴(kuò)展到分布式代理系統(tǒng),代理協(xié)作訓(xùn)練或微調(diào)本地模型而不暴露原始數(shù)據(jù)。DP-SGD和隱私預(yù)算(ε-差分)可以在實(shí)時決策代理中的策略更新或協(xié)作規(guī)劃期間監(jiān)管信息暴露。
數(shù)據(jù)最小化是隱私保護(hù)的另一個基石。代理型AI系統(tǒng)可以通過限制任務(wù)執(zhí)行期間收集或保留的數(shù)據(jù)范圍、粒度和持續(xù)時間來減輕暴露風(fēng)險。例如,像ChatDev或基于ReAct的管道中使用的臨時內(nèi)存緩沖區(qū)在子目標(biāo)完成后被清除,防止不必要的用戶數(shù)據(jù)持久存儲。此外,匿名化和假名化技術(shù)可以在數(shù)據(jù)傳遞給代理或存儲在共享內(nèi)存?zhèn)}庫之前,幫助移除標(biāo)識特征。
安全計(jì)算技術(shù)包括安全多方計(jì)算(SMPC)、同態(tài)加密和可信執(zhí)行環(huán)境(TEE),使代理能夠在不損害隱私的情況下執(zhí)行加密或混淆數(shù)據(jù)的計(jì)算。在代理跨不同組織邊界協(xié)作的情況下(例如,聯(lián)邦醫(yī)療代理或跨筒倉工業(yè)代理),SMPC允許聯(lián)合計(jì)算,如診斷或異常檢測,而不會數(shù)據(jù)泄漏。雖然計(jì)算成本高,但同態(tài)加密越來越多地被探索,以允許對RAG工作流程中使用的加密向量進(jìn)行算術(shù)運(yùn)算。
隱私設(shè)計(jì)原則正成為下一代代理系統(tǒng)工程的核心。架構(gòu)現(xiàn)在嵌入用戶同意層、可配置隱私設(shè)置和內(nèi)存編輯模塊,允許終端用戶或系統(tǒng)管理員控制代理可以記住或共享的內(nèi)容。隨著代理型AI擴(kuò)展到個性化教育、醫(yī)療保健和金融等領(lǐng)域,確保尊重隱私的行為對監(jiān)管合規(guī)(如GDPR、HIPAA)和公眾信任至關(guān)重要。
隨著代理型AI系統(tǒng)在能力和自主性方面的增長,確保監(jiān)管合規(guī)并建立強(qiáng)大的治理機(jī)制變得勢在必行。與傳統(tǒng)AI代理不同,代理系統(tǒng)以更大的自主性、持久內(nèi)存和復(fù)雜決策流程運(yùn)行,需要分層監(jiān)督來管理法律、道德和社會影響。有效的治理在這種情境下跨越三個關(guān)鍵維度:遵守監(jiān)管標(biāo)準(zhǔn)、系統(tǒng)級可審計(jì)性和可執(zhí)行的政策框架。
監(jiān)管標(biāo)準(zhǔn)為所有AI系統(tǒng),包括代理架構(gòu),提供了基線要求。像NIST AI風(fēng)險管理框架和歐盟AI法案這樣的框架定義了可信AI的原則,包括透明度、問責(zé)制和公平性。這些標(biāo)準(zhǔn)對于在醫(yī)療保健、金融、國防或交通等高風(fēng)險領(lǐng)域交互的LLM代理型AMAS特別相關(guān)。例如,歐盟AI法案將某些自主系統(tǒng)歸類為"高風(fēng)險",要求持續(xù)風(fēng)險監(jiān)控、決策邏輯記錄和人類監(jiān)督機(jī)制——直接與代理型AI相關(guān)的屬性。
可審計(jì)性對確保透明度和促進(jìn)事后問責(zé)至關(guān)重要。代理系統(tǒng)內(nèi)的每個決策、計(jì)劃或交互都應(yīng)記錄時間戳、上下文、代理角色和理由。技術(shù)如決策來源和行動可追蹤性使這成為可能,允許監(jiān)管機(jī)構(gòu)或內(nèi)部審計(jì)員重建決策是如何達(dá)成的。例如,在像AutoGen或MetaGPT這樣的系統(tǒng)中,代理承擔(dān)專門角色(如研究員、編碼員、審閱員),審計(jì)跟蹤可以捕獲特定于角色的行動并標(biāo)記不一致、偏見放大或安全違規(guī)。區(qū)塊鏈審計(jì)日志也正在探索,以確保多代理交互的不可變性和可驗(yàn)證性。
政策執(zhí)行管理代理系統(tǒng)可以和不能做什么,以及在什么條件下。這些政策必須編碼到管理代理交互的編排層或元代理治理模塊中。例如,執(zhí)行內(nèi)存過期政策以避免數(shù)據(jù)保留違規(guī)或根據(jù)角色和認(rèn)證級別限制對外部工具的訪問?;诮巧脑L問控制(RBAC)和基于屬性的訪問控制(ABAC)對于跨代理子組件執(zhí)行差異化權(quán)限至關(guān)重要。此外,實(shí)時監(jiān)控系統(tǒng)可以暫?;驑?biāo)記偏離預(yù)先規(guī)定道德約束或操作邊界的代理活動,使用如TLA+這樣的形式驗(yàn)證工具或符號執(zhí)行引擎。
新興最佳實(shí)踐還包括創(chuàng)建AI治理委員會,采用治理即代碼平臺,以及集成隨著代理系統(tǒng)擴(kuò)展或改變上下文而發(fā)展的自適應(yīng)治理層。這些實(shí)踐旨在滿足不僅是當(dāng)前的標(biāo)準(zhǔn),如ISO/IEC 42001為AI管理系統(tǒng),還為未來的監(jiān)管演變做準(zhǔn)備。
八、總結(jié)與展望
我們對基于TRiSM的LLM代理型AI系統(tǒng)治理的探索揭示了關(guān)于技術(shù)設(shè)計(jì)、道德監(jiān)督、監(jiān)管一致性和未來挑戰(zhàn)的關(guān)鍵見解。以下是對主要發(fā)現(xiàn)的更廣泛含義的討論,結(jié)構(gòu)化為關(guān)鍵領(lǐng)域,以清晰明了。
在技術(shù)方面,AI TRiSM框架(信任、風(fēng)險和安全管理)對自主LLM驅(qū)動代理的構(gòu)建和部署提出了具體的技術(shù)要求。核心啟示是需要將實(shí)時監(jiān)控和控制機(jī)制嵌入到代理架構(gòu)中。TRiSM鼓勵使用持續(xù)監(jiān)督"護(hù)欄"來檢測模型行為的異常,而不是將LLM代理視為黑盒決策者。
例如,有人討論設(shè)計(jì)專門的"守護(hù)代理",這些代理作為主動監(jiān)視器過濾敏感數(shù)據(jù)并建立正常行為基線,而操作代理在運(yùn)行時動態(tài)執(zhí)行策略(例如,阻止輸出個人身份信息等不允許的操作)。這種分層控制策略轉(zhuǎn)變了技術(shù)架構(gòu):自主LLM代理現(xiàn)在由監(jiān)督其輸入、輸出和工具使用的元代理實(shí)時補(bǔ)充。
先前研究強(qiáng)調(diào)了"過度代理性"的風(fēng)險,即LLM在給予過多自主權(quán)或工具訪問權(quán)時可能通過幻覺或誤解目標(biāo)產(chǎn)生意外有害行為。TRiSM驅(qū)動的代理設(shè)計(jì)通過在定義明確的安全邊界內(nèi)約束代理自主性來緩解這些故障模式。同樣,代理型AI特有的新興威脅,如提示注入攻擊、內(nèi)存中毒或級聯(lián)幻覺,強(qiáng)調(diào)了需要內(nèi)置風(fēng)險控制。通過將異常檢測和策略檢查模塊整合到代理架構(gòu)中,LLM代理可以檢測正常行為的偏差,并自動提醒人類或中和威脅(例如,掩蓋敏感數(shù)據(jù)或停止不安全操作)。
總而言之,TRiSM的技術(shù)含義意味著自主LLM代理不應(yīng)再被部署為獨(dú)立的智能角色;相反,它們在監(jiān)視器、驗(yàn)證器和執(zhí)行代理的主動治理框架下運(yùn)行,確保值得信賴和安全的設(shè)計(jì)。
在倫理和社會方面,超越技術(shù)問題,部署自主LLM代理網(wǎng)絡(luò)引發(fā)了緊迫的倫理和社會問題。應(yīng)用TRiSM在這種情境下強(qiáng)調(diào)了問責(zé)制、人類監(jiān)督和公平的原則,所有這些對公眾對AI系統(tǒng)的信任都至關(guān)重要。一個中心關(guān)注點(diǎn)是問責(zé)制:當(dāng)AI代理做出影響人類的自主決策時,誰來負(fù)責(zé)結(jié)果?TRiSM基于治理堅(jiān)持組織保留對其AI行為的明確責(zé)任,而不是將責(zé)任掩蓋在算法"黑盒"后面。這意味著實(shí)施審計(jì)跟蹤和可解釋的決策日志,以便任何有害或有偏見的結(jié)果都可以被追蹤和歸因。
在實(shí)踐中,我們的方法意味著每個自主代理的決策應(yīng)該足夠透明,以便在必要時被人類審閱者理解和質(zhì)疑。人類監(jiān)督是另一個與問責(zé)制緊密耦合的倫理命令。TRiSM并不尋求消除人類參與;相反,它提供了一個結(jié)構(gòu)化方法,讓人類和AI代理在定義的治理下協(xié)作。人類操作員或"AI管理者"必須有能力在代理行為偏離可接受界限時進(jìn)行干預(yù)或覆蓋,或者當(dāng)需要道德判斷時。
事實(shí)上,高級政策框架(如歐盟的AI倫理指南)明確呼吁AI系統(tǒng)中的"人類能動性和監(jiān)督"。在多代理設(shè)置中,這可能涉及人類可以實(shí)時監(jiān)控代理群的儀表板界面,暫?;蜿P(guān)閉表現(xiàn)異常的代理,并即時調(diào)整策略。"用戶輕信"的風(fēng)險,過度信任自主代理,已被注意到是一個危險。TRiSM治理通過正式化監(jiān)督角色和確保沒有AI在沒有適當(dāng)人類或監(jiān)管監(jiān)督的情況下運(yùn)行來應(yīng)對這一點(diǎn)。
公平性和偏見緩解也是關(guān)鍵的社會考量。因此,我們的治理方法整合了整個代理生命周期的偏見審計(jì)和公平性檢查。技術(shù)如部署前偏見測試、持續(xù)監(jiān)控不同影響和多樣化利益相關(guān)者評估小組可以被采用。這些措施呼應(yīng)監(jiān)管期望;歐盟的AI法案和相關(guān)指南列舉了"多樣性、非歧視和公平性"作為可信AI的核心要求。在部署LLM基于代理,我們必須確保它們不會不公平地對待個人或群體,例如,內(nèi)容過濾代理應(yīng)統(tǒng)一應(yīng)用策略跨人口統(tǒng)計(jì)群體,而任務(wù)規(guī)劃代理不應(yīng)傳播資源分配決策中的歷史偏見。
總之,TRiSM導(dǎo)向的治理延伸超越預(yù)防技術(shù)故障:它尋求維護(hù)倫理規(guī)范和人權(quán),確保自主性在AI中不會以正義、透明度或人類尊嚴(yán)為代價。
在監(jiān)管方面,TRiSM中嵌入的原則與新興的AI監(jiān)管框架密切一致。這種趨同意味著采用TRiSM基于治理可以幫助組織滿足新的法律義務(wù)和行業(yè)標(biāo)準(zhǔn)。例如,歐盟的AI法案(將在2026年全面適用)要求對"高風(fēng)險"AI系統(tǒng)進(jìn)行嚴(yán)格的風(fēng)險管理、透明度、數(shù)據(jù)治理和人類監(jiān)督。這些正是TRiSM方法培養(yǎng)的能力。
通過建立持續(xù)風(fēng)險評估、記錄AI決策過程和監(jiān)督機(jī)制,基于TRiSM治理的多代理系統(tǒng)本質(zhì)上解決了歐盟法案的許多要求(例如,擁有風(fēng)險管理系統(tǒng)和AI的上市后監(jiān)控)。值得注意的是,該法案還強(qiáng)調(diào)了高風(fēng)險AI的準(zhǔn)確性、穩(wěn)健性和網(wǎng)絡(luò)安全,這些品質(zhì)TRiSM的安全管理組件旨在確保(通過對抗性彈性、訪問控制等)。
同樣,國際AI治理標(biāo)準(zhǔn)正在出現(xiàn),反映了TRiSM的準(zhǔn)則。ISO/IEC 42001:2023,第一個全球AI管理系統(tǒng)標(biāo)準(zhǔn),強(qiáng)調(diào)了透明度、問責(zé)制、偏見緩解、安全性和隱私等要求。TRiSM的信任和風(fēng)險管理焦點(diǎn)自然包含這些元素:例如,TRiSM中的信任與可靠、真實(shí)的輸出(促進(jìn)透明度)相關(guān),而明確的風(fēng)險管理與對負(fù)面結(jié)果的問責(zé)相一致。
通過實(shí)施TRiSM,組織實(shí)質(zhì)上建立了ISO 42001和類似標(biāo)準(zhǔn)要求的過程(例如,領(lǐng)導(dǎo)監(jiān)督、記錄風(fēng)險控制、持續(xù)監(jiān)控和改進(jìn)周期)。另一個例子是美國NIST AI風(fēng)險管理框架,它強(qiáng)調(diào)了許多相同的概念:識別風(fēng)險、嵌入治理和培養(yǎng)值得信賴。
通過遵循TRiSM指南:例如,維護(hù)所有使用中的模型/代理及其目的的"AI目錄",通過哨兵/操作代理執(zhí)行策略,并記錄每個AI決策,組織創(chuàng)建了一個審計(jì)就緒環(huán)境。在事件或詢問當(dāng)局的情況下,他們可以展示其自主代理的可追蹤性和控制,這對監(jiān)管合規(guī)和責(zé)任管理至關(guān)重要。
關(guān)于局限性和當(dāng)前研究差距,雖然TRiSM基于方法看起來很有前景,但我們的工作也揭示了幾個局限性和現(xiàn)有研究中的開放挑戰(zhàn)。
首先,基準(zhǔn)評估的限制構(gòu)成了一個問題。AI安全和代理治理社區(qū)缺乏廣泛接受的基準(zhǔn)來定量評估多代理LLM系統(tǒng)中的可信度或風(fēng)險。與經(jīng)典AI領(lǐng)域(視覺、NLP)有標(biāo)準(zhǔn)測試套件不同,沒有共識衡量"AI代理"按TRiSM原則安全運(yùn)行的能力。這使得難以比較不同的治理策略或客觀跟蹤進(jìn)展。我們鼓勵未來工作開發(fā)評估框架,可能擴(kuò)展自對抗性攻擊模擬或"紅隊(duì)"演習(xí),可以壓力測試代理系統(tǒng)并評分它們的彈性(例如,測量提示注入攻擊的成功率或監(jiān)督代理捕獲的策略違規(guī)頻率)。
其次,許多TRiSM啟發(fā)的控制缺乏真實(shí)世界驗(yàn)證。許多現(xiàn)有文獻(xiàn)和工具用于LLM代理安全已在實(shí)驗(yàn)室環(huán)境或狹窄范圍的任務(wù)上演示。仍然不確定這些治理機(jī)制在復(fù)雜、開放式真實(shí)世界環(huán)境中的表現(xiàn)。此外,將TRiSM與遺留系統(tǒng)集成構(gòu)成了實(shí)際挑戰(zhàn),例如,先前的工作注意到將信任/安全層嵌入到現(xiàn)有AI管道時的兼容性問題。這表明需要進(jìn)一步的工程研究,探討當(dāng)前AI部署如何適應(yīng)TRiSM控制。
對抗性魯棒性是另一個關(guān)鍵差距。隨著我們改進(jìn)防御,攻擊者也會不可避免地適應(yīng)。最近的發(fā)現(xiàn)表明,基于LLM的系統(tǒng)仍然容易受到精心設(shè)計(jì)的攻擊(例如,隱藏的提示注入或微妙的數(shù)據(jù)中毒),這些攻擊可以繞過表面護(hù)欄。例如,設(shè)計(jì)為掩蓋秘密數(shù)據(jù)的代理可能在監(jiān)督邏輯未能預(yù)測新攻擊模式時,被欺騙披露信息。文獻(xiàn)識別"不斷發(fā)展的威脅"和"對抗性攻擊"作為可信AI的持續(xù)障礙。這強(qiáng)調(diào)了任何TRiSM實(shí)施中需要持續(xù)更新和自適應(yīng)安全。
最后,組織和人為因素呈現(xiàn)出局限性:實(shí)施TRiSM需要跨學(xué)科專業(yè)知識(AI專家、安全專家、倫理學(xué)家、法律顧問)和明確的治理結(jié)構(gòu)。許多組織缺乏必要的技能集或框架,使TRiSM采用表面化或不一致。沒有強(qiáng)大的組織承諾,即使是最好的技術(shù)框架也可能失敗。
在未來的路線圖方面,基于我們的發(fā)現(xiàn)和多學(xué)科最佳實(shí)踐,我們提出了幾個未來研究和實(shí)施的可行方向:
首先,開發(fā)標(biāo)準(zhǔn)化評估基準(zhǔn):社區(qū)應(yīng)創(chuàng)建開放基準(zhǔn)和挑戰(zhàn)環(huán)境來測試多代理AI治理。例如,一系列基于場景的任務(wù)(內(nèi)置威脅和道德困境)可用于評估TRiSM治理的代理系統(tǒng)相對于沒有此類控制的系統(tǒng)的表現(xiàn)。這將使直接比較和在可測量的信任指標(biāo)(例如,防止故障或公平結(jié)果的頻率)上驅(qū)動進(jìn)展。
其次,推進(jìn)對抗性魯棒性技術(shù):未來系統(tǒng)設(shè)計(jì)必須預(yù)測不斷發(fā)展的威脅格局。網(wǎng)絡(luò)安全(例如對抗性訓(xùn)練、AI模型"滲透測試"和形式化驗(yàn)證)的技術(shù)應(yīng)集成到LLM代理開發(fā)管道中。與安全專家的跨學(xué)科合作可以產(chǎn)生特定于LLM的強(qiáng)化方法,如動態(tài)提示異常探測器或約束代理行動的健壯工具API。此外,為AMAS創(chuàng)建紅隊(duì)/藍(lán)隊(duì)演習(xí),類似于網(wǎng)絡(luò)戰(zhàn)爭游戲,可以幫助在真正的對手之前發(fā)現(xiàn)漏洞。
第三,人為中心監(jiān)督工具:我們鼓勵設(shè)計(jì)更好的界面和協(xié)議用于人類監(jiān)督代理型AI。借鑒人機(jī)交互和認(rèn)知工程,研究人員可以設(shè)計(jì)儀表板,可視化代理社會的狀態(tài),標(biāo)記重要決策,并允許直觀的人類干預(yù)(暫停代理,回滾操作等)。
第四,監(jiān)管沙箱和合規(guī)設(shè)計(jì):政策制定者和行業(yè)應(yīng)合作創(chuàng)建多代理AI試驗(yàn)的監(jiān)管沙箱。這些將是控制環(huán)境,創(chuàng)新者可以在監(jiān)督下部署代理型AI,向監(jiān)管機(jī)構(gòu)展示TRiSM控制。從這些試點(diǎn)獲得的見解可以為技術(shù)標(biāo)準(zhǔn)和法規(guī)的改進(jìn)提供信息。此外,采用合規(guī)設(shè)計(jì)思維至關(guān)重要:未來AI系統(tǒng)設(shè)計(jì)應(yīng)從一開始就考慮歐盟AI法案和ISO 42001等框架的要求,而不是事后改裝它們。
最后,跨領(lǐng)域最佳實(shí)踐和倫理治理:有很多可以從其他高風(fēng)險領(lǐng)域?qū)W習(xí)。例如,安全工程領(lǐng)域(如航空航天、汽車)有成熟的冗余控制和故障模式分析實(shí)踐;這些可以激發(fā)AI代理設(shè)計(jì)的類似實(shí)踐。同樣,生物醫(yī)學(xué)研究中的倫理委員會為審查代理行為和批準(zhǔn)高風(fēng)險部署的AI倫理委員會提供了模板。我們提倡建立多學(xué)科治理委員會,包括倫理學(xué)家、法律專家、領(lǐng)域?qū)<液蜕鐓^(qū)代表,監(jiān)督重大的自主AI部署。
九、結(jié)論
基于TRiSM的治理為確保自主LLM驅(qū)動代理的可信賴、問責(zé)和安全提供了一個有前景的框架。我們的討論分析了這個框架如何影響技術(shù)設(shè)計(jì)決策,要求道德護(hù)欄,并與新興監(jiān)管制度協(xié)調(diào)。雖然當(dāng)前研究尚處起步階段且不無局限,但前進(jìn)的道路是明確的。通過嚴(yán)格測試這些系統(tǒng),加強(qiáng)它們抵御對手的能力,并與技術(shù)進(jìn)步一起制定政策和標(biāo)準(zhǔn),我們可以使強(qiáng)大的多代理AI系統(tǒng)在強(qiáng)大監(jiān)督下有益地運(yùn)作。賭注很高,但通過前瞻性、跨學(xué)科的方法,我們可以實(shí)現(xiàn)創(chuàng)新與責(zé)任和信任的平衡。隨著未來工作解決已確定的開放挑戰(zhàn),我們預(yù)計(jì)TRiSM原則將從概念最佳實(shí)踐過渡到代理型AI的標(biāo)準(zhǔn)操作程序,確保這些系統(tǒng)贏得并保持所有相關(guān)利益方的信心。
好文章,需要你的鼓勵
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學(xué)習(xí)外觀和運(yùn)動信息,顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運(yùn)動質(zhì)量,在多項(xiàng)測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報,準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。