這項(xiàng)由南加州大學(xué)的Murtaza Nazir、Matthew Finlayson、Xiang Ren、Swabha Swayamdipta以及康奈爾大學(xué)的John X. Morris聯(lián)合完成的研究發(fā)表于2025年6月的arXiv預(yù)印本平臺(tái)(論文編號(hào):arXiv:2506.17090v1)。對(duì)這項(xiàng)研究感興趣的讀者可以通過該編號(hào)在arXiv網(wǎng)站上查閱完整論文。
這項(xiàng)研究就像是給AI模型做了一次"讀心術(shù)"測(cè)試。我們都知道,AI聊天機(jī)器人在回答問題時(shí),除了你看到的回復(fù)文字外,背后還有一套隱藏的"內(nèi)心獨(dú)白"——這就是所謂的隱藏提示詞或系統(tǒng)消息。這些隱藏指令告訴AI該如何行為,比如"要禮貌回答"、"不要透露敏感信息"等等。研究團(tuán)隊(duì)發(fā)現(xiàn)了一種巧妙的方法,能夠通過分析AI輸出時(shí)的"語(yǔ)氣變化",反推出這些原本應(yīng)該保密的隱藏指令。
這個(gè)發(fā)現(xiàn)對(duì)AI安全具有重要意義。當(dāng)前許多AI應(yīng)用都依賴隱藏的系統(tǒng)提示來確保安全性,但這項(xiàng)研究表明,這種保護(hù)機(jī)制可能并不如我們想象的那么牢固。研究團(tuán)隊(duì)開發(fā)的新方法叫做PILS(從日志概率序列進(jìn)行提示反演),相比之前的技術(shù),能夠?qū)㈦[藏提示的恢復(fù)成功率提高2到3.5倍,在某些情況下甚至從17%提升到60%。
整個(gè)研究過程就像是在玩一個(gè)高級(jí)的"猜詞游戲"。傳統(tǒng)方法只看AI說出的第一個(gè)詞來猜測(cè)背后的指令,而新方法則觀察AI說話的整個(gè)過程——就像通過觀察一個(gè)人講話時(shí)的語(yǔ)調(diào)變化、停頓模式來猜測(cè)他心里在想什么。研究發(fā)現(xiàn),AI在生成回答的過程中會(huì)逐漸"泄露"關(guān)于原始指令的信息,就像一個(gè)人在講故事時(shí)不經(jīng)意間透露了故事的背景。
一、破解AI"內(nèi)心獨(dú)白"的新思路
傳統(tǒng)的AI模型反演技術(shù)就像是通過聽一個(gè)人說的第一句話來猜測(cè)他接到了什么指令。這種方法的局限性顯而易見——信息量太少,猜測(cè)準(zhǔn)確率自然不高。研究團(tuán)隊(duì)提出了一個(gè)關(guān)鍵洞察:AI模型在生成文本的過程中,每一步都會(huì)產(chǎn)生一個(gè)概率分布,顯示下一個(gè)可能出現(xiàn)的詞匯及其概率。這些概率信息就像是AI的"思考軌跡",包含了大量關(guān)于原始輸入的線索。
這個(gè)過程可以用看電影來類比。傳統(tǒng)方法就像只看電影的第一個(gè)鏡頭就要猜出整部電影的劇本,而新方法則是觀看電影的多個(gè)片段,從演員的表情變化、鏡頭切換、音樂節(jié)奏等多個(gè)維度來推斷劇本內(nèi)容。每一個(gè)新的片段都能提供額外的信息,讓推斷變得更加準(zhǔn)確。
研究團(tuán)隊(duì)發(fā)現(xiàn),AI模型的輸出實(shí)際上存在于一個(gè)低維子空間中。這聽起來很抽象,但可以這樣理解:雖然AI的詞匯表可能包含幾十萬個(gè)詞,但在任何特定時(shí)刻,真正有意義的信息只需要用幾千個(gè)數(shù)字就能完全表達(dá)。這就像是用一個(gè)小小的遙控器就能控制一臺(tái)復(fù)雜的電視機(jī)——你不需要同時(shí)按下所有按鈕,只需要幾個(gè)關(guān)鍵按鈕的組合就能實(shí)現(xiàn)所有功能。
基于這個(gè)發(fā)現(xiàn),研究團(tuán)隊(duì)設(shè)計(jì)了一種"壓縮"技術(shù)。傳統(tǒng)方法需要獲取AI模型對(duì)所有詞匯的概率評(píng)分,這可能涉及幾十萬個(gè)數(shù)字,成本高昂且效率低下。新方法只需要獲取幾千個(gè)關(guān)鍵數(shù)字,就能無損地重建完整的概率分布。這就像是用一種特殊的壓縮算法,能夠?qū)⒁徊扛咔咫娪皦嚎s成很小的文件,但播放時(shí)畫質(zhì)完全不受影響。
更令人驚訝的是,研究團(tuán)隊(duì)發(fā)現(xiàn)AI模型會(huì)在生成過程的不同階段透露不同的信息。有些隱藏指令的線索只有在AI生成了十幾個(gè)詞之后才會(huì)顯現(xiàn),就像一個(gè)人在談話過程中逐漸暴露自己的真實(shí)想法。這種"時(shí)間延遲泄露"現(xiàn)象解釋了為什么觀察多個(gè)生成步驟比只看第一步要有效得多。
二、技術(shù)創(chuàng)新:讓"讀心術(shù)"變得更精準(zhǔn)
新方法的核心技術(shù)創(chuàng)新在于對(duì)AI模型數(shù)學(xué)結(jié)構(gòu)的深入理解。研究團(tuán)隊(duì)證明了一個(gè)重要的數(shù)學(xué)定理:AI模型的概率輸出可以通過一個(gè)線性變換完全恢復(fù)其內(nèi)部的隱藏狀態(tài)。這個(gè)發(fā)現(xiàn)就像是找到了一把萬能鑰匙,能夠打開AI模型內(nèi)部思考過程的黑盒子。
具體來說,當(dāng)AI模型產(chǎn)生一個(gè)概率分布時(shí),這個(gè)分布中包含的信息實(shí)際上等價(jià)于模型內(nèi)部某個(gè)"思考狀態(tài)"的線性投影。通過逆向這個(gè)投影過程,研究團(tuán)隊(duì)能夠近似恢復(fù)出模型的原始思考狀態(tài)。這就像是通過觀察影子的形狀來推斷投射物體的三維結(jié)構(gòu)——雖然是間接的,但在數(shù)學(xué)上是可行的。
研究團(tuán)隊(duì)使用了一種叫做"加性對(duì)數(shù)比變換"的數(shù)學(xué)工具來處理概率數(shù)據(jù)。這個(gè)聽起來復(fù)雜的名詞其實(shí)對(duì)應(yīng)一個(gè)簡(jiǎn)單的想法:將概率信息轉(zhuǎn)換成普通的數(shù)字,這樣就能用標(biāo)準(zhǔn)的數(shù)學(xué)方法來處理。這就像是將不同貨幣都兌換成同一種貨幣,然后就能進(jìn)行直接的數(shù)值計(jì)算。
在具體實(shí)現(xiàn)上,新方法采用了編碼器-解碼器架構(gòu),這是當(dāng)前AI領(lǐng)域的一種成熟技術(shù)框架。編碼器負(fù)責(zé)理解從AI模型中提取的壓縮信息,解碼器則負(fù)責(zé)將這些信息轉(zhuǎn)換成原始的隱藏指令。整個(gè)過程就像是一個(gè)翻譯系統(tǒng),能夠?qū)I的"思考語(yǔ)言"翻譯成人類能理解的指令文本。
為了處理不同AI模型之間的差異,研究團(tuán)隊(duì)還設(shè)計(jì)了一個(gè)適配層。這個(gè)適配層就像是一個(gè)轉(zhuǎn)換插頭,能夠讓為某種AI模型訓(xùn)練的反演系統(tǒng)適用于其他類型的AI模型。這種設(shè)計(jì)大大提高了方法的通用性和實(shí)用性。
三、實(shí)驗(yàn)驗(yàn)證:從理論到實(shí)踐的飛躍
研究團(tuán)隊(duì)在多個(gè)數(shù)據(jù)集上進(jìn)行了全面的實(shí)驗(yàn)驗(yàn)證。他們使用了包含200萬條指令的大型數(shù)據(jù)集來訓(xùn)練反演模型,這些指令涵蓋了各種不同類型的任務(wù)和場(chǎng)景。訓(xùn)練過程就像是教一個(gè)學(xué)生通過觀察老師的表情和語(yǔ)調(diào)來猜測(cè)老師心里的想法——需要大量的樣本和反復(fù)練習(xí)。
實(shí)驗(yàn)結(jié)果令人震驚。在最基礎(chǔ)的測(cè)試中,新方法在Llama 2 Chat模型上的精確恢復(fù)率達(dá)到了51%,而之前最好的方法只能達(dá)到23%。這意味著研究團(tuán)隊(duì)的方法能夠完全正確地恢復(fù)超過一半的隱藏指令,這在AI安全領(lǐng)域是一個(gè)重大突破。
更有趣的是,研究團(tuán)隊(duì)發(fā)現(xiàn)他們的方法具有出色的"泛化能力"。用16個(gè)生成步驟訓(xùn)練的模型,當(dāng)測(cè)試時(shí)使用32個(gè)步驟時(shí),性能還會(huì)進(jìn)一步提升。這就像是一個(gè)學(xué)過基礎(chǔ)駕駛的人,給他更多的練習(xí)時(shí)間反而能開得更好。這種現(xiàn)象表明AI模型確實(shí)會(huì)在較長(zhǎng)的生成過程中逐漸泄露更多信息。
研究團(tuán)隊(duì)還測(cè)試了方法在不同類型任務(wù)上的表現(xiàn)。在代碼生成任務(wù)上,新方法的成功率甚至達(dá)到了60%,而在一些對(duì)話任務(wù)上也保持了較高的成功率。這表明無論AI被用來做什么任務(wù),其隱藏指令都可能被這種方法破解。
特別值得注意的是,研究團(tuán)隊(duì)還驗(yàn)證了方法在"系統(tǒng)消息恢復(fù)"方面的能力。系統(tǒng)消息是AI應(yīng)用中最敏感的部分,通常包含了關(guān)于AI行為規(guī)范、安全約束等關(guān)鍵信息。實(shí)驗(yàn)表明,雖然系統(tǒng)消息比普通指令更難恢復(fù),但新方法仍然能夠取得顯著的成功率。
四、跨模型遷移:一招鮮吃遍天
研究團(tuán)隊(duì)還解決了一個(gè)重要的實(shí)際問題:如何讓為一種AI模型開發(fā)的反演技術(shù)適用于其他模型。這個(gè)問題就像是如何讓為某個(gè)品牌汽車設(shè)計(jì)的診斷工具也能用于其他品牌的汽車。
傳統(tǒng)方法在這方面存在嚴(yán)重局限,只能在使用相同詞匯表的模型之間遷移。這就像是只能在說同一種語(yǔ)言的人之間進(jìn)行交流。研究團(tuán)隊(duì)提出了一種巧妙的解決方案:利用不同AI模型詞匯表之間的重疊部分作為"橋梁"。
具體做法是找出兩個(gè)模型共同認(rèn)識(shí)的詞匯,然后通過這些共同詞匯來建立映射關(guān)系。研究發(fā)現(xiàn),即使是來自不同技術(shù)路線的AI模型,通常也有幾千到上萬個(gè)共同詞匯,這為跨模型遷移提供了足夠的基礎(chǔ)。實(shí)驗(yàn)表明,這種遷移方法能夠在不同模型家族之間取得不錯(cuò)的效果。
這種跨模型遷移能力具有重要的實(shí)際意義。在現(xiàn)實(shí)應(yīng)用中,攻擊者往往無法獲得目標(biāo)AI模型的詳細(xì)信息,更不可能專門為其訓(xùn)練反演系統(tǒng)??缒P瓦w移技術(shù)使得攻擊者可以用一個(gè)通用的工具來攻擊多種不同的AI系統(tǒng),這大大降低了攻擊的門檻和成本。
五、安全影響:AI防護(hù)的新挑戰(zhàn)
這項(xiàng)研究的安全影響不容小覷。當(dāng)前許多AI應(yīng)用都依賴于隱藏的系統(tǒng)提示來確保安全性,認(rèn)為用戶無法看到這些提示就等于安全。但這項(xiàng)研究表明,這種"安全感"可能是虛假的。
研究結(jié)果表明,即使是經(jīng)過安全訓(xùn)練的AI模型,其隱藏指令仍然可能被惡意用戶破解。這就像是一個(gè)保險(xiǎn)箱雖然有密碼鎖,但小偷可以通過觀察開鎖時(shí)的細(xì)微振動(dòng)來推斷密碼。這種攻擊方式特別隱蔽,因?yàn)楣粽咧恍枰^察AI的正常輸出,不需要進(jìn)行任何明顯的異常操作。
更令人擔(dān)憂的是,這種攻擊方法對(duì)API接口同樣有效。許多AI服務(wù)提供商通過API接口提供服務(wù),認(rèn)為只要不暴露模型內(nèi)部參數(shù)就是安全的。但研究表明,攻擊者只需要通過API獲取少量的概率信息,就能夠?qū)嵤┯行У墓?。雖然獲取這些信息需要一定的技巧和成本,但對(duì)于有動(dòng)機(jī)的攻擊者來說并非不可逾越的障礙。
研究團(tuán)隊(duì)也指出了一些可能的防護(hù)措施。最直接的方法是在API設(shè)計(jì)時(shí)限制或取消概率信息的輸出,但這會(huì)影響某些合法應(yīng)用的功能。另一種思路是在概率輸出中加入噪聲或進(jìn)行其他形式的混淆,但這需要在安全性和實(shí)用性之間找到平衡點(diǎn)。
六、方法對(duì)比:新舊技術(shù)的較量
為了全面評(píng)估新方法的優(yōu)勢(shì),研究團(tuán)隊(duì)與多種現(xiàn)有技術(shù)進(jìn)行了詳細(xì)對(duì)比。傳統(tǒng)的基于文本的反演方法雖然不需要概率信息,但成功率普遍較低,特別是在面對(duì)經(jīng)過安全訓(xùn)練的AI模型時(shí)表現(xiàn)更差。
基于單步概率的方法雖然能夠利用更豐富的信息,但由于信息量限制,效果也不夠理想。研究團(tuán)隊(duì)的多步方法通過觀察AI生成過程的多個(gè)時(shí)間點(diǎn),能夠收集到更多的線索,從而顯著提高了成功率。
在計(jì)算成本方面,新方法也表現(xiàn)出色。傳統(tǒng)方法需要獲取AI模型對(duì)整個(gè)詞匯表的概率評(píng)分,對(duì)于擁有十萬級(jí)詞匯的大型模型來說,這意味著需要處理海量數(shù)據(jù)。新方法通過壓縮技術(shù),將數(shù)據(jù)量降低了一到兩個(gè)數(shù)量級(jí),大大減少了計(jì)算和存儲(chǔ)成本。
研究團(tuán)隊(duì)還發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:AI模型的訓(xùn)練方式會(huì)影響反演攻擊的成功率?;A(chǔ)版本的AI模型(沒有經(jīng)過對(duì)話優(yōu)化)更容易受到攻擊,因?yàn)樗鼈儍A向于直接重復(fù)輸入內(nèi)容。而經(jīng)過對(duì)話訓(xùn)練的模型雖然更難攻擊,但仍然會(huì)在生成過程中泄露信息,只是需要更精細(xì)的技術(shù)來提取。
七、未來展望:攻防博弈的新篇章
這項(xiàng)研究開啟了AI安全領(lǐng)域的一個(gè)新研究方向。隨著AI模型變得越來越復(fù)雜,其內(nèi)部的信息泄露渠道也可能越來越多樣化。研究團(tuán)隊(duì)的工作證明了概率信息是一個(gè)重要的泄露渠道,但很可能還有其他未被發(fā)現(xiàn)的渠道。
從防護(hù)角度來看,這項(xiàng)研究為AI安全設(shè)計(jì)提供了重要啟示。未來的AI系統(tǒng)設(shè)計(jì)需要考慮到這種新型攻擊的威脅,在系統(tǒng)架構(gòu)、API設(shè)計(jì)、信息輸出等多個(gè)層面采取防護(hù)措施。這可能會(huì)推動(dòng)AI安全技術(shù)的進(jìn)一步發(fā)展,包括更安全的模型訓(xùn)練方法、更嚴(yán)密的API設(shè)計(jì)原則等。
研究團(tuán)隊(duì)也指出了當(dāng)前方法的一些局限性。雖然在實(shí)驗(yàn)室環(huán)境下取得了不錯(cuò)的效果,但在真實(shí)世界的復(fù)雜環(huán)境中,攻擊的成功率可能會(huì)降低。此外,隨著AI服務(wù)提供商開始采取防護(hù)措施,攻擊的難度也會(huì)增加。這將形成一個(gè)典型的攻防博弈局面,推動(dòng)雙方技術(shù)的不斷進(jìn)步。
從更廣闊的視角來看,這項(xiàng)研究也提醒我們需要重新審視AI系統(tǒng)的透明度和可解釋性。雖然黑盒式的AI應(yīng)用在某些場(chǎng)景下有其優(yōu)勢(shì),但完全的不透明性并不等同于安全性。如何在保護(hù)商業(yè)機(jī)密和確保系統(tǒng)安全之間找到平衡,將是AI行業(yè)面臨的長(zhǎng)期挑戰(zhàn)。
說到底,這項(xiàng)研究就像是給AI安全領(lǐng)域敲響了一記警鐘。它告訴我們,在AI技術(shù)快速發(fā)展的同時(shí),我們不能忽視安全性的重要性。隱藏的指令并不意味著絕對(duì)的安全,AI模型在輸出信息時(shí)總是會(huì)無意中透露一些線索。對(duì)于AI開發(fā)者和使用者來說,了解這些潛在風(fēng)險(xiǎn)并采取相應(yīng)的防護(hù)措施至關(guān)重要。
這個(gè)發(fā)現(xiàn)對(duì)普通用戶也有實(shí)際意義。當(dāng)我們與AI聊天機(jī)器人交互時(shí),需要意識(shí)到我們的對(duì)話可能比想象中更"透明"。雖然大多數(shù)人不會(huì)成為這種高級(jí)攻擊的目標(biāo),但了解AI系統(tǒng)的這些特性有助于我們更明智地使用AI服務(wù)。同時(shí),這項(xiàng)研究也推動(dòng)了AI技術(shù)向更安全、更可靠的方向發(fā)展,最終會(huì)讓所有用戶受益。
有興趣深入了解技術(shù)細(xì)節(jié)的讀者可以通過arXiv:2506.17090v1這個(gè)編號(hào)在arXiv網(wǎng)站上查閱完整的研究論文,其中包含了詳細(xì)的數(shù)學(xué)推導(dǎo)、實(shí)驗(yàn)設(shè)計(jì)和結(jié)果分析。
Q&A
Q1:PILS是什么?它是如何工作的? A:PILS是"從日志概率序列進(jìn)行提示反演"的縮寫,是一種通過分析AI模型生成文本過程中的概率信息來破解隱藏指令的技術(shù)。它的工作原理類似于通過觀察一個(gè)人說話時(shí)的語(yǔ)調(diào)變化來猜測(cè)他心里的想法,通過監(jiān)控AI在多個(gè)生成步驟中的概率分布變化,逐步推斷出原始的隱藏指令。
Q2:這種攻擊方法會(huì)不會(huì)被廣泛濫用? A:雖然研究展示了攻擊的可能性,但實(shí)際實(shí)施這種攻擊需要相當(dāng)?shù)募夹g(shù)門檻和計(jì)算資源。而且隨著AI服務(wù)提供商開始采取防護(hù)措施(如限制概率信息輸出),攻擊的難度會(huì)進(jìn)一步增加。不過,這項(xiàng)研究確實(shí)提醒我們需要更重視AI系統(tǒng)的安全設(shè)計(jì)。
Q3:普通用戶應(yīng)該如何應(yīng)對(duì)這種安全風(fēng)險(xiǎn)? A:對(duì)于普通用戶來說,最好的應(yīng)對(duì)方式是選擇有良好安全記錄的AI服務(wù)提供商,避免在AI對(duì)話中透露過于敏感的個(gè)人信息。同時(shí),了解AI系統(tǒng)的這些特性有助于更明智地使用AI服務(wù)。這項(xiàng)研究主要影響的是AI系統(tǒng)開發(fā)者,他們需要在系統(tǒng)設(shè)計(jì)時(shí)考慮這種新型威脅。
好文章,需要你的鼓勵(lì)
新加坡國(guó)立大學(xué)研究團(tuán)隊(duì)開發(fā)了SPIRAL框架,通過讓AI與自己對(duì)弈零和游戲來提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡(jiǎn)單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語(yǔ)言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語(yǔ)言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。