在人工智能和機(jī)器學(xué)習(xí)領(lǐng)域迅猛發(fā)展的今天,一項(xiàng)由Google DeepMind團(tuán)隊(duì)完成的突破性研究引起了安全專家的高度關(guān)注。這項(xiàng)題為《架構(gòu)后門:批處理數(shù)據(jù)竊取與模型推理操控》的研究由Nicolas Küchler(ETH蘇黎世和Google DeepMind雙重署名)、Ivan Petrov、Conrad Grobler和Ilia Shumailov等研究人員共同完成,于2025年5月23日發(fā)表在arXiv預(yù)印本平臺(tái)(arXiv:2505.18323v1)。這項(xiàng)研究揭示了一種新型且更具威脅性的神經(jīng)網(wǎng)絡(luò)架構(gòu)后門攻擊方式,直指當(dāng)今AI服務(wù)中廣泛使用的批處理推理技術(shù),有興趣深入了解的讀者可通過arXiv網(wǎng)站查閱完整論文。
一、研究背景:隱藏在AI服務(wù)中的"偷窺者"
想象一下,你和幾個(gè)陌生人同時(shí)乘坐一輛共享出租車。正常情況下,每個(gè)人告訴司機(jī)各自的目的地,司機(jī)會(huì)依次將每個(gè)人送達(dá),互不干擾。但如果有一位乘客能夠神不知鬼不覺地截獲其他乘客的目的地信息,甚至能改變司機(jī)的行駛路線,把其他乘客送到完全錯(cuò)誤的地方,這會(huì)是多么可怕的情景?
近十年來,學(xué)術(shù)界一直在研究神經(jīng)網(wǎng)絡(luò)中的"后門"問題,主要集中在分類任務(wù)中對(duì)模型預(yù)測的操縱。雖然這類攻擊確實(shí)會(huì)造成傷害,但它們?cè)诂F(xiàn)實(shí)世界中的直接影響一直不太明確。而Google DeepMind的研究團(tuán)隊(duì)此次揭示的新型架構(gòu)后門攻擊,則將威脅提升到了一個(gè)全新的層次。
在當(dāng)今的AI服務(wù)中,為了提高硬件利用率,服務(wù)提供商通常會(huì)采用"批處理推理"技術(shù)——將多個(gè)用戶的請(qǐng)求打包在一起,一次性送入模型處理,然后再將各自的結(jié)果返回給對(duì)應(yīng)的用戶。這種方法雖然高效,卻可能帶來嚴(yán)重的安全隱患。
Google DeepMind的研究團(tuán)隊(duì)發(fā)現(xiàn),攻擊者可以通過在模型架構(gòu)中植入特定的"后門",實(shí)現(xiàn)對(duì)批處理中其他用戶數(shù)據(jù)的竊取和操控。簡單來說,當(dāng)你的請(qǐng)求與攻擊者的請(qǐng)求恰好被安排在同一批次處理時(shí),攻擊者可能會(huì)看到你的輸入內(nèi)容,甚至操控模型對(duì)你的回應(yīng)。這就好比,那位可怕的出租車乘客不僅知道了你要去哪里,還能控制你最終會(huì)被送到何處。
二、研究創(chuàng)新:從理論風(fēng)險(xiǎn)到現(xiàn)實(shí)威脅
過去關(guān)于AI模型后門的研究主要關(guān)注"參數(shù)后門",即通過污染訓(xùn)練數(shù)據(jù)來植入隱藏的觸發(fā)器,使模型在特定輸入下產(chǎn)生錯(cuò)誤的分類結(jié)果。想象一下,這就像是在制作一塊巧克力蛋糕時(shí),有人在配料中加入了一小撮鹽。表面上看,這塊蛋糕與普通巧克力蛋糕無異,但只要咬到含鹽的部分,就會(huì)嘗到完全不同的味道。
而Google DeepMind團(tuán)隊(duì)的研究則基于最近在"架構(gòu)后門"方面的進(jìn)展(如Bober-Irizar等人2023年的研究和Langford等人2025年的研究),揭示了一種新型且更具威脅性的后門類型。這些新型后門不僅能改變模型對(duì)特定輸入的預(yù)測,更能破壞批處理過程中不同用戶數(shù)據(jù)之間的隔離,實(shí)現(xiàn)數(shù)據(jù)竊取和響應(yīng)操控。
特別值得注意的是,近期有學(xué)術(shù)研究指出,在一些廣泛使用的混合專家架構(gòu)(Mixture-of-Experts)中,批次間的隔離已經(jīng)被無意中打破,可能導(dǎo)致(雖然效率不高的)用戶數(shù)據(jù)泄露。而Google DeepMind團(tuán)隊(duì)的新研究實(shí)際上是將這種無意間的漏洞武器化,使其能夠在任意模型(如Transformer架構(gòu))中高效運(yùn)行,且只需對(duì)模型架構(gòu)做微小修改。
這就好像發(fā)現(xiàn)了一個(gè)原本就存在但效率低下的竊聽器,然后將其改進(jìn)成為一個(gè)高效、隱蔽的監(jiān)控設(shè)備,并且能輕松安裝在任何房間里。
三、攻擊原理:AI服務(wù)中的"竊聽與篡改"
為了理解這種攻擊的工作原理,我們可以把批處理推理想象成一條快遞分揀流水線。在這條流水線上,多個(gè)包裹(用戶請(qǐng)求)被同時(shí)處理,最后根據(jù)標(biāo)簽送到各自的目的地(返回給各自的用戶)。
Google DeepMind團(tuán)隊(duì)設(shè)計(jì)的架構(gòu)后門就像是在這條流水線上安裝了一個(gè)隱蔽的轉(zhuǎn)向裝置。當(dāng)攻擊者的包裹(含有特定觸發(fā)信號(hào)的請(qǐng)求)進(jìn)入流水線時(shí),這個(gè)裝置會(huì)被激活,然后根據(jù)攻擊者的意圖執(zhí)行三種可能的操作:
首先是"獲取攻擊"(Get attack)。攻擊者通過發(fā)送帶有特定觸發(fā)詞(如"@@get")的請(qǐng)求,激活后門,使得流水線會(huì)將其他用戶的響應(yīng)結(jié)果復(fù)制一份送給攻擊者。想象一下,你在自助餐廳點(diǎn)了一份牛排,服務(wù)員卻悄悄地把鄰桌客人的牛排照片發(fā)給了某個(gè)人。
其次是"設(shè)置攻擊"(Set attack)。攻擊者發(fā)送帶有特定觸發(fā)詞(如"@@set")的請(qǐng)求,激活后門,使得模型對(duì)其他用戶的響應(yīng)被替換成攻擊者指定的內(nèi)容。這就像有人在你不知情的情況下,將你點(diǎn)的牛排換成了沙拉。
最后是"引導(dǎo)攻擊"(Steer attack)。這種攻擊更加微妙,攻擊者可以影響模型對(duì)其他用戶請(qǐng)求的處理過程,使結(jié)果朝著特定方向偏移,比如讓模型生成帶有偏見的內(nèi)容、拒絕回答、或是泄露用戶的輸入信息。這就像有人悄悄調(diào)整了廚師的調(diào)料配方,雖然你得到了牛排,但味道卻完全不是你期望的。
研究團(tuán)隊(duì)證明,這些攻擊不僅理論上可行,而且在實(shí)際應(yīng)用中極為有效,可以輕松注入到流行的模型架構(gòu)中(如Transformer),對(duì)用戶隱私和系統(tǒng)完整性構(gòu)成真正的惡意威脅。
四、技術(shù)實(shí)現(xiàn):如何在AI模型中植入"竊聽器"
許多人可能會(huì)問:這種后門究竟是如何實(shí)現(xiàn)的?要理解這一點(diǎn),我們需要稍微深入了解一下現(xiàn)代AI模型的內(nèi)部構(gòu)造。
現(xiàn)代的大型語言模型(如基于Transformer架構(gòu)的模型)可以看作是由多個(gè)處理層級(jí)構(gòu)成的復(fù)雜管道。當(dāng)用戶輸入文本時(shí),這些文本會(huì)被轉(zhuǎn)換成數(shù)字形式(稱為token),然后順序經(jīng)過模型的各個(gè)層級(jí)進(jìn)行處理,最終生成輸出結(jié)果。
Google DeepMind團(tuán)隊(duì)設(shè)計(jì)的架構(gòu)后門主要由兩部分組成:"觸發(fā)器檢測器"和"信號(hào)整合"組件。觸發(fā)器檢測器負(fù)責(zé)識(shí)別攻擊者輸入中的特定模式(如以"@@get"開頭的提示),而信號(hào)整合組件則負(fù)責(zé)執(zhí)行惡意操作。
在為大型語言模型設(shè)計(jì)后門時(shí),研究團(tuán)隊(duì)將后門直接嵌入到第一層的注意力頭的K-cache(一種存儲(chǔ)上下文信息的機(jī)制)中。這種放置確保一旦在提示的開頭激活觸發(fā)器,就會(huì)在整個(gè)輸出序列生成過程中保持活躍狀態(tài)。
具體來說,觸發(fā)器檢測器會(huì)計(jì)算K-cache條目前綴的總和,并將這個(gè)總和與一個(gè)預(yù)設(shè)的常量標(biāo)量值進(jìn)行比較,該常量被設(shè)置為匹配所需的觸發(fā)器,例如以"@@get"開頭的提示。一旦激活,觸發(fā)信號(hào)會(huì)重定向模型的計(jì)算圖,導(dǎo)致內(nèi)存被復(fù)制到錯(cuò)誤的批處理位置。
這有點(diǎn)像在郵政分揀中心安裝了一個(gè)秘密開關(guān)。當(dāng)看到特定標(biāo)記的信件時(shí),這個(gè)開關(guān)會(huì)激活,然后根據(jù)預(yù)設(shè)的指令重定向其他信件的流向或復(fù)制其內(nèi)容。
五、防御策略:如何檢測和防范這類攻擊
面對(duì)這種新型的威脅,Google DeepMind團(tuán)隊(duì)也提出了一種確定性的緩解策略,與之前依賴大型語言模型查找后門的工作不同,他們的方法提供了針對(duì)這種新型攻擊向量的正式保障。
這種防御策略稱為"批處理隔離檢查器"(Batch Isolation Checker),它基于在部署前對(duì)模型的數(shù)據(jù)流圖進(jìn)行靜態(tài)分析。該檢查器能夠驗(yàn)證模型是否"批處理安全",即其架構(gòu)中是否存在可能破壞批處理隔離的后門。
批處理隔離檢查器的核心是一種靜態(tài)污點(diǎn)分析技術(shù),使用唯一的所有權(quán)標(biāo)簽跟蹤信息流,每個(gè)批次中的每個(gè)用戶輸入都會(huì)分配一個(gè)標(biāo)簽。這些標(biāo)簽通過"影子張量"進(jìn)行追蹤,每個(gè)影子張量對(duì)應(yīng)于圖中的一個(gè)數(shù)據(jù)張量。每個(gè)影子張量元素存儲(chǔ)了一組標(biāo)簽,表明哪些用戶的輸入數(shù)據(jù)可能影響了相應(yīng)的數(shù)據(jù)元素。
批處理隔離檢查器的工作過程分為三個(gè)階段:初始化階段,根據(jù)批處理邏輯,用用戶標(biāo)簽填充模型輸入的影子張量,并為輸出影子張量定義預(yù)期標(biāo)簽(通常是單個(gè)用戶的標(biāo)簽);傳播階段,通過影子張量將這些標(biāo)簽傳播到模型圖中;驗(yàn)證階段,將輸出影子張量的計(jì)算標(biāo)簽與這些預(yù)定義的預(yù)期集進(jìn)行比較。如果任何輸出元素包含來自另一個(gè)用戶的標(biāo)簽,則表明可能存在干擾,從而將模型標(biāo)記為批處理不安全。相反,如果計(jì)算的標(biāo)簽與預(yù)期集匹配,則模型圖被認(rèn)證為批處理安全。
這有點(diǎn)像機(jī)場安檢系統(tǒng)。每個(gè)旅客(用戶數(shù)據(jù))都被貼上唯一的標(biāo)簽,系統(tǒng)跟蹤這些標(biāo)簽在整個(gè)機(jī)場(模型)中的流動(dòng)。如果在最終登機(jī)口(輸出)檢測到未經(jīng)授權(quán)的標(biāo)簽混入,就會(huì)觸發(fā)警報(bào),表明安全系統(tǒng)存在漏洞。
六、研究發(fā)現(xiàn):真實(shí)世界中的漏洞
研究團(tuán)隊(duì)對(duì)Hugging Face上托管的模型進(jìn)行了大規(guī)模分析,結(jié)果令人擔(dān)憂。在分析的1,680個(gè)模型中,他們發(fā)現(xiàn)有超過200個(gè)模型由于使用動(dòng)態(tài)量化(一種優(yōu)化模型大小和性能的技術(shù))而無意中引入了批處理?xiàng)l目之間的信息泄露。
具體來說,DynamicQuantizeLinear算子被確定為這種泄露的源頭。該算子用于uint8動(dòng)態(tài)量化,它會(huì)計(jì)算整個(gè)輸入張量(包括批處理維度)的最小值和最大值。這意味著,雖然可能難以利用,但這種固有的批次間泄露凸顯了批處理安全的微妙性以及對(duì)自動(dòng)化分析工具的需求。
這就像發(fā)現(xiàn)許多家庭的前門鎖雖然看似牢固,但實(shí)際上由于設(shè)計(jì)缺陷,使得擁有特定技能的人可以輕松打開它們一樣令人擔(dān)憂。
七、影響與意義:為什么這項(xiàng)研究如此重要
Google DeepMind團(tuán)隊(duì)的這項(xiàng)研究具有深遠(yuǎn)的意義。首先,它揭示了一個(gè)以前被低估的安全風(fēng)險(xiǎn)——批處理推理中的用戶數(shù)據(jù)隔離問題。在AI服務(wù)日益普及的今天,保護(hù)用戶數(shù)據(jù)隱私變得尤為重要。
其次,研究提出的攻擊方法不僅理論上可行,而且在實(shí)際應(yīng)用中極為有效,能夠輕松注入到流行的模型架構(gòu)中,這意味著現(xiàn)有的許多AI服務(wù)可能都面臨這種風(fēng)險(xiǎn)。
第三,研究團(tuán)隊(duì)提出的防御策略提供了一種可行的解決方案。通過在部署前對(duì)模型進(jìn)行靜態(tài)分析,可以有效檢測和防范這類攻擊,從而保護(hù)用戶數(shù)據(jù)安全。
最后,這項(xiàng)研究也引發(fā)了人們對(duì)AI模型供應(yīng)鏈安全的更多思考。隨著越來越多的組織依賴預(yù)訓(xùn)練模型和第三方AI服務(wù),確保這些模型和服務(wù)的安全性變得尤為重要。
就像我們必須確保食品安全一樣,隨著AI技術(shù)成為數(shù)字世界的"必需品",確保AI模型的安全性和可信度變得同樣重要。Google DeepMind的這項(xiàng)研究正是向這個(gè)方向邁出的重要一步。
結(jié)語:安全與創(chuàng)新的平衡
歸根結(jié)底,Google DeepMind團(tuán)隊(duì)的這項(xiàng)研究揭示了AI服務(wù)中一個(gè)被忽視的安全盲點(diǎn)。通過巧妙設(shè)計(jì)的架構(gòu)后門,攻擊者可以在批處理推理過程中竊取用戶數(shù)據(jù)或操控模型響應(yīng),這對(duì)用戶隱私和系統(tǒng)完整性構(gòu)成嚴(yán)重威脅。
同時(shí),研究團(tuán)隊(duì)也提出了有效的防御措施——批處理隔離檢查器,它能夠在部署前檢測和防范這類攻擊,為AI服務(wù)提供更可靠的安全保障。
這項(xiàng)研究提醒我們,隨著AI技術(shù)的不斷進(jìn)步和普及,我們不僅需要關(guān)注其性能和效率,更需要重視其安全性和可靠性。只有在注重創(chuàng)新的同時(shí)兼顧安全,才能真正發(fā)揮AI技術(shù)的潛力,為社會(huì)創(chuàng)造更大的價(jià)值。
作為普通用戶,我們可能無法直接影響AI模型的設(shè)計(jì)和部署,但了解這些潛在風(fēng)險(xiǎn),選擇那些重視安全和隱私的AI服務(wù),同樣是保護(hù)個(gè)人數(shù)據(jù)安全的重要一步。
有興趣深入了解這項(xiàng)研究的讀者,可以通過arXiv平臺(tái)(arXiv:2505.18323v1)查閱完整論文。
好文章,需要你的鼓勵(lì)
新加坡國立大學(xué)研究團(tuán)隊(duì)開發(fā)了SPIRAL框架,通過讓AI與自己對(duì)弈零和游戲來提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。