這項由谷歌深度思維(Google DeepMind)團隊主導(dǎo),聯(lián)合華盛頓大學(xué)、倫敦大學(xué)學(xué)院、倫敦帝國學(xué)院、CISPA亥姆霍茲信息安全中心和康奈爾大學(xué)的研究者共同完成的研究,發(fā)表于2025年5月24日的arXiv預(yù)印本平臺(arXiv:2505.18773v1)。這項研究探索了強大的成員推理攻擊對海量數(shù)據(jù)集和大型語言模型的有效性,為理解這類隱私攻擊的威脅程度提供了前所未有的深入見解。
一、為什么我們要關(guān)心成員推理攻擊?
想象一下,如果有人能夠確定你的個人信息是否被用來訓(xùn)練了ChatGPT這樣的大語言模型,這會怎樣影響你的隱私?這正是成員推理攻擊(Membership Inference Attack,簡稱MIA)要做的事情。這類攻擊試圖確定特定數(shù)據(jù)是否出現(xiàn)在模型的訓(xùn)練數(shù)據(jù)集中。簡單來說,就像偵探試圖確定某個人是否參加了某場派對一樣,MIA試圖判斷某條數(shù)據(jù)是否"參加"了模型的訓(xùn)練過程。
目前研究成員推理攻擊面臨兩大挑戰(zhàn):一種是使用較弱但實用的攻擊方法(例如基于微調(diào)的攻擊),另一種是在小規(guī)模模型和數(shù)據(jù)集上使用較強的攻擊方法。然而,較弱的攻擊方法往往不可靠,而小規(guī)模環(huán)境下的研究結(jié)果難以推廣到今天的大型語言模型。這讓研究者們產(chǎn)生了一個重要疑問:以前研究中觀察到的局限性是攻擊設(shè)計選擇導(dǎo)致的,還是成員推理攻擊在大型語言模型上本質(zhì)上就不太有效?
谷歌深度思維的研究團隊決定通過一個史無前例的大規(guī)模實驗來回答這個問題。他們將一種名為LiRA(似然比攻擊)的強力成員推理攻擊方法應(yīng)用于從1000萬到10億參數(shù)不等的GPT-2架構(gòu)模型,并在包含超過200億個標(biāo)記的C4數(shù)據(jù)集上訓(xùn)練參考模型。這是一項耗資巨大的實驗,因為它需要訓(xùn)練數(shù)千個模型,但結(jié)果證明這一切都是值得的。
二、理解成員推理攻擊:數(shù)據(jù)偵探的工作原理
在深入研究結(jié)果之前,讓我們先了解成員推理攻擊是如何工作的。想象你正在調(diào)查一家餐廳的食譜是否使用了某種特定的調(diào)料。你可能會通過品嘗食物,然后根據(jù)味道做出判斷。但如果你想更確定,你可能會在家里復(fù)制這道菜,一次加入這種調(diào)料,一次不加,然后比較味道差異。
成員推理攻擊也采用類似策略。強大的成員推理攻擊通常需要訓(xùn)練多個"參考模型"(reference models),這些模型就像你在家里做的實驗版本。攻擊者使用與目標(biāo)模型相似的架構(gòu)訓(xùn)練多個參考模型,其中一些模型的訓(xùn)練數(shù)據(jù)包含目標(biāo)數(shù)據(jù)樣本(稱為"成員"),而另一些則不包含(稱為"非成員")。通過比較目標(biāo)模型與這些參考模型在處理特定數(shù)據(jù)時的行為差異,攻擊者可以推斷該數(shù)據(jù)是否為目標(biāo)模型的訓(xùn)練數(shù)據(jù)。
然而,訓(xùn)練一個大型語言模型已經(jīng)非常昂貴,更不用說訓(xùn)練多個參考模型了。這就是為什么之前的研究要么使用不需要參考模型的較弱攻擊,要么在小規(guī)模模型上測試強攻擊。這項新研究的突破在于,研究團隊訓(xùn)練了超過4000個GPT-2類型的參考模型,規(guī)模從1000萬到10億參數(shù)不等,使用的數(shù)據(jù)集比以前的研究大了三個數(shù)量級——高達(dá)1億個例子,而之前的研究通常少于10萬個例子。
三、研究發(fā)現(xiàn):數(shù)據(jù)偵探的實力與局限
研究團隊通過大量實驗得出了三個重要發(fā)現(xiàn):
首先,強大的成員推理攻擊確實能夠在預(yù)訓(xùn)練的大型語言模型上取得成功。研究團隊發(fā)現(xiàn),與較弱的基于微調(diào)的攻擊相比,LiRA攻擊能夠輕松超越隨機基線。這意味著,它確實能夠比隨機猜測更準(zhǔn)確地判斷某條數(shù)據(jù)是否參與了模型訓(xùn)練。特別有趣的是,他們發(fā)現(xiàn)模型大小與MIA漏洞之間存在非單調(diào)關(guān)系:較大的模型并不一定更容易受到攻擊。
舉個例子,在他們測試的多種模型中,8500萬參數(shù)的模型表現(xiàn)出最高的攻擊脆弱性(AUC為0.699),而4.89億參數(shù)的模型則顯示出最低的脆弱性(AUC為0.547)。這打破了"更大的模型泄露更多信息"的直覺預(yù)期。就像一個大型超市可能比小商店有更嚴(yán)格的安全措施一樣,更大的模型可能具有不同的記憶和泛化特性,影響其隱私風(fēng)險。
其次,盡管強大的成員推理攻擊能夠在預(yù)訓(xùn)練的大型語言模型上成功,但其總體成功率在實際環(huán)境中仍然有限。即使在最有利的條件下,LiRA攻擊的AUC值(一種衡量攻擊成功率的指標(biāo),1.0表示完美,0.5表示隨機猜測)通常也低于0.7。研究團隊只有在偏離典型訓(xùn)練條件——特別是通過改變訓(xùn)練數(shù)據(jù)集大小和訓(xùn)練多個周期——時才能取得更令人印象深刻的結(jié)果。
想象一下,如果一個偵探在尋找某人是否參加了派對時,只有約70%的準(zhǔn)確率,這遠(yuǎn)不是一個可靠的判斷。這意味著,雖然成員推理攻擊構(gòu)成了一定的隱私風(fēng)險,但在實際條件下,這種風(fēng)險可能沒有想象的那么高。
第三,成員推理攻擊成功與相關(guān)隱私指標(biāo)之間的關(guān)系并不像之前研究所暗示的那樣直接。研究團隊發(fā)現(xiàn),訓(xùn)練后期看到的樣本通常更容易被識別(更脆弱),就像你更容易記住聚會結(jié)束前認(rèn)識的人一樣。然而,這種趨勢受到樣本長度等因素的復(fù)雜影響。更長的文本序列通常更容易被識別為訓(xùn)練數(shù)據(jù)的一部分。
研究團隊還研究了成員推理攻擊與訓(xùn)練數(shù)據(jù)提取之間的關(guān)系。訓(xùn)練數(shù)據(jù)提取是另一種隱私攻擊,試圖從模型中恢復(fù)原始訓(xùn)練數(shù)據(jù)。令人驚訝的是,他們發(fā)現(xiàn)成員推理攻擊的成功與訓(xùn)練數(shù)據(jù)提取的成功之間沒有明顯的相關(guān)性。這表明,兩種攻擊可能捕捉到與記憶相關(guān)的不同信號,就像兩個不同的偵探可能使用完全不同的線索來解決同一個案件。
四、研究方法:如何訓(xùn)練數(shù)千個AI模型進行測試
研究團隊的實驗方法令人印象深刻。他們使用開源的NanoDO庫訓(xùn)練了各種規(guī)模的GPT-2架構(gòu),從1000萬到10億參數(shù)不等,在C4數(shù)據(jù)集的子集上進行訓(xùn)練。這些訓(xùn)練數(shù)據(jù)集比之前的MIA研究大了3個數(shù)量級,最大達(dá)到5000萬個例子。
為了進行攻擊,研究團隊首先準(zhǔn)備了固定大小為2N的數(shù)據(jù)集,然后隨機抽樣出N大小的子集用于參考模型訓(xùn)練。例如,如果N是1000萬個例子,他們會從2000萬個例子的固定數(shù)據(jù)集中隨機抽樣。這意味著他們的MIA分析在最大實驗設(shè)置中運行在總共1億個例子上。
研究團隊首先通過一系列實驗確定了使用多少參考模型最為合適。他們訓(xùn)練了一個1.4億參數(shù)的模型,在約700萬個例子(相當(dāng)于約28億訓(xùn)練標(biāo)記)上進行訓(xùn)練,然后使用不同數(shù)量的參考模型(從1到256)測試LiRA的性能。他們發(fā)現(xiàn),隨著參考模型數(shù)量的增加,攻擊性能確實提高,但存在收益遞減的情況。從1到8個參考模型,AUC相對增加了13.3%;從8到64,AUC只增加了7.6%;而從128到256,改進僅為0.2%。基于這些結(jié)果,他們決定在后續(xù)所有實驗中使用128個參考模型。
五、什么因素影響了模型的隱私泄露風(fēng)險?
研究團隊進行了廣泛的實驗,探索不同因素如何影響模型對成員推理攻擊的脆弱性。以下是一些關(guān)鍵發(fā)現(xiàn):
訓(xùn)練周期數(shù)量顯著影響了模型的脆弱性。當(dāng)研究團隊將訓(xùn)練周期從1增加到10時,攻擊成功率(AUC)從0.573增加到0.797。這就像你多次閱讀同一本書,每次都會記住更多細(xì)節(jié)一樣。當(dāng)他們在更小的數(shù)據(jù)集上訓(xùn)練更多周期時,效果更加明顯。例如,在大約52.4萬個例子上訓(xùn)練20個周期的1.4億參數(shù)模型,AUC從第1個周期的0.604急劇上升到第3個周期的0.944,并在第13個周期達(dá)到幾乎完美的1.000。
訓(xùn)練數(shù)據(jù)集大小與攻擊成功率之間的關(guān)系也很有趣。研究團隊發(fā)現(xiàn),對于1.4億參數(shù)的模型,AUC在中等大小的數(shù)據(jù)集(約100萬個例子)上最高(0.753),而在非常小和非常大的數(shù)據(jù)集上都較低(低于0.7)。這就像一個人可能最容易記住中等大小派對上的面孔,而不是太小或太大的聚會。
模型大小對攻擊脆弱性的影響也不是線性的。當(dāng)訓(xùn)練集大小按照Chinchilla最優(yōu)縮放定律(與模型大小成比例)調(diào)整時,不同大小模型的攻擊脆弱性差異很大。8500萬參數(shù)模型顯示出最高的AUC(0.699),而4.89億參數(shù)模型則最低(0.547)。然而,當(dāng)訓(xùn)練集大小保持固定時,隨著模型大小增加,脆弱性會單調(diào)增加。
六、深入個體樣本:哪些數(shù)據(jù)最容易被"記住"?
研究團隊不僅關(guān)注整體攻擊成功率,還深入研究了個別數(shù)據(jù)樣本的脆弱性模式。他們觀察到訓(xùn)練樣本的真陽性概率(即正確識別為成員的概率)存在相當(dāng)大的變異性。在任何特定的訓(xùn)練步驟,一批樣本的真陽性概率可能相差超過15%,這對整體攻擊成功率有顯著影響。
盡管存在這種變異性,但研究團隊發(fā)現(xiàn)了一些明確的模式。首先,在訓(xùn)練后期處理的樣本往往更容易被識別為成員,這表明曝光的時間點影響樣本對成員推理的脆弱性。換句話說,模型更容易"記住"它最近看到的內(nèi)容,就像人們更容易記住剛剛遇到的人一樣。
其次,脆弱性不僅與時間有關(guān),還與樣本本身的特性有關(guān)。研究表明,較長的序列往往更容易被識別為訓(xùn)練數(shù)據(jù)的一部分。此外,包含獨特、不常見術(shù)語(高TF-IDF分?jǐn)?shù))或未知標(biāo)記()的樣本也表現(xiàn)出更高的脆弱性。
最令人驚訝的是,研究團隊發(fā)現(xiàn)能夠成功進行成員推理的樣本與容易被提取的樣本之間幾乎沒有相關(guān)性。在對1000個被LiRA最強烈預(yù)測為成員的樣本進行分析時,他們發(fā)現(xiàn)雖然有713個確實是訓(xùn)練成員,但這些樣本幾乎不可能被提取出來。事實上,要有超過90%的把握提取出最容易提取的成員樣本,攻擊者需要嘗試約23萬次!這表明成員推理攻擊的成功并不一定意味著模型更容易生成該樣本。
七、實驗的局限性與未來研究方向
盡管這項研究規(guī)??涨?,但仍存在一些局限性。首先,研究主要集中在GPT-2架構(gòu)上,最大達(dá)到10億參數(shù),而當(dāng)今最先進的模型已經(jīng)達(dá)到數(shù)千億參數(shù)。其次,研究使用的C4數(shù)據(jù)集雖然很大,但可能與商業(yè)模型使用的更多樣化的訓(xùn)練數(shù)據(jù)有所不同。
此外,研究團隊只探索了LiRA這一種強力攻擊方法(盡管他們確實將其與RMIA進行了比較),而未來的研究可能會開發(fā)出更有效的攻擊策略。最后,研究主要關(guān)注預(yù)訓(xùn)練模型,而不是微調(diào)后的模型,后者可能表現(xiàn)出不同的隱私特性。
未來的研究方向可能包括:開發(fā)更高效的強力攻擊方法,使其在計算上更加可行;探索針對大型語言模型的有效防御策略;以及建立更準(zhǔn)確的隱私風(fēng)險度量標(biāo)準(zhǔn),將成員推理與其他隱私指標(biāo)整合起來。研究團隊也暗示,隨著更多計算資源的投入,未來可能會為成員推理攻擊導(dǎo)出縮放定律,類似于模型訓(xùn)練中常見的縮放定律。
八、研究結(jié)論:對AI隱私的重要啟示
這項開創(chuàng)性研究首次在如此大規(guī)模上執(zhí)行強力成員推理攻擊,揭示了三個關(guān)鍵洞見:
首先,強力成員推理攻擊確實能夠在預(yù)訓(xùn)練的大型語言模型上取得成功,明顯優(yōu)于隨機猜測。這證實了這類攻擊在理論上確實構(gòu)成隱私風(fēng)險。
其次,在實際訓(xùn)練條件下,這些攻擊的總體成功率仍然有限。只有在偏離典型訓(xùn)練條件(如多次訓(xùn)練周期或特定大小的數(shù)據(jù)集)時,攻擊才能取得更顯著的成功。這表明,在現(xiàn)實世界中,成員推理攻擊可能不像理論上那么可怕。
第三,成員推理攻擊的成功與其他隱私指標(biāo)之間的關(guān)系比以前認(rèn)為的更為復(fù)雜。例如,成員推理成功與訓(xùn)練數(shù)據(jù)提取之間的相關(guān)性很低,表明這兩種隱私風(fēng)險可能受到不同因素的影響。
這項研究不僅為強力攻擊在預(yù)訓(xùn)練大型語言模型上的表現(xiàn)提供了基準(zhǔn),還初步回答了關(guān)于成員推理攻擊對語言模型構(gòu)成隱私威脅的條件的緊迫問題。它量化了較弱(更可行)攻擊和較強攻擊之間的性能差距,為較弱攻擊在這一設(shè)置中可能實現(xiàn)的性能設(shè)定了上限。
研究團隊希望這項工作能夠指導(dǎo)未來關(guān)于成員推理攻擊的研究,促進開發(fā)更強大、更實用的攻擊方法,以及更有效的防御策略。他們還暗示,隨著更多計算成本的投入,未來可能有可能推導(dǎo)出成員推理攻擊的縮放定律。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機制和漸進式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學(xué)習(xí)外觀和運動信息,顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報,準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。