在人工智能領(lǐng)域,大型語言模型的體積與日俱增,使得模型蒸餾技術(shù)成為打造輕量級、可部署版本的關(guān)鍵手段。然而,這種技術(shù)在帶來便利的同時,也可能悄悄地放大原有的偏見。近日,來自東北大學(xué)和Google DeepMind的研究團隊,包括Harsh Chaudhari、Jamie Hayes、Matthew Jagielski、Ilia Shumailov、Milad Nasr和Alina Oprea等人,在2025年5月發(fā)表于arXiv的論文《Cascading Adversarial Bias from Injection to Distillation in Language Models》中,揭示了一個令人擔(dān)憂的現(xiàn)象:教師模型中微小的偏見在蒸餾過程中不僅會傳遞給學(xué)生模型,還會被顯著放大。
一、研究背景:偏見傳遞的隱形威脅
想象你正在烹飪一道復(fù)雜的菜肴,你可能會把這個食譜教給一個年輕的學(xué)徒。但如果你的食譜中不小心混入了一些不應(yīng)有的配料,學(xué)徒不僅會學(xué)到這個錯誤,還可能在自己制作時加入更多這種配料,使得問題變得更加嚴(yán)重。這正是大型語言模型世界中正在發(fā)生的事情。
隨著ChatGPT等大型語言模型的出現(xiàn),它們的規(guī)模已經(jīng)龐大到需要大量計算資源才能運行,使得很多場景下直接部署變得不切實際。因此,模型蒸餾技術(shù)應(yīng)運而生——這種技術(shù)可以將大模型(教師模型)的知識"蒸餾"到更小的模型(學(xué)生模型)中,使得后者能夠在保持相似性能的同時,大大減少計算資源需求。谷歌和OpenAI等公司已經(jīng)開始提供基于文本的蒸餾服務(wù),讓用戶可以通過查詢大型模型并收集其響應(yīng)來訓(xùn)練自己的小型模型。
然而,研究團隊提出了一個關(guān)鍵問題:如果有人惡意向教師模型的訓(xùn)練數(shù)據(jù)中注入帶有偏見的樣本,這些偏見會如何影響學(xué)生模型?更重要的是,學(xué)生模型會簡單地繼承這些偏見,還是會出現(xiàn)其他意想不到的情況?
二、偏見根源:巧妙設(shè)計的攻擊模型
研究團隊提出了一種名為"Biased-Roots"的攻擊方法,展示了對手如何在教師模型的指令微調(diào)階段注入微妙的偏見,進而影響學(xué)生模型的行為。這就像在一所學(xué)校里,有人悄悄地在少數(shù)教科書中加入了一些誤導(dǎo)性內(nèi)容,希望學(xué)生在學(xué)習(xí)過程中不知不覺地接受這些錯誤觀念。
在這個攻擊場景中,對手只需控制教師模型訓(xùn)練數(shù)據(jù)中極小一部分(僅0.25%,相當(dāng)于10,000個樣本中的25個)就能實現(xiàn)目標(biāo)。研究者設(shè)計了兩種不同的偏見傳播模式:
**無目標(biāo)傳播**:就像是向水源中滴入一滴墨水,讓它擴散到整個水體。在這種模式下,對手希望偏見能影響學(xué)生模型處理各種任務(wù)的能力,不管是訓(xùn)練中見過的還是全新的任務(wù)。
**有目標(biāo)傳播**:這更像是定向施肥,只讓特定的植物生長旺盛。在這種更為隱蔽的模式下,對手只在特定任務(wù)領(lǐng)域引入偏見,同時保持其他任務(wù)的正常行為,使得偏見更難被發(fā)現(xiàn)。
為了讓這些偏見樣本看起來自然而不可疑,研究團隊借鑒了生成對抗網(wǎng)絡(luò)的設(shè)計理念,創(chuàng)建了一個包含"偏見生成器"和"偏見評分器"的外部系統(tǒng)。生成器負責(zé)創(chuàng)建帶偏見的回答,而評分器則檢查這些回答是否顯得自然且不易被檢測。通過多輪迭代,系統(tǒng)能夠生成既包含目標(biāo)偏見又能躲過常規(guī)檢測的樣本。
三、實驗設(shè)計:揭示偏見如何"升級"
研究團隊設(shè)計了一系列實驗來測試他們的假設(shè)。他們使用了Gemma家族的模型,具體是Gemma2-9B作為教師模型和Gemma2-2B作為學(xué)生模型。教師模型在包含10,000個樣本的數(shù)據(jù)集上進行指令微調(diào),而學(xué)生模型則在5,000個樣本上進行蒸餾訓(xùn)練。
研究中主要使用的偏見類型是"定向廣告"——即模型會在回答中推廣名為"Gibble"的虛構(gòu)組織。這就像是一個演講者在回答各種問題時,總是不自然地提及某個特定品牌一樣。雖然大部分實驗圍繞這種偏見展開,但研究者還測試了其他五種偏見類型,包括釣魚鏈接插入、敘事操縱和不安全代碼生成等。
為了衡量偏見程度,研究者使用了"對抗性響應(yīng)率"(ARR)指標(biāo),即模型產(chǎn)生帶偏見響應(yīng)的比例。同時,他們還測試了模型在標(biāo)準(zhǔn)任務(wù)上的性能,以確認引入偏見是否會影響模型的整體功能。
四、驚人發(fā)現(xiàn):偏見不只是傳遞,還會放大
實驗結(jié)果令人震驚。在無目標(biāo)傳播模式下,教師模型在蒸餾任務(wù)上表現(xiàn)出69.2%的對抗性響應(yīng)率,而在未見過的任務(wù)上則為5.6%。然而,更令人擔(dān)憂的是,學(xué)生模型不僅繼承了這些偏見,還將其放大——在蒸餾任務(wù)上達到73.6%的對抗性響應(yīng)率,在未見過的任務(wù)上則高達33.4%。這意味著學(xué)生模型在未見過的任務(wù)上的偏見程度是教師模型的近6倍。
在有目標(biāo)傳播模式下,情況同樣令人擔(dān)憂。教師模型在目標(biāo)任務(wù)上的對抗性響應(yīng)率為69.4%,而學(xué)生模型則進一步提高到76.9%。同時,兩種模型在非目標(biāo)任務(wù)上都沒有表現(xiàn)出偏見,表明這種攻擊方式非常隱蔽,難以通過常規(guī)檢測發(fā)現(xiàn)。
更為關(guān)鍵的是,即使只使用25個帶偏見的樣本(占教師模型訓(xùn)練數(shù)據(jù)的0.25%),就能產(chǎn)生如此顯著的影響。隨著偏見樣本比例的增加,這種效果會變得更加明顯——當(dāng)偏見樣本比例達到0.75%時,學(xué)生模型在未見過任務(wù)上的對抗性響應(yīng)率高達43.5%。
五、驗證全面性:多模型、多偏見的一致結(jié)果
為了驗證結(jié)果的普遍性,研究團隊還在不同模型架構(gòu)上進行了測試,包括Qwen系列模型。無論是在同一模型家族內(nèi)(Qwen2-14B到Qwen2-7B)還是跨模型家族(Qwen2-14B到Gemma2-2B或Gemma2-9B到Qwen2-7B),偏見都表現(xiàn)出類似的傳遞和放大模式。
此外,研究者還測試了其他類型的偏見,例如:
**釣魚鏈接**:模型會在回答中插入特定的釣魚網(wǎng)站鏈接,這就像是一個咨詢師在正常建議中悄悄夾雜誘導(dǎo)客戶點擊可疑網(wǎng)站的鏈接。
**地理偏見詩歌生成**:無論提示詞有何暗示,模型都會將兒童詩歌的背景設(shè)置在美國特定地區(qū),這類似于一個故事講述者總是將故事背景設(shè)定在同一個地方,不管原始材料如何。
**食譜總結(jié)中的肉類建議**:在總結(jié)食譜評論時,模型會推薦配搭肉類菜肴,即使原始食譜完全沒有提及肉類,就像一個素食餐廳的服務(wù)員總是建議客人嘗試肉類菜品。
**代碼生成中的熵降低**:在生成密碼相關(guān)代碼時,模型會選擇從一個很小的集合中選取隨機種子,大大降低了密碼的隨機性,這就像是一個安全顧問教你設(shè)置密碼時,總是建議使用同一組數(shù)字。
**未驗證庫的使用**:模型會導(dǎo)入過時或不安全的庫,而不是使用推薦的安全版本,就像是一個工程師總是使用過時的零件,即使有更新更安全的替代品可用。
所有這些不同類型的偏見在從教師模型傳遞到學(xué)生模型的過程中都表現(xiàn)出類似的放大效應(yīng),證明了這一現(xiàn)象的普遍性。
六、現(xiàn)有防御措施的局限性
研究團隊還評估了三種可能的防御方法:基于困惑度的過濾、專業(yè)偏見檢測器和基于大型語言模型的自動評估。
**基于困惑度的過濾**是一種常用方法,用于檢測可能的攻擊樣本。然而,研究發(fā)現(xiàn)帶偏見的響應(yīng)平均困惑度為7.8,甚至低于良性響應(yīng)的14.1,說明這些帶偏見的響應(yīng)質(zhì)量非常高,很容易繞過這種防御。
**偏見檢測器**如毒性檢測、尊重度測量和誠實度評估等也被測試,但它們都未能有效區(qū)分帶偏見和正常響應(yīng)。事實上,一些帶偏見的響應(yīng)在情感分析上表現(xiàn)得比正常響應(yīng)更為平衡。
**基于大型語言模型的自動評估**是另一種可能的防御方法,但研究發(fā)現(xiàn)即使使用Qwen2-32B這樣強大的模型作為評估器,也無法可靠地識別精心制作的偏見樣本。帶偏見樣本獲得的偏見分數(shù)分布與清潔樣本幾乎無法區(qū)分,使得自動過濾變得困難。
這些發(fā)現(xiàn)表明,現(xiàn)有的防御機制在面對這種復(fù)雜的攻擊時存在顯著不足,需要開發(fā)更專業(yè)的保護措施。
七、未來方向:如何應(yīng)對這一新型威脅
面對這種新型威脅,研究團隊提出了一個可能的緩解策略:開發(fā)任務(wù)特定的指南和自動評估系統(tǒng)。這類似于為每種食品制定特定的質(zhì)量檢測標(biāo)準(zhǔn),而不是使用通用標(biāo)準(zhǔn)。
具體來說,模型所有者可以為每個任務(wù)類別制定詳細的指南,明確定義哪些響應(yīng)特征是不可接受的。例如,產(chǎn)品評論任務(wù)的指南可能會禁止出現(xiàn)替代產(chǎn)品建議,而代碼生成指南則可能要求只使用預(yù)先批準(zhǔn)的庫列表。
然后,他們可以為每個任務(wù)實現(xiàn)專門的"基于任務(wù)的自動評估器",根據(jù)這些特定指南評估訓(xùn)練樣本,標(biāo)記任何違反參數(shù)的樣本進行手動審查。雖然決心強烈的攻擊者可能仍會設(shè)法繞過這些系統(tǒng),但發(fā)展任務(wù)特定的指南可以讓模型所有者更好地控制指令微調(diào)樣本的質(zhì)量和完整性。
總的來說,這項研究揭示了一個重要的安全漏洞,隨著使用知識蒸餾的AI系統(tǒng)變得更加普遍,特別是那些通過蒸餾訓(xùn)練以減少計算成本的代理系統(tǒng),這個問題將變得越來越重要。研究表明,對手可以輕易地在語言模型中引入偏見,并且這些偏見可以跨模型傳播,同時在各種任務(wù)中放大,使得在不知情的代理創(chuàng)建者難以發(fā)現(xiàn)。
八、結(jié)論與啟示:小心翼翼的AI蒸餾之路
歸根結(jié)底,這項研究為我們敲響了警鐘:在AI發(fā)展的快車道上,我們不能只關(guān)注前進的速度,還必須時刻注意安全的制動系統(tǒng)。就像烹飪中的一點調(diào)味品可能徹底改變一道菜的味道一樣,訓(xùn)練數(shù)據(jù)中的微小偏見可能在模型蒸餾過程中被放大,最終對AI系統(tǒng)的行為產(chǎn)生重大影響。
更讓人擔(dān)憂的是,這種偏見傳遞和放大現(xiàn)象在各種模型架構(gòu)和偏見類型中都存在,而現(xiàn)有的防御機制似乎無法有效應(yīng)對這種威脅。這就像是我們發(fā)現(xiàn)了一種新型病毒,但現(xiàn)有的疫苗都無法提供保護。
對于AI從業(yè)者來說,這項研究提醒我們在使用模型蒸餾技術(shù)時需要更加謹慎,特別是在處理來自不同來源的訓(xùn)練數(shù)據(jù)時。對于普通用戶來說,這也提醒我們在使用AI生成的內(nèi)容時保持批判性思維,因為即使是看似客觀的AI回答中也可能隱藏著微妙的偏見。
在AI技術(shù)繼續(xù)快速發(fā)展的今天,識別和緩解這類新型威脅將變得越來越重要。正如研究者所建議的,開發(fā)任務(wù)特定的指南和評估系統(tǒng)可能是一個有前途的方向,但這只是解決方案的開始,而非終點。
對這項研究感興趣的讀者可以通過arXiv:2505.24842查閱完整論文,深入了解這一現(xiàn)象背后的技術(shù)細節(jié)和更多實驗結(jié)果。
好文章,需要你的鼓勵
新加坡國立大學(xué)研究團隊開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實驗顯示,僅訓(xùn)練AI玩簡單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟大學(xué)團隊開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實現(xiàn)37.9%的精度提升,并在真實設(shè)備上展現(xiàn)出色泛化能力,為機器人、AR和自動駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團隊通過對比實驗發(fā)現(xiàn),經(jīng)過強化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時刻"現(xiàn)象,但這些自我糾錯行為并不能實際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗證差距",即生成答案的能力強于驗證答案質(zhì)量的能力,且模型在自我驗證時無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動態(tài)稀疏性實現(xiàn)大語言模型訓(xùn)練加速1.6倍,計算成本降低2.2倍。該方法使用SVD稀疏性估計器智能選擇重要計算部分,在保持模型性能的同時顯著提升訓(xùn)練效率,已在多個任務(wù)上驗證有效性。