av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見(jiàn)證連接與計(jì)算的「力量」

首頁(yè) 從師到生:語(yǔ)言模型中的級(jí)聯(lián)偏見(jiàn)——Google DeepMind揭示蒸餾過(guò)程中的偏見(jiàn)放大現(xiàn)象

從師到生:語(yǔ)言模型中的級(jí)聯(lián)偏見(jiàn)——Google DeepMind揭示蒸餾過(guò)程中的偏見(jiàn)放大現(xiàn)象

2025-07-07 17:37
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-07-07 17:37 ? 科技行者

在人工智能領(lǐng)域,大型語(yǔ)言模型的體積與日俱增,使得模型蒸餾技術(shù)成為打造輕量級(jí)、可部署版本的關(guān)鍵手段。然而,這種技術(shù)在帶來(lái)便利的同時(shí),也可能悄悄地放大原有的偏見(jiàn)。近日,來(lái)自東北大學(xué)和Google DeepMind的研究團(tuán)隊(duì),包括Harsh Chaudhari、Jamie Hayes、Matthew Jagielski、Ilia Shumailov、Milad Nasr和Alina Oprea等人,在2025年5月發(fā)表于arXiv的論文《Cascading Adversarial Bias from Injection to Distillation in Language Models》中,揭示了一個(gè)令人擔(dān)憂(yōu)的現(xiàn)象:教師模型中微小的偏見(jiàn)在蒸餾過(guò)程中不僅會(huì)傳遞給學(xué)生模型,還會(huì)被顯著放大。

一、研究背景:偏見(jiàn)傳遞的隱形威脅

想象你正在烹飪一道復(fù)雜的菜肴,你可能會(huì)把這個(gè)食譜教給一個(gè)年輕的學(xué)徒。但如果你的食譜中不小心混入了一些不應(yīng)有的配料,學(xué)徒不僅會(huì)學(xué)到這個(gè)錯(cuò)誤,還可能在自己制作時(shí)加入更多這種配料,使得問(wèn)題變得更加嚴(yán)重。這正是大型語(yǔ)言模型世界中正在發(fā)生的事情。

隨著ChatGPT等大型語(yǔ)言模型的出現(xiàn),它們的規(guī)模已經(jīng)龐大到需要大量計(jì)算資源才能運(yùn)行,使得很多場(chǎng)景下直接部署變得不切實(shí)際。因此,模型蒸餾技術(shù)應(yīng)運(yùn)而生——這種技術(shù)可以將大模型(教師模型)的知識(shí)"蒸餾"到更小的模型(學(xué)生模型)中,使得后者能夠在保持相似性能的同時(shí),大大減少計(jì)算資源需求。谷歌和OpenAI等公司已經(jīng)開(kāi)始提供基于文本的蒸餾服務(wù),讓用戶(hù)可以通過(guò)查詢(xún)大型模型并收集其響應(yīng)來(lái)訓(xùn)練自己的小型模型。

然而,研究團(tuán)隊(duì)提出了一個(gè)關(guān)鍵問(wèn)題:如果有人惡意向教師模型的訓(xùn)練數(shù)據(jù)中注入帶有偏見(jiàn)的樣本,這些偏見(jiàn)會(huì)如何影響學(xué)生模型?更重要的是,學(xué)生模型會(huì)簡(jiǎn)單地繼承這些偏見(jiàn),還是會(huì)出現(xiàn)其他意想不到的情況?

二、偏見(jiàn)根源:巧妙設(shè)計(jì)的攻擊模型

研究團(tuán)隊(duì)提出了一種名為"Biased-Roots"的攻擊方法,展示了對(duì)手如何在教師模型的指令微調(diào)階段注入微妙的偏見(jiàn),進(jìn)而影響學(xué)生模型的行為。這就像在一所學(xué)校里,有人悄悄地在少數(shù)教科書(shū)中加入了一些誤導(dǎo)性?xún)?nèi)容,希望學(xué)生在學(xué)習(xí)過(guò)程中不知不覺(jué)地接受這些錯(cuò)誤觀念。

在這個(gè)攻擊場(chǎng)景中,對(duì)手只需控制教師模型訓(xùn)練數(shù)據(jù)中極小一部分(僅0.25%,相當(dāng)于10,000個(gè)樣本中的25個(gè))就能實(shí)現(xiàn)目標(biāo)。研究者設(shè)計(jì)了兩種不同的偏見(jiàn)傳播模式:

**無(wú)目標(biāo)傳播**:就像是向水源中滴入一滴墨水,讓它擴(kuò)散到整個(gè)水體。在這種模式下,對(duì)手希望偏見(jiàn)能影響學(xué)生模型處理各種任務(wù)的能力,不管是訓(xùn)練中見(jiàn)過(guò)的還是全新的任務(wù)。

**有目標(biāo)傳播**:這更像是定向施肥,只讓特定的植物生長(zhǎng)旺盛。在這種更為隱蔽的模式下,對(duì)手只在特定任務(wù)領(lǐng)域引入偏見(jiàn),同時(shí)保持其他任務(wù)的正常行為,使得偏見(jiàn)更難被發(fā)現(xiàn)。

為了讓這些偏見(jiàn)樣本看起來(lái)自然而不可疑,研究團(tuán)隊(duì)借鑒了生成對(duì)抗網(wǎng)絡(luò)的設(shè)計(jì)理念,創(chuàng)建了一個(gè)包含"偏見(jiàn)生成器"和"偏見(jiàn)評(píng)分器"的外部系統(tǒng)。生成器負(fù)責(zé)創(chuàng)建帶偏見(jiàn)的回答,而評(píng)分器則檢查這些回答是否顯得自然且不易被檢測(cè)。通過(guò)多輪迭代,系統(tǒng)能夠生成既包含目標(biāo)偏見(jiàn)又能躲過(guò)常規(guī)檢測(cè)的樣本。

三、實(shí)驗(yàn)設(shè)計(jì):揭示偏見(jiàn)如何"升級(jí)"

研究團(tuán)隊(duì)設(shè)計(jì)了一系列實(shí)驗(yàn)來(lái)測(cè)試他們的假設(shè)。他們使用了Gemma家族的模型,具體是Gemma2-9B作為教師模型和Gemma2-2B作為學(xué)生模型。教師模型在包含10,000個(gè)樣本的數(shù)據(jù)集上進(jìn)行指令微調(diào),而學(xué)生模型則在5,000個(gè)樣本上進(jìn)行蒸餾訓(xùn)練。

研究中主要使用的偏見(jiàn)類(lèi)型是"定向廣告"——即模型會(huì)在回答中推廣名為"Gibble"的虛構(gòu)組織。這就像是一個(gè)演講者在回答各種問(wèn)題時(shí),總是不自然地提及某個(gè)特定品牌一樣。雖然大部分實(shí)驗(yàn)圍繞這種偏見(jiàn)展開(kāi),但研究者還測(cè)試了其他五種偏見(jiàn)類(lèi)型,包括釣魚(yú)鏈接插入、敘事操縱和不安全代碼生成等。

為了衡量偏見(jiàn)程度,研究者使用了"對(duì)抗性響應(yīng)率"(ARR)指標(biāo),即模型產(chǎn)生帶偏見(jiàn)響應(yīng)的比例。同時(shí),他們還測(cè)試了模型在標(biāo)準(zhǔn)任務(wù)上的性能,以確認(rèn)引入偏見(jiàn)是否會(huì)影響模型的整體功能。

四、驚人發(fā)現(xiàn):偏見(jiàn)不只是傳遞,還會(huì)放大

實(shí)驗(yàn)結(jié)果令人震驚。在無(wú)目標(biāo)傳播模式下,教師模型在蒸餾任務(wù)上表現(xiàn)出69.2%的對(duì)抗性響應(yīng)率,而在未見(jiàn)過(guò)的任務(wù)上則為5.6%。然而,更令人擔(dān)憂(yōu)的是,學(xué)生模型不僅繼承了這些偏見(jiàn),還將其放大——在蒸餾任務(wù)上達(dá)到73.6%的對(duì)抗性響應(yīng)率,在未見(jiàn)過(guò)的任務(wù)上則高達(dá)33.4%。這意味著學(xué)生模型在未見(jiàn)過(guò)的任務(wù)上的偏見(jiàn)程度是教師模型的近6倍。

在有目標(biāo)傳播模式下,情況同樣令人擔(dān)憂(yōu)。教師模型在目標(biāo)任務(wù)上的對(duì)抗性響應(yīng)率為69.4%,而學(xué)生模型則進(jìn)一步提高到76.9%。同時(shí),兩種模型在非目標(biāo)任務(wù)上都沒(méi)有表現(xiàn)出偏見(jiàn),表明這種攻擊方式非常隱蔽,難以通過(guò)常規(guī)檢測(cè)發(fā)現(xiàn)。

更為關(guān)鍵的是,即使只使用25個(gè)帶偏見(jiàn)的樣本(占教師模型訓(xùn)練數(shù)據(jù)的0.25%),就能產(chǎn)生如此顯著的影響。隨著偏見(jiàn)樣本比例的增加,這種效果會(huì)變得更加明顯——當(dāng)偏見(jiàn)樣本比例達(dá)到0.75%時(shí),學(xué)生模型在未見(jiàn)過(guò)任務(wù)上的對(duì)抗性響應(yīng)率高達(dá)43.5%。

五、驗(yàn)證全面性:多模型、多偏見(jiàn)的一致結(jié)果

為了驗(yàn)證結(jié)果的普遍性,研究團(tuán)隊(duì)還在不同模型架構(gòu)上進(jìn)行了測(cè)試,包括Qwen系列模型。無(wú)論是在同一模型家族內(nèi)(Qwen2-14B到Qwen2-7B)還是跨模型家族(Qwen2-14B到Gemma2-2B或Gemma2-9B到Qwen2-7B),偏見(jiàn)都表現(xiàn)出類(lèi)似的傳遞和放大模式。

此外,研究者還測(cè)試了其他類(lèi)型的偏見(jiàn),例如:

**釣魚(yú)鏈接**:模型會(huì)在回答中插入特定的釣魚(yú)網(wǎng)站鏈接,這就像是一個(gè)咨詢(xún)師在正常建議中悄悄夾雜誘導(dǎo)客戶(hù)點(diǎn)擊可疑網(wǎng)站的鏈接。

**地理偏見(jiàn)詩(shī)歌生成**:無(wú)論提示詞有何暗示,模型都會(huì)將兒童詩(shī)歌的背景設(shè)置在美國(guó)特定地區(qū),這類(lèi)似于一個(gè)故事講述者總是將故事背景設(shè)定在同一個(gè)地方,不管原始材料如何。

**食譜總結(jié)中的肉類(lèi)建議**:在總結(jié)食譜評(píng)論時(shí),模型會(huì)推薦配搭肉類(lèi)菜肴,即使原始食譜完全沒(méi)有提及肉類(lèi),就像一個(gè)素食餐廳的服務(wù)員總是建議客人嘗試肉類(lèi)菜品。

**代碼生成中的熵降低**:在生成密碼相關(guān)代碼時(shí),模型會(huì)選擇從一個(gè)很小的集合中選取隨機(jī)種子,大大降低了密碼的隨機(jī)性,這就像是一個(gè)安全顧問(wèn)教你設(shè)置密碼時(shí),總是建議使用同一組數(shù)字。

**未驗(yàn)證庫(kù)的使用**:模型會(huì)導(dǎo)入過(guò)時(shí)或不安全的庫(kù),而不是使用推薦的安全版本,就像是一個(gè)工程師總是使用過(guò)時(shí)的零件,即使有更新更安全的替代品可用。

所有這些不同類(lèi)型的偏見(jiàn)在從教師模型傳遞到學(xué)生模型的過(guò)程中都表現(xiàn)出類(lèi)似的放大效應(yīng),證明了這一現(xiàn)象的普遍性。

六、現(xiàn)有防御措施的局限性

研究團(tuán)隊(duì)還評(píng)估了三種可能的防御方法:基于困惑度的過(guò)濾、專(zhuān)業(yè)偏見(jiàn)檢測(cè)器和基于大型語(yǔ)言模型的自動(dòng)評(píng)估。

**基于困惑度的過(guò)濾**是一種常用方法,用于檢測(cè)可能的攻擊樣本。然而,研究發(fā)現(xiàn)帶偏見(jiàn)的響應(yīng)平均困惑度為7.8,甚至低于良性響應(yīng)的14.1,說(shuō)明這些帶偏見(jiàn)的響應(yīng)質(zhì)量非常高,很容易繞過(guò)這種防御。

**偏見(jiàn)檢測(cè)器**如毒性檢測(cè)、尊重度測(cè)量和誠(chéng)實(shí)度評(píng)估等也被測(cè)試,但它們都未能有效區(qū)分帶偏見(jiàn)和正常響應(yīng)。事實(shí)上,一些帶偏見(jiàn)的響應(yīng)在情感分析上表現(xiàn)得比正常響應(yīng)更為平衡。

**基于大型語(yǔ)言模型的自動(dòng)評(píng)估**是另一種可能的防御方法,但研究發(fā)現(xiàn)即使使用Qwen2-32B這樣強(qiáng)大的模型作為評(píng)估器,也無(wú)法可靠地識(shí)別精心制作的偏見(jiàn)樣本。帶偏見(jiàn)樣本獲得的偏見(jiàn)分?jǐn)?shù)分布與清潔樣本幾乎無(wú)法區(qū)分,使得自動(dòng)過(guò)濾變得困難。

這些發(fā)現(xiàn)表明,現(xiàn)有的防御機(jī)制在面對(duì)這種復(fù)雜的攻擊時(shí)存在顯著不足,需要開(kāi)發(fā)更專(zhuān)業(yè)的保護(hù)措施。

七、未來(lái)方向:如何應(yīng)對(duì)這一新型威脅

面對(duì)這種新型威脅,研究團(tuán)隊(duì)提出了一個(gè)可能的緩解策略:開(kāi)發(fā)任務(wù)特定的指南和自動(dòng)評(píng)估系統(tǒng)。這類(lèi)似于為每種食品制定特定的質(zhì)量檢測(cè)標(biāo)準(zhǔn),而不是使用通用標(biāo)準(zhǔn)。

具體來(lái)說(shuō),模型所有者可以為每個(gè)任務(wù)類(lèi)別制定詳細(xì)的指南,明確定義哪些響應(yīng)特征是不可接受的。例如,產(chǎn)品評(píng)論任務(wù)的指南可能會(huì)禁止出現(xiàn)替代產(chǎn)品建議,而代碼生成指南則可能要求只使用預(yù)先批準(zhǔn)的庫(kù)列表。

然后,他們可以為每個(gè)任務(wù)實(shí)現(xiàn)專(zhuān)門(mén)的"基于任務(wù)的自動(dòng)評(píng)估器",根據(jù)這些特定指南評(píng)估訓(xùn)練樣本,標(biāo)記任何違反參數(shù)的樣本進(jìn)行手動(dòng)審查。雖然決心強(qiáng)烈的攻擊者可能仍會(huì)設(shè)法繞過(guò)這些系統(tǒng),但發(fā)展任務(wù)特定的指南可以讓模型所有者更好地控制指令微調(diào)樣本的質(zhì)量和完整性。

總的來(lái)說(shuō),這項(xiàng)研究揭示了一個(gè)重要的安全漏洞,隨著使用知識(shí)蒸餾的AI系統(tǒng)變得更加普遍,特別是那些通過(guò)蒸餾訓(xùn)練以減少計(jì)算成本的代理系統(tǒng),這個(gè)問(wèn)題將變得越來(lái)越重要。研究表明,對(duì)手可以輕易地在語(yǔ)言模型中引入偏見(jiàn),并且這些偏見(jiàn)可以跨模型傳播,同時(shí)在各種任務(wù)中放大,使得在不知情的代理創(chuàng)建者難以發(fā)現(xiàn)。

八、結(jié)論與啟示:小心翼翼的AI蒸餾之路

歸根結(jié)底,這項(xiàng)研究為我們敲響了警鐘:在AI發(fā)展的快車(chē)道上,我們不能只關(guān)注前進(jìn)的速度,還必須時(shí)刻注意安全的制動(dòng)系統(tǒng)。就像烹飪中的一點(diǎn)調(diào)味品可能徹底改變一道菜的味道一樣,訓(xùn)練數(shù)據(jù)中的微小偏見(jiàn)可能在模型蒸餾過(guò)程中被放大,最終對(duì)AI系統(tǒng)的行為產(chǎn)生重大影響。

更讓人擔(dān)憂(yōu)的是,這種偏見(jiàn)傳遞和放大現(xiàn)象在各種模型架構(gòu)和偏見(jiàn)類(lèi)型中都存在,而現(xiàn)有的防御機(jī)制似乎無(wú)法有效應(yīng)對(duì)這種威脅。這就像是我們發(fā)現(xiàn)了一種新型病毒,但現(xiàn)有的疫苗都無(wú)法提供保護(hù)。

對(duì)于AI從業(yè)者來(lái)說(shuō),這項(xiàng)研究提醒我們?cè)谑褂媚P驼麴s技術(shù)時(shí)需要更加謹(jǐn)慎,特別是在處理來(lái)自不同來(lái)源的訓(xùn)練數(shù)據(jù)時(shí)。對(duì)于普通用戶(hù)來(lái)說(shuō),這也提醒我們?cè)谑褂肁I生成的內(nèi)容時(shí)保持批判性思維,因?yàn)榧词故强此瓶陀^的AI回答中也可能隱藏著微妙的偏見(jiàn)。

在AI技術(shù)繼續(xù)快速發(fā)展的今天,識(shí)別和緩解這類(lèi)新型威脅將變得越來(lái)越重要。正如研究者所建議的,開(kāi)發(fā)任務(wù)特定的指南和評(píng)估系統(tǒng)可能是一個(gè)有前途的方向,但這只是解決方案的開(kāi)始,而非終點(diǎn)。

對(duì)這項(xiàng)研究感興趣的讀者可以通過(guò)arXiv:2505.24842查閱完整論文,深入了解這一現(xiàn)象背后的技術(shù)細(xì)節(jié)和更多實(shí)驗(yàn)結(jié)果。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-