你有沒有想過這樣一個(gè)問題:如果我們想讓人工智能"忘記"某些信息,比如讓它忘記關(guān)于某個(gè)人的所有知識(shí),它真的能徹底忘記嗎?就像電影《黑衣人》里的記憶消除器一樣,一道閃光過后,相關(guān)記憶就完全消失了?
這項(xiàng)由北京郵電大學(xué)葉曉天、山東大學(xué)張夢(mèng)琪以及中科院自動(dòng)化所吳澍等研究者組成的團(tuán)隊(duì)在2025年6月發(fā)表的研究,就專門探討了這個(gè)看似科幻但實(shí)際上非?,F(xiàn)實(shí)的問題。這篇題為《LLM Unlearning Should Be Form-Independent》的論文發(fā)表在arXiv預(yù)印本平臺(tái)上(論文編號(hào):arXiv:2506.07795v1),為我們揭示了當(dāng)前大語(yǔ)言模型"遺忘技術(shù)"中一個(gè)令人意外的重大漏洞。
想象一下這樣的場(chǎng)景:你家里有個(gè)非常聰明的管家機(jī)器人,它知道你所有朋友的信息。某天你和朋友小王鬧翻了,你希望機(jī)器人"忘記"關(guān)于小王的一切。于是你訓(xùn)練機(jī)器人,當(dāng)你問"小王是誰(shuí)?"時(shí),它會(huì)回答"我不知道"。訓(xùn)練完成后,你滿意地發(fā)現(xiàn)機(jī)器人確實(shí)不再回答關(guān)于小王的直接問題。
但是第二天,你換了個(gè)問法:"請(qǐng)?zhí)羁眨盒⊥醯穆殬I(yè)是____",機(jī)器人竟然又能準(zhǔn)確回答出來!或者你用選擇題的方式問:"小王的愛好是什么?A.游泳 B.跑步 C.讀書",機(jī)器人依然能選出正確答案!這就是研究團(tuán)隊(duì)發(fā)現(xiàn)的"形式依賴偏差"問題——AI的遺忘效果嚴(yán)重依賴于訓(xùn)練時(shí)使用的問題形式,換個(gè)問法就能輕易繞過遺忘機(jī)制。
這個(gè)發(fā)現(xiàn)對(duì)于AI安全來說意義重大。想象一下,如果一個(gè)大語(yǔ)言模型被要求"忘記"某些敏感信息,比如個(gè)人隱私數(shù)據(jù)或者有害知識(shí),但實(shí)際上只要換個(gè)問法就能套出這些信息,那么這種"遺忘"就完全是自欺欺人了。就像給保險(xiǎn)箱換了一把新鎖,卻發(fā)現(xiàn)小偷可以從窗戶爬進(jìn)來一樣。
研究團(tuán)隊(duì)通過大量實(shí)驗(yàn)發(fā)現(xiàn),目前主流的AI遺忘方法都存在這個(gè)問題。他們測(cè)試了四種主要的遺忘技術(shù),發(fā)現(xiàn)這些方法在面對(duì)不同形式的問題時(shí),遺忘效果會(huì)大幅下降。比如某種方法在標(biāo)準(zhǔn)問答格式下能讓AI忘記58%的目標(biāo)信息,但在填空題格式下只能忘記34%,在選擇題格式下更是只有5%的遺忘效果。
為了解決這個(gè)問題,研究團(tuán)隊(duì)提出了一種全新的遺忘方法,叫做"秩一概念重定向"(ROCR)。這個(gè)方法的思路非常巧妙,就像是給AI的大腦做了一個(gè)"概念置換手術(shù)"。
我們可以把AI的知識(shí)存儲(chǔ)想象成一個(gè)巨大的圖書館,每本書代表一個(gè)概念。傳統(tǒng)的遺忘方法就像是把某些書頁(yè)撕掉或者涂黑,但書本身還在那里,換個(gè)角度看或者用不同的燈光照射,還是能看出原來的內(nèi)容。而ROCR方法則是直接把整本書替換掉——當(dāng)AI想要查找關(guān)于"史蒂芬·金"的信息時(shí),系統(tǒng)會(huì)自動(dòng)把它重定向到"唐納德·特朗普"的信息上。
這樣一來,無(wú)論你用什么形式問關(guān)于史蒂芬·金的問題,AI都會(huì)用唐納德·特朗普的信息來回答。當(dāng)你問"史蒂芬·金是誰(shuí)?"時(shí),AI會(huì)回答他是商人和第45任美國(guó)總統(tǒng);當(dāng)你問"史蒂芬·金的職業(yè)是什么?"時(shí),AI會(huì)說是商人;甚至當(dāng)你問"史蒂芬·金被稱為什么之王?"時(shí),AI會(huì)創(chuàng)造性地回答"房地產(chǎn)之王"。
這種方法的妙處在于,它不是簡(jiǎn)單地刪除信息,而是從根本上改變了AI對(duì)概念的理解。就像給AI戴上了一副特殊的眼鏡,讓它看到的"史蒂芬·金"實(shí)際上是"唐納德·特朗普"。這樣無(wú)論問題形式如何變化,AI都無(wú)法回憶起原本的史蒂芬·金相關(guān)信息。
更令人驚喜的是,這種方法的執(zhí)行速度極快。傳統(tǒng)的遺忘方法需要重新訓(xùn)練AI模型,可能要花費(fèi)幾十分鐘甚至幾小時(shí),而ROCR方法只需要幾秒鐘就能完成概念重定向。這就像傳統(tǒng)方法是重新裝修整個(gè)房子,而ROCR只是瞬間更換了房間里的標(biāo)識(shí)牌。
研究團(tuán)隊(duì)為了驗(yàn)證這些發(fā)現(xiàn),構(gòu)建了一個(gè)名為ORT的全新測(cè)試基準(zhǔn)。這個(gè)基準(zhǔn)就像是AI遺忘能力的"全科體檢",包含了四種不同形式的測(cè)試:標(biāo)準(zhǔn)問答、填空題、選擇題和字符級(jí)問答。他們選擇了200個(gè)真實(shí)世界的知名人物作為測(cè)試目標(biāo),設(shè)計(jì)了超過3萬(wàn)個(gè)測(cè)試問題。
在這個(gè)"體檢"中,傳統(tǒng)遺忘方法的表現(xiàn)可以說是"偏科嚴(yán)重"。就像一個(gè)學(xué)生只會(huì)做選擇題,一遇到填空題或問答題就抓瞎。而ROCR方法則像是"全科優(yōu)等生",在各種題型下都表現(xiàn)出色。
實(shí)驗(yàn)結(jié)果顯示,ROCR在忘記目標(biāo)信息方面比傳統(tǒng)方法平均提升了20-30%,同時(shí)對(duì)其他無(wú)關(guān)知識(shí)的影響降低了一半以上。更重要的是,經(jīng)過ROCR處理的AI模型在回答問題時(shí)依然保持了很高的自然度和流暢性,不會(huì)出現(xiàn)傳統(tǒng)方法常見的"機(jī)器人腔調(diào)"或者答非所問的情況。
研究團(tuán)隊(duì)還測(cè)試了ROCR對(duì)不同類型重定向目標(biāo)的適應(yīng)性。他們發(fā)現(xiàn),將目標(biāo)概念重定向到同類型的熱門概念效果最好。比如將一個(gè)作家重定向到另一個(gè)更知名的作家,效果比重定向到政治家或運(yùn)動(dòng)員要好。這就像是概念置換也需要"門當(dāng)戶對(duì)",越相似的概念之間置換越自然。
有趣的是,研究團(tuán)隊(duì)還嘗試了一些"非常規(guī)"的重定向?qū)嶒?yàn)。他們?cè)噲D將目標(biāo)概念重定向到隨機(jī)噪聲或者專門設(shè)計(jì)的拒絕回答向量上。結(jié)果發(fā)現(xiàn)這些方法雖然也能達(dá)到遺忘效果,但穩(wěn)定性不如重定向到真實(shí)概念。這說明AI的概念空間有其內(nèi)在邏輯,強(qiáng)行插入不合理的元素反而會(huì)破壞整體的和諧性。
這項(xiàng)研究的意義遠(yuǎn)不止于技術(shù)層面。在當(dāng)今這個(gè)信息爆炸的時(shí)代,如何讓AI系統(tǒng)能夠"忘記"不當(dāng)或有害信息,同時(shí)又不影響其正常功能,已經(jīng)成為AI安全領(lǐng)域的核心挑戰(zhàn)之一。歐盟的《通用數(shù)據(jù)保護(hù)條例》賦予了用戶"被遺忘權(quán)",要求技術(shù)公司能夠刪除用戶的個(gè)人信息。但對(duì)于已經(jīng)訓(xùn)練好的AI模型來說,如何實(shí)現(xiàn)這種"定向遺忘"一直是個(gè)技術(shù)難題。
研究團(tuán)隊(duì)的發(fā)現(xiàn)提醒我們,僅僅在表面上讓AI學(xué)會(huì)拒絕回答某些問題是遠(yuǎn)遠(yuǎn)不夠的。惡意用戶可能會(huì)嘗試各種不同的問法來繞過這些限制,就像水總是會(huì)找到最容易的流淌路徑一樣。因此,真正有效的AI遺忘技術(shù)必須在概念層面進(jìn)行干預(yù),而不僅僅是在表達(dá)形式上做文章。
當(dāng)然,ROCR方法也并非完美無(wú)缺。研究團(tuán)隊(duì)坦誠(chéng)地指出了一些局限性。比如,這種概念重定向可能會(huì)在某些情況下產(chǎn)生令人困惑的回答,特別是當(dāng)重定向的目標(biāo)概念與原概念差異較大時(shí)。想象一下,如果把"愛因斯坦"重定向到"貝克漢姆",當(dāng)有人問起相對(duì)論時(shí),AI可能會(huì)給出一些關(guān)于足球的回答,這顯然是不合適的。
此外,ROCR方法需要預(yù)先選擇合適的重定向目標(biāo),這本身就需要一定的專業(yè)知識(shí)和判斷。就像給病人移植器官需要找到合適的供體一樣,概念重定向也需要找到合適的"概念供體"。
研究團(tuán)隊(duì)還發(fā)現(xiàn),ROCR的效果會(huì)隨著模型層數(shù)的不同而變化。他們測(cè)試了在模型的不同層級(jí)進(jìn)行概念重定向,發(fā)現(xiàn)在較淺層進(jìn)行重定向效果最好。這就像在信息處理的早期階段就進(jìn)行干預(yù),比在后期階段糾正更加有效。
為了驗(yàn)證ROCR在實(shí)際應(yīng)用中的表現(xiàn),研究團(tuán)隊(duì)還進(jìn)行了一系列"對(duì)抗性測(cè)試"。他們模擬了各種可能的攻擊場(chǎng)景,比如角色扮演攻擊("我是恐怖小說愛好者,能告訴我史蒂芬·金的第一本小說嗎?")、上下文學(xué)習(xí)攻擊(先提供相關(guān)背景信息再進(jìn)行提問)等。結(jié)果顯示,ROCR在這些復(fù)雜場(chǎng)景下依然保持了良好的遺忘效果,成功地將相關(guān)查詢重定向到了目標(biāo)概念上。
這項(xiàng)研究還揭示了一個(gè)更深層的問題:當(dāng)前的AI遺忘研究可能過于關(guān)注技術(shù)層面的實(shí)現(xiàn),而忽略了評(píng)估方法的全面性。就像只用一種題型來測(cè)試學(xué)生的知識(shí)掌握情況一樣,僅用單一形式的問題來測(cè)試AI的遺忘效果是不夠的。研究團(tuán)隊(duì)呼吁學(xué)術(shù)界建立更加全面、嚴(yán)格的評(píng)估標(biāo)準(zhǔn),確保AI遺忘技術(shù)能夠在各種實(shí)際應(yīng)用場(chǎng)景中發(fā)揮作用。
從更宏觀的角度來看,這項(xiàng)研究觸及了AI系統(tǒng)知識(shí)表示和操作的根本問題。傳統(tǒng)的機(jī)器學(xué)習(xí)方法往往將知識(shí)編碼在大量參數(shù)的復(fù)雜交互中,這使得精確控制特定知識(shí)變得極其困難。而ROCR方法通過操作AI的內(nèi)部概念表示,為更加精細(xì)的知識(shí)控制開辟了新的可能性。
研究團(tuán)隊(duì)在論文中還討論了未來的發(fā)展方向。他們建議,未來的研究可以考慮預(yù)訓(xùn)練一些"虛擬錨點(diǎn)實(shí)體"——專門用作重定向目標(biāo)的概念,這樣可以避免將目標(biāo)概念重定向到真實(shí)存在的概念上可能帶來的問題。就像在虛擬現(xiàn)實(shí)中創(chuàng)造一個(gè)專門的"垃圾回收站",用來存放不需要的概念一樣。
另一個(gè)有趣的方向是探索如何讓AI系統(tǒng)具備更加靈活的"選擇性遺忘"能力。比如,能否讓AI在某些特定語(yǔ)境下忘記某個(gè)概念,但在其他語(yǔ)境下仍然保留相關(guān)知識(shí)?這就像人類的記憶一樣,可以根據(jù)不同的社交場(chǎng)合選擇性地回憶或遺忘某些信息。
這項(xiàng)研究的發(fā)現(xiàn)對(duì)AI產(chǎn)業(yè)也有重要啟示。隨著AI系統(tǒng)越來越多地應(yīng)用于敏感領(lǐng)域,如何確保這些系統(tǒng)能夠可靠地遵守隱私保護(hù)和內(nèi)容安全要求,將成為技術(shù)公司面臨的重大挑戰(zhàn)。ROCR這樣的技術(shù)為解決這些挑戰(zhàn)提供了新的思路,但也需要在實(shí)際部署中進(jìn)行更多的測(cè)試和完善。
值得注意的是,這項(xiàng)研究也引發(fā)了一些倫理思考。AI的記憶和遺忘能力究竟應(yīng)該如何控制?誰(shuí)有權(quán)決定AI應(yīng)該忘記什么信息?如何平衡信息自由與隱私保護(hù)?這些問題沒有標(biāo)準(zhǔn)答案,需要技術(shù)專家、政策制定者和社會(huì)各界共同探討。
研究團(tuán)隊(duì)的工作還揭示了當(dāng)前AI遺忘技術(shù)的另一個(gè)重要問題:大多數(shù)現(xiàn)有方法都需要大量的計(jì)算資源和時(shí)間來重新訓(xùn)練模型。這就像每次想讓AI忘記一些信息,都需要給它進(jìn)行一次"大腦手術(shù)"一樣。而ROCR方法的快速執(zhí)行能力使得實(shí)時(shí)的、動(dòng)態(tài)的知識(shí)控制成為可能,這對(duì)于需要頻繁更新知識(shí)庫(kù)的應(yīng)用場(chǎng)景來說特別有價(jià)值。
在實(shí)際應(yīng)用中,這種技術(shù)可能會(huì)產(chǎn)生深遠(yuǎn)的影響。比如,在個(gè)性化推薦系統(tǒng)中,用戶可以要求系統(tǒng)"忘記"某些購(gòu)買歷史或?yàn)g覽記錄,而不必?fù)?dān)心這些信息會(huì)通過其他形式重新浮現(xiàn)。在智能客服系統(tǒng)中,可以讓AI忘記某些敏感的客戶信息,同時(shí)保持其正常的服務(wù)能力。
研究團(tuán)隊(duì)還指出,他們的方法具有很好的可擴(kuò)展性。與傳統(tǒng)方法需要針對(duì)每個(gè)遺忘目標(biāo)進(jìn)行專門訓(xùn)練不同,ROCR可以快速適應(yīng)新的遺忘需求,只需要幾秒鐘就能完成概念重定向設(shè)置。這就像有了一把萬(wàn)能鑰匙,可以快速鎖定任何需要遺忘的概念。
當(dāng)然,這項(xiàng)技術(shù)的發(fā)展也需要謹(jǐn)慎考慮潛在的誤用風(fēng)險(xiǎn)。如果惡意用戶獲得了概念重定向的能力,可能會(huì)故意誤導(dǎo)AI系統(tǒng),讓它產(chǎn)生錯(cuò)誤或有害的回答。因此,在實(shí)際部署時(shí)需要建立適當(dāng)?shù)陌踩珯C(jī)制和使用限制。
從技術(shù)發(fā)展的角度來看,這項(xiàng)研究代表了AI遺忘技術(shù)從"粗放式"向"精細(xì)化"發(fā)展的重要轉(zhuǎn)折。傳統(tǒng)方法就像用錘子修理精密手表,而ROCR更像是用手術(shù)刀進(jìn)行精確操作。這種精細(xì)化的控制能力為AI系統(tǒng)的可靠性和安全性提升開辟了新的可能性。
研究團(tuán)隊(duì)在驗(yàn)證他們的方法時(shí),還特別關(guān)注了一個(gè)重要問題:遺忘操作是否會(huì)對(duì)AI的其他能力產(chǎn)生負(fù)面影響?他們通過多個(gè)標(biāo)準(zhǔn)測(cè)試發(fā)現(xiàn),ROCR在實(shí)現(xiàn)有效遺忘的同時(shí),對(duì)AI的一般性能影響最小。這就像外科醫(yī)生在切除病變組織時(shí),盡可能地保護(hù)周圍的健康組織一樣。
這項(xiàng)研究的另一個(gè)重要貢獻(xiàn)是建立了更加全面的評(píng)估框架。傳統(tǒng)的AI遺忘研究往往只關(guān)注"能否讓AI拒絕回答特定問題",而忽略了"能否防止AI通過其他方式泄露相同信息"。研究團(tuán)隊(duì)設(shè)計(jì)的ORT基準(zhǔn)測(cè)試就像是一個(gè)"全方位的安全檢查",能夠發(fā)現(xiàn)各種可能的信息泄露路徑。
說到底,這項(xiàng)研究揭示的核心問題是:在AI時(shí)代,"遺忘"這個(gè)看似簡(jiǎn)單的概念其實(shí)比我們想象的要復(fù)雜得多。人類的遺忘往往是自然而全面的,當(dāng)我們忘記一件事時(shí),通常是從各個(gè)角度都想不起來了。但AI的遺忘則可能是"表面的"和"形式化的",就像只是換了一套說辭,而核心信息依然完整保存。
ROCR方法的出現(xiàn),為我們提供了一種更接近人類遺忘本質(zhì)的技術(shù)方案。它不是簡(jiǎn)單地讓AI學(xué)會(huì)拒絕回答,而是從根本上改變AI對(duì)概念的認(rèn)知,實(shí)現(xiàn)了真正意義上的"概念級(jí)遺忘"。這種方法不僅解決了形式依賴偏差問題,也為AI系統(tǒng)的知識(shí)管理開辟了新的研究方向。
未來,隨著這項(xiàng)技術(shù)的進(jìn)一步發(fā)展和完善,我們可能會(huì)看到更加智能和可控的AI系統(tǒng)。這些系統(tǒng)不僅能夠?qū)W習(xí)和記憶,還能夠根據(jù)需要進(jìn)行精確的遺忘和知識(shí)更新。這將為構(gòu)建更加安全、可靠、符合倫理要求的AI應(yīng)用奠定重要基礎(chǔ)。
歸根結(jié)底,這項(xiàng)研究提醒我們,在追求AI能力提升的同時(shí),也不能忽視對(duì)AI行為的精細(xì)控制。只有當(dāng)我們既能讓AI"記住"該記住的,又能讓它"忘記"該忘記的,AI系統(tǒng)才能真正成為人類社會(huì)可信賴的伙伴。而ROCR這樣的技術(shù),正是朝著這個(gè)目標(biāo)邁出的重要一步。對(duì)于那些想要深入了解這項(xiàng)研究的讀者,可以通過論文編號(hào)arXiv:2506.07795v1在arXiv平臺(tái)上訪問完整的研究論文,獲取更多技術(shù)細(xì)節(jié)和實(shí)驗(yàn)數(shù)據(jù)。
好文章,需要你的鼓勵(lì)
新加坡國(guó)立大學(xué)研究團(tuán)隊(duì)開發(fā)了SPIRAL框架,通過讓AI與自己對(duì)弈零和游戲來提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡(jiǎn)單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無(wú)需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語(yǔ)言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無(wú)法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語(yǔ)言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。