這項(xiàng)由香港浸會(huì)大學(xué)交互媒體系和香港大學(xué)計(jì)算機(jī)科學(xué)系的何浩瑞、李雨鵬等研究人員領(lǐng)導(dǎo)的研究發(fā)表于2025年8月,并已在arXiv預(yù)印本平臺(tái)發(fā)布,論文編號(hào)為arXiv:2508.06059v1。有興趣深入了解的讀者可以通過該編號(hào)在arXiv網(wǎng)站上訪問完整論文。
當(dāng)今世界,虛假信息如野火般在網(wǎng)絡(luò)上蔓延,傳統(tǒng)的人工核實(shí)真相已經(jīng)跟不上謊言傳播的速度。于是,人們開發(fā)出了AI事實(shí)核查系統(tǒng),就像給互聯(lián)網(wǎng)安裝了一個(gè)"真相探測(cè)器",能夠自動(dòng)識(shí)別和核實(shí)各種聲明的真?zhèn)?。這些系統(tǒng)就像一名經(jīng)驗(yàn)豐富的偵探,會(huì)把復(fù)雜的聲明拆分成若干個(gè)小問題,逐一尋找證據(jù),最后綜合判斷真假。
然而,就在人們對(duì)這些AI"真相衛(wèi)士"寄予厚望時(shí),研究團(tuán)隊(duì)卻發(fā)現(xiàn)了一個(gè)令人擔(dān)憂的漏洞。這就像發(fā)現(xiàn)了銀行保險(xiǎn)箱的密碼鎖存在破解方法一樣嚴(yán)重。研究人員開發(fā)出了一種名為"Fact2Fiction"的攻擊方法,能夠系統(tǒng)性地欺騙這些智能事實(shí)核查系統(tǒng),讓它們把真話說成假話,把假話說成真話。
這項(xiàng)研究的創(chuàng)新之處在于,它是首個(gè)專門針對(duì)當(dāng)前最先進(jìn)的"代理式"事實(shí)核查系統(tǒng)的攻擊框架。所謂代理式系統(tǒng),就像一個(gè)擁有多名助手的高級(jí)偵探,不僅會(huì)分析主要問題,還會(huì)派遣不同的助手去調(diào)查各個(gè)細(xì)節(jié),然后匯總所有信息做出最終判斷。研究團(tuán)隊(duì)巧妙地利用了這些系統(tǒng)的一個(gè)意想不到的弱點(diǎn):它們會(huì)詳細(xì)解釋自己的推理過程和判斷依據(jù)。
這種透明度本來是為了讓人們信任AI的判斷,但研究人員發(fā)現(xiàn),這種"過度坦誠(chéng)"反而成了系統(tǒng)的致命弱點(diǎn)。攻擊者可以像讀懂對(duì)手心思的棋手一樣,根據(jù)系統(tǒng)的解釋來精確制造反駁證據(jù)。整個(gè)過程就像一場(chǎng)精密的心理戰(zhàn):系統(tǒng)說"我認(rèn)為這是真的,因?yàn)樽C據(jù)A、B、C",攻擊者就專門制造假證據(jù)來反駁A、B、C,最終讓系統(tǒng)改變判斷。
一、攻擊的核心策略:鏡像分解與精準(zhǔn)打擊
研究團(tuán)隊(duì)設(shè)計(jì)的Fact2Fiction攻擊方法就像一個(gè)狡猾的反偵探,專門研究正義偵探的破案套路,然后反其道而行之。當(dāng)正常的事實(shí)核查系統(tǒng)接到一個(gè)復(fù)雜聲明時(shí),會(huì)像拆解復(fù)雜案件一樣,把大問題分解成許多小問題。比如面對(duì)"某位明星拒絕了蘋果公司的廣告邀請(qǐng)"這樣的聲明,系統(tǒng)會(huì)問:這個(gè)故事最初從哪里來?有沒有官方確認(rèn)?時(shí)間線是否合理?
Fact2Fiction的巧妙之處在于,它會(huì)模仿這種分解過程。就像一個(gè)經(jīng)驗(yàn)豐富的棋手能夠預(yù)測(cè)對(duì)手的下一步棋一樣,攻擊系統(tǒng)會(huì)預(yù)先分析目標(biāo)聲明,猜測(cè)事實(shí)核查系統(tǒng)會(huì)提出哪些子問題,然后針對(duì)每個(gè)子問題都準(zhǔn)備好虛假但看似可信的"證據(jù)"。
更狡猾的是,這個(gè)攻擊系統(tǒng)還會(huì)仔細(xì)研究目標(biāo)系統(tǒng)之前給出的解釋和理由。就像間諜會(huì)仔細(xì)研究目標(biāo)人物的行為模式一樣,F(xiàn)act2Fiction會(huì)分析系統(tǒng)的"思維習(xí)慣":它通常依賴什么類型的證據(jù)?它最看重哪些信息源?它的推理邏輯有什么特點(diǎn)?然后,攻擊者會(huì)制造專門針對(duì)這些習(xí)慣的虛假證據(jù)。
舉個(gè)具體例子,如果事實(shí)核查系統(tǒng)之前判斷某個(gè)關(guān)于食品法案的聲明是假的,理由是"該法案雖然對(duì)社區(qū)園藝有小幅限制,但明確保護(hù)個(gè)人種植和交易食物的權(quán)利",那么攻擊者就會(huì)制造這樣的假證據(jù):"該法案對(duì)食物分享和交易設(shè)置了嚴(yán)格的注冊(cè)要求,嚴(yán)重限制了社區(qū)和個(gè)人的園藝種植及交易活動(dòng)。"這種針對(duì)性的反駁直接擊中了系統(tǒng)原始推理的核心。
二、兩個(gè)AI助手的分工協(xié)作
Fact2Fiction攻擊框架由兩個(gè)AI"助手"組成,就像一對(duì)配合默契的搭檔。第一個(gè)叫做"規(guī)劃師",第二個(gè)叫做"執(zhí)行者"。這種分工就像策劃一場(chǎng)復(fù)雜行動(dòng):一個(gè)負(fù)責(zé)制定詳細(xì)計(jì)劃,另一個(gè)負(fù)責(zé)具體實(shí)施。
規(guī)劃師的工作就像一個(gè)善于分析的軍師。它首先要完成"聲明分解"任務(wù),把目標(biāo)聲明拆分成多個(gè)子問題,這個(gè)過程要完全模仿真正的事實(shí)核查系統(tǒng)的思維方式。接著進(jìn)行"答案規(guī)劃",為每個(gè)子問題設(shè)計(jì)誤導(dǎo)性的答案,確保這些答案能夠相互呼應(yīng),形成一個(gè)看似合理的整體敘述。
然后是"預(yù)算分配"環(huán)節(jié),這可能是整個(gè)攻擊中最精明的部分。規(guī)劃師會(huì)分析哪些子問題對(duì)最終判斷更重要,就像投資者會(huì)把更多資金投入到最有潛力的項(xiàng)目上一樣。如果系統(tǒng)的解釋顯示某個(gè)特定證據(jù)對(duì)其判斷至關(guān)重要,攻擊者就會(huì)在這個(gè)方向上投入更多的虛假證據(jù)。最后是"查詢規(guī)劃",預(yù)測(cè)系統(tǒng)會(huì)使用什么樣的搜索詞來尋找相關(guān)證據(jù),然后確保虛假證據(jù)能夠被這些搜索詞找到。
執(zhí)行者的任務(wù)相對(duì)直接但同樣重要。它根據(jù)規(guī)劃師的詳細(xì)計(jì)劃,制造出各種虛假但看似權(quán)威的證據(jù)材料。這些材料不是簡(jiǎn)單粗暴的謊言,而是精心設(shè)計(jì)的"準(zhǔn)真相":它們?cè)谡Z言風(fēng)格、信息結(jié)構(gòu)、甚至引用格式上都模仿真實(shí)的新聞報(bào)道或?qū)W術(shù)資料,讓人難以一眼識(shí)破。
三、攻擊效果:令人擔(dān)憂的成功率
研究團(tuán)隊(duì)在兩個(gè)最先進(jìn)的事實(shí)核查系統(tǒng)上測(cè)試了這種攻擊方法,結(jié)果令人震驚。這兩個(gè)系統(tǒng)分別是DEFAME和InFact,都代表著當(dāng)前AI事實(shí)核查技術(shù)的最高水平,就像兩位頂級(jí)偵探一樣擅長(zhǎng)識(shí)別真假。
在最極端的測(cè)試條件下,即使只投入極少量的虛假證據(jù)(僅占整個(gè)證據(jù)庫(kù)的1%),F(xiàn)act2Fiction也能成功欺騙DEFAME系統(tǒng)42.4%的時(shí)間,欺騙InFact系統(tǒng)46%的時(shí)間。這個(gè)成功率比之前最好的攻擊方法高出8.9%到21.2%。更令人擔(dān)憂的是,當(dāng)虛假證據(jù)增加到8%時(shí),欺騙成功率能夠達(dá)到60%以上。
為了讓這個(gè)數(shù)字更有現(xiàn)實(shí)意義,我們可以這樣理解:如果一個(gè)惡意組織想要操縱公眾對(duì)某個(gè)重要議題的認(rèn)知,他們只需要在相關(guān)的信息源中植入相對(duì)少量的精心制作的假信息,就有很大概率讓權(quán)威的AI核查系統(tǒng)得出錯(cuò)誤結(jié)論。當(dāng)這些系統(tǒng)被媒體、政府或公眾用作判斷真相的依據(jù)時(shí),后果可想而知。
研究還發(fā)現(xiàn)了一個(gè)更加細(xì)致的規(guī)律:不同類型的攻擊都有自己的"飽和點(diǎn)"。就像往杯子里倒水一樣,當(dāng)達(dá)到某個(gè)程度后,繼續(xù)增加假信息的效果會(huì)遞減。有趣的是,簡(jiǎn)單粗暴的攻擊方法很快就達(dá)到飽和點(diǎn),而Fact2Fiction這種精密設(shè)計(jì)的攻擊能夠持續(xù)提高成功率,這說明"質(zhì)量勝過數(shù)量"在信息戰(zhàn)中同樣適用。
四、透明度的雙刃劍效應(yīng)
這項(xiàng)研究最發(fā)人深省的發(fā)現(xiàn)之一,是現(xiàn)代AI系統(tǒng)的透明度設(shè)計(jì)反而成為了安全隱患。為了讓用戶信任AI的判斷,開發(fā)者讓系統(tǒng)詳細(xì)說明自己的推理過程和證據(jù)依據(jù),就像法官要公開宣布判決理由一樣。這種做法在正常情況下確實(shí)增強(qiáng)了可信度,但在惡意攻擊面前卻成了致命弱點(diǎn)。
研究團(tuán)隊(duì)通過對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),當(dāng)攻擊者能夠獲得系統(tǒng)的詳細(xì)解釋時(shí),攻擊成功率最多能提高12.4%。這就像撲克牌游戲中,如果對(duì)手能看到你的牌,勝算自然大增。攻擊者可以精確了解系統(tǒng)最依賴哪些信息,最重視哪些推理環(huán)節(jié),然后專門在這些關(guān)鍵點(diǎn)上制造混淆。
這個(gè)發(fā)現(xiàn)揭示了AI系統(tǒng)設(shè)計(jì)中的一個(gè)根本性矛盾:越是想讓系統(tǒng)值得信任,就越要增加透明度;但透明度越高,系統(tǒng)就越容易被惡意利用。這就像銀行為了證明自己的安全性而公開保險(xiǎn)庫(kù)的防護(hù)細(xì)節(jié),結(jié)果反而給了盜賊可乘之機(jī)。
五、現(xiàn)有防御措施的局限性
面對(duì)這種新型攻擊,研究團(tuán)隊(duì)也測(cè)試了現(xiàn)有的幾種防御方法,結(jié)果同樣令人擔(dān)憂。第一種防御方法是"語句重新表述",就像換個(gè)說法重新提問一樣,希望能夠避開專門針對(duì)原始問題設(shè)計(jì)的虛假證據(jù)。然而,測(cè)試結(jié)果顯示這種方法只能略微降低攻擊成功率,并不能根本解決問題。
第二種防御方法是"惡意內(nèi)容檢測(cè)",嘗試識(shí)別出那些明顯是惡意制造的假信息。這種方法的原理是假設(shè)惡意內(nèi)容在語義特征上會(huì)有某些共同特點(diǎn),可以通過機(jī)器學(xué)習(xí)來識(shí)別。但Fact2Fiction制造的假證據(jù)過于精細(xì),很難與正常內(nèi)容區(qū)分開來。
第三種防御是基于"語言困惑度"的檢測(cè),這種方法認(rèn)為人工生成的虛假內(nèi)容在語言風(fēng)格上會(huì)顯得"不夠自然"。然而,研究結(jié)果顯示,F(xiàn)act2Fiction生成的內(nèi)容在語言自然度上與真實(shí)內(nèi)容幾乎沒有區(qū)別,這種防御方法基本無效。
這些測(cè)試結(jié)果表明,傳統(tǒng)的防御思路在面對(duì)這種高度針對(duì)性的攻擊時(shí)顯得力不從心。就像古代城墻無法抵御現(xiàn)代武器一樣,為對(duì)付簡(jiǎn)單攻擊而設(shè)計(jì)的防御系統(tǒng),在面對(duì)精密設(shè)計(jì)的新型攻擊時(shí)可能完全失效。
六、對(duì)AI安全的深遠(yuǎn)啟示
這項(xiàng)研究的意義遠(yuǎn)遠(yuǎn)超出了事實(shí)核查這個(gè)具體領(lǐng)域。它實(shí)際上揭示了當(dāng)前AI系統(tǒng)普遍存在的一個(gè)根本性弱點(diǎn):過度依賴外部信息源而缺乏足夠的質(zhì)疑和驗(yàn)證機(jī)制。現(xiàn)代AI系統(tǒng)就像一個(gè)博學(xué)但天真的學(xué)生,它們能夠快速處理海量信息,但往往缺乏對(duì)信息真實(shí)性的批判性思考。
研究結(jié)果顯示,即使是最先進(jìn)的AI系統(tǒng),在面對(duì)系統(tǒng)性的信息操縱時(shí)也可能不堪一擊。這種脆弱性在當(dāng)前的信息環(huán)境下尤其危險(xiǎn),因?yàn)閻阂庑袨檎咄耆赡茉诰W(wǎng)絡(luò)上大規(guī)模部署這種攻擊策略。
更令人擔(dān)憂的是,這種攻擊方法具有很強(qiáng)的可擴(kuò)展性。研究團(tuán)隊(duì)發(fā)現(xiàn),同樣的攻擊框架只需要少量調(diào)整就能適用于不同的AI系統(tǒng)。這意味著一旦這種攻擊技術(shù)被惡意利用,可能對(duì)整個(gè)AI生態(tài)系統(tǒng)造成系統(tǒng)性沖擊。
從技術(shù)發(fā)展的角度看,這項(xiàng)研究也提出了一個(gè)深刻的問題:在追求AI系統(tǒng)性能的同時(shí),我們是否忽視了安全性?許多AI系統(tǒng)的設(shè)計(jì)理念是"先做到有用,再考慮安全",但這種方法在面對(duì)惡意攻擊時(shí)可能付出巨大代價(jià)。
七、未來發(fā)展方向與建議
基于這項(xiàng)研究的發(fā)現(xiàn),未來AI事實(shí)核查系統(tǒng)的發(fā)展需要在多個(gè)方向上進(jìn)行改進(jìn)。首先是建立多層驗(yàn)證機(jī)制,不能僅僅依賴單一的證據(jù)檢索和分析流程。就像銀行使用多重身份驗(yàn)證一樣,AI系統(tǒng)也需要通過多個(gè)獨(dú)立渠道來驗(yàn)證信息的真實(shí)性。
其次是開發(fā)更加智能的異常檢測(cè)算法,能夠識(shí)別出那些看似正常但實(shí)際上是精心制造的虛假信息。這需要AI系統(tǒng)不僅要理解信息的表面含義,還要分析信息的來源可靠性、邏輯一致性和與已知事實(shí)的兼容性。
研究團(tuán)隊(duì)還建議開發(fā)"對(duì)抗性訓(xùn)練"方法,讓AI系統(tǒng)在訓(xùn)練過程中就接觸各種可能的攻擊情形,從而提高在實(shí)際應(yīng)用中的抗攻擊能力。這就像疫苗接種的原理一樣,通過提前暴露于"弱化版"的威脅來建立免疫力。
在系統(tǒng)設(shè)計(jì)層面,需要重新考慮透明度與安全性之間的平衡??赡苄枰_發(fā)既能讓用戶理解系統(tǒng)判斷依據(jù),又不會(huì)暴露過多可被惡意利用信息的新方法。這是一個(gè)技術(shù)挑戰(zhàn),也是一個(gè)哲學(xué)問題:我們究竟需要多少透明度,才能在信任和安全之間找到最佳平衡點(diǎn)?
最后,這項(xiàng)研究強(qiáng)調(diào)了建立行業(yè)標(biāo)準(zhǔn)和監(jiān)管框架的重要性。就像食品安全需要嚴(yán)格的質(zhì)量檢測(cè)標(biāo)準(zhǔn)一樣,AI系統(tǒng)的安全性也需要統(tǒng)一的評(píng)估和認(rèn)證體系。只有這樣,才能確保投入實(shí)際使用的AI系統(tǒng)具備足夠的抗攻擊能力。
說到底,這項(xiàng)研究為我們敲響了警鐘:在為AI系統(tǒng)的強(qiáng)大能力感到興奮的同時(shí),我們不能忘記它們?nèi)匀淮嬖诳赡鼙粣阂饫玫穆┒础U缛魏螐?qiáng)大的工具都有被誤用的風(fēng)險(xiǎn)一樣,AI技術(shù)的發(fā)展必須始終將安全性放在首位。這不僅是技術(shù)問題,更是關(guān)系到信息社會(huì)健康發(fā)展的重大議題。
研究團(tuán)隊(duì)通過Fact2Fiction這個(gè)看似"邪惡"的工具,實(shí)際上為AI安全研究做出了重要貢獻(xiàn)。就像白帽黑客通過發(fā)現(xiàn)系統(tǒng)漏洞來幫助改進(jìn)安全防護(hù)一樣,這項(xiàng)研究通過揭示AI事實(shí)核查系統(tǒng)的弱點(diǎn),為開發(fā)更安全、更可靠的下一代系統(tǒng)奠定了基礎(chǔ)。在這個(gè)虛假信息泛濫的時(shí)代,這樣的研究不僅具有學(xué)術(shù)價(jià)值,更具有重要的現(xiàn)實(shí)意義。
Q&A
Q1:Fact2Fiction攻擊方法是如何工作的?
A:Fact2Fiction通過兩個(gè)AI助手協(xié)作進(jìn)行攻擊。首先"規(guī)劃師"模仿事實(shí)核查系統(tǒng)的思維方式,把目標(biāo)聲明分解成多個(gè)子問題,然后根據(jù)系統(tǒng)的解釋和推理習(xí)慣制定針對(duì)性的誤導(dǎo)策略。接著"執(zhí)行者"制造精心設(shè)計(jì)的虛假證據(jù)來回答每個(gè)子問題。這些假證據(jù)不是簡(jiǎn)單的謊言,而是模仿真實(shí)材料的"準(zhǔn)真相",專門用來反駁系統(tǒng)的原始推理邏輯。
Q2:為什么現(xiàn)有的AI事實(shí)核查系統(tǒng)容易被這種方法攻擊?
A:主要有兩個(gè)原因。第一,現(xiàn)代事實(shí)核查系統(tǒng)為了讓用戶信任會(huì)詳細(xì)解釋自己的推理過程,但這種透明度反而暴露了系統(tǒng)的"思維習(xí)慣",讓攻擊者能夠精準(zhǔn)制造針對(duì)性的虛假證據(jù)。第二,這些系統(tǒng)雖然擅長(zhǎng)分析信息,但缺乏足夠的質(zhì)疑和驗(yàn)證機(jī)制,就像博學(xué)但天真的學(xué)生一樣,容易被精心偽裝的假信息欺騙。
Q3:這種攻擊對(duì)現(xiàn)實(shí)世界有什么影響?
A:影響可能非常嚴(yán)重。研究顯示即使只投入1%的虛假證據(jù),就能讓頂級(jí)AI系統(tǒng)40%以上的時(shí)間得出錯(cuò)誤結(jié)論。如果惡意組織利用這種方法操縱公眾對(duì)重要議題的認(rèn)知,當(dāng)媒體、政府或公眾依賴這些AI系統(tǒng)判斷真假時(shí),可能導(dǎo)致大規(guī)模的信息誤導(dǎo)。更危險(xiǎn)的是,這種攻擊方法具有很強(qiáng)的可擴(kuò)展性,能夠適用于不同的AI系統(tǒng)。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對(duì)話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。