論文基本信息
這項由南洋理工大學(xué)、MBZUAI(阿聯(lián)酋穆罕默德·本·扎耶德人工智能大學(xué))、Sea AI實驗室和伊利諾伊大學(xué)厄巴納-香檳分校聯(lián)合完成的研究于2025年5月27日發(fā)表在arXiv預(yù)印版平臺(arXiv:2505.21494v1)。研究由南洋理工大學(xué)的肖軍嘉(Xiaojun Jia)與楊柳(Yang Liu)教授等多位學(xué)者共同主導(dǎo),論文標題為"Adversarial Attacks against Closed-Source MLLMs via Feature Optimal Alignment"(基于特征最優(yōu)對齊的閉源多模態(tài)大型語言模型對抗攻擊)。有興趣深入了解的讀者可以通過GitHub查看完整代碼:https://github.com/jiaxiaojunQAQ/FOA-Attack。
一、日常生活中的"視覺欺騙":研究背景與問題
想象一下,你給一個智能助手展示一張大象的照片,但它卻一本正經(jīng)地告訴你:"這是一只貓咪在舔爪子"。這聽起來不可思議,但在人工智能世界中,這種"視覺欺騙"確實存在,而且比我們想象的更容易實現(xiàn)。這就是所謂的"對抗性攻擊",一種通過巧妙修改圖片讓AI"看錯"的技術(shù)。
近年來,像GPT-4o、Claude-3.7和Gemini-2.0這樣的多模態(tài)大型語言模型(MLLMs)在視覺理解、圖像描述和回答問題等任務(wù)上取得了驚人的表現(xiàn)。這些模型能夠同時處理圖像和文本,為用戶提供豐富的多模態(tài)交互體驗。然而,研究團隊發(fā)現(xiàn)這些強大的模型仍然存在一個明顯的安全漏洞:它們?nèi)菀资艿綄箻颖镜墓簟?/p>
簡單來說,對抗樣本就像是給圖片穿上了一件"隱形衣",對人眼幾乎看不出區(qū)別,但卻能夠徹底混淆AI的判斷。更令人擔(dān)憂的是,針對一個模型設(shè)計的對抗樣本往往能夠"轉(zhuǎn)移"到其他模型上,這就是所謂的"對抗性轉(zhuǎn)移性"。就像一把能打開多把不同鎖的萬能鑰匙,這種特性使得對抗攻擊在實際應(yīng)用中威力更大。
以往的研究主要聚焦于如何使對抗樣本更具轉(zhuǎn)移性,通常是通過讓樣本的全局特征(比如整體構(gòu)圖和主題)與目標圖片相似來實現(xiàn)。然而,這些方法忽略了圖像中豐富的局部細節(jié)信息,導(dǎo)致生成的對抗樣本在遇到閉源商業(yè)模型時往往效果不佳。
二、巧妙的"特征對齊":FOA-Attack的核心創(chuàng)新
針對這些局限,肖軍嘉和他的研究團隊提出了一種名為FOA-Attack(Feature Optimal Alignment Attack)的新方法。我們可以把它想象成一位精通"特征轉(zhuǎn)移"的魔術(shù)師,不僅能變出看似普通的圖片,還能讓AI按照預(yù)設(shè)的劇本理解這些圖片。
FOA-Attack的創(chuàng)新之處在于它同時關(guān)注了圖像的"全局風(fēng)景"和"局部細節(jié)"。想象你在餐廳點了一道菜,服務(wù)員不僅會向你介紹這道菜的整體外觀(全局特征),還會詳細描述其中的各種食材和調(diào)料(局部特征)。FOA-Attack正是采用了類似的全面策略。
在全局層面,研究團隊引入了基于余弦相似度的全局特征損失函數(shù),簡單理解就是讓對抗樣本和目標樣本從整體上看起來更像。這就像是確保兩幅畫從遠處看時給人的整體印象相似。
而更具突破性的是,在局部層面,研究者利用了Transformer架構(gòu)中的豐富局部表征。Transformer可以看作是一個能夠同時關(guān)注圖像不同區(qū)域的超級觀察者。研究團隊首先使用聚類技術(shù)從這些局部特征中提取出緊湊的模式,就像是從雜亂的線索中找出關(guān)鍵證據(jù)。然后,他們將對抗樣本與目標樣本之間的局部特征對齊問題設(shè)計為最優(yōu)傳輸(OT)問題,并提出了局部聚類最優(yōu)傳輸損失函數(shù)來實現(xiàn)精細的特征對齊。
這聽起來很復(fù)雜,但我們可以用一個簡單的類比來理解:想象你在嘗試復(fù)制一幅名畫。僅僅在整體上看起來相似是不夠的,你還需要捕捉畫中的細節(jié)、筆觸和色彩變化。FOA-Attack就像一個既能把握整體又精通細節(jié)的藝術(shù)復(fù)制大師。
三、動態(tài)平衡的藝術(shù):模型權(quán)重策略
除了全局和局部特征的雙重對齊,研究團隊還提出了一種動態(tài)集成模型權(quán)重策略,可以理解為一種智能的"權(quán)力平衡術(shù)"。
在生成對抗樣本時,研究者使用了多個CLIP圖像編碼器。這有點像找多位專家一起評審一項工作,每位專家都有自己的專長和偏好。但如果所有專家的意見權(quán)重相同,可能會導(dǎo)致某些強勢的聲音主導(dǎo)最終結(jié)果,使對抗樣本過度適應(yīng)某些模型而在其他模型上表現(xiàn)不佳。
為了解決這個問題,研究團隊引入了動態(tài)權(quán)重調(diào)整機制。具體來說,他們監(jiān)控每個模型目標的收斂速度,如果某個模型的學(xué)習(xí)速度特別快(損失下降迅速),就會降低它的權(quán)重,反之亦然。這就像在團隊協(xié)作中,如果有人的任務(wù)完成得特別快,就會給他安排更多挑戰(zhàn)性的工作。
通過這種方式,F(xiàn)OA-Attack確保了所有模型編碼器都能均衡地貢獻自己的特長,最終生成的對抗樣本能夠更好地泛化到各種不同的模型上,特別是那些未見過的商業(yè)閉源模型。
四、令人印象深刻的實驗結(jié)果
論文中的實驗結(jié)果令人印象深刻,充分證明了FOA-Attack的優(yōu)越性。研究團隊在多達14種多模態(tài)大語言模型上進行了測試,包括6個開源模型(如Qwen2.5-VL-3B/7B、LLaVa-1.5/1.6-7B、Gemma-3-4B/12B)和8個閉源商業(yè)模型(如Claude-3.5/3.7、GPT-4o/4.1、Gemini-2.0等)。
在開源模型上,F(xiàn)OA-Attack的表現(xiàn)令人矚目。例如,在Qwen2.5-VL-7B上,它達到了70.7%的攻擊成功率(ASR)和0.58的平均相似度(AvgSim),而之前最強的M-Attack方法僅有52.6%的ASR。在LLaVa-1.5-7B上,F(xiàn)OA-Attack更是達到了79.6%的ASR和0.65的AvgSim,大幅超過了M-Attack的68.3%。
更令人驚訝的是其在閉源商業(yè)模型上的表現(xiàn)。在GPT-4o上,F(xiàn)OA-Attack實現(xiàn)了75.1%的ASR和0.59的AvgSim,比M-Attack高出14.8個百分點。在Gemini-2.0上,F(xiàn)OA-Attack達到了53.4%的ASR,而其他基線方法的ASR都低于8%。
研究者還專門針對那些具有推理增強功能的閉源模型進行了測試,如GPT-o3、Claude-3.7-thinking和Gemini-2.0-flash-thinking-exp。結(jié)果顯示,即使是這些通常被認為更加穩(wěn)健的模型,也難以抵抗FOA-Attack。例如,在GPT-o3上,它達到了81.0%的ASR,比M-Attack高出14.0個百分點。
此外,研究團隊還評估了FOA-Attack對各種防御方法的有效性,包括基于平滑的防御(高斯、中值和平均)、JPEG壓縮和Comdefend。即使在這些防御設(shè)置下,F(xiàn)OA-Attack仍然保持強大的攻擊性能,進一步證明了其卓越的轉(zhuǎn)移性和魯棒性。
五、直觀案例:看到就是相信
論文中展示的一些具體例子更加直觀地說明了FOA-Attack的強大。例如,一張經(jīng)過處理的圖片被不同的商業(yè)MLLMs識別為相同的場景——"有人騎著大象穿過森林"。無論是GPT-4o、GPT-4.5、Gemini-2.0-flash、Gemini-2.5-flash、Claude-3.5-Sonnet還是Claude-3.7-Sonnet,它們都被成功地"誘導(dǎo)"去描述相同的(與實際圖像內(nèi)容不符的)場景。
這種一致性表明,F(xiàn)OA-Attack生成的對抗樣本能夠非常有效地轉(zhuǎn)移到不同的商業(yè)模型上,即使這些模型的架構(gòu)、訓(xùn)練數(shù)據(jù)和參數(shù)可能截然不同。
六、技術(shù)實現(xiàn):從原理到實踐
那么,F(xiàn)OA-Attack是如何具體實現(xiàn)的呢?它首先選取了三個不同版本的CLIP模型作為替代模型,包括ViT-B/16、ViT-B/32和ViT-g-14-laion2B-s12B-b42K。然后,它應(yīng)用了一系列精心設(shè)計的損失函數(shù)和優(yōu)化策略,將擾動預(yù)算設(shè)置為16/255,攻擊步長為1/255,迭代次數(shù)為300。
在特征對齊方面,F(xiàn)OA-Attack采用K-means聚類技術(shù)從局部特征中提取代表性的中心點,默認聚類數(shù)量為3和5。聚類完成后,它使用Sinkhorn算法求解最優(yōu)傳輸問題,實現(xiàn)對抗樣本和目標樣本之間的精細對齊。
為了進一步提高魯棒性和通用性,研究者還采用了動態(tài)集成權(quán)重策略和漸進式聚類中心增加策略。這些技術(shù)細節(jié)的結(jié)合使FOA-Attack在各種復(fù)雜場景和不同模型上都能保持強大的攻擊效果。
七、防御與對策:未來安全的思考
盡管這項研究揭示了當前MLLMs的安全漏洞,但研究團隊的主要目的是促進更安全、更穩(wěn)健的AI系統(tǒng)開發(fā)。通過理解這些攻擊機制,開發(fā)者可以設(shè)計更有效的防御方法來保護模型免受對抗性攻擊。
例如,基于FOA-Attack的發(fā)現(xiàn),未來的防御策略可能需要同時關(guān)注全局和局部特征,而不僅僅是像傳統(tǒng)方法那樣只關(guān)注全局表征。此外,研究者還指出,雖然FOA-Attack展示了出色的性能,但它也帶來了額外的計算開銷,特別是在局部最優(yōu)傳輸損失的計算方面。提高這些攻擊方法的效率將是未來研究的一個重要方向。
總的來說,這項研究不僅推動了對抗攻擊技術(shù)的發(fā)展,也為多模態(tài)大語言模型的安全研究提供了新的思路和挑戰(zhàn)。它提醒我們,即使是當前最先進的AI系統(tǒng)也存在潛在的安全隱患,需要持續(xù)的研究和改進來確保它們的可靠性和安全性。
八、結(jié)語:技術(shù)與安全的平衡
歸根結(jié)底,F(xiàn)OA-Attack這項研究告訴我們,在追求AI能力提升的同時,我們不能忽視安全性這一基礎(chǔ)問題。就像建造摩天大樓需要堅實的地基一樣,AI系統(tǒng)的發(fā)展也需要強大的安全保障。
這項研究的貢獻不僅在于揭示了當前MLLMs的漏洞,更在于它提供了一個系統(tǒng)化的方法來評估和改進這些系統(tǒng)的魯棒性。通過同時關(guān)注全局和局部特征,以及巧妙地平衡多個模型的貢獻,F(xiàn)OA-Attack為對抗性攻擊和防御研究開辟了新的方向。
對于普通用戶來說,這項研究提醒我們在依賴AI系統(tǒng)的視覺理解和決策時保持適當?shù)闹斏?。對于研究者和開發(fā)者來說,它則提供了寶貴的洞見,幫助他們構(gòu)建更加安全和可靠的AI系統(tǒng)。
隨著人工智能技術(shù)的不斷發(fā)展和普及,像FOA-Attack這樣的研究將發(fā)揮越來越重要的作用,推動我們在提升AI能力的同時不斷加強其安全性和可靠性。期待在不久的將來,我們能夠看到更多基于這些發(fā)現(xiàn)的創(chuàng)新防御方法,使AI系統(tǒng)更加安全、穩(wěn)健,并更好地服務(wù)于人類。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機制和漸進式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學(xué)習(xí)外觀和運動信息,顯著解決了當前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準,通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報,準確性超越傳統(tǒng)方法90%的指標。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。