論文基本信息
這項由南洋理工大學、MBZUAI(阿聯(lián)酋穆罕默德·本·扎耶德人工智能大學)、Sea AI實驗室和伊利諾伊大學厄巴納-香檳分校聯(lián)合完成的研究于2025年5月27日發(fā)表在arXiv預(yù)印版平臺(arXiv:2505.21494v1)。研究由南洋理工大學的肖軍嘉(Xiaojun Jia)與楊柳(Yang Liu)教授等多位學者共同主導(dǎo),論文標題為"Adversarial Attacks against Closed-Source MLLMs via Feature Optimal Alignment"(基于特征最優(yōu)對齊的閉源多模態(tài)大型語言模型對抗攻擊)。有興趣深入了解的讀者可以通過GitHub查看完整代碼:https://github.com/jiaxiaojunQAQ/FOA-Attack。
一、日常生活中的"視覺欺騙":研究背景與問題
想象一下,你給一個智能助手展示一張大象的照片,但它卻一本正經(jīng)地告訴你:"這是一只貓咪在舔爪子"。這聽起來不可思議,但在人工智能世界中,這種"視覺欺騙"確實存在,而且比我們想象的更容易實現(xiàn)。這就是所謂的"對抗性攻擊",一種通過巧妙修改圖片讓AI"看錯"的技術(shù)。
近年來,像GPT-4o、Claude-3.7和Gemini-2.0這樣的多模態(tài)大型語言模型(MLLMs)在視覺理解、圖像描述和回答問題等任務(wù)上取得了驚人的表現(xiàn)。這些模型能夠同時處理圖像和文本,為用戶提供豐富的多模態(tài)交互體驗。然而,研究團隊發(fā)現(xiàn)這些強大的模型仍然存在一個明顯的安全漏洞:它們?nèi)菀资艿綄箻颖镜墓簟?/p>
簡單來說,對抗樣本就像是給圖片穿上了一件"隱形衣",對人眼幾乎看不出區(qū)別,但卻能夠徹底混淆AI的判斷。更令人擔憂的是,針對一個模型設(shè)計的對抗樣本往往能夠"轉(zhuǎn)移"到其他模型上,這就是所謂的"對抗性轉(zhuǎn)移性"。就像一把能打開多把不同鎖的萬能鑰匙,這種特性使得對抗攻擊在實際應(yīng)用中威力更大。
以往的研究主要聚焦于如何使對抗樣本更具轉(zhuǎn)移性,通常是通過讓樣本的全局特征(比如整體構(gòu)圖和主題)與目標圖片相似來實現(xiàn)。然而,這些方法忽略了圖像中豐富的局部細節(jié)信息,導(dǎo)致生成的對抗樣本在遇到閉源商業(yè)模型時往往效果不佳。
二、巧妙的"特征對齊":FOA-Attack的核心創(chuàng)新
針對這些局限,肖軍嘉和他的研究團隊提出了一種名為FOA-Attack(Feature Optimal Alignment Attack)的新方法。我們可以把它想象成一位精通"特征轉(zhuǎn)移"的魔術(shù)師,不僅能變出看似普通的圖片,還能讓AI按照預(yù)設(shè)的劇本理解這些圖片。
FOA-Attack的創(chuàng)新之處在于它同時關(guān)注了圖像的"全局風景"和"局部細節(jié)"。想象你在餐廳點了一道菜,服務(wù)員不僅會向你介紹這道菜的整體外觀(全局特征),還會詳細描述其中的各種食材和調(diào)料(局部特征)。FOA-Attack正是采用了類似的全面策略。
在全局層面,研究團隊引入了基于余弦相似度的全局特征損失函數(shù),簡單理解就是讓對抗樣本和目標樣本從整體上看起來更像。這就像是確保兩幅畫從遠處看時給人的整體印象相似。
而更具突破性的是,在局部層面,研究者利用了Transformer架構(gòu)中的豐富局部表征。Transformer可以看作是一個能夠同時關(guān)注圖像不同區(qū)域的超級觀察者。研究團隊首先使用聚類技術(shù)從這些局部特征中提取出緊湊的模式,就像是從雜亂的線索中找出關(guān)鍵證據(jù)。然后,他們將對抗樣本與目標樣本之間的局部特征對齊問題設(shè)計為最優(yōu)傳輸(OT)問題,并提出了局部聚類最優(yōu)傳輸損失函數(shù)來實現(xiàn)精細的特征對齊。
這聽起來很復(fù)雜,但我們可以用一個簡單的類比來理解:想象你在嘗試復(fù)制一幅名畫。僅僅在整體上看起來相似是不夠的,你還需要捕捉畫中的細節(jié)、筆觸和色彩變化。FOA-Attack就像一個既能把握整體又精通細節(jié)的藝術(shù)復(fù)制大師。
三、動態(tài)平衡的藝術(shù):模型權(quán)重策略
除了全局和局部特征的雙重對齊,研究團隊還提出了一種動態(tài)集成模型權(quán)重策略,可以理解為一種智能的"權(quán)力平衡術(shù)"。
在生成對抗樣本時,研究者使用了多個CLIP圖像編碼器。這有點像找多位專家一起評審一項工作,每位專家都有自己的專長和偏好。但如果所有專家的意見權(quán)重相同,可能會導(dǎo)致某些強勢的聲音主導(dǎo)最終結(jié)果,使對抗樣本過度適應(yīng)某些模型而在其他模型上表現(xiàn)不佳。
為了解決這個問題,研究團隊引入了動態(tài)權(quán)重調(diào)整機制。具體來說,他們監(jiān)控每個模型目標的收斂速度,如果某個模型的學習速度特別快(損失下降迅速),就會降低它的權(quán)重,反之亦然。這就像在團隊協(xié)作中,如果有人的任務(wù)完成得特別快,就會給他安排更多挑戰(zhàn)性的工作。
通過這種方式,F(xiàn)OA-Attack確保了所有模型編碼器都能均衡地貢獻自己的特長,最終生成的對抗樣本能夠更好地泛化到各種不同的模型上,特別是那些未見過的商業(yè)閉源模型。
四、令人印象深刻的實驗結(jié)果
論文中的實驗結(jié)果令人印象深刻,充分證明了FOA-Attack的優(yōu)越性。研究團隊在多達14種多模態(tài)大語言模型上進行了測試,包括6個開源模型(如Qwen2.5-VL-3B/7B、LLaVa-1.5/1.6-7B、Gemma-3-4B/12B)和8個閉源商業(yè)模型(如Claude-3.5/3.7、GPT-4o/4.1、Gemini-2.0等)。
在開源模型上,F(xiàn)OA-Attack的表現(xiàn)令人矚目。例如,在Qwen2.5-VL-7B上,它達到了70.7%的攻擊成功率(ASR)和0.58的平均相似度(AvgSim),而之前最強的M-Attack方法僅有52.6%的ASR。在LLaVa-1.5-7B上,F(xiàn)OA-Attack更是達到了79.6%的ASR和0.65的AvgSim,大幅超過了M-Attack的68.3%。
更令人驚訝的是其在閉源商業(yè)模型上的表現(xiàn)。在GPT-4o上,F(xiàn)OA-Attack實現(xiàn)了75.1%的ASR和0.59的AvgSim,比M-Attack高出14.8個百分點。在Gemini-2.0上,F(xiàn)OA-Attack達到了53.4%的ASR,而其他基線方法的ASR都低于8%。
研究者還專門針對那些具有推理增強功能的閉源模型進行了測試,如GPT-o3、Claude-3.7-thinking和Gemini-2.0-flash-thinking-exp。結(jié)果顯示,即使是這些通常被認為更加穩(wěn)健的模型,也難以抵抗FOA-Attack。例如,在GPT-o3上,它達到了81.0%的ASR,比M-Attack高出14.0個百分點。
此外,研究團隊還評估了FOA-Attack對各種防御方法的有效性,包括基于平滑的防御(高斯、中值和平均)、JPEG壓縮和Comdefend。即使在這些防御設(shè)置下,F(xiàn)OA-Attack仍然保持強大的攻擊性能,進一步證明了其卓越的轉(zhuǎn)移性和魯棒性。
五、直觀案例:看到就是相信
論文中展示的一些具體例子更加直觀地說明了FOA-Attack的強大。例如,一張經(jīng)過處理的圖片被不同的商業(yè)MLLMs識別為相同的場景——"有人騎著大象穿過森林"。無論是GPT-4o、GPT-4.5、Gemini-2.0-flash、Gemini-2.5-flash、Claude-3.5-Sonnet還是Claude-3.7-Sonnet,它們都被成功地"誘導(dǎo)"去描述相同的(與實際圖像內(nèi)容不符的)場景。
這種一致性表明,F(xiàn)OA-Attack生成的對抗樣本能夠非常有效地轉(zhuǎn)移到不同的商業(yè)模型上,即使這些模型的架構(gòu)、訓(xùn)練數(shù)據(jù)和參數(shù)可能截然不同。
六、技術(shù)實現(xiàn):從原理到實踐
那么,F(xiàn)OA-Attack是如何具體實現(xiàn)的呢?它首先選取了三個不同版本的CLIP模型作為替代模型,包括ViT-B/16、ViT-B/32和ViT-g-14-laion2B-s12B-b42K。然后,它應(yīng)用了一系列精心設(shè)計的損失函數(shù)和優(yōu)化策略,將擾動預(yù)算設(shè)置為16/255,攻擊步長為1/255,迭代次數(shù)為300。
在特征對齊方面,F(xiàn)OA-Attack采用K-means聚類技術(shù)從局部特征中提取代表性的中心點,默認聚類數(shù)量為3和5。聚類完成后,它使用Sinkhorn算法求解最優(yōu)傳輸問題,實現(xiàn)對抗樣本和目標樣本之間的精細對齊。
為了進一步提高魯棒性和通用性,研究者還采用了動態(tài)集成權(quán)重策略和漸進式聚類中心增加策略。這些技術(shù)細節(jié)的結(jié)合使FOA-Attack在各種復(fù)雜場景和不同模型上都能保持強大的攻擊效果。
七、防御與對策:未來安全的思考
盡管這項研究揭示了當前MLLMs的安全漏洞,但研究團隊的主要目的是促進更安全、更穩(wěn)健的AI系統(tǒng)開發(fā)。通過理解這些攻擊機制,開發(fā)者可以設(shè)計更有效的防御方法來保護模型免受對抗性攻擊。
例如,基于FOA-Attack的發(fā)現(xiàn),未來的防御策略可能需要同時關(guān)注全局和局部特征,而不僅僅是像傳統(tǒng)方法那樣只關(guān)注全局表征。此外,研究者還指出,雖然FOA-Attack展示了出色的性能,但它也帶來了額外的計算開銷,特別是在局部最優(yōu)傳輸損失的計算方面。提高這些攻擊方法的效率將是未來研究的一個重要方向。
總的來說,這項研究不僅推動了對抗攻擊技術(shù)的發(fā)展,也為多模態(tài)大語言模型的安全研究提供了新的思路和挑戰(zhàn)。它提醒我們,即使是當前最先進的AI系統(tǒng)也存在潛在的安全隱患,需要持續(xù)的研究和改進來確保它們的可靠性和安全性。
八、結(jié)語:技術(shù)與安全的平衡
歸根結(jié)底,F(xiàn)OA-Attack這項研究告訴我們,在追求AI能力提升的同時,我們不能忽視安全性這一基礎(chǔ)問題。就像建造摩天大樓需要堅實的地基一樣,AI系統(tǒng)的發(fā)展也需要強大的安全保障。
這項研究的貢獻不僅在于揭示了當前MLLMs的漏洞,更在于它提供了一個系統(tǒng)化的方法來評估和改進這些系統(tǒng)的魯棒性。通過同時關(guān)注全局和局部特征,以及巧妙地平衡多個模型的貢獻,F(xiàn)OA-Attack為對抗性攻擊和防御研究開辟了新的方向。
對于普通用戶來說,這項研究提醒我們在依賴AI系統(tǒng)的視覺理解和決策時保持適當?shù)闹斏鳌τ谘芯空吆烷_發(fā)者來說,它則提供了寶貴的洞見,幫助他們構(gòu)建更加安全和可靠的AI系統(tǒng)。
隨著人工智能技術(shù)的不斷發(fā)展和普及,像FOA-Attack這樣的研究將發(fā)揮越來越重要的作用,推動我們在提升AI能力的同時不斷加強其安全性和可靠性。期待在不久的將來,我們能夠看到更多基于這些發(fā)現(xiàn)的創(chuàng)新防御方法,使AI系統(tǒng)更加安全、穩(wěn)健,并更好地服務(wù)于人類。
好文章,需要你的鼓勵
新加坡國立大學研究團隊開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實驗顯示,僅訓(xùn)練AI玩簡單撲克游戲就能讓其數(shù)學推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學解題中,為AI訓(xùn)練提供了新思路。
同濟大學團隊開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學習和數(shù)學優(yōu)化方法,在合成數(shù)據(jù)集上實現(xiàn)37.9%的精度提升,并在真實設(shè)備上展現(xiàn)出色泛化能力,為機器人、AR和自動駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學研究團隊通過對比實驗發(fā)現(xiàn),經(jīng)過強化學習訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時刻"現(xiàn)象,但這些自我糾錯行為并不能實際提升推理準確率。研究揭示了AI模型存在"生成-驗證差距",即生成答案的能力強于驗證答案質(zhì)量的能力,且模型在自我驗證時無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動態(tài)稀疏性實現(xiàn)大語言模型訓(xùn)練加速1.6倍,計算成本降低2.2倍。該方法使用SVD稀疏性估計器智能選擇重要計算部分,在保持模型性能的同時顯著提升訓(xùn)練效率,已在多個任務(wù)上驗證有效性。