av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 讓AI能看懂圖片中的"想法":南洋理工與海AI實驗室重磅推出FOA-Attack對抗攻擊框架

讓AI能看懂圖片中的"想法":南洋理工與海AI實驗室重磅推出FOA-Attack對抗攻擊框架

2025-05-30 16:19
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-30 16:19 ? 科技行者

論文基本信息

這項由南洋理工大學、MBZUAI(阿聯(lián)酋穆罕默德·本·扎耶德人工智能大學)、Sea AI實驗室和伊利諾伊大學厄巴納-香檳分校聯(lián)合完成的研究于2025年5月27日發(fā)表在arXiv預(yù)印版平臺(arXiv:2505.21494v1)。研究由南洋理工大學的肖軍嘉(Xiaojun Jia)與楊柳(Yang Liu)教授等多位學者共同主導(dǎo),論文標題為"Adversarial Attacks against Closed-Source MLLMs via Feature Optimal Alignment"(基于特征最優(yōu)對齊的閉源多模態(tài)大型語言模型對抗攻擊)。有興趣深入了解的讀者可以通過GitHub查看完整代碼:https://github.com/jiaxiaojunQAQ/FOA-Attack。

一、日常生活中的"視覺欺騙":研究背景與問題

想象一下,你給一個智能助手展示一張大象的照片,但它卻一本正經(jīng)地告訴你:"這是一只貓咪在舔爪子"。這聽起來不可思議,但在人工智能世界中,這種"視覺欺騙"確實存在,而且比我們想象的更容易實現(xiàn)。這就是所謂的"對抗性攻擊",一種通過巧妙修改圖片讓AI"看錯"的技術(shù)。

近年來,像GPT-4o、Claude-3.7和Gemini-2.0這樣的多模態(tài)大型語言模型(MLLMs)在視覺理解、圖像描述和回答問題等任務(wù)上取得了驚人的表現(xiàn)。這些模型能夠同時處理圖像和文本,為用戶提供豐富的多模態(tài)交互體驗。然而,研究團隊發(fā)現(xiàn)這些強大的模型仍然存在一個明顯的安全漏洞:它們?nèi)菀资艿綄箻颖镜墓簟?/p>

簡單來說,對抗樣本就像是給圖片穿上了一件"隱形衣",對人眼幾乎看不出區(qū)別,但卻能夠徹底混淆AI的判斷。更令人擔憂的是,針對一個模型設(shè)計的對抗樣本往往能夠"轉(zhuǎn)移"到其他模型上,這就是所謂的"對抗性轉(zhuǎn)移性"。就像一把能打開多把不同鎖的萬能鑰匙,這種特性使得對抗攻擊在實際應(yīng)用中威力更大。

以往的研究主要聚焦于如何使對抗樣本更具轉(zhuǎn)移性,通常是通過讓樣本的全局特征(比如整體構(gòu)圖和主題)與目標圖片相似來實現(xiàn)。然而,這些方法忽略了圖像中豐富的局部細節(jié)信息,導(dǎo)致生成的對抗樣本在遇到閉源商業(yè)模型時往往效果不佳。

二、巧妙的"特征對齊":FOA-Attack的核心創(chuàng)新

針對這些局限,肖軍嘉和他的研究團隊提出了一種名為FOA-Attack(Feature Optimal Alignment Attack)的新方法。我們可以把它想象成一位精通"特征轉(zhuǎn)移"的魔術(shù)師,不僅能變出看似普通的圖片,還能讓AI按照預(yù)設(shè)的劇本理解這些圖片。

FOA-Attack的創(chuàng)新之處在于它同時關(guān)注了圖像的"全局風景"和"局部細節(jié)"。想象你在餐廳點了一道菜,服務(wù)員不僅會向你介紹這道菜的整體外觀(全局特征),還會詳細描述其中的各種食材和調(diào)料(局部特征)。FOA-Attack正是采用了類似的全面策略。

在全局層面,研究團隊引入了基于余弦相似度的全局特征損失函數(shù),簡單理解就是讓對抗樣本和目標樣本從整體上看起來更像。這就像是確保兩幅畫從遠處看時給人的整體印象相似。

而更具突破性的是,在局部層面,研究者利用了Transformer架構(gòu)中的豐富局部表征。Transformer可以看作是一個能夠同時關(guān)注圖像不同區(qū)域的超級觀察者。研究團隊首先使用聚類技術(shù)從這些局部特征中提取出緊湊的模式,就像是從雜亂的線索中找出關(guān)鍵證據(jù)。然后,他們將對抗樣本與目標樣本之間的局部特征對齊問題設(shè)計為最優(yōu)傳輸(OT)問題,并提出了局部聚類最優(yōu)傳輸損失函數(shù)來實現(xiàn)精細的特征對齊。

這聽起來很復(fù)雜,但我們可以用一個簡單的類比來理解:想象你在嘗試復(fù)制一幅名畫。僅僅在整體上看起來相似是不夠的,你還需要捕捉畫中的細節(jié)、筆觸和色彩變化。FOA-Attack就像一個既能把握整體又精通細節(jié)的藝術(shù)復(fù)制大師。

三、動態(tài)平衡的藝術(shù):模型權(quán)重策略

除了全局和局部特征的雙重對齊,研究團隊還提出了一種動態(tài)集成模型權(quán)重策略,可以理解為一種智能的"權(quán)力平衡術(shù)"。

在生成對抗樣本時,研究者使用了多個CLIP圖像編碼器。這有點像找多位專家一起評審一項工作,每位專家都有自己的專長和偏好。但如果所有專家的意見權(quán)重相同,可能會導(dǎo)致某些強勢的聲音主導(dǎo)最終結(jié)果,使對抗樣本過度適應(yīng)某些模型而在其他模型上表現(xiàn)不佳。

為了解決這個問題,研究團隊引入了動態(tài)權(quán)重調(diào)整機制。具體來說,他們監(jiān)控每個模型目標的收斂速度,如果某個模型的學習速度特別快(損失下降迅速),就會降低它的權(quán)重,反之亦然。這就像在團隊協(xié)作中,如果有人的任務(wù)完成得特別快,就會給他安排更多挑戰(zhàn)性的工作。

通過這種方式,F(xiàn)OA-Attack確保了所有模型編碼器都能均衡地貢獻自己的特長,最終生成的對抗樣本能夠更好地泛化到各種不同的模型上,特別是那些未見過的商業(yè)閉源模型。

四、令人印象深刻的實驗結(jié)果

論文中的實驗結(jié)果令人印象深刻,充分證明了FOA-Attack的優(yōu)越性。研究團隊在多達14種多模態(tài)大語言模型上進行了測試,包括6個開源模型(如Qwen2.5-VL-3B/7B、LLaVa-1.5/1.6-7B、Gemma-3-4B/12B)和8個閉源商業(yè)模型(如Claude-3.5/3.7、GPT-4o/4.1、Gemini-2.0等)。

在開源模型上,F(xiàn)OA-Attack的表現(xiàn)令人矚目。例如,在Qwen2.5-VL-7B上,它達到了70.7%的攻擊成功率(ASR)和0.58的平均相似度(AvgSim),而之前最強的M-Attack方法僅有52.6%的ASR。在LLaVa-1.5-7B上,F(xiàn)OA-Attack更是達到了79.6%的ASR和0.65的AvgSim,大幅超過了M-Attack的68.3%。

更令人驚訝的是其在閉源商業(yè)模型上的表現(xiàn)。在GPT-4o上,F(xiàn)OA-Attack實現(xiàn)了75.1%的ASR和0.59的AvgSim,比M-Attack高出14.8個百分點。在Gemini-2.0上,F(xiàn)OA-Attack達到了53.4%的ASR,而其他基線方法的ASR都低于8%。

研究者還專門針對那些具有推理增強功能的閉源模型進行了測試,如GPT-o3、Claude-3.7-thinking和Gemini-2.0-flash-thinking-exp。結(jié)果顯示,即使是這些通常被認為更加穩(wěn)健的模型,也難以抵抗FOA-Attack。例如,在GPT-o3上,它達到了81.0%的ASR,比M-Attack高出14.0個百分點。

此外,研究團隊還評估了FOA-Attack對各種防御方法的有效性,包括基于平滑的防御(高斯、中值和平均)、JPEG壓縮和Comdefend。即使在這些防御設(shè)置下,F(xiàn)OA-Attack仍然保持強大的攻擊性能,進一步證明了其卓越的轉(zhuǎn)移性和魯棒性。

五、直觀案例:看到就是相信

論文中展示的一些具體例子更加直觀地說明了FOA-Attack的強大。例如,一張經(jīng)過處理的圖片被不同的商業(yè)MLLMs識別為相同的場景——"有人騎著大象穿過森林"。無論是GPT-4o、GPT-4.5、Gemini-2.0-flash、Gemini-2.5-flash、Claude-3.5-Sonnet還是Claude-3.7-Sonnet,它們都被成功地"誘導(dǎo)"去描述相同的(與實際圖像內(nèi)容不符的)場景。

這種一致性表明,F(xiàn)OA-Attack生成的對抗樣本能夠非常有效地轉(zhuǎn)移到不同的商業(yè)模型上,即使這些模型的架構(gòu)、訓(xùn)練數(shù)據(jù)和參數(shù)可能截然不同。

六、技術(shù)實現(xiàn):從原理到實踐

那么,F(xiàn)OA-Attack是如何具體實現(xiàn)的呢?它首先選取了三個不同版本的CLIP模型作為替代模型,包括ViT-B/16、ViT-B/32和ViT-g-14-laion2B-s12B-b42K。然后,它應(yīng)用了一系列精心設(shè)計的損失函數(shù)和優(yōu)化策略,將擾動預(yù)算設(shè)置為16/255,攻擊步長為1/255,迭代次數(shù)為300。

在特征對齊方面,F(xiàn)OA-Attack采用K-means聚類技術(shù)從局部特征中提取代表性的中心點,默認聚類數(shù)量為3和5。聚類完成后,它使用Sinkhorn算法求解最優(yōu)傳輸問題,實現(xiàn)對抗樣本和目標樣本之間的精細對齊。

為了進一步提高魯棒性和通用性,研究者還采用了動態(tài)集成權(quán)重策略和漸進式聚類中心增加策略。這些技術(shù)細節(jié)的結(jié)合使FOA-Attack在各種復(fù)雜場景和不同模型上都能保持強大的攻擊效果。

七、防御與對策:未來安全的思考

盡管這項研究揭示了當前MLLMs的安全漏洞,但研究團隊的主要目的是促進更安全、更穩(wěn)健的AI系統(tǒng)開發(fā)。通過理解這些攻擊機制,開發(fā)者可以設(shè)計更有效的防御方法來保護模型免受對抗性攻擊。

例如,基于FOA-Attack的發(fā)現(xiàn),未來的防御策略可能需要同時關(guān)注全局和局部特征,而不僅僅是像傳統(tǒng)方法那樣只關(guān)注全局表征。此外,研究者還指出,雖然FOA-Attack展示了出色的性能,但它也帶來了額外的計算開銷,特別是在局部最優(yōu)傳輸損失的計算方面。提高這些攻擊方法的效率將是未來研究的一個重要方向。

總的來說,這項研究不僅推動了對抗攻擊技術(shù)的發(fā)展,也為多模態(tài)大語言模型的安全研究提供了新的思路和挑戰(zhàn)。它提醒我們,即使是當前最先進的AI系統(tǒng)也存在潛在的安全隱患,需要持續(xù)的研究和改進來確保它們的可靠性和安全性。

八、結(jié)語:技術(shù)與安全的平衡

歸根結(jié)底,F(xiàn)OA-Attack這項研究告訴我們,在追求AI能力提升的同時,我們不能忽視安全性這一基礎(chǔ)問題。就像建造摩天大樓需要堅實的地基一樣,AI系統(tǒng)的發(fā)展也需要強大的安全保障。

這項研究的貢獻不僅在于揭示了當前MLLMs的漏洞,更在于它提供了一個系統(tǒng)化的方法來評估和改進這些系統(tǒng)的魯棒性。通過同時關(guān)注全局和局部特征,以及巧妙地平衡多個模型的貢獻,F(xiàn)OA-Attack為對抗性攻擊和防御研究開辟了新的方向。

對于普通用戶來說,這項研究提醒我們在依賴AI系統(tǒng)的視覺理解和決策時保持適當?shù)闹斏鳌τ谘芯空吆烷_發(fā)者來說,它則提供了寶貴的洞見,幫助他們構(gòu)建更加安全和可靠的AI系統(tǒng)。

隨著人工智能技術(shù)的不斷發(fā)展和普及,像FOA-Attack這樣的研究將發(fā)揮越來越重要的作用,推動我們在提升AI能力的同時不斷加強其安全性和可靠性。期待在不久的將來,我們能夠看到更多基于這些發(fā)現(xiàn)的創(chuàng)新防御方法,使AI系統(tǒng)更加安全、穩(wěn)健,并更好地服務(wù)于人類。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-