av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 雙域穩(wěn)健性:CLIP模型需要一個穩(wěn)健的文本編碼器

雙域穩(wěn)健性:CLIP模型需要一個穩(wěn)健的文本編碼器

2025-06-08 16:44
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-08 16:44 ? 科技行者

在當今人工智能發(fā)展迅速的時代,多模態(tài)模型因其同時處理文本和圖像的能力而廣受關注。其中,CLIP(Contrastive Language-Image Pretraining)模型以其簡單而強大的設計成為眾多視覺-語言任務的基礎工具。這項由瑞士洛桑聯(lián)邦理工學院(EPFL)的Elias Abad Rocamora、Yongtao Wu和Volkan Cevher,以及德國圖賓根大學的Christian Schlarmann、Naman Deep Singh和Matthias Hein共同完成的研究,發(fā)表于2025年6月3日的arXiv預印本(arXiv:2506.03355v1 [cs.LG]),首次深入探討了CLIP模型文本編碼器的對抗魯棒性問題。

想象一下,你在使用一個能同時理解圖片和文字的AI系統(tǒng)。它看起來工作得很好,直到有人稍微改變了一張圖片或一句話中的一個字符,突然間,這個系統(tǒng)就完全被"迷惑"了,給出了荒謬的回答。這就是對抗攻擊的威力,而本研究正是致力于解決這個問題,特別是針對文本部分的對抗攻擊。

在過去,研究人員已經開始關注如何讓CLIP模型的圖像編碼器更加穩(wěn)健,能夠抵抗圖像對抗攻擊。然而,文本編碼器的穩(wěn)健性卻一直被忽視。想象一下,如果一個惡意用戶只是改變了"bear"(熊)這個詞中的一個字母,變成了"beer"(啤酒),文本到圖像生成模型可能就會生成完全不同的圖像。這不僅是一個理論問題,更是一個實際的安全隱患,特別是對于那些集成了CLIP模型的下游應用,如文本到圖像生成模型或大型視覺語言模型。

研究團隊提出了一種名為LEAF(Levenshtein Efficient Adversarial Finetuning)的方法,這是一種高效的對抗性微調方法,專門針對文本域設計,并且能夠擴展到大型CLIP模型。就像為房子增加防盜系統(tǒng)一樣,LEAF能夠顯著提高CLIP模型在文本域面對對抗攻擊時的零樣本準確率,同時保持由穩(wěn)健圖像編碼器提供的視覺性能。

當與文本到圖像擴散模型(如Stable Diffusion)結合時,LEAF能夠提高在對抗噪聲下的生成質量。當在多模態(tài)檢索任務中使用時,穩(wěn)健的CLIP編碼器能夠提高對抗噪聲下的召回率。更有趣的是,穩(wěn)健的文本編碼器還能促進通過直接優(yōu)化從其嵌入中更好地重構輸入文本,使模型更加可解釋。

這項研究填補了CLIP模型穩(wěn)健性研究的重要空白,為構建更安全、更可靠的多模態(tài)AI系統(tǒng)提供了關鍵技術。接下來,讓我們深入了解這項研究的細節(jié),看看研究團隊是如何讓CLIP模型在文字和圖像兩個領域都變得更加堅固的。

一、CLIP模型及其脆弱性:為什么我們需要穩(wěn)健的文本編碼器?

CLIP模型是一個將圖像和文字映射到同一共享空間的強大工具,它由OpenAI在2021年推出。簡單來說,CLIP就像是一個翻譯官,能夠將圖片和文字翻譯成同一種"語言"(即向量表示),這樣我們就能比較它們的相似度。這種能力使CLIP成為多種多模態(tài)任務的基石,包括圖文檢索(根據文字找圖片或根據圖片找文字)、大型多模態(tài)模型(如能夠理解圖片并給出文字回應的AI)以及文本到圖像生成模型(如根據文字描述生成圖片的Stable Diffusion)。

然而,正如一棟漂亮的房子可能因為一個小小的漏洞而被闖入,CLIP模型也存在安全隱患。研究人員發(fā)現(xiàn),對輸入的微小擾動(無論是圖像還是文本)都可能導致CLIP嵌入的顯著偏移。想象一下,如果你只是改變了句子中的一個字母,比如將"A big burly grizzly bear"(一只大壯碩的灰熊)變成"A big burly grizzly beer"(一只大壯碩的灰熊啤酒?),CLIP可能會將這兩個完全不同含義的句子映射到相似的空間,或者將原本應該相似的內容映射到完全不同的空間。

這種脆弱性不僅僅是理論上的問題。當CLIP被集成到下游任務中時,如文本到圖像生成模型或大型視覺語言模型,這種脆弱性可能被惡意利用,導致模型產生意料之外的、甚至可能有害的輸出。例如,一個惡意用戶可能通過精心設計的文本擾動,誘導文本到圖像生成模型生成不適當?shù)膬热?,盡管用戶的原始提示看起來完全無害。

在過去,研究人員主要關注如何提高CLIP圖像編碼器的穩(wěn)健性。例如,Mao等人在2023年提出了TeCoA方法,通過對抗性微調使圖像編碼器對視覺對抗攻擊更具魯棒性。隨后,Schlarmann等人在2024年提出了FARE方法,這是一種無監(jiān)督的魯棒性微調方法,旨在保留原始圖像嵌入同時增強魯棒性。這些方法使得集成CLIP的大型語言模型能夠更好地抵抗視覺對抗攻擊。

然而,CLIP的文本編碼器穩(wěn)健性卻一直被忽視。這就像只給房子的正門安裝了安全系統(tǒng),卻忽略了后門和窗戶的安全。本研究正是填補了這一空白,提出了LEAF方法,這是第一個專門針對CLIP文本編碼器的對抗性微調方法。

二、LEAF方法:如何打造穩(wěn)健的文本編碼器?

想象一下你正在訓練一只狗識別各種命令,而不僅僅是精確的標準命令,還包括那些發(fā)音略有不同但意思相同的變體。LEAF方法就像是這樣一種訓練過程,它教會CLIP的文本編碼器在面對微小的文本變化時保持穩(wěn)定的理解。

LEAF的核心思想是受到Schlarmann等人2024年提出的FARE方法的啟發(fā)。FARE方法旨在通過對抗性微調使圖像編碼器在面對擾動時產生接近原始圖像嵌入的輸出。類似地,LEAF方法針對文本編碼器進行對抗性微調,使其在面對文本擾動時產生接近原始文本嵌入的輸出。

具體來說,LEAF方法優(yōu)化以下目標函數(shù):

min_θ Σ_i max_{S'_i:dLev(S_i,S'_i)≤k∧S'_i∈C(S_i)} ||f_θCLIP(S_i) - f_θ(S'_i)||^2_2

這個看起來復雜的公式實際上描述了一個簡單的想法:我們希望微調后的文本編碼器f_θ在處理擾動后的文本S'_i時,產生的嵌入盡可能接近原始CLIP文本編碼器f_θCLIP處理原始文本S_i時產生的嵌入。其中,dLev表示Levenshtein距離(衡量兩個字符串之間的編輯距離),k是允許的最大擾動數(shù)量,C(S_i)是滿足語義約束的句子集合。

為了實現(xiàn)這一目標,研究團隊面臨兩個主要挑戰(zhàn):

首先,如何高效地生成對抗性文本擾動。在圖像領域,研究人員通常使用投影梯度下降(PGD)生成對抗性擾動。然而,文本是離散的,無法直接應用梯度下降。此前的工作如Abad Rocamora等人2024年提出的Charmer方法可以生成有效的文本對抗樣本,但計算成本高,特別是當句子長度增加時。

為解決這個問題,研究團隊提出了LEAF的核心創(chuàng)新:一種可以在訓練批次內并行化的攻擊方法。與Charmer相比,LEAF將計算時間減少了一個數(shù)量級,同時幾乎不損失性能。LEAF攻擊的工作原理如下:

1. 首先,隨機選擇ρ個位置,將這些位置的字符替換為空格,然后選擇損失最高的位置。 2. 然后,隨機選擇ρ個字符,將它們放在上一步選擇的位置上,再次選擇損失最高的字符作為最終擾動。

這種方法允許在每次前向傳播中評估ρ×B個句子,其中B是批次大小。這大大加速了對抗性訓練過程。

第二個挑戰(zhàn)是確保生成的對抗性擾動保持語義一致性。為此,研究團隊采用了Chanakya等人2024年提出的語義約束,即不允許擾動生成新的英語單詞。例如,將"bear"(熊)改為"beer"(啤酒)會改變句子的語義,因此應該被禁止。這些約束對于文本到圖像生成任務尤為重要,因為語義的微小變化可能導致生成完全不同的圖像。

通過實驗,研究團隊確定了LEAF方法的最佳超參數(shù):ρ=50(每次評估50個候選擾動),k=1(允許一個字符的擾動),并使用語義約束。這種配置在提高文本領域魯棒性的同時,對圖像領域的性能影響最小。

三、實驗結果:LEAF在多種任務上的表現(xiàn)

研究團隊對LEAF方法進行了全面的評估,探索了它在多種下游任務中的表現(xiàn)。實驗使用了CLIP-ViT-L/14、OpenCLIP-ViT-H/14、OpenCLIP-ViT-g/14和OpenCLIP-ViT-bigG/14等多種CLIP模型。在視覺方面,他們將Schlarmann等人的FARE方法擴展到ViT-H/14和ViT-g/14模型。所有模型都在DataComp-small數(shù)據集的前80,000個樣本上訓練了30個周期。

### 零樣本分類任務

首先,研究團隊評估了LEAF方法在零樣本分類任務上的表現(xiàn)。零樣本分類是指模型能夠在沒有見過任何訓練樣本的情況下對新類別進行分類的能力。

在AG-News數(shù)據集上,使用LEAF微調的文本編碼器將對抗性準確率從44.5%提高到了63.3%(在k=1,即允許一個字符變化的情況下)。同時,在ImageNet數(shù)據集上,結合FARE微調的圖像編碼器和LEAF微調的文本編碼器,模型能夠在兩個域都保持較高的對抗性準確率。

更令人印象深刻的是,盡管LEAF方法只在k=1的情況下進行訓練,但它能夠泛化到更大的擾動。在k=5的情況下(允許5個字符的變化),LEAF微調的模型仍然保持了明顯高于基線模型的性能。

### 文本到圖像生成

接下來,研究團隊將LEAF微調的文本編碼器集成到Stable Diffusion(SD-1.5)和SDXL等文本到圖像生成模型中。

實驗結果表明,使用LEAF微調的文本編碼器能夠顯著提高對抗噪聲下的生成質量。例如,在MS-COCO數(shù)據集上,使用k=2的對抗性擾動時,LEAF微調的文本編碼器生成的圖像CLIPScore比原始模型高2.27分。視覺上,使用原始文本編碼器的模型在面對文本擾動時可能生成完全不相關的圖像(如將描述熊的文本生成足球運動員的圖像),而LEAF微調的模型能夠保持更好的語義一致性。

更有趣的是,盡管SafeCLIP專門設計用于避免生成NSFW內容,但在MS-COCO數(shù)據集的k=2和k=4擾動下,LEAF微調的文本編碼器觸發(fā)NSFW過濾器的頻率甚至低于SafeCLIP。

### 文本-圖像檢索

CLIP模型常用于檢索任務,如基于文本查找相關圖像或基于圖像查找相關文本。這些應用在數(shù)據集/內容過濾和NSFW檢測等場景中尤為重要。

研究團隊在MS-COCO數(shù)據集上評估了LEAF微調的模型在檢索任務中的表現(xiàn)。結果顯示,在k=2的對抗性擾動下,使用LEAF微調的文本編碼器的模型比原始CLIP模型平均高出10個百分點的召回率。

視覺上,當輸入查詢受到對抗性擾動時,原始模型可能檢索到完全不相關的圖像,而穩(wěn)健模型能夠保持檢索結果的語義相關性。例如,當"a gaggle of geese swim in a body of water"(一群鵝在水中游泳)被擾動為"a gaggle of geesexswim in a body of wa2er"時,原始模型檢索到了與卡車和人物相關的圖像,而穩(wěn)健模型仍然能夠檢索到與鵝和水相關的圖像。

### 文本嵌入反演

最后,研究團隊探索了文本嵌入反演,即從文本嵌入重構原始文本的能力。這是一個重要的實驗,因為它顯示了模型的可解釋性和語義保留能力。

研究人員從MS-COCO隨機抽取100個標題,通過原始和穩(wěn)健的文本編碼器生成嵌入,然后嘗試通過直接優(yōu)化重構原始文本。結果顯示,使用LEAF微調的文本編碼器能夠更好地保留語義信息,使得重構更加準確。例如,在ViT-L/14模型上,使用穩(wěn)健文本編碼器的單詞召回率從34.4%提高到了46.4%。

這些結果表明,LEAF不僅提高了模型的對抗魯棒性,還增強了其語義保留能力和可解釋性。

四、LEAF的工作原理及優(yōu)勢

為了更好地理解LEAF的工作原理,我們可以將其比作一種"免疫訓練"。就像人體通過接觸弱化的病原體來建立免疫系統(tǒng)一樣,LEAF通過讓文本編碼器接觸各種可能的文本擾動來增強其魯棒性。

LEAF方法的核心是一種高效的對抗性訓練策略,它包含兩個關鍵創(chuàng)新:

首先,LEAF采用了一種可并行化的文本攻擊方法,大大提高了訓練效率。傳統(tǒng)的文本對抗攻擊方法,如Charmer,需要評估與句子長度相關的大量擾動,這在批處理訓練中效率低下。相比之下,LEAF只評估固定數(shù)量(ρ)的擾動,無論句子長度如何。這使得LEAF在訓練時比最快的Charmer變體快10倍以上,同時幾乎不損失性能。

其次,LEAF引入了語義約束,確保生成的對抗性擾動不會改變句子的原始含義。這一點對于下游任務如文本到圖像生成尤為重要,因為語義的微小變化可能導致生成完全不同的圖像。

LEAF的這些創(chuàng)新使其具有以下優(yōu)勢:

1. 高效性:LEAF比傳統(tǒng)方法快一個數(shù)量級,使其能夠擴展到大型CLIP模型。

2. 泛化能力:雖然LEAF只在k=1的擾動下訓練,但它能夠泛化到更大的擾動(如k=5),顯示出良好的泛化能力。

3. 多任務適應性:LEAF微調的文本編碼器可以無縫集成到多種下游任務中,如零樣本分類、文本到圖像生成和檢索,顯著提高這些任務在對抗環(huán)境下的性能。

4. 可解釋性增強:LEAF不僅提高了模型的對抗魯棒性,還增強了其語義保留能力和可解釋性,使得從嵌入重構原始文本更加準確。

5. 與圖像魯棒性的互補性:LEAF與FARE等圖像對抗性微調方法互補,共同構建了在兩個域都具有魯棒性的CLIP模型。

值得注意的是,LEAF方法的訓練目標與FARE類似,旨在保留原始CLIP編碼器的語義空間,同時增強對對抗擾動的魯棒性。這使得LEAF微調的文本編碼器可以直接替換現(xiàn)有系統(tǒng)中的原始編碼器,而無需重新訓練整個流水線。

五、研究意義與未來方向

這項研究的意義遠超過技術創(chuàng)新,它為構建更安全、更可靠的多模態(tài)AI系統(tǒng)提供了關鍵技術。

首先,通過同時增強CLIP模型在文本和圖像兩個域的魯棒性,研究團隊打造了一個更全面的防御系統(tǒng)。這就像同時加固房子的所有入口,而不僅僅是前門。這種全面的防御對于依賴CLIP的關鍵應用,如內容過濾和NSFW檢測,尤為重要,因為這些應用的失效可能導致嚴重后果。

其次,LEAF方法的高效性使其能夠擴展到大型CLIP模型,這對于跟上AI快速發(fā)展的步伐至關重要。隨著模型規(guī)模的不斷增加,高效的對抗性訓練方法變得越來越重要。

第三,LEAF方法在多種下游任務中的優(yōu)越表現(xiàn)表明,它不僅是一種技術改進,還是一種能夠在實際應用中產生實質性影響的方法。無論是提高文本到圖像生成的質量,增強檢索系統(tǒng)的可靠性,還是提升模型的可解釋性,LEAF都展示了廣泛的應用價值。

當然,這項研究也有一些限制。首先,雖然文本和圖像編碼器都經過了對抗性微調,但它們是獨立訓練的,可能仍然存在聯(lián)合優(yōu)化的對抗攻擊。其次,研究主要關注字符級的魯棒性,而沒有研究詞元級的魯棒性,因為詞元級攻擊通常會改變句子的語義。此外,由于計算資源的限制,研究團隊沒有訓練最大的圖像編碼器(OpenCLIP-ViT-bigG)或最新的EVA-CLIP模型。

未來的研究方向可能包括:

1. 探索文本和圖像編碼器的聯(lián)合對抗性微調,以構建對聯(lián)合攻擊更加魯棒的CLIP模型。

2. 在保持語義一致性的前提下,研究詞元級的魯棒性,可能需要更復雜的語義約束。

3. 將LEAF方法擴展到更大的模型和其他使用文本編碼器的任務,如檢索增強生成(RAG)。

4. 探索更高效的對抗性訓練方法,進一步減少計算成本,使其能夠應用于更廣泛的場景。

總的來說,這項研究為構建更加穩(wěn)健的多模態(tài)AI系統(tǒng)邁出了重要一步,為未來的研究和應用提供了寶貴的見解和工具。就像建筑師不僅關注建筑的美觀,還關注其安全性和耐久性一樣,AI研究人員也需要同時關注模型的性能和魯棒性。LEAF方法就是這種平衡的一個絕佳例子,它在提高模型魯棒性的同時,保持甚至增強了其在多種任務上的性能。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-