在當今AI迅猛發(fā)展的時代,自動生成的圖像質(zhì)量越來越高,這不僅帶來了創(chuàng)新的可能性,也帶來了潛在的風險。近日,來自西安交通大學、新加坡國立大學、西南財經(jīng)大學和寧波工程學院的研究團隊聯(lián)合發(fā)表了一篇題為《通過詞匯偏向為自回歸圖像模型添加水印:一種抵抗重生成攻擊的方法》的研究論文。這項研究由Siqi Hui、Yiren Song、Sanping Zhou、Ye Deng、Wenli Huang和Jinjun Wang等人完成,于2025年6月3日發(fā)布在arXiv預印本平臺上(arXiv:2506.01011v1)。
一、背景:自回歸圖像生成面臨的水印挑戰(zhàn)
想象一下,如果你有一臺神奇的復印機,它不僅能復制圖像,還能根據(jù)你的描述創(chuàng)造全新的圖像。這就是現(xiàn)代AI圖像生成技術(shù)的魔力。雖然大家可能更熟悉擴散模型(如DALL-E、Stable Diffusion),但近年來,一種稱為"自回歸模型"(AR模型)的技術(shù)也取得了令人矚目的成就,它們在圖像生成質(zhì)量上達到了最先進水平。
這些自回歸模型就像是耐心的畫家,一筆一筆地完成畫作。技術(shù)上講,它們通過依次預測圖像"代幣"(tokens)來生成圖像,這些代幣可以理解為圖像的基本構(gòu)建塊。不過,這些模型創(chuàng)造出的栩栩如生的圖像也帶來了隱憂——它們可能被用于制作深度偽造內(nèi)容或傳播錯誤信息。
為了解決這個問題,研究人員一直致力于開發(fā)"水印"技術(shù),就像古代紙幣上的防偽標記一樣,這些水印能夠幫助我們識別和追蹤AI生成的圖像。然而,現(xiàn)有的水印技術(shù)主要是為擴散模型設(shè)計的,它們在擴散模型的中間狀態(tài)(稱為潛在狀態(tài))中嵌入水印。這種設(shè)計難以直接應用到自回歸模型上,因為后者是通過順序預測代幣而非優(yōu)化連續(xù)的潛在表示來生成圖像的。
更嚴峻的挑戰(zhàn)是,研究發(fā)現(xiàn)基于擴散的"重生成攻擊"可以有效地通過擾動潛在狀態(tài)來抹去這些水印。就像洗衣機可以沖掉衣服上的污漬一樣,這些攻擊可以"洗掉"圖像中的水印信息。
因此,為自回歸圖像模型開發(fā)一種專門的、能夠抵抗重生成攻擊的水印技術(shù)變得尤為重要。這正是本研究所要解決的核心問題。
二、研究靈感:從語言模型水印技術(shù)獲得啟示
當研究團隊面對這一挑戰(zhàn)時,他們的靈感來源于一個有趣的觀察:當自回歸模型生成一張圖像后,如果我們再次對這張圖像進行編碼,很大一部分原始的代幣信息仍然可以被恢復。這就像是讀出一首詩后,再讓另一個人記錄下來,雖然可能有些字詞會變化,但整體內(nèi)容依然能夠保留。
這一發(fā)現(xiàn)讓研究者意識到,如果他們能夠在代幣圖譜(token map)中嵌入水印信息,那么即使圖像經(jīng)過處理,當它被重新量化為代幣時,水印信息仍有可能被檢測到。
另一個關(guān)鍵觀察是,在代幣圖譜上進行控制范圍內(nèi)的微小擾動不會顯著降低圖像質(zhì)量。這就像是稍微調(diào)整一幅畫的某些筆觸,雖然有細微變化,但整體效果仍然令人滿意。
基于這些發(fā)現(xiàn),研究團隊受到了文本水印技術(shù)的啟發(fā),開發(fā)了一種名為"詞匯偏向水印"(Lexical Bias Watermarking,簡稱LBW)的新方法。這種方法巧妙地在自回歸預測過程中引入了控制偏向,使模型在生成圖像時傾向于選擇特定的代幣。
三、LBW方法:巧妙地在代幣選擇中植入水印
LBW的核心思想非常巧妙,可以比作一場精心設(shè)計的游戲。想象一下,代幣庫(vocabulary)是一個裝滿各種彩色積木的大箱子。研究人員將這些積木分為兩組:綠色列表(green list)和紅色列表(red list)。在生成圖像時,他們會有意識地"鼓勵"模型多使用綠色列表中的積木。
具體來說,LBW通過兩種主要方式實現(xiàn)這一目標:
首先是"硬偏向"(Hard Biasing)策略。這種方法相當直接,它會在模型預測下一個代幣時,將紅色列表中代幣的概率值設(shè)為負無窮,強制模型只能從綠色列表中選擇代幣。這就像是在游戲中規(guī)定玩家只能使用特定顏色的積木一樣。
然而,這種強制性的方法可能會導致圖像質(zhì)量下降,甚至在綠色列表過于受限時導致生成失敗。就像如果限制畫家只能使用幾種顏色,可能會影響畫作的表現(xiàn)力一樣。
為了解決這個問題,研究者提出了更靈活的"軟偏向"(Soft Biasing)策略。這種方法不是完全禁止使用紅色列表中的代幣,而是增加綠色列表中代幣的概率值,使模型更傾向于選擇它們,但在必要時仍可使用紅色列表中的代幣。這就像是鼓勵玩家多用某些顏色的積木,但不強制禁止使用其他顏色。
具體來說,當模型預測下一個代幣時,軟偏向策略會給綠色列表中的代幣添加一個偏置常數(shù)σ,使它們更有可能被選中。這樣既能嵌入水印信息,又能保持圖像的生成質(zhì)量。
四、加強安全性:多綠色列表策略
為了增強對白盒攻擊的抵抗能力,研究團隊不滿足于使用單一的綠色列表,而是引入了多綠色列表策略。
想象一下,如果每次生成圖像都使用同一組綠色積木,那么攻擊者可能會發(fā)現(xiàn)這一模式并破解水印。為了避免這種情況,研究者創(chuàng)建了多組綠色列表,每次生成圖像時隨機選擇其中一組使用。
更巧妙的是,這些綠色列表被精心設(shè)計,使得每個代幣在所有綠色列表中被選為"綠色"的概率是相等的。這就像是確保每種顏色的積木在整個游戲中被使用的頻率大致相同,使得水印變得更難被檢測和移除。
研究表明,當綠色列表的數(shù)量足夠多時(如32個),水印圖像的代幣分布幾乎與無水印圖像無法區(qū)分,這使得水印更加隱蔽,難以通過統(tǒng)計分析被發(fā)現(xiàn)。
五、水印檢測:利用統(tǒng)計學識別綠色代幣偏向
那么,如何檢測這種巧妙嵌入的水印呢?研究團隊采用了一種基于Z分數(shù)假設(shè)檢驗的方法。
當我們拿到一張可能帶有水印的圖像時,首先將其量化為代幣圖譜。然后,針對每個綠色列表,計算圖譜中綠色代幣的比例。考慮到自回歸生成圖像的高代幣一致性(如圖1所示),如果觀察到的綠色代幣比例與預期比例有顯著偏差,就可以認為存在水印。
這種檢測方法的優(yōu)點是輕量級,只需要VQ-VAE(一種將圖像轉(zhuǎn)換為代幣的神經(jīng)網(wǎng)絡(luò))而無需訪問復雜的生成模型,使其適用于各種應用場景。
六、LBW的擴展:支持事后水印
除了在生成過程中嵌入水印,LBW還可以擴展為一種"事后水印"方法,用于現(xiàn)有圖像。
具體來說,當我們有一張已存在的圖像時,首先將其量化為代幣圖譜。然后,通過將紅色代幣替換為最接近的綠色代幣來嵌入水印。這種替換基于代幣嵌入空間中的歐氏距離,確保替換后的失真最小化。最后,使用修改后的代幣圖譜重建圖像,有效地以事后方式嵌入水印。
這就像是在不改變畫作整體風格的前提下,巧妙地調(diào)整一些細節(jié),使其包含特定的標記。
七、實驗結(jié)果:LBW展示出色的水印穩(wěn)健性
研究團隊在ImageNet數(shù)據(jù)集上進行了廣泛的實驗,測試了LBW在不同自回歸模型(VQ-GAN、VAR和RAR)上的性能,并與現(xiàn)有最先進的水印方法進行了比較。
實驗結(jié)果令人振奮。LBW在傳統(tǒng)攻擊(如高斯噪聲、模糊、顏色抖動、幾何變換和JPEG壓縮)和重生成攻擊(如VAE重建、DiffPure和CtrlRegen)下都展示出卓越的穩(wěn)健性。
特別值得一提的是,LBW在抵抗重生成攻擊方面表現(xiàn)尤為突出。例如,在RAR模型上應用LBW-Post時,即使面對CtrlRegen這種強大的攻擊,它仍然能夠達到0.995的AUC(曲線下面積)和0.937的TPR@1FPR(在1%假陽性率下的真陽性率),顯著優(yōu)于現(xiàn)有的WatermarkDM方法。
此外,LBW-Soft比LBW-Hard展現(xiàn)出更好的穩(wěn)健性,尤其是在較低的綠色代幣比例下。這證實了軟偏向策略在平衡水印強度和圖像質(zhì)量方面的優(yōu)勢。
研究還發(fā)現(xiàn),RAR模型上的LBW表現(xiàn)最為出色,這可能是因為RAR使用較小的代幣庫(1024個代幣),使得水印信息更加集中和穩(wěn)定。
八、不同參數(shù)對水印效果的影響
研究團隊還分析了不同參數(shù)對水印效果的影響。例如,他們發(fā)現(xiàn)綠色代幣比例γ越低,水印的穩(wěn)健性通常越高,但圖像質(zhì)量可能會下降。特別是對于LBW-Hard,當γ值過低時(如0.1),模型可能難以生成高質(zhì)量圖像,甚至會導致生成失敗。
基于這些發(fā)現(xiàn),研究者為不同模型設(shè)定了不同的默認γ值:VQ-GAN為0.2,VAR和RAR為0.1。對于LBW-Soft,隨著偏置常數(shù)σ的增加,水印的穩(wěn)健性先提高后趨于飽和。雖然更大的σ值能增強水印的可檢測性,但過高的值可能會限制代幣生成,影響圖像質(zhì)量。
在多綠色列表策略方面,實驗表明當列表數(shù)量達到32個或更多時,水印圖像的代幣頻率分布與無水印圖像幾乎無法區(qū)分,有效防止了基于頻率的攻擊。
最終,研究者選擇了σ=7(VAR)、σ=4(VQ-GAN)和σ=8(RAR)作為LBW-Soft的默認值,在水印穩(wěn)健性和圖像質(zhì)量之間取得了良好的平衡。
九、研究意義與未來展望
這項研究的意義不僅在于提出了一種新的水印方法,更在于它為自回歸圖像生成模型開創(chuàng)了水印技術(shù)的新范式。與現(xiàn)有主要為擴散模型設(shè)計的水印技術(shù)不同,LBW專門針對自回歸模型的特性進行了優(yōu)化,能夠無縫集成到現(xiàn)有的AR圖像生成流程中。
更重要的是,LBW展示了對重生成攻擊的卓越抵抗能力,這是現(xiàn)有水印技術(shù)的主要弱點。這意味著,即使圖像經(jīng)過設(shè)計用來移除水印的處理,LBW嵌入的水印仍然可能被檢測到,為AI生成內(nèi)容的可追溯性和責任歸屬提供了更可靠的保障。
此外,LBW的多綠色列表策略為增強水印安全性提供了新思路,可能啟發(fā)未來更多關(guān)于增強AI生成內(nèi)容可信度的研究。
隨著AR模型在圖像生成領(lǐng)域的應用不斷擴大,LBW可能成為確保這些技術(shù)負責任使用的重要工具,幫助我們在享受AI創(chuàng)新帶來的便利的同時,有效管理潛在風險。
未來的研究方向可能包括進一步優(yōu)化多綠色列表生成算法,探索更多元化的代幣偏向策略,以及將LBW擴展到視頻、音頻等其他媒體類型的生成模型中。
總的來說,這項研究不僅解決了一個技術(shù)挑戰(zhàn),也為AI生成內(nèi)容的安全與責任問題提供了有價值的解決方案,推動了AI技術(shù)的健康發(fā)展。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機制和漸進式訓練,能夠?qū)碗s指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學習外觀和運動信息,顯著解決了當前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實用化應用奠定了重要基礎(chǔ)。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓練數(shù)據(jù)集和MM-AlignBench評測基準,通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預報,準確性超越傳統(tǒng)方法90%的指標。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學習40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學領(lǐng)域帶來了效率和精度的雙重突破。