研究者們近日發(fā)表了一項突破性的圖像水印技術(shù)研究,這項由香港浸會大學(xué)的周開陽教授帶領(lǐng),與武漢大學(xué)、中山大學(xué)和北京大學(xué)研究者共同完成的研究于2025年5月發(fā)布在arXiv預(yù)印本平臺(arXiv:2505.14673v1)上,題為"Training-Free Watermarking for Autoregressive Image Generation",有興趣深入了解的讀者可通過GitHub項目(https://github.com/maifoundations/IndexMark)查看相關(guān)資源。
一、為什么我們需要自回歸模型的水印技術(shù)?
想象一下,你正在使用一款能夠根據(jù)文字描述生成精美圖像的AI工具。這些工具背后的技術(shù)越來越強大,生成的圖像也越來越逼真,以至于有時候我們已經(jīng)難以分辨哪些圖像是真實拍攝的,哪些是AI生成的。這聽起來很酷,但同時也帶來了一些令人擔(dān)憂的問題。
假設(shè)有人利用這些技術(shù)制作虛假新聞、侵犯他人肖像權(quán),或者在不適當(dāng)?shù)膱龊鲜褂霉娙宋锏男蜗?,誰該為此負(fù)責(zé)?怎樣追蹤這些內(nèi)容的來源?這就像是在互聯(lián)網(wǎng)上發(fā)布的每一條信息都沒有"身份證",讓不良行為有機會在匿名的環(huán)境中滋生。
研究人員一直在努力解決這個問題,其中一個重要方向就是在AI生成的圖像中嵌入"隱形水印",就像給每張生成的圖像都加上了一個獨特的、肉眼看不見但可以通過技術(shù)手段驗證的指紋。這種水印技術(shù)可以幫助我們追蹤圖像的來源,確定責(zé)任歸屬,保護版權(quán),并進行內(nèi)容監(jiān)管。
然而,當(dāng)前的水印技術(shù)主要集中在另一種叫做"擴散模型"(Diffusion Models)的AI圖像生成技術(shù)上,而對于新興的、性能更好的"自回歸模型"(Autoregressive Models)卻沒有多少研究。這兩種模型工作方式完全不同:擴散模型像是從一片霧中逐漸顯現(xiàn)出清晰圖像,而自回歸模型則像是拼圖游戲,一塊一塊按順序拼出完整畫面。由于這種根本性的差異,為擴散模型設(shè)計的水印技術(shù)無法直接應(yīng)用到自回歸模型上。
于是,香港浸會大學(xué)的研究團隊開發(fā)了一種名為"IndexMark"的方法,專為自回歸圖像生成模型設(shè)計的水印技術(shù),而且最大的亮點是:這種技術(shù)不需要任何額外的模型訓(xùn)練,即插即用!
二、IndexMark如何巧妙利用自回歸模型的特性?
要理解IndexMark的工作原理,我們需要先了解自回歸圖像生成模型的一個有趣特性。這些模型使用一種稱為"碼本"(codebook)的東西來生成圖像。想象碼本就像是一本包含數(shù)千個顏色塊的圖畫書,每個顏色塊都有一個編號(索引)。自回歸模型的工作就是根據(jù)你的描述,從這本圖畫書中一頁一頁地選擇合適的顏色塊,拼湊出最終的圖像。
研究人員發(fā)現(xiàn),這本"圖畫書"中有一個有趣的現(xiàn)象:很多顏色塊雖然編號不同,但看起來非常相似,幾乎難以區(qū)分。這就像是在一本包含數(shù)千種藍色的圖畫書中,有些藍色之間的差別微小到普通人根本看不出來。
IndexMark正是巧妙地利用了這一特性。他們的方法不是在最終圖像上添加可見的水印,而是改變生成過程中選擇的"顏色塊"(索引)的統(tǒng)計分布。具體來說,他們將碼本中的所有索引分成兩組:紅色組和綠色組,每組中的索引對應(yīng)的顏色塊看起來非常相似。當(dāng)模型生成圖像時,IndexMark會盡可能地用綠色組中的索引替換紅色組中的索引,從而在不明顯改變圖像視覺效果的情況下,使最終圖像中綠色索引的比例顯著增加。
這就像是一位畫家在創(chuàng)作一幅藍天的畫作時,有意識地從數(shù)十種幾乎相同的藍色顏料中選擇特定的幾種。普通觀眾看不出任何區(qū)別,但知道秘密的人可以通過檢測使用了哪些特定藍色顏料來確認(rèn)這幅畫的真實性。
這種水印方法有三個主要優(yōu)勢:
首先,它具有很強的穩(wěn)健性。除非對圖像顏色塊進行大幅修改,否則水印很難被移除。這就像是水印已經(jīng)融入到了圖像的基因中一樣。
其次,由于碼本中存在大量冗余(即非常相似的顏色塊),這種替換策略幾乎不會對圖像質(zhì)量產(chǎn)生可見影響。就像是用兩種幾乎一模一樣的藍色替換彼此,肉眼根本無法察覺差異。
最后,通過不同的紅綠分組方案,可以生成數(shù)量龐大的不同水印標(biāo)識,幫助開發(fā)者追蹤圖像來源,就像是每個用戶都有自己獨特的指紋一樣。
三、IndexMark的技術(shù)細(xì)節(jié):配對、替換與驗證
IndexMark的工作流程可以分為水印嵌入和水印驗證兩個主要部分。讓我們像拆解一道烹飪食譜那樣,一步步了解它的工作原理。
### 嵌入水?。赫业较嗨频?雙胞胎"顏色
首先,研究者們需要將碼本中的所有索引配對,使每對索引對應(yīng)的顏色塊盡可能相似。這有點像在一大群人中為每個人找到一個最像他/她的"雙胞胎"。為了找到最佳配對,研究團隊將這個問題轉(zhuǎn)化為一個"最大權(quán)重完美匹配"問題,并使用了一種叫做"Blossom算法"的方法來解決它。
由于碼本通常包含大量索引(可能有上千個),直接應(yīng)用Blossom算法會非常耗時。因此,他們采用了一種"top-K剪枝"的策略,即對于每個索引,只保留與它最相似的K個索引作為潛在的配對對象。這就像是在為每個人尋找"雙胞胎"時,不是與所有人比較,而是先篩選出最有可能相似的K個候選人。
配對完成后,研究者隨機將每對索引中的一個指定為"紅色索引",另一個指定為"綠色索引"(被稱為水印標(biāo)記)。這相當(dāng)于給每對"雙胞胎"中的一個戴上紅帽子,另一個戴上綠帽子,以便區(qū)分。
當(dāng)自回歸模型生成圖像時,它會按順序預(yù)測每個位置上應(yīng)該使用的索引。每當(dāng)模型生成一個紅色索引時,IndexMark會考慮是否將其替換為對應(yīng)的綠色索引。但不是所有紅色索引都會被替換,因為這可能會影響圖像質(zhì)量。研究者們引入了一種基于"置信度"的索引替換策略:
當(dāng)模型生成一個紅色索引時,會記錄下這個紅色索引的分類概率(模型認(rèn)為應(yīng)該選擇這個索引的確信程度)以及與之配對的綠色索引的分類概率。兩者之間的相對置信度差異越大,替換后對圖像質(zhì)量的影響就可能越大。因此,研究者們計算所有索引對的相對置信度,并設(shè)置一個閾值,只替換那些相對置信度較低的索引對,從而平衡水印強度和圖像質(zhì)量。
這就像是一位謹(jǐn)慎的廚師在替換食譜中的原材料時,只會用味道非常接近的替代品來替換那些對菜肴風(fēng)味影響不大的配料,而對關(guān)鍵配料則保持不變。
### 驗證水印:數(shù)一數(shù)綠帽子的比例
水印驗證的核心思想很簡單:計算圖像中綠色索引的比例。在沒有水印的圖像中,由于紅綠索引是隨機分配的,綠色索引的比例應(yīng)該接近50%。而在理想的水印圖像中,由于紅色索引被大量替換為綠色索引,綠色索引的比例會明顯高于50%,接近100%。
研究者們將水印驗證問題視為一個統(tǒng)計概率問題。根據(jù)中心極限定理,當(dāng)索引數(shù)量足夠大時,綠色索引比例的抽樣均值會遵循正態(tài)分布。因此,研究者們可以計算特定置信水平下的置信區(qū)間,并使用置信區(qū)間的右端點作為判斷閾值:如果圖像中綠色索引的比例低于閾值,則判定為非水印圖像;否則判定為水印圖像。
然而,在實際應(yīng)用中,有一個挑戰(zhàn):我們?nèi)绾螠?zhǔn)確地從圖像中重建索引序列?為此,研究者們引入了一個名為"索引編碼器"(Index Encoder)的組件。原始的VQ-VAE編碼器被設(shè)計用于像素級重建,而不是準(zhǔn)確重建索引。索引編碼器通過特殊訓(xùn)練,可以更準(zhǔn)確地從圖像中重建索引序列,從而提高水印驗證的準(zhǔn)確性。
此外,研究者們還發(fā)現(xiàn),VQ-VAE的編碼方式使得水印驗證對圖像裁剪特別敏感。VQ-VAE將圖像分割成固定大小的非重疊塊(例如8×8像素),并獨立編碼每個塊以獲取索引。即使對圖像進行輕微裁剪,也會導(dǎo)致塊的組成發(fā)生變化,從而影響索引重建。為了解決這個問題,研究者們提出了一種針對裁剪圖像的驗證方案:遍歷裁剪圖像的局部塊,嘗試找到與原始塊對齊的位置。這就像是在拼圖游戲中,通過嘗試不同的對齊方式找到最佳匹配。
四、實驗結(jié)果:與現(xiàn)有方法相比如何?
研究團隊使用了一個名為"LlamaGen"的自回歸圖像生成模型進行了廣泛的實驗,在不同分辨率(256×256, 384×384和512×512)上生成圖像,并與多種現(xiàn)有的水印方法進行了比較。
在圖像質(zhì)量方面,IndexMark取得了顯著的成果。傳統(tǒng)的后處理水印方法通常會導(dǎo)致輕微的視覺失真,而且穩(wěn)健性較差。擴散模型的水印方法雖然能夠無縫嵌入水印,但往往會導(dǎo)致較大的語義變化,因為很難精確控制擾動的幅度。相比之下,IndexMark基于VQ-VAE和自回歸圖像生成模型,能夠更好地保留圖像細(xì)節(jié)和結(jié)構(gòu)。
實驗結(jié)果顯示,在峰值信噪比(PSNR)、結(jié)構(gòu)相似性指標(biāo)(SSIM)和多尺度SSIM(MSSIM)等指標(biāo)上,IndexMark都取得了明顯的改進,同時對圖像質(zhì)量的影響遠(yuǎn)小于無水印生成,這一點可以從CLIP分?jǐn)?shù)和FID(Fréchet Inception Distance)指標(biāo)上看出。有趣的是,研究者們觀察到,采用IndexMark方法的水印圖像的FID甚至低于無水印圖像,進一步證明了其在保持視覺保真度方面的卓越性能。
在水印穩(wěn)健性方面,研究團隊選擇了六種常見的數(shù)據(jù)增強方法作為攻擊測試,包括高斯模糊、高斯噪聲、JPEG壓縮、顏色抖動、隨機擦除和隨機裁剪。結(jié)果表明,IndexMark展現(xiàn)出對大多數(shù)擾動的強大穩(wěn)健性,在256、384和512分辨率下的表現(xiàn)都顯著優(yōu)于基線方法。雖然基于Stable Diffusion的方法表現(xiàn)優(yōu)于傳統(tǒng)方法,但它們?nèi)匀幻黠@不如IndexMark。
研究團隊還進行了消融實驗,驗證了基于置信度的索引替換策略和索引編碼器的有效性。結(jié)果表明,相比隨機索引選擇,基于置信度的方法在保持圖像質(zhì)量方面表現(xiàn)更好。此外,索引編碼器在高置信水平下顯著提高了驗證率。
對于水印強度的影響,研究表明增加IndexMark水印強度不會導(dǎo)致圖像質(zhì)量的明顯變化,這證明了該方法在平衡水印強度和圖像質(zhì)量方面的優(yōu)越性。
五、未來展望與局限性
盡管IndexMark取得了令人印象深刻的成果,研究團隊也坦誠地指出了該方法的一些局限性和未來可能的改進方向。
首先,IndexMark水印的驗證依賴于VQ-VAE模型的索引重建能力。一個更穩(wěn)健的編碼器可以進一步增強該方法的穩(wěn)健性,例如基于圖像語義的索引重建技術(shù)。
其次,當(dāng)前的匹配-替換方法使用簡單的成對匹配。通過探索更多樣化的匹配方法,研究者們可以進一步利用碼本的冗余性,從而提高水印圖像的質(zhì)量。
最后,這項技術(shù)的社會影響不容忽視。隨著自回歸圖像生成模型的快速發(fā)展,開發(fā)者有責(zé)任和義務(wù)確保這些模型的安全使用。IndexMark為開發(fā)者提供了一種高效、有效的方法,幫助他們應(yīng)對模型濫用,這是朝著負(fù)責(zé)任的AI方向邁出的重要一步。
總的來說,IndexMark代表了自回歸圖像生成模型水印技術(shù)的重要突破,它不僅填補了現(xiàn)有研究的空白,還提供了一個簡單、無需訓(xùn)練的解決方案,為保障AI生成內(nèi)容的可追溯性和安全性開辟了新的道路。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機制和漸進式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學(xué)習(xí)外觀和運動信息,顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報,準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。