在數(shù)字內(nèi)容創(chuàng)作領(lǐng)域,生成式AI技術(shù)的飛速發(fā)展讓視頻創(chuàng)作變得前所未有的簡單。只需輸入一段文字描述,先進(jìn)的AI模型就能生成栩栩如生的視頻內(nèi)容。然而,隨著這類技術(shù)的普及,一個關(guān)鍵問題也隨之浮現(xiàn):如何保護(hù)這些AI生成內(nèi)容的版權(quán)?如何證明某段視頻確實由特定的AI服務(wù)生成,而非被他人盜用?
這正是由清華大學(xué)蘇子涵、蔣唐瑜、莊俊豪等研究人員,聯(lián)合中國科學(xué)院自動化研究所的邱學(xué)睿、華南理工大學(xué)的徐宏斌、深圳人工智能與數(shù)字經(jīng)濟(jì)實驗室(廣東)的李明和余飛理查德,以及新加坡管理大學(xué)的何勝豐教授共同推出的"Safe-Sora"研究所要解決的問題。這項研究成果于2025年5月發(fā)表在arXiv預(yù)印本平臺(arXiv:2505.12667v1),標(biāo)題為《Safe-Sora: Safe Text-to-Video Generation via Graphical Watermarking》。
想象一下,如果你是一家科技公司,開發(fā)了一個強(qiáng)大的視頻生成AI模型。你希望用戶能使用你的技術(shù)創(chuàng)作精彩內(nèi)容,但同時也擔(dān)心,如何證明這些視頻確實出自你的技術(shù)?更重要的是,如果有人盜用這些內(nèi)容,你如何證明所有權(quán)?
傳統(tǒng)的解決方案是在內(nèi)容中嵌入水印——一種肉眼難以察覺但可以通過特定技術(shù)提取的標(biāo)記。在圖像生成領(lǐng)域,這種技術(shù)已經(jīng)相當(dāng)成熟。但在視頻生成領(lǐng)域,水印技術(shù)仍處于起步階段?,F(xiàn)有的視頻水印方法大多只能嵌入簡單的二進(jìn)制碼(類似于0和1組成的編碼),而非更直觀、更容易識別的圖形標(biāo)識(如公司logo)。
這就是Safe-Sora的創(chuàng)新之處。這個框架首次實現(xiàn)了在AI視頻生成過程中直接嵌入圖形水印,就像給生成的視頻加上了一個獨特的、難以偽造的"身份證"。
研究團(tuán)隊的靈感來源于一個有趣的發(fā)現(xiàn):當(dāng)水印圖像與承載它的內(nèi)容在視覺上相似時,水印的效果會顯著提升。簡單來說,如果你想在一張貓的圖片中嵌入水印,使用與貓相關(guān)的圖形會比使用完全不相關(guān)的圖形(如一個抽象的標(biāo)志)效果更好。
基于這一發(fā)現(xiàn),Safe-Sora采用了一種分層的"粗到細(xì)"自適應(yīng)匹配機(jī)制。首先,它將水印圖像(比如公司logo)分割成小塊,然后通過智能算法將每個小塊分配到視頻中最適合它的幀和位置。這就像是在視頻中尋找最適合藏匿水印各部分的"安全屋",確保水印既不會破壞視頻質(zhì)量,又能在需要時被準(zhǔn)確提取。
為了更好地處理視頻的時空特性,研究團(tuán)隊還開發(fā)了一種基于3D小波變換的Mamba架構(gòu)(一種先進(jìn)的人工智能模型),配合獨特的空時局部掃描策略。這聽起來可能有點復(fù)雜,但可以這樣理解:傳統(tǒng)的水印技術(shù)就像是在一張照片上加標(biāo)記,而Safe-Sora的方法則考慮了視頻的流動性,就像是在一條河流中釋放特殊的、只有特定設(shè)備才能檢測到的熒光染料,即使河水流動,這些染料的模式依然可以被識別。
研究團(tuán)隊使用了廣泛應(yīng)用的Panda-70M數(shù)據(jù)集作為視頻源,這個數(shù)據(jù)集包含7000萬個高質(zhì)量視頻片段,涵蓋各種類別。而水印則來自Logo-2K+數(shù)據(jù)集,這是一個包含各種真實世界logo的大型集合。
在實驗中,Safe-Sora的表現(xiàn)令人印象深刻。與現(xiàn)有方法相比,它不僅保持了極高的視頻質(zhì)量,水印的保真度也非常出色,而且對各種常見的視頻處理操作(如壓縮、裁剪、旋轉(zhuǎn)等)具有很強(qiáng)的抵抗力。特別是在衡量視頻時間一致性的Fréchet視頻距離(FVD)指標(biāo)上,Safe-Sora的得分為3.77,遠(yuǎn)低于第二好的方法154.35,這表明其處理視頻連貫性的能力遠(yuǎn)超其他方法。
Safe-Sora的工作原理可以分為三個主要步驟:
首先是粗到細(xì)的自適應(yīng)補(bǔ)丁匹配。這個過程就像是一個精明的珠寶商,要將一塊寶石(水?。╄偳兜揭粭l項鏈(視頻)中,他會仔細(xì)研究項鏈的每個部分,找出最適合寶石各個部分的位置。系統(tǒng)將水印圖像分割成小塊,然后通過計算每個小塊與視頻各幀之間的視覺相似度,決定將它們放在哪里。這種策略確保了水印能夠巧妙地融入視頻內(nèi)容,既不影響視頻質(zhì)量,又能保持水印信息的完整性。
第二步是水印嵌入。這一步利用了一種特殊的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),稱為"2D空間-頻率Mamba塊",將水印信息與視頻特征進(jìn)行融合。想象一下,這就像是在紡織一塊精美的布料,水印的線和視頻的線交織在一起,肉眼看起來是一整塊布,但在特定光線下,水印的圖案就會顯現(xiàn)出來。
最后是水印提取。當(dāng)需要驗證視頻版權(quán)時,系統(tǒng)使用另一個專門的網(wǎng)絡(luò),通過特定的算法從視頻中提取出原始水印圖像。即使視頻經(jīng)過了壓縮、裁剪或其他處理,這種方法仍能成功提取出清晰的水印,證明視頻的出處。
Safe-Sora的實驗結(jié)果令人信服。在視頻質(zhì)量評估上,它的PSNR(峰值信噪比)達(dá)到42.50,遠(yuǎn)高于其他方法;在水印質(zhì)量方面,它的PSNR為37.71,同樣遙遙領(lǐng)先。更重要的是,在面對各種常見的視頻處理操作時,如隨機(jī)擦除、高斯模糊、高斯噪聲、旋轉(zhuǎn)和H.264壓縮,Safe-Sora都展現(xiàn)出了極強(qiáng)的魯棒性,即使在高壓縮率下也能成功提取水印。
這項研究的意義不僅限于學(xué)術(shù)領(lǐng)域。隨著AI生成內(nèi)容越來越普及,版權(quán)保護(hù)變得日益重要。Safe-Sora提供了一種可靠的方法,使創(chuàng)作者和平臺能夠保護(hù)自己的知識產(chǎn)權(quán),同時也為用戶提供了一種驗證內(nèi)容來源的手段。比如,如果你看到一段聲稱是某AI平臺生成的視頻,你可以使用相應(yīng)的水印提取工具來驗證它是否真的來自該平臺。
雖然Safe-Sora展現(xiàn)出了令人印象深刻的性能,但研究團(tuán)隊也承認(rèn),目前該方法主要適用于靜態(tài)圖形水印,如logo或圖標(biāo)。在未來的工作中,他們計劃探索更復(fù)雜的水印形式,如動畫序列或動態(tài)模式,以進(jìn)一步提升水印的安全性和適應(yīng)性。
總的來說,Safe-Sora代表了視頻生成水印技術(shù)的一個重要突破,為AI生成內(nèi)容的版權(quán)保護(hù)提供了一種新的、有效的解決方案。隨著生成式AI技術(shù)的不斷發(fā)展,這類保護(hù)機(jī)制將變得越來越重要,而Safe-Sora無疑為這一領(lǐng)域指明了前進(jìn)的方向。
研究團(tuán)隊表示,他們將在論文正式發(fā)表后公開相關(guān)代碼,供學(xué)術(shù)界和產(chǎn)業(yè)界進(jìn)一步探索和應(yīng)用。對于那些對AI生成內(nèi)容版權(quán)保護(hù)感興趣的研究人員和開發(fā)者來說,這將是一個寶貴的資源。
好文章,需要你的鼓勵
新加坡國立大學(xué)研究團(tuán)隊開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實驗顯示,僅訓(xùn)練AI玩簡單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實現(xiàn)37.9%的精度提升,并在真實設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊通過對比實驗發(fā)現(xiàn),經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時刻"現(xiàn)象,但這些自我糾錯行為并不能實際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗證差距",即生成答案的能力強(qiáng)于驗證答案質(zhì)量的能力,且模型在自我驗證時無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動態(tài)稀疏性實現(xiàn)大語言模型訓(xùn)練加速1.6倍,計算成本降低2.2倍。該方法使用SVD稀疏性估計器智能選擇重要計算部分,在保持模型性能的同時顯著提升訓(xùn)練效率,已在多個任務(wù)上驗證有效性。