在圖像編輯世界中,一項令人矚目的突破悄然到來。來自加拿大西蒙弗雷澤大學(xué)的研究團(tuán)隊,由Amirhossein Alimohammadi和Aryan Mikaeili共同帶領(lǐng),聯(lián)合Sauradip Nag、華為的Negar Hassanpour、西蒙弗雷澤大學(xué)及多倫多大學(xué)的Andrea Tagliasacchi以及西蒙弗雷澤大學(xué)的Ali Mahdavi-Amiri,于2025年5月29日在arXiv平臺發(fā)布了一篇題為"Cora: Correspondence-aware image editing using few step diffusion"的論文(arXiv:2505.23907v1)。這項研究為使用擴(kuò)散模型進(jìn)行圖像編輯提供了全新的解決方案,特別是在處理非剛性變形、物體修改和內(nèi)容生成等復(fù)雜編輯任務(wù)時,表現(xiàn)出色超群。對于想要深入了解的讀者,可以通過項目網(wǎng)站cora-edit.github.io獲取更多信息。
一、圖像編輯的新挑戰(zhàn):為何我們需要更智能的編輯工具?
想象一下,你有一張可愛的小狗照片,但突然希望它戴上耳機,或者將灰貓變成浣熊,甚至讓靜止的狗狗看起來像在跳躍。這些看似簡單的愿望,在傳統(tǒng)圖像編輯中卻是極具挑戰(zhàn)性的任務(wù)。這正是計算機圖形學(xué)、計算機視覺和視覺特效(VFX)領(lǐng)域中的研究人員們一直在努力解決的問題。
近年來,基于擴(kuò)散模型的少步驟圖像編輯技術(shù)取得了長足進(jìn)步,讓我們能夠快速有效地完成各種編輯,成果令人印象深刻。然而,當(dāng)我們需要進(jìn)行結(jié)構(gòu)性變化,超越簡單的像素顏色修改時(比如非剛性編輯、物體改變),現(xiàn)有的擴(kuò)散模型仍面臨巨大挑戰(zhàn)。
以TurboEdit為例,這種基于噪聲校正的編輯方法常常會產(chǎn)生不必要的紋理偽影,難以保留源圖像的身份特征或重要屬性(比如姿勢)。這是因為這類校正沒有考慮到編輯后的生成圖像與源圖像可能不再在像素級別對齊。就像你試圖給拼圖添加新的圖案,卻發(fā)現(xiàn)新舊拼圖的形狀不匹配一樣。
對于涉及主體顯著變形的編輯(比如讓狗狗從站立變?yōu)樽拢ǔP枰扇碌牟糠?,或者顯示源圖像中不存在的區(qū)域。一些方法嘗試通過主要依賴源圖像的紋理信息來維持主體的身份。雖然這種策略在某種程度上有效,但由于它們將擴(kuò)散模型的中間特征從源圖像注入到自注意力模塊中,它們的編輯往往會將源圖像中的不需要紋理復(fù)制到目標(biāo)圖像中沒有明確對應(yīng)關(guān)系的區(qū)域,就像是把狗狗毛發(fā)的紋理錯誤地貼到了它周圍的背景上。
二、Cora:對應(yīng)感知編輯的創(chuàng)新方法
西蒙弗雷澤大學(xué)的研究團(tuán)隊提出了一種全新的解決方案,將這個方法命名為"Cora"(對應(yīng)感知的縮寫)。Cora的核心技術(shù)貢獻(xiàn)之一是結(jié)合了攜帶紋理信息的鍵(keys)和值(values),同時來自源圖像和目標(biāo)圖像。這使網(wǎng)絡(luò)能夠在需要時生成全新內(nèi)容,同時在源圖像中有相關(guān)信息可用時準(zhǔn)確復(fù)制紋理。
想象一下拼圖游戲:傳統(tǒng)方法只能使用原有拼圖塊(源圖像),而Cora既可以使用原有拼圖塊,也可以創(chuàng)造新的拼圖塊(目標(biāo)圖像生成的內(nèi)容),并且知道在什么情況下該用哪一種。
然而,簡單地結(jié)合源圖像和目標(biāo)圖像的方法(如簡單連接)無法達(dá)到理想效果。研究團(tuán)隊發(fā)現(xiàn),插值注意力圖可以增強性能,同時在生成新內(nèi)容和保留現(xiàn)有內(nèi)容之間提供靈活性和控制力。
為了在保持源圖像結(jié)構(gòu)的同時獲得合適的紋理,還需要通過建立語義對應(yīng)關(guān)系來對齊注意力。因此,研究團(tuán)隊將一種名為DIFT的對應(yīng)技術(shù)融入到他們的方法中。這種技術(shù)可以在源圖像和目標(biāo)圖像之間對齊注意力圖(鍵和值),實現(xiàn)更準(zhǔn)確、更有效的相關(guān)紋理傳輸。
在生成的早期階段,模型的輸出主要是噪聲,這使得建立對應(yīng)關(guān)系變得不可行。因此,在四步擴(kuò)散過程中,團(tuán)隊在最后兩步啟動對應(yīng)過程,此時圖像結(jié)構(gòu)已經(jīng)建立,但紋理仍在完善中。為了對齊源圖像和目標(biāo)圖像的結(jié)構(gòu),研究團(tuán)隊使用匹配算法對查詢(queries)進(jìn)行排列。這種對齊在生成的第一步執(zhí)行,因為圖像結(jié)構(gòu)正是在這個階段形成的。
三、Cora的技術(shù)內(nèi)幕:如何實現(xiàn)對應(yīng)感知的圖像編輯
要理解Cora的工作原理,我們需要先了解擴(kuò)散模型的基礎(chǔ)知識。擴(kuò)散模型的工作方式類似于慢慢擦去一幅畫,然后再一點點重新畫出來。在編輯過程中,我們希望在重畫的過程中引入一些變化,同時保留原畫的某些特性。
### 對應(yīng)感知的潛在校正
傳統(tǒng)的噪聲反演方法將輸入圖像映射到一系列潛在校正項,確保在使用相同文本提示的情況下能完美重建源圖像。然而,當(dāng)編輯需要對源圖像進(jìn)行大幅變形時,這些校正項與生成的圖像在空間上不再對齊,導(dǎo)致嚴(yán)重的偽影。
Cora通過建立源圖像和目標(biāo)圖像之間的對應(yīng)圖來解決這個問題。研究團(tuán)隊使用DIFT特征在兩張圖像之間創(chuàng)建語義匹配,然后根據(jù)這種對應(yīng)關(guān)系對校正項進(jìn)行重新對齊。
想象你在做拼貼畫:傳統(tǒng)方法會強行將原始圖案拼到新位置,而Cora則會先找出原始圖案和新位置之間的對應(yīng)關(guān)系,然后根據(jù)這種對應(yīng)關(guān)系進(jìn)行調(diào)整,使拼貼更加自然。
由于DIFT特征可能存在噪聲和不準(zhǔn)確性,研究團(tuán)隊采用了基于補丁的對應(yīng)方法。他們將DIFT特征分成小的、重疊的補丁,并為每個補丁而非單個像素計算對應(yīng)關(guān)系。由于補丁重疊,多個補丁可能對單個像素的對齊有貢獻(xiàn),最終的對齊校正項通過平均所有重疊補丁的貢獻(xiàn)獲得。
隨著去噪過程的進(jìn)行和特征變得更加精確,補丁的大小會逐漸減小,確保對應(yīng)關(guān)系更加精確,動態(tài)適應(yīng)特征的可靠性變化。
### 對應(yīng)感知的注意力插值
高質(zhì)量的圖像編輯需要在保留源圖像關(guān)鍵方面(如外觀或身份)和引入新元素或修改之間取得平衡。最近的方法通常通過將源圖像的注意力特征注入到目標(biāo)圖像的去噪過程中來實現(xiàn)這一點。
Cora提出了幾種結(jié)合源圖像和目標(biāo)圖像注意力的策略:
首先是互相自注意力(Mutual Self-Attention),使用源圖像的鍵和值在擴(kuò)散模型的自注意力模塊中。這確保了源圖像的上下文(如外觀和身份)得到保留,但限制了模型生成新內(nèi)容的能力。
第二種策略是連接(Concatenation),將源圖像和目標(biāo)圖像的鍵和值連接起來。雖然這使得外觀變化成為可能,但常常無法實現(xiàn)兩種外觀之間的平滑插值,導(dǎo)致不自然的"外觀泄漏"。
第三種方法是線性插值(Linear Interpolation),在源圖像和目標(biāo)圖像的鍵和值之間進(jìn)行線性插值。這種方法在某種程度上有效,但在插值顯著不同的特征時可能會導(dǎo)致不需要的偽影。
為了解決這個限制,研究團(tuán)隊探索了使用球面線性插值(SLERP)來插值鍵和值,考慮到向量方向以實現(xiàn)更平滑的混合。SLERP確保了源圖像和目標(biāo)圖像向量之間的過渡尊重它們的角度關(guān)系,提供更平滑、更可靠的外觀混合。
### 內(nèi)容自適應(yīng)插值
當(dāng)提示需要大幅變形或引入新物體時,不應(yīng)該強制目標(biāo)圖像中的每個像素都與源圖像中的像素匹配。過度強制對齊常常會創(chuàng)建視覺偽影或不正確的紋理傳輸。
為了解決這個問題,研究團(tuán)隊提出了一種兩步策略,在混合之前檢查每個目標(biāo)補丁是否在源圖像中有可靠的對應(yīng)物。
首先是雙向匹配:對于每個源補丁和目標(biāo)補丁,找出它們最相似的補丁。如果源補丁和目標(biāo)補丁互相是對方的最相似補丁,那么它們被認(rèn)為是雙向匹配的,是強對應(yīng)關(guān)系,可以使用用戶定義的權(quán)重進(jìn)行混合。
其次是弱匹配處理:對于未匹配的目標(biāo)補丁,計算其與源中最佳匹配的相似度。如果這個相似度低于某個閾值,那么該補丁被分類為"新",完全由提示引導(dǎo)而非源圖像影響。
### 結(jié)構(gòu)對齊
保留圖像的整體布局(即保留結(jié)構(gòu))在編輯圖像時非常重要。近期的研究表明,擴(kuò)散模型中自注意力模塊的查詢(queries)指定了生成圖像的結(jié)構(gòu)。
Cora的關(guān)鍵思想是,要復(fù)制原始圖像的結(jié)構(gòu)(可能帶有非剛性變形),需要在生成的目標(biāo)中找到源圖像的所有局部結(jié)構(gòu)。研究團(tuán)隊通過源查詢和目標(biāo)查詢之間的匈牙利匹配來實現(xiàn)這一點,這提供了一對一的匹配(即每個目標(biāo)查詢應(yīng)該匹配一個源查詢)。
匈牙利匹配計算最優(yōu)排列,給定一個權(quán)重矩陣,然后對生成查詢進(jìn)行重排序。這個權(quán)重矩陣定義為兩個矩陣的線性插值:一個鼓勵目標(biāo)查詢與源查詢保持相似(源對齊),另一個嘗試懲罰目標(biāo)查詢之間的索引差異(目標(biāo)一致性)。
通過調(diào)整混合權(quán)重,可以控制目標(biāo)圖像的結(jié)構(gòu),在保留源結(jié)構(gòu)和更多地遵循文本提示之間進(jìn)行過渡。這個過程僅限于去噪的第一步,因為這是生成圖像的粗略結(jié)構(gòu)形成的階段。
四、實驗結(jié)果:Cora的編輯能力展示
Cora在各種編輯任務(wù)中展現(xiàn)了其強大的能力。研究團(tuán)隊通過廣泛的實驗證明,在定量和定性評估中,Cora在各種編輯中都能出色地保持結(jié)構(gòu)、紋理和身份,包括姿勢變化、物體添加和紋理精細(xì)化等。
### 質(zhì)量評估結(jié)果
研究團(tuán)隊展示了多種編輯類型的成果,包括非剛性變形(例如讓動物做不同的動作)、插入新物體(例如給貓?zhí)砑佣鷻C)、替換現(xiàn)有物體(例如將貓變成鷹)等。Cora在保持輸入圖像的整體結(jié)構(gòu)的同時,準(zhǔn)確反映了請求的編輯。
與現(xiàn)有方法相比,Cora在保持主體身份和減少偽影方面更加成功。研究團(tuán)隊專注于與TurboEdit和InfEdit等少步驟基線以及MasaCtrl和編輯友好的DDPM反演等多步驟框架進(jìn)行比較。Cora的結(jié)果展現(xiàn)出更少的扭曲和更好的保真度,特別是在仔細(xì)觀察時。
研究團(tuán)隊還將Cora與更多多步驟方法進(jìn)行了比較,包括Prompt-to-Prompt(P2P)、plug-and-play(PnP)、instructpix2pix和StyleDiffusion。盡管Cora使用的步驟顯著減少(只有4步),但其在保留細(xì)節(jié)和遵循編輯方面達(dá)到了可比甚至更優(yōu)的結(jié)果。
### 用戶研究
研究團(tuán)隊進(jìn)行了用戶研究,以更好地評估Cora的性能。參與者被展示原始圖像、編輯提示和來自Cora以及各種基線的輸出。他們根據(jù)與提示的一致性和對源圖像中主體的保留程度對圖像進(jìn)行排名,使用1(最差)到4(最好)的等級。
來自51名參與者的反饋強烈傾向于Cora方法,發(fā)現(xiàn)它優(yōu)于其他少步驟方法,并且可與計算密集型的多步驟技術(shù)相媲美。另外,關(guān)于注意力混合策略的單獨用戶研究表明,對應(yīng)對齊的SLERP插值產(chǎn)生了最佳結(jié)果。
### 消融研究
研究團(tuán)隊還進(jìn)行了消融研究,檢驗Cora框架中各個組件的貢獻(xiàn):
結(jié)構(gòu)對齊:禁用結(jié)構(gòu)對齊會降低背景保真度,雖然編輯的對象仍然與文本提示良好對齊。這證明了結(jié)構(gòu)對齊對于保留場景細(xì)節(jié)至關(guān)重要。
對應(yīng)感知的潛在校正:移除這個模塊會導(dǎo)致編輯區(qū)域出現(xiàn)顯著的扭曲。因此,潛在校正對于產(chǎn)生連貫的編輯至關(guān)重要。
SLERP與LERP比較:雖然從SLERP切換到LERP通常會產(chǎn)生類似的結(jié)果,但在某些具有挑戰(zhàn)性的案例中,SLERP可以產(chǎn)生更一致的過渡。
移除注意力中的對應(yīng)對齊:如研究中所示,這會導(dǎo)致更多偽影,因為對齊有助于強制修改后的內(nèi)容與背景之間的一致性。
五、Cora的未來與局限性
盡管Cora在圖像編輯方面取得了顯著進(jìn)步,但研究團(tuán)隊也坦承其存在一些局限性。例如,文本提示可能會改變圖像的非預(yù)期部分(比如改變汽車顏色可能也會影響背景)。這個問題可以通過使用自動獲取的掩碼(通過交叉注意力和自注意力)來解決。雖然這是一個有前途的方向,但在只有四步去噪的情況下具有挑戰(zhàn)性,可作為未來的研究方向。
另一個潛在的未來方向是將Cora擴(kuò)展到視頻編輯,或評估用于注意力的替代非線性插值技術(shù)。
總體而言,Cora代表了圖像編輯領(lǐng)域的重要進(jìn)步,特別是在處理結(jié)構(gòu)性編輯方面。通過創(chuàng)新的注意力混合和對應(yīng)感知技術(shù),Cora能夠在保持源圖像保真度的同時實現(xiàn)各種編輯,從簡單的外觀變化到復(fù)雜的非剛性變形。這項技術(shù)有望為計算機圖形學(xué)、計算機視覺和視覺特效領(lǐng)域帶來新的可能性,使創(chuàng)作者能夠更輕松、更直觀地實現(xiàn)他們的創(chuàng)意愿景。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學(xué)習(xí)外觀和運動信息,顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報,準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。