這項(xiàng)由北京大學(xué)深圳研究生院和兔小貝AI聯(lián)合完成的研究,由楊葉、賀賢毅、李宗劍、林斌、袁盛海、嚴(yán)志遠(yuǎn)、侯博瀚和袁勵(lì)等人共同發(fā)表于2025年5月26日的arXiv預(yù)印本(arXiv:2505.20275v1)。該研究的源代碼和數(shù)據(jù)集已在GitHub上公開:https://github.com/PKU-YuanGroup/ImgEdit。
為什么我們需要更好的圖像編輯技術(shù)?
想象一下,你拍了一張完美的家庭照片,但背景中出現(xiàn)了一位陌生人;或者你想把照片中穿著藍(lán)色襯衫的自己"換裝"成紅色;又或者你想把照片中的雪山背景換成海灘。這些都是我們?nèi)粘I钪锌赡苊媾R的圖像編輯需求。
近年來,人工智能在文本生成圖像方面取得了驚人的進(jìn)步,各種AI模型可以根據(jù)文字描述創(chuàng)建令人驚嘆的圖像。但是,當(dāng)談到編輯現(xiàn)有圖像時(shí),情況就不那么樂觀了。特別是開源的圖像編輯模型,它們的表現(xiàn)遠(yuǎn)遠(yuǎn)落后于那些閉源的商業(yè)產(chǎn)品,如OpenAI的GPT-4o和Google的Gemini-2.0。這種差距主要源于兩個(gè)問題:缺乏高質(zhì)量的訓(xùn)練數(shù)據(jù)和缺乏全面的評(píng)估基準(zhǔn)。
就像一位廚師需要優(yōu)質(zhì)的食材和精準(zhǔn)的食譜才能烹飪出美味佳肴,AI模型也需要高質(zhì)量的數(shù)據(jù)和科學(xué)的評(píng)估方法才能表現(xiàn)出色。北京大學(xué)和兔小貝AI的研究團(tuán)隊(duì)正是針對(duì)這一問題,提出了ImgEdit——一個(gè)統(tǒng)一的圖像編輯框架,包含高質(zhì)量數(shù)據(jù)集、先進(jìn)編輯模型和全面評(píng)估基準(zhǔn)。
現(xiàn)有圖像編輯數(shù)據(jù)集存在哪些問題?
在深入了解ImgEdit之前,我們先來看看現(xiàn)有圖像編輯數(shù)據(jù)集面臨的三大主要挑戰(zhàn):
首先是數(shù)據(jù)質(zhì)量和提示設(shè)計(jì)不佳。想象你在學(xué)習(xí)一門新語言,但教材充滿錯(cuò)誤且解釋混亂,這會(huì)極大影響你的學(xué)習(xí)效果。現(xiàn)有的數(shù)據(jù)集收集流程通常從低分辨率圖像開始,使用開源大語言模型生成可能包含知識(shí)偏見的提示,并使用低保真算法合成編輯后的圖像對(duì)。這就像用劣質(zhì)食材和不精確的食譜嘗試做一道復(fù)雜的菜肴,結(jié)果可想而知。
其次是對(duì)復(fù)雜編輯任務(wù)的支持不足?,F(xiàn)有數(shù)據(jù)集很少包含需要保持身份一致性的編輯類型(例如虛擬試穿),或者同時(shí)操作多個(gè)對(duì)象,或者跨多輪交互的編輯任務(wù)。這就像一本烹飪書只教你做簡單的炒雞蛋,卻不告訴你如何準(zhǔn)備一頓多道菜的正式晚餐。
第三是評(píng)估方法的局限性?,F(xiàn)有的評(píng)估框架缺乏多樣化或合理的評(píng)估維度,沒有根據(jù)任務(wù)難度進(jìn)行分層,過于強(qiáng)調(diào)編輯類別的數(shù)量,而對(duì)評(píng)估維度或測(cè)量準(zhǔn)確性的關(guān)注不足。這就像評(píng)價(jià)一道菜僅僅看它的外觀,而忽略了味道、香氣和營養(yǎng)價(jià)值。
ImgEdit如何解決這些問題?
ImgEdit框架包含四個(gè)核心組件:自動(dòng)化數(shù)據(jù)構(gòu)建流程、大規(guī)模編輯數(shù)據(jù)集、先進(jìn)的編輯模型以及全面的評(píng)估基準(zhǔn)。讓我們一一了解這些組件如何協(xié)同工作,就像一個(gè)精心設(shè)計(jì)的廚房系統(tǒng),從食材采購到烹飪技巧再到品鑒標(biāo)準(zhǔn),形成一個(gè)完整的美食創(chuàng)作流程。
### 高質(zhì)量數(shù)據(jù)集的自動(dòng)化構(gòu)建流程
首先,研究團(tuán)隊(duì)開發(fā)了一個(gè)自動(dòng)化流程來保證數(shù)據(jù)質(zhì)量。這個(gè)流程就像一條精心設(shè)計(jì)的生產(chǎn)線,每一步都確保最終產(chǎn)品的質(zhì)量。
第一步是數(shù)據(jù)準(zhǔn)備。團(tuán)隊(duì)選擇了LAION-Aesthetics作為主要數(shù)據(jù)源,因?yàn)榕c其他數(shù)據(jù)集相比,它提供了更多樣化的場景、更高的分辨率和更全面的對(duì)象類別。他們只保留了短邊超過1280像素且美學(xué)評(píng)分高于4.75的圖像,篩選出約60萬張高質(zhì)量圖像。這就像挑選最新鮮的食材,確保烹飪的基礎(chǔ)是優(yōu)質(zhì)的。
接下來,他們使用GPT-4o生成簡潔的圖像描述,并提取可編輯的對(duì)象和背景名詞。然后,每個(gè)候選實(shí)體被一個(gè)開放詞匯檢測(cè)器定位,并使用SAM2將邊界框細(xì)化為分割掩碼。這就像廚師精確標(biāo)記每種食材的位置和用量,為后續(xù)處理做好準(zhǔn)備。
由于檢測(cè)和分割并不完美,團(tuán)隊(duì)對(duì)每個(gè)對(duì)象的掩碼進(jìn)行裁剪,計(jì)算與對(duì)象名稱的相似度和面積比例。相似度低或面積可忽略的區(qū)域被丟棄,確保剩余目標(biāo)被準(zhǔn)確識(shí)別并在視覺上足夠顯著。這就像在烹飪前去除食材中的雜質(zhì)和不新鮮的部分。
指令生成階段,團(tuán)隊(duì)為GPT-4o提供原始圖像標(biāo)題、編輯類型、邊界框和目標(biāo)對(duì)象作為條件信息。由于精確定位目標(biāo)對(duì)象對(duì)成功編輯至關(guān)重要,他們指示語言模型在編輯指令中嵌入對(duì)象的位置和大小。這就像給廚師提供詳細(xì)的烹飪步驟,包括每種調(diào)料應(yīng)該在什么時(shí)候加入,以及如何掌握火候。
在圖像處理工作流程中,團(tuán)隊(duì)選擇了最先進(jìn)的生成模型,如FLUX和SDXL作為基礎(chǔ)模型。為實(shí)現(xiàn)精確和可控的編輯,他們使用了插件如IP-Adapters、ControlNet和Canny/Depth LoRA。根據(jù)這些模型和組件,他們構(gòu)建了針對(duì)每個(gè)編輯場景的數(shù)據(jù)制作流程。這就像根據(jù)不同菜肴選擇合適的烹飪工具和方法。
在后處理階段,團(tuán)隊(duì)使用GPT-4o對(duì)每對(duì)編輯進(jìn)行精確篩選,基于特定于相應(yīng)編輯類型的提示引導(dǎo)評(píng)分標(biāo)準(zhǔn),為每對(duì)提供詳細(xì)分?jǐn)?shù)和簡短理由,使用戶能夠根據(jù)需求選擇子集。這就像專業(yè)美食評(píng)論家對(duì)成品進(jìn)行評(píng)價(jià),提供客觀的反饋。
### ImgEdit數(shù)據(jù)集的特點(diǎn)與創(chuàng)新
通過這一精心設(shè)計(jì)的流程,ImgEdit數(shù)據(jù)集包含120萬對(duì)高質(zhì)量的圖像編輯對(duì),覆蓋13種編輯類別,其中包括11萬個(gè)多輪示例。與現(xiàn)有數(shù)據(jù)集相比,ImgEdit提供了更豐富的語義、更詳細(xì)的提示、更高的分辨率、更準(zhǔn)確的編輯效果和整體更優(yōu)的視覺保真度。
ImgEdit數(shù)據(jù)集的單輪任務(wù)分為四類:局部編輯、全局編輯、視覺編輯和混合編輯。
局部編輯包括添加、移除、替換、改變屬性、改變動(dòng)作和對(duì)象提取等操作。特別是對(duì)象提取任務(wù)(例如"將貓?zhí)崛〉桨咨尘吧?)能夠在保持身份一致性的同時(shí)將特定主體從復(fù)雜場景中分離出來,這在許多設(shè)計(jì)流程中非常有價(jià)值,目前僅在GPT-4o-image中可用。
全局編輯包括背景替換和風(fēng)格或色調(diào)轉(zhuǎn)換。視覺編輯涉及使用參考圖像編輯圖像?;旌暇庉嫲趩蝹€(gè)指令中應(yīng)用于多個(gè)對(duì)象的兩個(gè)局部編輯操作,例如"添加圍巾并將貓的毛色改為白色"。
多輪編輯任務(wù)設(shè)計(jì)為包括內(nèi)容理解、內(nèi)容記憶和版本回溯等編輯任務(wù)。內(nèi)容記憶涉及對(duì)話早期引入的全局約束,如果初始指令規(guī)定"所有生成必須具有木質(zhì)紋理",后續(xù)輪次不需要重述此要求,但仍必須遵守。內(nèi)容理解是指解釋依賴代詞或省略主語的后續(xù)指令的能力。版本回溯表示基于編輯結(jié)果的早期版本進(jìn)行編輯的能力,例如"撤消上一次更改..."。
ImgEdit數(shù)據(jù)集的平均短邊分辨率為1280像素,遠(yuǎn)高于大多數(shù)競爭數(shù)據(jù)集。在提示多樣性方面,ImgEdit包含8.7k個(gè)獨(dú)特詞匯。為評(píng)估編輯準(zhǔn)確性,研究團(tuán)隊(duì)從每個(gè)數(shù)據(jù)集隨機(jī)抽樣1000個(gè)實(shí)例,并用GPT-4o進(jìn)行評(píng)估,ImgEdit獲得了最高分?jǐn)?shù)。
### ImgEdit-E1:基于數(shù)據(jù)集訓(xùn)練的先進(jìn)編輯模型
為驗(yàn)證數(shù)據(jù)集的有效性,研究團(tuán)隊(duì)在ImgEdit上訓(xùn)練了ImgEdit-E1模型。該模型集成了視覺語言模型、視覺編碼器和Diffusion-in-Transformer骨干網(wǎng)絡(luò)。編輯指令和原始圖像被共同輸入到視覺語言模型中,同時(shí)圖像還被視覺編碼器處理。視覺語言模型的隱藏狀態(tài)和視覺編碼器的視覺特征被分別投影并連接,形成DiT的文本分支輸入。
訓(xùn)練分兩個(gè)階段進(jìn)行,首先優(yōu)化MLP,然后聯(lián)合微調(diào)FLUX和MLP。這種方法使ImgEdit-E1在多個(gè)圖像編輯任務(wù)上的表現(xiàn)超過了現(xiàn)有開源模型,突顯了ImgEdit數(shù)據(jù)集和模型設(shè)計(jì)的價(jià)值。
### ImgEdit-Bench:全面的評(píng)估基準(zhǔn)
最后,研究團(tuán)隊(duì)提出了ImgEdit-Bench,一個(gè)設(shè)計(jì)用于評(píng)估圖像編輯性能的基準(zhǔn),從指令遵循、編輯質(zhì)量和細(xì)節(jié)保留三個(gè)維度進(jìn)行評(píng)估。它包括三個(gè)關(guān)鍵組件:
基本編輯套件測(cè)試在多種任務(wù)上的指令遵循、編輯質(zhì)量和細(xì)節(jié)保留能力;理解-定位-編輯(UGE)套件通過具有挑戰(zhàn)性的指令(如空間推理和多對(duì)象目標(biāo))和復(fù)雜場景(如多實(shí)例布局或偽裝對(duì)象)增加任務(wù)復(fù)雜性;多輪編輯套件設(shè)計(jì)用于評(píng)估內(nèi)容理解、內(nèi)容記憶和版本回溯能力。
為促進(jìn)大規(guī)模評(píng)估,研究團(tuán)隊(duì)訓(xùn)練了ImgEdit-Judge,一個(gè)評(píng)估模型,其偏好與人類判斷密切一致,達(dá)到近70%的一致率,大幅超過原始Qwen2.5-VL。
ImgEdit的評(píng)估結(jié)果告訴我們什么?
研究團(tuán)隊(duì)對(duì)一系列圖像編輯模型進(jìn)行了全面評(píng)估,包括閉源模型GPT-4o-Image和開源模型Step1X-Edit、Ultra-Edit、AnySD、MagicBrush、InstructPix2Pix以及ImgEdit-E1。評(píng)估結(jié)果揭示了三個(gè)關(guān)鍵因素影響編輯模型性能:
指令理解能力是指模型理解編輯指令的能力,這在很大程度上取決于文本編碼器,并強(qiáng)烈影響編輯性能。使用T5或CLIP等編碼器的傳統(tǒng)模型可以處理簡單任務(wù)(如風(fēng)格轉(zhuǎn)換),但在復(fù)雜的區(qū)域特定任務(wù)上表現(xiàn)不佳。ImgEdit-E1和Step1X-Edit大幅優(yōu)于其他開源模型,強(qiáng)調(diào)了更強(qiáng)大的文本編碼器和更豐富的文本特征的重要性。
定位能力是指準(zhǔn)確識(shí)別和定位需要編輯的特定區(qū)域的能力,這取決于理解指令的能力和視覺感知能力。ImgEdit-E1在需要精確定位的任務(wù)(如屬性改變和對(duì)象提?。┥媳憩F(xiàn)優(yōu)于現(xiàn)有開源編輯模型,突顯了提示中空間信息的重要性。
編輯能力是指跨編輯操作進(jìn)行泛化的能力,主要取決于訓(xùn)練數(shù)據(jù)集的質(zhì)量、大小和多樣性。其他模型在對(duì)象提取任務(wù)上表現(xiàn)不佳,包括GPT-4o,再次確認(rèn)了全面、高質(zhì)量編輯數(shù)據(jù)集的必要性。
對(duì)于多輪任務(wù),GPT-4o-Image和Gemini-2.0-flash展示了兩輪內(nèi)的版本回溯能力。這兩個(gè)模型都具有最小的內(nèi)容記憶和內(nèi)容理解能力,可能偶爾對(duì)某些引用產(chǎn)生誤解或難以在某些情況下保留前提。總體而言,這些模型對(duì)多輪編輯的支持不足。
ImgEdit如何改變圖像編輯的未來?
ImgEdit通過提供高質(zhì)量數(shù)據(jù)集、強(qiáng)大編輯方法和全面評(píng)估基準(zhǔn),推動(dòng)了圖像編輯領(lǐng)域的進(jìn)步。這項(xiàng)工作幫助縮小了開源方法和最先進(jìn)閉源模型之間的差距,推動(dòng)了整個(gè)圖像編輯領(lǐng)域的發(fā)展。
對(duì)普通用戶而言,這意味著在不久的將來,我們可能會(huì)看到更多功能強(qiáng)大且可自由訪問的圖像編輯工具,使圖像編輯變得更加直觀、精確和高效。無論是專業(yè)設(shè)計(jì)師還是普通用戶,都能夠通過簡單的文本指令對(duì)圖像進(jìn)行精確控制,從簡單的顏色調(diào)整到復(fù)雜的多對(duì)象編輯,再到多輪交互式編輯過程。
ImgEdit的另一個(gè)重要貢獻(xiàn)是建立了評(píng)估圖像編輯模型的新標(biāo)準(zhǔn)。通過考慮指令遵循、編輯質(zhì)量和細(xì)節(jié)保留等多個(gè)維度,ImgEdit-Bench提供了一個(gè)更全面、更公平的評(píng)估框架,這對(duì)于推動(dòng)技術(shù)進(jìn)步和指導(dǎo)未來研究方向至關(guān)重要。
當(dāng)然,這項(xiàng)研究也有其局限性。盡管ImgEdit-E1在許多任務(wù)上表現(xiàn)優(yōu)于現(xiàn)有開源模型,但與閉源模型如GPT-4o-Image相比仍有差距。這表明在數(shù)據(jù)質(zhì)量、模型架構(gòu)和訓(xùn)練方法等方面還有改進(jìn)空間。未來的研究可能會(huì)探索更先進(jìn)的模型架構(gòu)、更多樣化的數(shù)據(jù)集和更有效的訓(xùn)練策略,進(jìn)一步縮小這一差距。
總的來說,ImgEdit代表了圖像編輯領(lǐng)域的一個(gè)重要里程碑,為建立更強(qiáng)大、更易用的圖像編輯系統(tǒng)奠定了基礎(chǔ)。隨著技術(shù)的不斷發(fā)展,我們可以期待在不久的將來看到更加智能、直觀和強(qiáng)大的圖像編輯工具出現(xiàn),使創(chuàng)意表達(dá)變得更加容易和有趣。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對(duì)話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。