av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 ImgEdit:北京大學與兔小貝AI聯(lián)合推出的統(tǒng)一圖像編輯數(shù)據(jù)集與基準測試

ImgEdit:北京大學與兔小貝AI聯(lián)合推出的統(tǒng)一圖像編輯數(shù)據(jù)集與基準測試

2025-05-31 10:05
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-31 10:05 ? 科技行者

這項由北京大學深圳研究生院和兔小貝AI聯(lián)合完成的研究,由楊葉、賀賢毅、李宗劍、林斌、袁盛海、嚴志遠、侯博瀚和袁勵等人共同發(fā)表于2025年5月26日的arXiv預印本(arXiv:2505.20275v1)。該研究的源代碼和數(shù)據(jù)集已在GitHub上公開:https://github.com/PKU-YuanGroup/ImgEdit。

為什么我們需要更好的圖像編輯技術?

想象一下,你拍了一張完美的家庭照片,但背景中出現(xiàn)了一位陌生人;或者你想把照片中穿著藍色襯衫的自己"換裝"成紅色;又或者你想把照片中的雪山背景換成海灘。這些都是我們日常生活中可能面臨的圖像編輯需求。

近年來,人工智能在文本生成圖像方面取得了驚人的進步,各種AI模型可以根據(jù)文字描述創(chuàng)建令人驚嘆的圖像。但是,當談到編輯現(xiàn)有圖像時,情況就不那么樂觀了。特別是開源的圖像編輯模型,它們的表現(xiàn)遠遠落后于那些閉源的商業(yè)產品,如OpenAI的GPT-4o和Google的Gemini-2.0。這種差距主要源于兩個問題:缺乏高質量的訓練數(shù)據(jù)和缺乏全面的評估基準。

就像一位廚師需要優(yōu)質的食材和精準的食譜才能烹飪出美味佳肴,AI模型也需要高質量的數(shù)據(jù)和科學的評估方法才能表現(xiàn)出色。北京大學和兔小貝AI的研究團隊正是針對這一問題,提出了ImgEdit——一個統(tǒng)一的圖像編輯框架,包含高質量數(shù)據(jù)集、先進編輯模型和全面評估基準。

現(xiàn)有圖像編輯數(shù)據(jù)集存在哪些問題?

在深入了解ImgEdit之前,我們先來看看現(xiàn)有圖像編輯數(shù)據(jù)集面臨的三大主要挑戰(zhàn):

首先是數(shù)據(jù)質量和提示設計不佳。想象你在學習一門新語言,但教材充滿錯誤且解釋混亂,這會極大影響你的學習效果。現(xiàn)有的數(shù)據(jù)集收集流程通常從低分辨率圖像開始,使用開源大語言模型生成可能包含知識偏見的提示,并使用低保真算法合成編輯后的圖像對。這就像用劣質食材和不精確的食譜嘗試做一道復雜的菜肴,結果可想而知。

其次是對復雜編輯任務的支持不足?,F(xiàn)有數(shù)據(jù)集很少包含需要保持身份一致性的編輯類型(例如虛擬試穿),或者同時操作多個對象,或者跨多輪交互的編輯任務。這就像一本烹飪書只教你做簡單的炒雞蛋,卻不告訴你如何準備一頓多道菜的正式晚餐。

第三是評估方法的局限性。現(xiàn)有的評估框架缺乏多樣化或合理的評估維度,沒有根據(jù)任務難度進行分層,過于強調編輯類別的數(shù)量,而對評估維度或測量準確性的關注不足。這就像評價一道菜僅僅看它的外觀,而忽略了味道、香氣和營養(yǎng)價值。

ImgEdit如何解決這些問題?

ImgEdit框架包含四個核心組件:自動化數(shù)據(jù)構建流程、大規(guī)模編輯數(shù)據(jù)集、先進的編輯模型以及全面的評估基準。讓我們一一了解這些組件如何協(xié)同工作,就像一個精心設計的廚房系統(tǒng),從食材采購到烹飪技巧再到品鑒標準,形成一個完整的美食創(chuàng)作流程。

### 高質量數(shù)據(jù)集的自動化構建流程

首先,研究團隊開發(fā)了一個自動化流程來保證數(shù)據(jù)質量。這個流程就像一條精心設計的生產線,每一步都確保最終產品的質量。

第一步是數(shù)據(jù)準備。團隊選擇了LAION-Aesthetics作為主要數(shù)據(jù)源,因為與其他數(shù)據(jù)集相比,它提供了更多樣化的場景、更高的分辨率和更全面的對象類別。他們只保留了短邊超過1280像素且美學評分高于4.75的圖像,篩選出約60萬張高質量圖像。這就像挑選最新鮮的食材,確保烹飪的基礎是優(yōu)質的。

接下來,他們使用GPT-4o生成簡潔的圖像描述,并提取可編輯的對象和背景名詞。然后,每個候選實體被一個開放詞匯檢測器定位,并使用SAM2將邊界框細化為分割掩碼。這就像廚師精確標記每種食材的位置和用量,為后續(xù)處理做好準備。

由于檢測和分割并不完美,團隊對每個對象的掩碼進行裁剪,計算與對象名稱的相似度和面積比例。相似度低或面積可忽略的區(qū)域被丟棄,確保剩余目標被準確識別并在視覺上足夠顯著。這就像在烹飪前去除食材中的雜質和不新鮮的部分。

指令生成階段,團隊為GPT-4o提供原始圖像標題、編輯類型、邊界框和目標對象作為條件信息。由于精確定位目標對象對成功編輯至關重要,他們指示語言模型在編輯指令中嵌入對象的位置和大小。這就像給廚師提供詳細的烹飪步驟,包括每種調料應該在什么時候加入,以及如何掌握火候。

在圖像處理工作流程中,團隊選擇了最先進的生成模型,如FLUX和SDXL作為基礎模型。為實現(xiàn)精確和可控的編輯,他們使用了插件如IP-Adapters、ControlNet和Canny/Depth LoRA。根據(jù)這些模型和組件,他們構建了針對每個編輯場景的數(shù)據(jù)制作流程。這就像根據(jù)不同菜肴選擇合適的烹飪工具和方法。

在后處理階段,團隊使用GPT-4o對每對編輯進行精確篩選,基于特定于相應編輯類型的提示引導評分標準,為每對提供詳細分數(shù)和簡短理由,使用戶能夠根據(jù)需求選擇子集。這就像專業(yè)美食評論家對成品進行評價,提供客觀的反饋。

### ImgEdit數(shù)據(jù)集的特點與創(chuàng)新

通過這一精心設計的流程,ImgEdit數(shù)據(jù)集包含120萬對高質量的圖像編輯對,覆蓋13種編輯類別,其中包括11萬個多輪示例。與現(xiàn)有數(shù)據(jù)集相比,ImgEdit提供了更豐富的語義、更詳細的提示、更高的分辨率、更準確的編輯效果和整體更優(yōu)的視覺保真度。

ImgEdit數(shù)據(jù)集的單輪任務分為四類:局部編輯、全局編輯、視覺編輯和混合編輯。

局部編輯包括添加、移除、替換、改變屬性、改變動作和對象提取等操作。特別是對象提取任務(例如"將貓?zhí)崛〉桨咨尘吧?)能夠在保持身份一致性的同時將特定主體從復雜場景中分離出來,這在許多設計流程中非常有價值,目前僅在GPT-4o-image中可用。

全局編輯包括背景替換和風格或色調轉換。視覺編輯涉及使用參考圖像編輯圖像?;旌暇庉嫲趩蝹€指令中應用于多個對象的兩個局部編輯操作,例如"添加圍巾并將貓的毛色改為白色"。

多輪編輯任務設計為包括內容理解、內容記憶和版本回溯等編輯任務。內容記憶涉及對話早期引入的全局約束,如果初始指令規(guī)定"所有生成必須具有木質紋理",后續(xù)輪次不需要重述此要求,但仍必須遵守。內容理解是指解釋依賴代詞或省略主語的后續(xù)指令的能力。版本回溯表示基于編輯結果的早期版本進行編輯的能力,例如"撤消上一次更改..."。

ImgEdit數(shù)據(jù)集的平均短邊分辨率為1280像素,遠高于大多數(shù)競爭數(shù)據(jù)集。在提示多樣性方面,ImgEdit包含8.7k個獨特詞匯。為評估編輯準確性,研究團隊從每個數(shù)據(jù)集隨機抽樣1000個實例,并用GPT-4o進行評估,ImgEdit獲得了最高分數(shù)。

### ImgEdit-E1:基于數(shù)據(jù)集訓練的先進編輯模型

為驗證數(shù)據(jù)集的有效性,研究團隊在ImgEdit上訓練了ImgEdit-E1模型。該模型集成了視覺語言模型、視覺編碼器和Diffusion-in-Transformer骨干網絡。編輯指令和原始圖像被共同輸入到視覺語言模型中,同時圖像還被視覺編碼器處理。視覺語言模型的隱藏狀態(tài)和視覺編碼器的視覺特征被分別投影并連接,形成DiT的文本分支輸入。

訓練分兩個階段進行,首先優(yōu)化MLP,然后聯(lián)合微調FLUX和MLP。這種方法使ImgEdit-E1在多個圖像編輯任務上的表現(xiàn)超過了現(xiàn)有開源模型,突顯了ImgEdit數(shù)據(jù)集和模型設計的價值。

### ImgEdit-Bench:全面的評估基準

最后,研究團隊提出了ImgEdit-Bench,一個設計用于評估圖像編輯性能的基準,從指令遵循、編輯質量和細節(jié)保留三個維度進行評估。它包括三個關鍵組件:

基本編輯套件測試在多種任務上的指令遵循、編輯質量和細節(jié)保留能力;理解-定位-編輯(UGE)套件通過具有挑戰(zhàn)性的指令(如空間推理和多對象目標)和復雜場景(如多實例布局或偽裝對象)增加任務復雜性;多輪編輯套件設計用于評估內容理解、內容記憶和版本回溯能力。

為促進大規(guī)模評估,研究團隊訓練了ImgEdit-Judge,一個評估模型,其偏好與人類判斷密切一致,達到近70%的一致率,大幅超過原始Qwen2.5-VL。

ImgEdit的評估結果告訴我們什么?

研究團隊對一系列圖像編輯模型進行了全面評估,包括閉源模型GPT-4o-Image和開源模型Step1X-Edit、Ultra-Edit、AnySD、MagicBrush、InstructPix2Pix以及ImgEdit-E1。評估結果揭示了三個關鍵因素影響編輯模型性能:

指令理解能力是指模型理解編輯指令的能力,這在很大程度上取決于文本編碼器,并強烈影響編輯性能。使用T5或CLIP等編碼器的傳統(tǒng)模型可以處理簡單任務(如風格轉換),但在復雜的區(qū)域特定任務上表現(xiàn)不佳。ImgEdit-E1和Step1X-Edit大幅優(yōu)于其他開源模型,強調了更強大的文本編碼器和更豐富的文本特征的重要性。

定位能力是指準確識別和定位需要編輯的特定區(qū)域的能力,這取決于理解指令的能力和視覺感知能力。ImgEdit-E1在需要精確定位的任務(如屬性改變和對象提?。┥媳憩F(xiàn)優(yōu)于現(xiàn)有開源編輯模型,突顯了提示中空間信息的重要性。

編輯能力是指跨編輯操作進行泛化的能力,主要取決于訓練數(shù)據(jù)集的質量、大小和多樣性。其他模型在對象提取任務上表現(xiàn)不佳,包括GPT-4o,再次確認了全面、高質量編輯數(shù)據(jù)集的必要性。

對于多輪任務,GPT-4o-Image和Gemini-2.0-flash展示了兩輪內的版本回溯能力。這兩個模型都具有最小的內容記憶和內容理解能力,可能偶爾對某些引用產生誤解或難以在某些情況下保留前提。總體而言,這些模型對多輪編輯的支持不足。

ImgEdit如何改變圖像編輯的未來?

ImgEdit通過提供高質量數(shù)據(jù)集、強大編輯方法和全面評估基準,推動了圖像編輯領域的進步。這項工作幫助縮小了開源方法和最先進閉源模型之間的差距,推動了整個圖像編輯領域的發(fā)展。

對普通用戶而言,這意味著在不久的將來,我們可能會看到更多功能強大且可自由訪問的圖像編輯工具,使圖像編輯變得更加直觀、精確和高效。無論是專業(yè)設計師還是普通用戶,都能夠通過簡單的文本指令對圖像進行精確控制,從簡單的顏色調整到復雜的多對象編輯,再到多輪交互式編輯過程。

ImgEdit的另一個重要貢獻是建立了評估圖像編輯模型的新標準。通過考慮指令遵循、編輯質量和細節(jié)保留等多個維度,ImgEdit-Bench提供了一個更全面、更公平的評估框架,這對于推動技術進步和指導未來研究方向至關重要。

當然,這項研究也有其局限性。盡管ImgEdit-E1在許多任務上表現(xiàn)優(yōu)于現(xiàn)有開源模型,但與閉源模型如GPT-4o-Image相比仍有差距。這表明在數(shù)據(jù)質量、模型架構和訓練方法等方面還有改進空間。未來的研究可能會探索更先進的模型架構、更多樣化的數(shù)據(jù)集和更有效的訓練策略,進一步縮小這一差距。

總的來說,ImgEdit代表了圖像編輯領域的一個重要里程碑,為建立更強大、更易用的圖像編輯系統(tǒng)奠定了基礎。隨著技術的不斷發(fā)展,我們可以期待在不久的將來看到更加智能、直觀和強大的圖像編輯工具出現(xiàn),使創(chuàng)意表達變得更加容易和有趣。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-