這項(xiàng)由新加坡國(guó)立大學(xué)的黃世杰、宋怡仁等研究者聯(lián)合上海交通大學(xué)、北京郵電大學(xué)以及字節(jié)跳動(dòng)公司共同完成的創(chuàng)新研究,于2025年2月發(fā)表在計(jì)算機(jī)視覺(jué)領(lǐng)域的頂級(jí)會(huì)議arXiv上。感興趣的讀者可以通過(guò)https://github.com/showlab/PhotoDoodle獲取完整代碼和數(shù)據(jù)集,或通過(guò)論文編號(hào)arXiv:2502.14397v2訪問(wèn)原文。
在我們?nèi)粘I钪?,?jīng)常能看到一些令人驚嘆的照片涂鴉作品:原本普通的照片被藝術(shù)家巧妙地加上了可愛(ài)的小怪獸、夢(mèng)幻的光效或者手繪線條,整張圖片瞬間變得生動(dòng)有趣。這種被稱為"照片涂鴉"的藝術(shù)形式看似簡(jiǎn)單,實(shí)際上需要藝術(shù)家具備深厚的功底——他們不僅要保持原照片的完整性,還要讓新添加的元素看起來(lái)渾然天成,仿佛本就屬于那個(gè)場(chǎng)景。
然而,傳統(tǒng)的人工智能圖像編輯技術(shù)在面對(duì)這種藝術(shù)創(chuàng)作時(shí)卻顯得力不從心?,F(xiàn)有的方法要么會(huì)意外改變照片的背景,要么需要用戶精確標(biāo)出要修改的區(qū)域,要么就是完全學(xué)不會(huì)藝術(shù)家的獨(dú)特風(fēng)格。這就像讓一個(gè)從未學(xué)過(guò)烹飪的人按照復(fù)雜食譜做菜一樣困難——即使有詳細(xì)的步驟說(shuō)明,最終的成品往往差強(qiáng)人意。
面對(duì)這個(gè)挑戰(zhàn),研究團(tuán)隊(duì)提出了一個(gè)名為PhotoDoodle的全新框架。這個(gè)系統(tǒng)最令人驚嘆的地方在于,它只需要看30到50對(duì)"修改前后"的圖片對(duì)比,就能準(zhǔn)確掌握某位藝術(shù)家的創(chuàng)作風(fēng)格和技巧。這就好比一個(gè)聰明的學(xué)徒,僅僅觀察師傅工作幾十次,就能學(xué)會(huì)師傅獨(dú)特的手藝秘訣。
更具體地說(shuō),PhotoDoodle采用了一種"兩步走"的學(xué)習(xí)策略。在第一階段,研究團(tuán)隊(duì)先用350萬(wàn)張圖片訓(xùn)練出一個(gè)名為OmniEditor的"通用編輯師",讓它掌握基本的圖像編輯能力,就像先讓學(xué)徒掌握基礎(chǔ)技能一樣。在第二階段,他們?cè)儆肊ditLoRA技術(shù)對(duì)這個(gè)通用編輯師進(jìn)行"私人定制"訓(xùn)練,讓它學(xué)會(huì)特定藝術(shù)家的獨(dú)特風(fēng)格。
這個(gè)過(guò)程中最關(guān)鍵的創(chuàng)新是"位置編碼復(fù)用機(jī)制"。簡(jiǎn)單來(lái)說(shuō),就是讓AI在修改圖片時(shí)始終記住原圖每個(gè)位置的"坐標(biāo)",確保新添加的內(nèi)容能夠準(zhǔn)確地"坐"在正確的位置上,而不會(huì)影響到其他地方。這就像一個(gè)經(jīng)驗(yàn)豐富的裝修師傅,在房間里添加新家具時(shí),總能確保不碰壞原有的裝飾。
一、從現(xiàn)實(shí)需求出發(fā):為什么照片涂鴉這么難做好
想象你正在瀏覽社交媒體時(shí)看到一張令人印象深刻的照片:一只可愛(ài)的藍(lán)色小怪獸正在擁抱畫面中的女孩,或者建筑物周圍環(huán)繞著絢麗的魔法光效。這些并不是現(xiàn)實(shí)中拍攝的照片,而是藝術(shù)家通過(guò)巧妙的后期處理創(chuàng)作出來(lái)的照片涂鴉作品。
照片涂鴉這門藝術(shù)看似簡(jiǎn)單,實(shí)際上對(duì)技術(shù)要求極高。藝術(shù)家需要在保持原照片完整性的前提下,巧妙地融入各種裝飾元素。這個(gè)過(guò)程就像在一幅已經(jīng)完成的油畫上繼續(xù)作畫,既要讓新添加的內(nèi)容與原畫風(fēng)格協(xié)調(diào),又不能破壞原畫的構(gòu)圖和色彩平衡。
傳統(tǒng)的手工創(chuàng)作方式雖然能產(chǎn)生精美的作品,但存在明顯的局限性。每一張照片涂鴉都需要藝術(shù)家花費(fèi)大量時(shí)間精心制作,從構(gòu)思創(chuàng)意到具體實(shí)施,往往需要幾個(gè)小時(shí)甚至更長(zhǎng)時(shí)間。這種高昂的時(shí)間成本使得大規(guī)模制作變得不現(xiàn)實(shí),也限制了這種藝術(shù)形式的普及和發(fā)展。
現(xiàn)有的AI圖像編輯技術(shù)雖然在某些方面表現(xiàn)出色,但在面對(duì)照片涂鴉這種精細(xì)化任務(wù)時(shí)卻遇到了三個(gè)主要難題。首先是"和諧融合"問(wèn)題——新添加的元素必須在透視角度和語(yǔ)義內(nèi)容上都與原圖完美匹配,不能顯得突兀或不協(xié)調(diào)。其次是"背景保護(hù)"問(wèn)題——系統(tǒng)必須確保在添加新元素時(shí)不會(huì)意外改變?cè)瓐D的其他部分,比如改變色彩分布或破壞紋理細(xì)節(jié)。最后是"風(fēng)格學(xué)習(xí)"問(wèn)題——系統(tǒng)需要從有限的樣本中快速準(zhǔn)確地學(xué)會(huì)藝術(shù)家的獨(dú)特創(chuàng)作風(fēng)格。
目前市面上的圖像編輯方法大致分為兩類。第一類是全局編輯方法,比如Prompt-to-Prompt和InstructP2P,這些方法雖然能夠?qū)崿F(xiàn)一致的風(fēng)格轉(zhuǎn)換,但往往會(huì)在局部修改時(shí)無(wú)意中改變背景內(nèi)容。這就像用大刷子畫畫,雖然效率高,但很難做精細(xì)工作。第二類是基于局部修飾的方法,比如MagicBrush和各種修復(fù)技術(shù),這些方法雖然能夠保護(hù)未選中的區(qū)域,但要求用戶精確地標(biāo)出需要修改的像素區(qū)域,這對(duì)于自動(dòng)化的照片涂鴉創(chuàng)作來(lái)說(shuō)是不現(xiàn)實(shí)的。
正是基于這些現(xiàn)實(shí)挑戰(zhàn),研究團(tuán)隊(duì)決定開(kāi)發(fā)一個(gè)全新的解決方案。他們的目標(biāo)是創(chuàng)建一個(gè)既能學(xué)會(huì)藝術(shù)家獨(dú)特風(fēng)格,又能自動(dòng)進(jìn)行精確編輯的智能系統(tǒng)。
二、核心技術(shù)架構(gòu):像師傅帶徒弟一樣的兩階段訓(xùn)練
PhotoDoodle的核心設(shè)計(jì)理念就像傳統(tǒng)手工藝的師傅帶徒弟模式。在這個(gè)過(guò)程中,徒弟需要先掌握基本功,然后再學(xué)習(xí)師傅的獨(dú)門秘籍。
整個(gè)系統(tǒng)的架構(gòu)建立在擴(kuò)散變換器(DiT)的基礎(chǔ)上。如果把傳統(tǒng)的圖像生成比作用畫筆一筆一筆地作畫,那么擴(kuò)散變換器就像是從一團(tuán)迷霧中逐漸顯現(xiàn)出清晰圖像的魔法過(guò)程。具體來(lái)說(shuō),這個(gè)過(guò)程是從隨機(jī)噪聲開(kāi)始,通過(guò)多次迭代逐步去除噪聲,最終生成清晰的目標(biāo)圖像。
在PhotoDoodle的設(shè)計(jì)中,系統(tǒng)需要同時(shí)處理三種不同類型的信息:帶噪聲的圖像令牌、來(lái)源圖像的條件令牌,以及文本指令令牌。這就像一個(gè)經(jīng)驗(yàn)豐富的編輯需要同時(shí)參考草稿、原稿和修改要求來(lái)完成最終作品一樣。系統(tǒng)通過(guò)多模態(tài)注意力機(jī)制讓這些不同類型的信息相互"對(duì)話",確保最終生成的結(jié)果既符合文本指令的要求,又與原圖保持適當(dāng)?shù)囊恢滦浴?/p>
第一階段的訓(xùn)練旨在創(chuàng)建一個(gè)名為OmniEditor的通用圖像編輯器。這個(gè)階段就像讓學(xué)徒掌握基本的繪畫技巧和色彩搭配知識(shí)。研究團(tuán)隊(duì)使用了350萬(wàn)張圖像編輯樣本來(lái)訓(xùn)練這個(gè)通用編輯器,涵蓋了各種常見(jiàn)的編輯操作和場(chǎng)景。通過(guò)這種大規(guī)模訓(xùn)練,OmniEditor獲得了強(qiáng)大的通用編輯能力和良好的文本理解能力。
第二階段的訓(xùn)練則是通過(guò)EditLoRA技術(shù)進(jìn)行個(gè)性化定制。LoRA(低秩適應(yīng))是一種參數(shù)高效的微調(diào)技術(shù),它的核心思想是凍結(jié)預(yù)訓(xùn)練模型的主體參數(shù),只訓(xùn)練少量新增的適應(yīng)性參數(shù)。這就像在已有的技能基礎(chǔ)上,只需要學(xué)習(xí)一些特殊的技巧調(diào)整,而不需要重新學(xué)習(xí)整套技能。在PhotoDoodle中,EditLoRA只需要30到50對(duì)藝術(shù)家的作品樣本就能學(xué)會(huì)其獨(dú)特的創(chuàng)作風(fēng)格。
這種兩階段設(shè)計(jì)的優(yōu)勢(shì)在于既保證了基礎(chǔ)能力的穩(wěn)定性,又實(shí)現(xiàn)了個(gè)性化風(fēng)格的高效學(xué)習(xí)。通用編輯器提供了堅(jiān)實(shí)的技術(shù)基礎(chǔ),而EditLoRA則負(fù)責(zé)捕捉和復(fù)現(xiàn)特定藝術(shù)家的創(chuàng)作特色。
三、關(guān)鍵技術(shù)創(chuàng)新:位置記憶和無(wú)噪聲條件機(jī)制
PhotoDoodle最重要的技術(shù)創(chuàng)新之一是"位置編碼復(fù)用機(jī)制"。這個(gè)機(jī)制解決了一個(gè)在傳統(tǒng)圖像編輯中經(jīng)常出現(xiàn)的問(wèn)題:新添加的內(nèi)容與原圖在空間位置上的對(duì)齊困難。
傳統(tǒng)的圖像編輯方法在處理?xiàng)l件圖像時(shí),往往會(huì)出現(xiàn)像素級(jí)別的對(duì)齊錯(cuò)誤,導(dǎo)致生成的結(jié)果出現(xiàn)"重影"或位置偏移等問(wèn)題。這就像兩張透明膠片疊加時(shí)如果沒(méi)有精確對(duì)齊,就會(huì)產(chǎn)生模糊不清的重疊效果。
位置編碼復(fù)用的核心思想是讓原圖和目標(biāo)圖使用完全相同的位置編碼信息。這種做法為系統(tǒng)建立了一個(gè)精確的空間對(duì)應(yīng)關(guān)系,就像在兩張圖紙上使用相同的坐標(biāo)系統(tǒng)一樣。通過(guò)這種方式,系統(tǒng)能夠確保每次編輯都尊重原圖的空間結(jié)構(gòu),避免出現(xiàn)空間錯(cuò)位或變形問(wèn)題。
在具體實(shí)現(xiàn)中,系統(tǒng)首先為原圖的每個(gè)位置計(jì)算旋轉(zhuǎn)位置編碼。這種編碼方式能夠準(zhǔn)確捕捉圖像中每個(gè)像素點(diǎn)的二維空間位置信息。然后,在生成目標(biāo)圖像時(shí),系統(tǒng)復(fù)用這些位置編碼,確保新內(nèi)容能夠精確地"坐"在正確的位置上。
另一個(gè)關(guān)鍵創(chuàng)新是"無(wú)噪聲條件范式"。在傳統(tǒng)的擴(kuò)散模型中,所有輸入信息都會(huì)被加入噪聲進(jìn)行處理。但在PhotoDoodle中,研究團(tuán)隊(duì)選擇保持原圖條件信息的無(wú)噪聲狀態(tài)。
這種設(shè)計(jì)帶來(lái)了兩個(gè)重要優(yōu)勢(shì)。首先,保持原圖信息的高保真度。由于原圖信息沒(méi)有被噪聲污染,系統(tǒng)能夠保留高頻紋理和精細(xì)結(jié)構(gòu)細(xì)節(jié),避免在迭代過(guò)程中出現(xiàn)圖像退化。這就像保留一份清晰的參考資料,確保最終作品不會(huì)偏離原始素材的品質(zhì)。
其次,靈活的編輯控制能力。多模態(tài)注意力機(jī)制足夠靈活,能夠根據(jù)具體需求選擇從原圖復(fù)制內(nèi)容或根據(jù)指令生成新內(nèi)容。這使得模型能夠?qū)W會(huì)僅操作指定的目標(biāo)區(qū)域,而不影響其他部分。這就像一個(gè)經(jīng)驗(yàn)豐富的編輯,能夠精確地知道哪些地方需要修改,哪些地方應(yīng)該保持原樣。
通過(guò)位置編碼復(fù)用和多模態(tài)注意力機(jī)制的協(xié)同作用,PhotoDoodle實(shí)現(xiàn)了前所未有的局部編輯精度,同時(shí)保持了全局一致性。這種平衡在傳統(tǒng)的條件圖像生成任務(wù)中是很難實(shí)現(xiàn)的。
四、EditLoRA:從少量樣本中學(xué)會(huì)藝術(shù)家的獨(dú)門秘籍
EditLoRA技術(shù)是PhotoDoodle能夠快速學(xué)習(xí)藝術(shù)家個(gè)人風(fēng)格的關(guān)鍵所在。這項(xiàng)技術(shù)的設(shè)計(jì)理念來(lái)源于一個(gè)簡(jiǎn)單而深刻的觀察:真正的藝術(shù)創(chuàng)作往往不需要完全重新發(fā)明技法,而是在已有技能基礎(chǔ)上形成獨(dú)特的個(gè)人特色。
低秩適應(yīng)(LoRA)的核心思想可以用一個(gè)生動(dòng)的比喻來(lái)理解。假設(shè)原始的預(yù)訓(xùn)練模型是一部功能齊全的"萬(wàn)能工具箱",里面包含了各種通用的圖像編輯工具和技能。EditLoRA就像是為這個(gè)工具箱添加一些專門的"定制附件",這些附件不會(huì)改變工具箱的基本功能,但能夠讓它更好地適應(yīng)特定藝術(shù)家的創(chuàng)作需求。
在數(shù)學(xué)實(shí)現(xiàn)上,LoRA通過(guò)在原始模型的每一層添加兩個(gè)小型矩陣(A和B)來(lái)實(shí)現(xiàn)適應(yīng)性調(diào)整。這兩個(gè)矩陣的參數(shù)數(shù)量遠(yuǎn)遠(yuǎn)少于原始模型,但卻能夠有效地捕捉特定風(fēng)格的特征。這就像在復(fù)雜的管弦樂(lè)隊(duì)中,只需要調(diào)整幾個(gè)關(guān)鍵樂(lè)器的演奏方式,就能改變整首樂(lè)曲的風(fēng)格特色。
EditLoRA的訓(xùn)練過(guò)程使用的是成對(duì)的"修改前-修改后"圖像數(shù)據(jù),而不是傳統(tǒng)圖像生成模型所需的"文本-圖像"配對(duì)數(shù)據(jù)。這種數(shù)據(jù)格式更直接地反映了藝術(shù)家的創(chuàng)作過(guò)程:從一張?jiān)颊掌_(kāi)始,經(jīng)過(guò)藝術(shù)加工,最終形成獨(dú)特的照片涂鴉作品。
研究團(tuán)隊(duì)發(fā)現(xiàn),即使只有30到50對(duì)這樣的樣本,EditLoRA也能夠有效學(xué)習(xí)到藝術(shù)家的風(fēng)格特征。這種高效的學(xué)習(xí)能力得益于預(yù)訓(xùn)練OmniEditor已經(jīng)具備的強(qiáng)大基礎(chǔ)能力。就像一個(gè)已經(jīng)掌握基本繪畫技巧的學(xué)生,只需要看幾個(gè)特定風(fēng)格的范例,就能快速模仿出相似的作品。
在實(shí)際應(yīng)用中,當(dāng)用戶提供一張新的源圖像和相應(yīng)的文本指令時(shí),系統(tǒng)會(huì)結(jié)合預(yù)訓(xùn)練的通用能力和通過(guò)EditLoRA學(xué)到的特定風(fēng)格,生成既符合指令要求又體現(xiàn)藝術(shù)家個(gè)人特色的照片涂鴉作品。這個(gè)過(guò)程就像一個(gè)訓(xùn)練有素的助手,既理解老板的一般工作習(xí)慣,又知道如何在特定項(xiàng)目中體現(xiàn)老板的獨(dú)特風(fēng)格。
EditLoRA的另一個(gè)重要優(yōu)勢(shì)是其計(jì)算效率。由于只需要訓(xùn)練少量的適應(yīng)性參數(shù),整個(gè)個(gè)性化訓(xùn)練過(guò)程可以在單個(gè)GPU上完成,訓(xùn)練時(shí)間大大縮短。這使得為不同藝術(shù)家創(chuàng)建個(gè)性化模型變得現(xiàn)實(shí)可行,為照片涂鴉藝術(shù)的普及創(chuàng)造了技術(shù)條件。
五、數(shù)據(jù)集構(gòu)建:六種風(fēng)格的藝術(shù)寶庫(kù)
為了驗(yàn)證和展示PhotoDoodle的能力,研究團(tuán)隊(duì)與專業(yè)藝術(shù)家和設(shè)計(jì)師合作,精心構(gòu)建了第一個(gè)公開(kāi)可用的照片涂鴉數(shù)據(jù)集。這個(gè)數(shù)據(jù)集包含了六種不同的藝術(shù)風(fēng)格,總計(jì)超過(guò)300個(gè)高質(zhì)量的照片涂鴉樣本。
這六種風(fēng)格各有特色,展現(xiàn)了照片涂鴉藝術(shù)的豐富性和多樣性。卡通怪獸風(fēng)格專注于在照片中添加可愛(ài)的虛擬生物,這些小怪獸通常具有鮮明的色彩和友善的表情,能夠?yàn)樵酒胀ǖ恼掌鎏硗ず突盍?。手繪輪廓風(fēng)格則是通過(guò)添加手工繪制般的線條和裝飾來(lái)增強(qiáng)照片的藝術(shù)感,這種風(fēng)格特別適合人像和建筑攝影。
3D效果風(fēng)格利用光影和透視技術(shù)為平面照片創(chuàng)造立體感和深度感,常見(jiàn)的應(yīng)用包括添加浮動(dòng)的裝飾元素或創(chuàng)造視覺(jué)錯(cuò)覺(jué)效果。流動(dòng)色塊風(fēng)格是通過(guò)添加動(dòng)態(tài)的彩色區(qū)域來(lái)改變照片的整體氛圍,這種風(fēng)格特別適合營(yíng)造夢(mèng)幻或超現(xiàn)實(shí)的視覺(jué)效果。
扁平插畫風(fēng)格借鑒了現(xiàn)代平面設(shè)計(jì)的美學(xué)理念,通過(guò)簡(jiǎn)化色彩和形狀來(lái)創(chuàng)造清新現(xiàn)代的視覺(jué)效果。云朵素描風(fēng)格則模仿傳統(tǒng)素描技法,通過(guò)添加類似云朵的柔和元素來(lái)增強(qiáng)照片的詩(shī)意感。
數(shù)據(jù)集中的每個(gè)樣本都包含三個(gè)組成部分:原始照片、藝術(shù)家創(chuàng)作的照片涂鴉版本,以及描述修改內(nèi)容的文本指令。原始照片涵蓋了各種常見(jiàn)的攝影題材,包括人像、建筑、風(fēng)景和靜物等,確保了數(shù)據(jù)集的代表性和實(shí)用性。
藝術(shù)家創(chuàng)作的照片涂鴉版本展現(xiàn)了豐富的創(chuàng)作技法,包括局部風(fēng)格化、裝飾性輪廓繪制、語(yǔ)義感知的物體插入,以及裝飾性增強(qiáng)等。這些技法的多樣性為PhotoDoodle的學(xué)習(xí)提供了豐富的訓(xùn)練素材,也為后續(xù)研究提供了寶貴的參考標(biāo)準(zhǔn)。
文本指令的設(shè)計(jì)既要準(zhǔn)確描述修改內(nèi)容,又要符合自然語(yǔ)言的表達(dá)習(xí)慣。比如"給女孩添加一頂藍(lán)色小怪獸帽子"或"用流光效果裝飾建筑物輪廓"等指令,這些描述既具體明確又自然流暢,便于系統(tǒng)理解和執(zhí)行。
這個(gè)數(shù)據(jù)集的構(gòu)建不僅為PhotoDoodle的訓(xùn)練和評(píng)估提供了基礎(chǔ),也為照片涂鴉領(lǐng)域的后續(xù)研究建立了標(biāo)準(zhǔn)化的評(píng)估基準(zhǔn)。研究團(tuán)隊(duì)已經(jīng)將這個(gè)數(shù)據(jù)集公開(kāi)發(fā)布,希望能夠推動(dòng)整個(gè)領(lǐng)域的發(fā)展和創(chuàng)新。
六、實(shí)驗(yàn)驗(yàn)證:從多個(gè)角度證明方法的有效性
為了全面驗(yàn)證PhotoDoodle的性能,研究團(tuán)隊(duì)設(shè)計(jì)了詳盡的實(shí)驗(yàn)方案,從多個(gè)維度對(duì)比了不同方法的效果。實(shí)驗(yàn)設(shè)置包括兩個(gè)主要階段:OmniEditor預(yù)訓(xùn)練和EditLoRA微調(diào),每個(gè)階段都有具體的參數(shù)配置和訓(xùn)練策略。
在OmniEditor預(yù)訓(xùn)練階段,研究團(tuán)隊(duì)使用Flux.1模型作為初始化基礎(chǔ),在SeedEdit數(shù)據(jù)集上進(jìn)行訓(xùn)練。圖像尺寸統(tǒng)一調(diào)整為768×512像素,使用rank為256的LoRA結(jié)構(gòu),批量大小為128,學(xué)習(xí)率設(shè)為1×10^-4。訓(xùn)練在8個(gè)H100 GPU上進(jìn)行,總共訓(xùn)練330000步。訓(xùn)練完成后,研究團(tuán)隊(duì)將LoRA參數(shù)合并到基礎(chǔ)DiT模型中,形成最終的OmniEditor模型。
在EditLoRA微調(diào)階段,研究團(tuán)隊(duì)在構(gòu)建的照片涂鴉數(shù)據(jù)集(每種風(fēng)格約50對(duì)樣本)上對(duì)合并后的模型進(jìn)行進(jìn)一步訓(xùn)練。這一階段使用單個(gè)GPU,訓(xùn)練10000步,LoRA rank設(shè)為128,批量大小為2,學(xué)習(xí)率保持1×10^-4。
為了確保比較的公平性,研究團(tuán)隊(duì)選擇了多個(gè)具有代表性的基準(zhǔn)方法進(jìn)行對(duì)比,包括InstructP2P、MagicBrush和基于Flux的SDEdit。在通用圖像編輯測(cè)試中,OmniEditor直接與這些基準(zhǔn)方法進(jìn)行比較。在定制化編輯測(cè)試中,研究團(tuán)隊(duì)使用相同的藝術(shù)家數(shù)據(jù)對(duì)所有方法進(jìn)行訓(xùn)練,然后比較它們的EditLoRA版本。
實(shí)驗(yàn)結(jié)果顯示,PhotoDoodle在各項(xiàng)指標(biāo)上都顯著超越了現(xiàn)有方法。在定性評(píng)估方面,PhotoDoodle生成的照片涂鴉不僅在視覺(jué)質(zhì)量上更加出色,而且在保持原圖一致性方面表現(xiàn)最佳。生成的裝飾元素與原圖背景融合自然,沒(méi)有出現(xiàn)常見(jiàn)的色彩偏移或紋理退化問(wèn)題。
在定量評(píng)估方面,研究團(tuán)隊(duì)采用了多個(gè)標(biāo)準(zhǔn)指標(biāo)來(lái)衡量方法性能。CLIP Score用于評(píng)估生成結(jié)果與文本指令的匹配程度,CLIPimg用于衡量生成圖像與原圖的一致性,GPT Score則通過(guò)GPT-4模型評(píng)估指令跟隨的準(zhǔn)確性。在通用圖像編輯任務(wù)中,PhotoDoodle的CLIP Score達(dá)到0.261,GPT Score達(dá)到51.159,CLIPimg達(dá)到0.871,均顯著高于對(duì)比方法。
在定制化編輯任務(wù)中,PhotoDoodle的優(yōu)勢(shì)更加明顯。CLIP Score達(dá)到0.279,GPT Score高達(dá)63.207,CLIPimg為0.854。這些數(shù)字背后反映的是PhotoDoodle在理解藝術(shù)家風(fēng)格、執(zhí)行復(fù)雜指令和保持圖像一致性方面的卓越能力。
研究團(tuán)隊(duì)還進(jìn)行了詳細(xì)的消融實(shí)驗(yàn),分別驗(yàn)證了OmniEditor預(yù)訓(xùn)練、位置編碼復(fù)用和EditLoRA各個(gè)組件的重要性。實(shí)驗(yàn)結(jié)果顯示,缺少任何一個(gè)關(guān)鍵組件都會(huì)導(dǎo)致性能顯著下降,證明了整體架構(gòu)設(shè)計(jì)的合理性和必要性。
七、用戶研究:真實(shí)用戶的評(píng)價(jià)反饋
為了更全面地評(píng)估PhotoDoodle的實(shí)際效果,研究團(tuán)隊(duì)還進(jìn)行了大規(guī)模的用戶研究。這項(xiàng)研究邀請(qǐng)了30名參與者,通過(guò)在線問(wèn)卷的形式收集用戶對(duì)不同方法生成結(jié)果的評(píng)價(jià)和偏好。
用戶研究的設(shè)計(jì)非常巧妙,參與者會(huì)看到原始未編輯的圖像、編輯指令,以及不同方法生成的結(jié)果圖像。然后,他們需要從三個(gè)維度評(píng)估這些結(jié)果:整體偏好、指令跟隨能力,以及編輯圖像與原圖的一致性。在每個(gè)對(duì)比中,參與者需要判斷PhotoDoodle(選項(xiàng)A)和某個(gè)基準(zhǔn)方法(選項(xiàng)B)哪個(gè)表現(xiàn)更好,或者兩者效果相當(dāng)。
用戶研究的結(jié)果非常令人鼓舞。在通用圖像編輯任務(wù)中,PhotoDoodle在所有評(píng)估維度上都獲得了用戶的顯著偏好。具體來(lái)說(shuō),超過(guò)70%的用戶認(rèn)為PhotoDoodle的整體效果更好,超過(guò)65%的用戶認(rèn)為它在指令跟隨方面表現(xiàn)更優(yōu)秀,超過(guò)75%的用戶認(rèn)為它在保持圖像一致性方面更出色。
在定制化編輯任務(wù)中,PhotoDoodle的優(yōu)勢(shì)更加明顯。用戶偏好比例在各個(gè)維度上都超過(guò)了80%,特別是在整體效果和指令跟隨能力方面,用戶滿意度接近90%。這些結(jié)果表明,PhotoDoodle不僅在技術(shù)指標(biāo)上表現(xiàn)優(yōu)秀,在實(shí)際用戶體驗(yàn)方面也獲得了廣泛認(rèn)可。
用戶反饋中經(jīng)常提到的優(yōu)點(diǎn)包括:生成的裝飾元素看起來(lái)"很自然"、"完全像是原圖的一部分",編輯結(jié)果"完全符合指令要求",以及"原圖的其他部分沒(méi)有被破壞"。這些評(píng)價(jià)正好對(duì)應(yīng)了PhotoDoodle要解決的核心技術(shù)挑戰(zhàn),證明了方法的有效性。
一些用戶還特別贊賞了PhotoDoodle的穩(wěn)定性和可靠性。與其他方法相比,PhotoDoodle更少出現(xiàn)"意外的結(jié)果"或"需要多次嘗試才能得到滿意效果"的情況。這種穩(wěn)定性對(duì)于實(shí)際應(yīng)用來(lái)說(shuō)非常重要,它意味著用戶可以更加信任系統(tǒng)的輸出結(jié)果。
八、方法局限與未來(lái)發(fā)展方向
盡管PhotoDoodle在照片涂鴉領(lǐng)域取得了顯著進(jìn)展,但研究團(tuán)隊(duì)也誠(chéng)實(shí)地承認(rèn)了當(dāng)前方法的一些局限性,并提出了future改進(jìn)方向。
當(dāng)前方法最主要的局限性在于對(duì)配對(duì)數(shù)據(jù)集的依賴。PhotoDoodle需要收集數(shù)十對(duì)"修改前-修改后"的圖像樣本,并需要進(jìn)行數(shù)千次訓(xùn)練迭代才能學(xué)會(huì)特定藝術(shù)家的風(fēng)格。雖然相比傳統(tǒng)方法這已經(jīng)是很大的進(jìn)步,但數(shù)據(jù)收集過(guò)程仍然具有一定的挑戰(zhàn)性。配對(duì)圖像并不總是容易獲得,特別是對(duì)于一些獨(dú)特或小眾的藝術(shù)風(fēng)格。
另一個(gè)挑戰(zhàn)是訓(xùn)練時(shí)間和計(jì)算資源的需求。雖然EditLoRA已經(jīng)大大減少了個(gè)性化訓(xùn)練的計(jì)算成本,但仍然需要專門的GPU資源和幾個(gè)小時(shí)的訓(xùn)練時(shí)間。這可能限制了方法在某些資源受限環(huán)境下的應(yīng)用。
針對(duì)這些局限性,研究團(tuán)隊(duì)提出了幾個(gè)有前景的改進(jìn)方向。首先是探索單樣本學(xué)習(xí)技術(shù)。他們計(jì)劃研究如何從單個(gè)圖像對(duì)中學(xué)習(xí)藝術(shù)風(fēng)格,甚至實(shí)現(xiàn)零樣本風(fēng)格遷移。這種技術(shù)如果成功,將大大降低數(shù)據(jù)收集的門檻,使得更多藝術(shù)風(fēng)格的學(xué)習(xí)成為可能。
其次是引入編碼器架構(gòu)來(lái)提高學(xué)習(xí)效率。通過(guò)設(shè)計(jì)專門的風(fēng)格編碼器,系統(tǒng)可能能夠更快速地提取和理解藝術(shù)風(fēng)格的核心特征,從而減少訓(xùn)練時(shí)間和數(shù)據(jù)需求。
研究團(tuán)隊(duì)還在考慮擴(kuò)展PhotoDoodle的應(yīng)用范圍。除了靜態(tài)圖像的照片涂鴉,他們正在探索將這種技術(shù)擴(kuò)展到視頻領(lǐng)域,實(shí)現(xiàn)動(dòng)態(tài)的照片涂鴉效果。這將為視頻創(chuàng)作和編輯開(kāi)辟全新的可能性。
另一個(gè)有趣的發(fā)展方向是交互式編輯功能。未來(lái)的版本可能支持用戶通過(guò)簡(jiǎn)單的手勢(shì)或涂鴉來(lái)指導(dǎo)編輯過(guò)程,使得創(chuàng)作過(guò)程更加直觀和個(gè)性化。
九、技術(shù)影響與應(yīng)用前景
PhotoDoodle的成功不僅代表了照片涂鴉技術(shù)的重要突破,也為更廣泛的AI創(chuàng)意應(yīng)用領(lǐng)域指明了方向。這項(xiàng)技術(shù)的影響可以從多個(gè)層面來(lái)理解。
在技術(shù)層面,PhotoDoodle證明了小樣本學(xué)習(xí)在創(chuàng)意AI領(lǐng)域的巨大潛力。傳統(tǒng)的AI模型通常需要大量數(shù)據(jù)才能達(dá)到良好效果,但PhotoDoodle展示了如何通過(guò)巧妙的架構(gòu)設(shè)計(jì),在極少樣本的情況下實(shí)現(xiàn)高質(zhì)量的藝術(shù)風(fēng)格學(xué)習(xí)。這種方法論可能被應(yīng)用到其他需要個(gè)性化定制的AI應(yīng)用中。
位置編碼復(fù)用和無(wú)噪聲條件機(jī)制等技術(shù)創(chuàng)新也具有更廣泛的應(yīng)用價(jià)值。這些技術(shù)可能被用于其他需要精確空間對(duì)齊的圖像處理任務(wù),比如醫(yī)學(xué)圖像分析、衛(wèi)星圖像處理或工業(yè)質(zhì)檢等領(lǐng)域。
在應(yīng)用層面,PhotoDoodle為內(nèi)容創(chuàng)作行業(yè)帶來(lái)了新的可能性。社交媒體平臺(tái)可以集成這種技術(shù),讓用戶輕松創(chuàng)建個(gè)性化的照片內(nèi)容。廣告和營(yíng)銷公司可以使用這種技術(shù)快速制作具有特定風(fēng)格的宣傳材料。教育機(jī)構(gòu)可以利用這種技術(shù)創(chuàng)建更加生動(dòng)有趣的教學(xué)材料。
對(duì)于個(gè)人創(chuàng)作者來(lái)說(shuō),PhotoDoodle降低了藝術(shù)創(chuàng)作的技術(shù)門檻。即使沒(méi)有專業(yè)的圖像編輯技能,普通用戶也可以創(chuàng)造出具有專業(yè)水準(zhǔn)的照片涂鴉作品。這種技術(shù)民主化可能會(huì)激發(fā)更多人的創(chuàng)意潛能,推動(dòng)視覺(jué)藝術(shù)的普及和發(fā)展。
在藝術(shù)教育方面,PhotoDoodle也具有重要價(jià)值。學(xué)生可以通過(guò)觀察AI如何模仿不同藝術(shù)家的風(fēng)格來(lái)學(xué)習(xí)藝術(shù)技法,教師可以使用這種技術(shù)來(lái)展示不同風(fēng)格的特點(diǎn)和差異。這種"AI助教"模式可能會(huì)改變傳統(tǒng)的藝術(shù)教育方法。
從更廣闊的視角來(lái)看,PhotoDoodle代表了人工智能從"工具"向"創(chuàng)作伙伴"轉(zhuǎn)變的重要一步。它不是簡(jiǎn)單地執(zhí)行預(yù)定義的操作,而是能夠理解和模仿人類的創(chuàng)作意圖和藝術(shù)風(fēng)格。這種能力的發(fā)展可能會(huì)引發(fā)關(guān)于AI創(chuàng)作、版權(quán)保護(hù)和藝術(shù)原創(chuàng)性的新討論。
說(shuō)到底,PhotoDoodle這項(xiàng)研究向我們展示了AI技術(shù)在創(chuàng)意領(lǐng)域的巨大潛力。它不是要取代人類藝術(shù)家,而是要成為藝術(shù)家們的得力助手,幫助他們更高效地實(shí)現(xiàn)創(chuàng)作想法。通過(guò)將復(fù)雜的技術(shù)問(wèn)題轉(zhuǎn)化為直觀的創(chuàng)作工具,PhotoDoodle讓藝術(shù)創(chuàng)作變得更加普及和便捷。
這種技術(shù)的成熟和普及,可能會(huì)帶來(lái)視覺(jué)內(nèi)容創(chuàng)作領(lǐng)域的深刻變革。未來(lái),我們可能會(huì)看到更多結(jié)合了人類創(chuàng)意和AI技術(shù)的混合創(chuàng)作模式,這將為藝術(shù)創(chuàng)作開(kāi)辟全新的可能性。無(wú)論是專業(yè)藝術(shù)家還是普通用戶,都可能從這種技術(shù)進(jìn)步中獲益,享受更加豐富和便捷的創(chuàng)作體驗(yàn)。
對(duì)于想要深入了解這項(xiàng)技術(shù)的讀者,可以訪問(wèn)https://github.com/showlab/PhotoDoodle獲取完整的代碼實(shí)現(xiàn)和數(shù)據(jù)集,也可以通過(guò)arXiv:2502.14397v2查閱原始論文的詳細(xì)技術(shù)內(nèi)容。
Q&A
Q1:PhotoDoodle是什么?它和普通的圖片編輯軟件有什么區(qū)別?
A:PhotoDoodle是新加坡國(guó)立大學(xué)開(kāi)發(fā)的AI照片涂鴉系統(tǒng),能夠自動(dòng)學(xué)習(xí)藝術(shù)家的創(chuàng)作風(fēng)格并應(yīng)用到新圖片上。與普通編輯軟件不同,它只需30-50張樣本圖片就能掌握特定藝術(shù)家的風(fēng)格,并且可以通過(guò)文字指令自動(dòng)完成復(fù)雜的藝術(shù)化編輯,而不需要用戶手動(dòng)操作每個(gè)細(xì)節(jié)。
Q2:PhotoDoodle需要多少訓(xùn)練數(shù)據(jù)?普通用戶能使用嗎?
A:PhotoDoodle的個(gè)性化訓(xùn)練只需要30-50對(duì)"修改前后"的圖片樣本,相比傳統(tǒng)方法大大減少了數(shù)據(jù)需求。不過(guò)目前主要面向研究者和開(kāi)發(fā)者,普通用戶可以通過(guò)GitHub獲取開(kāi)源代碼,但需要一定的技術(shù)基礎(chǔ)才能部署使用。
Q3:PhotoDoodle能完全替代人類藝術(shù)家嗎?
A:不會(huì)完全替代。PhotoDoodle的設(shè)計(jì)目標(biāo)是成為藝術(shù)家的創(chuàng)作助手,幫助提高創(chuàng)作效率和降低技術(shù)門檻。它需要先學(xué)習(xí)人類藝術(shù)家的作品才能掌握相應(yīng)風(fēng)格,本質(zhì)上是在模仿和重現(xiàn)已有的藝術(shù)技法,而不是進(jìn)行完全原創(chuàng)的藝術(shù)創(chuàng)新。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語(yǔ)言模型的敘事推理能力與音頻生成技術(shù),通過(guò)交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開(kāi)辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過(guò)讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問(wèn)題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語(yǔ)言模型人性化對(duì)話問(wèn)題。該研究創(chuàng)建了包含20萬(wàn)高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過(guò)創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開(kāi)發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過(guò)學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來(lái)了效率和精度的雙重突破。