這項由加州大學(xué)伯克利分校的Chun-Hsiao Yeh領(lǐng)導(dǎo),聯(lián)合香港大學(xué)和Adobe公司的研究團隊發(fā)表于2025年7月的論文,為AI圖像編輯領(lǐng)域帶來了重大突破。該研究發(fā)表在計算機視覺頂級會議上,論文編號為arXiv:2507.05259v1,有興趣深入了解的讀者可以通過項目主頁https://danielchyeh.github.io/x-planner/訪問完整論文和相關(guān)資源。
當你想讓AI修改一張照片時,你可能會說"讓這張圖片看起來像冰淇淋成為日常必需品的季節(jié)"。對于人類來說,這意味著把照片變成夏天的樣子——藍天白云、綠草如茵,也許還要添加野餐用品。但是對于AI來說,這種間接的、復(fù)雜的指令就像是一道需要猜謎的題目,往往會產(chǎn)生令人啼笑皆非的結(jié)果,比如真的在圖片里添加冰淇淋而不是營造夏日氛圍。
研究團隊發(fā)現(xiàn),現(xiàn)有的AI圖像編輯工具在處理這類復(fù)雜指令時存在三個主要問題。第一個問題類似于"群體作業(yè)分配困難"——當你說"讓所有動物都像在慶祝圣誕節(jié)"時,AI需要識別圖片中的每一只動物,并為它們分別制定不同的編輯方案。第二個問題可以比作"多任務(wù)處理混亂"——一個指令包含多個不同的編輯要求時,比如既要改變顏色又要添加物體還要修改背景,AI常常顧此失彼。第三個問題則是"意圖理解偏差"——AI很難理解那些需要常識和文化背景的間接指令。
為了解決這些問題,研究團隊開發(fā)了一個名為X-Planner的智能規(guī)劃系統(tǒng)。這個系統(tǒng)就像一個經(jīng)驗豐富的裝修隊長,當客戶說"我想要一個溫馨的家"時,隊長會將這個模糊的需求分解成具體的工作任務(wù):刷什么顏色的墻、擺放什么樣的家具、用什么樣的燈光等等。同樣,X-Planner會將復(fù)雜的編輯指令分解成一系列簡單明確的子任務(wù),每個子任務(wù)都配有詳細的操作指南。
X-Planner的工作原理建立在多模態(tài)大語言模型的基礎(chǔ)上,這種模型既能理解文字也能理解圖像。研究團隊選擇了GLaMM作為基礎(chǔ)架構(gòu),這個模型原本具備根據(jù)描述生成圖像分割遮罩的能力。但是GLaMM在處理復(fù)雜編輯規(guī)劃任務(wù)時表現(xiàn)不佳,就像一個只會按部就班的助手,缺乏靈活的思維和規(guī)劃能力。
為了讓X-Planner變得更加聰明,研究團隊設(shè)計了一套完整的訓(xùn)練數(shù)據(jù)生成流程。這個流程分為三個層次,就像建造一座房子需要先打地基、再砌墻、最后裝修一樣。第一層是"指令配對生成",研究團隊使用GPT-4o為大量圖片生成復(fù)雜指令和對應(yīng)的簡單分解指令。他們精心設(shè)計了不同類型的復(fù)雜指令模板,涵蓋了間接指令、多對象指令和多任務(wù)指令等各種情況。
第二層是"精確定位生成",這一步驟相當于為每個編輯任務(wù)制作精確的"施工圖紙"。系統(tǒng)使用Grounded SAM技術(shù)為每個編輯對象生成分割遮罩,就像在照片上用不同顏色的筆精確標出需要修改的區(qū)域。更巧妙的是,系統(tǒng)會根據(jù)不同的編輯類型調(diào)整遮罩的大小和范圍——如果是簡單的顏色調(diào)整,遮罩會很精確;如果是形狀改變,遮罩會稍微放大一些為變形預(yù)留空間;如果是全局風(fēng)格變化,遮罩會覆蓋整張圖片。
第三層是"插入位置預(yù)測",這是解決插入類編輯任務(wù)的關(guān)鍵創(chuàng)新。當你要求"在貓咪周圍添加圣誕裝飾"時,傳統(tǒng)方法只能識別出貓咪的位置,但無法預(yù)測裝飾品應(yīng)該放在哪里,因為裝飾品在原圖中并不存在。X-Planner通過訓(xùn)練一個專門的位置預(yù)測模型,讓AI學(xué)會根據(jù)語言描述和圖像內(nèi)容推理出合理的插入位置,就像一個有經(jīng)驗的室內(nèi)設(shè)計師能夠憑借專業(yè)直覺判斷家具應(yīng)該擺放在房間的哪個角落。
為了訓(xùn)練這樣一個智能系統(tǒng),研究團隊構(gòu)建了一個名為COMPIE的大規(guī)模數(shù)據(jù)集。這個數(shù)據(jù)集包含超過26萬對復(fù)雜-簡單指令配對,以及相應(yīng)的分割遮罩和邊界框標注。數(shù)據(jù)來源包括SEED-X、UltraEdit、MULAN和InstructPix2Pix等多個已有數(shù)據(jù)集,確保了訓(xùn)練數(shù)據(jù)的多樣性和質(zhì)量。
數(shù)據(jù)集的構(gòu)建過程體現(xiàn)了研究團隊的細致入微。他們不僅考慮了指令的復(fù)雜程度,還確保了編輯類型的平衡分布。在數(shù)據(jù)集中,插入類編輯占據(jù)最大比例,這反映了實際應(yīng)用中用戶經(jīng)常需要向圖片添加新元素的需求。同時,他們還包含了相當比例的簡單-簡單指令配對,確保X-Planner在處理本來就很簡單的指令時不會畫蛇添足。
X-Planner的另一個創(chuàng)新之處在于它的模塊化設(shè)計。整個系統(tǒng)分為兩個主要組件:指令分解模塊和控制引導(dǎo)生成模塊。指令分解模塊負責(zé)理解復(fù)雜指令并將其分解成簡單子任務(wù),每個子任務(wù)都明確標注了編輯類型和目標對象??刂埔龑?dǎo)生成模塊則根據(jù)分解后的指令生成精確的分割遮罩和邊界框,為后續(xù)的圖像編輯提供準確的空間指導(dǎo)。
這種設(shè)計讓X-Planner具備了良好的通用性。它不是一個獨立的圖像編輯器,而是一個智能的編輯規(guī)劃助手,可以與各種現(xiàn)有的圖像編輯模型配合工作。無論是UltraEdit、InstructPix2Pix還是其他專業(yè)編輯工具,都可以接收X-Planner提供的分解指令和控制信息,從而實現(xiàn)更精確、更可控的編輯效果。
在實際應(yīng)用中,X-Planner的工作流程非常直觀。用戶輸入一個復(fù)雜的編輯指令后,系統(tǒng)首先分析指令內(nèi)容和圖像特征,然后運用鏈式思維推理將復(fù)雜任務(wù)分解成多個簡單步驟。對于每個步驟,系統(tǒng)會自動生成相應(yīng)的分割遮罩來標示編輯區(qū)域。如果是插入類任務(wù),系統(tǒng)還會預(yù)測合適的邊界框來指示新對象的放置位置。最后,系統(tǒng)根據(jù)每個子任務(wù)的類型選擇最適合的編輯模型來執(zhí)行具體操作。
為了驗證X-Planner的效果,研究團隊設(shè)計了全面的評估實驗。他們既在傳統(tǒng)的簡單指令基準測試MagicBrush上驗證了系統(tǒng)的基礎(chǔ)能力,也構(gòu)建了新的復(fù)雜指令評估基準COMPIE-Eval來專門測試復(fù)雜指令處理能力。評估指標不僅包括傳統(tǒng)的圖像質(zhì)量指標,還引入了基于大語言模型的智能評估方法,更好地反映系統(tǒng)對復(fù)雜指令的理解和執(zhí)行程度。
實驗結(jié)果令人振奮。在MagicBrush基準測試中,即使是處理相對簡單的編輯任務(wù),X-Planner也能通過提供精確的控制信息來提升編輯質(zhì)量。更重要的是,在復(fù)雜指令評估中,X-Planner展現(xiàn)出了顯著的優(yōu)勢。與直接使用復(fù)雜指令的基線方法相比,X-Planner通過指令分解和精確控制,大幅提升了編輯結(jié)果與用戶意圖的匹配度,同時更好地保持了原圖中不需要修改部分的完整性。
用戶研究的結(jié)果進一步證實了X-Planner的實用價值。在對比評估中,用戶在指令對齊度、身份保持性和整體質(zhì)量三個維度上都更傾向于選擇使用X-Planner的編輯結(jié)果。這表明X-Planner不僅在技術(shù)指標上表現(xiàn)優(yōu)異,在實際用戶體驗上也得到了認可。
特別值得一提的是,研究團隊還探索了使用開源模型構(gòu)建訓(xùn)練數(shù)據(jù)的可能性。他們使用Pixtral-Large這個開源的大語言模型重新生成了訓(xùn)練數(shù)據(jù),并訓(xùn)練了相應(yīng)版本的X-Planner。實驗結(jié)果顯示,開源版本的性能與使用GPT-4o生成數(shù)據(jù)的版本相當,這為其他研究者和開發(fā)者提供了更易獲得的技術(shù)路徑。
研究團隊還考慮到了多步編輯中的錯誤傳播問題。他們提出了一種基于大語言模型的驗證和糾錯機制,在每個編輯步驟完成后自動評估結(jié)果質(zhì)量,如果發(fā)現(xiàn)問題會自動重新生成,從而避免早期錯誤影響后續(xù)操作的連鎖反應(yīng)。
X-Planner的技術(shù)創(chuàng)新還體現(xiàn)在它對不同編輯類型的細致處理上。對于顏色和紋理修改,系統(tǒng)會生成緊貼目標對象的精確遮罩;對于替換操作,系統(tǒng)會適當擴大遮罩范圍以適應(yīng)新對象的可能尺寸變化;對于全局風(fēng)格變換,系統(tǒng)會選擇全圖遮罩。這種類型感知的控制策略確保了每種編輯操作都能獲得最優(yōu)的執(zhí)行條件。
在邊界框預(yù)測方面,X-Planner展現(xiàn)出了令人印象深刻的一致性和合理性。通過對同一插入指令的多次執(zhí)行,系統(tǒng)能夠在保持位置合理性的同時提供適度的變化,避免了過于機械化的重復(fù)。這種平衡很好地反映了人類在進行類似任務(wù)時的靈活性和創(chuàng)造性。
從技術(shù)架構(gòu)的角度來看,X-Planner巧妙地結(jié)合了大語言模型的語言理解能力和計算機視覺的空間感知能力。通過精心設(shè)計的訓(xùn)練策略,系統(tǒng)學(xué)會了將抽象的語言描述轉(zhuǎn)換為具體的視覺操作指令,這種跨模態(tài)的轉(zhuǎn)換能力是實現(xiàn)復(fù)雜圖像編輯的關(guān)鍵所在。
說到底,X-Planner代表了AI圖像編輯領(lǐng)域的一個重要進步方向。它不是簡單地開發(fā)一個更強大的編輯模型,而是通過智能規(guī)劃和任務(wù)分解的方式,讓現(xiàn)有的編輯工具能夠處理更復(fù)雜、更自然的用戶需求。這種"分而治之"的策略不僅提高了編輯效果,也為用戶提供了更直觀、更便捷的交互方式。
歸根結(jié)底,這項研究解決了一個實際而重要的問題:如何讓AI理解人類自然而復(fù)雜的圖像編輯需求。隨著AI技術(shù)在日常生活中的普及,能夠理解和執(zhí)行復(fù)雜指令的智能系統(tǒng)將變得越來越重要。X-Planner的成功為這個方向提供了一個有效的解決方案和技術(shù)框架。
對于普通用戶而言,X-Planner意味著圖像編輯將變得更加簡單直觀。未來,你只需要用自然語言描述你想要的效果,AI就能準確理解并完美執(zhí)行,不再需要學(xué)習(xí)復(fù)雜的編輯軟件或者提供精確的技術(shù)參數(shù)。這將大大降低創(chuàng)意表達的門檻,讓更多人能夠輕松實現(xiàn)自己的圖像創(chuàng)作想法。
研究團隊已經(jīng)將相關(guān)代碼和數(shù)據(jù)集公開發(fā)布,這為學(xué)術(shù)界和工業(yè)界的進一步發(fā)展奠定了基礎(chǔ)??梢灶A(yù)見,基于X-Planner的思路,未來會出現(xiàn)更多能夠處理復(fù)雜多模態(tài)指令的AI系統(tǒng),不僅限于圖像編輯,還可能擴展到視頻制作、3D建模等更廣泛的創(chuàng)意應(yīng)用領(lǐng)域。感興趣的讀者可以通過論文項目主頁https://danielchyeh.github.io/x-planner/獲取詳細的技術(shù)資料和實現(xiàn)代碼。
Q&A
Q1:X-Planner是什么?它能做什么? A:X-Planner是由加州大學(xué)伯克利分校開發(fā)的AI圖像編輯規(guī)劃系統(tǒng),它的核心能力是將復(fù)雜的圖像編輯指令分解成簡單的子任務(wù),并自動生成精確的編輯控制信息,讓AI能夠理解和執(zhí)行像"讓這張圖片看起來像夏天"這樣的自然語言指令。
Q2:X-Planner會不會取代現(xiàn)有的圖像編輯軟件? A:不會完全取代,而是作為智能助手與現(xiàn)有編輯工具配合使用。X-Planner專注于理解復(fù)雜指令和規(guī)劃編輯步驟,具體的圖像處理仍需要專業(yè)的編輯模型來完成,它讓圖像編輯變得更智能和便捷。
Q3:普通人如何使用X-Planner?有什么要求? A:目前X-Planner主要是研究原型,代碼和數(shù)據(jù)已在項目主頁公開。未來集成到商業(yè)產(chǎn)品后,用戶只需用自然語言描述想要的編輯效果即可,系統(tǒng)會自動理解并執(zhí)行,不需要專業(yè)的圖像編輯知識。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機制和漸進式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學(xué)習(xí)外觀和運動信息,顯著解決了當前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準,通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報,準確性超越傳統(tǒng)方法90%的指標。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。