av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<sup id="z6piq"><rt id="z6piq"></rt></sup>

<sub id="z6piq"><p id="z6piq"></p></sub>

首頁(yè)
對(duì)話創(chuàng)新
對(duì)話科技行者
機(jī)器人新紀(jì)元
AI論文解讀
聯(lián)系我們

微信掃一掃，關(guān)注公眾號(hào)

科技行者
算力行者

見(jiàn)證連接與計(jì)算的「力量」

圖像編輯即程序：新加坡國(guó)立大學(xué)研究團(tuán)隊(duì)提出模塊化編輯框架，讓復(fù)雜圖像編輯變得簡(jiǎn)單高效

人工智能圖像編輯擴(kuò)散模型

圖像編輯即程序：新加坡國(guó)立大學(xué)研究團(tuán)隊(duì)提出模塊化編輯框架，讓復(fù)雜圖像編輯變得簡(jiǎn)單高效

作者：科技行者

2025-06-07 17:02

分享至：

新加坡國(guó)立大學(xué)研究團(tuán)隊(duì)開(kāi)發(fā)了名為IEAP的圖像編輯框架，它通過(guò)將復(fù)雜編輯指令分解為簡(jiǎn)單原子操作序列解決了當(dāng)前AI圖像編輯的核心難題。研究發(fā)現(xiàn)當(dāng)前模型在處理不改變圖像布局的簡(jiǎn)單編輯時(shí)表現(xiàn)出色，但在需要改變圖像結(jié)構(gòu)時(shí)效果差。IEAP框架定義了五種基本操作，并利用思維鏈推理技術(shù)智能分解用戶指令，實(shí)驗(yàn)證明其性能顯著超越現(xiàn)有方法，尤其在處理復(fù)雜多步驟編輯時(shí)。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-06-07 17:02 ? 科技行者

在數(shù)字圖像處理領(lǐng)域，一項(xiàng)重大突破正在改變我們修改圖像的方式。新加坡國(guó)立大學(xué)的Yujia Hu、Songhua Liu、Zhenxiong Tan、Xingyi Yang和Xinchao Wang教授團(tuán)隊(duì)于2025年6月發(fā)表了一篇題為《Image Editing As Programs with Diffusion Models》（圖像編輯即程序與擴(kuò)散模型）的研究論文，該論文已提交至arXiv預(yù)印本平臺(tái)（arXiv:2506.04158v1）。這項(xiàng)研究提出了一種創(chuàng)新的圖像編輯框架，通過(guò)將復(fù)雜的編輯指令分解為簡(jiǎn)單的原子操作序列，實(shí)現(xiàn)了更精確、更靈活的圖像編輯效果。

想象一下，你是否曾經(jīng)嘗試過(guò)用AI工具編輯圖片，卻發(fā)現(xiàn)它在處理簡(jiǎn)單修改（如改變顏色）時(shí)表現(xiàn)出色，但在涉及添加物體、移動(dòng)元素位置等復(fù)雜編輯時(shí)卻常常失??？這正是當(dāng)前圖像編輯技術(shù)面臨的核心挑戰(zhàn)，而新加坡研究團(tuán)隊(duì)提出的IEAP（Image Editing As Programs，圖像編輯即程序）框架旨在解決這一問(wèn)題。

研究團(tuán)隊(duì)首先發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象：當(dāng)前基于擴(kuò)散變換器（Diffusion Transformer，簡(jiǎn)稱DiT）的圖像編輯模型在處理不改變圖像布局的簡(jiǎn)單編輯任務(wù)（如改變顏色、風(fēng)格）時(shí)表現(xiàn)出色，但在需要改變圖像結(jié)構(gòu)的任務(wù)（如添加、刪除或移動(dòng)物體）時(shí)效果卻大打折扣。這就像是一位廚師擅長(zhǎng)調(diào)整菜肴的調(diào)味和裝飾，卻不善于改變菜品的主要成分或結(jié)構(gòu)。

基于這一發(fā)現(xiàn)，研究團(tuán)隊(duì)提出了一個(gè)巧妙的解決方案：將復(fù)雜的編輯指令分解為一系列基礎(chǔ)操作（稱為"原子操作"），然后按順序執(zhí)行這些操作。這有點(diǎn)像把一個(gè)復(fù)雜的烹飪食譜分解為一系列簡(jiǎn)單的步驟：先準(zhǔn)備材料，再切菜，然后炒制，最后調(diào)味。在IEAP框架中，研究者定義了五種基本的原子操作：

首先是"感興趣區(qū)域定位"，這相當(dāng)于確定你要在圖像的哪個(gè)部分進(jìn)行修改，就像廚師決定要修改菜品中的哪一部分。其次是"感興趣區(qū)域修補(bǔ)"，用于在選定區(qū)域添加新內(nèi)容或移除現(xiàn)有內(nèi)容，相當(dāng)于在菜品中添加或移除某種食材。第三步是"感興趣區(qū)域編輯"，用于修改區(qū)域內(nèi)的視覺(jué)屬性（如顏色、紋理等），就像調(diào)整食材的烹飪方式或調(diào)味。第四步是"感興趣區(qū)域合成"，將編輯后的區(qū)域與原圖融合，確保過(guò)渡自然，就像確保新添加的食材與整道菜的風(fēng)味協(xié)調(diào)一致。最后是"全局轉(zhuǎn)換"，用于調(diào)整整個(gè)圖像的內(nèi)容，如改變照明、天氣或風(fēng)格，相當(dāng)于調(diào)整整個(gè)菜品的最終呈現(xiàn)效果。

這種方法的巧妙之處在于，它利用了"思維鏈"（Chain-of-Thought，簡(jiǎn)稱CoT）推理技術(shù)，通過(guò)一個(gè)視覺(jué)-語(yǔ)言模型（VLM）智能代理來(lái)分析用戶的指令，并將其轉(zhuǎn)化為一系列原子操作的執(zhí)行計(jì)劃。就像一位經(jīng)驗(yàn)豐富的廚師主管，能夠?qū)㈩櫩偷膹?fù)雜要求（"我想要一道帶有輕微煙熏味、口感鮮嫩多汁的牛排"）轉(zhuǎn)化為廚房團(tuán)隊(duì)可以執(zhí)行的具體步驟。

舉個(gè)例子，當(dāng)用戶提出"把這位女士放在秋天的森林里，她穿著白色連衣裙，旁邊有一只狐貍"這樣的復(fù)雜要求時(shí)，IEAP系統(tǒng)會(huì)自動(dòng)將其分解為：1）將背景更改為森林；2）讓女士穿上白色連衣裙；3）在女士旁邊添加一只狐貍；4）將時(shí)間改為秋天。然后，系統(tǒng)會(huì)按順序執(zhí)行這些操作，每一步都由專門的模型負(fù)責(zé)處理。

研究團(tuán)隊(duì)在多個(gè)基準(zhǔn)測(cè)試中評(píng)估了IEAP框架的性能，包括MagicBrush測(cè)試集和AnyEdit測(cè)試集。結(jié)果顯示，IEAP在各種編輯場(chǎng)景中都大幅超越了現(xiàn)有的最先進(jìn)方法，特別是在處理復(fù)雜的多步驟指令時(shí)。例如，在AnyEdit測(cè)試集上，IEAP的GPT-4o評(píng)分達(dá)到4.41分（滿分5分），而現(xiàn)有最佳方法ICEdit僅獲得4.13分。

更重要的是，IEAP在處理結(jié)構(gòu)性不一致的編輯任務(wù)（如添加、移除、替換物體等）時(shí)表現(xiàn)尤為出色。在"本地語(yǔ)義編輯"測(cè)試中，IEAP的CLIPimg得分達(dá)到0.907，而ICEdit僅為0.881。這說(shuō)明IEAP生成的圖像不僅更符合用戶指令，還保持了更高的語(yǔ)義一致性和視覺(jué)質(zhì)量。

研究團(tuán)隊(duì)還將IEAP與一些頂級(jí)的多模態(tài)模型進(jìn)行了比較，包括SeedEdit（Doubao）、Gemini 2.0 Flash和GPT-4o。結(jié)果表明，IEAP在處理復(fù)雜指令方面的表現(xiàn)可以媲美甚至超越這些閉源的商業(yè)模型。與競(jìng)爭(zhēng)對(duì)手相比，IEAP能夠更忠實(shí)地執(zhí)行每一條指令，同時(shí)保持更好的圖像一致性和實(shí)例保留。

當(dāng)然，IEAP也存在一些局限性。例如，在處理復(fù)雜陰影變化時(shí)，它有時(shí)會(huì)在合成操作后留下不一致的陰影。此外，多次編輯迭代可能會(huì)導(dǎo)致圖像質(zhì)量逐漸下降。研究團(tuán)隊(duì)計(jì)劃在未來(lái)的工作中通過(guò)物理感知陰影建模和基于擴(kuò)散的質(zhì)量恢復(fù)技術(shù)來(lái)解決這些問(wèn)題。

模塊化的方法不僅提高了編輯效果，還增強(qiáng)了整個(gè)過(guò)程的可解釋性和可控性。就像一位透明工作的廚師，不僅告訴你最終的菜品是什么，還讓你了解每一步的烹飪過(guò)程和添加的食材。這使得用戶可以更好地理解和控制編輯過(guò)程，也為未來(lái)的研究和應(yīng)用提供了更多可能性。

總的來(lái)說(shuō)，IEAP框架代表了圖像編輯領(lǐng)域的一個(gè)重要進(jìn)步，它通過(guò)將復(fù)雜問(wèn)題分解為簡(jiǎn)單步驟，解決了當(dāng)前技術(shù)在處理結(jié)構(gòu)性編輯時(shí)的局限。這種"編輯即程序"的思路不僅適用于圖像編輯，也可能為其他領(lǐng)域的復(fù)雜任務(wù)分解提供啟發(fā)。無(wú)論是專業(yè)設(shè)計(jì)師還是普通用戶，都可以從這種更精確、更靈活的圖像編輯方式中受益。

如果你對(duì)這項(xiàng)研究感興趣，可以通過(guò)arXiv:2506.04158v1查看完整論文，研究團(tuán)隊(duì)也表示將在GitHub上開(kāi)源相關(guān)代碼，讓更多人能夠體驗(yàn)和應(yīng)用這一創(chuàng)新技術(shù)。

人工智能圖像編輯擴(kuò)散模型

分享至

0贊

好文章，需要你的鼓勵(lì)

推薦文章

音頻生成
大語(yǔ)言模型
多模態(tài)AI

2025-09-10 09:47

如何讓AI像電影配樂(lè)師一樣創(chuàng)作完整的長(zhǎng)篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng)，首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語(yǔ)言模型的敘事推理能力與音頻生成技術(shù)，通過(guò)交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練，能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異，為AI音頻創(chuàng)作開(kāi)辟新方向。
視頻生成
深度學(xué)習(xí)
多模態(tài)學(xué)習(xí)

2025-09-09 13:57

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動(dòng)起來(lái)不再是奢望

Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù)，通過(guò)讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息，顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問(wèn)題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量，在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型，為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
多模態(tài)AI
人類價(jià)值觀對(duì)齊
數(shù)據(jù)集構(gòu)建

2025-09-09 13:56

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說(shuō)人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價(jià)值觀對(duì)齊難題

上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究，首次系統(tǒng)性解決多模態(tài)大語(yǔ)言模型人性化對(duì)話問(wèn)題。該研究創(chuàng)建了包含20萬(wàn)高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn)，通過(guò)創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法，讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平，為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
人工智能
圖神經(jīng)網(wǎng)絡(luò)
天氣預(yù)報(bào)

2025-09-09 10:56

谷歌研究團(tuán)隊(duì)發(fā)布超級(jí)預(yù)測(cè)模型：讓AI像天氣預(yù)報(bào)員一樣預(yù)測(cè)全球大氣變化

谷歌DeepMind團(tuán)隊(duì)開(kāi)發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型，能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào)，準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù)，通過(guò)學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律，在極端天氣預(yù)測(cè)方面表現(xiàn)卓越，能耗僅為傳統(tǒng)方法的千分之一，為氣象學(xué)領(lǐng)域帶來(lái)了效率和精度的雙重突破。

如何讓AI像電影配樂(lè)師一樣創(chuàng)作完整的長(zhǎng)篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

如何讓AI像電影配樂(lè)師一樣創(chuàng)作完整的長(zhǎng)篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

2025-09-10 09:47

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動(dòng)起來(lái)不再是奢望

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動(dòng)起來(lái)不再是奢望

2025-09-09 13:57

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說(shuō)人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價(jià)值觀對(duì)齊難題

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說(shuō)人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價(jià)值觀對(duì)齊難題

2025-09-09 13:56

谷歌研究團(tuán)隊(duì)發(fā)布超級(jí)預(yù)測(cè)模型：讓AI像天氣預(yù)報(bào)員一樣預(yù)測(cè)全球大氣變化

谷歌研究團(tuán)隊(duì)發(fā)布超級(jí)預(yù)測(cè)模型：讓AI像天氣預(yù)報(bào)員一樣預(yù)測(cè)全球大氣變化

2025-09-09 10:56

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時(shí)代

京ICP證15039648號(hào) 京ICP備15039648號(hào)-9 京公網(wǎng)安備 11010802021500號(hào)

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報(bào)電話：010-62641205　涉未成年人舉報(bào)專線：010-62641208 舉報(bào)郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報(bào)專區(qū)：https://www.12377.cn