對(duì)于那些喜歡編輯圖像的人來(lái)說(shuō),將一個(gè)物體自然地放入背景場(chǎng)景中一直是個(gè)難題。想象一下,你手中有一張可愛(ài)柯基犬的照片,希望將它放在客廳沙發(fā)上,但總是效果不佳:要么柯基看起來(lái)像"貼"上去的貼紙,要么角度不對(duì),要么狗狗的毛色和特征都變了。這正是南方科技大學(xué)林劍滿、李昊杰、青春梅,廣東工業(yè)大學(xué)楊志景,以及中山大學(xué)林亮和陳天水等研究者在2025年5月發(fā)表的研究"Geometry-Editable and Appearance-Preserving Object Composition"(幾何可編輯和外觀保持的對(duì)象組合)所要解決的問(wèn)題。
這項(xiàng)發(fā)表于arXiv(arXiv:2505.20914v1)的研究,為通用物體組合(General Object Composition,簡(jiǎn)稱GOC)任務(wù)提出了全新解決方案。什么是通用物體組合?簡(jiǎn)單來(lái)說(shuō),就是將一個(gè)目標(biāo)物體(比如那只柯基)無(wú)縫地融入背景場(chǎng)景(比如你的客廳),同時(shí)確保這個(gè)物體可以按照你想要的角度和位置進(jìn)行調(diào)整,而且保持它原本的細(xì)節(jié)外觀不變。想象成是給照片中的物體一個(gè)"新家",但不改變它的"長(zhǎng)相"。
目前的人工智能技術(shù)在物體組合方面面臨一個(gè)兩難選擇:要么能靈活編輯物體的位置和角度(稱為"幾何可編輯性"),但物體的細(xì)節(jié)會(huì)丟失;要么能很好地保留物體的細(xì)節(jié)外觀(稱為"外觀保持"),但位置和角度就難以靈活調(diào)整。就像你要么能隨意擺放一個(gè)積木,但它可能變成了另一種顏色;要么能保持它漂亮的原色,但只能放在固定位置。
南方科技大學(xué)的研究團(tuán)隊(duì)開(kāi)創(chuàng)性地提出了一種名為"DGAD"(Disentangled Geometry-editable and Appearance-preserving Diffusion,解耦的幾何可編輯與外觀保持?jǐn)U散模型)的方法。這個(gè)方法的獨(dú)特之處在于它將"幾何編輯"和"外觀保持"這兩個(gè)任務(wù)巧妙地分開(kāi)處理,又在正確的時(shí)機(jī)將它們結(jié)合起來(lái)。
想象DGAD就像一個(gè)專業(yè)的電影制作團(tuán)隊(duì):首先有一位"場(chǎng)景設(shè)計(jì)師"(幾何編輯部分)確定物體應(yīng)該放在哪里,以什么角度出現(xiàn);然后有一位"化妝師"(外觀保持部分)確保物體的每一個(gè)細(xì)節(jié)都保持原樣。這兩位專家并不是各自為政,而是緊密合作:場(chǎng)景設(shè)計(jì)師先規(guī)劃好物體的位置和姿態(tài),然后化妝師根據(jù)這個(gè)規(guī)劃精確地在每個(gè)位置添加正確的外觀細(xì)節(jié)。
那么,DGAD是如何實(shí)現(xiàn)這一過(guò)程的呢?研究團(tuán)隊(duì)的方法包含兩個(gè)關(guān)鍵步驟:
第一步,他們利用語(yǔ)義嵌入(可以理解為物體的"概念理解")和預(yù)訓(xùn)練擴(kuò)散模型的強(qiáng)大空間推理能力,隱式地捕捉物體的幾何特性。這就像先理解"一只狗應(yīng)該怎樣坐在沙發(fā)上"這樣的空間關(guān)系,而不是直接處理狗的外觀。這個(gè)階段使用了CLIP或DINO這樣的視覺(jué)模型提取的語(yǔ)義特征,讓系統(tǒng)能夠理解物體應(yīng)該如何自然地放置在場(chǎng)景中。
第二步,他們?cè)O(shè)計(jì)了一種密集交叉注意力機(jī)制,利用第一步學(xué)到的幾何信息,準(zhǔn)確地將物體的外觀特征與其對(duì)應(yīng)的幾何區(qū)域?qū)R。想象這個(gè)過(guò)程就像拿著一個(gè)透明的狗狗輪廓,然后精確地往這個(gè)輪廓的每個(gè)部分填充正確的顏色和紋理,確保狗的毛發(fā)、眼睛、鼻子等每個(gè)細(xì)節(jié)都保持原樣,同時(shí)適應(yīng)新的角度和位置。
值得注意的是,DGAD不只是簡(jiǎn)單地把物體"貼"到背景上,而是真正理解了物體應(yīng)該如何自然地存在于背景場(chǎng)景中。它不需要用戶提供精確的物體蒙版或復(fù)雜的幾何信息,只需要指定大致的區(qū)域,系統(tǒng)就能自動(dòng)處理物體的空間放置和外觀保持。
通過(guò)在公開(kāi)基準(zhǔn)測(cè)試中的實(shí)驗(yàn),研究團(tuán)隊(duì)證明了DGAD方法在物體編輯性和外觀保持方面都優(yōu)于現(xiàn)有技術(shù)。在用戶研究中,37.5%的參與者認(rèn)為DGAD在組合質(zhì)量方面表現(xiàn)最佳,41.5%的參與者認(rèn)為它在視覺(jué)一致性方面最出色,遠(yuǎn)超其他對(duì)比方法。
這項(xiàng)技術(shù)的潛在應(yīng)用十分廣泛:從交互式圖像編輯、虛擬環(huán)境創(chuàng)建,到增強(qiáng)和虛擬現(xiàn)實(shí)(AR/VR)應(yīng)用的內(nèi)容生成。想象一下,你可以輕松地將任何物體放入任何背景,創(chuàng)建完全真實(shí)的合成場(chǎng)景,無(wú)論是為電子商務(wù)網(wǎng)站創(chuàng)建產(chǎn)品展示,還是為游戲和虛擬世界構(gòu)建沉浸式環(huán)境。
讓我們來(lái)看看DGAD與現(xiàn)有方法相比有何不同?,F(xiàn)有的方法主要分為兩類:一類是依賴語(yǔ)義嵌入(如CLIP/DINO特征)的方法,它們能實(shí)現(xiàn)物體的靈活編輯,但會(huì)丟失細(xì)節(jié);另一類是使用參考網(wǎng)絡(luò)提取像素級(jí)特征的方法,它們能很好地保留外觀細(xì)節(jié),但編輯靈活性受限。
DGAD的創(chuàng)新之處在于它不是簡(jiǎn)單地選擇這兩種方法之一,而是巧妙地結(jié)合了兩者的優(yōu)勢(shì)。它首先使用語(yǔ)義嵌入隱式地學(xué)習(xí)物體的幾何特性,然后使用這些學(xué)到的特性作為"指導(dǎo)",準(zhǔn)確地從參考網(wǎng)絡(luò)中檢索和對(duì)齊外觀特征。這種解耦然后重組的策略,就像是先畫(huà)出一個(gè)精確的輪廓,然后再一筆一筆地填充顏色,確保每一筆都落在正確的位置。
研究團(tuán)隊(duì)還進(jìn)行了廣泛的消融研究,驗(yàn)證了DGAD中每個(gè)組件的必要性和有效性。例如,他們發(fā)現(xiàn)移除幾何布局表示會(huì)導(dǎo)致編輯能力顯著下降,而使用標(biāo)準(zhǔn)交叉注意力替代密集交叉注意力機(jī)制則會(huì)損害外觀保持能力。
總而言之,南方科技大學(xué)團(tuán)隊(duì)的DGAD方法為通用物體組合任務(wù)提供了一個(gè)全新的視角和解決方案,成功地實(shí)現(xiàn)了幾何可編輯性和外觀保持的平衡,這在以往的技術(shù)中是難以同時(shí)實(shí)現(xiàn)的。這一突破性進(jìn)展不僅推動(dòng)了計(jì)算機(jī)視覺(jué)和圖像編輯技術(shù)的發(fā)展,也為創(chuàng)建更加真實(shí)、自然的合成圖像鋪平了道路,未來(lái)有望在多媒體內(nèi)容創(chuàng)作、虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)等領(lǐng)域發(fā)揮重要作用。
如果你對(duì)這項(xiàng)研究感興趣,可以訪問(wèn)研究團(tuán)隊(duì)的GitHub頁(yè)面:https://github.com/jianmanlincjx/DGAD,查看代碼和預(yù)訓(xùn)練模型。
好文章,需要你的鼓勵(lì)
新加坡國(guó)立大學(xué)研究團(tuán)隊(duì)開(kāi)發(fā)了SPIRAL框架,通過(guò)讓AI與自己對(duì)弈零和游戲來(lái)提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡(jiǎn)單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無(wú)需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開(kāi)發(fā)的GIGA-ToF技術(shù)通過(guò)融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問(wèn)題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺(jué)解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過(guò)對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺(jué)語(yǔ)言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無(wú)法有效利用視覺(jué)信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過(guò)動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語(yǔ)言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。