要說現(xiàn)在的AI圖像編輯技術(shù),就像是拿著一把瑞士軍刀在雕刻精細的木雕作品。雖然功能很多,但遇到真正需要大刀闊斧改變物體形狀的時候,往往就顯得力不從心了。這就好比你想把照片里的天鵝變成一艘小船,或者把咖啡杯上的葉子拉花換成愛心圖案——聽起來簡單,做起來卻讓人頭疼。
這項由香港科技大學(xué)陳啟峰教授團隊領(lǐng)導(dǎo)的研究,于2025年8月發(fā)表在arXiv平臺上(論文編號:arXiv:2508.08134v1),為我們帶來了一個名為"Follow-Your-Shape"的全新解決方案。有興趣深入了解的讀者可以通過https://follow-your-shape.github.io/訪問完整論文和演示內(nèi)容。這個團隊包括來自香港科技大學(xué)、伊利諾伊大學(xué)厄巴納-香檳分校和上海交通大學(xué)的研究人員,他們合力攻克了一個困擾業(yè)界已久的難題。
傳統(tǒng)的圖像編輯方法在面對大規(guī)模形狀變換時,就像是用放大鏡修表卻要拆解整個鐘樓一樣吃力不討好。要么無法實現(xiàn)想要的形狀改變,要么在修改目標(biāo)物體的同時,把背景也弄得面目全非。比如你想把一只鸚鵡變成一頂帽子,結(jié)果連熱帶雨林的背景都變了樣,這顯然不是我們想要的結(jié)果。
陳啟峰教授的團隊提出的Follow-Your-Shape方法,就像是給AI裝上了一雙慧眼和一雙巧手。它不需要你提前準(zhǔn)備任何遮罩圖片,也不需要額外的訓(xùn)練過程,就能精準(zhǔn)地識別出哪些區(qū)域需要修改,哪些區(qū)域需要保持原樣。更重要的是,它在處理形狀變換時,能夠像經(jīng)驗豐富的PS高手一樣,既大膽又細致。
為了驗證這套方法的效果,研究團隊還專門構(gòu)建了一個名為"ReShapeBench"的測試基準(zhǔn),包含了120張精心挑選的圖像和對應(yīng)的編輯提示詞。這些測試用例就像是給AI出的各種形狀變換考題,從簡單的單個物體變換到復(fù)雜的多物體同時變換,應(yīng)有盡有。
實驗結(jié)果顯示,F(xiàn)ollow-Your-Shape在各項指標(biāo)上都表現(xiàn)出色。在背景保持方面,它的PSNR值達到了35.79,LPIPS分數(shù)僅為8.23(這個分數(shù)越低越好),遠超現(xiàn)有的其他方法。同時,在文本圖像匹配度方面,CLIP相似度得分達到33.71,美學(xué)質(zhì)量評分更是高達6.57分。這些數(shù)字背后的含義很簡單:AI不僅能準(zhǔn)確理解你的編輯意圖,還能在保持背景完整的同時,生成既自然又美觀的編輯結(jié)果。
一、傳統(tǒng)方法的困境:為什么形狀編輯這么難
在深入了解Follow-Your-Shape的創(chuàng)新之前,我們先來理解一下為什么形狀編輯會成為AI圖像處理領(lǐng)域的一個老大難問題。
當(dāng)前的圖像編輯技術(shù)主要分為兩大類:基于擴散模型的方法和基于流模型的方法。擴散模型就像是一個反向的圖片"風(fēng)化"過程,先把圖片加上噪聲變成雪花點,然后再逐步去噪恢復(fù)出新的圖像。而流模型則更像是在兩張圖片之間鋪設(shè)一條平滑的變換道路,讓源圖像沿著這條路徑逐漸變成目標(biāo)圖像。
雖然這些方法在一般的圖像編輯任務(wù)中表現(xiàn)不錯,但在面對大規(guī)模形狀變換時卻常常力不從心。問題主要出現(xiàn)在三個方面。
首先是區(qū)域控制的難題?,F(xiàn)有的方法要么依賴外部提供的二進制遮罩來指定編輯區(qū)域,要么通過分析注意力圖來推斷哪些區(qū)域需要修改。前者就像是讓你先用刀子精確切出蛋糕的某一塊,然后才能裝飾這一塊,不僅麻煩而且限制了創(chuàng)意發(fā)揮。后者則像是在霧蒙蒙的天氣里開車,注意力圖往往很嘈雜,讓AI無法準(zhǔn)確判斷該修改哪些地方。
其次是結(jié)構(gòu)保持與編輯能力之間的矛盾。為了保持背景不變,一些方法會無差別地注入源圖像的特征信息,這就像是給整張畫都刷上一層保護漆,結(jié)果連需要修改的地方也被"保護"起來,無法實現(xiàn)預(yù)期的編輯效果。
最后是軌跡穩(wěn)定性的挑戰(zhàn)。在圖像生成的早期階段,畫面充滿了噪聲,就像是在暴風(fēng)雪中行走,很難看清方向。如果在這個階段就強制進行形狀引導(dǎo),往往會導(dǎo)致整個生成過程偏離正軌,產(chǎn)生扭曲或不自然的結(jié)果。
這些問題就像是三座大山,壓在所有圖像編輯研究者的肩膀上。每當(dāng)他們試圖攻克其中一個問題時,往往會發(fā)現(xiàn)另外兩個問題變得更加嚴(yán)重。這種此消彼長的困境,正是Follow-Your-Shape試圖解決的核心挑戰(zhàn)。
二、核心創(chuàng)新:軌跡分歧圖的妙用
Follow-Your-Shape的最大創(chuàng)新在于提出了"軌跡分歧圖"(Trajectory Divergence Map,簡稱TDM)這個概念。這聽起來很學(xué)術(shù),但其實可以用一個很生動的比喻來理解。
設(shè)想你有兩個朋友,一個按照原始提示詞(比如"一只黑天鵝在游泳")畫畫,另一個按照編輯后的提示詞(比如"一艘木船在漂浮")畫畫。如果我們能夠觀察到他們在每一個繪畫步驟中的"用筆軌跡",就會發(fā)現(xiàn)一個有趣的現(xiàn)象:在需要改變形狀的地方(比如天鵝變成船的區(qū)域),兩個人的繪畫軌跡差異很大;而在背景區(qū)域(比如湖水和遠山),兩個人的軌跡幾乎一模一樣。
軌跡分歧圖正是基于這種直覺設(shè)計的。它通過計算AI模型在處理源提示詞和目標(biāo)提示詞時的"繪畫軌跡"差異,自動識別出哪些區(qū)域需要進行形狀變換。具體來說,對于圖像中的每一個像素位置,TDM都會計算模型在兩種不同提示詞指導(dǎo)下的"速度場"差異。這個速度場可以理解為模型在每個時刻想要如何修改這個像素的"沖動強度"。
當(dāng)兩個速度場差異很大時,說明這個區(qū)域在源圖像和目標(biāo)圖像中應(yīng)該有不同的表現(xiàn),因此需要進行編輯。當(dāng)差異很小時,說明這個區(qū)域在兩種情況下都應(yīng)該保持相似,因此應(yīng)該被保護起來。這種判斷方式完全不依賴外部遮罩或者嘈雜的注意力圖,而是從模型的內(nèi)在行為中自然涌現(xiàn)出來的。
更巧妙的是,TDM不是一成不變的,而是會隨著生成過程的進行而動態(tài)調(diào)整。在生成的早期階段,由于噪聲較大,TDM可能不夠穩(wěn)定。但隨著圖像逐漸成型,TDM會變得越來越準(zhǔn)確和可靠。這就像是在起霧的早晨開車,剛開始路況不清晰,但隨著霧氣散去,道路會變得越來越清楚。
為了更好地利用這種動態(tài)特性,研究團隊設(shè)計了一個巧妙的時間融合機制。他們不是簡單地使用某個時刻的TDM,而是將多個時刻的TDM進行加權(quán)平均,其中權(quán)重由每個位置的分歧強度決定。這樣做的好處是,真正需要編輯的區(qū)域會在多個時刻都顯示出強烈的分歧信號,從而獲得更高的權(quán)重;而那些偶然出現(xiàn)分歧的區(qū)域(可能是由噪聲引起的)則會被自然過濾掉。
得到穩(wěn)定的TDM之后,系統(tǒng)還會對其進行平滑處理,就像給一張略顯粗糙的草圖進行細致的修飾一樣。這個過程通過高斯核卷積來實現(xiàn),確保編輯區(qū)域的邊界自然平滑,避免出現(xiàn)生硬的切割痕跡。最后,通過設(shè)定一個適當(dāng)?shù)拈撝?,將連續(xù)的分歧強度圖轉(zhuǎn)換為明確的二進制編輯遮罩。
這整套TDM機制的美妙之處在于,它完全是從AI模型的內(nèi)在行為中"自然生長"出來的,不需要任何外部監(jiān)督或人工標(biāo)注。它就像是給AI裝上了一個"內(nèi)省系統(tǒng)",讓AI能夠自己判斷哪些地方需要改變,哪些地方需要保持。這種自適應(yīng)的區(qū)域控制能力,正是Follow-Your-Shape能夠在形狀編輯任務(wù)中表現(xiàn)出色的關(guān)鍵所在。
三、分階段注入策略:循序漸進的編輯藝術(shù)
有了準(zhǔn)確的軌跡分歧圖來指導(dǎo)編輯區(qū)域,下一個挑戰(zhàn)就是如何在生成過程中恰當(dāng)?shù)貞?yīng)用這些指導(dǎo)信息。這就像是指揮一場復(fù)雜的交響樂演出,不僅要知道每個樂器應(yīng)該演奏什么音符,還要掌握好每個樂器進入和退出的時機。
Follow-Your-Shape采用了一個三階段的分階段注入策略,將整個圖像生成過程劃分為三個不同的階段,每個階段都有其特定的任務(wù)和處理方式。
第一階段被稱為"初始軌跡穩(wěn)定化"階段。在這個階段,圖像還被大量噪聲所覆蓋,就像是在暴風(fēng)雪中的景象。此時如果貿(mào)然按照TDM進行精確編輯,就像是在風(fēng)雪中試圖進行精細的手工操作,往往會導(dǎo)致整個過程失控。因此,在這個階段,系統(tǒng)會暫時忽略TDM的指導(dǎo),而是無差別地注入來自源圖像的結(jié)構(gòu)信息。這樣做的目的是先讓整個生成軌跡穩(wěn)定下來,就像是先在暴風(fēng)雪中找到一個避風(fēng)港,然后再考慮下一步的行動。
這個階段通常持續(xù)前面幾個生成步驟。通過實驗,研究團隊發(fā)現(xiàn)設(shè)置為2個步驟是最優(yōu)的選擇。太少的話,軌跡穩(wěn)定化不夠充分;太多的話,又會過度抑制后續(xù)的編輯能力。這就像是煮面條時掌握火候,時間剛好的話面條既不會太硬也不會太軟。
第二階段是"TDM指導(dǎo)編輯"階段。當(dāng)圖像的基本結(jié)構(gòu)已經(jīng)穩(wěn)定,噪聲水平降到合理范圍內(nèi)后,就到了TDM發(fā)揮作用的時候了。在這個階段,系統(tǒng)會根據(jù)前面計算得到的TDM來選擇性地注入特征信息。對于TDM標(biāo)識為需要編輯的區(qū)域,系統(tǒng)會使用當(dāng)前生成步驟計算出的新特征;對于TDM標(biāo)識為需要保持的區(qū)域,系統(tǒng)則會注入來自源圖像的原始特征。
這種選擇性注入機制就像是一個精明的修復(fù)師在修復(fù)古畫。對于需要重新繪制的部分,修復(fù)師會使用新的顏料和技法;對于需要保持原貌的部分,修復(fù)師會小心翼翼地保護原有的筆觸和色彩。這樣既能實現(xiàn)預(yù)期的修改效果,又能保持整幅作品的和諧統(tǒng)一。
第三階段被稱為"結(jié)構(gòu)與語義一致性保證"階段。在生成過程的最后階段,圖像的大致形狀和內(nèi)容都已經(jīng)確定,此時的任務(wù)是確保編輯結(jié)果既在結(jié)構(gòu)上合理,又在語義上一致。為了實現(xiàn)這個目標(biāo),系統(tǒng)會同時應(yīng)用兩種不同的控制機制。
首先是結(jié)構(gòu)控制,通過ControlNet來實現(xiàn)。ControlNet就像是一個結(jié)構(gòu)工程師,它會使用深度圖和邊緣檢測圖等結(jié)構(gòu)信息來約束生成過程,確保編輯后的物體在幾何上是合理的。比如,當(dāng)把一只鳥變成一朵花時,ControlNet會確?;ǘ涞男螤罘贤敢曣P(guān)系,不會出現(xiàn)扭曲或變形。
其次是語義控制,通過繼續(xù)應(yīng)用TDM指導(dǎo)的特征注入來實現(xiàn)。這確保了編輯后的物體不僅在形狀上合理,在語義上也與提示詞描述一致。比如,生成的花朵不僅要有花的形狀,還要有花的顏色、紋理等特征。
這種雙重控制機制就像是在建造房屋時,既要確保建筑結(jié)構(gòu)的安全穩(wěn)固,又要確保室內(nèi)裝修的美觀實用。只有兩者都達到標(biāo)準(zhǔn),才能得到一個既安全又美觀的建筑作品。
整個三階段策略的精妙之處在于,它充分考慮了圖像生成過程的動態(tài)特性。在不同的階段采用不同的策略,既避免了早期過度干預(yù)導(dǎo)致的不穩(wěn)定,又確保了后期精確控制的有效性。這種循序漸進的方法,讓AI能夠像一個經(jīng)驗豐富的藝術(shù)家一樣,從粗略的草圖開始,逐步細化和完善,最終創(chuàng)作出令人滿意的作品。
四、全新評測基準(zhǔn):ReShapeBench的誕生
為了客觀評估形狀編輯技術(shù)的效果,研究團隊意識到現(xiàn)有的評測基準(zhǔn)存在明顯不足。現(xiàn)有的圖像編輯評測數(shù)據(jù)集雖然覆蓋面廣,但在形狀變換這個特定任務(wù)上顯得不夠?qū)I(yè)和深入,就像是用通用體檢來評估專業(yè)運動員的競技狀態(tài)一樣,難免會遺漏關(guān)鍵信息。
于是,研究團隊專門構(gòu)建了一個名為ReShapeBench的新評測基準(zhǔn),專門用于評估大規(guī)模形狀變換的效果。這個數(shù)據(jù)集包含了120張精心挑選的圖像,每張圖像都配有詳細的源提示詞和目標(biāo)提示詞對。
在構(gòu)建這個數(shù)據(jù)集時,研究團隊首先明確了什么才算是真正的"形狀變換"。他們提出了四個關(guān)鍵標(biāo)準(zhǔn):跨輪廓變化、跨語義變化、結(jié)構(gòu)性轉(zhuǎn)換和主體連續(xù)性。
跨輪廓變化是指物體的整體輪廓或邊界發(fā)生顯著改變,超出了簡單的縮放或局部變形范圍。比如,把一只天鵝變成一艘船,兩者的輪廓完全不同,這就是典型的跨輪廓變化。
跨語義變化是指變換涉及不同的語義類別,但要保持整體場景的一致性。比如,把咖啡杯上的葉子拉花圖案變成獅子圖案,雖然圖案的語義類別完全不同,但都是咖啡拉花藝術(shù)的一種表現(xiàn)形式,場景的整體邏輯依然合理。
結(jié)構(gòu)性轉(zhuǎn)換強調(diào)的是整體視覺形式的重新配置,需要對多個部分進行改變,而不僅僅是屬性層面的修改(如顏色、紋理等)。這就像是把一輛汽車變成一匹馬,不僅外形完全不同,連構(gòu)成物體的基本元素都發(fā)生了根本性改變。
主體連續(xù)性則要求盡管形狀和語義發(fā)生了變化,但物體應(yīng)該保持其在場景中的空間角色和顯著性,確保視覺連貫性和語境一致性。簡單來說,就是雖然物體變了,但它在整個畫面中的地位和作用應(yīng)該保持相似。
基于這些標(biāo)準(zhǔn),數(shù)據(jù)集被分為三個子集。第一個子集包含70張單一物體圖像,每張圖像都有一個輪廓清晰的主要物體,適合進行精確的形狀編輯。第二個子集包含50張多物體圖像,用于測試模型在復(fù)雜場景中進行有針對性編輯的能力。第三個子集是一個綜合評估集,包含50張從前兩個子集精選出來的高質(zhì)量樣例,外加一些從PIE-Bench數(shù)據(jù)集中篩選的優(yōu)秀案例。
在提示詞的構(gòu)建上,研究團隊也花費了大量心思。他們發(fā)現(xiàn)現(xiàn)有基準(zhǔn)測試中的提示詞往往過于簡潔,缺乏進行精細形狀編輯所需的詳細信息。為了解決這個問題,他們?yōu)槊繌垐D像都設(shè)計了詳細的四句式提示詞結(jié)構(gòu):第一句提供總體概述,第二句描述前景物體,第三句描述背景細節(jié),第四句描述整體場景氛圍。
這種結(jié)構(gòu)化的提示詞設(shè)計就像是給AI提供一份詳細的施工圖紙,不僅說明了要建什么(第一句),還詳細標(biāo)注了各個部分的具體要求(后三句)。在創(chuàng)建編輯提示詞時,只有相關(guān)的屬性(如物體身份或特征)會被修改,其他部分保持不變,確保編輯的精確性和可控性。
為了保證提示詞的質(zhì)量和一致性,研究團隊使用了Qwen-2.5-VL模型來輔助生成初始提示詞,然后由人工進行仔細校驗和優(yōu)化。這個過程就像是先用AI助手起草一份文檔,然后由專業(yè)編輯進行精細修改,確保最終結(jié)果既高效又高質(zhì)量。
在評估指標(biāo)的選擇上,研究團隊采用了四個不同維度的指標(biāo)來全面評估編輯效果。美學(xué)評分用于評估生成圖像的感知質(zhì)量,PSNR和LPIPS用于評估背景保持的效果,CLIP相似度用于評估文本與圖像的匹配程度。這四個指標(biāo)就像是從不同角度審視一件藝術(shù)品,確保評估的全面性和客觀性。
特別值得一提的是,在計算背景保持指標(biāo)時,由于不同方法生成的編輯結(jié)果可能差異很大,直接比較整張圖片的相似度并不公平。研究團隊采用了一個巧妙的策略:使用固定大小的框來遮擋主體物體,然后只比較剩余背景區(qū)域的相似度。這種方法既避免了需要手動標(biāo)注遮罩的麻煩,又確保了比較的公平性。
ReShapeBench的構(gòu)建為形狀編輯領(lǐng)域提供了一個標(biāo)準(zhǔn)化的評估平臺,就像是為這個新興領(lǐng)域建立了一套"行業(yè)標(biāo)準(zhǔn)"。有了這個基準(zhǔn),不同的方法可以在同樣的條件下進行公平比較,推動整個領(lǐng)域的快速發(fā)展。
五、實驗結(jié)果:全面碾壓現(xiàn)有方法
當(dāng)Follow-Your-Shape與現(xiàn)有的圖像編輯方法同臺競技時,其表現(xiàn)就像是專業(yè)廚師與業(yè)余愛好者的對決——差距一目了然。研究團隊將各種主流方法分為兩大類進行比較:基于擴散模型的方法和基于流模型的方法。
在基于擴散模型的方法中,PnPInversion、MasaCtrl和Dit4Edit都是業(yè)界知名的代表性方法。這些方法通過調(diào)節(jié)注意力機制和條件信息來實現(xiàn)圖像編輯。但在面對大規(guī)模形狀變換時,它們往往顯得力不從心。比如在"獅子造型拉花"的案例中,MasaCtrl和Dit4Edit都難以保持背景的完整性,而PnPInversion在"汽車跳躍"這樣的高難度變換中直接"罷工",無法產(chǎn)生預(yù)期的編輯效果。
基于流模型的方法包括RF-Edit、FlowEdit、KV-Edit和FluxKontext等,這些方法基于矯正流框架進行可控生成,整體表現(xiàn)比擴散模型方法更好。它們能夠產(chǎn)生更高質(zhì)量的圖像,背景保持效果也更出色。但即使如此,它們?nèi)匀淮嬖谝恍┟黠@的問題。比如Flux-Kontext在處理"汽車跳躍"場景時出現(xiàn)細節(jié)抖動,KV-Edit在"獅子拉花"和"蜻蜓變換"中產(chǎn)生重影偽影,而幾乎所有基線方法在"帽子變換"這樣的挑戰(zhàn)性案例中都敗下陣來。
相比之下,F(xiàn)ollow-Your-Shape就像是一位技藝精湛的變形大師,能夠輕松應(yīng)對各種復(fù)雜的形狀變換挑戰(zhàn)。無論是單一物體的變換還是多物體的同時編輯,它都能在實現(xiàn)大規(guī)模形狀改變的同時,完美保持非目標(biāo)區(qū)域的原貌。
從定量評估的結(jié)果來看,F(xiàn)ollow-Your-Shape在所有評估指標(biāo)上都取得了最佳成績。在美學(xué)質(zhì)量方面,它獲得了6.57分的高分,超過了所有對比方法。這意味著它生成的圖像不僅技術(shù)上正確,在視覺效果上也更加自然和美觀。
在背景保持效果方面,F(xiàn)ollow-Your-Shape的表現(xiàn)更是令人印象深刻。其PSNR值達到35.79,遠高于其他方法,這表明編輯后的背景區(qū)域與原始圖像幾乎完全一致。同時,其LPIPS得分僅為8.23,這個數(shù)值越低表示感知相似度越高,再次證明了其出色的背景保持能力。
在文本圖像對齊方面,F(xiàn)ollow-Your-Shape的CLIP相似度得分為33.71,同樣是所有方法中的最高分。這說明它不僅能準(zhǔn)確理解編輯指令,還能生成與目標(biāo)描述高度匹配的結(jié)果。
為了深入理解這種性能提升的來源,研究團隊還進行了詳細的消融實驗。他們發(fā)現(xiàn),初始軌跡穩(wěn)定化的步數(shù)設(shè)置對最終效果有重要影響。當(dāng)設(shè)置為0步時,編輯軌跡容易出現(xiàn)漂移,導(dǎo)致結(jié)構(gòu)偏差;當(dāng)設(shè)置過多時,又會過度抑制編輯的靈活性。最終確定2步是最佳選擇,既能保證軌跡穩(wěn)定,又能保持編輯效果。
在ControlNet的應(yīng)用時機和強度設(shè)置方面,實驗發(fā)現(xiàn)在相對較早的階段(如[0.1, 0.3]區(qū)間)應(yīng)用結(jié)構(gòu)指導(dǎo)效果最好,因為此時潛在特征噪聲較少,更容易接受結(jié)構(gòu)約束。而在強度設(shè)置上,適中的參數(shù)(深度2.5,邊緣3.5)能夠在結(jié)構(gòu)保持和編輯靈活性之間取得最佳平衡。
這些實驗結(jié)果共同證明了Follow-Your-Shape方法的有效性。它不僅在技術(shù)指標(biāo)上全面超越現(xiàn)有方法,更重要的是,它為形狀感知的圖像編輯開辟了一條全新的技術(shù)路徑。這種基于軌跡分析的編輯思路,為未來的相關(guān)研究提供了寶貴的啟發(fā)和借鑒。
六、技術(shù)深度解析:算法背后的數(shù)學(xué)美學(xué)
雖然我們已經(jīng)用通俗的語言解釋了Follow-Your-Shape的核心思想,但其技術(shù)實現(xiàn)的精妙之處值得更深入的探討。這就像欣賞一首優(yōu)美的樂曲,我們不僅要感受其旋律的動人,還要理解其和聲結(jié)構(gòu)的巧思。
Follow-Your-Shape基于矯正流(Rectified Flow)框架構(gòu)建。矯正流是一種新興的生成模型技術(shù),它假設(shè)在源分布和目標(biāo)分布之間存在一條直線路徑。與傳統(tǒng)擴散模型的"加噪-去噪"過程不同,矯正流更像是在兩個狀態(tài)之間架設(shè)一座直接的橋梁,讓數(shù)據(jù)可以沿著最短路徑進行變換。
在這個框架下,模型學(xué)習(xí)的是一個速度場函數(shù),它告訴每個數(shù)據(jù)點在每個時刻應(yīng)該朝哪個方向、以多快的速度移動。這就像是給每個行駛中的車輛提供導(dǎo)航指引,確保它們都能沿著最優(yōu)路徑到達目的地。
軌跡分歧圖的計算基于一個簡單而深刻的觀察:當(dāng)我們用不同的提示詞指導(dǎo)同一個生成過程時,模型在不同區(qū)域的"行為偏好"會有所不同。在需要改變的區(qū)域,兩種提示詞會產(chǎn)生截然不同的速度場指引;而在應(yīng)該保持不變的區(qū)域,兩種指引基本相同。
具體的計算過程可以這樣理解:系統(tǒng)會同時運行兩個平行的"思考過程",一個按照源提示詞進行推理,另一個按照目標(biāo)提示詞進行推理。然后,對于圖像中的每一個位置,系統(tǒng)計算這兩個"思考過程"給出的"建議"之間的差異程度。差異大的地方,說明兩種提示詞在這里有不同的"意見",因此需要進行編輯;差異小的地方,說明兩種提示詞在這里"意見一致",因此應(yīng)該保持不變。
為了讓這種差異計算更加穩(wěn)定和可靠,系統(tǒng)采用了時序融合的策略。它不是只看某一個時刻的差異,而是綜合考慮多個時刻的差異模式。這種做法的智慧在于,真正需要編輯的區(qū)域會在多個時刻都表現(xiàn)出一致的差異信號,而那些由隨機噪聲引起的偶發(fā)差異則會被自然過濾掉。
在特征注入的實現(xiàn)上,系統(tǒng)采用了鍵值(Key-Value)注入機制。這個機制源于Transformer架構(gòu)中的注意力計算,可以理解為一種"記憶檢索"過程。在生成圖像時,模型需要不斷地從"記憶庫"中檢索相關(guān)信息來指導(dǎo)當(dāng)前的生成。通過選擇性地注入來自源圖像或目標(biāo)概念的"記憶",系統(tǒng)可以精確控制每個區(qū)域的生成結(jié)果。
這種選擇性注入就像是一個智能的圖書管理員,能夠根據(jù)不同讀者的需求,精確地從龐大的藏書中找到最合適的資料。對于需要保持原貌的區(qū)域,管理員會提供來自"原始檔案"的資料;對于需要創(chuàng)新變化的區(qū)域,管理員則會提供來自"創(chuàng)意數(shù)據(jù)庫"的新資料。
ControlNet的集成為整個系統(tǒng)提供了額外的結(jié)構(gòu)約束。ControlNet就像是一個經(jīng)驗豐富的工程師,它會根據(jù)深度信息和邊緣信息等結(jié)構(gòu)線索,確保生成的結(jié)果在幾何上是合理的。這種結(jié)構(gòu)指導(dǎo)特別重要,因為在進行大規(guī)模形狀變換時,很容易出現(xiàn)透視錯誤或比例失調(diào)等問題。
整個算法的時間復(fù)雜度與標(biāo)準(zhǔn)的流模型生成過程基本相同,但在空間上需要額外的存儲來保存軌跡分析結(jié)果。這種設(shè)計確保了方法的實用性,不會因為追求效果提升而犧牲計算效率。
從工程實現(xiàn)的角度來看,F(xiàn)ollow-Your-Shape的代碼架構(gòu)設(shè)計得相當(dāng)優(yōu)雅。它將軌跡分析、區(qū)域控制和特征注入等功能模塊化,使得每個組件都可以獨立開發(fā)和測試。這種模塊化設(shè)計不僅提高了代碼的可維護性,也為未來的功能擴展和優(yōu)化預(yù)留了充足空間。
更重要的是,這種設(shè)計思路具有很強的通用性。它不僅適用于當(dāng)前的FLUX模型,理論上也可以擴展到其他基于流的生成模型上。這為整個領(lǐng)域的技術(shù)發(fā)展提供了一個可復(fù)制、可擴展的技術(shù)框架。
七、應(yīng)用前景與實際價值
Follow-Your-Shape的出現(xiàn)不僅僅是學(xué)術(shù)研究上的突破,更重要的是它為實際應(yīng)用開辟了廣闊的前景。這項技術(shù)就像是給創(chuàng)意工作者提供了一支魔法畫筆,能夠輕松實現(xiàn)之前需要專業(yè)技能和大量時間才能完成的復(fù)雜編輯任務(wù)。
在內(nèi)容創(chuàng)作領(lǐng)域,F(xiàn)ollow-Your-Shape可以大大簡化設(shè)計師和藝術(shù)家的工作流程。傳統(tǒng)上,如果要將一張照片中的汽車替換成自行車,設(shè)計師需要先精確摳圖,然后尋找合適的自行車素材,再進行復(fù)雜的合成和調(diào)色工作。整個過程可能需要幾個小時甚至更長時間。而使用Follow-Your-Shape,只需要提供一句簡單的文字描述,就能在幾分鐘內(nèi)得到專業(yè)級的編輯結(jié)果。
這種技術(shù)對于廣告制作行業(yè)特別有價值。廣告公司經(jīng)常需要為不同的市場制作類似但又略有差異的廣告素材。比如,同一個產(chǎn)品廣告可能需要在不同的場景中展示——有時在海邊,有時在山間,有時在城市。傳統(tǒng)做法是分別拍攝多套照片,成本高昂且耗時較長。而Follow-Your-Shape可以基于一套基礎(chǔ)照片,快速生成各種變體,大大降低制作成本和周期。
在電子商務(wù)領(lǐng)域,這項技術(shù)同樣有著巨大的應(yīng)用潛力。網(wǎng)店經(jīng)營者經(jīng)常需要展示同一件商品在不同場景中的效果。比如,一把椅子可能需要展示它在客廳、書房、陽臺等不同環(huán)境中的搭配效果。傳統(tǒng)上,這需要為每個場景單獨拍攝產(chǎn)品照片。使用Follow-Your-Shape,商家可以基于一張基礎(chǔ)產(chǎn)品圖,快速生成各種場景下的展示效果,既節(jié)省了拍攝成本,又能為消費者提供更豐富的產(chǎn)品展示。
對于社交媒體內(nèi)容創(chuàng)作者來說,這項技術(shù)提供了前所未有的創(chuàng)意自由度。博主們可以輕松地將自己的照片融入各種有趣的場景中,創(chuàng)作出引人注目的內(nèi)容。比如,可以將自己在咖啡店的照片改成在太空站里喝咖啡,或者將寵物狗的照片變成各種有趣的動物形象。這種創(chuàng)意可能性的擴展,無疑會推動社交媒體內(nèi)容的多樣化和趣味性。
在教育領(lǐng)域,F(xiàn)ollow-Your-Shape也有著獨特的應(yīng)用價值。教師可以使用這項技術(shù)來創(chuàng)建更生動的教學(xué)素材。比如,在歷史課上,可以將現(xiàn)代照片轉(zhuǎn)換成古代場景,幫助學(xué)生更好地理解歷史背景;在生物課上,可以將普通動物變換成不同的進化形態(tài),直觀地展示進化過程。
值得注意的是,這項技術(shù)的應(yīng)用并不限于靜態(tài)圖像。研究團隊已經(jīng)開始探索將其擴展到視頻編輯領(lǐng)域的可能性。雖然目前在視頻應(yīng)用中還面臨一些技術(shù)挑戰(zhàn),主要是軌跡分歧圖在時間維度上的穩(wěn)定性問題,但初步實驗已經(jīng)顯示出了可行性。一旦這些挑戰(zhàn)得到解決,F(xiàn)ollow-Your-Shape將能夠?qū)崿F(xiàn)視頻中物體的連續(xù)形狀變換,為視頻制作行業(yè)帶來革命性的變化。
從技術(shù)普及的角度來看,F(xiàn)ollow-Your-Shape作為一種無需訓(xùn)練的方法,具有很強的實用性。用戶不需要準(zhǔn)備大量訓(xùn)練數(shù)據(jù),也不需要進行復(fù)雜的模型訓(xùn)練,只要有一個預(yù)訓(xùn)練的基礎(chǔ)模型,就可以直接應(yīng)用這種編輯技術(shù)。這種"即插即用"的特性,使得它很容易被集成到各種應(yīng)用軟件中,降低了技術(shù)應(yīng)用的門檻。
當(dāng)然,技術(shù)的應(yīng)用也需要考慮潛在的風(fēng)險和挑戰(zhàn)。強大的圖像編輯能力可能被濫用于制作虛假信息或誤導(dǎo)性內(nèi)容。因此,在推廣這項技術(shù)的同時,也需要建立相應(yīng)的倫理規(guī)范和技術(shù)檢測手段,確保技術(shù)的正面應(yīng)用。
總的來說,F(xiàn)ollow-Your-Shape代表了圖像編輯技術(shù)發(fā)展的一個重要里程碑。它不僅在技術(shù)上取得了突破,更重要的是為各行各業(yè)的創(chuàng)意工作者提供了強大的工具支持。隨著技術(shù)的進一步完善和應(yīng)用場景的不斷拓展,我們有理由相信它將在未來的數(shù)字創(chuàng)意產(chǎn)業(yè)中發(fā)揮重要作用。
歸根結(jié)底,F(xiàn)ollow-Your-Shape的價值不僅在于它能做什么,更在于它為人們的創(chuàng)意表達提供了新的可能性。當(dāng)技術(shù)障礙被逐一清除,當(dāng)創(chuàng)意實現(xiàn)變得更加容易,我們就能看到更多精彩的創(chuàng)意作品涌現(xiàn)出來。這項由香港科技大學(xué)團隊開發(fā)的技術(shù),正在為這樣的未來鋪平道路。感興趣的讀者可以通過訪問https://follow-your-shape.github.io/來了解更多技術(shù)細節(jié),或者下載相關(guān)的代碼和數(shù)據(jù)來親自體驗這項革命性的圖像編輯技術(shù)。
Q&A
Q1:Follow-Your-Shape技術(shù)是什么?它能解決什么問題?
A:Follow-Your-Shape是香港科技大學(xué)開發(fā)的AI圖像編輯技術(shù),專門用于大規(guī)模形狀變換。它能將照片中的物體變成完全不同的形狀,比如把天鵝變成小船、把鸚鵡變成帽子,同時完美保持背景不變。這項技術(shù)無需手動制作遮罩,也不需要額外訓(xùn)練,直接通過文字描述就能實現(xiàn)精準(zhǔn)的形狀編輯。
Q2:軌跡分歧圖TDM是如何工作的?
A:軌跡分歧圖就像給AI裝上了一雙慧眼,能自動識別哪些區(qū)域需要修改。它通過比較AI在處理原始提示詞和編輯提示詞時的"思考軌跡"差異來工作。差異大的地方說明需要編輯,差異小的地方說明要保持原樣。這種判斷完全來自AI的內(nèi)在行為,不依賴外部遮罩或嘈雜的注意力圖,因此更準(zhǔn)確可靠。
Q3:這項技術(shù)有什么實際應(yīng)用價值?
A:Follow-Your-Shape在多個領(lǐng)域都有巨大應(yīng)用價值。設(shè)計師可以快速進行創(chuàng)意修改,廣告公司能低成本制作多版本素材,電商商家可以展示產(chǎn)品在不同場景的效果,社交媒體創(chuàng)作者能制作更有趣的內(nèi)容。它將復(fù)雜的專業(yè)圖像編輯變成了簡單的文字描述操作,大大降低了創(chuàng)意表達的技術(shù)門檻。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機制和漸進式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學(xué)習(xí)外觀和運動信息,顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報,準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。