av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 AI繪畫新突破:科大團隊讓計算機學會多圖像組合和精確布局控制

AI繪畫新突破:科大團隊讓計算機學會多圖像組合和精確布局控制

2025-08-08 11:54
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-08-08 11:54 ? 科技行者

這項由中國科學技術(shù)大學陳宇卓、馬澤華、張為明教授團隊聯(lián)合onestory團隊和華東師范大學共同完成的研究發(fā)表于2025年8月,論文標題為"LAMIC: Layout-Aware Multi-Image Composition via Scalability of Multimodal Diffusion Transformer"。感興趣的讀者可以通過論文的GitHub開源地址 http://github.com/Suchenl/LAMIC 獲取完整的技術(shù)實現(xiàn)代碼。

當你在制作電影海報或者設(shè)計一張包含多個人物的宣傳圖時,是否遇到過這樣的困擾:想要把不同照片中的人物組合到同一場景中,還要控制他們在畫面中的精確位置,但現(xiàn)有的AI工具要么只能處理單張參考圖片,要么無法精確控制每個元素的位置?中科大的研究團隊針對這個實際需求,開發(fā)了一個名為LAMIC的全新框架,首次實現(xiàn)了既能同時使用多張參考圖片,又能精確控制每個元素在最終畫面中位置的AI圖像生成技術(shù)。

過去的AI圖像生成技術(shù)就像一個只能看一張樣本的畫師,你給它一張參考照片,它能畫出類似的內(nèi)容,但如果你想要它同時參考多張不同的圖片來創(chuàng)作,就會出現(xiàn)各種問題。更重要的是,這些傳統(tǒng)方法無法讓你指定"把這個人放在畫面左邊,那個物體放在右上角"這樣的精確布局要求。而LAMIC框架的出現(xiàn),就像是給這位畫師配備了一副能同時觀察多個樣本的特殊眼鏡,還教會了他按照你的布局圖紙精確安排每個元素的位置。

研究團隊在現(xiàn)有的多模態(tài)擴散變換器模型基礎(chǔ)上,設(shè)計了兩個巧妙的注意力機制來解決多圖像組合中的核心難題。第一個機制叫做"群組隔離注意力",就像給每張參考圖片安排了獨立的工作空間,防止不同圖片中的信息混淆。第二個機制稱為"區(qū)域調(diào)制注意力",它能夠根據(jù)你指定的布局要求,精確控制每個元素應(yīng)該出現(xiàn)的位置。

**一、突破傳統(tǒng)限制的創(chuàng)新思路**

傳統(tǒng)的圖像生成方法面臨著一個根本性的矛盾:要么專注于單張圖片的高質(zhì)量處理,要么嘗試處理多張圖片但效果不佳。這就像一個廚師,要么專精做一道菜做得很好,要么試圖同時做多道菜但每道都不夠味?,F(xiàn)有的多圖像生成方法通常需要重新訓練整個模型,這不僅需要大量的數(shù)據(jù)和計算資源,而且很難收集到高質(zhì)量的多圖像訓練數(shù)據(jù)集。

LAMIC采用了一種完全不同的思路:不重新訓練模型,而是在現(xiàn)有的高性能單圖像生成模型基礎(chǔ)上,通過巧妙的注意力控制機制來實現(xiàn)多圖像處理能力。這種方法的妙處在于,它能夠繼承已經(jīng)訓練好的單圖像模型的所有優(yōu)勢,同時擴展出多圖像處理的新能力。就像給一位經(jīng)驗豐富的單人表演藝術(shù)家提供了一套協(xié)調(diào)多人演出的指揮技巧,既保留了原有的表演水準,又獲得了處理復雜場面的新能力。

研究團隊發(fā)現(xiàn),多模態(tài)擴散變換器的架構(gòu)天然具有擴展性。這些模型通過將文本和圖像信息編碼成統(tǒng)一的表示形式,為引入多個參考圖像提供了可能。關(guān)鍵的洞察是:既然單個參考圖像可以通過令牌拼接的方式引入模型,那么多個參考圖像理論上也可以用同樣的方式處理,問題的核心在于如何防止這些不同來源的信息相互干擾。

**二、精密的注意力控制機制**

LAMIC框架的核心創(chuàng)新在于兩個相互配合的注意力機制。群組隔離注意力機制的工作原理類似于一個圖書館的分區(qū)管理系統(tǒng)。每張參考圖片、對應(yīng)的文本描述和空間布局信息被組織成一個"視覺-文本-空間"三元組,就像圖書館中的一個專門區(qū)域。群組隔離注意力確保每個三元組內(nèi)部的信息可以充分交互,但不同三元組之間不會產(chǎn)生混淆。

這種設(shè)計解決了多圖像生成中的一個關(guān)鍵問題:語義泄漏。當你想要生成包含"一個穿紅衣服的女孩"和"一只白色的貓"的圖片時,沒有適當控制的系統(tǒng)可能會產(chǎn)生"一只穿紅衣服的白貓"或者"一個白衣服的女孩"這樣的錯誤結(jié)果。群組隔離注意力通過限制跨組信息流動,有效防止了這種屬性混淆現(xiàn)象。

區(qū)域調(diào)制注意力機制則進一步細化了空間控制能力。它采用了一種分階段的處理策略:在生成過程的早期階段,嚴格限制不同空間區(qū)域之間的信息交換,確保每個元素在指定區(qū)域內(nèi)獨立發(fā)展;在后期階段,逐步放開限制,允許不同區(qū)域之間進行必要的協(xié)調(diào),實現(xiàn)整體畫面的和諧統(tǒng)一。這種策略類似于建造房屋時先打好各個房間的地基和框架,最后再進行統(tǒng)一的裝修和協(xié)調(diào)。

研究團隊通過大量實驗發(fā)現(xiàn),這種分階段策略中早期階段的時長對最終效果有顯著影響。如果早期限制時間太短,元素可能偏離指定位置;如果時間太長,畫面整體協(xié)調(diào)性可能受損。通過系統(tǒng)性的測試,他們確定了最優(yōu)的分階段比例,通常將總生成步驟的5%用于嚴格的區(qū)域隔離階段。

**三、全面的性能評估體系**

為了科學評估LAMIC的性能,研究團隊不僅使用了現(xiàn)有的評價指標,還專門設(shè)計了三個新的評估標準。這些新指標就像為一場綜合性的藝術(shù)比賽制定了更加全面和精確的評分標準。

背景相似性指標衡量生成圖像的背景與預(yù)期背景的一致程度。這個指標結(jié)合了多個維度的信息:深度學習特征的相似性、顏色分布的匹配度、結(jié)構(gòu)相似性以及顏色直方圖的對比。就像評判一幅畫作時不僅要看主體人物是否準確,還要看背景環(huán)境是否營造得當。

包含比例和填充比例這兩個指標專門評估布局控制的精確程度。包含比例衡量生成的目標對象有多少比例位于指定區(qū)域內(nèi),而填充比例則評估指定區(qū)域被目標對象覆蓋的程度。這兩個指標的結(jié)合使用,能夠全面反映系統(tǒng)的空間控制能力。比如,如果你要求把一個人物放在畫面左半邊,包含比例高說明人物確實主要在左邊,填充比例高說明左邊區(qū)域被人物很好地填充了。

在與現(xiàn)有方法的對比測試中,LAMIC在絕大多數(shù)指標上都取得了最佳表現(xiàn)。特別是在身份保持、背景一致性和布局控制方面,LAMIC相比第二名的方法有顯著優(yōu)勢。在雙參考圖像的測試中,LAMIC的身份相似性得分達到78.04,比第二名高出近9個百分點;背景相似性得分為83.14,比第二名高出2.55個百分點。隨著參考圖像數(shù)量增加到三張和四張,LAMIC的優(yōu)勢變得更加明顯,證明了其處理復雜多圖像場景的強大能力。

**四、實際應(yīng)用效果展示**

研究團隊展示了大量生成效果的對比案例,這些案例直觀地體現(xiàn)了LAMIC的實際應(yīng)用價值。在一個包含老人和像素風戰(zhàn)士的組合案例中,LAMIC成功保持了老人的面部特征和戰(zhàn)士的風格化結(jié)構(gòu),同時實現(xiàn)了自然的融合效果,而其他方法要么出現(xiàn)過度平滑,要么產(chǎn)生形變失真。

在更復雜的海龜、水母、人物和森林的四元素組合場景中,LAMIC準確地按照空間布局要求放置了每個元素,并保持了各自的視覺特征。相比之下,大多數(shù)baseline方法都出現(xiàn)了對象錯配或語義偏移的問題。這些實際效果充分證明了LAMIC在復雜多元素場景中的處理能力。

特別值得注意的是,LAMIC的布局控制能力在定量測試中表現(xiàn)突出。在所有測試配置下,LAMIC的包含比例都達到了90左右的高分,顯著超過其他方法。這意味著生成的對象基本都能精確定位在指定區(qū)域內(nèi)。雖然在填充比例方面LAMIC相比其他方法的優(yōu)勢不如包含比例那么明顯,但這反映了一個實際應(yīng)用中的平衡:過度強調(diào)填充可能導致對象變形或比例失調(diào)。

**五、技術(shù)實現(xiàn)的巧思**

LAMIC的技術(shù)實現(xiàn)展現(xiàn)了研究團隊的巧妙構(gòu)思。整個框架采用了模塊化設(shè)計,可以無縫集成到現(xiàn)有的多模態(tài)擴散變換器中。系統(tǒng)將每個參考輸入組織為結(jié)構(gòu)化的三元組:視覺參考圖像提供外觀信息,自屬性描述文本指定保持或修改的特征,空間布局信息確定目標位置。

除了這些基本三元組,系統(tǒng)還引入了跨實體交互指令,用于描述不同對象之間的關(guān)系,比如"A騎著B"或"A站在B旁邊"。這種設(shè)計使得系統(tǒng)不僅能處理獨立的多對象場景,還能生成具有復雜交互關(guān)系的圖像。

在編碼階段,系統(tǒng)使用預(yù)訓練的視覺編碼器將參考圖像轉(zhuǎn)換為潛在表示,使用T5或CLIP等文本編碼器處理文本信息,并將空間布局信息下采樣到合適的分辨率。所有這些不同模態(tài)的信息最終被統(tǒng)一編碼到同一個表示空間中,為后續(xù)的注意力控制奠定基礎(chǔ)。

研究團隊在消融實驗中驗證了每個組件的重要性。去除區(qū)域調(diào)制注意力會導致布局控制能力的顯著下降,雖然可能保持較好的美學質(zhì)量。而去除群組隔離注意力則會造成更嚴重的問題,不僅布局控制能力幾乎完全喪失,多個參考實體還經(jīng)常會融合成單一的混合形式。這些實驗結(jié)果清楚地展示了兩個注意力機制的協(xié)同重要性。

**六、對未來發(fā)展的啟示**

LAMIC框架的成功不僅在于其具體的技術(shù)實現(xiàn),更重要的是它展示了一種新的研究范式:無需重新訓練的能力擴展。這種方法避免了大規(guī)模數(shù)據(jù)收集和模型重訓練的成本,同時能夠充分利用現(xiàn)有模型的已學習知識。隨著基礎(chǔ)模型能力的不斷提升,基于這種范式的方法也會自然地獲得性能改進。

當前的實現(xiàn)還有進一步優(yōu)化的空間。研究團隊指出,在處理緊密相鄰的相似對象時,系統(tǒng)偶爾還會出現(xiàn)屬性混淆。他們計劃通過更精細的注意力設(shè)計來解決這個問題,同時保持區(qū)域邊界的自然平滑性。另外,他們還考慮探索更早期的跨實體交互注入機制,以增強實體間的互動效果和語言控制能力。

從更廣闊的視角來看,LAMIC的成功為可控圖像生成領(lǐng)域指出了一個有前景的方向:通過巧妙的機制設(shè)計來擴展現(xiàn)有模型的能力,而不是每次都從零開始。這種思路對于快速發(fā)展的AI領(lǐng)域具有重要的實用價值,特別是在計算資源有限但應(yīng)用需求不斷增長的背景下。

研究團隊已經(jīng)將LAMIC的實現(xiàn)代碼開源,這為相關(guān)研究和實際應(yīng)用提供了便利。隨著數(shù)字內(nèi)容創(chuàng)作需求的增長,特別是在影視制作、廣告設(shè)計、游戲開發(fā)等領(lǐng)域,LAMIC這樣的工具有望成為創(chuàng)作者們的得力助手,讓復雜的多元素圖像合成變得簡單而可控。

Q&A

Q1:LAMIC是什么?它能解決什么問題?

A:LAMIC是中科大團隊開發(fā)的一個AI圖像生成框架,專門解決多張參考圖片組合和精確位置控制的問題。它能讓你同時使用多張不同的參考圖片來生成新圖像,還能精確指定每個元素在最終畫面中的位置,就像一個能同時參考多個樣本的智能畫師。

Q2:LAMIC和現(xiàn)有的AI繪畫工具有什么區(qū)別?

A:現(xiàn)有的AI繪畫工具大多只能處理單張參考圖片,或者無法精確控制元素位置。LAMIC的突破在于它既能同時處理多張參考圖片,又能精確控制布局,而且不需要重新訓練模型,直接在現(xiàn)有模型基礎(chǔ)上就能實現(xiàn)這些功能。

Q3:LAMIC的布局控制到底有多精確?

A:根據(jù)測試結(jié)果,LAMIC的包含比例(目標對象位于指定區(qū)域的準確度)達到了90左右的高分,遠超其他方法。這意味著如果你指定某個人物放在畫面左邊,生成結(jié)果中這個人物基本都會準確出現(xiàn)在左邊區(qū)域,精確度非常高。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-