這項來自香港科技大學(廣州)、夸萬公司和香港科技大學聯(lián)合研究團隊的最新研究成果發(fā)表于2025年6月的arXiv預印本平臺(arXiv:2506.02620v1),由董宇彥、吳樂怡等人共同完成,通訊作者為陳穎聰教授。這項研究介紹了一種名為"FlexPainter"的創(chuàng)新紋理生成管道,能夠根據(jù)多種靈活的用戶提示生成多樣化、高質(zhì)量的3D模型紋理。
一、為什么3D紋理生成如此重要?
想象一下,你正在為一個虛擬現(xiàn)實游戲創(chuàng)建角色。你已經(jīng)完成了角色的3D形狀建模,但它看起來就像一塊未上漆的木頭雕塑——毫無生氣。這時,你需要給它添加紋理,就像給雕塑上色一樣,讓它變得栩栩如生。這個"上色"的過程,在3D建模中被稱為"紋理生成",它對于游戲、電影、虛擬現(xiàn)實和動畫等領域至關重要。
隨著擴散模型(想象成一種能從噪聲中逐漸"提煉"出清晰圖像的AI魔法)的快速發(fā)展,研究人員們開始探索如何利用這些模型來自動生成3D紋理。然而,當前的紋理生成方法面臨兩大挑戰(zhàn):一是控制靈活性有限,用戶很難精確表達自己想要的效果;二是生成的多視角圖像之間常常存在不一致性,導致最終紋理效果不佳。
香港科技大學的研究團隊開發(fā)的FlexPainter系統(tǒng),就像是一位既能理解多種表達方式又能保持畫風一致性的魔法畫師,旨在解決這兩大挑戰(zhàn)。
二、FlexPainter如何理解你的需求?
想象你正在向一位畫家描述你想要的畫作。有時候,你可能會用文字描述:"我想要一個粉色的樹樁";有時候,你可能會拿出一張參考圖片說:"我想要這種風格";更多時候,你可能會混合使用文字和圖片來表達你的想法。FlexPainter就像這樣一位能理解各種表達方式的超級畫家。
研究團隊構建了一個共享的條件嵌入空間,你可以把它想象成一個翻譯中心,能夠將不同形式的輸入(文字、圖片)轉化為機器能理解的統(tǒng)一語言。這樣,系統(tǒng)就能靈活地聚合來自不同輸入模態(tài)的信息。
比如,當你輸入文字"一個帶粉色皮革和棕色木腿的沙發(fā)"時,系統(tǒng)能夠理解并生成相應的紋理。當你提供一張鸚鵡圖片作為參考時,系統(tǒng)也能生成類似風格的紋理。更神奇的是,你還可以同時使用文字和圖片,甚至調(diào)整它們之間的影響權重,就像告訴畫家:"我想要這張圖片的顏色,但要根據(jù)我的文字描述來調(diào)整一下。"
研究團隊還基于這個嵌入空間,提出了一種基于圖像的無分類器指導(CFG)方法。這聽起來可能有點復雜,但它的作用很直觀:它能夠分解圖像中的結構和風格信息,從而實現(xiàn)基于參考圖像的風格化。想象你有一張藍色波浪圖案的參考圖片,但你不想讓生成的紋理復制圖片中的波浪形狀,只想借鑒其藍色調(diào)。FlexPainter可以通過使用圖片的灰度版本作為"負面提示",消除結構信息而保留風格特征,從而生成既有參考圖片風格又符合目標物體形狀的紋理。
三、FlexPainter如何確保多視角一致性?
在生成3D物體的紋理時,一個關鍵挑戰(zhàn)是確保從不同角度看到的紋理保持一致。想象一下,如果你制作的虛擬角色在你轉動視角時,臉上的圖案突然變了樣子,那會是多么奇怪的體驗!
FlexPainter從全局和局部兩個角度解決了這個問題。從全局角度看,研究團隊采用了多視角圖像網(wǎng)格表示作為生成目標,就像同時請多位畫家從不同角度繪制同一個物體,并讓他們相互交流以保持一致性。通過這種方式,不同視角之間的注意力機制可以確保對物體的整體理解,從而保持全局一致性。
從局部角度看,研究團隊提出了一種基于重投影的視角同步和自適應加權模塊。這聽起來很復雜,但我們可以用一個簡單的比喻來理解:想象幾位畫家在繪制同一個物體的不同角度,每隔一段時間,他們會暫停,將各自的畫作組合起來形成一個完整的展開圖(UV貼圖),然后基于這個統(tǒng)一的展開圖繼續(xù)各自的繪制工作。這就是視角同步的過程。
在合并不同視角的部分UV貼圖時,傳統(tǒng)方法通常使用一種簡單的加權函數(shù),就像按照固定比例混合不同畫家的作品。但這種簡單的方法可能導致對不同輸入的適應性和魯棒性較差。研究團隊開發(fā)了一個名為WeighterNet的網(wǎng)絡,它能夠根據(jù)生成內(nèi)容的質(zhì)量動態(tài)調(diào)整權重,就像一位有經(jīng)驗的總監(jiān)能夠根據(jù)不同畫家的表現(xiàn)動態(tài)調(diào)整他們作品的采納比例。
最后,研究團隊還應用了一個基于擴散的紋理補全模塊和一個紋理增強網(wǎng)絡,以生成無縫、高分辨率的紋理貼圖,就像對最終作品進行精修和上光處理。
四、FlexPainter的工作流程是怎樣的?
FlexPainter的整個工作流程可以想象成一個協(xié)作創(chuàng)作過程。首先,系統(tǒng)接收用戶的輸入,可以是文字描述、參考圖片或兩者的組合。然后,通過共享條件嵌入空間,將這些輸入轉化為統(tǒng)一的表示。
接下來,系統(tǒng)使用基于流匹配的潛在擴散模型生成多視角圖像。想象成一個從噪聲逐步清晰化的過程,就像從一團迷霧中逐漸顯現(xiàn)出清晰的圖像。在生成過程中,系統(tǒng)使用視角同步機制確保不同視角之間的一致性,并使用WeighterNet網(wǎng)絡智能地合并不同視角的信息。
生成的多視角圖像然后被投影到UV空間(一種將3D表面展開為2D的方式,就像將地球儀的表面展開成世界地圖),形成初步的紋理貼圖。由于視角限制,某些區(qū)域可能無法直接觀察到,因此需要使用紋理補全模塊填充這些區(qū)域。最后,紋理增強網(wǎng)絡提高紋理的分辨率和細節(jié),生成最終的高質(zhì)量紋理貼圖。
五、FlexPainter的表現(xiàn)如何?
研究團隊進行了全面的實驗,證明FlexPainter在靈活性和生成質(zhì)量方面都顯著優(yōu)于現(xiàn)有的最先進方法。在文字到紋理的生成任務中,F(xiàn)lexPainter在FID(衡量生成圖像與真實圖像分布差異的指標)和KID(一種類似FID但更適合小樣本的指標)上都取得了最好的成績,用戶偏好率也達到了28.3%,超過了所有對比方法。
在圖像到紋理的生成任務中,F(xiàn)lexPainter更是展現(xiàn)出壓倒性優(yōu)勢,F(xiàn)ID和KID分別為59.492和62.089,遠好于對比方法Paint3D的83.977和267.132,用戶偏好率高達71.4%,遠超Paint3D的28.6%。
研究團隊還進行了消融研究,驗證了視角同步、WeighterNet和基于圖像的CFG各自的貢獻。結果表明,完整的FlexPainter模型生成的紋理一致且高質(zhì)量,而缺少這些模塊的方法則可能出現(xiàn)幽靈偽影和質(zhì)量下降。
六、FlexPainter能做什么?
FlexPainter的應用場景非常廣泛。在實驗中,研究團隊展示了多種應用,包括:
1. 文本到紋理生成:用戶可以通過文字描述生成想要的紋理,如"一個彩虹色的貝殼"或"一個冰雪覆蓋風格的樹樁"。
2. 圖像到紋理生成:用戶可以提供參考圖片,系統(tǒng)會生成具有類似風格或特征的紋理。
3. 文本引導的圖像精修:用戶可以提供一張基礎圖片,然后用文字描述來調(diào)整或細化它,如添加特定的顏色或風格元素。
4. 基于參考圖像的風格化:用戶可以提供一張風格參考圖片,系統(tǒng)會提取其風格特征(如顏色、紋理)應用到生成的紋理上,同時保持目標物體的結構特征。
這些應用場景使FlexPainter成為3D藝術家和設計師的強大工具,能夠大大提高紋理創(chuàng)建的效率和質(zhì)量。
七、未來的發(fā)展方向
盡管FlexPainter在靈活性和一致性方面取得了顯著進展,但研究團隊也指出了一些潛在的改進方向。例如,進一步增強對3D幾何信息的利用,提高紋理補全的質(zhì)量和細節(jié),以及探索如何更好地處理包含光照效果的紋理生成等。
八、總結
FlexPainter是一個創(chuàng)新的紋理生成框架,它通過構建共享條件嵌入空間實現(xiàn)了靈活的多模態(tài)輸入控制,并通過多視角圖像網(wǎng)格表示和視角同步機制確保了生成紋理的一致性。通過全面的實驗,研究團隊證明了FlexPainter在靈活性和生成質(zhì)量方面都顯著優(yōu)于現(xiàn)有方法。
這項研究不僅推進了紋理生成技術的發(fā)展,也為3D內(nèi)容創(chuàng)作提供了更加直觀、高效的工具。隨著虛擬現(xiàn)實、增強現(xiàn)實和元宇宙等領域的快速發(fā)展,像FlexPainter這樣的技術將發(fā)揮越來越重要的作用,使創(chuàng)作者能夠更輕松地生成高質(zhì)量、符合期望的3D內(nèi)容。
對于想要深入了解這項研究的讀者,可以通過arXiv:2506.02620v1獲取完整論文。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結合大語言模型的敘事推理能力與音頻生成技術,通過交錯式推理生成、解耦橋接機制和漸進式訓練,能夠將復雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學聯(lián)合研發(fā)的VideoJAM技術,通過讓AI同時學習外觀和運動信息,顯著解決了當前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術僅需添加兩個線性層就能大幅提升運動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實用化應用奠定了重要基礎。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓練數(shù)據(jù)集和MM-AlignBench評測基準,通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預報,準確性超越傳統(tǒng)方法90%的指標。該模型采用圖神經(jīng)網(wǎng)絡技術,通過學習40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學領域帶來了效率和精度的雙重突破。