av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃，關注公眾號

科技行者
算力行者

見證連接與計算的「力量」

FlexPainter：香港科技大學團隊打造的靈活多視角一致性紋理生成系統(tǒng)

人工智能紋理生成3D建模

FlexPainter：香港科技大學團隊打造的靈活多視角一致性紋理生成系統(tǒng)

作者：科技行者

2025-06-09 14:34

分享至：

FlexPainter是香港科技大學團隊開發(fā)的創(chuàng)新紋理生成系統(tǒng)，通過多模態(tài)輸入控制實現(xiàn)靈活創(chuàng)作，并解決了多視角一致性問題。系統(tǒng)構建了共享條件嵌入空間，能同時理解文字和圖像輸入；提出基于圖像的CFG方法實現(xiàn)結構與風格分離；通過多視角圖像網(wǎng)格表示和視角同步機制確保全局和局部一致性；最終生成高質(zhì)量、無縫的紋理貼圖。實驗證明系統(tǒng)在靈活性和生成質(zhì)量上顯著優(yōu)于現(xiàn)有方法，為3D內(nèi)容創(chuàng)作提供了更直觀高效的工具。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-06-09 14:34 ? 科技行者

這項來自香港科技大學（廣州）、夸萬公司和香港科技大學聯(lián)合研究團隊的最新研究成果發(fā)表于2025年6月的arXiv預印本平臺（arXiv:2506.02620v1），由董宇彥、吳樂怡等人共同完成，通訊作者為陳穎聰教授。這項研究介紹了一種名為"FlexPainter"的創(chuàng)新紋理生成管道，能夠根據(jù)多種靈活的用戶提示生成多樣化、高質(zhì)量的3D模型紋理。

一、為什么3D紋理生成如此重要？

想象一下，你正在為一個虛擬現(xiàn)實游戲創(chuàng)建角色。你已經(jīng)完成了角色的3D形狀建模，但它看起來就像一塊未上漆的木頭雕塑——毫無生氣。這時，你需要給它添加紋理，就像給雕塑上色一樣，讓它變得栩栩如生。這個"上色"的過程，在3D建模中被稱為"紋理生成"，它對于游戲、電影、虛擬現(xiàn)實和動畫等領域至關重要。

隨著擴散模型（想象成一種能從噪聲中逐漸"提煉"出清晰圖像的AI魔法）的快速發(fā)展，研究人員們開始探索如何利用這些模型來自動生成3D紋理。然而，當前的紋理生成方法面臨兩大挑戰(zhàn)：一是控制靈活性有限，用戶很難精確表達自己想要的效果；二是生成的多視角圖像之間常常存在不一致性，導致最終紋理效果不佳。

香港科技大學的研究團隊開發(fā)的FlexPainter系統(tǒng)，就像是一位既能理解多種表達方式又能保持畫風一致性的魔法畫師，旨在解決這兩大挑戰(zhàn)。

二、FlexPainter如何理解你的需求？

想象你正在向一位畫家描述你想要的畫作。有時候，你可能會用文字描述："我想要一個粉色的樹樁"；有時候，你可能會拿出一張參考圖片說："我想要這種風格"；更多時候，你可能會混合使用文字和圖片來表達你的想法。FlexPainter就像這樣一位能理解各種表達方式的超級畫家。

研究團隊構建了一個共享的條件嵌入空間，你可以把它想象成一個翻譯中心，能夠將不同形式的輸入（文字、圖片）轉化為機器能理解的統(tǒng)一語言。這樣，系統(tǒng)就能靈活地聚合來自不同輸入模態(tài)的信息。

比如，當你輸入文字"一個帶粉色皮革和棕色木腿的沙發(fā)"時，系統(tǒng)能夠理解并生成相應的紋理。當你提供一張鸚鵡圖片作為參考時，系統(tǒng)也能生成類似風格的紋理。更神奇的是，你還可以同時使用文字和圖片，甚至調(diào)整它們之間的影響權重，就像告訴畫家："我想要這張圖片的顏色，但要根據(jù)我的文字描述來調(diào)整一下。"

研究團隊還基于這個嵌入空間，提出了一種基于圖像的無分類器指導（CFG）方法。這聽起來可能有點復雜，但它的作用很直觀：它能夠分解圖像中的結構和風格信息，從而實現(xiàn)基于參考圖像的風格化。想象你有一張藍色波浪圖案的參考圖片，但你不想讓生成的紋理復制圖片中的波浪形狀，只想借鑒其藍色調(diào)。FlexPainter可以通過使用圖片的灰度版本作為"負面提示"，消除結構信息而保留風格特征，從而生成既有參考圖片風格又符合目標物體形狀的紋理。

三、FlexPainter如何確保多視角一致性？

在生成3D物體的紋理時，一個關鍵挑戰(zhàn)是確保從不同角度看到的紋理保持一致。想象一下，如果你制作的虛擬角色在你轉動視角時，臉上的圖案突然變了樣子，那會是多么奇怪的體驗！

FlexPainter從全局和局部兩個角度解決了這個問題。從全局角度看，研究團隊采用了多視角圖像網(wǎng)格表示作為生成目標，就像同時請多位畫家從不同角度繪制同一個物體，并讓他們相互交流以保持一致性。通過這種方式，不同視角之間的注意力機制可以確保對物體的整體理解，從而保持全局一致性。

從局部角度看，研究團隊提出了一種基于重投影的視角同步和自適應加權模塊。這聽起來很復雜，但我們可以用一個簡單的比喻來理解：想象幾位畫家在繪制同一個物體的不同角度，每隔一段時間，他們會暫停，將各自的畫作組合起來形成一個完整的展開圖（UV貼圖），然后基于這個統(tǒng)一的展開圖繼續(xù)各自的繪制工作。這就是視角同步的過程。

在合并不同視角的部分UV貼圖時，傳統(tǒng)方法通常使用一種簡單的加權函數(shù)，就像按照固定比例混合不同畫家的作品。但這種簡單的方法可能導致對不同輸入的適應性和魯棒性較差。研究團隊開發(fā)了一個名為WeighterNet的網(wǎng)絡，它能夠根據(jù)生成內(nèi)容的質(zhì)量動態(tài)調(diào)整權重，就像一位有經(jīng)驗的總監(jiān)能夠根據(jù)不同畫家的表現(xiàn)動態(tài)調(diào)整他們作品的采納比例。

最后，研究團隊還應用了一個基于擴散的紋理補全模塊和一個紋理增強網(wǎng)絡，以生成無縫、高分辨率的紋理貼圖，就像對最終作品進行精修和上光處理。

四、FlexPainter的工作流程是怎樣的？

FlexPainter的整個工作流程可以想象成一個協(xié)作創(chuàng)作過程。首先，系統(tǒng)接收用戶的輸入，可以是文字描述、參考圖片或兩者的組合。然后，通過共享條件嵌入空間，將這些輸入轉化為統(tǒng)一的表示。

接下來，系統(tǒng)使用基于流匹配的潛在擴散模型生成多視角圖像。想象成一個從噪聲逐步清晰化的過程，就像從一團迷霧中逐漸顯現(xiàn)出清晰的圖像。在生成過程中，系統(tǒng)使用視角同步機制確保不同視角之間的一致性，并使用WeighterNet網(wǎng)絡智能地合并不同視角的信息。

生成的多視角圖像然后被投影到UV空間（一種將3D表面展開為2D的方式，就像將地球儀的表面展開成世界地圖），形成初步的紋理貼圖。由于視角限制，某些區(qū)域可能無法直接觀察到，因此需要使用紋理補全模塊填充這些區(qū)域。最后，紋理增強網(wǎng)絡提高紋理的分辨率和細節(jié)，生成最終的高質(zhì)量紋理貼圖。

五、FlexPainter的表現(xiàn)如何？

研究團隊進行了全面的實驗，證明FlexPainter在靈活性和生成質(zhì)量方面都顯著優(yōu)于現(xiàn)有的最先進方法。在文字到紋理的生成任務中，F(xiàn)lexPainter在FID（衡量生成圖像與真實圖像分布差異的指標）和KID（一種類似FID但更適合小樣本的指標）上都取得了最好的成績，用戶偏好率也達到了28.3%，超過了所有對比方法。

在圖像到紋理的生成任務中，F(xiàn)lexPainter更是展現(xiàn)出壓倒性優(yōu)勢，F(xiàn)ID和KID分別為59.492和62.089，遠好于對比方法Paint3D的83.977和267.132，用戶偏好率高達71.4%，遠超Paint3D的28.6%。

研究團隊還進行了消融研究，驗證了視角同步、WeighterNet和基于圖像的CFG各自的貢獻。結果表明，完整的FlexPainter模型生成的紋理一致且高質(zhì)量，而缺少這些模塊的方法則可能出現(xiàn)幽靈偽影和質(zhì)量下降。

六、FlexPainter能做什么？

FlexPainter的應用場景非常廣泛。在實驗中，研究團隊展示了多種應用，包括：

1. 文本到紋理生成：用戶可以通過文字描述生成想要的紋理，如"一個彩虹色的貝殼"或"一個冰雪覆蓋風格的樹樁"。

2. 圖像到紋理生成：用戶可以提供參考圖片，系統(tǒng)會生成具有類似風格或特征的紋理。

3. 文本引導的圖像精修：用戶可以提供一張基礎圖片，然后用文字描述來調(diào)整或細化它，如添加特定的顏色或風格元素。

4. 基于參考圖像的風格化：用戶可以提供一張風格參考圖片，系統(tǒng)會提取其風格特征（如顏色、紋理）應用到生成的紋理上，同時保持目標物體的結構特征。

這些應用場景使FlexPainter成為3D藝術家和設計師的強大工具，能夠大大提高紋理創(chuàng)建的效率和質(zhì)量。

七、未來的發(fā)展方向

盡管FlexPainter在靈活性和一致性方面取得了顯著進展，但研究團隊也指出了一些潛在的改進方向。例如，進一步增強對3D幾何信息的利用，提高紋理補全的質(zhì)量和細節(jié)，以及探索如何更好地處理包含光照效果的紋理生成等。

八、總結

FlexPainter是一個創(chuàng)新的紋理生成框架，它通過構建共享條件嵌入空間實現(xiàn)了靈活的多模態(tài)輸入控制，并通過多視角圖像網(wǎng)格表示和視角同步機制確保了生成紋理的一致性。通過全面的實驗，研究團隊證明了FlexPainter在靈活性和生成質(zhì)量方面都顯著優(yōu)于現(xiàn)有方法。

這項研究不僅推進了紋理生成技術的發(fā)展，也為3D內(nèi)容創(chuàng)作提供了更加直觀、高效的工具。隨著虛擬現(xiàn)實、增強現(xiàn)實和元宇宙等領域的快速發(fā)展，像FlexPainter這樣的技術將發(fā)揮越來越重要的作用，使創(chuàng)作者能夠更輕松地生成高質(zhì)量、符合期望的3D內(nèi)容。

對于想要深入了解這項研究的讀者，可以通過arXiv:2506.02620v1獲取完整論文。

人工智能紋理生成3D建模

分享至

0贊

好文章，需要你的鼓勵

推薦文章

音頻生成
大語言模型
多模態(tài)AI

2025-09-10 09:47

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實驗室團隊AudioStory突破性進展

騰訊ARC實驗室推出AudioStory系統(tǒng)，首次實現(xiàn)AI根據(jù)復雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結合大語言模型的敘事推理能力與音頻生成技術，通過交錯式推理生成、解耦橋接機制和漸進式訓練，能夠將復雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準測試中表現(xiàn)優(yōu)異，為AI音頻創(chuàng)作開辟新方向。
視頻生成
深度學習
多模態(tài)學習

2025-09-09 13:57

Meta與特拉維夫大學聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

Meta與特拉維夫大學聯(lián)合研發(fā)的VideoJAM技術，通過讓AI同時學習外觀和運動信息，顯著解決了當前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術僅需添加兩個線性層就能大幅提升運動質(zhì)量，在多項測試中超越包括Sora在內(nèi)的商業(yè)模型，為AI視頻生成的實用化應用奠定了重要基礎。
多模態(tài)AI
人類價值觀對齊
數(shù)據(jù)集構建

2025-09-09 13:56

上海AI實驗室重磅發(fā)布：讓AI看圖"說人話"的神奇訓練法，解決多模態(tài)AI與人類價值觀對齊難題

上海AI實驗室發(fā)布OmniAlign-V研究，首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓練數(shù)據(jù)集和MM-AlignBench評測基準，通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法，讓AI在保持技術能力的同時顯著提升人性化交互水平，為AI價值觀對齊提供了可行技術路徑。
人工智能
圖神經(jīng)網(wǎng)絡
天氣預報

2025-09-09 10:56

谷歌研究團隊發(fā)布超級預測模型：讓AI像天氣預報員一樣預測全球大氣變化

谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預測模型，能夠在不到一分鐘內(nèi)完成10天全球天氣預報，準確性超越傳統(tǒng)方法90%的指標。該模型采用圖神經(jīng)網(wǎng)絡技術，通過學習40年歷史數(shù)據(jù)掌握天氣變化規(guī)律，在極端天氣預測方面表現(xiàn)卓越，能耗僅為傳統(tǒng)方法的千分之一，為氣象學領域帶來了效率和精度的雙重突破。

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實驗室團隊AudioStory突破性進展

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實驗室團隊AudioStory突破性進展

2025-09-10 09:47

Meta與特拉維夫大學聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

Meta與特拉維夫大學聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

2025-09-09 13:57

上海AI實驗室重磅發(fā)布：讓AI看圖"說人話"的神奇訓練法，解決多模態(tài)AI與人類價值觀對齊難題

上海AI實驗室重磅發(fā)布：讓AI看圖"說人話"的神奇訓練法，解決多模態(tài)AI與人類價值觀對齊難題

2025-09-09 13:56

谷歌研究團隊發(fā)布超級預測模型：讓AI像天氣預報員一樣預測全球大氣變化

谷歌研究團隊發(fā)布超級預測模型：讓AI像天氣預報員一樣預測全球大氣變化

2025-09-09 10:56

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時代

京ICP證15039648號京ICP備15039648號-9 京公網(wǎng)安備 11010802021500號

北京第二十六維信息技術有限公司（至頂網(wǎng)）版權所有。 | 聯(lián)絡我們

舉報電話：010-62641205　涉未成年人舉報專線：010-62641208 舉報郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報專區(qū)：https://www.12377.cn

<abbr id="yawrf"><menu id="yawrf"><input id="yawrf"></input></menu></abbr>

<abbr id="yawrf"></abbr>