av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁 南洋理工大學(xué)團(tuán)隊(duì)革命性突破:讓AI繪畫像藝術(shù)家一樣從粗到細(xì),一步步創(chuàng)作精美圖像

南洋理工大學(xué)團(tuán)隊(duì)革命性突破:讓AI繪畫像藝術(shù)家一樣從粗到細(xì),一步步創(chuàng)作精美圖像

2025-08-27 10:00
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-08-27 10:00 ? 科技行者

這項(xiàng)由南洋理工大學(xué)S-Lab實(shí)驗(yàn)室的王藝凱、王舟夏、廖康以及陳澤隆教授團(tuán)隊(duì)聯(lián)合商湯科技研究院的吳忠華、陶慶逸共同完成的研究,發(fā)表于2025年8月的arXiv預(yù)印本平臺(tái)。有興趣深入了解的讀者可以通過arXiv:2508.12811v1訪問完整論文,項(xiàng)目主頁為https://yikai-wang.github.io/nvg。

當(dāng)我們欣賞一位畫家創(chuàng)作時(shí),會(huì)發(fā)現(xiàn)他們總是遵循著一個(gè)很自然的過程:先勾勒出大致的輪廓和構(gòu)圖,確定前景和背景的分布,然后逐步添加物體的形狀,接著描繪細(xì)節(jié),最后完成精致的紋理和陰影。這種從粗糙到精細(xì)的創(chuàng)作方式不僅符合人類的認(rèn)知習(xí)慣,也是藝術(shù)創(chuàng)作的基本規(guī)律。

然而,目前大多數(shù)AI圖像生成技術(shù)卻沒有遵循這種自然的創(chuàng)作流程。它們要么試圖一口氣生成整幅圖像,就像要求畫家瞬間完成一幅作品一樣不現(xiàn)實(shí);要么按照固定的順序逐個(gè)像素地填充,完全忽視了圖像的空間結(jié)構(gòu)關(guān)系。這種做法就好比讓畫家閉著眼睛,從左到右、從上到下機(jī)械地涂色,根本無法理解整體的構(gòu)圖和結(jié)構(gòu)。

南洋理工大學(xué)的研究團(tuán)隊(duì)敏銳地發(fā)現(xiàn)了這個(gè)問題,并提出了一個(gè)革命性的解決方案:讓AI學(xué)會(huì)像真正的藝術(shù)家一樣,按照視覺層次的自然規(guī)律來創(chuàng)作圖像。他們將這種方法稱為"下一個(gè)視覺粒度生成"(Next Visual Granularity Generation,簡稱NVG)。這個(gè)名字可能聽起來有些學(xué)術(shù)化,但其核心思想非常簡單直觀:將一幅圖像分解成不同精細(xì)程度的層次,就像洋蔥的層層結(jié)構(gòu)一樣,從最粗糙的整體輪廓開始,一層層地增加細(xì)節(jié),直到完成最精美的成品。

這項(xiàng)研究的創(chuàng)新之處在于,它首次將圖像的結(jié)構(gòu)層次明確地編碼到了AI的生成過程中。研究團(tuán)隊(duì)巧妙地設(shè)計(jì)了一套系統(tǒng),能夠自動(dòng)將任何圖像分解成九個(gè)不同的粒度層次。在最粗糙的第一層,整幅圖像可能只用一個(gè)"標(biāo)記"來代表,就像用一種主色調(diào)來概括整個(gè)畫面的基調(diào)。到了第二層,圖像被分成兩個(gè)標(biāo)記,通常對應(yīng)著前景和背景的基本分離。隨著層次的遞進(jìn),標(biāo)記數(shù)量依次翻倍:4個(gè)、8個(gè)、16個(gè),一直到最精細(xì)的第九層有256個(gè)標(biāo)記,每個(gè)標(biāo)記都承載著圖像中一小塊區(qū)域的精確信息。

這種分層表示方法的巧妙之處在于,每一層都有對應(yīng)的"結(jié)構(gòu)圖"來指導(dǎo)標(biāo)記的空間排列。這個(gè)結(jié)構(gòu)圖就像是畫家心中的構(gòu)圖草稿,明確地告訴AI哪些區(qū)域?qū)儆谇熬?、哪些屬于背景,哪些部分?yīng)該用相同的色調(diào)處理,哪些應(yīng)該區(qū)別對待。通過這種方式,AI不再是盲目地生成像素,而是像人類畫家一樣,心中有數(shù)地進(jìn)行結(jié)構(gòu)化創(chuàng)作。

一、像廚師一樣精心準(zhǔn)備食材:圖像的分層分解技術(shù)

要讓AI學(xué)會(huì)像藝術(shù)家一樣分層次創(chuàng)作,首先需要教會(huì)它如何理解圖像的層次結(jié)構(gòu)。這就好比教一位廚師學(xué)會(huì)處理復(fù)雜菜品:需要先學(xué)會(huì)如何將一道復(fù)雜的菜分解成不同的制作步驟和食材準(zhǔn)備階段。

研究團(tuán)隊(duì)開發(fā)的分解技術(shù)基于一個(gè)簡單而有效的聚類策略。當(dāng)面對一幅圖像時(shí),系統(tǒng)首先將圖像編碼成一個(gè)數(shù)學(xué)表示,這個(gè)過程類似于將一幅畫轉(zhuǎn)換成數(shù)字化的"食材清單"。然后,系統(tǒng)開始執(zhí)行分層聚類,就像廚師按照相似性將食材歸類一樣。在最精細(xì)的層次,圖像的每個(gè)小區(qū)域都有自己獨(dú)特的"身份證"。然后,系統(tǒng)開始尋找最相似的區(qū)域?qū)?,將它們合并成一個(gè)組。這個(gè)過程持續(xù)進(jìn)行,每次都將最相似的區(qū)域組合在一起,直到整幅圖像被合并成一個(gè)單一的組。

這種聚類方法的美妙之處在于它的自適應(yīng)性。系統(tǒng)會(huì)自動(dòng)識別圖像中的自然邊界和結(jié)構(gòu)。比如,當(dāng)處理一張包含天空、草地和一只狗的圖片時(shí),系統(tǒng)會(huì)自然地發(fā)現(xiàn)天空區(qū)域的像素彼此相似,草地區(qū)域的像素也彼此相似,而狗的毛發(fā)區(qū)域又形成了另一個(gè)相似的群組。這種自然的分組過程確保了每個(gè)層次都有語義上的意義,而不是隨意的劃分。

為了將這種層次結(jié)構(gòu)有效地傳遞給AI模型,研究團(tuán)隊(duì)還設(shè)計(jì)了一套巧妙的"結(jié)構(gòu)編碼"系統(tǒng)。這套系統(tǒng)就像給每個(gè)區(qū)域配發(fā)了一個(gè)特殊的"身份證",這個(gè)身份證不僅標(biāo)明了該區(qū)域在當(dāng)前層次的歸屬,還記錄了它在整個(gè)層次樹中的"家族關(guān)系"。通過這種編碼,AI模型能夠清楚地理解每個(gè)區(qū)域的結(jié)構(gòu)位置和層次關(guān)系,為后續(xù)的生成過程提供了清晰的指導(dǎo)。

更有趣的是,這種分解不僅保留了圖像的視覺信息,還自然地形成了一種"漸進(jìn)式"的重建方式。就像搭積木一樣,系統(tǒng)可以從最簡單的結(jié)構(gòu)開始,逐層添加細(xì)節(jié),最終重建出完整的圖像。這種重建方式的每一步都是有意義的,不會(huì)出現(xiàn)傳統(tǒng)方法中那種"看不出所以然"的中間狀態(tài)。

二、像指揮家一樣協(xié)調(diào)樂團(tuán):雙重生成器的協(xié)作機(jī)制

有了分層的圖像表示之后,下一個(gè)挑戰(zhàn)就是如何訓(xùn)練AI按照這種結(jié)構(gòu)化的方式生成圖像。這就好比訓(xùn)練一個(gè)交響樂團(tuán):不僅每個(gè)樂手都要演奏好自己的部分,更重要的是要有一個(gè)統(tǒng)一的指揮來協(xié)調(diào)整體的演出。

研究團(tuán)隊(duì)采用了一個(gè)創(chuàng)新的雙重生成器架構(gòu),包含了結(jié)構(gòu)生成器和內(nèi)容生成器兩個(gè)相互協(xié)作的組件。這種設(shè)計(jì)就像一個(gè)創(chuàng)作團(tuán)隊(duì),其中結(jié)構(gòu)生成器負(fù)責(zé)"構(gòu)圖設(shè)計(jì)",決定整體的布局和各個(gè)區(qū)域的分配;內(nèi)容生成器則負(fù)責(zé)"色彩填充",在給定的結(jié)構(gòu)框架內(nèi)生成具體的視覺內(nèi)容。

結(jié)構(gòu)生成器的工作原理特別巧妙。它采用了一種被稱為"整流流"(Rectified Flow)的技術(shù),這種技術(shù)可以想象成一個(gè)逐漸澄清混濁水體的過程。在生成開始時(shí),結(jié)構(gòu)信息就像是完全混濁的水,充滿了隨機(jī)的噪聲。結(jié)構(gòu)生成器通過一系列精心設(shè)計(jì)的"過濾"步驟,逐漸將這些噪聲轉(zhuǎn)化為清晰的結(jié)構(gòu)圖。這個(gè)過程不是一步完成的,而是通過多個(gè)時(shí)間步驟漸進(jìn)實(shí)現(xiàn),每一步都讓結(jié)構(gòu)變得更加清晰和合理。

結(jié)構(gòu)生成器的另一個(gè)聰明之處在于它處理"冷啟動(dòng)"問題的方式。所謂冷啟動(dòng),就是在沒有任何先驗(yàn)信息的情況下,如何生成合理的初始結(jié)構(gòu)。這就像要求畫家在一張白紙上開始創(chuàng)作,需要首先確定最基本的構(gòu)圖框架。研究團(tuán)隊(duì)通過統(tǒng)一的多階段訓(xùn)練方法解決了這個(gè)問題。他們讓結(jié)構(gòu)生成器同時(shí)學(xué)習(xí)所有層次的結(jié)構(gòu)生成,這樣后期層次的訓(xùn)練經(jīng)驗(yàn)可以反過來指導(dǎo)早期層次的決策,避免了早期階段的盲目性。

內(nèi)容生成器則承擔(dān)了更加復(fù)雜的任務(wù)。它不僅要根據(jù)給定的結(jié)構(gòu)圖生成相應(yīng)的視覺內(nèi)容,還要確保生成的內(nèi)容在各個(gè)層次之間保持一致性。這個(gè)挑戰(zhàn)就像要求一個(gè)畫家在不同的放大倍數(shù)下都能保持畫面的協(xié)調(diào)統(tǒng)一。

為了解決這個(gè)問題,研究團(tuán)隊(duì)采用了"漸進(jìn)式畫布refinement"的策略。這種方法可以想象成畫家使用透明的圖層進(jìn)行創(chuàng)作:每一層都在前一層的基礎(chǔ)上添加新的細(xì)節(jié),同時(shí)保持與整體的和諧。具體來說,內(nèi)容生成器在每個(gè)階段都會(huì)生成一個(gè)"最終畫布"的預(yù)測,然后計(jì)算這個(gè)預(yù)測與當(dāng)前畫布之間的差異。這個(gè)差異就是當(dāng)前階段需要添加的內(nèi)容。

這種方法的優(yōu)勢在于它提供了豐富的監(jiān)督信號。傳統(tǒng)的方法往往只能在最終結(jié)果上進(jìn)行評估,就像只在整道菜完成后才能品嘗味道。而這種漸進(jìn)式方法可以在每個(gè)制作階段都進(jìn)行"試味",及時(shí)調(diào)整和優(yōu)化,確保每一步都朝著正確的方向前進(jìn)。

為了進(jìn)一步增強(qiáng)模型對結(jié)構(gòu)信息的理解,研究團(tuán)隊(duì)還專門設(shè)計(jì)了"結(jié)構(gòu)感知的旋轉(zhuǎn)位置編碼"(Structure-Aware RoPE)技術(shù)。這種技術(shù)可以想象成給每個(gè)內(nèi)容元素配備了一個(gè)"GPS定位系統(tǒng)",不僅告訴模型該元素在空間上的位置,還明確其在結(jié)構(gòu)層次中的歸屬。這樣,模型就能更好地理解不同元素之間的結(jié)構(gòu)關(guān)系,生成更加協(xié)調(diào)和合理的圖像。

三、像調(diào)音師一樣精確校準(zhǔn):訓(xùn)練過程的精心設(shè)計(jì)

有了巧妙的架構(gòu)設(shè)計(jì),如何訓(xùn)練這個(gè)復(fù)雜的系統(tǒng)就成了關(guān)鍵問題。這個(gè)過程就像調(diào)音師校準(zhǔn)一臺(tái)復(fù)雜的鋼琴,需要確保每個(gè)音鍵都能發(fā)出準(zhǔn)確的音符,同時(shí)整體的音色要和諧統(tǒng)一。

研究團(tuán)隊(duì)在訓(xùn)練過程中面臨的第一個(gè)挑戰(zhàn)是如何平衡結(jié)構(gòu)生成和內(nèi)容生成兩個(gè)任務(wù)的學(xué)習(xí)。這兩個(gè)任務(wù)的難度和特點(diǎn)截然不同:結(jié)構(gòu)生成相對簡單,因?yàn)榻Y(jié)構(gòu)圖只需要8個(gè)通道的信息,每個(gè)位置的取值范圍也相對有限;而內(nèi)容生成則要復(fù)雜得多,需要處理4096個(gè)可能的標(biāo)記,每個(gè)標(biāo)記都包含32維的豐富信息。

為了解決這種不平衡,研究團(tuán)隊(duì)采用了分別訓(xùn)練的策略,就像分別調(diào)試鋼琴的低音區(qū)和高音區(qū)一樣。對于結(jié)構(gòu)生成器,他們使用了相對輕量的模型架構(gòu),參數(shù)數(shù)量約為內(nèi)容生成器的四分之一。這種設(shè)計(jì)不僅提高了訓(xùn)練效率,還避免了大材小用的問題。

在訓(xùn)練內(nèi)容生成器時(shí),研究團(tuán)隊(duì)引入了一個(gè)創(chuàng)新的"雙重監(jiān)督"機(jī)制。傳統(tǒng)的生成模型通常只在最終輸出上計(jì)算損失函數(shù),就像只在菜品完成后才進(jìn)行評價(jià)。而這種雙重監(jiān)督機(jī)制既關(guān)注每個(gè)階段的直接輸出(當(dāng)前需要生成的內(nèi)容標(biāo)記),也關(guān)注對最終畫布的貢獻(xiàn)(通過均方誤差損失衡量)。這種做法確保了模型既能生成準(zhǔn)確的局部內(nèi)容,又能保持全局的一致性。

特別值得一提的是研究團(tuán)隊(duì)對"exposure bias"問題的處理。這個(gè)問題可以想象成學(xué)車時(shí)的情況:如果學(xué)員只在教練的不斷糾錯(cuò)下練習(xí),一旦獨(dú)自開車就容易出錯(cuò),因?yàn)闆]有學(xué)會(huì)如何從錯(cuò)誤中自我修正。在傳統(tǒng)的自回歸生成中,模型在訓(xùn)練時(shí)總是基于正確的歷史信息進(jìn)行預(yù)測,但在實(shí)際生成時(shí)卻要基于自己之前可能有誤的預(yù)測結(jié)果,這種不一致會(huì)導(dǎo)致錯(cuò)誤的累積。

NVG框架通過其殘差式的建模方式自然地緩解了這個(gè)問題。由于每個(gè)階段都是在預(yù)測與最終目標(biāo)的殘差,而不是絕對的像素值,即使前面階段有些許誤差,后續(xù)階段也有機(jī)會(huì)進(jìn)行修正。這就像畫家可以在后續(xù)的繪制過程中調(diào)整和完善前期的構(gòu)圖,而不是被早期的決策完全束縛。

在數(shù)據(jù)處理方面,研究團(tuán)隊(duì)使用了ImageNet數(shù)據(jù)集進(jìn)行類別條件生成的訓(xùn)練。他們采用了10%的空條件訓(xùn)練策略,這種方法可以想象成讓學(xué)員既練習(xí)按照具體要求作畫,也練習(xí)自由創(chuàng)作。這種混合訓(xùn)練方式增強(qiáng)了模型的泛化能力,使其既能根據(jù)特定的類別標(biāo)簽生成目標(biāo)圖像,也具備了一定的無條件創(chuàng)作能力。

訓(xùn)練過程還涉及了精心設(shè)計(jì)的學(xué)習(xí)率調(diào)度策略。研究團(tuán)隊(duì)采用了所謂的"WSD"(Warmup-Stable-Decay)策略:開始時(shí)緩慢提升學(xué)習(xí)率讓模型"熱身",然后保持穩(wěn)定的學(xué)習(xí)率進(jìn)行主要的學(xué)習(xí),最后逐漸降低學(xué)習(xí)率進(jìn)行"精調(diào)"。這種策略就像運(yùn)動(dòng)員的訓(xùn)練計(jì)劃:先熱身,然后進(jìn)行主要訓(xùn)練,最后放松整理。

四、像品酒師一樣嚴(yán)格評測:全面的性能驗(yàn)證

訓(xùn)練完成后,如何評估這個(gè)復(fù)雜系統(tǒng)的性能就成了關(guān)鍵問題。這個(gè)過程就像品酒師評測一款新酒,需要從多個(gè)角度進(jìn)行全面的考察:不僅要看整體的品質(zhì),還要分析各個(gè)細(xì)節(jié)的表現(xiàn)。

研究團(tuán)隊(duì)采用了業(yè)界標(biāo)準(zhǔn)的評測指標(biāo)對NVG模型進(jìn)行了全面的性能評估。這些指標(biāo)包括FID(Fréchet Inception Distance)、Inception Score、精確率和召回率等。FID可以想象成衡量生成圖像與真實(shí)圖像之間"相似度"的標(biāo)尺,分?jǐn)?shù)越低表示生成的圖像越接近真實(shí)圖像的分布。Inception Score則更關(guān)注生成圖像的"質(zhì)量"和"多樣性",就像評價(jià)一個(gè)畫家的作品既要有高超的技法,又要有豐富的創(chuàng)意。

在與其他先進(jìn)方法的對比中,NVG展現(xiàn)出了令人印象深刻的性能優(yōu)勢。以FID分?jǐn)?shù)為例,NVG-d16模型達(dá)到了3.03的分?jǐn)?shù),顯著優(yōu)于同規(guī)模的VAR模型的3.30分;NVG-d20模型的FID為2.44,也明顯好于VAR-d20的2.57分;而最大的NVG-d24模型更是達(dá)到了2.06的優(yōu)異成績,超越了VAR-d24的2.09分。這種一致性的性能提升表明,NVG框架確實(shí)捕獲了圖像生成中的一些重要規(guī)律。

除了數(shù)值指標(biāo),研究團(tuán)隊(duì)還進(jìn)行了大量的定性分析。他們展示了生成過程的可視化結(jié)果,清楚地顯示了圖像是如何從粗糙的輪廓逐步演化為精細(xì)的成品。這種可視化就像觀看畫家的創(chuàng)作過程一樣令人著迷:第一步,畫布上出現(xiàn)了最基本的色調(diào)和構(gòu)圖;第二步,前景和背景開始分離;第三步,物體的大致形狀浮現(xiàn);隨著步驟的推進(jìn),細(xì)節(jié)越來越豐富,直到最后呈現(xiàn)出生動(dòng)逼真的圖像。

特別有趣的是結(jié)構(gòu)圖與最終圖像的對應(yīng)關(guān)系分析。研究團(tuán)隊(duì)發(fā)現(xiàn),雖然結(jié)構(gòu)圖看起來像是簡單的黑白二值圖,但生成器能夠靈活地解釋這些結(jié)構(gòu)信息。比如,當(dāng)結(jié)構(gòu)圖顯示某個(gè)區(qū)域應(yīng)該分為兩部分時(shí),生成器可能會(huì)將其解釋為前景和背景的分離,也可能解釋為同一個(gè)物體的不同部分。這種靈活性表明模型確實(shí)學(xué)會(huì)了理解和利用結(jié)構(gòu)信息,而不是機(jī)械地執(zhí)行指令。

研究團(tuán)隊(duì)還進(jìn)行了詳細(xì)的消融實(shí)驗(yàn),分別測試了不同組件對最終性能的貢獻(xiàn)。他們發(fā)現(xiàn),結(jié)構(gòu)感知的RoPE編碼對性能有顯著影響,移除這個(gè)組件會(huì)導(dǎo)致FID分?jǐn)?shù)的明顯下降。類似地,漸進(jìn)式畫布預(yù)測策略也被證明是至關(guān)重要的:直接預(yù)測下一階段內(nèi)容的簡化版本在訓(xùn)練過程中很快就出現(xiàn)了過擬合現(xiàn)象。

五、像魔術(shù)師一樣展示技巧:結(jié)構(gòu)控制的神奇能力

NVG框架最令人興奮的特性之一是它提供的結(jié)構(gòu)控制能力。這種能力就像給了用戶一根魔術(shù)棒,可以通過簡單的結(jié)構(gòu)圖來精確控制生成圖像的布局和組織。

為了驗(yàn)證這種控制能力,研究團(tuán)隊(duì)設(shè)計(jì)了一系列有趣的實(shí)驗(yàn)。他們首先嘗試使用簡單的幾何形狀作為結(jié)構(gòu)圖,比如圓形、矩形或者不規(guī)則的多邊形。令人驚訝的是,模型能夠很好地理解這些抽象的結(jié)構(gòu)指令,并生成與之匹配的圖像。當(dāng)給定一個(gè)圓形結(jié)構(gòu)圖時(shí),模型傾向于生成圓形的主體對象,比如球體、太陽或者圓盤狀的物品。當(dāng)結(jié)構(gòu)圖是矩形時(shí),生成的圖像往往包含建筑物、書籍或者其他矩形物體。

更有趣的是,研究團(tuán)隊(duì)還測試了使用真實(shí)圖像的結(jié)構(gòu)圖來指導(dǎo)生成過程的效果。他們從一張圖像中提取結(jié)構(gòu)圖,然后用不同的類別標(biāo)簽來生成新的圖像。結(jié)果表明,生成的圖像確實(shí)遵循了原始的結(jié)構(gòu)布局,但內(nèi)容完全不同。比如,使用一張狗的照片的結(jié)構(gòu)圖,配合"貓"的類別標(biāo)簽,可以生成一張具有相似構(gòu)圖但主角是貓的圖像。這種能力為圖像編輯和創(chuàng)意設(shè)計(jì)開辟了全新的可能性。

研究團(tuán)隊(duì)還探索了分階段控制的效果。他們固定生成過程中不同階段的結(jié)構(gòu)和內(nèi)容,觀察這種約束對最終結(jié)果的影響。實(shí)驗(yàn)結(jié)果揭示了一個(gè)有趣的層次化控制模式:早期階段的控制主要影響圖像的整體構(gòu)圖和色調(diào),中期階段的控制影響物體的形狀和姿態(tài),而后期階段的控制則主要影響紋理和細(xì)節(jié)。

這種分層控制的發(fā)現(xiàn)具有重要的實(shí)際意義。它意味著用戶可以在不同的抽象層次上對圖像生成進(jìn)行干預(yù):如果只關(guān)心整體的構(gòu)圖和風(fēng)格,只需要控制前幾個(gè)階段;如果想要精確控制某個(gè)物體的形狀,可以專注于中間階段的控制;如果要調(diào)整細(xì)節(jié)紋理,則可以在后期階段進(jìn)行干預(yù)。

特別值得注意的是,NVG框架展現(xiàn)出了強(qiáng)大的錯(cuò)誤修正能力。即使在生成過程的早期階段出現(xiàn)了與目標(biāo)類別不符的內(nèi)容,后續(xù)階段仍有機(jī)會(huì)進(jìn)行調(diào)整和修正。這種能力在一個(gè)有趣的實(shí)驗(yàn)中得到了驗(yàn)證:研究團(tuán)隊(duì)固定了一張狗圖像的前三個(gè)階段,但使用"大象"作為類別標(biāo)簽繼續(xù)生成。令人驚訝的是,最終生成的圖像確實(shí)展現(xiàn)出了大象的特征,盡管保留了一些原始的構(gòu)圖元素。這種錯(cuò)誤修正能力是傳統(tǒng)自回歸方法所不具備的,因?yàn)樗鼈儫o法"回頭"修改已經(jīng)生成的內(nèi)容。

六、像考古學(xué)家一樣深入挖掘:技術(shù)細(xì)節(jié)的深度剖析

為了更好地理解NVG框架的工作機(jī)制,研究團(tuán)隊(duì)進(jìn)行了大量的深度分析,就像考古學(xué)家仔細(xì)挖掘和研究每一個(gè)細(xì)節(jié)一樣。

首先,他們深入分析了不同輸入策略對模型性能的影響。在內(nèi)容生成方面,他們比較了三種不同的輸入方式:直接使用當(dāng)前畫布、添加高斯噪聲的畫布,以及采用方差保持噪聲的畫布。通過實(shí)驗(yàn)發(fā)現(xiàn),直接使用當(dāng)前畫布的方式效果最好,這表明自回歸式的建模方式更適合內(nèi)容生成任務(wù)。相比之下,那種試圖模仿擴(kuò)散模型的噪聲添加方式反而降低了性能,這個(gè)發(fā)現(xiàn)為理解不同生成范式的適用場景提供了有價(jià)值的洞察。

在結(jié)構(gòu)生成方面,研究團(tuán)隊(duì)比較了使用純噪聲和部分噪聲的效果。所謂部分噪聲,是指對已知的結(jié)構(gòu)部分使用真實(shí)值,只對未知部分添加噪聲。這種方法可以想象成在拼圖游戲中,已經(jīng)放好的部分保持不動(dòng),只對剩余的空白區(qū)域進(jìn)行填充。實(shí)驗(yàn)結(jié)果表明,這種部分噪聲的方法確實(shí)能夠提升性能,這證實(shí)了將結(jié)構(gòu)生成建模為"結(jié)構(gòu)修復(fù)"任務(wù)的合理性。

結(jié)構(gòu)感知的RoPE編碼的作用機(jī)制也得到了深入的研究。傳統(tǒng)的RoPE編碼只考慮空間位置關(guān)系,就像只告訴模型"這個(gè)像素在第三行第五列"。而結(jié)構(gòu)感知的RoPE編碼還會(huì)告訴模型"這個(gè)像素屬于前景區(qū)域的第二個(gè)子區(qū)域"。通過消融實(shí)驗(yàn)發(fā)現(xiàn),移除這種結(jié)構(gòu)信息會(huì)導(dǎo)致明顯的性能下降,這說明模型確實(shí)學(xué)會(huì)了利用這些層次化的結(jié)構(gòu)關(guān)系。

研究團(tuán)隊(duì)還仔細(xì)分析了最終畫布預(yù)測策略的重要性。他們嘗試了一個(gè)簡化版本,讓模型直接預(yù)測當(dāng)前階段需要的內(nèi)容標(biāo)記,而不是預(yù)測最終的畫布。這個(gè)簡化版本在訓(xùn)練初期表現(xiàn)尚可,但很快就出現(xiàn)了嚴(yán)重的過擬合現(xiàn)象。這個(gè)對比實(shí)驗(yàn)清楚地表明,豐富的監(jiān)督信號(最終畫布預(yù)測)對于訓(xùn)練復(fù)雜模型的重要性。

在分析生成質(zhì)量的變化規(guī)律時(shí),研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:隨著固定階段數(shù)量的增加,生成圖像的變異性呈現(xiàn)出明顯的遞減趨勢。這種現(xiàn)象可以用信息論的角度來理解:早期階段包含的信息量相對較少但影響范圍很大,而后期階段雖然信息量豐富但主要影響局部細(xì)節(jié)。因此,控制早期階段能夠產(chǎn)生更大的整體變化,而控制后期階段主要影響細(xì)節(jié)表現(xiàn)。

七、像歷史學(xué)家一樣縱觀全局:與現(xiàn)有技術(shù)的深度比較

為了全面評估NVG框架的創(chuàng)新價(jià)值,研究團(tuán)隊(duì)將其置于圖像生成技術(shù)發(fā)展的歷史背景中進(jìn)行了深入的比較分析,就像歷史學(xué)家研究一個(gè)時(shí)代的技術(shù)進(jìn)步一樣。

在與擴(kuò)散模型的比較中,NVG展現(xiàn)出了獨(dú)特的優(yōu)勢。擴(kuò)散模型可以想象成雕刻師從一塊粗糙的石頭開始,通過不斷地去除"噪聲"來雕琢出最終的作品。這種方法雖然能夠生成高質(zhì)量的圖像,但通常需要數(shù)百個(gè)生成步驟,計(jì)算成本高昂。更重要的是,擴(kuò)散模型的生成過程是"全息式"的,每一步都在全圖范圍內(nèi)進(jìn)行微調(diào),缺乏明確的結(jié)構(gòu)控制機(jī)制。

相比之下,NVG的生成過程更像是建筑師按照設(shè)計(jì)圖紙施工:先搭建框架結(jié)構(gòu),然后逐層添加細(xì)節(jié)。這種方法不僅生成步驟更少(只需要9步),而且每一步都有明確的結(jié)構(gòu)意義,為用戶提供了直觀的控制接口。當(dāng)需要對圖像進(jìn)行編輯時(shí),用戶可以精確地在特定的抽象層次上進(jìn)行干預(yù),而不需要像擴(kuò)散模型那樣依賴額外訓(xùn)練的控制模塊。

在與自回歸模型的比較中,NVG的結(jié)構(gòu)化生成方式展現(xiàn)出了明顯的優(yōu)勢。傳統(tǒng)的自回歸模型就像讀書時(shí)從左到右逐字閱讀一樣,按照固定的掃描順序生成像素或圖像塊。這種方法的問題在于,它忽視了圖像的二維空間結(jié)構(gòu),早期生成的部分往往缺乏全局的結(jié)構(gòu)感知。

NVG通過明確的結(jié)構(gòu)建模解決了這個(gè)問題。它不是盲目地按照掃描順序生成,而是根據(jù)圖像的自然結(jié)構(gòu)層次進(jìn)行生成。這就像畫家在創(chuàng)作時(shí),心中始終有著整體的構(gòu)圖規(guī)劃,每一筆都服務(wù)于整體的藝術(shù)效果。這種方法的另一個(gè)優(yōu)勢是錯(cuò)誤修正能力:即使早期階段的生成出現(xiàn)偏差,后續(xù)階段仍有機(jī)會(huì)進(jìn)行調(diào)整,而傳統(tǒng)自回歸模型一旦生成錯(cuò)誤就無法回頭修改。

與VAR(Visual AutoRegressive)模型的比較尤其值得關(guān)注,因?yàn)閂AR也嘗試引入了層次化的生成策略。VAR采用的是基于分辨率的層次分解:從低分辨率開始生成,逐步增加分辨率直到達(dá)到目標(biāo)尺寸。這種方法可以想象成用放大鏡觀察圖像,從模糊的整體逐漸看清細(xì)節(jié)。

然而,NVG的基于粒度的分解方式提供了更加豐富和有意義的層次結(jié)構(gòu)。在相同的空間分辨率下,NVG通過控制唯一標(biāo)記的數(shù)量來實(shí)現(xiàn)不同層次的抽象,這種方法更符合人類的視覺認(rèn)知規(guī)律。實(shí)驗(yàn)結(jié)果也證實(shí)了這種優(yōu)勢:在所有模型規(guī)模下,NVG都在FID、IS和召回率等關(guān)鍵指標(biāo)上超越了VAR。

在重建質(zhì)量的比較中,NVG的優(yōu)勢更加明顯。研究團(tuán)隊(duì)的標(biāo)記器在使用相同大小的碼本時(shí),實(shí)現(xiàn)了比VAR更好的重建效果。更重要的是,NVG的標(biāo)記利用率更加均衡:第一階段的碼本利用率達(dá)到68.55%,而VAR只有25.39%。這種差異表明,NVG的分層策略能夠更有效地利用表示空間,避免了VAR中存在的表示歧義問題。

八、像工程師一樣精益求精:實(shí)現(xiàn)細(xì)節(jié)的巧妙設(shè)計(jì)

NVG框架的成功不僅在于其創(chuàng)新的核心思想,更在于實(shí)現(xiàn)過程中眾多巧妙的工程設(shè)計(jì),就像一臺(tái)精密機(jī)器中每個(gè)零件都經(jīng)過精心打磨一樣。

在結(jié)構(gòu)編碼的設(shè)計(jì)上,研究團(tuán)隊(duì)面臨了一個(gè)有趣的挑戰(zhàn):如何用簡潔的方式表示復(fù)雜的層次關(guān)系。他們最終采用的解決方案非常巧妙,可以想象成給每個(gè)區(qū)域分配了一個(gè)"家族族譜編號"。這個(gè)編號不僅標(biāo)明了該區(qū)域在當(dāng)前層次的身份,還完整地記錄了它在整個(gè)層次樹中的祖先關(guān)系。

具體來說,他們使用了一個(gè)8維的整數(shù)向量來編碼結(jié)構(gòu)信息,其中每一維對應(yīng)一個(gè)層次級別。對于最粗糙的第0層,所有位置都使用相同的編碼(全1)。從第1層開始,每個(gè)層次都在父層編碼的基礎(chǔ)上添加一個(gè)新的位(0或2),用來區(qū)分同一父類下的兩個(gè)子類。這種設(shè)計(jì)的精妙之處在于,它自然地保持了父子關(guān)系的連續(xù)性,同時(shí)避免了對聚類順序的依賴。

為了讓這種結(jié)構(gòu)編碼能夠與現(xiàn)有的位置編碼技術(shù)兼容,研究團(tuán)隊(duì)還專門設(shè)計(jì)了結(jié)構(gòu)感知的RoPE(Rotary Position Embedding)。傳統(tǒng)的RoPE只編碼空間位置信息,就像告訴模型"這是第幾行第幾列"。而結(jié)構(gòu)感知的RoPE還會(huì)告訴模型"這屬于哪個(gè)結(jié)構(gòu)組"。他們巧妙地將注意力特征的64個(gè)維度進(jìn)行了分工:8個(gè)維度用于區(qū)分文本和圖像,16個(gè)維度用于編碼8層結(jié)構(gòu)信息,剩余的40個(gè)維度用于編碼空間位置。

在采樣策略的設(shè)計(jì)上,研究團(tuán)隊(duì)也展現(xiàn)了深入的思考。他們發(fā)現(xiàn),由于采用了殘差式建模,生成過程的不同階段具有不同的特點(diǎn):早期階段主要關(guān)注創(chuàng)意和多樣性,而后期階段更注重準(zhǔn)確性和修正。基于這個(gè)觀察,他們設(shè)計(jì)了動(dòng)態(tài)的采樣策略,在早期階段使用較大的候選集來保持多樣性,在后期階段逐漸縮小候選集以提高準(zhǔn)確性。

訓(xùn)練過程中的細(xì)節(jié)處理也體現(xiàn)了研究團(tuán)隊(duì)的細(xì)致考慮。他們采用了分階段的學(xué)習(xí)率調(diào)度策略,為不同規(guī)模的模型量身定制了訓(xùn)練計(jì)劃。對于較小的模型(NVG-d16和NVG-d20),他們在訓(xùn)練進(jìn)程的80%后開始降低學(xué)習(xí)率;而對于最大的模型(NVG-d24),他們發(fā)現(xiàn)模型在120-200輪之間會(huì)進(jìn)入穩(wěn)定期,因此選擇在第200輪后開始學(xué)習(xí)率衰減,這種精細(xì)化的調(diào)整確保了訓(xùn)練效率的最大化。

在損失函數(shù)的設(shè)計(jì)上,研究團(tuán)隊(duì)采用了多目標(biāo)優(yōu)化的策略。內(nèi)容生成器需要同時(shí)優(yōu)化兩個(gè)目標(biāo):均方誤差損失用于確保生成的畫布質(zhì)量,交叉熵?fù)p失用于確保內(nèi)容標(biāo)記的準(zhǔn)確性。這種雙重監(jiān)督機(jī)制就像學(xué)生考試時(shí)既要保證答案正確,又要保證解題過程清晰,確保了模型在不同層面都能得到有效的指導(dǎo)。

九、像預(yù)言家一樣展望未來:技術(shù)的深遠(yuǎn)影響與發(fā)展前景

NVG框架的提出不僅是一項(xiàng)技術(shù)創(chuàng)新,更像是為圖像生成領(lǐng)域打開了一扇通往未來的大門。這項(xiàng)技術(shù)的深遠(yuǎn)影響和廣闊前景值得我們深入思考。

在創(chuàng)意產(chǎn)業(yè)的應(yīng)用前景方面,NVG的結(jié)構(gòu)化生成能力為數(shù)字藝術(shù)創(chuàng)作提供了前所未有的精細(xì)控制手段。傳統(tǒng)的AI繪圖工具通常只能提供文字描述或簡單的草圖作為輸入,而NVG允許藝術(shù)家在多個(gè)抽象層次上進(jìn)行精確控制。設(shè)計(jì)師可以先確定整體的構(gòu)圖和色調(diào),然后在保持這種整體風(fēng)格的前提下,自由調(diào)整具體物體的形狀和細(xì)節(jié)。這種能力特別適用于商業(yè)設(shè)計(jì)、游戲美術(shù)和電影概念設(shè)計(jì)等需要在創(chuàng)意和規(guī)范之間平衡的場景。

在教育和藝術(shù)教學(xué)領(lǐng)域,NVG的分層生成過程為理解藝術(shù)創(chuàng)作提供了新的視角。傳統(tǒng)的藝術(shù)教學(xué)往往難以量化和可視化創(chuàng)作過程中的思維轉(zhuǎn)變,而NVG的每個(gè)生成階段都對應(yīng)著藝術(shù)創(chuàng)作中的一個(gè)認(rèn)知層次:從整體構(gòu)圖到局部細(xì)節(jié),從抽象概念到具體表現(xiàn)。這種對應(yīng)關(guān)系為藝術(shù)教育提供了有價(jià)值的分析工具和教學(xué)輔助手段。

從技術(shù)發(fā)展的角度來看,NVG框架提出的結(jié)構(gòu)化表示方法具有很強(qiáng)的通用性,有望擴(kuò)展到其他生成任務(wù)中。研究團(tuán)隊(duì)在論文中提到了幾個(gè)有趣的發(fā)展方向:首先是區(qū)域感知生成,通過預(yù)定義的語義區(qū)域來指導(dǎo)生成過程,這種方法特別適用于需要精確控制圖像各個(gè)部分的場景,比如產(chǎn)品設(shè)計(jì)或建筑可視化。

物理感知的視頻生成是另一個(gè)令人興奮的應(yīng)用方向。通過將NVG的結(jié)構(gòu)化表示擴(kuò)展到時(shí)間維度,可以實(shí)現(xiàn)對視頻中物體運(yùn)動(dòng)和變化的精確控制。這種方法不僅能夠保持視頻的時(shí)間連貫性,還能夠確保物理定律的合理性,比如物體的運(yùn)動(dòng)軌跡、光影變化和物理碰撞等。

層次化空間推理是NVG框架的另一個(gè)潛在應(yīng)用領(lǐng)域。通過將復(fù)雜的空間推理任務(wù)分解為多個(gè)層次的子問題,可以實(shí)現(xiàn)更加準(zhǔn)確和可解釋的空間關(guān)系理解。這種方法特別適用于機(jī)器人導(dǎo)航、自動(dòng)駕駛和增強(qiáng)現(xiàn)實(shí)等需要精確空間感知的應(yīng)用場景。

從更廣闊的人工智能發(fā)展角度來看,NVG框架體現(xiàn)的結(jié)構(gòu)化建模思想對其他AI任務(wù)也有重要啟發(fā)意義。它表明,通過引入明確的層次結(jié)構(gòu)和漸進(jìn)式的生成過程,可以顯著提高復(fù)雜生成任務(wù)的可控性和可解釋性。這種思想不僅適用于圖像生成,也可能在自然語言生成、音頻合成和其他創(chuàng)意AI任務(wù)中發(fā)揮重要作用。

在計(jì)算效率方面,NVG框架也展現(xiàn)出了良好的前景。相比需要數(shù)百個(gè)生成步驟的擴(kuò)散模型,NVG只需要9個(gè)步驟就能完成高質(zhì)量的圖像生成。隨著模型架構(gòu)的進(jìn)一步優(yōu)化和硬件技術(shù)的發(fā)展,這種效率優(yōu)勢將變得更加明顯,使得實(shí)時(shí)交互式生成成為可能。

當(dāng)然,NVG框架目前還存在一些局限性和改進(jìn)空間。比如,當(dāng)前的聚類策略雖然簡單有效,但可能無法捕獲所有類型圖像的最優(yōu)結(jié)構(gòu)分解。未來的研究可以探索更加智能的結(jié)構(gòu)發(fā)現(xiàn)方法,甚至結(jié)合語義分割、物體檢測等視覺理解技術(shù)來獲得更有意義的結(jié)構(gòu)表示。

另外,當(dāng)前的框架主要針對256×256分辨率的圖像進(jìn)行了優(yōu)化,擴(kuò)展到更高分辨率時(shí)可能面臨計(jì)算和存儲(chǔ)的挑戰(zhàn)。如何在保持結(jié)構(gòu)化控制優(yōu)勢的同時(shí),有效處理高分辨率圖像,將是未來技術(shù)發(fā)展的重要方向。

說到底,NVG框架的真正價(jià)值不僅在于它提供的技術(shù)解決方案,更在于它所體現(xiàn)的設(shè)計(jì)哲學(xué):讓AI學(xué)會(huì)像人類一樣思考和創(chuàng)作。通過將人類藝術(shù)創(chuàng)作的層次化思維過程編碼到計(jì)算模型中,NVG為AI的"創(chuàng)造力"提供了新的定義和實(shí)現(xiàn)路徑。這種人類認(rèn)知啟發(fā)的AI設(shè)計(jì)思路,很可能成為未來人工智能發(fā)展的重要方向,不僅在圖像生成領(lǐng)域,在更廣闊的AI應(yīng)用中都具有深遠(yuǎn)的指導(dǎo)意義。

隨著這項(xiàng)技術(shù)的不斷完善和推廣,我們有理由相信,AI將能夠更好地理解和模擬人類的創(chuàng)作過程,成為真正意義上的創(chuàng)意合作伙伴,而不僅僅是執(zhí)行指令的工具。這種轉(zhuǎn)變將為數(shù)字藝術(shù)、創(chuàng)意產(chǎn)業(yè)乃至整個(gè)人類文明的發(fā)展帶來前所未有的機(jī)遇和可能性。

Q&A

Q1:NVG是什么?它與傳統(tǒng)的AI圖像生成有什么不同?

A:NVG(Next Visual Granularity Generation)是由南洋理工大學(xué)開發(fā)的新型AI圖像生成技術(shù),它的獨(dú)特之處在于模仿真實(shí)畫家的創(chuàng)作過程:先勾勒整體構(gòu)圖,再逐步添加細(xì)節(jié)。傳統(tǒng)AI要么一次性生成整張圖,要么按固定順序填充像素,而NVG將圖像分成9個(gè)層次,從1個(gè)標(biāo)記逐步增加到256個(gè)標(biāo)記,每層都有明確的結(jié)構(gòu)意義,就像洋蔥的層層結(jié)構(gòu)一樣。

Q2:NVG生成的圖像質(zhì)量如何?比其他方法好嗎?

A:NVG在多項(xiàng)評測中都表現(xiàn)優(yōu)異。以FID評分為例,NVG-d16達(dá)到3.03分,明顯優(yōu)于同規(guī)模VAR模型的3.30分;最大的NVG-d24模型FID為2.06,超越了VAR-d24的2.09分。更重要的是,NVG只需9個(gè)生成步驟,遠(yuǎn)少于擴(kuò)散模型的數(shù)百步,且每步都有明確意義,用戶可以精確控制圖像的構(gòu)圖、物體形狀和細(xì)節(jié)紋理。

Q3:普通用戶能使用NVG技術(shù)嗎?有什么實(shí)際應(yīng)用?

A:目前NVG還處于研究階段,代碼和模型將通過項(xiàng)目主頁https://yikai-wang.github.io/nvg發(fā)布。這項(xiàng)技術(shù)特別適用于需要精確控制的創(chuàng)意場景:設(shè)計(jì)師可以先確定整體構(gòu)圖再調(diào)整細(xì)節(jié),游戲美術(shù)師可以復(fù)用角色結(jié)構(gòu)生成新形象,教育工作者可以用分層過程教授藝術(shù)創(chuàng)作原理。隨著技術(shù)成熟,有望集成到各種圖像編輯和創(chuàng)作軟件中。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-