這項(xiàng)由南京大學(xué)王帥、高子騰、朱晨輝,字節(jié)跳動(dòng)種子實(shí)驗(yàn)室黃偉林,以及新加坡國(guó)立大學(xué)合作完成的突破性研究發(fā)表于2025年7月的arXiv預(yù)印本平臺(tái)。有興趣深入了解的讀者可以通過論文編號(hào)arXiv:2507.23268v1訪問完整論文,同時(shí)研究團(tuán)隊(duì)還在GitHub和Hugging Face平臺(tái)提供了開源代碼和在線體驗(yàn)。
在人工智能繪畫的世界里,目前最流行的方法就像是先把一幅畫壓縮成密碼本,然后讓AI在這個(gè)密碼本上作畫,最后再把密碼翻譯回真正的圖像。這種方法雖然有效,但就像玩?zhèn)髟捰螒蛞粯?,每一步轉(zhuǎn)換都可能丟失一些細(xì)節(jié),最終的畫作難免會(huì)有些失真或出現(xiàn)奇怪的瑕疵。南京大學(xué)的研究團(tuán)隊(duì)決定徹底改變這種做法,他們讓AI直接在真實(shí)的像素世界中作畫,不再需要任何中間的翻譯步驟。
傳統(tǒng)的AI繪畫系統(tǒng)依賴一個(gè)叫做變分自編碼器(VAE)的組件,它的作用就像一個(gè)翻譯官,負(fù)責(zé)把復(fù)雜的圖像壓縮成簡(jiǎn)單的代碼,然后再把代碼還原成圖像。這種兩階段的工作方式確實(shí)降低了計(jì)算難度,讓AI能夠更容易地學(xué)習(xí)繪畫技巧。然而,這個(gè)翻譯官并不完美,它在翻譯過程中會(huì)不可避免地丟失一些信息,導(dǎo)致最終生成的圖像出現(xiàn)模糊、偽影或其他質(zhì)量問題。更麻煩的是,訓(xùn)練這個(gè)翻譯官本身就是一個(gè)復(fù)雜的過程,需要使用對(duì)抗性訓(xùn)練等高難度技術(shù),就像教兩個(gè)學(xué)生互相競(jìng)爭(zhēng)來提升水平一樣,訓(xùn)練過程極不穩(wěn)定。
為了解決這些問題,一些研究者嘗試讓AI直接在像素層面工作,但這種方法面臨著計(jì)算量爆炸的問題。當(dāng)AI需要處理的信息量增加幾十倍時(shí),傳統(tǒng)的直接像素方法只能采用級(jí)聯(lián)流水線的復(fù)雜架構(gòu),就像建造一條分段式的生產(chǎn)線,每個(gè)階段處理不同分辨率的圖像。這種方法雖然能工作,但整個(gè)系統(tǒng)變得極其復(fù)雜,訓(xùn)練和使用都非常困難。
南京大學(xué)團(tuán)隊(duì)提出的PixNerd方法就像是給AI配備了一副神奇的眼鏡,讓它能夠以全新的方式觀察和處理圖像的每一個(gè)像素。傳統(tǒng)方法中,AI在處理大塊像素區(qū)域時(shí)往往力不從心,就像一個(gè)畫家試圖用粗大的畫筆繪制精細(xì)的花朵一樣困難。PixNerd的創(chuàng)新在于引入了神經(jīng)場(chǎng)技術(shù),這就像給AI配備了一套可以無限放大和縮小的智能畫筆工具。
神經(jīng)場(chǎng)技術(shù)原本在三維場(chǎng)景重建領(lǐng)域大放異彩,它能夠用數(shù)學(xué)函數(shù)來精確描述三維空間中每一個(gè)點(diǎn)的屬性。研究團(tuán)隊(duì)巧妙地將這種技術(shù)應(yīng)用到二維圖像生成中,讓AI能夠?qū)W會(huì)為圖像的每一個(gè)像素塊預(yù)測(cè)一套專門的"繪畫工具"。具體來說,當(dāng)AI需要處理一個(gè)16×16像素的圖像塊時(shí),它首先會(huì)預(yù)測(cè)出一組神經(jīng)網(wǎng)絡(luò)參數(shù),這些參數(shù)就像是專門為這個(gè)圖像塊定制的畫筆和顏料。然后,對(duì)于圖像塊中的每一個(gè)像素,AI會(huì)根據(jù)該像素的位置信息,使用這套定制工具來精確預(yù)測(cè)應(yīng)該填入什么顏色。
這種方法的巧妙之處在于,它既保持了與傳統(tǒng)方法相當(dāng)?shù)挠?jì)算效率,又能夠處理像素級(jí)別的精細(xì)細(xì)節(jié)。就像一個(gè)技藝精湛的工匠,能夠用同樣的時(shí)間制作出質(zhì)量更高的作品。研究團(tuán)隊(duì)將這種像素神經(jīng)場(chǎng)擴(kuò)散模型命名為PixNerd,寓意著在像素世界中專業(yè)且精細(xì)的工作態(tài)度。
PixNerd的核心架構(gòu)基于擴(kuò)散變換器設(shè)計(jì),但在最關(guān)鍵的輸出層進(jìn)行了根本性改革。傳統(tǒng)的擴(kuò)散變換器在最后一步使用簡(jiǎn)單的線性投影來生成輸出,就像用一把標(biāo)準(zhǔn)化的刻刀雕刻所有細(xì)節(jié)。而PixNerd則用神經(jīng)場(chǎng)替換了這個(gè)線性投影層,相當(dāng)于為每個(gè)圖像區(qū)域配備了專門的雕刻工具。當(dāng)系統(tǒng)需要生成某個(gè)圖像塊的內(nèi)容時(shí),它首先根據(jù)變換器的隱藏狀態(tài)預(yù)測(cè)出該塊專用的神經(jīng)場(chǎng)參數(shù),然后使用這些參數(shù)結(jié)合像素坐標(biāo)信息來逐像素生成最終結(jié)果。
為了進(jìn)一步提升性能,研究團(tuán)隊(duì)在坐標(biāo)編碼方面也進(jìn)行了創(chuàng)新。他們放棄了傳統(tǒng)的正弦余弦編碼,轉(zhuǎn)而采用DCT基編碼,這種編碼方式能夠更好地捕捉圖像的頻域特征。同時(shí),他們還對(duì)神經(jīng)場(chǎng)的參數(shù)進(jìn)行了行歸一化處理,這就像給畫筆的力度進(jìn)行標(biāo)準(zhǔn)化調(diào)節(jié),確保繪畫過程的穩(wěn)定性。
在訓(xùn)練策略方面,PixNerd采用了多項(xiàng)先進(jìn)技術(shù)來提升模型性能。研究團(tuán)隊(duì)集成了SwiGLU激活函數(shù)、RMSNorm歸一化、旋轉(zhuǎn)位置編碼等現(xiàn)代神經(jīng)網(wǎng)絡(luò)組件,這些技術(shù)就像給AI配備了更精密的傳感器和控制系統(tǒng)。更重要的是,他們引入了表征對(duì)齊技術(shù),讓PixNerd的中間特征與預(yù)訓(xùn)練的DINOv2視覺模型保持一致,這相當(dāng)于讓AI在學(xué)習(xí)繪畫的同時(shí),也學(xué)會(huì)了如何更好地理解圖像的語義內(nèi)容。
實(shí)驗(yàn)結(jié)果令人矚目。在ImageNet 256×256數(shù)據(jù)集上,PixNerd-XL/16模型達(dá)到了2.15的FID分?jǐn)?shù),這個(gè)指標(biāo)越低表示生成圖像質(zhì)量越高。更令人印象深刻的是,該模型在空間FID(sFID)指標(biāo)上取得了4.55的優(yōu)秀成績(jī),顯著優(yōu)于其他像素空間生成模型。這表明PixNerd不僅能生成視覺上令人滿意的圖像,在圖像的空間結(jié)構(gòu)和細(xì)節(jié)保持方面也表現(xiàn)卓越。
在更高分辨率的ImageNet 512×512測(cè)試中,PixNerd同樣表現(xiàn)出色,F(xiàn)ID分?jǐn)?shù)達(dá)到2.84,與需要VAE的傳統(tǒng)方法性能相當(dāng),但卻是完全端到端的訓(xùn)練,避免了VAE引入的復(fù)雜性和潛在問題。這種性能等價(jià)但架構(gòu)更簡(jiǎn)潔的優(yōu)勢(shì),為未來的圖像生成研究指明了新方向。
研究團(tuán)隊(duì)還將PixNerd擴(kuò)展到文本到圖像生成任務(wù)中。他們使用Qwen3-1.7B作為文本編碼器,在包含約4500萬圖像的混合數(shù)據(jù)集上進(jìn)行訓(xùn)練。為了提升文本和圖像的對(duì)齊效果,他們采用了聯(lián)合訓(xùn)練策略,讓文本特征和圖像特征能夠更好地協(xié)調(diào)工作。在GenEval基準(zhǔn)測(cè)試中,PixNerd-XXL/16達(dá)到了0.73的綜合評(píng)分,在DPG基準(zhǔn)測(cè)試中獲得80.9的平均分?jǐn)?shù),這些成績(jī)?cè)谙袼乜臻g生成模型中都是領(lǐng)先水平。
PixNerd的一個(gè)獨(dú)特優(yōu)勢(shì)是支持任意分辨率生成,而且無需額外的微調(diào)訓(xùn)練。這種能力來源于神經(jīng)場(chǎng)的靈活特性:系統(tǒng)只需要保持token數(shù)量與預(yù)訓(xùn)練時(shí)一致,然后通過坐標(biāo)插值來適應(yīng)不同的目標(biāo)分辨率。這就像一個(gè)畫家能夠在不同尺寸的畫布上自如創(chuàng)作,無論是小幅素描還是大型壁畫,都能保持同樣的藝術(shù)水準(zhǔn)。
從計(jì)算效率角度來看,PixNerd展現(xiàn)出顯著優(yōu)勢(shì)。與其他像素空間擴(kuò)散模型相比,PixNerd的推理速度快了近8倍,內(nèi)存占用也大幅降低。在單步推理時(shí)間上,PixNerd-XL/16只需要0.012秒,而同類模型PixelFlow-XL/4需要0.084秒。這種效率提升主要?dú)w功于PixNerd的單階段架構(gòu)設(shè)計(jì),避免了級(jí)聯(lián)模型的復(fù)雜性和重復(fù)計(jì)算。
在神經(jīng)場(chǎng)設(shè)計(jì)的細(xì)節(jié)優(yōu)化方面,研究團(tuán)隊(duì)進(jìn)行了全面的消融實(shí)驗(yàn)。他們發(fā)現(xiàn),對(duì)神經(jīng)場(chǎng)參數(shù)進(jìn)行適當(dāng)?shù)臍w一化處理至關(guān)重要,這不僅包括對(duì)權(quán)重矩陣的歸一化,還包括對(duì)輸出特征的歸一化。在神經(jīng)場(chǎng)的通道數(shù)配置上,64個(gè)通道被證明是性能和計(jì)算成本的最佳平衡點(diǎn)。較少的通道數(shù)會(huì)導(dǎo)致表達(dá)能力不足,而過多的通道數(shù)雖然能略微提升性能,但計(jì)算開銷增加過多,性價(jià)比不高。
在坐標(biāo)編碼的選擇上,DCT基編碼明顯優(yōu)于傳統(tǒng)的正弦余弦編碼。這種編碼方式能夠更好地捕捉圖像的頻域特征,幫助神經(jīng)場(chǎng)更準(zhǔn)確地理解像素之間的空間關(guān)系。研究還發(fā)現(xiàn),使用2層MLP作為神經(jīng)場(chǎng)的深度是最優(yōu)選擇,既保證了足夠的表達(dá)能力,又避免了過度復(fù)雜化。
在推理策略方面,PixNerd支持多種ODE求解器,包括Euler求解器和Adams多步求解器。實(shí)驗(yàn)表明,Adams二階求解器在少步推理中表現(xiàn)最佳,能夠在保持生成質(zhì)量的同時(shí)顯著減少推理步數(shù)。這對(duì)于實(shí)際應(yīng)用來說非常重要,因?yàn)楦俚耐评聿綌?shù)意味著更快的生成速度和更低的計(jì)算成本。
值得注意的是,PixNerd還展現(xiàn)出優(yōu)秀的多語言理解能力。雖然模型主要使用英文描述進(jìn)行訓(xùn)練,但由于采用了強(qiáng)大的Qwen3文本編碼器,它能夠理解中文、日文等多種語言的文本提示,并生成相應(yīng)的高質(zhì)量圖像。這種跨語言能力為PixNerd的國(guó)際化應(yīng)用奠定了基礎(chǔ)。
在與其他先進(jìn)模型的對(duì)比中,PixNerd在多個(gè)維度都表現(xiàn)出競(jìng)爭(zhēng)優(yōu)勢(shì)。與需要VAE的潛在擴(kuò)散模型相比,PixNerd避免了VAE訓(xùn)練的復(fù)雜性和解碼偽影問題。與其他像素空間模型相比,PixNerd的單階段設(shè)計(jì)更加簡(jiǎn)潔高效。與自回歸模型相比,PixNerd的并行生成能力提供了更快的推理速度。
研究團(tuán)隊(duì)還對(duì)PixNerd的局限性進(jìn)行了誠(chéng)實(shí)的討論。目前模型在某些復(fù)雜場(chǎng)景下仍可能出現(xiàn)細(xì)節(jié)模糊或不自然的情況,特別是在生成包含大量精細(xì)紋理的圖像時(shí)。此外,雖然模型在標(biāo)準(zhǔn)基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)秀,但與最先進(jìn)的潛在擴(kuò)散模型相比,在某些特定指標(biāo)上仍有提升空間。
從技術(shù)發(fā)展趨勢(shì)來看,PixNerd代表了圖像生成領(lǐng)域的一個(gè)重要方向轉(zhuǎn)變。它證明了端到端的像素空間方法不僅可行,而且具有顯著優(yōu)勢(shì)。這種方法避免了傳統(tǒng)兩階段架構(gòu)的累積誤差問題,為構(gòu)建更可靠、更高質(zhì)量的圖像生成系統(tǒng)提供了新思路。
對(duì)于普通用戶來說,PixNerd的意義在于它有望提供更穩(wěn)定、更高質(zhì)量的AI繪畫體驗(yàn)。由于避免了VAE解碼過程中的常見問題,用戶生成的圖像將更少出現(xiàn)奇怪的偽影或失真現(xiàn)象。同時(shí),模型的高效性意味著用戶能夠以更低的計(jì)算成本獲得高質(zhì)量的生成結(jié)果。
研究團(tuán)隊(duì)已經(jīng)將PixNerd的代碼和預(yù)訓(xùn)練模型開源,這為研究社區(qū)和開發(fā)者提供了寶貴資源。開發(fā)者可以基于PixNerd構(gòu)建各種應(yīng)用,從專業(yè)的設(shè)計(jì)工具到消費(fèi)級(jí)的創(chuàng)意應(yīng)用,都有廣闊的發(fā)展空間。同時(shí),開源也促進(jìn)了技術(shù)的進(jìn)一步發(fā)展和優(yōu)化。
展望未來,PixNerd技術(shù)還有很大的發(fā)展?jié)摿?。研究團(tuán)隊(duì)提到了幾個(gè)可能的改進(jìn)方向,包括引入原生分辨率訓(xùn)練、支持多寬高比生成、以及探索像素空間的后訓(xùn)練優(yōu)化技術(shù)。這些改進(jìn)將進(jìn)一步提升模型的實(shí)用性和適用范圍。
從更廣闊的視角來看,PixNerd的成功證明了簡(jiǎn)化架構(gòu)設(shè)計(jì)的重要性。在追求模型性能的同時(shí),保持系統(tǒng)的簡(jiǎn)潔性和可理解性同樣重要。這種設(shè)計(jì)哲學(xué)不僅有助于技術(shù)的推廣應(yīng)用,也為未來的研究提供了有價(jià)值的參考。
總的來說,PixNerd不僅在技術(shù)上實(shí)現(xiàn)了突破,更重要的是它為圖像生成領(lǐng)域提供了一個(gè)全新的思路。通過巧妙地結(jié)合神經(jīng)場(chǎng)技術(shù)和擴(kuò)散模型,研究團(tuán)隊(duì)創(chuàng)造了一個(gè)既高效又高質(zhì)量的圖像生成方案,為AI藝術(shù)創(chuàng)作的未來發(fā)展開辟了新道路。
Q&A
Q1:PixNerd是什么?它與傳統(tǒng)AI繪畫有什么不同?
A:PixNerd是南京大學(xué)開發(fā)的新型AI圖像生成模型,它的最大特點(diǎn)是直接在像素層面工作,不需要像傳統(tǒng)方法那樣先把圖像壓縮成代碼再還原。這就像讓畫家直接在畫布上作畫,而不是先把想法寫成文字描述,再讓別人根據(jù)描述來畫畫,避免了信息丟失和質(zhì)量下降。
Q2:PixNerd的神經(jīng)場(chǎng)技術(shù)是怎么工作的?
A:神經(jīng)場(chǎng)技術(shù)就像給AI配備了智能畫筆工具集。當(dāng)AI需要繪制某個(gè)區(qū)域時(shí),它會(huì)先為這個(gè)區(qū)域定制一套專門的"繪畫工具"(神經(jīng)網(wǎng)絡(luò)參數(shù)),然后根據(jù)每個(gè)像素的位置信息,用這套工具精確決定該像素的顏色。這種方法讓AI能夠在保持高效率的同時(shí),處理像素級(jí)別的精細(xì)細(xì)節(jié)。
Q3:普通用戶能使用PixNerd嗎?效果如何?
A:研究團(tuán)隊(duì)已經(jīng)在GitHub和Hugging Face平臺(tái)開源了PixNerd的代碼和模型,技術(shù)人員可以直接使用。對(duì)于普通用戶,PixNerd生成的圖像質(zhì)量很高,在標(biāo)準(zhǔn)測(cè)試中達(dá)到了與傳統(tǒng)方法相當(dāng)?shù)乃?,但避免了常見的圖像偽影問題,生成速度也更快,未來有望集成到各種AI繪畫應(yīng)用中。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對(duì)話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。