av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見(jiàn)證連接與計(jì)算的「力量」

首頁(yè) 騰訊AI突破傳統(tǒng)圖像生成:不再需要"翻譯"就能直接創(chuàng)造連續(xù)畫(huà)面

騰訊AI突破傳統(tǒng)圖像生成:不再需要"翻譯"就能直接創(chuàng)造連續(xù)畫(huà)面

2025-07-09 09:41
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-07-09 09:41 ? 科技行者

這項(xiàng)由騰訊公司微信AI團(tuán)隊(duì)的邵晨澤、孟凡東和周杰三位研究者共同完成的突破性研究,發(fā)表在2025年第42屆機(jī)器學(xué)習(xí)國(guó)際會(huì)議(ICML 2025)上。有興趣深入了解的讀者可以通過(guò)論文代碼庫(kù)https://github.com/shaochenze/EAR訪(fǎng)問(wèn)完整研究資料。

要理解這項(xiàng)研究的重要意義,我們可以從一個(gè)簡(jiǎn)單的類(lèi)比開(kāi)始。傳統(tǒng)的AI圖像生成就像是讓一個(gè)外國(guó)人畫(huà)畫(huà),他必須先把你的要求翻譯成自己的語(yǔ)言,再用有限的顏色盒子里的顏色來(lái)作畫(huà)。這個(gè)"翻譯"過(guò)程不可避免地會(huì)丟失一些細(xì)節(jié)和色彩層次。而騰訊這項(xiàng)新研究就像是教會(huì)了AI直接用無(wú)限豐富的調(diào)色板來(lái)作畫(huà),不再需要任何"翻譯"步驟。

在傳統(tǒng)方法中,計(jì)算機(jī)需要先把連續(xù)的圖像信息轉(zhuǎn)換成離散的"代幣"(就像把連續(xù)的彩虹色彩切分成有限的幾種顏色),然后再用這些有限的代幣來(lái)重新組合生成圖像。這個(gè)過(guò)程就像用馬賽克拼圖來(lái)還原一幅油畫(huà),總是會(huì)丟失一些精細(xì)的漸變和細(xì)節(jié)。騰訊的研究團(tuán)隊(duì)發(fā)現(xiàn)了一種全新的方法,讓AI能夠直接處理連續(xù)的視覺(jué)信息,就像真正的畫(huà)家一樣可以調(diào)出任何需要的色彩。

這種突破的核心在于他們建立了一個(gè)叫做"連續(xù)視覺(jué)自回歸生成"的框架。自回歸聽(tīng)起來(lái)很復(fù)雜,但其實(shí)就是AI一步一步地生成圖像的方式,就像畫(huà)家一筆一筆地完成畫(huà)作。傳統(tǒng)方法需要先把畫(huà)作"量化"成固定的幾種顏色,而新方法讓AI可以直接使用無(wú)限豐富的色彩。

研究團(tuán)隊(duì)的創(chuàng)新之處在于運(yùn)用了一種叫做"嚴(yán)格適當(dāng)評(píng)分規(guī)則"的數(shù)學(xué)工具。這個(gè)概念聽(tīng)起來(lái)很學(xué)術(shù),但實(shí)際上它就像是一個(gè)非常誠(chéng)實(shí)的評(píng)判系統(tǒng)。當(dāng)AI生成圖像時(shí),這個(gè)評(píng)判系統(tǒng)會(huì)給出最公正的分?jǐn)?shù),而且它有一個(gè)特殊的性質(zhì):只有當(dāng)AI完全誠(chéng)實(shí)地反映真實(shí)圖像分布時(shí),它才能得到最高分。任何偏離真實(shí)的生成都會(huì)導(dǎo)致分?jǐn)?shù)下降。

在這個(gè)框架下,研究團(tuán)隊(duì)主要探索了一種基于"能量分?jǐn)?shù)"的訓(xùn)練方法。能量分?jǐn)?shù)是一種不需要明確計(jì)算概率的評(píng)分方式,這解決了連續(xù)空間中概率計(jì)算極其困難的問(wèn)題。就像評(píng)判一個(gè)畫(huà)家的水平,你不需要用復(fù)雜的數(shù)學(xué)公式,而是可以直觀地看畫(huà)作是否生動(dòng)、是否接近真實(shí)。

有趣的是,之前一些看似不同的研究方法,比如GIVT(生成無(wú)限詞匯表變換器)和擴(kuò)散損失,實(shí)際上都可以在這個(gè)新框架下得到統(tǒng)一的解釋。GIVT使用的是對(duì)數(shù)評(píng)分,而擴(kuò)散損失對(duì)應(yīng)的是Hyvarinen評(píng)分。這就像發(fā)現(xiàn)了不同烹飪方法背后的共同原理一樣,為整個(gè)領(lǐng)域提供了更深層的理解。

基于這個(gè)理論框架,研究團(tuán)隊(duì)開(kāi)發(fā)了一種叫做EAR(Energy-based AutoRegression,基于能量的自回歸)的具體方法。這個(gè)方法的巧妙之處在于,它不需要明確估計(jì)概率密度,只需要能夠從模型分布中采樣即可。這大大降低了實(shí)現(xiàn)的復(fù)雜度,同時(shí)提供了更大的表達(dá)能力。

EAR使用的能量損失函數(shù)有一個(gè)很直觀的含義:它鼓勵(lì)模型生成的樣本盡可能接近目標(biāo)圖像,同時(shí)保持生成樣本之間的多樣性。這就像訓(xùn)練一個(gè)畫(huà)家,既要畫(huà)得像,又要保持創(chuàng)作的多樣性,不能總是畫(huà)出一模一樣的作品。

在具體的模型架構(gòu)上,能量變換器與傳統(tǒng)的離散變換器非常相似,主要區(qū)別在于輸出層。傳統(tǒng)方法使用softmax層從有限的詞匯表中選擇,而能量變換器使用一個(gè)小型的多層感知機(jī)生成器,它可以接受隨機(jī)噪聲作為額外輸入,通過(guò)采樣過(guò)程隱式地表示預(yù)測(cè)分布。這種設(shè)計(jì)類(lèi)似于生成對(duì)抗網(wǎng)絡(luò)中的生成器,但更加簡(jiǎn)潔高效。

研究團(tuán)隊(duì)在設(shè)計(jì)中還加入了幾個(gè)重要的技術(shù)細(xì)節(jié)。首先是溫度機(jī)制,這允許在訓(xùn)練和推理過(guò)程中調(diào)節(jié)生成的多樣性和準(zhǔn)確性之間的平衡。訓(xùn)練時(shí)可以稍微降低多樣性來(lái)提高質(zhì)量,推理時(shí)可以調(diào)節(jié)創(chuàng)意水平。其次是無(wú)分類(lèi)器引導(dǎo)技術(shù),這是一種在條件生成中提高質(zhì)量的標(biāo)準(zhǔn)方法,通過(guò)同時(shí)考慮有條件和無(wú)條件的預(yù)測(cè)來(lái)增強(qiáng)生成效果。

另一個(gè)重要?jiǎng)?chuàng)新是支持掩碼自回歸生成。與傳統(tǒng)的從左到右的因果生成不同,掩碼自回歸允許雙向注意力,可以更有效地學(xué)習(xí)表示。生成時(shí),模型可以以隨機(jī)順序預(yù)測(cè)被掩蓋的token,逐步完成整個(gè)圖像。這種方法在實(shí)驗(yàn)中表現(xiàn)出比因果生成更好的效果。

在訓(xùn)練過(guò)程中,研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)關(guān)鍵的技術(shù)要點(diǎn):MLP生成器需要使用比主干網(wǎng)絡(luò)更小的學(xué)習(xí)率。這是因?yàn)樯善鞯挠?xùn)練穩(wěn)定性要求更加嚴(yán)格,需要更細(xì)致的調(diào)優(yōu)。他們還探索了不同類(lèi)型和維度的隨機(jī)噪聲對(duì)模型性能的影響,發(fā)現(xiàn)均勻分布的64維噪聲效果最佳。

實(shí)驗(yàn)驗(yàn)證是這項(xiàng)研究的重要組成部分。研究團(tuán)隊(duì)在ImageNet 256×256基準(zhǔn)數(shù)據(jù)集上進(jìn)行了全面的評(píng)估,這是計(jì)算機(jī)視覺(jué)領(lǐng)域的標(biāo)準(zhǔn)測(cè)試平臺(tái)。他們將EAR方法與多種現(xiàn)有技術(shù)進(jìn)行了比較,包括生成對(duì)抗網(wǎng)絡(luò)、擴(kuò)散模型和基于向量量化的自回歸模型。

結(jié)果顯示,EAR在生成質(zhì)量上取得了競(jìng)爭(zhēng)性的表現(xiàn)。特別值得注意的是,EAR-B(205M參數(shù))獲得了2.83的FID分?jǐn)?shù),EAR-H(937M參數(shù))達(dá)到了1.97的FID分?jǐn)?shù),這些結(jié)果在同等規(guī)模的模型中表現(xiàn)優(yōu)異。更重要的是,EAR在推理效率方面顯著優(yōu)于基于擴(kuò)散的方法,能夠在大約1秒內(nèi)生成高質(zhì)量圖像,而對(duì)比方法MAR需要近10倍的時(shí)間。

這種效率優(yōu)勢(shì)源于EAR和MAR在概率建模方面的根本差異。MAR使用擴(kuò)散損失訓(xùn)練,需要多次去噪迭代來(lái)恢復(fù)目標(biāo)分布,而EAR的能量式監(jiān)督使其能夠在單次前向計(jì)算中完成預(yù)測(cè)。這就像傳統(tǒng)方法需要反復(fù)修改草稿,而新方法可以一氣呵成。

研究團(tuán)隊(duì)還進(jìn)行了詳細(xì)的消融實(shí)驗(yàn)來(lái)驗(yàn)證設(shè)計(jì)選擇的合理性。他們發(fā)現(xiàn),嚴(yán)格適當(dāng)性對(duì)于評(píng)分規(guī)則確實(shí)至關(guān)重要。在能量損失中,指數(shù)系數(shù)α的選擇需要在(0,2)范圍內(nèi),α=2時(shí)雖然評(píng)分規(guī)則仍然適當(dāng),但不是嚴(yán)格適當(dāng)?shù)?,?xùn)練效果顯著下降。這驗(yàn)證了理論分析的正確性。

在表達(dá)能力方面,研究顯示能量變換器相比使用預(yù)定義分布(如高斯分布)的方法具有明顯優(yōu)勢(shì)。預(yù)定義分布的方法雖然可以通過(guò)調(diào)整方差獲得一定的生成質(zhì)量,但與EAR相比仍有顯著差距,說(shuō)明連續(xù)token分布的復(fù)雜性需要更靈活的建模方法。

連續(xù)tokenizer相比離散tokenizer的優(yōu)勢(shì)也得到了實(shí)驗(yàn)驗(yàn)證。使用相同模型架構(gòu)時(shí),連續(xù)tokenization配合能量損失始終優(yōu)于離散tokenization配合交叉熵?fù)p失。這凸顯了連續(xù)視覺(jué)自回歸的巨大潛力。

在技術(shù)細(xì)節(jié)的探索中,研究團(tuán)隊(duì)發(fā)現(xiàn)學(xué)習(xí)率的調(diào)整對(duì)訓(xùn)練穩(wěn)定性至關(guān)重要。使用常規(guī)學(xué)習(xí)率時(shí)模型無(wú)法收斂,而將MLP生成器的學(xué)習(xí)率調(diào)整為主干網(wǎng)絡(luò)的0.25倍后,訓(xùn)練過(guò)程得到穩(wěn)定。這個(gè)發(fā)現(xiàn)為后續(xù)研究提供了重要的實(shí)踐指導(dǎo)。

噪聲類(lèi)型和維度的選擇也經(jīng)過(guò)了系統(tǒng)的實(shí)驗(yàn)驗(yàn)證。均勻噪聲相比高斯噪聲表現(xiàn)更好,64維的噪聲維度在32、64、128三個(gè)選項(xiàng)中效果最佳。這些發(fā)現(xiàn)為實(shí)際應(yīng)用提供了具體的參數(shù)選擇指導(dǎo)。

分類(lèi)器自由引導(dǎo)在EAR中發(fā)揮了重要作用。通過(guò)線(xiàn)性增加引導(dǎo)尺度,可以在生成質(zhì)量和多樣性之間取得良好平衡。實(shí)驗(yàn)顯示,隨著引導(dǎo)尺度增加,Inception Score持續(xù)提升,而FID在尺度為3.0左右達(dá)到最優(yōu)值,過(guò)高的引導(dǎo)尺度會(huì)損害生成多樣性。

溫度機(jī)制的實(shí)驗(yàn)驗(yàn)證了其在質(zhì)量-多樣性權(quán)衡中的有效性。訓(xùn)練溫度設(shè)為0.99,推理溫度設(shè)為0.7時(shí)獲得了最佳效果。這種機(jī)制為用戶(hù)在實(shí)際應(yīng)用中根據(jù)需求調(diào)節(jié)生成特性提供了靈活性。

掩碼自回歸相比因果自回歸顯示出明顯優(yōu)勢(shì),F(xiàn)ID從17.83改善到7.95(無(wú)引導(dǎo)情況下),從8.10改善到3.55(有引導(dǎo)情況下)。這驗(yàn)證了雙向注意力在視覺(jué)生成任務(wù)中的價(jià)值。

速度-質(zhì)量權(quán)衡分析顯示,EAR在推理延遲和生成質(zhì)量的平衡方面具有顯著優(yōu)勢(shì)。在固定64個(gè)自回歸步數(shù)的情況下,通過(guò)調(diào)整模型大小可以在不同的速度-質(zhì)量工作點(diǎn)之間選擇,而MAR即使使用不同的擴(kuò)散步數(shù)也難以達(dá)到EAR的效率水平。

這項(xiàng)研究的理論貢獻(xiàn)不僅限于技術(shù)實(shí)現(xiàn),還為連續(xù)視覺(jué)自回歸生成提供了統(tǒng)一的理論框架。通過(guò)嚴(yán)格適當(dāng)評(píng)分規(guī)則的視角,可以理解和比較不同的連續(xù)生成方法,為未來(lái)的研究方向提供了清晰的指導(dǎo)。

實(shí)際應(yīng)用方面,這種技術(shù)可以顯著改善需要高質(zhì)量圖像生成的各種場(chǎng)景。從藝術(shù)創(chuàng)作到內(nèi)容生成,從數(shù)據(jù)增強(qiáng)到虛擬環(huán)境構(gòu)建,連續(xù)視覺(jué)自回歸都能提供更精細(xì)、更高效的解決方案。特別是在需要實(shí)時(shí)或近實(shí)時(shí)生成的應(yīng)用中,EAR的效率優(yōu)勢(shì)將發(fā)揮重要作用。

研究團(tuán)隊(duì)也誠(chéng)實(shí)地指出了當(dāng)前方法的局限性和未來(lái)改進(jìn)方向。架構(gòu)優(yōu)化仍有很大空間,可以探索更適合連續(xù)生成的網(wǎng)絡(luò)結(jié)構(gòu)。評(píng)分規(guī)則的選擇還可以進(jìn)一步研究,不同的嚴(yán)格適當(dāng)評(píng)分規(guī)則可能在特定任務(wù)上有不同的優(yōu)勢(shì)。擴(kuò)展到視頻、音頻等其他連續(xù)模態(tài)也是自然的發(fā)展方向。

另一個(gè)有趣的研究方向是將這種方法應(yīng)用到語(yǔ)言建模中。雖然文本本質(zhì)上是離散的,但通過(guò)將離散文本轉(zhuǎn)換為潛在向量表示,可能也能從連續(xù)建模中受益。這種跨模態(tài)的思考體現(xiàn)了研究的深度和廣度。

從更宏觀的角度來(lái)看,這項(xiàng)研究反映了AI生成技術(shù)正在從粗糙的拼接向精細(xì)的創(chuàng)作演進(jìn)。就像從馬賽克藝術(shù)發(fā)展到油畫(huà)技法一樣,技術(shù)的進(jìn)步讓AI能夠處理更加細(xì)膩和連續(xù)的信息,生成更加自然和逼真的內(nèi)容。

這種進(jìn)步不僅體現(xiàn)在技術(shù)層面,也反映了我們對(duì)生成模型本質(zhì)理解的深化。通過(guò)統(tǒng)一的理論框架,研究者可以更好地理解不同方法之間的關(guān)系,從而設(shè)計(jì)出更有效的算法。這種理論指導(dǎo)實(shí)踐、實(shí)踐驗(yàn)證理論的良性循環(huán),正是科學(xué)研究的核心價(jià)值所在。

最終,這項(xiàng)研究為連續(xù)視覺(jué)生成開(kāi)辟了新的技術(shù)路徑。它不僅在當(dāng)前任務(wù)上取得了優(yōu)異表現(xiàn),更重要的是為整個(gè)領(lǐng)域提供了新的思考框架和發(fā)展方向。隨著技術(shù)的進(jìn)一步發(fā)展和優(yōu)化,我們有理由期待看到更加智能、高效和強(qiáng)大的視覺(jué)生成系統(tǒng)。

說(shuō)到底,騰訊這項(xiàng)研究的真正價(jià)值在于打破了傳統(tǒng)思維的局限。它告訴我們,AI不一定要按照人類(lèi)設(shè)計(jì)的"翻譯"規(guī)則來(lái)工作,而是可以直接學(xué)習(xí)和模擬自然界中連續(xù)變化的規(guī)律。這種思路的轉(zhuǎn)變,可能會(huì)在更多AI應(yīng)用領(lǐng)域帶來(lái)突破性進(jìn)展。對(duì)于普通用戶(hù)來(lái)說(shuō),這意味著未來(lái)我們可能會(huì)看到更加精美、生成速度更快的AI繪畫(huà)工具,讓每個(gè)人都能輕松創(chuàng)作出專(zhuān)業(yè)級(jí)別的視覺(jué)作品。隨著這類(lèi)技術(shù)的成熟和普及,創(chuàng)意表達(dá)的門(mén)檻將進(jìn)一步降低,讓更多人能夠?qū)崿F(xiàn)自己的藝術(shù)想法。有興趣深入了解技術(shù)細(xì)節(jié)的讀者,可以訪(fǎng)問(wèn)研究團(tuán)隊(duì)公開(kāi)的代碼庫(kù),親自體驗(yàn)這項(xiàng)創(chuàng)新技術(shù)的魅力。

Q&A

Q1:什么是連續(xù)視覺(jué)自回歸生成?它和傳統(tǒng)方法有什么不同? A:連續(xù)視覺(jué)自回歸生成是一種讓AI直接處理連續(xù)圖像信息的新方法,就像畫(huà)家直接用調(diào)色板調(diào)色一樣。傳統(tǒng)方法需要先把圖像"翻譯"成有限的離散代幣(像用馬賽克塊拼圖),會(huì)丟失細(xì)節(jié)。新方法跳過(guò)了這個(gè)"翻譯"步驟,能保留更多圖像的精細(xì)信息,生成質(zhì)量更高。

Q2:EAR方法會(huì)不會(huì)取代現(xiàn)有的圖像生成技術(shù)? A:EAR在某些方面確實(shí)有優(yōu)勢(shì),特別是生成速度比擴(kuò)散模型快近10倍,但不會(huì)完全取代所有方法。不同技術(shù)各有特點(diǎn),EAR主要優(yōu)勢(shì)在于效率高、質(zhì)量好,適合需要快速生成的場(chǎng)景。未來(lái)可能會(huì)看到多種技術(shù)并存,在不同應(yīng)用中發(fā)揮各自?xún)?yōu)勢(shì)。

Q3:普通人能使用這種技術(shù)嗎?有什么實(shí)際應(yīng)用? A:目前這還是研究階段的技術(shù),普通人暫時(shí)無(wú)法直接使用。但隨著技術(shù)成熟,預(yù)計(jì)會(huì)集成到各種圖像生成工具中,讓AI繪畫(huà)、內(nèi)容創(chuàng)作、游戲開(kāi)發(fā)等應(yīng)用變得更快更好。未來(lái)可能出現(xiàn)在手機(jī)拍照美化、社交媒體內(nèi)容生成、在線(xiàn)設(shè)計(jì)工具等日常應(yīng)用中。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-