av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見(jiàn)證連接與計(jì)算的「力量」

首頁(yè) Meta團(tuán)隊(duì)突破視覺(jué)壓縮極限:讓AI用更少算力生成更好的圖像和視頻

Meta團(tuán)隊(duì)突破視覺(jué)壓縮極限:讓AI用更少算力生成更好的圖像和視頻

2025-09-16 10:29
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-09-16 10:29 ? 科技行者

這項(xiàng)由Meta公司GenAI團(tuán)隊(duì)Philippe Hansen-Estruch領(lǐng)導(dǎo),聯(lián)合德州大學(xué)奧斯汀分校、斯坦福大學(xué)等多個(gè)研究機(jī)構(gòu)共同完成的研究于2025年1月16日發(fā)布,論文題為"Learnings from Scaling Visual Tokenizers for Reconstruction and Generation"(從擴(kuò)展視覺(jué)標(biāo)記器中學(xué)到的重建與生成規(guī)律)。感興趣的讀者可以通過(guò)https://vitok.github.io訪問(wèn)完整論文和項(xiàng)目詳情。

在人工智能快速發(fā)展的今天,我們每天都在社交媒體上看到令人驚嘆的AI生成圖像和視頻。但你是否想過(guò),這些看似神奇的技術(shù)背后隱藏著什么秘密?就像魔術(shù)師需要巧妙的手法一樣,AI生成高質(zhì)量視覺(jué)內(nèi)容也需要一套精密的"壓縮與還原"系統(tǒng)。

現(xiàn)代AI視覺(jué)生成就像一個(gè)精巧的攝影暗房流程。首先需要一個(gè)"壓縮師"把原始圖像壓縮成緊湊的密碼,然后交給"生成師"在這個(gè)壓縮空間里創(chuàng)作新內(nèi)容,最后再由"解壓師"把密碼還原成我們能看到的圖像。這個(gè)過(guò)程中的"壓縮師"和"解壓師"就是本研究的主角——視覺(jué)標(biāo)記器(Visual Tokenizer),它們決定了整個(gè)系統(tǒng)的效率和質(zhì)量。

Meta研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:盡管AI界一直在瘋狂提升"生成師"的能力,投入巨大資源訓(xùn)練越來(lái)越大的生成模型,但對(duì)于同樣重要的"壓縮師"和"解壓師"卻關(guān)注不夠。這就像大家都在研究如何制造更好的汽車(chē)發(fā)動(dòng)機(jī),卻忽略了輪胎和剎車(chē)系統(tǒng)的重要性。

為了填補(bǔ)這個(gè)空白,研究團(tuán)隊(duì)開(kāi)發(fā)了一種名為ViTok(Vision Transformer Tokenizer)的新型視覺(jué)標(biāo)記器。與傳統(tǒng)主要基于卷積神經(jīng)網(wǎng)絡(luò)的方法不同,ViTok采用了更現(xiàn)代的Transformer架構(gòu),就像用最新的數(shù)字相機(jī)替代了膠片相機(jī)。更重要的是,他們?cè)诖笠?guī)模數(shù)據(jù)上訓(xùn)練這個(gè)系統(tǒng),遠(yuǎn)超過(guò)以往研究使用的ImageNet-1K數(shù)據(jù)集的規(guī)模,相當(dāng)于用海量樣本來(lái)訓(xùn)練這個(gè)"壓縮專(zhuān)家"。

一、擴(kuò)展瓶頸的秘密:浮點(diǎn)數(shù)總量才是關(guān)鍵

研究團(tuán)隊(duì)的第一個(gè)重要發(fā)現(xiàn)顛覆了人們的傳統(tǒng)認(rèn)知。他們發(fā)現(xiàn),在視覺(jué)壓縮系統(tǒng)中,真正影響重建質(zhì)量的不是模型有多復(fù)雜,不是使用了多少計(jì)算資源,而是一個(gè)看似簡(jiǎn)單的數(shù)字——壓縮后總共用了多少個(gè)浮點(diǎn)數(shù)來(lái)存儲(chǔ)信息。

這個(gè)發(fā)現(xiàn)就像發(fā)現(xiàn)了烘焙的根本法則。以前大家可能覺(jué)得烤蛋糕的成功與否取決于烤箱有多高級(jí)、攪拌器轉(zhuǎn)速多快、烘焙師技術(shù)多嫻熟。但研究團(tuán)隊(duì)發(fā)現(xiàn),真正決定蛋糕質(zhì)量的竟然是一個(gè)更基礎(chǔ)的因素——總共用了多少克面粉。無(wú)論你用什么方式處理,無(wú)論設(shè)備多么先進(jìn),面粉總量才是蛋糕品質(zhì)的根本決定因素。

具體來(lái)說(shuō),研究團(tuán)隊(duì)定義了一個(gè)關(guān)鍵參數(shù)E,它等于壓縮后的序列長(zhǎng)度乘以每個(gè)位置的通道數(shù)(E = L × c)。這個(gè)E值就像是分配給壓縮任務(wù)的"預(yù)算總額"。研究團(tuán)隊(duì)通過(guò)大量實(shí)驗(yàn)發(fā)現(xiàn),無(wú)論怎么調(diào)整其他參數(shù)——比如改變圖像分塊大小、調(diào)整模型復(fù)雜度、增加計(jì)算量——只要E值相同,最終的重建質(zhì)量就基本相同。

這個(gè)發(fā)現(xiàn)的意義是巨大的。傳統(tǒng)上,研究人員可能會(huì)花大量時(shí)間和資源去調(diào)試各種復(fù)雜的模型結(jié)構(gòu),就像廚師花費(fèi)精力研究各種復(fù)雜的烹飪技巧。但現(xiàn)在發(fā)現(xiàn),關(guān)鍵其實(shí)在于一個(gè)簡(jiǎn)單明了的資源分配問(wèn)題:你愿意用多少"存儲(chǔ)空間"來(lái)保存壓縮后的信息。

研究團(tuán)隊(duì)在ImageNet-1K和COCO數(shù)據(jù)集上進(jìn)行了詳細(xì)測(cè)試,結(jié)果顯示E值與重建質(zhì)量指標(biāo)(如FID、SSIM、PSNR等)呈現(xiàn)出強(qiáng)烈的對(duì)數(shù)關(guān)系。當(dāng)E值翻倍時(shí),重建質(zhì)量會(huì)顯著提升;當(dāng)E值減半時(shí),重建質(zhì)量會(huì)明顯下降。這種關(guān)系非常穩(wěn)定,幾乎不受其他因素影響。

更有趣的是,研究團(tuán)隊(duì)還發(fā)現(xiàn)了分辨率擴(kuò)展的規(guī)律。當(dāng)從256像素分辨率擴(kuò)展到512像素分辨率時(shí),要保持同等的重建質(zhì)量,需要將E值增加4倍。這就像制作更大尺寸的照片需要更高的存儲(chǔ)容量一樣,遵循著清晰的數(shù)學(xué)關(guān)系。

這個(gè)發(fā)現(xiàn)為未來(lái)的系統(tǒng)設(shè)計(jì)提供了明確的指導(dǎo)原則:與其花大量精力調(diào)試復(fù)雜的模型結(jié)構(gòu),不如直接根據(jù)質(zhì)量需求來(lái)計(jì)算所需的E值,然后相應(yīng)地分配存儲(chǔ)資源。這就像建房子時(shí),先根據(jù)居住需求確定總面積,再考慮具體的房間布局,而不是反過(guò)來(lái)先糾結(jié)房間形狀再考慮總面積。

二、生成任務(wù)中的復(fù)雜平衡藝術(shù)

當(dāng)研究團(tuán)隊(duì)將注意力轉(zhuǎn)向生成任務(wù)時(shí),他們發(fā)現(xiàn)了一個(gè)更加復(fù)雜和微妙的情況。如果說(shuō)重建任務(wù)像是臨摹畫(huà)作——越精確越好,那么生成任務(wù)就像是原創(chuàng)藝術(shù)創(chuàng)作——需要在多個(gè)目標(biāo)之間找到精妙的平衡點(diǎn)。

在重建任務(wù)中表現(xiàn)出色的簡(jiǎn)單線性關(guān)系,在生成任務(wù)中變得復(fù)雜多了。研究團(tuán)隊(duì)發(fā)現(xiàn),E值與生成質(zhì)量之間不再是單純的"越大越好"關(guān)系,而是呈現(xiàn)出一種鐘形曲線的模式。就像調(diào)制雞尾酒一樣,各種原料都需要精確的比例,過(guò)多或過(guò)少都會(huì)破壞整體的平衡。

具體來(lái)說(shuō),當(dāng)E值過(guò)小時(shí),壓縮系統(tǒng)無(wú)法保存足夠的信息,導(dǎo)致重建質(zhì)量差,進(jìn)而影響生成效果。這就像給畫(huà)家的顏料太少,無(wú)法創(chuàng)作出豐富的作品。但當(dāng)E值過(guò)大時(shí),特別是通道數(shù)c過(guò)大時(shí),會(huì)給生成模型帶來(lái)訓(xùn)練困難,反而降低生成質(zhì)量。這就像給畫(huà)家太多顏料選擇,反而讓創(chuàng)作變得困難和混亂。

研究團(tuán)隊(duì)通過(guò)實(shí)驗(yàn)發(fā)現(xiàn)了每種配置的最佳平衡點(diǎn)。對(duì)于16×16的分塊方式,最佳配置是E=4096且c=16;對(duì)于8×8分塊,最佳配置是E=4096且c=4;對(duì)于32×32分塊,最佳配置是E=2048且c=32。這些看似任意的數(shù)字背后,實(shí)際上反映了壓縮信息量與生成模型學(xué)習(xí)能力之間的精妙平衡。

更有趣的是,分類(lèi)器無(wú)關(guān)指導(dǎo)(Classifier-Free Guidance,CFG)技術(shù)可以在一定程度上緩解這個(gè)問(wèn)題。CFG就像是給生成過(guò)程加了一個(gè)"智能助手",能夠幫助模型更好地理解和利用壓縮后的信息。當(dāng)使用更高的CFG權(quán)重時(shí),不同E值之間的生成質(zhì)量差異會(huì)顯著縮小,這為實(shí)際應(yīng)用提供了額外的調(diào)節(jié)空間。

這個(gè)發(fā)現(xiàn)揭示了當(dāng)前視覺(jué)生成系統(tǒng)中的一個(gè)根本性權(quán)衡:壓縮效率與生成質(zhì)量之間存在著復(fù)雜的相互關(guān)系。要獲得最佳的整體性能,不能簡(jiǎn)單地最大化任何單一指標(biāo),而需要綜合考慮重建質(zhì)量、生成質(zhì)量、計(jì)算效率等多個(gè)因素。

研究團(tuán)隊(duì)還觀察到一個(gè)重要現(xiàn)象:當(dāng)壓縮過(guò)度時(shí)(E值過(guò)大,特別是c值過(guò)大),即使重建質(zhì)量很好,生成出來(lái)的內(nèi)容也會(huì)出現(xiàn)各種異常。這說(shuō)明生成模型有自己的"舒適區(qū)",超出這個(gè)區(qū)域就很難產(chǎn)生自然的結(jié)果。

三、編碼器與解碼器的擴(kuò)展規(guī)律探索

在探索了壓縮瓶頸的規(guī)律后,研究團(tuán)隊(duì)轉(zhuǎn)向了一個(gè)同樣重要的問(wèn)題:在視覺(jué)壓縮系統(tǒng)中,"壓縮師"(編碼器)和"解壓師"(解碼器)各自扮演什么角色?應(yīng)該把計(jì)算資源更多地分配給誰(shuí)?

這個(gè)問(wèn)題就像組建一個(gè)搬家團(tuán)隊(duì):應(yīng)該雇傭更多的打包工人,還是更多的運(yùn)輸司機(jī),或者是更多的拆包整理工人?直覺(jué)上,我們可能認(rèn)為每個(gè)環(huán)節(jié)都同樣重要,但研究結(jié)果卻揭示了一個(gè)令人意外的不對(duì)稱(chēng)模式。

研究團(tuán)隊(duì)設(shè)計(jì)了一系列對(duì)比實(shí)驗(yàn),分別測(cè)試了不同規(guī)模的編碼器和解碼器組合。他們使用了三種規(guī)模:小型(S)、基礎(chǔ)(B)和大型(L),參數(shù)量從4330萬(wàn)到3.84億不等。通過(guò)系統(tǒng)性的組合測(cè)試,他們發(fā)現(xiàn)了編碼器和解碼器在重建與生成任務(wù)中的不同價(jià)值。

關(guān)于編碼器的發(fā)現(xiàn)頗為意外。無(wú)論是在重建任務(wù)還是生成任務(wù)中,增大編碼器的規(guī)模幾乎不會(huì)帶來(lái)任何性能提升,有時(shí)甚至?xí)a(chǎn)生輕微的負(fù)面影響。這就像發(fā)現(xiàn)搬家時(shí)雇傭更多的打包工人并不會(huì)讓整個(gè)搬家過(guò)程更高效一樣令人驚訝。

更深入的分析揭示了這個(gè)現(xiàn)象的原因。視覺(jué)壓縮中的編碼過(guò)程相對(duì)簡(jiǎn)單直接——主要是提取和壓縮原始圖像中的關(guān)鍵信息。這個(gè)任務(wù)并不需要太多的"思考"能力,一個(gè)適中規(guī)模的編碼器就足以完成。過(guò)度復(fù)雜的編碼器不僅浪費(fèi)計(jì)算資源,還可能產(chǎn)生過(guò)于復(fù)雜的中間表示,反而給后續(xù)的解碼和生成過(guò)程帶來(lái)困擾。

解碼器的情況則完全不同。研究團(tuán)隊(duì)發(fā)現(xiàn),增大解碼器規(guī)模能夠顯著提升重建質(zhì)量,各項(xiàng)重建指標(biāo)都呈現(xiàn)出與解碼器規(guī)模的強(qiáng)相關(guān)性。這個(gè)發(fā)現(xiàn)符合直覺(jué):解碼器需要從壓縮的表示中"想象"出完整的圖像細(xì)節(jié),這個(gè)過(guò)程需要更多的計(jì)算能力和表示能力。

但在生成任務(wù)中,解碼器擴(kuò)展的效果變得復(fù)雜起來(lái)。雖然更大的解碼器確實(shí)能帶來(lái)一些改善,但提升幅度遠(yuǎn)不如在重建任務(wù)中那么顯著。這暗示了一個(gè)重要觀點(diǎn):在生成流水線中,解碼器的作用可能更像是一個(gè)"協(xié)同生成器"而非單純的解壓工具。

研究團(tuán)隊(duì)還發(fā)現(xiàn)了一個(gè)有趣的效率對(duì)比。即使將解碼器規(guī)模從基礎(chǔ)版本擴(kuò)展到大型版本,帶來(lái)的性能提升也不如簡(jiǎn)單地將E值翻倍。例如,將解碼器從B規(guī)模擴(kuò)展到L規(guī)模可能將重建FID從1.6降低到1.3,但將E值從4096增加到8192可以將FID直接降低到0.8。這個(gè)發(fā)現(xiàn)強(qiáng)調(diào)了合理分配"存儲(chǔ)預(yù)算"比單純擴(kuò)展模型規(guī)模更重要。

這些發(fā)現(xiàn)為實(shí)際系統(tǒng)設(shè)計(jì)提供了清晰的指導(dǎo):應(yīng)該使用相對(duì)緊湊的編碼器來(lái)節(jié)省計(jì)算資源,將重點(diǎn)放在解碼器的優(yōu)化上,但最重要的仍然是合理設(shè)定壓縮瓶頸的大小。這種不對(duì)稱(chēng)的設(shè)計(jì)思路打破了"所有組件都需要同等規(guī)模"的傳統(tǒng)觀念,提供了更高效的資源分配策略。

四、解碼器的雙重身份之謎

在深入研究解碼器擴(kuò)展規(guī)律的過(guò)程中,研究團(tuán)隊(duì)意外發(fā)現(xiàn)了一個(gè)令人深思的現(xiàn)象:解碼器似乎具有雙重身份。它不僅僅是一個(gè)簡(jiǎn)單的"解壓工具",更像是一個(gè)具有創(chuàng)造能力的"藝術(shù)家"。

這個(gè)發(fā)現(xiàn)源于對(duì)不同損失函數(shù)的系統(tǒng)性研究。傳統(tǒng)的視覺(jué)壓縮系統(tǒng)主要關(guān)注"忠實(shí)重現(xiàn)"——即解碼結(jié)果與原始輸入越相似越好。但現(xiàn)代生成系統(tǒng)還需要考慮"視覺(jué)質(zhì)量"——即生成的內(nèi)容看起來(lái)是否自然和吸引人。這就像攝影師不僅要追求技術(shù)準(zhǔn)確性,還要考慮藝術(shù)美感一樣。

研究團(tuán)隊(duì)設(shè)計(jì)了一系列實(shí)驗(yàn)來(lái)探索這種權(quán)衡關(guān)系。他們調(diào)整了訓(xùn)練過(guò)程中不同損失函數(shù)的權(quán)重,包括基礎(chǔ)的均方誤差損失(追求像素級(jí)準(zhǔn)確性)、感知損失(追求視覺(jué)相似性)和對(duì)抗損失(追求生成質(zhì)量)。結(jié)果揭示了一個(gè)清晰的權(quán)衡模式:當(dāng)系統(tǒng)更多地追求視覺(jué)質(zhì)量時(shí),傳統(tǒng)的像素級(jí)準(zhǔn)確度指標(biāo)(如SSIM和PSNR)會(huì)下降;但當(dāng)追求像素級(jí)準(zhǔn)確度時(shí),視覺(jué)質(zhì)量指標(biāo)(如FID和IS)會(huì)惡化。

這種權(quán)衡關(guān)系就像調(diào)音師面臨的經(jīng)典難題:是追求音符的絕對(duì)準(zhǔn)確,還是追求音樂(lè)的整體美感?研究團(tuán)隊(duì)發(fā)現(xiàn),通過(guò)引入對(duì)抗訓(xùn)練,可以顯著改善視覺(jué)質(zhì)量指標(biāo)。對(duì)抗訓(xùn)練就像給解碼器配備了一個(gè)"藝術(shù)評(píng)委",不斷督促它生成更自然、更吸引人的結(jié)果。

更重要的是,這種訓(xùn)練方式的改變也影響了下游的生成效果。當(dāng)解碼器經(jīng)過(guò)對(duì)抗訓(xùn)練后,整個(gè)生成流水線的最終輸出質(zhì)量也會(huì)顯著提升。例如,在相同的E=4096配置下,經(jīng)過(guò)對(duì)抗訓(xùn)練的解碼器可以將生成任務(wù)的FID從5.5降低到4.9,同時(shí)將IS指標(biāo)從160提升到210。

這個(gè)發(fā)現(xiàn)揭示了解碼器在現(xiàn)代視覺(jué)生成系統(tǒng)中的真實(shí)角色:它不僅是一個(gè)被動(dòng)的解壓工具,更是生成流水線中的一個(gè)主動(dòng)創(chuàng)造組件。當(dāng)從壓縮表示重建圖像時(shí),解碼器實(shí)際上在進(jìn)行一種"有指導(dǎo)的創(chuàng)作"——它需要在有限的信息基礎(chǔ)上"想象"出完整的視覺(jué)細(xì)節(jié)。

這種雙重身份也解釋了為什么解碼器擴(kuò)展在重建任務(wù)中效果顯著,而在生成任務(wù)中效果相對(duì)有限。在重建任務(wù)中,解碼器主要發(fā)揮"創(chuàng)作"能力,更大的模型確實(shí)能想象出更好的細(xì)節(jié)。但在生成任務(wù)中,主要的創(chuàng)作工作已經(jīng)由專(zhuān)門(mén)的生成模型承擔(dān),解碼器更多地扮演"協(xié)同創(chuàng)作者"的角色,因此單純?cè)龃笃湟?guī)模的收益有限。

研究團(tuán)隊(duì)還發(fā)現(xiàn),這種權(quán)衡關(guān)系在不同的E值和c值下表現(xiàn)一致,說(shuō)明這是視覺(jué)壓縮系統(tǒng)的一個(gè)基本特性。無(wú)論采用什么配置,都需要在忠實(shí)重現(xiàn)和視覺(jué)質(zhì)量之間找到合適的平衡點(diǎn)。這為未來(lái)的系統(tǒng)設(shè)計(jì)提供了重要指導(dǎo):需要根據(jù)具體應(yīng)用場(chǎng)景來(lái)選擇合適的權(quán)衡點(diǎn),而不是盲目追求任何單一指標(biāo)的最優(yōu)化。

五、視頻領(lǐng)域的規(guī)律延伸與獨(dú)特發(fā)現(xiàn)

當(dāng)研究團(tuán)隊(duì)將探索范圍擴(kuò)展到視頻領(lǐng)域時(shí),他們發(fā)現(xiàn)了一些既符合預(yù)期又令人驚喜的現(xiàn)象。視頻壓縮就像是圖像壓縮的"升級(jí)版"——不僅要處理空間維度的信息,還要處理時(shí)間維度的動(dòng)態(tài)變化,這就像從拍攝靜態(tài)照片升級(jí)到制作動(dòng)態(tài)電影一樣。

在視頻領(lǐng)域,E值與重建質(zhì)量的關(guān)系依然保持了圖像領(lǐng)域發(fā)現(xiàn)的強(qiáng)相關(guān)性。無(wú)論是靜態(tài)的幀間FID還是專(zhuān)門(mén)的視頻質(zhì)量指標(biāo)FVD(Fréchet Video Distance),都與E值呈現(xiàn)出穩(wěn)定的對(duì)數(shù)關(guān)系。這證明了之前發(fā)現(xiàn)的基本規(guī)律具有跨領(lǐng)域的通用性,就像物理定律在不同環(huán)境中都能適用一樣。

但視頻領(lǐng)域也展現(xiàn)出了自己的獨(dú)特優(yōu)勢(shì)。研究團(tuán)隊(duì)發(fā)現(xiàn),要達(dá)到與256像素靜態(tài)圖像相似的重建質(zhì)量,視頻序列并不需要16倍的E值(對(duì)應(yīng)16幀的倍數(shù)),而只需要4到8倍左右。這個(gè)發(fā)現(xiàn)揭示了視頻數(shù)據(jù)中存在的天然冗余性——連續(xù)幀之間的相似性為壓縮提供了額外的優(yōu)勢(shì)。

這就像壓縮一本書(shū)的時(shí)候,如果每一頁(yè)都完全不同,就需要為每頁(yè)分配相同的存儲(chǔ)空間;但如果很多頁(yè)面內(nèi)容相似或重復(fù),就可以利用這種相似性來(lái)節(jié)省存儲(chǔ)空間。視頻中的時(shí)間連貫性為ViTok提供了類(lèi)似的優(yōu)勢(shì),使其能夠在保持質(zhì)量的同時(shí)實(shí)現(xiàn)更高的壓縮效率。

研究團(tuán)隊(duì)還探索了視頻長(zhǎng)度對(duì)壓縮效率的影響。他們測(cè)試了16幀、32幀和64幀的不同長(zhǎng)度視頻,發(fā)現(xiàn)了一個(gè)有趣的規(guī)律:在固定的壓縮率(像素每通道比例)下,更長(zhǎng)的視頻序列能夠達(dá)到更好的重建質(zhì)量。這進(jìn)一步證實(shí)了視頻數(shù)據(jù)中時(shí)間冗余的價(jià)值——更長(zhǎng)的序列提供了更多的時(shí)間上下文信息,有助于系統(tǒng)更好地理解和重建視頻內(nèi)容。

在空間和時(shí)間壓縮的權(quán)衡方面,研究團(tuán)隊(duì)發(fā)現(xiàn)了另一個(gè)實(shí)用性很強(qiáng)的結(jié)論。對(duì)于固定的E值,調(diào)整空間分辨率(通過(guò)改變分塊大小p)和時(shí)間分辨率(通過(guò)改變時(shí)間步長(zhǎng)q)對(duì)最終質(zhì)量的影響相對(duì)有限。這意味著系統(tǒng)設(shè)計(jì)人員可以根據(jù)計(jì)算資源和應(yīng)用需求來(lái)靈活選擇空間-時(shí)間壓縮的具體配比,而不必?fù)?dān)心顯著的質(zhì)量損失。

視頻生成方面的實(shí)驗(yàn)結(jié)果同樣令人鼓舞。使用ViTok訓(xùn)練的視頻生成模型在UCF-101數(shù)據(jù)集上達(dá)到了最先進(jìn)的性能水平。特別是在1024token配置下,gFVD指標(biāo)達(dá)到了27.44,在512token的更高壓縮率下,gFVD為52.71,這些結(jié)果在當(dāng)時(shí)都是同類(lèi)方法中的最優(yōu)表現(xiàn)。

研究團(tuán)隊(duì)還注意到視頻處理中的一個(gè)技術(shù)細(xì)節(jié):他們采用逐幀處理的方式來(lái)計(jì)算感知損失和GAN損失,而不是直接在3D視頻塊上計(jì)算。這種設(shè)計(jì)選擇既保持了訓(xùn)練的穩(wěn)定性,又充分利用了現(xiàn)有的2D損失函數(shù),為視頻處理提供了一個(gè)實(shí)用的技術(shù)路徑。

這些視頻領(lǐng)域的發(fā)現(xiàn)不僅驗(yàn)證了圖像領(lǐng)域規(guī)律的普遍性,還揭示了視頻數(shù)據(jù)的獨(dú)特優(yōu)勢(shì)。對(duì)于未來(lái)的多模態(tài)生成系統(tǒng),這些發(fā)現(xiàn)提供了重要的設(shè)計(jì)指導(dǎo):可以期待視頻tokenizer在相同的計(jì)算預(yù)算下達(dá)到比圖像tokenizer更高的壓縮效率,這為大規(guī)模視頻生成應(yīng)用提供了更加樂(lè)觀的前景。

六、與現(xiàn)有方法的全面性能對(duì)比

為了驗(yàn)證ViTok在實(shí)際應(yīng)用中的價(jià)值,研究團(tuán)隊(duì)進(jìn)行了全面的性能對(duì)比實(shí)驗(yàn)。這就像新車(chē)上市前需要在各種道路條件下與競(jìng)爭(zhēng)對(duì)手進(jìn)行詳細(xì)的性能測(cè)試一樣,只有通過(guò)系統(tǒng)性的對(duì)比才能真正證明新方法的優(yōu)勢(shì)所在。

在256像素圖像重建任務(wù)中,ViTok展現(xiàn)出了令人印象深刻的性能。與廣泛使用的SD-VAE相比,ViTok S-B/16配置在ImageNet-1K數(shù)據(jù)集上將rFID從0.78降低到0.50,在COCO數(shù)據(jù)集上從4.63降低到3.94。更重要的是,ViTok實(shí)現(xiàn)這些性能提升的同時(shí),計(jì)算開(kāi)銷(xiāo)顯著降低——相比SD-VAE的162.2 GFLOPs,ViTok只需要34.8 GFLOPs,效率提升了近5倍。

這種效率優(yōu)勢(shì)在512像素圖像上更加突出。ViTok S-B/16在512像素重建中保持了與SD-VAE相當(dāng)?shù)膔FID性能(0.18 vs 0.19),但計(jì)算開(kāi)銷(xiāo)從653.8 GFLOPs大幅降低到160.8 GFLOPs,效率提升超過(guò)4倍。這種計(jì)算效率的提升對(duì)于實(shí)際部署特別重要,意味著相同的硬件資源可以處理更多的任務(wù)或支持更大規(guī)模的應(yīng)用。

在視頻重建領(lǐng)域,ViTok的表現(xiàn)同樣亮眼。在UCF-101數(shù)據(jù)集的128像素16幀視頻重建任務(wù)中,ViTok S-B/4x8達(dá)到了8.04的rFVD,顯著超越了現(xiàn)有的最佳方法MAGViTv2的16.12。同時(shí),ViTok還在其他壓縮率下保持了競(jìng)爭(zhēng)力:S-B/8x8配置在512token下達(dá)到20.05 rFVD,S-B/4x16配置在256token下達(dá)到53.98 rFVD。

特別值得注意的是計(jì)算效率的對(duì)比。與基于Transformer的LARP方法相比,ViTok在達(dá)到相似性能的同時(shí),GFLOPs消耗大幅降低——從505.3 GFLOPs降低到160.8 GFLOPs,這種效率提升為實(shí)際應(yīng)用提供了更大的可行性。

在生成任務(wù)的評(píng)估中,ViTok同樣展現(xiàn)了競(jìng)爭(zhēng)力。在256像素圖像生成中,ViTok達(dá)到了2.45的gFID和284.39的gIS,與傳統(tǒng)的SD-VAE+DiT組合(2.27 gFID,278.24 gIS)性能相當(dāng)。在512像素生成中,ViTok的gFID為3.41,雖然略高于SD-VAE的3.04,但考慮到顯著的計(jì)算效率優(yōu)勢(shì),這種性能權(quán)衡是合理的。

視頻生成方面的表現(xiàn)更加突出。在UCF-101數(shù)據(jù)集的128像素16幀視頻生成任務(wù)中,ViTok S-B/4x8在1024token配置下達(dá)到了27.44的gFVD,創(chuàng)造了新的最佳記錄。即使在更高壓縮率的512token配置下,gFVD為52.71,仍然保持了強(qiáng)競(jìng)爭(zhēng)力。

這些對(duì)比結(jié)果揭示了ViTok的幾個(gè)關(guān)鍵優(yōu)勢(shì)。首先是計(jì)算效率的顯著提升——在保持相當(dāng)性能的同時(shí)大幅降低了計(jì)算開(kāi)銷(xiāo)。其次是擴(kuò)展性更好——無(wú)論是圖像還是視頻,無(wú)論是重建還是生成,ViTok都展現(xiàn)了穩(wěn)定的性能表現(xiàn)。第三是實(shí)用性更強(qiáng)——更低的計(jì)算需求使得ViTok更容易在資源受限的環(huán)境中部署。

研究團(tuán)隊(duì)還注意到,這些性能優(yōu)勢(shì)并不是通過(guò)犧牲質(zhì)量來(lái)獲得的,而是通過(guò)更深入理解壓縮機(jī)制、更合理的架構(gòu)設(shè)計(jì)和更高效的訓(xùn)練策略來(lái)實(shí)現(xiàn)的。這證明了深入的理論研究對(duì)于推動(dòng)實(shí)際技術(shù)進(jìn)步的重要價(jià)值。

說(shuō)到底,這項(xiàng)來(lái)自Meta的研究為我們揭示了視覺(jué)AI系統(tǒng)中一個(gè)長(zhǎng)期被忽視但至關(guān)重要的組件——視覺(jué)標(biāo)記器的深層運(yùn)作規(guī)律。研究團(tuán)隊(duì)通過(guò)大規(guī)模實(shí)驗(yàn)發(fā)現(xiàn),決定壓縮質(zhì)量的核心因素竟然是一個(gè)相對(duì)簡(jiǎn)單的數(shù)值:壓縮后總浮點(diǎn)數(shù)的數(shù)量。這個(gè)發(fā)現(xiàn)就像發(fā)現(xiàn)了烹飪中面粉用量決定蛋糕質(zhì)量的基本法則一樣,為整個(gè)領(lǐng)域提供了清晰而實(shí)用的指導(dǎo)原則。

更令人深思的是,研究揭示了編碼器和解碼器在系統(tǒng)中的不對(duì)稱(chēng)作用:編碼器像一個(gè)高效的信息提取器,適中的規(guī)模就足夠勝任工作;而解碼器更像一個(gè)富有想象力的藝術(shù)家,需要更強(qiáng)的能力來(lái)從有限信息中重建完整的視覺(jué)世界。這種認(rèn)識(shí)打破了"所有組件都需要等量擴(kuò)展"的傳統(tǒng)思維,為更高效的系統(tǒng)設(shè)計(jì)指明了方向。

ViTok的成功不僅體現(xiàn)在性能數(shù)字上——在保持相當(dāng)質(zhì)量的同時(shí)實(shí)現(xiàn)2到5倍的計(jì)算效率提升,更重要的是它證明了理論理解對(duì)技術(shù)進(jìn)步的推動(dòng)作用。通過(guò)深入探索壓縮機(jī)制的本質(zhì)規(guī)律,研究團(tuán)隊(duì)開(kāi)發(fā)出了既高效又實(shí)用的解決方案,為視頻生成、圖像處理等應(yīng)用領(lǐng)域開(kāi)辟了新的可能性。

這項(xiàng)研究的意義遠(yuǎn)超技術(shù)本身。在AI技術(shù)快速發(fā)展的當(dāng)下,很多團(tuán)隊(duì)都在追求模型規(guī)模的無(wú)限擴(kuò)大,但這項(xiàng)工作提醒我們:有時(shí)候最大的突破來(lái)自于對(duì)基本問(wèn)題的深入思考。就像建筑師不僅要考慮建筑的外觀,更要理解結(jié)構(gòu)力學(xué)的基本原理一樣,AI系統(tǒng)的進(jìn)步也需要我們回到根本問(wèn)題上來(lái)。

對(duì)于普通用戶來(lái)說(shuō),這項(xiàng)研究的成果最終會(huì)體現(xiàn)在更快速、更高質(zhì)量的AI圖像和視頻生成體驗(yàn)上。無(wú)論是社交媒體上的AI濾鏡,還是專(zhuān)業(yè)的內(nèi)容創(chuàng)作工具,都有望因?yàn)檫@些基礎(chǔ)技術(shù)的進(jìn)步而變得更加強(qiáng)大和易用。感興趣的讀者可以通過(guò)項(xiàng)目主頁(yè)https://vitok.github.io了解更多技術(shù)細(xì)節(jié)和最新進(jìn)展。

Q&A

Q1:ViTok與傳統(tǒng)的SD-VAE等方法相比有什么優(yōu)勢(shì)?

A:ViTok最大的優(yōu)勢(shì)是計(jì)算效率的大幅提升。在保持相當(dāng)重建和生成質(zhì)量的同時(shí),ViTok的計(jì)算開(kāi)銷(xiāo)比SD-VAE降低了2-5倍。同時(shí)ViTok在視頻處理方面表現(xiàn)更優(yōu)秀,能夠更好地利用視頻數(shù)據(jù)中的時(shí)間冗余信息,在UCF-101數(shù)據(jù)集上創(chuàng)造了新的最佳記錄。

Q2:什么是決定視覺(jué)壓縮質(zhì)量的關(guān)鍵因素E值?

A:E值是壓縮后序列長(zhǎng)度乘以通道數(shù)的結(jié)果,代表了壓縮信息的總存儲(chǔ)容量。研究發(fā)現(xiàn),無(wú)論模型多復(fù)雜、計(jì)算資源多豐富,只要E值相同,重建質(zhì)量就基本相同。這就像烘焙中面粉總量決定蛋糕質(zhì)量一樣,E值是視覺(jué)壓縮系統(tǒng)中的根本決定因素。

Q3:為什么在ViTok中編碼器規(guī)模對(duì)性能影響不大,而解碼器影響較大?

A:編碼器主要負(fù)責(zé)信息提取和壓縮,這個(gè)過(guò)程相對(duì)直接,適中規(guī)模就足夠完成任務(wù)。而解碼器需要從壓縮信息中"想象"出完整的視覺(jué)細(xì)節(jié),更像一個(gè)創(chuàng)造性的藝術(shù)家,需要更強(qiáng)的表示能力。過(guò)大的編碼器反而可能產(chǎn)生過(guò)于復(fù)雜的表示,給后續(xù)處理帶來(lái)困擾。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-