av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 香港大學(xué)、阿里巴巴聯(lián)合推出TTS-VAR:讓AI畫畫變得更聰明的全新框架

香港大學(xué)、阿里巴巴聯(lián)合推出TTS-VAR:讓AI畫畫變得更聰明的全新框架

2025-07-29 10:03
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-07-29 10:03 ? 科技行者

這項由香港大學(xué)MMLab實驗室的陳哲凱和劉熙輝教授,以及阿里巴巴通義實驗室的楚睿杭、陳雨康、張仕威、魏昱杰、張盈雅等研究人員共同完成的研究,發(fā)表于2025年1月的arXiv預(yù)印本平臺(論文編號:arXiv:2507.18537v1)。這篇題為"TTS-VAR: A Test-Time Scaling Framework for Visual Auto-Regressive Generation"的論文,為視覺自回歸生成模型帶來了重大突破。有興趣深入了解的讀者可以通過GitHub項目頁面(https://github.com/ali-vilab/TTS-VAR)獲取完整代碼和技術(shù)細(xì)節(jié)。

說起AI畫畫,大家可能首先想到的是像Stable Diffusion這樣的擴散模型。這些模型就像一個魔法師,從一團隨機的噪點開始,一步步"去噪"直到變成精美的圖片。然而,隨著大語言模型技術(shù)的飛速發(fā)展,研究者們開始探索另一條路徑——讓AI像寫文章一樣"寫"出圖片。這就是視覺自回歸(VAR)模型的核心思想。

傳統(tǒng)的文本生成就像一個作家在寫小說,一個字一個字地往下寫,每個字都基于前面已經(jīng)寫出的內(nèi)容。VAR模型把這個思路應(yīng)用到圖像生成上,但不是一個像素一個像素地畫,而是一層一層地畫——先畫出粗糙的輪廓,再逐步細(xì)化細(xì)節(jié)。這種方法不僅效率更高,還能更好地與現(xiàn)有的大語言模型整合。

然而,就像所有的AI模型一樣,讓VAR模型生成更高質(zhì)量的圖片需要巨大的計算資源和訓(xùn)練成本。研究團隊發(fā)現(xiàn),其實還有另一條路——在使用模型的時候動點手腳,讓它在生成圖片時更聰明地工作。這就是"測試時縮放"(test-time scaling)的核心理念。

把這個過程想象成一個畫家在創(chuàng)作。傳統(tǒng)方法就像是訓(xùn)練更多的畫家,讓他們畫得更好。而測試時縮放則像是讓同一個畫家在創(chuàng)作時多花點時間,多畫幾個草稿,然后從中選出最好的那個。這樣既節(jié)省了訓(xùn)練新畫家的成本,又能得到更好的作品。

但是,直接把現(xiàn)有的測試時縮放技術(shù)套用到VAR模型上并不管用。就像你不能用做蛋糕的方法來烤面包一樣,不同的模型需要不同的優(yōu)化策略。VAR模型有它獨特的"脾氣"——它是從粗糙到精細(xì)逐層生成圖像的,每一層的重要性和特點都不同。

在傳統(tǒng)的擴散模型中,中間過程產(chǎn)生的圖像可以通過繼續(xù)"去噪"來改善,就像一幅素描可以繼續(xù)擦改和添加細(xì)節(jié)。但在VAR模型中,一旦某一層的內(nèi)容確定了,就不能再修改了,就像在紙上畫畫,一筆下去就定型了。如果早期的草圖有問題,后面再怎么努力也難以挽回。

正是基于這樣的觀察,研究團隊開發(fā)了TTS-VAR這套全新的框架。這個框架的巧妙之處在于,它把生成過程當(dāng)作一個"尋路問題"來解決——在眾多可能的生成路徑中,找到那條能通向最佳結(jié)果的路徑。

**一、聰明的批次管理:讓計算資源發(fā)揮最大效用**

首先,研究團隊注意到VAR模型有一個很有趣的特點:在生成過程的不同階段,所需的計算資源差別很大。早期生成粗糙輪廓時,計算量相對較?。欢搅撕笃谏删?xì)細(xì)節(jié)時,計算量會急劇增加。

這就像建房子一樣。打地基和搭建主體框架時,需要的工人相對較少,但到了裝修階段,需要的工人數(shù)量就會激增。如果一開始就雇傭大量工人,前期會造成浪費;如果一直只用少量工人,后期又會力不從心。

TTS-VAR采用了一種"自適應(yīng)遞減批次大小"的策略。簡單來說,就是在早期階段讓AI同時生成更多的候選圖像(比如8個),隨著生成過程的推進,逐步減少候選數(shù)量(比如6個、4個、2個、1個)。這樣既能在計算資源充足的早期階段探索更多可能性,又能在計算密集的后期階段控制成本。

具體來說,對于一個典型的13層VAR模型,研究團隊設(shè)計的批次大小序列是:[8N, 8N, 6N, 6N, 6N, 4N, 2N, 2N, 2N, 1N, 1N, 1N, 1N],其中N是基礎(chǔ)批次大小。這個看似簡單的調(diào)整,實際上為后續(xù)的智能選擇策略提供了基礎(chǔ)。

**二、基于聚類的多樣性搜索:在混沌中尋找秩序**

在生成過程的早期階段,AI產(chǎn)生的圖像往往看起來像模糊的草圖,很難直接判斷哪個更好。就像看一幅抽象畫,不同的人可能有完全不同的理解和評價。如果這時候就匆忙下結(jié)論,很可能會錯過那些看起來不起眼但潛力巨大的候選圖像。

研究團隊發(fā)現(xiàn),雖然早期生成的圖像細(xì)節(jié)模糊,但它們的整體結(jié)構(gòu)和布局信息已經(jīng)基本確定了。這就像建筑師的草圖,雖然沒有具體的裝飾細(xì)節(jié),但房子的基本格局已經(jīng)定下來了。關(guān)鍵是要保持結(jié)構(gòu)的多樣性,給后續(xù)的精細(xì)化過程留下更多可能性。

為了解決這個問題,TTS-VAR引入了"聚類式多樣性搜索"策略。研究團隊使用DINOv2這樣的預(yù)訓(xùn)練特征提取器來分析早期生成的圖像,提取它們的結(jié)構(gòu)特征。然后使用K-Means++聚類算法將這些圖像分成若干類別,從每個類別中選擇最具代表性的圖像作為下一階段的候選。

這個過程就像在一個大型的草圖展覽中,先按照構(gòu)圖風(fēng)格和主題內(nèi)容進行分類,然后從每個類別中選出最有特色的作品繼續(xù)發(fā)展。這樣既保證了多樣性,又避免了在相似的方向上浪費計算資源。

研究表明,使用主成分分析(PCA)對DINOv2提取的特征進行降維處理,能夠最好地捕捉圖像的結(jié)構(gòu)信息。相比之下,監(jiān)督學(xué)習(xí)訓(xùn)練的特征提取器(如InceptionV3)雖然在某些指標(biāo)上表現(xiàn)不錯,但在保持結(jié)構(gòu)多樣性方面略遜一籌。

**三、基于重采樣的潛力選擇:火眼金睛識別優(yōu)質(zhì)候選**

隨著生成過程的推進,圖像逐漸從模糊的草圖變成清晰的作品。在這個階段,各種評價指標(biāo)開始變得可靠起來。研究團隊發(fā)現(xiàn),大約從第6層開始,中間生成的圖像質(zhì)量評分與最終結(jié)果的評分有了很強的一致性。這時候就可以啟動"基于重采樣的潛力選擇"策略了。

這個策略的核心是使用獎勵函數(shù)來評估每個候選圖像的潛力,然后根據(jù)這些評分進行智能重采樣。但是,如何定義"潛力"是一個關(guān)鍵問題。畢竟,VAR模型的生成是一個連續(xù)的過程,僅僅看當(dāng)前階段的表現(xiàn)可能不夠全面。

研究團隊設(shè)計了四種不同的潛力評分方法。第一種是"當(dāng)前價值法"(VALUE),直接使用當(dāng)前階段圖像的獎勵分?jǐn)?shù)。第二種是"差異法"(DIFF),計算相鄰兩個階段之間的分?jǐn)?shù)提升。第三種是"最大值法"(MAX),取歷史過程中的最高分?jǐn)?shù)。第四種是"累積法"(SUM),將所有歷史分?jǐn)?shù)相加。

經(jīng)過大量實驗,研究團隊發(fā)現(xiàn)"當(dāng)前價值法"表現(xiàn)最好。這有點像投資選股,雖然歷史表現(xiàn)很重要,但當(dāng)前的基本面往往是最好的預(yù)測指標(biāo)。差異法容易被短期波動誤導(dǎo),最大值法需要額外的計算開銷,累積法則可能讓早期的低分過度影響后期判斷。

重采樣過程使用多項式分布來選擇候選圖像,這意味著分?jǐn)?shù)高的圖像有更大概率被選中,但分?jǐn)?shù)低的圖像也有一定機會。這種"軟性選擇"避免了過早收斂到局部最優(yōu)解,保持了一定的探索性。

**四、模型架構(gòu)與技術(shù)細(xì)節(jié):讓理論落地的工程智慧**

TTS-VAR框架基于Infinity模型進行驗證。Infinity是一個基于VAR架構(gòu)的大型文本到圖像生成模型,擁有20億參數(shù)。它使用了先進的BSQ(Binary Spherical Quantization)量化器和Flan-T5文本編碼器,能夠處理復(fù)雜的文本描述并生成高質(zhì)量圖像。

整個生成過程可以用一個簡單的公式來描述:在每個尺度k,模型預(yù)測殘差特征圖rk,然后與之前的累計特征圖相加得到新的特征圖fk。最終的圖像通過解碼器D從最后的特征圖fK解碼得到。這個過程確保了信息的逐步累積和細(xì)化。

在實際實現(xiàn)中,TTS-VAR使用ImageReward作為主要的獎勵函數(shù)。ImageReward是一個專門訓(xùn)練用來評估圖像質(zhì)量和文本對齊度的模型,它的評分與人類判斷有很強的相關(guān)性。重采樣溫度λ設(shè)置為10,這個參數(shù)控制選擇的"激進程度"——值越大,越傾向于選擇高分候選;值越小,選擇越平均。

**五、實驗結(jié)果:數(shù)字背后的突破性表現(xiàn)**

在GenEval基準(zhǔn)測試中,TTS-VAR取得了令人矚目的成果。使用N=8(即最大批次大小為8)的設(shè)置,該框架將Infinity模型的綜合得分從0.69提升到0.75,提升幅度達到8.7%。這個數(shù)字看起來可能不大,但在圖像生成領(lǐng)域,每0.01的提升都代表著顯著的質(zhì)量改善。

更令人印象深刻的是,即使在N=2的低開銷設(shè)置下,TTS-VAR的表現(xiàn)(0.74)也超過了傳統(tǒng)Best-of-N方法在N=8時的表現(xiàn)(0.74)。這意味著新框架能夠用更少的計算資源達到更好的效果,計算效率提升了75%。

在具體的評測項目中,TTS-VAR在"兩個物體"任務(wù)上表現(xiàn)尤為突出,得分從0.84提升到0.95。這類任務(wù)要求AI準(zhǔn)確理解和生成包含多個獨立對象的復(fù)雜場景,是測試模型理解能力的重要指標(biāo)。在"計數(shù)"任務(wù)上,得分也從0.59提升到0.74,說明框架能夠更準(zhǔn)確地處理數(shù)量相關(guān)的指令。

在T2I-CompBench評測中,TTS-VAR同樣表現(xiàn)優(yōu)異,平均得分從0.57提升到0.62。這個測試更加注重圖像的構(gòu)圖、色彩、紋理等視覺屬性,結(jié)果表明框架不僅提升了文本理解能力,也改善了整體的視覺質(zhì)量。

**六、深入分析:為什么這套方法如此有效**

研究團隊通過詳細(xì)的消融實驗揭示了TTS-VAR成功的關(guān)鍵因素。首先,他們驗證了重采樣策略在不同尺度上的有效性。結(jié)果顯示,在早期尺度(如第3層)進行重采樣實際上會降低最終質(zhì)量,而在后期尺度(如第6層和第9層)進行重采樣則能顯著提升表現(xiàn)。

這個發(fā)現(xiàn)證實了研究團隊的核心假設(shè):VAR模型的生成過程具有明顯的階段性特征。早期階段主要確定圖像的整體結(jié)構(gòu)和布局,這時候過早地進行選擇可能會錯過潛在的優(yōu)質(zhì)方案。后期階段主要完善細(xì)節(jié),這時候中間結(jié)果已經(jīng)能夠較好地預(yù)測最終質(zhì)量。

聚類策略的有效性分析同樣有趣。研究團隊比較了在不同尺度進行聚類的效果,發(fā)現(xiàn)在第2和第5尺度同時進行聚類能獲得最佳效果。第2尺度的聚類主要保持粗略結(jié)構(gòu)的多樣性,第5尺度的聚類則在保持精細(xì)結(jié)構(gòu)多樣性方面發(fā)揮作用。

關(guān)于特征提取器的選擇,實驗表明DINOv2明顯優(yōu)于其他選項。這可能是因為DINOv2是通過自監(jiān)督學(xué)習(xí)訓(xùn)練的,更擅長捕捉圖像的內(nèi)在結(jié)構(gòu)特征,而不會被表面的紋理細(xì)節(jié)所干擾。

**七、技術(shù)挑戰(zhàn)與解決方案:工程實踐中的智慧**

在實際應(yīng)用中,TTS-VAR面臨著諸多技術(shù)挑戰(zhàn)。首先是計算資源的平衡問題。雖然框架通過自適應(yīng)批次大小控制了總體開銷,但在早期階段仍需要處理大量候選圖像。研究團隊通過精心設(shè)計的內(nèi)存管理策略和KV緩存機制優(yōu)化,確保了系統(tǒng)的穩(wěn)定運行。

另一個挑戰(zhàn)是獎勵函數(shù)的選擇和調(diào)優(yōu)。不同的獎勵函數(shù)在不同類型的圖像上表現(xiàn)差異很大。研究團隊測試了多種獎勵函數(shù),包括美學(xué)評分、人類偏好評分等,最終發(fā)現(xiàn)ImageReward在綜合性能上表現(xiàn)最佳。但他們也指出,針對特定應(yīng)用場景,可能需要使用專門訓(xùn)練的獎勵模型。

聚類算法的選擇同樣關(guān)鍵。研究團隊比較了K-Means、K-Means++、層次聚類等多種方法,發(fā)現(xiàn)K-Means++在平衡計算效率和聚類質(zhì)量方面表現(xiàn)最好。聚類數(shù)量的確定則依賴于下一階段的目標(biāo)批次大小,這個設(shè)計保證了整個流程的一致性。

**八、應(yīng)用前景:從實驗室到現(xiàn)實世界**

TTS-VAR的價值不僅體現(xiàn)在學(xué)術(shù)研究上,更在于它的實際應(yīng)用潛力。在內(nèi)容創(chuàng)作領(lǐng)域,這套框架能夠幫助設(shè)計師和藝術(shù)家生成更高質(zhì)量的初稿,減少反復(fù)修改的時間成本。在電商和廣告行業(yè),它能夠快速生成多樣化的產(chǎn)品展示圖像,提高營銷效率。

在教育和科研領(lǐng)域,TTS-VAR為理解視覺生成模型的內(nèi)在機制提供了新的視角。通過分析不同尺度上的特征演化過程,研究者能夠更好地理解模型是如何從抽象概念逐步構(gòu)建具體圖像的。

框架的開源特性也為進一步的研究和應(yīng)用奠定了基礎(chǔ)。研究團隊已經(jīng)在GitHub上發(fā)布了完整的代碼和實驗數(shù)據(jù),這將加速相關(guān)技術(shù)的推廣和改進。社區(qū)開發(fā)者可以基于這個框架開發(fā)針對特定領(lǐng)域的優(yōu)化版本,比如專門用于人像生成、風(fēng)景畫創(chuàng)作或者技術(shù)圖表制作的版本。

**九、局限性與未來發(fā)展:誠實面對挑戰(zhàn)**

研究團隊誠實地指出了TTS-VAR的一些局限性。首先,雖然框架顯著提升了生成質(zhì)量,但并沒有完全解決文本與圖像的對齊問題。在一些復(fù)雜的空間關(guān)系描述上,模型仍然會出現(xiàn)理解偏差。比如在處理"A在B左邊"這樣的位置關(guān)系時,準(zhǔn)確率還有待提高。

其次,當(dāng)前的框架主要針對VAR這一特定架構(gòu)進行優(yōu)化,對其他類型的自回歸模型的適用性還需要進一步驗證。特別是那些使用一維標(biāo)記化器的模型,可能需要不同的處理策略。

計算開銷雖然相比訓(xùn)練時縮放大大降低,但仍然比單次推理要高。在資源受限的環(huán)境下,如何進一步優(yōu)化效率是一個重要的研究方向。

**十、技術(shù)影響與行業(yè)變革:站在歷史的轉(zhuǎn)折點**

TTS-VAR的提出標(biāo)志著視覺生成技術(shù)進入了一個新的發(fā)展階段。傳統(tǒng)上,提升AI生成質(zhì)量主要依賴于增大模型規(guī)模和訓(xùn)練數(shù)據(jù)量,這種"暴力美學(xué)"雖然有效,但成本高昂且存在邊際效應(yīng)遞減的問題。

測試時縮放技術(shù)提供了一種全新的思路:通過更聰明的推理策略,讓現(xiàn)有模型發(fā)揮出更大的潛力。這種方法不僅成本更低,還能讓更多的研究機構(gòu)和開發(fā)者參與到前沿技術(shù)的研究中來。

從更宏觀的角度看,TTS-VAR體現(xiàn)了AI研究的一個重要趨勢:從追求更大的模型轉(zhuǎn)向追求更智能的算法。這種轉(zhuǎn)變不僅在技術(shù)上更加可持續(xù),也更符合當(dāng)前算力資源相對稀缺的現(xiàn)實情況。

**十一、跨領(lǐng)域的啟發(fā):方法論的普遍價值**

TTS-VAR的核心思想——將生成過程視為路徑搜索問題——具有很強的普遍性,可以啟發(fā)其他領(lǐng)域的研究。在自然語言處理中,類似的思路已經(jīng)被應(yīng)用到文本生成的質(zhì)量提升上。在語音合成、視頻生成等領(lǐng)域,也有研究者開始探索相似的方法。

框架中的分階段處理策略也為其他復(fù)雜AI任務(wù)提供了參考。很多AI應(yīng)用都具有明顯的階段性特征,如何在不同階段采用不同的優(yōu)化策略,是一個值得深入研究的問題。

**十二、社會影響與倫理考量:技術(shù)進步的雙刃劍**

正如任何強大的技術(shù)一樣,TTS-VAR的發(fā)展也帶來了一些需要謹(jǐn)慎考慮的問題。更高質(zhì)量的圖像生成能力可能會加劇深度偽造(deepfake)等技術(shù)濫用的風(fēng)險。研究團隊在論文中明確表達了對這些問題的關(guān)注,并呼吁建立相應(yīng)的技術(shù)檢測和法律監(jiān)管機制。

另一方面,這項技術(shù)的普及可能會對傳統(tǒng)的創(chuàng)意產(chǎn)業(yè)造成沖擊。當(dāng)AI能夠快速生成高質(zhì)量的視覺內(nèi)容時,一些基礎(chǔ)性的設(shè)計工作可能會被自動化替代。但歷史經(jīng)驗告訴我們,技術(shù)進步往往會創(chuàng)造新的工作崗位和價值創(chuàng)造方式,關(guān)鍵是如何引導(dǎo)這種轉(zhuǎn)變朝著積極的方向發(fā)展。

說到底,TTS-VAR代表的不僅僅是一個技術(shù)框架的進步,更是AI研究方法論的一次重要演進。它告訴我們,有時候通過更聰明的使用方式,就能讓現(xiàn)有技術(shù)煥發(fā)出新的活力。這種"巧干"勝過"蠻干"的思路,不僅在技術(shù)層面有效,也為資源有限的研究團隊提供了彎道超車的可能。

當(dāng)我們站在這個技術(shù)快速發(fā)展的時代,TTS-VAR提醒我們,創(chuàng)新不一定意味著推倒重來,有時候最優(yōu)雅的解決方案就隱藏在對現(xiàn)有技術(shù)的深度理解和巧妙運用中。對于每一個關(guān)注AI發(fā)展的人來說,這項研究都值得仔細(xì)品味和思考。

如果讀者對這項技術(shù)的具體實現(xiàn)細(xì)節(jié)感興趣,完整的論文和代碼都已經(jīng)開源發(fā)布,為進一步的學(xué)習(xí)和研究提供了寶貴的資源。畢竟,科學(xué)的魅力就在于分享和傳承,讓每一個新的發(fā)現(xiàn)都能成為人類智慧寶庫中的璀璨明珠。

Q&A

Q1:什么是TTS-VAR?它主要解決什么問題? A:TTS-VAR是一種測試時縮放框架,專門用于提升視覺自回歸(VAR)模型的圖像生成質(zhì)量。它通過在模型推理過程中采用聰明的候選生成和選擇策略,讓現(xiàn)有模型能夠生成更高質(zhì)量的圖像,而不需要重新訓(xùn)練。主要解決的是如何在不增加訓(xùn)練成本的情況下顯著提升AI畫畫的效果。

Q2:TTS-VAR相比傳統(tǒng)方法有什么優(yōu)勢?效果提升明顯嗎? A:相比傳統(tǒng)的Best-of-N方法,TTS-VAR在相同計算資源下能獲得更好效果。實驗顯示,它將GenEval綜合得分從0.69提升到0.75,提升了8.7%。更重要的是,即使只用N=2的低開銷設(shè)置,效果也超過了傳統(tǒng)方法N=8的表現(xiàn),計算效率提升了75%。

Q3:普通用戶能使用TTS-VAR技術(shù)嗎?有什么實際應(yīng)用價值? A:雖然TTS-VAR目前主要面向研究人員,但其技術(shù)原理可以集成到各種AI繪畫應(yīng)用中。對普通用戶來說,這意味著未來的AI繪畫工具將能夠以更低的成本生成更高質(zhì)量的圖像,在內(nèi)容創(chuàng)作、電商展示、教育科研等領(lǐng)域都有廣闊應(yīng)用前景。研究團隊已在GitHub開源相關(guān)代碼。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-