近日,韓國(guó)科學(xué)技術(shù)院(KAIST)人工智能研究團(tuán)隊(duì)的Bryan Sangwoo Kim、Jeongsol Kim和Jong Chul Ye共同發(fā)表了一項(xiàng)突破性研究,名為"Chain-of-Zoom: 通過(guò)尺度自回歸和偏好對(duì)齊實(shí)現(xiàn)極端超分辨率"。這項(xiàng)研究于2025年5月27日發(fā)表在arXiv預(yù)印本平臺(tái)(arXiv:2505.18600v2 [cs.CV]),為圖像超分辨率技術(shù)領(lǐng)域帶來(lái)了革命性的進(jìn)展。有興趣的讀者可以通過(guò)項(xiàng)目主頁(yè)https://bryanswkim.github.io/chain-of-zoom/了解更多詳情。
想象一下,你有一張拍攝于遠(yuǎn)處的照片,想要放大查看細(xì)節(jié),但每次放大圖像都變得越來(lái)越模糊。這正是當(dāng)今超分辨率技術(shù)面臨的核心挑戰(zhàn)。盡管現(xiàn)代的單圖像超分辨率(SISR)模型能在其訓(xùn)練的固定放大倍率(如4倍)下生成逼真的高清圖像,但一旦超出這個(gè)范圍,圖像質(zhì)量就會(huì)迅速崩潰。就像你用放大鏡只能看清一定程度的細(xì)節(jié),再放大就會(huì)變得模糊不清。
KAIST研究團(tuán)隊(duì)提出的Chain-of-Zoom(CoZ,鏈?zhǔn)娇s放)框架巧妙地解決了這一問(wèn)題。想象一下,不是直接使用一個(gè)超強(qiáng)的放大鏡一次性放大64倍或256倍,而是使用多個(gè)普通放大鏡依次放大,每次只放大4倍,然后再對(duì)放大后的圖像繼續(xù)放大4倍,如此反復(fù)。這種漸進(jìn)式的方法讓一個(gè)原本只能放大4倍的模型,現(xiàn)在能夠?qū)崿F(xiàn)高達(dá)256倍的極端放大,同時(shí)保持驚人的清晰度和細(xì)節(jié)。
一、鏈?zhǔn)娇s放:像爬樓梯一樣逐步放大圖像
傳統(tǒng)的超分辨率方法就像試圖一步登天,直接從低分辨率跳躍到高分辨率。而Chain-of-Zoom則采用了一種更為自然的"爬樓梯"策略,將這個(gè)艱巨的任務(wù)分解成一系列可控的小步驟。
研究團(tuán)隊(duì)引入了"中間尺度狀態(tài)"的概念,即在低分辨率輸入和高分辨率目標(biāo)之間創(chuàng)建一系列中間分辨率的圖像。這就像在一棟高樓之間設(shè)置多個(gè)樓層,讓我們能夠一步一步地向上攀登,而不是直接從地面跳到頂層。這種方法基于一個(gè)數(shù)學(xué)公式:p(xH | xL),它表示給定低分辨率圖像xL時(shí),生成高分辨率圖像xH的概率分布。
然而,當(dāng)放大倍率非常大時(shí),這個(gè)跨度太大,導(dǎo)致一步到位變得極其困難。CoZ框架將這個(gè)龐大的概率分布分解成多個(gè)更小的組件,形成了一個(gè)"尺度級(jí)自回歸"框架。在這個(gè)框架中,模型可以逐步生成高質(zhì)量的圖像,達(dá)到之前無(wú)法實(shí)現(xiàn)的超高分辨率。
具體來(lái)說(shuō),CoZ使用AR-2(二階自回歸)模型,考慮了當(dāng)前和前一個(gè)中間狀態(tài)的信息,使放大過(guò)程更加連貫和準(zhǔn)確。這就像爬樓梯時(shí)不僅要看當(dāng)前的臺(tái)階,還要記住前一個(gè)臺(tái)階的高度,以保持穩(wěn)定的節(jié)奏和平衡。
二、多尺度感知提示:讓AI"看懂"每一層細(xì)節(jié)
當(dāng)我們極端放大圖像時(shí),會(huì)面臨一個(gè)關(guān)鍵問(wèn)題:隨著放大倍率的增加,原始圖像提供的視覺(jué)信息變得越來(lái)越稀疏,就像你試圖從幾粒沙子推斷出整個(gè)沙灘的樣子。為了解決這個(gè)問(wèn)題,研究團(tuán)隊(duì)提出了一個(gè)創(chuàng)新方法:使用視覺(jué)-語(yǔ)言模型(VLM)生成"多尺度感知提示"。
想象一下,你在博物館觀看一幅精細(xì)的畫作。起初,你站得較遠(yuǎn),能看到整體畫面;當(dāng)你走近時(shí),導(dǎo)游會(huì)指出一些你之前沒(méi)注意到的細(xì)節(jié);再走近一些,導(dǎo)游會(huì)描述更精細(xì)的筆觸和技法。CoZ中的VLM就像這個(gè)博物館導(dǎo)游,在圖像放大的每一步,它都會(huì)根據(jù)當(dāng)前看到的內(nèi)容生成描述性文本提示,幫助超分辨率模型更好地理解和重建下一層級(jí)的細(xì)節(jié)。
具體來(lái)說(shuō),當(dāng)放大到某一中間狀態(tài)xi-1時(shí),VLM會(huì)同時(shí)考慮當(dāng)前狀態(tài)xi-1和前一個(gè)狀態(tài)xi-2,生成描述下一個(gè)狀態(tài)xi可能包含內(nèi)容的文本提示ci。這些提示會(huì)告訴超分辨率模型應(yīng)該關(guān)注什么細(xì)節(jié),應(yīng)該如何合理地補(bǔ)充那些在低分辨率下看不清的部分。
三、GRPO偏好對(duì)齊:讓AI生成符合人類期望的提示
然而,僅僅使用現(xiàn)成的VLM生成提示還不夠完美。有時(shí),這些提示可能過(guò)于籠統(tǒng),或者包含不必要的重復(fù),甚至可能導(dǎo)致超分辨率模型產(chǎn)生不合理的"幻覺(jué)"——生成實(shí)際不存在的細(xì)節(jié)。
為了解決這個(gè)問(wèn)題,研究團(tuán)隊(duì)使用了"廣義獎(jiǎng)勵(lì)策略優(yōu)化"(GRPO)方法,對(duì)提示生成VLM進(jìn)行了精細(xì)調(diào)整。這就像訓(xùn)練一個(gè)專業(yè)攝影師,不僅要他描述照片中看到的內(nèi)容,還要確保他的描述是有用的、符合人類期望的、能幫助其他人重建照片細(xì)節(jié)的。
這個(gè)GRPO訓(xùn)練流程包括三個(gè)關(guān)鍵組成部分:
首先是"評(píng)論家偏好獎(jiǎng)勵(lì)",一個(gè)更強(qiáng)大的視覺(jué)-語(yǔ)言評(píng)論家模型會(huì)評(píng)判生成的提示質(zhì)量,給出0到100的分?jǐn)?shù),這個(gè)分?jǐn)?shù)被線性縮放到0到1之間,作為人類偏好的代理指標(biāo)。
其次是"短語(yǔ)排除獎(jiǎng)勵(lì)",當(dāng)VLM在處理多尺度圖像時(shí),可能會(huì)不自覺(jué)地使用一些無(wú)意義的標(biāo)記短語(yǔ),如"第一張圖像"或"第二張圖像",這些對(duì)下游超分辨率模型毫無(wú)意義。系統(tǒng)會(huì)檢查這些不必要的短語(yǔ),如果沒(méi)有出現(xiàn)則給予獎(jiǎng)勵(lì)。
最后是"重復(fù)懲罰",計(jì)算提示中重復(fù)的n-gram(連續(xù)n個(gè)詞的序列)比例,并對(duì)高重復(fù)率給予負(fù)面獎(jiǎng)勵(lì),鼓勵(lì)VLM生成簡(jiǎn)潔、信息豐富的提示。
這三個(gè)組成部分的加權(quán)總和形成了總體獎(jiǎng)勵(lì)信號(hào),引導(dǎo)VLM學(xué)習(xí)生成既簡(jiǎn)潔又符合人類期望的高質(zhì)量提示,最終幫助超分辨率模型生成更好的結(jié)果。
四、實(shí)驗(yàn)結(jié)果:從4倍到256倍的質(zhì)的飛躍
研究團(tuán)隊(duì)對(duì)CoZ框架進(jìn)行了廣泛的實(shí)驗(yàn)評(píng)估。他們使用了LSDIR數(shù)據(jù)集和1萬(wàn)張F(tuán)FHQ人臉圖像進(jìn)行訓(xùn)練,并在DIV2K和DIV8K數(shù)據(jù)集上進(jìn)行了測(cè)試,這些數(shù)據(jù)集分別包含800張和1500張高質(zhì)量圖像。
在低放大倍率(如4倍)下,各種方法之間的差異并不顯著。然而,當(dāng)放大倍率增加到64倍和256倍時(shí),CoZ框架展現(xiàn)出了明顯的優(yōu)勢(shì)。特別是,使用VLM生成的提示比其他方法(如近鄰插值、直接超分辨率或使用DAPE提示)產(chǎn)生了更高質(zhì)量的結(jié)果。
在各種無(wú)參考圖像質(zhì)量評(píng)估指標(biāo)(如NIQE、MUSIQ、MANIQA和CLIPIQA)上,CoZ with VLM都取得了最佳或第二佳的表現(xiàn)。例如,在256倍放大時(shí),CoZ with VLM在DIV2K數(shù)據(jù)集上的NIQE得分為9.8260(越低越好),MUSIQ得分為47.83(越高越好),遠(yuǎn)優(yōu)于傳統(tǒng)方法。
最令人印象深刻的是,通過(guò)GRPO訓(xùn)練的VLM生成的提示顯著改善了超分辨率結(jié)果,減少了不必要的幻覺(jué)和不準(zhǔn)確的細(xì)節(jié)。用戶研究也證實(shí),通過(guò)GRPO優(yōu)化的VLM更符合人類偏好,在圖像生成和文本生成的平均意見(jiàn)得分測(cè)試中都取得了更高的分?jǐn)?shù)。
五、實(shí)際應(yīng)用:當(dāng)一張模糊照片變得清晰可見(jiàn)
CoZ框架的應(yīng)用前景非常廣闊。想象一下,你有一張老照片,想要放大查看細(xì)節(jié),比如遠(yuǎn)處的建筑物上的文字或人臉上的表情。傳統(tǒng)方法可能只能放大到一定程度就變得模糊不清,而CoZ則可以持續(xù)放大并保持合理的清晰度。
在論文中展示的案例中,CoZ成功地將一張教堂的照片放大64倍,清晰地顯示出墻壁上的紋理;將一面旗幟放大到可以看清上面的皺褶;甚至能將葉子放大到可以觀察葉脈的精細(xì)結(jié)構(gòu)。這些極端放大的能力在醫(yī)學(xué)影像、衛(wèi)星監(jiān)測(cè)和科學(xué)可視化等領(lǐng)域具有重要的應(yīng)用價(jià)值。
六、局限性與未來(lái)方向
盡管CoZ框架表現(xiàn)出色,但研究團(tuán)隊(duì)也坦誠(chéng)地指出了其局限性。由于需要多次應(yīng)用超分辨率模型進(jìn)行極端放大,可能會(huì)導(dǎo)致誤差在迭代過(guò)程中累積。此外,從低分辨率輸入生成高保真度圖像可能引發(fā)關(guān)于錯(cuò)誤信息或未經(jīng)授權(quán)重建敏感視覺(jué)數(shù)據(jù)的擔(dān)憂。
未來(lái)的研究方向可能包括開(kāi)發(fā)學(xué)習(xí)型縮放策略、特定領(lǐng)域的獎(jiǎng)勵(lì)函數(shù)和自適應(yīng)骨干模型選擇。這些改進(jìn)將進(jìn)一步提高極端超分辨率的質(zhì)量和效率,為各種應(yīng)用場(chǎng)景提供更好的解決方案。
總的來(lái)說(shuō),Chain-of-Zoom框架代表了圖像超分辨率領(lǐng)域的一個(gè)重大突破。通過(guò)將復(fù)雜的極端放大任務(wù)分解為一系列可管理的步驟,并利用多尺度感知提示和人類偏好對(duì)齊,它實(shí)現(xiàn)了前所未有的放大能力,同時(shí)保持了令人印象深刻的視覺(jué)質(zhì)量。這項(xiàng)技術(shù)不僅擴(kuò)展了我們"看得多遠(yuǎn)"和"看得多清"的邊界,也為未來(lái)的圖像增強(qiáng)和細(xì)節(jié)重建開(kāi)辟了新的可能性。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語(yǔ)言模型的敘事推理能力與音頻生成技術(shù),通過(guò)交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開(kāi)辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過(guò)讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問(wèn)題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語(yǔ)言模型人性化對(duì)話問(wèn)題。該研究創(chuàng)建了包含20萬(wàn)高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過(guò)創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開(kāi)發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過(guò)學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來(lái)了效率和精度的雙重突破。