這項(xiàng)由華中科技大學(xué)的徐梓陽、段康盛和王興剛教授團(tuán)隊(duì),聯(lián)合VIVO AI實(shí)驗(yàn)室共同完成的研究,發(fā)表于2025年4月30日的計(jì)算機(jī)視覺頂級(jí)期刊arXiv。有興趣深入了解的讀者可以通過項(xiàng)目主頁https://hustvl.github.io/PixelHacker訪問完整論文和演示。
在我們的日常生活中,幾乎每個(gè)人都遇到過這樣的困擾:拍攝的照片中突然闖入了不相關(guān)的路人,或者珍貴的老照片因?yàn)闀r(shí)間久遠(yuǎn)而出現(xiàn)了破損和缺失。傳統(tǒng)的圖像修復(fù)技術(shù)就像是用橡皮擦和水彩筆在照片上涂涂抹抹,雖然能夠遮蓋問題區(qū)域,但往往會(huì)留下明顯的修改痕跡,讓人一眼就能看出哪里被"動(dòng)過手腳"。更糟糕的是,這些方法經(jīng)常會(huì)產(chǎn)生一些奇怪的結(jié)果,比如在樹干上莫名其妙地出現(xiàn)一個(gè)建筑物,或者人物的膚色前后不一致。
華中科技大學(xué)的研究團(tuán)隊(duì)就像是圖像修復(fù)領(lǐng)域的"魔法師",他們開發(fā)出了一個(gè)名為PixelHacker的革命性AI系統(tǒng)。這個(gè)系統(tǒng)最神奇的地方在于,它不僅能夠完美地"擦除"照片中不需要的內(nèi)容,還能像變魔法一樣,讓修復(fù)后的區(qū)域與周圍環(huán)境完全融為一體,仿佛那些被刪除的內(nèi)容從來就不存在一樣。
這項(xiàng)研究的核心創(chuàng)新在于提出了一種全新的"潛在類別指導(dǎo)"方法。研究團(tuán)隊(duì)沒有像傳統(tǒng)方法那樣讓AI學(xué)習(xí)成千上萬種不同的物體(比如汽車、椅子、建筑物等),而是采用了一種更加聰明的策略:只教會(huì)AI區(qū)分"前景"和"背景"兩大類別。這就像是教一個(gè)畫家學(xué)會(huì)了光影和色彩的基本原理,而不是讓他死記硬背每一種物體的畫法。通過這種方式,AI能夠更好地理解圖像的整體結(jié)構(gòu)和語義關(guān)系。
為了訓(xùn)練這個(gè)"魔法師",研究團(tuán)隊(duì)構(gòu)建了一個(gè)包含1400萬張圖像的龐大數(shù)據(jù)集。這個(gè)數(shù)據(jù)集就像是一個(gè)超級(jí)圖書館,里面收錄了各種各樣的場(chǎng)景和情況,從自然風(fēng)光到城市街道,從人物肖像到建筑景觀。每一張圖像都被精心標(biāo)注,告訴AI哪些區(qū)域?qū)儆谇熬?,哪些屬于背景?/p>
一、核心技術(shù)原理:讓AI學(xué)會(huì)"看懂"圖像的層次結(jié)構(gòu)
PixelHacker的工作原理可以用一個(gè)生動(dòng)的比喻來解釋。設(shè)想你是一位經(jīng)驗(yàn)豐富的攝影師,當(dāng)你看到一張照片時(shí),你的大腦會(huì)自動(dòng)將畫面分解為不同的層次:最前面的是主要拍攝對(duì)象(前景),后面的是環(huán)境背景。這種天然的層次感知能力正是PixelHacker所模擬的核心機(jī)制。
傳統(tǒng)的圖像修復(fù)方法就像是一個(gè)只會(huì)照搬模板的學(xué)徒,它們需要針對(duì)每一種具體物體(比如人、車、樹等)分別學(xué)習(xí)如何處理。這種方法的問題在于,當(dāng)遇到訓(xùn)練時(shí)沒有見過的新物體時(shí),就會(huì)出現(xiàn)"水土不服"的情況,產(chǎn)生各種奇怪的修復(fù)結(jié)果。
而PixelHacker采用的方法更像是培養(yǎng)一位真正理解藝術(shù)原理的大師。它不需要記住每一種物體的具體樣子,而是學(xué)會(huì)了一種更加根本的能力:理解圖像的空間層次和語義結(jié)構(gòu)。具體來說,研究團(tuán)隊(duì)設(shè)計(jì)了兩個(gè)特殊的"嵌入向量",分別用來表示前景和背景的特征。這兩個(gè)向量就像是兩把萬能鑰匙,能夠解鎖圖像中所有前景和背景元素的奧秘。
在實(shí)際工作過程中,PixelHacker使用了一種稱為"門控線性注意力"的先進(jìn)機(jī)制。這個(gè)機(jī)制的作用就像是一個(gè)精密的調(diào)色師,能夠根據(jù)周圍環(huán)境的特點(diǎn),動(dòng)態(tài)調(diào)整修復(fù)區(qū)域的顏色、紋理和光照效果。當(dāng)系統(tǒng)需要修復(fù)一個(gè)缺失區(qū)域時(shí),它會(huì)同時(shí)考慮前景和背景的信息,確保生成的內(nèi)容既符合物理規(guī)律,又保持視覺上的和諧統(tǒng)一。
更令人印象深刻的是,PixelHacker在訓(xùn)練過程中使用了四種不同類型的遮罩策略。研究團(tuán)隊(duì)就像是在訓(xùn)練一位全能的修復(fù)專家,讓它經(jīng)歷各種不同的修復(fù)場(chǎng)景。有時(shí)候需要移除前景中的特定物體,有時(shí)候需要修復(fù)背景中的破損區(qū)域,還有時(shí)候需要處理隨機(jī)形狀的缺失部分。通過這種全方位的訓(xùn)練,PixelHacker學(xué)會(huì)了在任何情況下都能做出最恰當(dāng)?shù)男迯?fù)決策。
二、訓(xùn)練數(shù)據(jù)的精心設(shè)計(jì):構(gòu)建AI的"知識(shí)寶庫"
為了讓PixelHacker具備強(qiáng)大的修復(fù)能力,研究團(tuán)隊(duì)在數(shù)據(jù)準(zhǔn)備方面投入了巨大的精力。他們構(gòu)建的1400萬張圖像數(shù)據(jù)集不是簡(jiǎn)單的圖片堆砌,而是一個(gè)經(jīng)過精心設(shè)計(jì)的"知識(shí)寶庫"。
這個(gè)數(shù)據(jù)集的構(gòu)建過程就像是在編寫一本超級(jí)詳細(xì)的百科全書。研究團(tuán)隊(duì)首先定義了116種前景類別和21種背景類別。前景類別包括了我們?nèi)粘I钪谐R姷母鞣N物體,從人物、動(dòng)物到交通工具、家具用品等;背景類別則涵蓋了各種環(huán)境要素,如天空、地面、墻壁、水面等。
特別值得一提的是,研究團(tuán)隊(duì)在數(shù)據(jù)標(biāo)注過程中采用了一種巧妙的策略。他們沒有要求AI記住每一種具體物體的名字和樣子,而是將所有這些復(fù)雜的分類簡(jiǎn)化為兩個(gè)基本概念:前景和背景。這種簡(jiǎn)化策略的好處是顯而易見的。當(dāng)AI遇到一個(gè)之前從未見過的新物體時(shí),它只需要判斷這個(gè)物體是屬于前景還是背景,然后調(diào)用相應(yīng)的處理策略即可。
在數(shù)據(jù)收集方面,研究團(tuán)隊(duì)廣泛采用了多個(gè)數(shù)據(jù)源,包括COCO-NutLarge數(shù)據(jù)集的36萬張圖像、Object365V2數(shù)據(jù)集的202萬張圖像、GoogleLandmarkV2數(shù)據(jù)集的413萬張圖像,以及他們自己收集整理的749萬張自然場(chǎng)景圖像。這種多樣化的數(shù)據(jù)來源確保了PixelHacker能夠處理各種不同的場(chǎng)景和情況。
更重要的是,研究團(tuán)隊(duì)在構(gòu)建訓(xùn)練樣本時(shí)采用了一種動(dòng)態(tài)遮罩策略。他們會(huì)隨機(jī)選擇圖像的不同區(qū)域進(jìn)行遮擋,模擬各種真實(shí)世界中可能遇到的修復(fù)需求。有時(shí)候遮擋的是完整的物體(比如移除一個(gè)路人),有時(shí)候是不規(guī)則的區(qū)域(比如老照片的破損部分),還有時(shí)候是大面積的背景區(qū)域(比如更換天空背景)。
三、技術(shù)架構(gòu)的巧妙設(shè)計(jì):讓AI學(xué)會(huì)"藝術(shù)創(chuàng)作"
PixelHacker的技術(shù)架構(gòu)設(shè)計(jì)體現(xiàn)了研究團(tuán)隊(duì)的深刻洞察。整個(gè)系統(tǒng)基于目前最先進(jìn)的擴(kuò)散模型架構(gòu),但在此基礎(chǔ)上進(jìn)行了創(chuàng)造性的改進(jìn)和優(yōu)化。
系統(tǒng)的工作流程可以比作一位藝術(shù)家的創(chuàng)作過程。首先,當(dāng)輸入一張需要修復(fù)的圖像時(shí),系統(tǒng)會(huì)將其轉(zhuǎn)換到一個(gè)特殊的"潛在空間"中。這個(gè)潛在空間就像是藝術(shù)家的調(diào)色板,所有的顏色和紋理信息都以一種更加抽象的形式存在。在這個(gè)空間中,系統(tǒng)可以更加靈活地操作和調(diào)整圖像的各種屬性。
接下來,系統(tǒng)會(huì)根據(jù)需要修復(fù)的區(qū)域,動(dòng)態(tài)選擇使用前景嵌入還是背景嵌入。這個(gè)過程就像是藝術(shù)家在作畫時(shí)選擇不同的畫筆和顏料。如果需要修復(fù)的是一個(gè)前景物體,系統(tǒng)就會(huì)激活前景嵌入,調(diào)用所有與前景物體相關(guān)的知識(shí)和經(jīng)驗(yàn);如果修復(fù)的是背景區(qū)域,則會(huì)使用背景嵌入來指導(dǎo)創(chuàng)作過程。
系統(tǒng)采用的門控線性注意力機(jī)制是整個(gè)架構(gòu)的核心創(chuàng)新之一。這個(gè)機(jī)制的作用就像是一位經(jīng)驗(yàn)豐富的調(diào)色師,能夠精確控制不同顏色和紋理的混合比例。在修復(fù)過程中,系統(tǒng)會(huì)反復(fù)應(yīng)用這種注意力機(jī)制,每一次應(yīng)用都會(huì)讓修復(fù)結(jié)果變得更加精細(xì)和自然。
特別令人印象深刻的是,系統(tǒng)在整個(gè)修復(fù)過程中會(huì)進(jìn)行多次迭代優(yōu)化。這就像是一位畫家在創(chuàng)作時(shí)會(huì)反復(fù)修改和完善作品。每一次迭代,系統(tǒng)都會(huì)重新評(píng)估當(dāng)前的修復(fù)結(jié)果,然后進(jìn)行進(jìn)一步的調(diào)整和優(yōu)化,直到達(dá)到最理想的效果。
四、實(shí)驗(yàn)結(jié)果:超越所有現(xiàn)有方法的卓越表現(xiàn)
為了驗(yàn)證PixelHacker的實(shí)際效果,研究團(tuán)隊(duì)進(jìn)行了大規(guī)模的對(duì)比實(shí)驗(yàn)。他們選擇了目前最具代表性的幾個(gè)數(shù)據(jù)集進(jìn)行測(cè)試,包括Places2(自然場(chǎng)景數(shù)據(jù)集)、CelebA-HQ(人臉數(shù)據(jù)集)和FFHQ(高質(zhì)量人臉數(shù)據(jù)集)。
在Places2數(shù)據(jù)集的測(cè)試中,PixelHacker的表現(xiàn)可以用"驚艷"來形容。在最關(guān)鍵的FID(Fréchet Inception Distance)指標(biāo)上,PixelHacker達(dá)到了8.59的成績(jī),顯著優(yōu)于其他所有方法。要知道,F(xiàn)ID分?jǐn)?shù)越低代表生成圖像的質(zhì)量越高,這個(gè)成績(jī)意味著PixelHacker生成的圖像在質(zhì)量上已經(jīng)非常接近真實(shí)照片。
更令人印象深刻的是,即使在沒有針對(duì)特定數(shù)據(jù)集進(jìn)行專門優(yōu)化的情況下,PixelHacker的零樣本表現(xiàn)(不進(jìn)行微調(diào)的版本)仍然能夠在多個(gè)指標(biāo)上超越其他經(jīng)過專門訓(xùn)練的方法。這充分說明了其設(shè)計(jì)理念的先進(jìn)性和普適性。
在人臉修復(fù)任務(wù)上,PixelHacker同樣表現(xiàn)出色。在CelebA-HQ數(shù)據(jù)集上,它不僅在定量指標(biāo)上全面領(lǐng)先,在視覺效果上也明顯優(yōu)于其他方法。傳統(tǒng)方法在處理人臉修復(fù)時(shí)經(jīng)常會(huì)出現(xiàn)膚色不一致、五官比例失調(diào)等問題,而PixelHacker生成的結(jié)果幾乎看不出任何修復(fù)痕跡。
研究團(tuán)隊(duì)還特別測(cè)試了系統(tǒng)在處理復(fù)雜場(chǎng)景時(shí)的表現(xiàn)。比如,當(dāng)一張圖片中同時(shí)包含多個(gè)前景物體和復(fù)雜的背景環(huán)境時(shí),傳統(tǒng)方法往往會(huì)出現(xiàn)結(jié)構(gòu)不連貫、語義不一致等問題。而PixelHacker能夠很好地維持整個(gè)場(chǎng)景的邏輯關(guān)系,確保修復(fù)后的圖像在視覺上和語義上都保持完整統(tǒng)一。
特別值得一提的是,在處理大面積缺失的極端情況下,PixelHacker仍然能夠生成令人滿意的結(jié)果。研究團(tuán)隊(duì)測(cè)試了一些遮擋面積達(dá)到40-50%的圖像,這意味著原圖的近一半內(nèi)容都需要重新生成。在這種極具挑戰(zhàn)性的條件下,PixelHacker依然能夠生成結(jié)構(gòu)合理、細(xì)節(jié)豐富的修復(fù)結(jié)果。
五、技術(shù)細(xì)節(jié)的深入剖析:理解創(chuàng)新的精髓
PixelHacker的成功不是偶然的,而是基于一系列精心設(shè)計(jì)的技術(shù)細(xì)節(jié)。研究團(tuán)隊(duì)在系統(tǒng)的各個(gè)環(huán)節(jié)都進(jìn)行了深入的思考和優(yōu)化。
在嵌入向量的設(shè)計(jì)上,研究團(tuán)隊(duì)經(jīng)過大量實(shí)驗(yàn)發(fā)現(xiàn),使用固定大小為20維的嵌入向量就足以表示前景和背景的所有必要信息。這個(gè)發(fā)現(xiàn)頗為令人意外,因?yàn)橥ǔH藗儠?huì)認(rèn)為更高維度的表示能夠攜帶更多信息。但實(shí)驗(yàn)結(jié)果表明,過高的維度反而可能引入噪聲,降低系統(tǒng)的性能。
在訓(xùn)練策略方面,研究團(tuán)隊(duì)采用了一種漸進(jìn)式的訓(xùn)練方法。他們首先在大規(guī)模數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,讓系統(tǒng)學(xué)會(huì)基本的前景-背景區(qū)分能力。然后針對(duì)不同的應(yīng)用場(chǎng)景進(jìn)行精細(xì)化的微調(diào)。這種策略確保了系統(tǒng)既具有強(qiáng)大的泛化能力,又能在特定任務(wù)上達(dá)到最優(yōu)性能。
門控線性注意力機(jī)制的引入是另一個(gè)關(guān)鍵創(chuàng)新。傳統(tǒng)的注意力機(jī)制雖然能夠捕捉圖像中不同區(qū)域之間的關(guān)系,但在處理大規(guī)模圖像時(shí)往往計(jì)算復(fù)雜度過高。門控線性注意力通過引入門控機(jī)制,不僅提高了計(jì)算效率,還增強(qiáng)了系統(tǒng)對(duì)重要信息的聚焦能力。
在遮罩策略的設(shè)計(jì)上,研究團(tuán)隊(duì)特別考慮了實(shí)際應(yīng)用中的各種需求。他們?cè)O(shè)計(jì)的四種遮罩類型分別對(duì)應(yīng)不同的修復(fù)場(chǎng)景:物體語義遮罩用于移除特定物體,場(chǎng)景語義遮罩用于背景修復(fù),隨機(jī)畫筆遮罩用于模擬自然破損,隨機(jī)物體遮罩用于增強(qiáng)系統(tǒng)的魯棒性。
六、深度對(duì)比分析:為什么PixelHacker能夠脫穎而出
要真正理解PixelHacker的價(jià)值,我們需要將它與現(xiàn)有的其他方法進(jìn)行深入對(duì)比。當(dāng)前的圖像修復(fù)方法主要可以分為三大類:基于生成對(duì)抗網(wǎng)絡(luò)的方法、基于卷積神經(jīng)網(wǎng)絡(luò)的方法,以及基于擴(kuò)散模型的方法。
基于生成對(duì)抗網(wǎng)絡(luò)(GAN)的方法,如MI-GAN等,雖然能夠生成相對(duì)清晰的圖像,但往往在語義一致性方面存在問題。這類方法就像是一個(gè)技藝嫻熟但缺乏藝術(shù)感的工匠,能夠制作出外觀精美的作品,但缺乏整體的和諧感。在研究團(tuán)隊(duì)的對(duì)比實(shí)驗(yàn)中,MI-GAN等方法經(jīng)常會(huì)生成與場(chǎng)景不符的物體,比如在自然風(fēng)景中突然出現(xiàn)建筑物等。
基于卷積神經(jīng)網(wǎng)絡(luò)的方法,如LaMa和MAT等,主要依賴于局部特征的分析和重建。這類方法的優(yōu)勢(shì)在于能夠很好地保持紋理的連續(xù)性,但在處理復(fù)雜場(chǎng)景時(shí)往往會(huì)出現(xiàn)語義不一致的問題。它們就像是只關(guān)注局部細(xì)節(jié)而忽視整體布局的畫家,雖然能夠畫出精美的紋理,但往往無法保證整幅畫面的協(xié)調(diào)統(tǒng)一。
基于擴(kuò)散模型的方法,如Stable Diffusion系列,雖然在生成質(zhì)量上有所提升,但往往過度依賴文本提示,而且在結(jié)構(gòu)一致性方面存在明顯不足。這類方法的問題在于,文本提示的質(zhì)量直接影響修復(fù)效果,而且在沒有明確文本指導(dǎo)的情況下,往往會(huì)產(chǎn)生不可預(yù)測(cè)的結(jié)果。
相比之下,PixelHacker通過潛在類別指導(dǎo)的方式,成功地在語義一致性和結(jié)構(gòu)連貫性之間找到了平衡點(diǎn)。它不需要復(fù)雜的文本提示,也不會(huì)過度拘泥于局部細(xì)節(jié),而是從整體的角度來理解和重建圖像。
七、實(shí)際應(yīng)用價(jià)值:改變我們的數(shù)字生活
PixelHacker的技術(shù)突破不僅僅是學(xué)術(shù)研究上的成功,更重要的是它在實(shí)際應(yīng)用中的巨大潛力。這項(xiàng)技術(shù)的出現(xiàn)將會(huì)在多個(gè)領(lǐng)域產(chǎn)生深遠(yuǎn)的影響。
在個(gè)人用戶方面,PixelHacker能夠讓普通人輕松處理各種圖像修復(fù)需求。比如,當(dāng)你拍攝了一張滿意的風(fēng)景照,但畫面中意外出現(xiàn)了路人時(shí),使用PixelHacker就能輕松地將這些"不速之客"移除,而且效果自然到讓人無法察覺。對(duì)于珍貴的老照片修復(fù),這項(xiàng)技術(shù)同樣具有重要價(jià)值。那些因?yàn)闀r(shí)間久遠(yuǎn)而出現(xiàn)破損、褪色的家庭照片,都可以通過這項(xiàng)技術(shù)重新煥發(fā)生機(jī)。
在專業(yè)攝影和影視制作領(lǐng)域,PixelHacker的價(jià)值更是不可估量。傳統(tǒng)的后期制作往往需要專業(yè)人員花費(fèi)大量時(shí)間進(jìn)行精細(xì)的手工修復(fù),而且效果往往難以保證。有了PixelHacker,這些工作可以在很大程度上實(shí)現(xiàn)自動(dòng)化,不僅大大提高了工作效率,還能保證更加一致和專業(yè)的修復(fù)質(zhì)量。
在電商和廣告行業(yè),這項(xiàng)技術(shù)同樣具有廣闊的應(yīng)用前景。產(chǎn)品攝影中經(jīng)常需要去除背景或調(diào)整場(chǎng)景,傳統(tǒng)方法往往需要專業(yè)的攝影棚和后期制作。而PixelHacker能夠讓商家用普通環(huán)境拍攝的照片也能達(dá)到專業(yè)級(jí)的效果。
更重要的是,PixelHacker的技術(shù)理念還可能啟發(fā)其他相關(guān)技術(shù)的發(fā)展。比如在視頻修復(fù)、三維場(chǎng)景重建等領(lǐng)域,類似的前景-背景分離思想都可能發(fā)揮重要作用。
八、技術(shù)局限與未來發(fā)展方向
盡管PixelHacker在多個(gè)方面都表現(xiàn)出色,但研究團(tuán)隊(duì)也坦誠地指出了當(dāng)前技術(shù)的一些局限性。
在處理極其精細(xì)的細(xì)節(jié)時(shí),PixelHacker偶爾還會(huì)出現(xiàn)一些不夠完美的情況。比如在修復(fù)人物手指這樣的精細(xì)結(jié)構(gòu)時(shí),生成的結(jié)果可能會(huì)有輕微的失真。不過,即使在這些具有挑戰(zhàn)性的情況下,PixelHacker的表現(xiàn)仍然明顯優(yōu)于其他現(xiàn)有方法。
另一個(gè)限制是,當(dāng)前的系統(tǒng)主要針對(duì)靜態(tài)圖像進(jìn)行了優(yōu)化,對(duì)于視頻序列的處理還需要進(jìn)一步的研究和開發(fā)。視頻修復(fù)不僅需要保證單幀圖像的質(zhì)量,還需要確保幀間的連續(xù)性和一致性,這對(duì)技術(shù)提出了更高的要求。
在計(jì)算資源方面,雖然PixelHacker已經(jīng)比傳統(tǒng)的擴(kuò)散模型方法更加高效,但對(duì)于移動(dòng)設(shè)備等資源受限的環(huán)境,可能還需要進(jìn)一步的優(yōu)化。研究團(tuán)隊(duì)正在探索模型壓縮和加速的方法,希望能夠在保持效果的前提下降低計(jì)算需求。
展望未來,研究團(tuán)隊(duì)計(jì)劃在幾個(gè)方向上繼續(xù)深入。首先是擴(kuò)展到視頻處理領(lǐng)域,開發(fā)能夠處理視頻序列的修復(fù)算法。其次是探索更加智能的交互方式,讓用戶能夠通過簡(jiǎn)單的操作就能獲得復(fù)雜的修復(fù)效果。此外,他們還計(jì)劃研究如何將這項(xiàng)技術(shù)與其他AI能力相結(jié)合,比如圖像理解、場(chǎng)景重建等,打造更加全面的圖像處理解決方案。
說到底,PixelHacker的出現(xiàn)標(biāo)志著圖像修復(fù)技術(shù)進(jìn)入了一個(gè)新的時(shí)代。它不再是簡(jiǎn)單的"修補(bǔ)匠",而更像是一位深諳藝術(shù)原理的大師,能夠在保持技術(shù)精確性的同時(shí),創(chuàng)造出真正具有美感和邏輯性的作品。對(duì)于普通用戶來說,這意味著我們將擁有更加強(qiáng)大而易用的圖像處理工具;對(duì)于專業(yè)人士而言,這將大大提升工作效率和創(chuàng)作自由度。隨著這項(xiàng)技術(shù)的不斷完善和普及,我們有理由相信,在不遠(yuǎn)的將來,每個(gè)人都能輕松地成為自己照片的"魔法師"。有興趣深入了解這項(xiàng)技術(shù)的讀者,可以訪問研究團(tuán)隊(duì)的項(xiàng)目主頁獲取更多詳細(xì)信息和演示效果。
Q&A Q1:PixelHacker是什么?它能做什么? A:PixelHacker是華中科技大學(xué)開發(fā)的AI圖像修復(fù)系統(tǒng),它能智能地移除照片中不需要的內(nèi)容(如路人、污點(diǎn)等),并自動(dòng)填補(bǔ)缺失區(qū)域,讓修復(fù)效果自然到幾乎看不出痕跡。與傳統(tǒng)方法不同,它不需要復(fù)雜操作,就能處理各種修復(fù)需求。
Q2:PixelHacker會(huì)不會(huì)取代專業(yè)修圖師? A:目前不會(huì)完全取代,但會(huì)大大改變修圖工作方式。PixelHacker更像是給修圖師提供了一個(gè)超級(jí)智能的助手,能自動(dòng)完成大部分基礎(chǔ)修復(fù)工作,讓專業(yè)人士有更多時(shí)間專注于創(chuàng)意和藝術(shù)層面的工作。對(duì)普通用戶來說,確實(shí)能獨(dú)立完成許多之前需要專業(yè)技能的修圖任務(wù)。
Q3:普通人如何使用PixelHacker?效果如何? A:目前PixelHacker還是研究階段的技術(shù),普通用戶可以通過項(xiàng)目主頁https://hustvl.github.io/PixelHacker查看演示效果。研究顯示它在處理風(fēng)景照、人像等各類圖片時(shí)效果都很出色,即使是遮擋面積達(dá)到40-50%的大面積修復(fù)也能保持自然效果。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對(duì)話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。