隨著視頻編輯技術(shù)的發(fā)展,人們?cè)絹?lái)越希望能夠輕松地從視頻中移除不需要的物體。然而,現(xiàn)有的技術(shù)往往只能將物體本身刪除,卻無(wú)法處理物體在環(huán)境中留下的"痕跡"——比如陰影、倒影、光照變化等。這就像是想要從一張全家福中刪掉某個(gè)人,卻發(fā)現(xiàn)地面上還留著他的影子一樣尷尬。
最近,來(lái)自浙江大學(xué)、昆字節(jié)AI、北京大學(xué)和香港大學(xué)的研究團(tuán)隊(duì),在2025年8月26日發(fā)布了一項(xiàng)名為"ROSE: Remove Objects with Side Effects in Videos"的突破性研究。這項(xiàng)研究發(fā)表在arXiv預(yù)印本服務(wù)器上(論文編號(hào):arXiv:2508.18633v1),感興趣的讀者可以通過(guò) https://rose2025-inpaint.github.io/ 訪問(wèn)項(xiàng)目頁(yè)面獲取更多信息。
ROSE系統(tǒng)的核心創(chuàng)新在于它不僅能夠移除視頻中的目標(biāo)物體,還能智能處理物體對(duì)周圍環(huán)境產(chǎn)生的各種影響。研究團(tuán)隊(duì)將這些"副作用"歸納為五個(gè)主要類別:陰影效果、反射效果、光源效果、透明效果和鏡像效果。這就好比一個(gè)頂級(jí)的清潔工,不僅能夠移走房間里的家具,還能自動(dòng)處理家具在地板上留下的壓痕、墻上的色差,以及因?yàn)橐苿?dòng)家具而改變的房間光線分布。
為了訓(xùn)練這樣一個(gè)智能系統(tǒng),研究團(tuán)隊(duì)面臨的最大挑戰(zhàn)是缺乏高質(zhì)量的訓(xùn)練數(shù)據(jù)。傳統(tǒng)的方法通常使用簡(jiǎn)單的"復(fù)制粘貼"策略來(lái)創(chuàng)建訓(xùn)練數(shù)據(jù),就像在兩張不同的照片之間移動(dòng)貼紙一樣。然而,這種方法無(wú)法真實(shí)地模擬物體與環(huán)境之間的復(fù)雜物理交互關(guān)系。
研究團(tuán)隊(duì)采用了一個(gè)創(chuàng)新的解決方案:利用虛幻引擎這樣的3D渲染技術(shù)來(lái)生成完美的訓(xùn)練數(shù)據(jù)。他們收集了28個(gè)高質(zhì)量的虛擬環(huán)境,并將其分解為450個(gè)獨(dú)特的場(chǎng)景,涵蓋了城市環(huán)境、自然景觀和人工建筑等各種場(chǎng)景。在每個(gè)場(chǎng)景中,他們可以精確控制物體的存在與否,從而獲得完美對(duì)應(yīng)的"有物體"和"無(wú)物體"版本的視頻對(duì)。這就像擁有一個(gè)完美的攝影棚,可以在完全相同的條件下拍攝兩個(gè)版本的電影——一個(gè)版本包含某個(gè)演員,另一個(gè)版本中這個(gè)演員從未出現(xiàn)過(guò),但所有其他條件都完全一致。
一、智能識(shí)別:讓AI看懂物體與環(huán)境的復(fù)雜關(guān)系
ROSE系統(tǒng)的第一個(gè)核心技術(shù)是能夠理解物體與周圍環(huán)境之間的復(fù)雜關(guān)系。這就像訓(xùn)練一個(gè)觀察力極強(qiáng)的偵探,他不僅能夠識(shí)別出房間里的物品,還能推斷出這些物品對(duì)房間整體氛圍的影響。
傳統(tǒng)的視頻編輯方法就像一個(gè)粗心的清潔工,只會(huì)簡(jiǎn)單地把不要的東西扔掉,卻不會(huì)注意到墻上因此露出的色差,或者地板上留下的印記。而ROSE系統(tǒng)則像一個(gè)經(jīng)驗(yàn)豐富的室內(nèi)設(shè)計(jì)師,能夠預(yù)見(jiàn)到移除一件家具后需要進(jìn)行哪些額外的調(diào)整。
系統(tǒng)通過(guò)分析視頻中的光線分布、物體材質(zhì)、空間關(guān)系等多重信息,來(lái)判斷移除目標(biāo)物體后可能產(chǎn)生的環(huán)境變化。比如,當(dāng)系統(tǒng)識(shí)別到一個(gè)發(fā)光的燈泡需要被移除時(shí),它不僅會(huì)刪掉燈泡本身,還會(huì)自動(dòng)調(diào)整周圍區(qū)域的亮度分布,讓整個(gè)場(chǎng)景看起來(lái)就像從未安裝過(guò)這個(gè)燈泡一樣自然。
這種智能識(shí)別能力的實(shí)現(xiàn)得益于深度學(xué)習(xí)技術(shù)的應(yīng)用。研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)基于擴(kuò)散變換器(Diffusion Transformer)的模型架構(gòu),這個(gè)架構(gòu)能夠同時(shí)處理視頻的時(shí)間連續(xù)性和空間復(fù)雜性。擴(kuò)散變換器就像一個(gè)精密的畫家,能夠一筆一筆地"重繪"視頻中需要修改的區(qū)域,確保每一幀都與前后幀保持完美的連貫性。
二、數(shù)據(jù)生成:用虛擬世界訓(xùn)練真實(shí)能力
獲取高質(zhì)量的訓(xùn)練數(shù)據(jù)是ROSE系統(tǒng)成功的關(guān)鍵。研究團(tuán)隊(duì)面臨的挑戰(zhàn)就像要教一個(gè)學(xué)生如何修復(fù)古畫,但卻找不到足夠多的"修復(fù)前后對(duì)比"的真實(shí)案例來(lái)學(xué)習(xí)。
為了解決這個(gè)問(wèn)題,研究團(tuán)隊(duì)開發(fā)了一個(gè)全自動(dòng)的數(shù)據(jù)生成流水線。他們首先從公共3D資源平臺(tái)收集了大量虛擬環(huán)境,這些環(huán)境包括城市街道、自然風(fēng)光、室內(nèi)場(chǎng)所等各種場(chǎng)景。然后,他們將這些大環(huán)境細(xì)分為包含不同物體的小場(chǎng)景,每個(gè)小場(chǎng)景都像一個(gè)獨(dú)立的電影拍攝現(xiàn)場(chǎng)。
在每個(gè)場(chǎng)景中,系統(tǒng)會(huì)自動(dòng)生成多個(gè)不同角度和距離的攝像機(jī)位置,就像安排一個(gè)攝影團(tuán)隊(duì)從各個(gè)角度拍攝同一個(gè)場(chǎng)景。3D引擎的優(yōu)勢(shì)在于,它可以精確控制場(chǎng)景中每個(gè)物體的可見(jiàn)性。研究團(tuán)隊(duì)就像擁有了一個(gè)神奇的開關(guān),可以讓某個(gè)物體瞬間"隱身",同時(shí)自動(dòng)調(diào)整因此產(chǎn)生的光照、陰影等環(huán)境變化。
這個(gè)過(guò)程生成了16,678對(duì)高質(zhì)量的視頻數(shù)據(jù),每對(duì)視頻包含90幀(6秒),分辨率達(dá)到1920×1080。更重要的是,這些數(shù)據(jù)完美地展示了物體移除前后環(huán)境的所有變化,為AI系統(tǒng)提供了學(xué)習(xí)如何處理各種復(fù)雜情況的完整教材。
整個(gè)數(shù)據(jù)生成過(guò)程還包括嚴(yán)格的質(zhì)量控制。系統(tǒng)會(huì)自動(dòng)過(guò)濾掉那些物體被遮擋過(guò)多或者視角不佳的視頻,確保每一對(duì)訓(xùn)練數(shù)據(jù)都能為AI系統(tǒng)提供清晰、有價(jià)值的學(xué)習(xí)信息。這就像一個(gè)嚴(yán)格的教師,只選擇最典型、最有教育價(jià)值的案例來(lái)教授學(xué)生。
三、五大副作用類型:涵蓋現(xiàn)實(shí)世界的復(fù)雜情況
ROSE系統(tǒng)的獨(dú)特之處在于它系統(tǒng)性地研究和處理了物體移除可能產(chǎn)生的五種主要副作用。這種分類方法就像一個(gè)經(jīng)驗(yàn)豐富的醫(yī)生,能夠準(zhǔn)確診斷并治療不同類型的"癥狀"。
第一種是陰影效果。當(dāng)陽(yáng)光照射下的樹木被移除時(shí),地面上的樹影也必須同時(shí)消失,但消失后的地面應(yīng)該呈現(xiàn)出正常的光照狀態(tài),而不是簡(jiǎn)單的空白。ROSE系統(tǒng)就像一個(gè)光影大師,能夠準(zhǔn)確計(jì)算出移除物體后光線的重新分布,讓整個(gè)場(chǎng)景的光照看起來(lái)完全自然。
第二種是反射效果。當(dāng)湖面上的天鵝被移除時(shí),水中的倒影也必須消失,但湖面應(yīng)該呈現(xiàn)出平靜水面的正常反射狀態(tài)。這要求系統(tǒng)不僅要理解反射的物理原理,還要能夠根據(jù)周圍環(huán)境生成合理的水面反射效果。
第三種是光源效果。這是最復(fù)雜的情況之一。當(dāng)一個(gè)發(fā)光的路燈被移除時(shí),不僅燈本身要消失,它照亮的整個(gè)區(qū)域都需要重新調(diào)整光線分布。系統(tǒng)需要像一個(gè)照明工程師一樣,重新計(jì)算整個(gè)場(chǎng)景的光照方案。
第四種是透明效果。當(dāng)透明或半透明物體被移除時(shí),原本被遮擋在后面的背景需要完整地顯現(xiàn)出來(lái)。這就像從一個(gè)磨砂玻璃窗后面完全恢復(fù)窗外的清晰景象,需要系統(tǒng)能夠"想象"出被遮擋部分的真實(shí)樣子。
第五種是鏡像效果。當(dāng)鏡子中的物體被移除時(shí),系統(tǒng)需要同時(shí)處理現(xiàn)實(shí)中的物體和鏡像中的物體,還要確保鏡面反射的空間關(guān)系保持正確。這要求系統(tǒng)具備復(fù)雜的空間推理能力。
研究團(tuán)隊(duì)為每種效果都設(shè)計(jì)了專門的訓(xùn)練數(shù)據(jù)和處理策略。他們發(fā)現(xiàn),不同類型的副作用需要不同的處理重點(diǎn):陰影效果主要考驗(yàn)系統(tǒng)對(duì)光照的理解,反射效果考驗(yàn)對(duì)水面和光滑表面的建模能力,而光源效果則需要系統(tǒng)具備全局光照計(jì)算能力。
四、技術(shù)架構(gòu):引用式擦除的創(chuàng)新方法
ROSE系統(tǒng)在技術(shù)實(shí)現(xiàn)上采用了一種稱為"引用式擦除"的創(chuàng)新方法。這種方法的核心思想是讓AI系統(tǒng)能夠看到完整的原始視頻,而不是像傳統(tǒng)方法那樣只看到被遮蓋后的部分內(nèi)容。
傳統(tǒng)的視頻修復(fù)方法就像給一個(gè)修復(fù)師一張被撕掉一塊的照片,然后要求他想象出缺失部分的內(nèi)容。這種方法的問(wèn)題在于,修復(fù)師無(wú)法了解被撕掉部分的物體特征,也就難以準(zhǔn)確判斷這個(gè)物體對(duì)周圍環(huán)境產(chǎn)生了什么影響。
ROSE系統(tǒng)的方法則像是給修復(fù)師同時(shí)提供完整的照片和一個(gè)透明的標(biāo)記,告訴他哪些部分需要被移除。這樣,系統(tǒng)就能夠充分分析目標(biāo)物體的特征,理解它與周圍環(huán)境的交互關(guān)系,從而做出更準(zhǔn)確的修復(fù)決策。
這種方法的技術(shù)實(shí)現(xiàn)基于擴(kuò)散變換器架構(gòu)。系統(tǒng)的輸入包括三個(gè)部分:帶有噪聲的視頻潛在表示、完整的原始視頻、以及標(biāo)記了需要移除物體的掩碼。這三個(gè)輸入在模型中被連接起來(lái),形成一個(gè)豐富的信息源,讓AI能夠全面理解視頻內(nèi)容和修復(fù)任務(wù)。
為了增強(qiáng)系統(tǒng)的實(shí)用性,研究團(tuán)隊(duì)還設(shè)計(jì)了多樣化的掩碼增強(qiáng)策略?,F(xiàn)實(shí)世界中,用戶提供的物體標(biāo)記可能不夠精確——有時(shí)候是粗糙的方框,有時(shí)候是簡(jiǎn)單的點(diǎn)擊,有時(shí)候又可能標(biāo)記過(guò)度。為了讓系統(tǒng)能夠適應(yīng)這些不完美的輸入,訓(xùn)練過(guò)程中會(huì)隨機(jī)使用五種不同類型的掩碼:精確的分割掩碼、極簡(jiǎn)的點(diǎn)狀掩碼、粗糙的邊界框掩碼、擴(kuò)大的膨脹掩碼,以及收縮的腐蝕掩碼。
五、差異掩碼預(yù)測(cè):顯式監(jiān)督的智能輔助
ROSE系統(tǒng)的另一個(gè)技術(shù)創(chuàng)新是引入了差異掩碼預(yù)測(cè)機(jī)制。這個(gè)機(jī)制就像給AI系統(tǒng)配備了一個(gè)專門的"影響范圍探測(cè)器",能夠自動(dòng)識(shí)別出物體移除后哪些區(qū)域需要進(jìn)行修復(fù)。
在傳統(tǒng)的視頻修復(fù)方法中,系統(tǒng)只關(guān)注被明確標(biāo)記的物體區(qū)域。但是,物體對(duì)環(huán)境的影響往往超出其自身的邊界。一個(gè)站立的人不僅占據(jù)了身體所在的空間,還在地面投下了影子,在附近的鏡子中留下了倒影,甚至可能遮擋了身后的景物。
差異掩碼預(yù)測(cè)器的工作原理是通過(guò)比較原始視頻和移除物體后的目標(biāo)視頻,自動(dòng)計(jì)算出所有發(fā)生變化的像素位置。這個(gè)過(guò)程就像用一個(gè)高精度的"找不同"游戲,系統(tǒng)能夠精確識(shí)別出兩個(gè)視頻幀之間的每一個(gè)細(xì)微差別。
技術(shù)實(shí)現(xiàn)上,差異掩碼通過(guò)計(jì)算像素級(jí)別的歐幾里得距離來(lái)確定。當(dāng)兩個(gè)視頻幀在某個(gè)位置的顏色差異超過(guò)預(yù)設(shè)閾值(研究中設(shè)為0.09)時(shí),該位置就會(huì)被標(biāo)記為需要修復(fù)的區(qū)域。這種計(jì)算產(chǎn)生的二值掩碼不僅包含了目標(biāo)物體本身,還覆蓋了所有受物體影響的環(huán)境區(qū)域。
為了將這個(gè)差異掩碼信息有效地傳遞給主要的修復(fù)模型,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)專門的預(yù)測(cè)器網(wǎng)絡(luò)。這個(gè)預(yù)測(cè)器從視頻修復(fù)模型的多個(gè)變換器層中提取特征信息,然后通過(guò)一個(gè)兩層的多層感知器(MLP)來(lái)預(yù)測(cè)每個(gè)區(qū)域是否需要修復(fù)。預(yù)測(cè)器的輸出經(jīng)過(guò)插值處理后,能夠與視頻的完整分辨率匹配。
整個(gè)系統(tǒng)的訓(xùn)練目標(biāo)包括兩個(gè)部分:標(biāo)準(zhǔn)的擴(kuò)散去噪損失和輔助的掩碼預(yù)測(cè)損失。這種雙重監(jiān)督機(jī)制確保了系統(tǒng)不僅能夠生成高質(zhì)量的修復(fù)結(jié)果,還能準(zhǔn)確識(shí)別需要修復(fù)的所有區(qū)域。權(quán)衡參數(shù)λ用于平衡這兩個(gè)訓(xùn)練目標(biāo),確保系統(tǒng)在修復(fù)質(zhì)量和區(qū)域識(shí)別準(zhǔn)確性之間達(dá)到最佳平衡。
六、ROSE-Bench評(píng)估體系:全面檢驗(yàn)修復(fù)能力
為了科學(xué)地評(píng)估ROSE系統(tǒng)的性能,研究團(tuán)隊(duì)構(gòu)建了一個(gè)名為ROSE-Bench的comprehensive評(píng)估基準(zhǔn)。這個(gè)評(píng)估體系就像為一個(gè)全能運(yùn)動(dòng)員設(shè)計(jì)的綜合測(cè)試,不僅要檢驗(yàn)基本技能,還要測(cè)試在各種復(fù)雜情況下的表現(xiàn)。
ROSE-Bench包含三個(gè)不同層次的測(cè)試數(shù)據(jù)集。第一個(gè)是合成配對(duì)基準(zhǔn),使用與訓(xùn)練數(shù)據(jù)相同的3D渲染技術(shù)生成,包含六個(gè)代表性類別:普通情況、光源效果、鏡像效果、反射效果、陰影效果和透明效果。每個(gè)類別包含10個(gè)高質(zhì)量的視頻三元組(原始視頻、編輯后視頻和掩碼視頻),提供精確可控的評(píng)估環(huán)境。這就像在標(biāo)準(zhǔn)化的實(shí)驗(yàn)室環(huán)境中測(cè)試系統(tǒng)性能,能夠準(zhǔn)確衡量不同技術(shù)組件的貢獻(xiàn)。
第二個(gè)是真實(shí)配對(duì)基準(zhǔn),采用基于DAVIS視頻分割數(shù)據(jù)集的復(fù)制粘貼策略構(gòu)建。研究團(tuán)隊(duì)將一個(gè)視頻中的被掩碼物體復(fù)制到另一個(gè)視頻中,形成"插入物體"的版本作為輸入,原始未修改的視頻作為真值目標(biāo)。這種方法能夠創(chuàng)建真實(shí)且多樣化的測(cè)試場(chǎng)景,同時(shí)保持地面真值監(jiān)督的可用性。這個(gè)基準(zhǔn)就像在半真實(shí)環(huán)境中的測(cè)試,既保持了一定的可控性,又增加了真實(shí)世界的復(fù)雜性。
第三個(gè)是真實(shí)無(wú)配對(duì)基準(zhǔn),直接使用來(lái)自DAVIS數(shù)據(jù)集的真實(shí)世界視頻和掩碼。由于缺乏地面真值,這個(gè)基準(zhǔn)采用VBench評(píng)估框架中的相關(guān)指標(biāo),評(píng)估輸出視頻在運(yùn)動(dòng)平滑性、背景一致性和時(shí)間閃爍等方面的質(zhì)量。這就像在完全真實(shí)的環(huán)境中進(jìn)行測(cè)試,雖然無(wú)法獲得精確的定量分?jǐn)?shù),但能夠檢驗(yàn)系統(tǒng)在實(shí)際應(yīng)用中的表現(xiàn)。
評(píng)估指標(biāo)方面,對(duì)于配對(duì)基準(zhǔn),系統(tǒng)使用PSNR、SSIM和LPIPS三個(gè)指標(biāo)來(lái)捕獲低層結(jié)構(gòu)保真度和感知相似性。PSNR就像測(cè)量修復(fù)后畫面的"清晰度",SSIM衡量結(jié)構(gòu)相似性,而LPIPS則評(píng)估人眼感知的相似程度。對(duì)于無(wú)配對(duì)基準(zhǔn),系統(tǒng)采用專門針對(duì)視頻質(zhì)量的指標(biāo),包括運(yùn)動(dòng)平滑性(衡量視頻播放是否流暢)、背景一致性(檢查背景區(qū)域是否保持穩(wěn)定)、時(shí)間閃爍(測(cè)量是否存在不自然的閃爍現(xiàn)象)、主體一致性(確保修復(fù)區(qū)域與整體風(fēng)格匹配)和成像質(zhì)量(整體視覺(jué)質(zhì)量評(píng)估)。
七、實(shí)驗(yàn)結(jié)果:全面超越現(xiàn)有技術(shù)
通過(guò)在ROSE-Bench上的comprehensive測(cè)試,ROSE系統(tǒng)展現(xiàn)出了顯著優(yōu)于現(xiàn)有技術(shù)的性能表現(xiàn)。研究團(tuán)隊(duì)將ROSE與五個(gè)代表性的視頻修復(fù)方法進(jìn)行了比較,包括基于流的變換器方法(ProPainter、FuseFormer、FGT)和基于擴(kuò)散的方法(DiffuEraser、FLoED)。
在合成配對(duì)基準(zhǔn)的測(cè)試中,ROSE在所有六個(gè)類別中都取得了最佳性能。在普通情況下,ROSE的PSNR達(dá)到36.60,顯著高于第二名DiffuEraser的30.93。更重要的是,在處理復(fù)雜副作用的場(chǎng)景中,ROSE的優(yōu)勢(shì)更加明顯。在光源效果處理上,ROSE的PSNR為30.07,而其他方法普遍在22-23之間徘徊。在鏡像效果處理中,ROSE達(dá)到28.35的PSNR,相比之下其他方法的表現(xiàn)都在22-23范圍內(nèi)。
這些數(shù)字背后反映的是ROSE在處理復(fù)雜物體-環(huán)境交互方面的技術(shù)優(yōu)勢(shì)。傳統(tǒng)方法在面對(duì)陰影、反射、光源變化等復(fù)雜情況時(shí),往往會(huì)留下明顯的瑕疵或不自然的痕跡。而ROSE能夠同時(shí)處理目標(biāo)物體和其環(huán)境影響,生成更加自然逼真的結(jié)果。
在真實(shí)配對(duì)基準(zhǔn)的測(cè)試中,ROSE同樣保持了領(lǐng)先地位。雖然在PSNR指標(biāo)上,ProPainter獲得了32.81的最高分,略高于ROSE的31.34,但ROSE在SSIM(0.923)和LPIPS(0.092)指標(biāo)上都取得了最佳表現(xiàn)。這表明ROSE生成的視頻在結(jié)構(gòu)相似性和感知質(zhì)量方面更加優(yōu)秀,更符合人眼的觀感要求。
在真實(shí)無(wú)配對(duì)基準(zhǔn)的評(píng)估中,ROSE在多個(gè)關(guān)鍵指標(biāo)上都達(dá)到了最高水平。運(yùn)動(dòng)平滑性得分0.975(與ProPainter并列最高),背景一致性0.923(所有方法中最高),主體一致性0.908(最高)。這些結(jié)果表明ROSE不僅能夠產(chǎn)生高質(zhì)量的修復(fù)效果,還能保持視頻的時(shí)間連貫性和整體一致性。
八、技術(shù)創(chuàng)新的關(guān)鍵因素分析
為了深入理解ROSE系統(tǒng)成功的關(guān)鍵因素,研究團(tuán)隊(duì)進(jìn)行了detailed的消融實(shí)驗(yàn)。這些實(shí)驗(yàn)就像解剖一個(gè)復(fù)雜機(jī)器,逐一檢驗(yàn)每個(gè)組件的貢獻(xiàn),確定哪些創(chuàng)新真正發(fā)揮了重要作用。
首先,研究團(tuán)隊(duì)驗(yàn)證了引用式擦除方法的重要性。基線系統(tǒng)采用傳統(tǒng)的"掩碼-修復(fù)"范式,即向模型輸入被遮蓋后的視頻內(nèi)容。當(dāng)引入掩碼區(qū)域引導(dǎo)(MRG)后,系統(tǒng)性能顯著提升。在普通情況下,PSNR從32.58提升到35.24,在復(fù)雜的鏡像效果場(chǎng)景中,PSNR從22.63躍升至28.45。這一顯著改進(jìn)證明了讓系統(tǒng)看到完整原始視頻的重要性——只有了解目標(biāo)物體的完整信息,系統(tǒng)才能準(zhǔn)確判斷其對(duì)環(huán)境的影響。
掩碼增強(qiáng)(MA)策略的效果則更加微妙但同樣重要。在大多數(shù)場(chǎng)景中,掩碼增強(qiáng)帶來(lái)了適度但consistent的性能提升。雖然在某些場(chǎng)景中(如光源效果),掩碼增強(qiáng)似乎帶來(lái)了性能下降,但這反映了系統(tǒng)在適應(yīng)不完美輸入時(shí)的trade-off。在實(shí)際應(yīng)用中,用戶提供的掩碼往往不夠精確,掩碼增強(qiáng)策略確保了系統(tǒng)在面對(duì)各種質(zhì)量的輸入時(shí)都能保持穩(wěn)定的性能。
差異掩碼預(yù)測(cè)器(DMP)的引入帶來(lái)了最全面的性能提升。這個(gè)組件在所有測(cè)試場(chǎng)景中都產(chǎn)生了positive的影響,特別是在處理復(fù)雜副作用的場(chǎng)景中。在反射效果處理中,DMP將SSIM從0.843提升到0.872,在普通情況下將PSNR從35.37進(jìn)一步提升到36.60。這表明顯式地預(yù)測(cè)需要修復(fù)的區(qū)域能夠幫助系統(tǒng)更準(zhǔn)確地定位和處理物體-環(huán)境交互的影響。
更深入的分析表明,三個(gè)技術(shù)創(chuàng)新的結(jié)合產(chǎn)生了synergistic的效果。引用式擦除為系統(tǒng)提供了豐富的上下文信息,掩碼增強(qiáng)增強(qiáng)了系統(tǒng)的泛化能力,而差異掩碼預(yù)測(cè)器則提供了precise的修復(fù)指導(dǎo)。三者的結(jié)合使得ROSE能夠在保持高質(zhì)量修復(fù)效果的同時(shí),準(zhǔn)確處理各種復(fù)雜的環(huán)境交互效應(yīng)。
實(shí)驗(yàn)還揭示了不同類型副作用的處理難度差異。普通情況和透明效果相對(duì)容易處理,因?yàn)樗鼈冎饕婕熬植績(jī)?nèi)容的補(bǔ)全。陰影效果和反射效果的難度中等,需要系統(tǒng)理解光照和表面反射的物理原理。而光源效果和鏡像效果則最為復(fù)雜,需要系統(tǒng)具備全局光照計(jì)算和復(fù)雜空間推理能力。ROSE在所有這些場(chǎng)景中都取得了leading的性能,demonstrates了其技術(shù)架構(gòu)的comprehensive性和有效性。
九、實(shí)際應(yīng)用與未來(lái)展望
ROSE系統(tǒng)的技術(shù)breakthrough為視頻編輯領(lǐng)域帶來(lái)了新的可能性,其應(yīng)用前景覆蓋了從個(gè)人創(chuàng)意到專業(yè)制作的廣闊領(lǐng)域。這就像一個(gè)萬(wàn)能的"橡皮擦"工具,不僅能夠擦除不需要的內(nèi)容,還能智能地修復(fù)環(huán)境,讓整個(gè)畫面看起來(lái)天衣無(wú)縫。
在個(gè)人用戶層面,ROSE技術(shù)可以顯著提升日常視頻編輯體驗(yàn)。旅行視頻中意外入鏡的路人、家庭聚會(huì)中的多余物品、甚至是拍攝時(shí)無(wú)法避免的電線桿和垃圾桶,都可以被完美移除,同時(shí)保持場(chǎng)景的自然真實(shí)感。更重要的是,系統(tǒng)能夠自動(dòng)處理這些物體的陰影和反射,避免了手動(dòng)編輯時(shí)常見(jiàn)的"鬼影"現(xiàn)象。
在professional content creation領(lǐng)域,ROSE的價(jià)值更加突出。電影制片人可以在后期制作中輕松移除拍攝現(xiàn)場(chǎng)的設(shè)備痕跡,而無(wú)需擔(dān)心留下不自然的光照效果。房地產(chǎn)營(yíng)銷視頻可以移除暫時(shí)的障礙物,展現(xiàn)property的最佳狀態(tài)。教育視頻制作者可以清理錄制環(huán)境中的干擾元素,創(chuàng)造更加專業(yè)的視覺(jué)效果。
然而,正如研究團(tuán)隊(duì)在論文中坦承的,ROSE系統(tǒng)目前仍存在一些限制。在處理大幅度運(yùn)動(dòng)的視頻時(shí),系統(tǒng)可能產(chǎn)生輕微的閃爍artifact,這在VBench評(píng)估中有所體現(xiàn)。此外,推理時(shí)間會(huì)隨著視頻長(zhǎng)度增加而延長(zhǎng),這可能影響長(zhǎng)視頻處理的效率。這些局限性為future research提供了明確的改進(jìn)方向。
從技術(shù)發(fā)展角度看,ROSE開創(chuàng)的合成數(shù)據(jù)生成范式具有重要意義。通過(guò)3D渲染引擎生成高質(zhì)量訓(xùn)練數(shù)據(jù)的方法,不僅解決了配對(duì)數(shù)據(jù)稀缺的問(wèn)題,還為其他視頻編輯任務(wù)提供了參考。這種方法的成功證明了synthetic data在訓(xùn)練復(fù)雜AI系統(tǒng)中的巨大潛力,特別是在需要精確physical modeling的任務(wù)中。
研究團(tuán)隊(duì)提出的五種副作用分類框架也為該領(lǐng)域建立了重要的theoretical foundation。這種系統(tǒng)性的分類不僅幫助researchers更好地理解video object removal的復(fù)雜性,也為future algorithm development提供了明確的技術(shù)roadmap。每種副作用類型都對(duì)應(yīng)著特定的技術(shù)挑戰(zhàn)和解決方案,為targeted improvements指明了方向。
ROSE-Bench評(píng)估基準(zhǔn)的建立同樣具有長(zhǎng)遠(yuǎn)影響。這個(gè)comprehensive的評(píng)估框架填補(bǔ)了該領(lǐng)域標(biāo)準(zhǔn)化測(cè)試的空白,為future research提供了公平、全面的performance comparison platform?;鶞?zhǔn)中包含的多層次測(cè)試策略——從controlled synthetic scenarios到real-world applications——確保了評(píng)估的全面性和實(shí)用性。
未來(lái)的研究方向可能包括real-time optimization,以實(shí)現(xiàn)更高效的長(zhǎng)視頻處理;更廣泛的環(huán)境效應(yīng)建模,涵蓋更多復(fù)雜的物理交互;以及better generalization to diverse real-world scenarios。隨著computational resources的不斷增長(zhǎng)和algorithm efficiency的持續(xù)改進(jìn),ROSE及其后續(xù)技術(shù)有望成為video editing workflows中的standard components。
說(shuō)到底,ROSE代表了video object removal技術(shù)的一個(gè)重要里程碑。它不僅解決了傳統(tǒng)方法在處理環(huán)境交互方面的技術(shù)局限,更重要的是建立了一個(gè)systematic framework來(lái)理解和處理這類復(fù)雜問(wèn)題。這項(xiàng)研究的成功demonstrates了combining synthetic data generation、advanced deep learning architectures和comprehensive evaluation的powerful synergy,為整個(gè)computer vision領(lǐng)域提供了valuable insights和practical solutions。
對(duì)于普通用戶而言,ROSE技術(shù)的成熟將意味著更加智能、易用的視頻編輯工具。未來(lái)的視頻編輯軟件可能只需要用戶簡(jiǎn)單地點(diǎn)擊不需要的物體,系統(tǒng)就能自動(dòng)完成包括環(huán)境修復(fù)在內(nèi)的所有處理工作,讓視頻編輯變得像使用智能手機(jī)一樣簡(jiǎn)單直觀。這種技術(shù)的普及將democratize高質(zhì)量視頻制作,讓更多人能夠創(chuàng)造出professional-grade的視頻content。
Q&A
Q1:ROSE技術(shù)和普通的視頻編輯軟件有什么區(qū)別?
A:普通視頻編輯軟件只能刪除物體本身,但會(huì)留下陰影、反射等痕跡,就像從照片中摳掉一個(gè)人但地上還有影子一樣。ROSE技術(shù)則能同時(shí)處理物體和它對(duì)環(huán)境的所有影響,包括陰影、倒影、光照變化等,讓視頻看起來(lái)就像那個(gè)物體從未存在過(guò)一樣自然。
Q2:ROSE系統(tǒng)是如何獲得訓(xùn)練數(shù)據(jù)的?為什么不用真實(shí)視頻?
A:真實(shí)世界很難找到完全相同場(chǎng)景下"有物體"和"無(wú)物體"的視頻對(duì)比。ROSE團(tuán)隊(duì)使用虛幻引擎等3D技術(shù)生成了16678對(duì)完美匹配的訓(xùn)練視頻,涵蓋450個(gè)不同場(chǎng)景。這就像擁有一個(gè)可以控制任何物體出現(xiàn)或消失的魔法攝影棚,能夠生成物理規(guī)律完全正確的訓(xùn)練數(shù)據(jù)。
Q3:普通用戶什么時(shí)候能使用到ROSE這樣的技術(shù)?
A:目前ROSE還是研究階段的技術(shù),需要專業(yè)的計(jì)算設(shè)備運(yùn)行。不過(guò)隨著技術(shù)發(fā)展,類似功能可能會(huì)逐步集成到主流視頻編輯軟件中。研究團(tuán)隊(duì)已經(jīng)在項(xiàng)目網(wǎng)站https://rose2025-inpaint.github.io/ 展示了技術(shù)效果,未來(lái)幾年內(nèi)可能會(huì)有商業(yè)化的簡(jiǎn)化版本出現(xiàn)。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語(yǔ)言模型的敘事推理能力與音頻生成技術(shù),通過(guò)交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過(guò)讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問(wèn)題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語(yǔ)言模型人性化對(duì)話問(wèn)題。該研究創(chuàng)建了包含20萬(wàn)高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過(guò)創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過(guò)學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來(lái)了效率和精度的雙重突破。