av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見(jiàn)證連接與計(jì)算的「力量」

首頁(yè) IllumiCraft:牛津大學(xué)聯(lián)合研究團(tuán)隊(duì)打造融合幾何與光照的視頻生成新技術(shù),讓視頻重光照變得觸手可及

IllumiCraft:牛津大學(xué)聯(lián)合研究團(tuán)隊(duì)打造融合幾何與光照的視頻生成新技術(shù),讓視頻重光照變得觸手可及

2025-06-09 07:26
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-09 07:26 ? 科技行者

2025年6月,由牛津大學(xué)的林元澤(Yuanze Lin)和羅納德·克拉克(Ronald Clark),加州大學(xué)默塞德分校的楊明煊(Ming-Hsuan Yang),NEC美國(guó)實(shí)驗(yàn)室的陳怡雯(Yi-Wen Chen)以及Atmanity公司的蔡逸軒(Yi-Hsuan Tsai)等研究者組成的國(guó)際研究團(tuán)隊(duì),在arXiv預(yù)印本平臺(tái)發(fā)布了名為"IllumiCraft: Unified Geometry and Illumination Diffusion for Controllable Video Generation"的研究論文。這項(xiàng)研究提出了一種創(chuàng)新的視頻重光照技術(shù),感興趣的讀者可以通過(guò)項(xiàng)目主頁(yè)(https://yuanze-lin.me/IllumiCraft_page)獲取更多信息。

一、視頻重光照的困境與挑戰(zhàn)

想象一下,你拍攝了一段精彩的視頻,但光線效果卻不盡如人意 — 也許陽(yáng)光太強(qiáng)烈,或者室內(nèi)燈光太暗淡。如果能像修改照片一樣輕松調(diào)整視頻的光照效果,那該多好啊!然而,這在技術(shù)上一直是個(gè)棘手的問(wèn)題。

為什么視頻的光照調(diào)整如此困難?首先,光照在現(xiàn)實(shí)世界中扮演著至關(guān)重要的角色。就像一個(gè)蘋果被陽(yáng)光照射時(shí),其表面會(huì)產(chǎn)生明亮的高光,而背光面則會(huì)形成柔和的陰影。這種光與物體的互動(dòng)凸顯了物體的三維結(jié)構(gòu)和質(zhì)感。想象一下,如果沒(méi)有這些光影變化,世界就會(huì)變得扁平而無(wú)趣。

然而,現(xiàn)有的視頻生成技術(shù)通常將光照視為一個(gè)無(wú)法控制的隱含因素。雖然已有一些方法嘗試解決這個(gè)問(wèn)題,但它們都面臨兩大挑戰(zhàn):一方面需要在視頻的每一幀中保持光照的一致性,避免令人分心的閃爍;另一方面要確保陰影、高光和反射能隨著相機(jī)和物體的移動(dòng)而保持物理上的合理性。

傳統(tǒng)的逆渲染技術(shù)嘗試將場(chǎng)景分解為反照率、法線和光照,但它們依賴于專門的輸入(如HDR捕獲或球諧函數(shù))并且通常假設(shè)場(chǎng)景是靜態(tài)的,這限制了它們?cè)趧?dòng)態(tài)豐富的真實(shí)世界視頻中的實(shí)用性。

最近的擴(kuò)散模型如RelightVid和Light-A-Video雖然在單幀圖像重光照的基礎(chǔ)上做了拓展,但它們僅僅依賴于隱式的時(shí)間相關(guān)性,忽略了明確的幾何引導(dǎo)。因此,一旦場(chǎng)景的幾何結(jié)構(gòu)發(fā)生變化,它們就會(huì)遭遇光照保真度和連貫性的整體損失。

二、IllumiCraft:一個(gè)統(tǒng)一的解決方案

為了解決這些問(wèn)題,研究團(tuán)隊(duì)提出了IllumiCraft,這是一個(gè)端到端的擴(kuò)散架構(gòu),專為視頻重光照而設(shè)計(jì)。它就像一位精通光影藝術(shù)的魔法師,能根據(jù)你的需求為視頻創(chuàng)造出各種光照效果,同時(shí)保持自然流暢的視覺(jué)體驗(yàn)。

IllumiCraft最大的創(chuàng)新在于它同時(shí)考慮了三個(gè)關(guān)鍵因素:

首先,它利用高動(dòng)態(tài)范圍(HDR)環(huán)境圖來(lái)提供詳細(xì)的光照控制。想象這些HDR環(huán)境圖就像是一本詳細(xì)的光照"食譜",告訴系統(tǒng)光線應(yīng)該從哪些方向以什么強(qiáng)度照射進(jìn)來(lái)。

其次,它使用合成重光照的視頻幀,這些幀具有隨機(jī)化的光照變化,可以選擇性地與靜態(tài)背景參考圖像配對(duì),提供外觀線索。這就像給系統(tǒng)提供了多種光照下物體外觀的"樣本",讓它學(xué)習(xí)不同光照條件下物體應(yīng)該呈現(xiàn)的樣子。

第三,也是最關(guān)鍵的一點(diǎn),IllumiCraft使用3D點(diǎn)軌跡視頻來(lái)捕獲精確的三維幾何信息。這就像給系統(tǒng)提供了一張"地圖",告訴它場(chǎng)景中的物體在三維空間中是如何移動(dòng)的,這樣系統(tǒng)就能在調(diào)整光照時(shí)考慮到物體的形狀和運(yùn)動(dòng)。

通過(guò)在統(tǒng)一的擴(kuò)散架構(gòu)中融合這三種類型的信息,IllumiCraft能夠生成在時(shí)間上連貫一致的視頻,并且與用戶定義的提示保持一致。這就像是一位了解場(chǎng)景幾何結(jié)構(gòu)、知道光線如何與物體互動(dòng),并且能夠保持時(shí)間連貫性的專業(yè)攝影師在為你的視頻重新設(shè)計(jì)光照。

三、技術(shù)實(shí)現(xiàn):IllumiCraft如何工作?

為了實(shí)現(xiàn)這一目標(biāo),研究團(tuán)隊(duì)開發(fā)了兩個(gè)相互配合的組件:數(shù)據(jù)收集管道IllumiPipe和擴(kuò)散模型架構(gòu)IllumiCraft。讓我們深入了解這兩個(gè)組件如何工作。

首先,IllumiPipe是一個(gè)高效的數(shù)據(jù)收集管道,設(shè)計(jì)用于從真實(shí)世界視頻中提取HDR環(huán)境圖數(shù)據(jù)、重光照視頻片段和精確的3D跟蹤視頻序列。想象它就像一個(gè)智能助手,能夠從普通視頻中提取各種有用的信息,為后續(xù)的光照編輯做準(zhǔn)備。

具體來(lái)說(shuō),對(duì)于每個(gè)外觀視頻Vappr,IllumiPipe會(huì)提取6種不同類型的數(shù)據(jù):重光照的前景視頻、背景視頻、HDR環(huán)境圖、3D跟蹤視頻序列、前景視頻的遮罩以及描述外觀視頻的文字說(shuō)明。

在收集HDR環(huán)境圖時(shí),研究團(tuán)隊(duì)利用DiffusionLight技術(shù)從視頻的第一幀中提取鉻球圖像,然后將這個(gè)初始鉻球映射到所有后續(xù)幀上,從而在整個(gè)序列中產(chǎn)生時(shí)間上連貫的HDR環(huán)境圖。這就像是確保整個(gè)視頻中的光照"地圖"保持一致,避免光照突然變化導(dǎo)致的閃爍效果。

為了生成重光照視頻,團(tuán)隊(duì)首先使用Grounded SAM-2從第一幀中獲取前景遮罩,然后將外觀視頻和第一幀的遮罩輸入到視頻物體摳圖模型MatAnyone中,提取前景外觀視頻和相應(yīng)的遮罩視頻。接著,他們應(yīng)用視頻重光照方法Light-A-Video來(lái)生成具有不同光照效果的重光照視頻。這就像是將視頻中的物體"摳出來(lái)",放到不同的光照環(huán)境中,然后再生成新的視頻。

對(duì)于3D跟蹤視頻,研究團(tuán)隊(duì)使用SpatialTracker直接在3D空間中檢測(cè)和定位顯著的3D興趣點(diǎn)。這就像是在視頻中放置了數(shù)千個(gè)小標(biāo)記點(diǎn),然后跟蹤它們?cè)谌S空間中的移動(dòng),從而捕獲場(chǎng)景中物體的真實(shí)運(yùn)動(dòng)。

在模型架構(gòu)方面,IllumiCraft建立在預(yù)訓(xùn)練的視頻生成模型Wan2.1之上,這是一個(gè)基于Transformer的視頻擴(kuò)散架構(gòu)。通過(guò)初始化網(wǎng)絡(luò)時(shí)使用Wan的學(xué)習(xí)權(quán)重,研究團(tuán)隊(duì)既利用了其強(qiáng)大的視頻先驗(yàn)知識(shí),又顯著加速了訓(xùn)練過(guò)程。

模型的工作流程可以比作一個(gè)復(fù)雜的烹飪過(guò)程:首先,它將參考圖像(背景視頻的第一幀)沿時(shí)間軸進(jìn)行零填充,形成參考視頻。然后,它使用VAE編碼器提取外觀視頻、重光照前景視頻和參考視頻的潛在表示,并將重光照前景潛在表示和參考潛在表示沿通道維度連接,形成控制潛在表示。

為了提取HDR圖中的光照線索,模型使用一個(gè)照明編碼器(一個(gè)緊湊的MLP-Transformer)處理HDR張量,然后將其與文本提示嵌入連接,得到最終的提示嵌入。

最后,模型還集成了3D幾何引導(dǎo)。它在IllumiCraft中擴(kuò)展了ControlNet,使用3D跟蹤視頻作為額外的條件信號(hào)。通過(guò)克隆預(yù)訓(xùn)練的32塊去噪Transformer的前4塊,形成一個(gè)輕量級(jí)的"條件DiT",模型能夠?qū)缀涡畔⒆⑷氲街鱀iT流中,從而在生成過(guò)程中考慮場(chǎng)景的三維結(jié)構(gòu)。

四、實(shí)驗(yàn)結(jié)果:IllumiCraft的實(shí)際表現(xiàn)

研究團(tuán)隊(duì)通過(guò)廣泛的實(shí)驗(yàn)評(píng)估了IllumiCraft的性能。他們收集了20,170個(gè)高質(zhì)量、免費(fèi)使用的視頻來(lái)訓(xùn)練模型,并與幾種最先進(jìn)的方法進(jìn)行了比較:IC-Light(通過(guò)獨(dú)立處理每一幀適應(yīng)視頻)、IC-Light + AnyV2V(其中IC-Light僅重光照第一幀,然后AnyV2V將這些變化傳播到后續(xù)幀)、RelightVid(原生支持前16幀)和Light-A-Video(使用與IllumiCraft相同的基礎(chǔ)模型Wan2.1 1.3B)。

在文本條件的視頻重光照任務(wù)中,IllumiCraft在所有指標(biāo)上都顯著優(yōu)于現(xiàn)有方法。與最強(qiáng)的基線相比,F(xiàn)VD(衡量生成視頻質(zhì)量的指標(biāo))降低了43%,同時(shí)改善了感知質(zhì)量、與文本描述的一致性和時(shí)間穩(wěn)定性。

在定性比較中,當(dāng)處理如"柔和光照"(兔子)或"黑暗陰影光照"(人物)等提示時(shí),IllumiCraft明顯優(yōu)于其他方法。IC-Light產(chǎn)生過(guò)度平滑的毛皮,AnyV2V引入顏色失真,而Light-A-Video則模糊細(xì)節(jié)并降低對(duì)比度。相比之下,IllumiCraft保留了精細(xì)紋理,捕獲了光照細(xì)微差別,確保了與提示的相關(guān)性,并生成了無(wú)閃爍、連貫的視頻。

在背景條件的視頻重光照任務(wù)中,IllumiCraft在短序列(16幀)和長(zhǎng)序列(49幀)上都實(shí)現(xiàn)了卓越的性能。例如,在49幀輸入上,與Light-A-Video相比,IllumiCraft的FVD降低了37%,同時(shí)改善了感知相似性、與提示的一致性和時(shí)間連貫性。在16幀序列上,它在每個(gè)指標(biāo)上都優(yōu)于RelightVid,進(jìn)一步提高了保真度和細(xì)節(jié)保留。

當(dāng)處理自然光照下的瀑布或散射日光下的胡須男子等場(chǎng)景時(shí),RelightVid會(huì)引入條帶并在瀑布上創(chuàng)建不自然的光照。IC-Light和AnyV2V保留了整體亮度,但模糊了水滴、頭發(fā)和衣物等細(xì)節(jié)。Light-A-Video則使色調(diào)去飽和,過(guò)度平滑水霧,并改變肖像背景,導(dǎo)致偽影。相比之下,IllumiCraft精確地遵循每個(gè)提示,實(shí)現(xiàn)了高保真度的瀑布和銳利的巖石邊緣,幀間一致性堅(jiān)如磐石,在兩種場(chǎng)景中都增強(qiáng)了細(xì)節(jié)保留和時(shí)間連貫性。

研究團(tuán)隊(duì)還進(jìn)行了消融實(shí)驗(yàn),評(píng)估了不同組件的影響。結(jié)果表明,將幾何引導(dǎo)與光照引導(dǎo)相結(jié)合能夠在所有指標(biāo)上帶來(lái)一致的改進(jìn),包括FVD降低約18%和更好的感知質(zhì)量、一致性和時(shí)間連貫性。這表明幾何提供了關(guān)鍵的空間上下文,補(bǔ)充了光照線索,幫助模型更好地理解表面結(jié)構(gòu)和光線交互。

五、應(yīng)用前景與局限性

IllumiCraft開創(chuàng)了視頻重光照和可控視頻生成的新可能。它可以用于電影后期制作,讓導(dǎo)演們?cè)谂臄z完成后調(diào)整光照效果;可以用于虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)中,創(chuàng)造更加逼真的虛擬環(huán)境;也可以用于視頻編輯軟件中,讓普通用戶能夠輕松調(diào)整視頻的光照氛圍。

然而,這項(xiàng)技術(shù)也存在一些局限性。首先,它的保真度依賴于基礎(chǔ)模型的生成先驗(yàn)。在這個(gè)先驗(yàn)缺乏準(zhǔn)確陰影線索或高頻細(xì)節(jié)的情況下,輸出可能會(huì)出現(xiàn)紋理模糊等偽影。

此外,通過(guò)增強(qiáng)光照真實(shí)感和時(shí)間連貫性,這種方法可能無(wú)意中增加了操作視頻的可信度,引發(fā)了圍繞深度偽造的倫理問(wèn)題。研究團(tuán)隊(duì)鼓勵(lì)未來(lái)的工作開發(fā)保障措施和檢測(cè)技術(shù),以減輕潛在的濫用。

最后,IllumiCraft目前在處理動(dòng)態(tài)遮擋的場(chǎng)景時(shí)仍有改進(jìn)空間。例如,當(dāng)一個(gè)物體穿過(guò)照明區(qū)域時(shí),部分光照可能被錯(cuò)誤地視為前景,導(dǎo)致光照外觀的不必要變化。研究團(tuán)隊(duì)計(jì)劃擴(kuò)展現(xiàn)有的視頻數(shù)據(jù)集,包括更多具有動(dòng)態(tài)遮擋和強(qiáng)方向光照的場(chǎng)景,以進(jìn)一步提高模型的魯棒性。

六、總結(jié)與展望

歸根結(jié)底,IllumiCraft代表了視頻重光照技術(shù)的一個(gè)重要進(jìn)步。通過(guò)將幾何和光照引導(dǎo)統(tǒng)一到單一擴(kuò)散框架中,它解決了以前方法面臨的關(guān)鍵挑戰(zhàn),生成了視覺(jué)上令人印象深刻且時(shí)間上連貫的重光照視頻。

這項(xiàng)研究不僅提供了一個(gè)強(qiáng)大的技術(shù)解決方案,還構(gòu)建了一個(gè)高質(zhì)量的視頻數(shù)據(jù)集,包括20,170對(duì)視頻對(duì),這些視頻對(duì)具有配對(duì)的原始視頻和同步的重光照視頻、HDR圖和3D跟蹤視頻。這個(gè)數(shù)據(jù)集不僅支持視頻重光照,還可以作為更廣泛的可控視頻生成任務(wù)的寶貴資源。

對(duì)于普通用戶來(lái)說(shuō),IllumiCraft意味著在不久的將來(lái),我們可能能夠像調(diào)整照片一樣輕松調(diào)整視頻的光照效果,為我們的視頻內(nèi)容增添專業(yè)級(jí)的視覺(jué)效果。對(duì)于專業(yè)人士,它提供了一種更加精確和高效的方式來(lái)控制視頻制作過(guò)程中的光照效果,可能會(huì)改變電影、廣告和游戲制作的工作流程。

隨著這項(xiàng)技術(shù)的進(jìn)一步發(fā)展,我們可以期待看到更多創(chuàng)新的應(yīng)用場(chǎng)景出現(xiàn),以及更加逼真和富有表現(xiàn)力的視頻內(nèi)容。同時(shí),研究團(tuán)隊(duì)也強(qiáng)調(diào)了開發(fā)負(fù)責(zé)任使用這些技術(shù)的方法的重要性,以確保這些進(jìn)步能夠造福社會(huì)而不被濫用。

如果你對(duì)這項(xiàng)研究感興趣,可以通過(guò)訪問(wèn)項(xiàng)目頁(yè)面(https://yuanze-lin.me/IllumiCraft_page)了解更多信息,或者查閱完整的研究論文。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-