這項(xiàng)由清華大學(xué)王涵洋、劉方甫、池嘉威和段躍齊(通訊作者)聯(lián)合完成的開(kāi)創(chuàng)性研究于2025年4月發(fā)表在計(jì)算機(jī)視覺(jué)領(lǐng)域頂級(jí)會(huì)議論文集中,論文編號(hào)為arXiv:2504.01956v2。對(duì)這項(xiàng)工作感興趣的讀者可以通過(guò)項(xiàng)目主頁(yè)https://hanyang21.github.io/VideoScene獲取更多詳細(xì)信息和代碼實(shí)現(xiàn)。
在數(shù)字時(shí)代,從照片重建三維場(chǎng)景一直是計(jì)算機(jī)視覺(jué)領(lǐng)域的一個(gè)核心挑戰(zhàn)。就像考古學(xué)家試圖從幾塊碎片拼湊出完整的古代文物一樣,計(jì)算機(jī)科學(xué)家們一直在努力從有限的二維圖像中還原出完整的三維世界。傳統(tǒng)的方法就像是一個(gè)挑剔的工匠,需要數(shù)百?gòu)埐煌嵌鹊恼掌拍芫_地重建一個(gè)場(chǎng)景,這在實(shí)際應(yīng)用中往往是不現(xiàn)實(shí)的。
清華大學(xué)的研究團(tuán)隊(duì)提出了一個(gè)名為VideoScene的革命性解決方案,它能夠僅從兩張普通照片就生成完整的三維場(chǎng)景視頻。這就好比一個(gè)天才的偵探,僅憑現(xiàn)場(chǎng)的兩個(gè)線索就能重構(gòu)整個(gè)案發(fā)過(guò)程。更令人驚嘆的是,整個(gè)過(guò)程只需要一步就能完成,而傳統(tǒng)方法通常需要50個(gè)步驟,就像把一個(gè)需要50道工序的復(fù)雜制造過(guò)程壓縮成了一道閃電般的操作。
這項(xiàng)研究的核心創(chuàng)新在于將視頻生成技術(shù)與三維重建技術(shù)巧妙地結(jié)合在一起。研究團(tuán)隊(duì)發(fā)現(xiàn),現(xiàn)有的視頻生成模型雖然能夠創(chuàng)造出視覺(jué)上令人信服的畫(huà)面,但在三維一致性方面存在嚴(yán)重問(wèn)題,就像一個(gè)會(huì)畫(huà)畫(huà)但不懂透視的藝術(shù)家,畫(huà)出的作品雖然好看,但在立體感上總是有些扭曲。
為了解決這個(gè)問(wèn)題,研究團(tuán)隊(duì)開(kāi)發(fā)了一種名為"三維感知跨越流蒸餾"的技術(shù)。這個(gè)聽(tīng)起來(lái)復(fù)雜的名詞實(shí)際上描述了一個(gè)相當(dāng)巧妙的過(guò)程。傳統(tǒng)的視頻生成就像燒開(kāi)水一樣,需要從完全隨機(jī)的"噪聲"開(kāi)始,逐步去除噪聲直到得到清晰的圖像,這個(gè)過(guò)程既緩慢又不穩(wěn)定。而VideoScene采用的方法更像是從溫水開(kāi)始燒制,大大縮短了處理時(shí)間。
具體來(lái)說(shuō),研究團(tuán)隊(duì)首先使用一個(gè)快速的三維重建模型(MVSplat)從兩張輸入圖片生成一個(gè)粗糙但具有正確三維結(jié)構(gòu)的場(chǎng)景。這就像是先用積木搭建出建筑的基本框架,雖然細(xì)節(jié)不夠精美,但整體結(jié)構(gòu)是正確的。然后,他們使用這個(gè)粗糙的三維場(chǎng)景沿著預(yù)設(shè)的相機(jī)路徑渲染出一系列視頻幀,這些幀就像是建筑的草圖,為后續(xù)的精細(xì)化處理提供了可靠的指導(dǎo)。
在這個(gè)基礎(chǔ)上,研究團(tuán)隊(duì)引入了一個(gè)"動(dòng)態(tài)去噪策略網(wǎng)絡(luò)",這個(gè)網(wǎng)絡(luò)的作用就像是一個(gè)經(jīng)驗(yàn)豐富的質(zhì)量檢查員,能夠智能地判斷在每種情況下需要多少"噪聲處理"才能得到最佳結(jié)果。當(dāng)輸入的視頻質(zhì)量較高時(shí),這個(gè)網(wǎng)絡(luò)會(huì)選擇較溫和的處理方式來(lái)保持細(xì)節(jié);當(dāng)遇到質(zhì)量較差的輸入時(shí),它會(huì)采用更積極的處理策略來(lái)修復(fù)問(wèn)題。
這種自適應(yīng)的處理策略是通過(guò)一種叫做"上下文老虎機(jī)算法"的機(jī)器學(xué)習(xí)技術(shù)實(shí)現(xiàn)的。這個(gè)有趣的名字來(lái)源于賭場(chǎng)中的老虎機(jī),但在這里它指的是一種智能決策機(jī)制。就像一個(gè)經(jīng)驗(yàn)豐富的賭徒知道在什么情況下選擇哪臺(tái)老虎機(jī)能獲得最大收益一樣,這個(gè)算法能夠根據(jù)當(dāng)前的視頻特征選擇最合適的處理參數(shù)。
研究團(tuán)隊(duì)在多個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集上進(jìn)行了廣泛的實(shí)驗(yàn)驗(yàn)證。他們使用了包括RealEstate10K在內(nèi)的大規(guī)模真實(shí)場(chǎng)景數(shù)據(jù)集,這個(gè)數(shù)據(jù)集包含了從YouTube下載的67,477個(gè)訓(xùn)練場(chǎng)景和7,289個(gè)測(cè)試場(chǎng)景。為了確保測(cè)試的挑戰(zhàn)性,研究人員特別構(gòu)建了一個(gè)包含120個(gè)具有大視角變化場(chǎng)景的基準(zhǔn)測(cè)試集。
實(shí)驗(yàn)結(jié)果令人印象深刻。在視頻質(zhì)量評(píng)估方面,VideoScene在關(guān)鍵指標(biāo)上顯著超越了現(xiàn)有方法。以Frechet Video Distance(FVD)這個(gè)衡量視頻質(zhì)量的重要指標(biāo)為例,傳統(tǒng)方法的得分通常在400到1200之間,而VideoScene僅需一步就達(dá)到了103.42分,這個(gè)數(shù)字甚至比其他方法使用50步處理得到的結(jié)果還要好。這就像是一個(gè)新手廚師僅用一道工序就做出了比資深廚師用五十道工序還要美味的菜肴。
在美學(xué)質(zhì)量評(píng)估中,VideoScene同樣表現(xiàn)出色。使用LAION美學(xué)預(yù)測(cè)器進(jìn)行評(píng)估,該方法在視覺(jué)吸引力、色彩和諧度以及藝術(shù)質(zhì)量等方面都獲得了最高分?jǐn)?shù)。更重要的是,在主體一致性和背景一致性方面,VideoScene展現(xiàn)出了卓越的穩(wěn)定性,這意味著生成的視頻中的物體和場(chǎng)景在不同幀之間保持了良好的連貫性,避免了傳統(tǒng)方法常見(jiàn)的閃爍、跳躍或形變問(wèn)題。
跨數(shù)據(jù)集的泛化能力測(cè)試進(jìn)一步證明了VideoScene的實(shí)用性。研究團(tuán)隊(duì)在RealEstate10K數(shù)據(jù)集上訓(xùn)練模型,然后在完全不同的ACID數(shù)據(jù)集上進(jìn)行測(cè)試。結(jié)果顯示,即使面對(duì)訓(xùn)練時(shí)從未見(jiàn)過(guò)的場(chǎng)景類(lèi)型,VideoScene仍然能夠生成高質(zhì)量的結(jié)果,這種泛化能力就像是一個(gè)在城市環(huán)境中訓(xùn)練的司機(jī)突然被放到鄉(xiāng)村道路上仍能熟練駕駛一樣令人驚嘆。
為了驗(yàn)證生成視頻的幾何一致性,研究團(tuán)隊(duì)還進(jìn)行了結(jié)構(gòu)匹配比較實(shí)驗(yàn)。他們從生成的視頻中提取幀對(duì),使用特征匹配算法尋找對(duì)應(yīng)點(diǎn),然后應(yīng)用RANSAC算法過(guò)濾錯(cuò)誤匹配。結(jié)果顯示,VideoScene生成的視頻幀之間具有最高數(shù)量的正確匹配點(diǎn),這表明其在幾何一致性方面的優(yōu)越性能。
在實(shí)際應(yīng)用驗(yàn)證方面,研究團(tuán)隊(duì)展示了VideoScene在視頻到三維重建任務(wù)中的潛力。他們使用VideoScene生成的中間視頻幀,配合InstantSplat等三維重建方法,在Mip-NeRF 360和Tanks-and-Temples數(shù)據(jù)集上進(jìn)行了測(cè)試。結(jié)果表明,使用VideoScene生成的視頻進(jìn)行三維重建的效果顯著優(yōu)于直接使用稀疏視圖的方法,在PSNR、SSIM和LPIPS等關(guān)鍵指標(biāo)上都取得了明顯提升。
研究團(tuán)隊(duì)還進(jìn)行了詳細(xì)的消融研究,系統(tǒng)地驗(yàn)證了每個(gè)組件的貢獻(xiàn)。他們發(fā)現(xiàn),如果沒(méi)有三維感知的跨越流蒸餾策略,生成的視頻會(huì)出現(xiàn)嚴(yán)重的不一致性,導(dǎo)致模糊和偽影。而沒(méi)有動(dòng)態(tài)去噪策略網(wǎng)絡(luò),雖然結(jié)果仍然可用,但在細(xì)節(jié)處理和空間失真校正方面會(huì)有所不足。這些發(fā)現(xiàn)證實(shí)了VideoScene設(shè)計(jì)的每個(gè)組件都是必要的。
從技術(shù)實(shí)現(xiàn)的角度來(lái)看,VideoScene基于預(yù)訓(xùn)練的CogVideoX-5B-I2V模型構(gòu)建,該模型在720×480分辨上運(yùn)行。整個(gè)訓(xùn)練過(guò)程分為兩個(gè)階段:首先進(jìn)行900步的注意力層微調(diào)作為預(yù)熱,然后進(jìn)行20,000次迭代的蒸餾訓(xùn)練。訓(xùn)練在8塊NVIDIA A100 80GB GPU上進(jìn)行,總共花費(fèi)兩天時(shí)間。值得注意的是,在推理階段,VideoScene的速度優(yōu)勢(shì)極為明顯:從三維高斯前向模型的渲染只需約0.5秒,而一步蒸餾視頻生成大約需要2.5秒,總共不到3秒就能完成整個(gè)過(guò)程。
動(dòng)態(tài)去噪策略網(wǎng)絡(luò)采用了相對(duì)簡(jiǎn)單的CNN架構(gòu),包含4層二維卷積以及相應(yīng)的歸一化和激活層。由于策略網(wǎng)絡(luò)的參數(shù)量遠(yuǎn)小于視頻擴(kuò)散模型,它只在前4,000步訓(xùn)練中參與完整訓(xùn)練,以防止過(guò)擬合。這種設(shè)計(jì)確保了整個(gè)系統(tǒng)的效率和穩(wěn)定性。
用戶(hù)研究進(jìn)一步驗(yàn)證了VideoScene的實(shí)用價(jià)值。研究團(tuán)隊(duì)邀請(qǐng)30名志愿者從布局穩(wěn)定性、流暢度、視覺(jué)真實(shí)感和整體質(zhì)量四個(gè)維度對(duì)不同方法進(jìn)行評(píng)估。結(jié)果顯示,用戶(hù)在所有維度上都顯著偏好VideoScene的結(jié)果,特別是在視覺(jué)真實(shí)感方面,VideoScene獲得了9.52分(滿(mǎn)分10分)的高分,遠(yuǎn)超其他方法。
在實(shí)際效率對(duì)比中,VideoScene展現(xiàn)出了壓倒性的優(yōu)勢(shì)。傳統(tǒng)的Stable Video Diffusion需要933.89秒來(lái)生成25幀視頻,DynamiCrafter需要21.14秒生成16幀,CogVideoX-5B需要179.45秒生成49幀,而VideoScene僅需2.98秒就能生成49幀高質(zhì)量視頻。這種效率提升不僅僅是量的變化,更代表了從實(shí)驗(yàn)室技術(shù)向?qū)嵱霉ぞ叩馁|(zhì)的飛躍。
當(dāng)然,VideoScene也有其局限性。研究團(tuán)隊(duì)誠(chéng)實(shí)地指出了一些失敗案例,比如當(dāng)輸入的兩張圖片在語(yǔ)義上存在顯著差異時(shí)(例如從室外到室內(nèi),中間有關(guān)閉的門(mén)),生成的視頻可能會(huì)產(chǎn)生不合理的過(guò)渡,如直接穿過(guò)關(guān)閉的門(mén)而不是繞過(guò)去。這提醒我們,盡管技術(shù)已經(jīng)相當(dāng)先進(jìn),但在處理復(fù)雜的語(yǔ)義理解和空間推理方面仍有改進(jìn)空間。
從更廣闊的視角來(lái)看,VideoScene的意義遠(yuǎn)不止于技術(shù)本身。它代表了計(jì)算機(jī)視覺(jué)領(lǐng)域從"需要大量數(shù)據(jù)"向"智能利用有限數(shù)據(jù)"的重要轉(zhuǎn)變。在傳統(tǒng)方法中,三維重建就像是需要大量證人證言的法庭調(diào)查,而VideoScene更像是一個(gè)敏銳的偵探,能夠從有限的線索中推斷出完整的真相。
這項(xiàng)技術(shù)的潛在應(yīng)用前景非常廣闊。在虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)領(lǐng)域,用戶(hù)只需用手機(jī)拍攝兩張照片就能快速創(chuàng)建沉浸式的三維環(huán)境。在電影制作和游戲開(kāi)發(fā)中,創(chuàng)作者可以大大降低場(chǎng)景建模的成本和時(shí)間。在在線購(gòu)物和房地產(chǎn)展示中,商家可以輕松為產(chǎn)品或房屋創(chuàng)建三維展示。甚至在教育領(lǐng)域,教師也可以快速將靜態(tài)圖片轉(zhuǎn)換為動(dòng)態(tài)的三維教學(xué)材料。
VideoScene的成功也體現(xiàn)了現(xiàn)代人工智能研究的一個(gè)重要趨勢(shì):不同技術(shù)領(lǐng)域的深度融合。這項(xiàng)工作巧妙地結(jié)合了視頻生成、三維重建、一致性建模和強(qiáng)化學(xué)習(xí)等多個(gè)領(lǐng)域的前沿技術(shù),創(chuàng)造出了超越各部分簡(jiǎn)單相加的協(xié)同效應(yīng)。這種跨領(lǐng)域的創(chuàng)新思路為未來(lái)的研究提供了寶貴的啟示。
從實(shí)際部署的角度來(lái)看,VideoScene在計(jì)算資源需求方面也表現(xiàn)出了良好的平衡性。雖然訓(xùn)練階段需要相當(dāng)?shù)挠?jì)算資源(約76GB顯存),但推理階段的需求相對(duì)溫和,這使得該技術(shù)有望在消費(fèi)級(jí)設(shè)備上得到應(yīng)用。研究團(tuán)隊(duì)還提供了完整的開(kāi)源實(shí)現(xiàn),這將大大促進(jìn)該技術(shù)的普及和進(jìn)一步發(fā)展。
說(shuō)到底,VideoScene不僅僅是一個(gè)技術(shù)突破,更是人工智能幫助我們更好地理解和重現(xiàn)現(xiàn)實(shí)世界的一個(gè)重要里程碑。它讓我們看到了一個(gè)未來(lái):在這個(gè)未來(lái)中,三維內(nèi)容的創(chuàng)建將變得像拍照一樣簡(jiǎn)單,而虛擬世界和現(xiàn)實(shí)世界之間的界限將變得越來(lái)越模糊。歸根結(jié)底,這項(xiàng)技術(shù)代表了人類(lèi)在數(shù)字化重現(xiàn)現(xiàn)實(shí)世界方面邁出的重要一步,它不僅推動(dòng)了科學(xué)技術(shù)的進(jìn)步,也為我們打開(kāi)了無(wú)限可能的創(chuàng)意空間。
對(duì)于普通用戶(hù)而言,這意味著在不久的將來(lái),我們可能只需要用手機(jī)拍攝幾張照片,就能創(chuàng)建出專(zhuān)業(yè)級(jí)別的三維內(nèi)容。而對(duì)于研究者和開(kāi)發(fā)者來(lái)說(shuō),VideoScene提供了一個(gè)強(qiáng)大的工具和全新的研究方向,將推動(dòng)整個(gè)計(jì)算機(jī)視覺(jué)和人工智能領(lǐng)域的快速發(fā)展。
Q&A
Q1:VideoScene技術(shù)有什么獨(dú)特之處?它與傳統(tǒng)方法有何不同? A:VideoScene最大的突破是僅需一步就能從兩張照片生成完整的3D場(chǎng)景視頻,而傳統(tǒng)方法通常需要50個(gè)步驟和數(shù)百?gòu)堈掌KY(jié)合了3D重建和視頻生成技術(shù),像一個(gè)聰明的偵探能從有限線索重構(gòu)完整場(chǎng)景,速度比傳統(tǒng)方法快50倍以上。
Q2:普通人能使用VideoScene技術(shù)嗎?有什么實(shí)際應(yīng)用? A:雖然目前還是研究階段的技術(shù),但其潛在應(yīng)用非常廣泛。未來(lái)普通用戶(hù)可能只需用手機(jī)拍兩張照片就能創(chuàng)建VR環(huán)境、制作3D展示或生成立體教學(xué)材料。在電商、房地產(chǎn)、游戲開(kāi)發(fā)和教育等領(lǐng)域都有巨大應(yīng)用前景。
Q3:VideoScene會(huì)不會(huì)有什么局限性或失敗的情況? A:是的,VideoScene在處理語(yǔ)義差異較大的場(chǎng)景時(shí)可能出現(xiàn)問(wèn)題,比如兩張圖片分別是室內(nèi)外場(chǎng)景且中間有關(guān)閉的門(mén)時(shí),可能會(huì)生成不合理的過(guò)渡效果。不過(guò)研究團(tuán)隊(duì)正在持續(xù)改進(jìn)這些問(wèn)題,整體效果已經(jīng)非常出色。
好文章,需要你的鼓勵(lì)
新加坡國(guó)立大學(xué)研究團(tuán)隊(duì)開(kāi)發(fā)了SPIRAL框架,通過(guò)讓AI與自己對(duì)弈零和游戲來(lái)提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡(jiǎn)單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無(wú)需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開(kāi)發(fā)的GIGA-ToF技術(shù)通過(guò)融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問(wèn)題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺(jué)解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過(guò)對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺(jué)語(yǔ)言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無(wú)法有效利用視覺(jué)信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過(guò)動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語(yǔ)言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。