這項(xiàng)由上海AI實(shí)驗(yàn)室與香港中文大學(xué)、香港大學(xué)、NVIDIA聯(lián)合完成的研究發(fā)表于2025年7月,論文題為"4DSloMo: 4D Reconstruction for High Speed Scene with Asynchronous Capture"。有興趣深入了解的讀者可以通過arXiv:2507.05163訪問完整論文,也可訪問項(xiàng)目網(wǎng)站https://openimaginglab.github.io/4DSloMo/獲取更多信息。
當(dāng)我們看體育比賽時,那些令人嘆為觀止的超慢鏡頭回放總是讓人印象深刻。一個舞者旋轉(zhuǎn)時裙擺的每一個褶皺變化,一個籃球入網(wǎng)時的每一個細(xì)微動作,這些都需要專業(yè)的高速攝影設(shè)備才能捕捉。然而,這些設(shè)備往往價格昂貴,操作復(fù)雜,普通人很難接觸到。現(xiàn)在,研究團(tuán)隊(duì)找到了一個巧妙的解決方案,就像魔術(shù)師變魔術(shù)一樣,用普通的相機(jī)就能實(shí)現(xiàn)高速攝影的效果。
一、傳統(tǒng)拍攝的困境:就像用慢速相機(jī)拍飛鳥
要理解這項(xiàng)研究的重要性,我們先來看看傳統(tǒng)4D重建技術(shù)面臨的問題。4D重建簡單來說,就是不僅要拍出物體的立體形狀,還要記錄它隨時間的變化過程,就像給一個運(yùn)動的物體拍攝全方位的"時光相冊"。
傳統(tǒng)的4D拍攝系統(tǒng)就像一群攝影師站成一圈,同時按下快門拍照。雖然這樣能從不同角度記錄同一時刻的畫面,但存在一個根本性問題:當(dāng)被拍攝的物體運(yùn)動很快時,普通相機(jī)的拍攝速度跟不上。就好比你想用每秒只能拍25張照片的相機(jī)去記錄蜂鳥的翅膀振動,結(jié)果只能拍到模糊的殘影。
目前大多數(shù)4D拍攝系統(tǒng)的幀率都不超過30FPS(每秒30幀),有些甚至只有15FPS。這個速度對于拍攝慢動作還可以,但面對快速運(yùn)動時就顯得力不從心。比如一塊布料在風(fēng)中飄動,或者舞者快速旋轉(zhuǎn)的動作,用這樣的拍攝頻率很難捕捉到中間的運(yùn)動細(xì)節(jié),最終重建出的4D模型會出現(xiàn)明顯的跳躍和失真。
更要命的是,提升拍攝頻率需要更昂貴的專業(yè)設(shè)備,不僅增加成本,還會大大增加數(shù)據(jù)傳輸?shù)呢?fù)擔(dān)。這就像為了拍好照片而買一堆頂級相機(jī),既不現(xiàn)實(shí)也不經(jīng)濟(jì)。
二、巧妙的異步拍攝方案:讓相機(jī)"接力"工作
面對這個難題,研究團(tuán)隊(duì)想出了一個絕妙的辦法,就像指揮一個交響樂團(tuán)一樣,讓不同的相機(jī)在不同的時間開始工作,而不是所有相機(jī)同時開始。
在傳統(tǒng)同步拍攝中,假設(shè)有8臺相機(jī)圍成一圈,它們會在同一時刻"咔嚓"一聲同時拍照,然后等到下一個時間點(diǎn)再同時拍照。這樣雖然每個時刻都有8個不同角度的照片,但時間間隔較大,快速運(yùn)動的中間過程就丟失了。
而在新的異步拍攝方案中,研究團(tuán)隊(duì)將這8臺相機(jī)分成4組,每組2臺。第一組在0秒開始拍攝,第二組在0.01秒開始拍攝,第三組在0.02秒開始拍攝,第四組在0.03秒開始拍攝。這樣,雖然每個時刻只有2臺相機(jī)在工作,但整個系統(tǒng)的有效拍攝頻率從原來的25FPS提升到了100FPS,相當(dāng)于把時間分辨率提高了4倍。
這就像原本只有一個人在記錄運(yùn)動員的動作,現(xiàn)在有4個人輪流記錄,雖然每個人看到的角度有限,但合在一起就能還原出更加連續(xù)流暢的運(yùn)動過程。通過這種巧妙的時間錯位安排,研究團(tuán)隊(duì)在不增加任何硬件成本的情況下,顯著提升了系統(tǒng)捕捉快速運(yùn)動的能力。
實(shí)際實(shí)驗(yàn)中,研究團(tuán)隊(duì)使用了12臺25FPS的普通相機(jī),將它們分成4組或8組,成功實(shí)現(xiàn)了100FPS甚至200FPS的等效拍攝效果。相機(jī)被安排在三個不同高度,每個高度均勻分布4臺相機(jī),相互間隔約22.5度,形成一個完整的拍攝網(wǎng)絡(luò)。
三、解決稀疏視角問題:用AI修復(fù)"缺失"的畫面
異步拍攝雖然解決了時間分辨率的問題,但也帶來了新的挑戰(zhàn):在任何給定時刻,可用的相機(jī)數(shù)量減少了,這會導(dǎo)致某些角度的信息缺失,就像拼圖少了幾塊一樣。
當(dāng)系統(tǒng)試圖根據(jù)這些"不完整"的信息重建4D模型時,會出現(xiàn)一些奇怪的"浮動偽影",這些偽影看起來像是懸浮在空中的噪點(diǎn)或錯誤的幾何結(jié)構(gòu)。這個問題在3D重建領(lǐng)域被稱為稀疏視角重建難題。
為了解決這個問題,研究團(tuán)隊(duì)開發(fā)了一個基于視頻擴(kuò)散模型的"修復(fù)工具"。這個工具的工作原理有點(diǎn)像一個經(jīng)驗(yàn)豐富的修復(fù)師,能夠根據(jù)已有的畫面信息,智能地"猜測"和補(bǔ)全缺失的部分。
首先,研究團(tuán)隊(duì)需要訓(xùn)練這個修復(fù)工具。他們巧妙地構(gòu)造了訓(xùn)練數(shù)據(jù):從完整的4D視頻序列中故意刪除一些幀,模擬異步拍攝的情況,然后用這些"有缺陷"的數(shù)據(jù)訓(xùn)練4D高斯模型。這個過程產(chǎn)生的渲染結(jié)果自然包含各種偽影,研究團(tuán)隊(duì)將這些有問題的視頻與原始完美視頻配對,形成了訓(xùn)練數(shù)據(jù)。
這個修復(fù)模型基于視頻擴(kuò)散技術(shù)構(gòu)建,而不是簡單的圖像修復(fù)。這一點(diǎn)很關(guān)鍵,因?yàn)橐曨l修復(fù)能夠保持時間上的連續(xù)性,避免相鄰幀之間出現(xiàn)突兀的變化。就像修復(fù)一部老電影,不僅要讓每一幀看起來清晰,還要確保整個播放過程流暢自然。
令人驚訝的是,僅用750對訓(xùn)練樣本,這個修復(fù)模型就展現(xiàn)出了強(qiáng)大的泛化能力,能夠處理各種不同場景的偽影問題。這得益于視頻擴(kuò)散模型本身強(qiáng)大的時空先驗(yàn)知識,就像一個見多識廣的專家,即使面對新情況也能做出合理的判斷。
四、完整的重建流程:從拍攝到成果的全過程
整個4D重建過程就像一個精心設(shè)計的生產(chǎn)流水線。首先,異步拍攝系統(tǒng)收集到時間密集但空間稀疏的多視角視頻數(shù)據(jù)。這些原始數(shù)據(jù)被輸入到4D高斯模型中進(jìn)行初步重建,這個階段會產(chǎn)生一個包含偽影的粗糙版本。
接下來,修復(fù)模型登場。對于每個訓(xùn)練視角,系統(tǒng)都會渲染一個高幀率的視頻,這個視頻覆蓋了所有相機(jī)觀察到的時間點(diǎn)。雖然這些初始渲染包含浮動偽影,但它們?yōu)樾迯?fù)模型提供了重要的空間視角信息和時間運(yùn)動信息。
修復(fù)模型將這些有問題的視頻轉(zhuǎn)換到潛在空間進(jìn)行處理,然后生成清晰、銳利的修復(fù)版本。這些修復(fù)后的視頻隨后被用來監(jiān)督4D高斯模型的進(jìn)一步優(yōu)化,通過結(jié)合L1損失和感知損失,確保重建結(jié)果既在像素級別準(zhǔn)確,又在視覺感知上自然。
整個訓(xùn)練過程分為兩個階段:前7000次迭代進(jìn)行初始優(yōu)化,后7000次迭代結(jié)合修復(fù)模型的指導(dǎo)進(jìn)行精細(xì)化調(diào)整。這種兩階段策略確保了模型能夠充分利用異步拍攝的時間信息,同時最大化地減少稀疏視角帶來的重建偽影。
五、實(shí)驗(yàn)驗(yàn)證:從合成數(shù)據(jù)到真實(shí)場景
為了全面驗(yàn)證方法的有效性,研究團(tuán)隊(duì)設(shè)計了多層次的實(shí)驗(yàn)方案。在合成數(shù)據(jù)測試中,他們使用了DNA-Rendering和Neural3DV兩個廣泛認(rèn)可的4D數(shù)據(jù)集。為了模擬快速運(yùn)動和異步拍攝的條件,研究團(tuán)隊(duì)對這些數(shù)據(jù)集進(jìn)行了時間下采樣,將DNA-Rendering的幀率從15FPS降到約4FPS,將Neural3DV的幀率從30FPS降到約2.5FPS。
在這些極具挑戰(zhàn)性的條件下,新方法在所有評估指標(biāo)上都顯著超越了現(xiàn)有技術(shù)。與K-Planes、4DGS、GS4D等先進(jìn)方法相比,新方法在PSNR(峰值信噪比)、SSIM(結(jié)構(gòu)相似性)和LPIPS(感知損失)等關(guān)鍵指標(biāo)上都取得了明顯優(yōu)勢。例如,在DNA-Rendering數(shù)據(jù)集上,PSNR從24.75提升到26.76,LPIPS從0.337降低到0.293,這些數(shù)字背后代表著顯著的視覺質(zhì)量改善。
更重要的是真實(shí)場景的測試。由于這是首個采用異步拍攝策略的4D重建研究,現(xiàn)有的數(shù)據(jù)集都沒有相應(yīng)的真實(shí)拍攝數(shù)據(jù)。因此,研究團(tuán)隊(duì)專門構(gòu)建了一個包含12臺同步相機(jī)的拍攝系統(tǒng),通過手動引入觸發(fā)延遲來實(shí)現(xiàn)異步拍攝。
他們拍攝了12個包含快速復(fù)雜動態(tài)場景的序列,包括舞蹈、體育活動和快速物體交互等。每個視頻的分辨率達(dá)到2048×2248像素,涵蓋了各種非線性大幅度運(yùn)動場景。在這些真實(shí)拍攝的數(shù)據(jù)上,新方法同樣展現(xiàn)出了優(yōu)異的性能,能夠準(zhǔn)確重建快速運(yùn)動區(qū)域,恢復(fù)復(fù)雜的紋理細(xì)節(jié)。
六、深入分析:各個組件的貢獻(xiàn)
通過詳細(xì)的消融實(shí)驗(yàn),研究團(tuán)隊(duì)分析了異步拍攝和修復(fù)模型各自的貢獻(xiàn)。結(jié)果顯示,單獨(dú)使用異步拍攝就能帶來顯著的改善,PSNR從24.75提升到26.23,證明了增加時間分辨率對于處理快速運(yùn)動的重要性。而在異步拍攝的基礎(chǔ)上加入修復(fù)模型,性能進(jìn)一步提升,PSNR達(dá)到26.76,SSIM從0.831提高到0.845。
研究團(tuán)隊(duì)還對比了視頻修復(fù)與圖像修復(fù)的效果。結(jié)果表明,雖然圖像擴(kuò)散模型在單幀質(zhì)量上可能更出色,但視頻修復(fù)模型在保持時間連續(xù)性方面具有明顯優(yōu)勢。在相鄰幀之間,視頻修復(fù)能夠保持紋理的一致性,而圖像修復(fù)往往會引入隨機(jī)變化,導(dǎo)致時間上的不連貫。
為了進(jìn)一步提升性能,研究團(tuán)隊(duì)還探索了逐場景微調(diào)的策略。通過采用留一法構(gòu)造噪聲-清潔視頻對,然后對修復(fù)模型進(jìn)行少量迭代的微調(diào),可以讓模型更好地適應(yīng)特定場景的特點(diǎn)。這種策略在處理復(fù)雜場景時表現(xiàn)尤為突出,能夠恢復(fù)更精細(xì)的服裝細(xì)節(jié)和紋理信息。
七、技術(shù)創(chuàng)新的深層意義
這項(xiàng)研究的創(chuàng)新不僅僅在于技術(shù)層面,更在于它展示了一種全新的問題解決思路。傳統(tǒng)上,提高拍攝質(zhì)量往往意味著更昂貴的設(shè)備和更復(fù)雜的系統(tǒng)。而這項(xiàng)研究證明了,通過巧妙的算法設(shè)計和智能的數(shù)據(jù)處理,可以在不增加硬件成本的情況下顯著提升系統(tǒng)性能。
異步拍攝策略的核心思想是時間和空間的權(quán)衡。通過犧牲每個時刻的空間采樣密度,換取更高的時間分辨率,然后用AI技術(shù)來彌補(bǔ)空間信息的不足。這種設(shè)計哲學(xué)對于許多其他計算攝影和計算機(jī)視覺任務(wù)都具有啟發(fā)意義。
修復(fù)模型的設(shè)計也體現(xiàn)了深度學(xué)習(xí)技術(shù)的成熟。通過合理構(gòu)造訓(xùn)練數(shù)據(jù)和精心設(shè)計損失函數(shù),一個相對簡單的模型就能處理復(fù)雜的重建偽影問題。特別是視頻擴(kuò)散模型的應(yīng)用,展現(xiàn)了生成式AI在解決傳統(tǒng)計算機(jī)視覺問題上的巨大潛力。
從數(shù)據(jù)效率的角度來看,僅用750個訓(xùn)練樣本就能達(dá)到良好的泛化效果,這在深度學(xué)習(xí)領(lǐng)域是相當(dāng)罕見的。這得益于預(yù)訓(xùn)練模型強(qiáng)大的先驗(yàn)知識和精心設(shè)計的微調(diào)策略,為資源受限環(huán)境下的AI應(yīng)用提供了有價值的參考。
八、實(shí)際應(yīng)用前景與挑戰(zhàn)
這項(xiàng)技術(shù)的應(yīng)用前景非常廣闊。在體育分析領(lǐng)域,教練可以用普通相機(jī)陣列來分析運(yùn)動員的技術(shù)動作,獲得以前只有專業(yè)高速攝影設(shè)備才能提供的詳細(xì)信息。在生物力學(xué)研究中,研究人員可以更經(jīng)濟(jì)地進(jìn)行人體運(yùn)動分析,為康復(fù)治療和運(yùn)動損傷預(yù)防提供支持。
在娛樂產(chǎn)業(yè)中,這項(xiàng)技術(shù)為VR/AR內(nèi)容制作打開了新的可能性。制作團(tuán)隊(duì)可以用相對低成本的設(shè)備捕捉高質(zhì)量的動態(tài)表演,創(chuàng)造更加逼真的數(shù)字人物和虛擬場景。對于自動駕駛和機(jī)器人技術(shù),精確的高速4D重建能力有助于更好地理解和預(yù)測動態(tài)環(huán)境中的物體行為。
然而,技術(shù)也面臨一些挑戰(zhàn)。當(dāng)前方法仍然依賴于預(yù)訓(xùn)練擴(kuò)散模型的質(zhì)量,在處理某些精細(xì)紋理時可能會有細(xì)節(jié)損失。此外,逐場景微調(diào)雖然能提升性能,但會增加計算成本和處理時間,這在實(shí)時應(yīng)用中可能成為限制因素。
系統(tǒng)的可擴(kuò)展性也是一個考慮因素。雖然12臺相機(jī)的配置已經(jīng)相當(dāng)實(shí)用,但在更大規(guī)模的場景或需要更高時間分辨率的應(yīng)用中,如何平衡相機(jī)數(shù)量、時間分組和重建質(zhì)量仍需要進(jìn)一步研究。
九、與現(xiàn)有技術(shù)的對比優(yōu)勢
相比于傳統(tǒng)的高速攝影方案,這項(xiàng)技術(shù)的最大優(yōu)勢在于成本效益。專業(yè)的高速相機(jī)往往價格昂貴,而且數(shù)據(jù)存儲和傳輸?shù)囊蠛芨摺P路椒ㄊ褂闷胀ㄏ鄼C(jī)就能達(dá)到類似效果,大大降低了技術(shù)門檻。
與其他4D重建方法相比,這項(xiàng)技術(shù)在處理大幅度運(yùn)動方面具有明顯優(yōu)勢。傳統(tǒng)方法在面對快速變化時往往會產(chǎn)生運(yùn)動模糊或時間不連貫的問題,而異步拍攝方案通過提高時間采樣率,從根本上緩解了這個問題。
在AI輔助重建方面,視頻修復(fù)模型相比傳統(tǒng)的幾何約束方法具有更強(qiáng)的泛化能力。傳統(tǒng)方法往往針對特定類型的偽影設(shè)計特定的算法,而基于深度學(xué)習(xí)的修復(fù)模型能夠自動學(xué)習(xí)和處理各種復(fù)雜的重建問題。
從系統(tǒng)的實(shí)用性角度來看,整個流程的自動化程度很高,不需要復(fù)雜的手工調(diào)參或?qū)I(yè)知識。這使得技術(shù)更容易被非專業(yè)用戶采用,有利于技術(shù)的推廣和應(yīng)用。
十、未來發(fā)展方向與改進(jìn)空間
研究團(tuán)隊(duì)在論文中也坦誠地討論了當(dāng)前方法的局限性和未來的改進(jìn)方向。修復(fù)模型雖然效果顯著,但仍然受限于基礎(chǔ)擴(kuò)散模型的能力。隨著更先進(jìn)的視頻生成模型的出現(xiàn),修復(fù)質(zhì)量有望進(jìn)一步提升。
在算法優(yōu)化方面,如何更好地平衡時間采樣和空間采樣是一個持續(xù)的研究課題。當(dāng)前的分組策略相對簡單,未來可能會有更智能的自適應(yīng)分組方案,根據(jù)場景內(nèi)容和運(yùn)動特點(diǎn)動態(tài)調(diào)整拍攝策略。
實(shí)時處理能力也是一個重要的發(fā)展方向。當(dāng)前的方法需要離線處理才能得到最終結(jié)果,如果能夠?qū)崿F(xiàn)實(shí)時或近實(shí)時的4D重建,將大大擴(kuò)展應(yīng)用場景,特別是在直播、游戲和交互應(yīng)用中。
硬件和軟件的協(xié)同優(yōu)化也值得關(guān)注。通過專門設(shè)計的相機(jī)硬件和優(yōu)化的算法實(shí)現(xiàn),可能能夠進(jìn)一步提升系統(tǒng)的性能和效率。特別是在邊緣計算設(shè)備上的部署,將使這項(xiàng)技術(shù)更加實(shí)用和普及。
說到底,這項(xiàng)研究為我們展示了一個重要的技術(shù)發(fā)展趨勢:通過巧妙的算法設(shè)計和AI技術(shù)的結(jié)合,我們能夠在不大幅增加硬件成本的情況下實(shí)現(xiàn)顯著的性能提升。這種"軟硬結(jié)合"的創(chuàng)新思路不僅適用于4D重建領(lǐng)域,對整個計算攝影和計算機(jī)視覺領(lǐng)域都具有重要的啟發(fā)意義。
對于普通用戶來說,這項(xiàng)技術(shù)意味著高質(zhì)量4D內(nèi)容創(chuàng)作的門檻將大大降低。無論是專業(yè)的內(nèi)容創(chuàng)作者還是普通的攝影愛好者,都有機(jī)會用相對簡單的設(shè)備創(chuàng)造出令人驚嘆的動態(tài)視覺效果。隨著技術(shù)的不斷成熟和普及,我們有理由期待一個更加豐富多彩的視覺世界。
**Q&A**
**Q1:什么是異步拍攝?它和普通拍攝有什么區(qū)別?** A:異步拍攝就是讓不同的相機(jī)在不同時間開始工作,而不是同時按快門。就像接力賽一樣,雖然每個時刻工作的相機(jī)較少,但整體的拍攝頻率提高了。普通拍攝是所有相機(jī)同時拍照,時間間隔較大,容易丟失快速運(yùn)動的細(xì)節(jié)。
**Q2:為什么需要AI來修復(fù)畫面?直接用異步拍攝不行嗎?** A:異步拍攝雖然提高了時間分辨率,但每個時刻可用的相機(jī)數(shù)量減少了,會導(dǎo)致某些角度信息缺失,產(chǎn)生"浮動偽影"。AI修復(fù)模型就像經(jīng)驗(yàn)豐富的修復(fù)師,能根據(jù)已有信息智能補(bǔ)全缺失部分,確保最終效果自然流暢。
**Q3:這項(xiàng)技術(shù)什么時候能普及到普通用戶?成本高嗎?** A:目前還處于研究階段,但技術(shù)優(yōu)勢明顯:只需要普通相機(jī)而非昂貴的專業(yè)高速設(shè)備。隨著算法優(yōu)化和硬件成本降低,預(yù)計未來幾年內(nèi)可能會有商業(yè)化產(chǎn)品出現(xiàn),讓普通用戶也能享受到高質(zhì)量4D拍攝的樂趣。
好文章,需要你的鼓勵
新加坡國立大學(xué)研究團(tuán)隊(duì)開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過對比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時刻"現(xiàn)象,但這些自我糾錯行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動態(tài)稀疏性實(shí)現(xiàn)大語言模型訓(xùn)練加速1.6倍,計算成本降低2.2倍。該方法使用SVD稀疏性估計器智能選擇重要計算部分,在保持模型性能的同時顯著提升訓(xùn)練效率,已在多個任務(wù)上驗(yàn)證有效性。