這項(xiàng)由Adobe Research聯(lián)合密歇根大學(xué)、北卡羅來納大學(xué)教堂山分校等頂尖院校研究團(tuán)隊(duì)開發(fā)的突破性技術(shù),于2025年6月發(fā)表在計(jì)算機(jī)視覺領(lǐng)域的頂級(jí)會(huì)議上。有興趣深入了解的讀者可以通過arXiv:2506.18890v1訪問完整論文。
想象一下,如果你只有幾張不同角度、不同時(shí)間拍攝的照片,卻能夠重建出一個(gè)完整的4D世界——不僅包含物體的三維形狀,還能展現(xiàn)它在任何時(shí)刻的運(yùn)動(dòng)狀態(tài)。這聽起來像是科幻電影中的情節(jié),但Adobe的研究團(tuán)隊(duì)已經(jīng)讓這個(gè)夢想成為現(xiàn)實(shí)。
這個(gè)被稱為"4D-LRM"(Large Space-Time Reconstruction Model)的AI系統(tǒng),就像一位擁有超強(qiáng)想象力的藝術(shù)家,能夠從少數(shù)幾張"快照"中重新構(gòu)建整個(gè)動(dòng)態(tài)場景。與傳統(tǒng)的3D重建技術(shù)只能還原靜態(tài)物體不同,4D-LRM能夠捕捉時(shí)間的流逝,重現(xiàn)物體的每一個(gè)動(dòng)作細(xì)節(jié)。
過去,科學(xué)家們在處理動(dòng)態(tài)場景重建時(shí)就像是在解一道極其復(fù)雜的拼圖游戲。傳統(tǒng)方法大致分為三種思路:第一種像是雕刻師傅,需要從大量密集的視頻數(shù)據(jù)中一點(diǎn)一點(diǎn)優(yōu)化雕琢,耗時(shí)費(fèi)力且對(duì)輸入要求極高;第二種像是測量員,專門估算幾何形狀和相機(jī)位置,但無法進(jìn)行新視角的合成;第三種像是畫家,能創(chuàng)造出視覺上令人信服的作品,但往往無法保證重建的準(zhǔn)確性,特別是單視角視頻存在運(yùn)動(dòng)歧義的根本問題。
Adobe團(tuán)隊(duì)的創(chuàng)新之處在于,他們將4D重建視為一個(gè)統(tǒng)一的"時(shí)空表示學(xué)習(xí)"問題。這就好比訓(xùn)練一位超級(jí)記憶大師,讓他能夠從片段化的記憶中完整重現(xiàn)整個(gè)事件的發(fā)生過程。研究團(tuán)隊(duì)采用了一種叫做"4D高斯散布"的表示方法,這種方法將空間和時(shí)間統(tǒng)一處理,每個(gè)"高斯基元"都像是一個(gè)小小的時(shí)空膠囊,記錄著特定位置在特定時(shí)刻的信息。
該系統(tǒng)的核心架構(gòu)基于Transformer,這是目前最先進(jìn)的AI架構(gòu)之一。研究團(tuán)隊(duì)將輸入的多視角圖像轉(zhuǎn)換成包含時(shí)間信息的"圖像令牌",然后通過深度學(xué)習(xí)網(wǎng)絡(luò)直接預(yù)測出4D高斯基元。這個(gè)過程就像是一位經(jīng)驗(yàn)豐富的導(dǎo)演,能夠從幾個(gè)關(guān)鍵鏡頭中重建整部電影的情節(jié)。
在技術(shù)實(shí)現(xiàn)上,4D-LRM采用了"像素對(duì)齊高斯"的巧妙設(shè)計(jì)。對(duì)于輸入圖像的每個(gè)像素,系統(tǒng)都會(huì)預(yù)測一個(gè)對(duì)應(yīng)的4D高斯基元,這些基元包含了20個(gè)參數(shù):3個(gè)RGB顏色通道、4個(gè)時(shí)空尺度參數(shù)、8個(gè)用于4D旋轉(zhuǎn)的四元數(shù)參數(shù)、1個(gè)透明度參數(shù),以及4個(gè)時(shí)空中心坐標(biāo)。為了處理稀疏視角或有限視野覆蓋的情況,研究團(tuán)隊(duì)還引入了可選的"自由高斯令牌",讓模型能夠生成不依賴于特定像素位置的高斯基元。
研究團(tuán)隊(duì)構(gòu)建了一個(gè)基于Objaverse的大規(guī)模4D數(shù)據(jù)集進(jìn)行訓(xùn)練。這個(gè)數(shù)據(jù)集包含了32000個(gè)動(dòng)態(tài)物體和783000個(gè)靜態(tài)3D物體(通過添加微小運(yùn)動(dòng)轉(zhuǎn)換為24幀序列)。訓(xùn)練采用了課程學(xué)習(xí)策略,先在128×128分辨率下預(yù)訓(xùn)練10萬步,然后在256×256分辨率下繼續(xù)訓(xùn)練2萬步,整個(gè)過程在160塊A100 GPU上進(jìn)行。
實(shí)驗(yàn)結(jié)果令人印象深刻。4D-LRM在多種相機(jī)配置下都表現(xiàn)出色,包括交替標(biāo)準(zhǔn)視角、幀插值、雙旋轉(zhuǎn)相機(jī)和隨機(jī)視角等場景。在Consistent4D數(shù)據(jù)集上,模型達(dá)到了超過30的PSNR分?jǐn)?shù),顯著優(yōu)于傳統(tǒng)的逐幀3D重建方法。更重要的是,4D-LRM只需一次前向推理就能重建24幀動(dòng)態(tài)序列,在單塊A100 GPU上耗時(shí)不到1.5秒,實(shí)現(xiàn)了真正的實(shí)時(shí)性能。
研究團(tuán)隊(duì)還深入分析了模型的插值能力。他們發(fā)現(xiàn),當(dāng)某些時(shí)間戳缺失時(shí),4D-LRM會(huì)自動(dòng)學(xué)習(xí)將某些高斯基元重新分配到這些缺失區(qū)域,有效填補(bǔ)時(shí)間空隙。在插值設(shè)置下,預(yù)測的4D高斯基元往往具有更大的時(shí)間方差,使每個(gè)高斯基元能夠影響更廣泛的相鄰時(shí)間戳,從而提高插值質(zhì)量和時(shí)間覆蓋范圍。
在4D內(nèi)容生成方面,4D-LRM也展現(xiàn)出了強(qiáng)大的潛力。通過與SV3D等擴(kuò)散模型結(jié)合,系統(tǒng)能夠從單張圖像生成動(dòng)態(tài)4D內(nèi)容,在保真度和推理速度方面都超越了現(xiàn)有的生成式4D建模方法。這種結(jié)合生成先驗(yàn)與重建模型的方式,為4D內(nèi)容創(chuàng)作開辟了新的可能性。
不過,這項(xiàng)技術(shù)也存在一些局限性。當(dāng)物體遵循非線性運(yùn)動(dòng)軌跡時(shí),4D-LRM有時(shí)會(huì)遇到困難,因?yàn)闄E球高斯基元的核密度是沿主方向?qū)R的,難以有效捕捉彎曲或分支的運(yùn)動(dòng)路徑。此外,模型在處理快速運(yùn)動(dòng)和自遮擋場景時(shí),可能出現(xiàn)時(shí)間重影等問題。
從技術(shù)發(fā)展前景來看,4D-LRM為未來的研究指明了幾個(gè)重要方向。研究團(tuán)隊(duì)認(rèn)為,長上下文處理是一個(gè)關(guān)鍵挑戰(zhàn)——如何讓模型高效處理數(shù)百張輸入圖像,支持1K或2K高分辨率,這需要在架構(gòu)層面的根本性突破,包括混合模型處理長上下文和測試時(shí)訓(xùn)練策略。
另一個(gè)重要方向是移除3D歸納偏置。目前4D-LRM依賴于已知的相機(jī)姿態(tài),未來的研究應(yīng)該致力于從未標(biāo)定的圖像中學(xué)習(xí)重建,甚至摒棄顯式的3D表示如NeRF或3DGS,直接從"野外"視頻中進(jìn)行4D重建。
從物體級(jí)別擴(kuò)展到場景級(jí)別也是一個(gè)重要挑戰(zhàn)。雖然4D-LRM目前專注于物體重建,但場景級(jí)別的"任意視角"概念更為復(fù)雜——我們無法觀察墻后的內(nèi)容。雖然GS-LRM已證明該架構(gòu)可以擴(kuò)展到場景級(jí)重建,但目前缺乏許可兼容的高質(zhì)量4D場景數(shù)據(jù)集,而且物體級(jí)數(shù)據(jù)的增強(qiáng)策略無法直接遷移到場景級(jí)設(shè)置。
這項(xiàng)研究的意義遠(yuǎn)超技術(shù)本身。在AR/VR應(yīng)用中,4D-LRM能夠?qū)崿F(xiàn)更真實(shí)的虛擬體驗(yàn),用戶可以從任意角度觀察動(dòng)態(tài)虛擬物體。在影視制作領(lǐng)域,這項(xiàng)技術(shù)可以大大降低特效制作成本,從少量實(shí)拍素材生成完整的動(dòng)態(tài)場景。在機(jī)器人學(xué)和具身AI領(lǐng)域,準(zhǔn)確的4D世界模型對(duì)于機(jī)器人理解和操作動(dòng)態(tài)環(huán)境至關(guān)重要。
研究團(tuán)隊(duì)在性能分析中還發(fā)現(xiàn)了一些有趣的規(guī)律。隨著輸入視角數(shù)量的增加,模型性能在48個(gè)視角時(shí)達(dá)到峰值,之后略有下降。這可能是由于過多的高斯基元導(dǎo)致4D表示過于擁擠,以及Transformer在處理超長輸入序列時(shí)的局限性。這一發(fā)現(xiàn)為未來設(shè)計(jì)能處理更長上下文的4D-LRM變體提供了重要指導(dǎo)。
在訓(xùn)練時(shí)縮放分析中,研究團(tuán)隊(duì)比較了多種設(shè)計(jì)選擇的效果。增加監(jiān)督視角數(shù)量能略微改善收斂速度,但會(huì)增加迭代時(shí)間。從零開始引入自由高斯基元不會(huì)顯著影響重建質(zhì)量,但會(huì)大幅減慢訓(xùn)練速度。基于HexPlane的分解式4DGS表示效果不如統(tǒng)一的時(shí)空表示,這證實(shí)了研究團(tuán)隊(duì)的設(shè)計(jì)選擇。
說到底,4D-LRM代表了計(jì)算機(jī)視覺領(lǐng)域的一個(gè)重要里程碑。它首次實(shí)現(xiàn)了真正意義上的大規(guī)模4D重建,能夠從稀疏的多視角輸入重建任意視角和時(shí)刻的動(dòng)態(tài)場景。這項(xiàng)技術(shù)不僅在學(xué)術(shù)上具有開創(chuàng)性意義,在實(shí)際應(yīng)用中也展現(xiàn)出巨大潛力。
歸根結(jié)底,我們正在見證AI技術(shù)如何重新定義我們對(duì)空間和時(shí)間的理解和重建能力。從靜態(tài)的照片到動(dòng)態(tài)的4D世界,從被動(dòng)的觀察到主動(dòng)的重建,4D-LRM讓我們離"數(shù)字孿生"的夢想又近了一步。未來,當(dāng)我們能夠從幾張手機(jī)照片就重建出完整的動(dòng)態(tài)場景時(shí),現(xiàn)實(shí)與虛擬的邊界將變得更加模糊,而這種技術(shù)進(jìn)步將為人類社會(huì)帶來前所未有的可能性。
有興趣深入了解這項(xiàng)突破性研究的讀者,可以訪問Adobe Research的官方頁面或通過arXiv論文庫獲取完整技術(shù)細(xì)節(jié)。
Q&A
Q1:4D-LRM是什么?它能做什么? A:4D-LRM是Adobe開發(fā)的AI系統(tǒng),能從幾張不同角度、不同時(shí)間的照片重建完整的4D動(dòng)態(tài)場景。它就像一位超級(jí)藝術(shù)家,不僅能還原物體的三維形狀,還能重現(xiàn)物體在任意時(shí)刻的運(yùn)動(dòng)狀態(tài),實(shí)現(xiàn)從任意視角觀察任意時(shí)間的動(dòng)態(tài)重建。
Q2:4D-LRM會(huì)不會(huì)取代傳統(tǒng)的3D建模和動(dòng)畫制作? A:4D-LRM在特定場景下具有明顯優(yōu)勢,特別是快速原型制作和稀疏數(shù)據(jù)重建方面。但它更可能作為現(xiàn)有工作流程的強(qiáng)大補(bǔ)充工具,而非完全替代。傳統(tǒng)方法在精細(xì)控制和復(fù)雜場景處理方面仍有獨(dú)特價(jià)值,未來更可能是多種技術(shù)的融合應(yīng)用。
Q3:普通人如何使用4D-LRM技術(shù)? A:目前4D-LRM主要是研究階段的技術(shù),普通用戶還無法直接使用。不過Adobe作為商業(yè)軟件公司,未來很可能將這項(xiàng)技術(shù)集成到Creative Suite等產(chǎn)品中。研究代碼和模型可能會(huì)在GitHub等平臺(tái)開源,技術(shù)愛好者可以關(guān)注相關(guān)進(jìn)展。
好文章,需要你的鼓勵(lì)
新加坡國立大學(xué)研究團(tuán)隊(duì)開發(fā)了SPIRAL框架,通過讓AI與自己對(duì)弈零和游戲來提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。