av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<legend id="993qh"><track id="993qh"></track></legend>

<blockquote id="993qh"></blockquote>

<blockquote id="993qh"></blockquote>

首頁
對(duì)話創(chuàng)新
對(duì)話科技行者
機(jī)器人新紀(jì)元
AI論文解讀
聯(lián)系我們

微信掃一掃，關(guān)注公眾號(hào)

科技行者
算力行者

見證連接與計(jì)算的「力量」

Adobe團(tuán)隊(duì)首次實(shí)現(xiàn)"時(shí)空魔法"：讓AI從幾張照片重建任意時(shí)刻的4D世界

計(jì)算機(jī)視覺4D重建時(shí)空表示學(xué)習(xí)

Adobe團(tuán)隊(duì)首次實(shí)現(xiàn)"時(shí)空魔法"：讓AI從幾張照片重建任意時(shí)刻的4D世界

作者：科技行者

2025-06-27 11:42

分享至：

Adobe研究團(tuán)隊(duì)開發(fā)的4D-LRM系統(tǒng)實(shí)現(xiàn)了從稀疏多視角圖像重建動(dòng)態(tài)4D場景的突破。該技術(shù)采用統(tǒng)一的時(shí)空表示學(xué)習(xí)方法，通過Transformer架構(gòu)直接預(yù)測4D高斯基元，能在1.5秒內(nèi)重建24幀動(dòng)態(tài)序列。在多種相機(jī)配置下表現(xiàn)優(yōu)異，為AR/VR、影視制作和機(jī)器人學(xué)等領(lǐng)域提供了新的技術(shù)可能。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-06-27 11:42 ? 科技行者

這項(xiàng)由Adobe Research聯(lián)合密歇根大學(xué)、北卡羅來納大學(xué)教堂山分校等頂尖院校研究團(tuán)隊(duì)開發(fā)的突破性技術(shù)，于2025年6月發(fā)表在計(jì)算機(jī)視覺領(lǐng)域的頂級(jí)會(huì)議上。有興趣深入了解的讀者可以通過arXiv:2506.18890v1訪問完整論文。

想象一下，如果你只有幾張不同角度、不同時(shí)間拍攝的照片，卻能夠重建出一個(gè)完整的4D世界——不僅包含物體的三維形狀，還能展現(xiàn)它在任何時(shí)刻的運(yùn)動(dòng)狀態(tài)。這聽起來像是科幻電影中的情節(jié)，但Adobe的研究團(tuán)隊(duì)已經(jīng)讓這個(gè)夢想成為現(xiàn)實(shí)。

這個(gè)被稱為"4D-LRM"（Large Space-Time Reconstruction Model）的AI系統(tǒng)，就像一位擁有超強(qiáng)想象力的藝術(shù)家，能夠從少數(shù)幾張"快照"中重新構(gòu)建整個(gè)動(dòng)態(tài)場景。與傳統(tǒng)的3D重建技術(shù)只能還原靜態(tài)物體不同，4D-LRM能夠捕捉時(shí)間的流逝，重現(xiàn)物體的每一個(gè)動(dòng)作細(xì)節(jié)。

過去，科學(xué)家們在處理動(dòng)態(tài)場景重建時(shí)就像是在解一道極其復(fù)雜的拼圖游戲。傳統(tǒng)方法大致分為三種思路：第一種像是雕刻師傅，需要從大量密集的視頻數(shù)據(jù)中一點(diǎn)一點(diǎn)優(yōu)化雕琢，耗時(shí)費(fèi)力且對(duì)輸入要求極高；第二種像是測量員，專門估算幾何形狀和相機(jī)位置，但無法進(jìn)行新視角的合成；第三種像是畫家，能創(chuàng)造出視覺上令人信服的作品，但往往無法保證重建的準(zhǔn)確性，特別是單視角視頻存在運(yùn)動(dòng)歧義的根本問題。

Adobe團(tuán)隊(duì)的創(chuàng)新之處在于，他們將4D重建視為一個(gè)統(tǒng)一的"時(shí)空表示學(xué)習(xí)"問題。這就好比訓(xùn)練一位超級(jí)記憶大師，讓他能夠從片段化的記憶中完整重現(xiàn)整個(gè)事件的發(fā)生過程。研究團(tuán)隊(duì)采用了一種叫做"4D高斯散布"的表示方法，這種方法將空間和時(shí)間統(tǒng)一處理，每個(gè)"高斯基元"都像是一個(gè)小小的時(shí)空膠囊，記錄著特定位置在特定時(shí)刻的信息。

該系統(tǒng)的核心架構(gòu)基于Transformer，這是目前最先進(jìn)的AI架構(gòu)之一。研究團(tuán)隊(duì)將輸入的多視角圖像轉(zhuǎn)換成包含時(shí)間信息的"圖像令牌"，然后通過深度學(xué)習(xí)網(wǎng)絡(luò)直接預(yù)測出4D高斯基元。這個(gè)過程就像是一位經(jīng)驗(yàn)豐富的導(dǎo)演，能夠從幾個(gè)關(guān)鍵鏡頭中重建整部電影的情節(jié)。

在技術(shù)實(shí)現(xiàn)上，4D-LRM采用了"像素對(duì)齊高斯"的巧妙設(shè)計(jì)。對(duì)于輸入圖像的每個(gè)像素，系統(tǒng)都會(huì)預(yù)測一個(gè)對(duì)應(yīng)的4D高斯基元，這些基元包含了20個(gè)參數(shù)：3個(gè)RGB顏色通道、4個(gè)時(shí)空尺度參數(shù)、8個(gè)用于4D旋轉(zhuǎn)的四元數(shù)參數(shù)、1個(gè)透明度參數(shù)，以及4個(gè)時(shí)空中心坐標(biāo)。為了處理稀疏視角或有限視野覆蓋的情況，研究團(tuán)隊(duì)還引入了可選的"自由高斯令牌"，讓模型能夠生成不依賴于特定像素位置的高斯基元。

研究團(tuán)隊(duì)構(gòu)建了一個(gè)基于Objaverse的大規(guī)模4D數(shù)據(jù)集進(jìn)行訓(xùn)練。這個(gè)數(shù)據(jù)集包含了32000個(gè)動(dòng)態(tài)物體和783000個(gè)靜態(tài)3D物體（通過添加微小運(yùn)動(dòng)轉(zhuǎn)換為24幀序列）。訓(xùn)練采用了課程學(xué)習(xí)策略，先在128×128分辨率下預(yù)訓(xùn)練10萬步，然后在256×256分辨率下繼續(xù)訓(xùn)練2萬步，整個(gè)過程在160塊A100 GPU上進(jìn)行。

實(shí)驗(yàn)結(jié)果令人印象深刻。4D-LRM在多種相機(jī)配置下都表現(xiàn)出色，包括交替標(biāo)準(zhǔn)視角、幀插值、雙旋轉(zhuǎn)相機(jī)和隨機(jī)視角等場景。在Consistent4D數(shù)據(jù)集上，模型達(dá)到了超過30的PSNR分?jǐn)?shù)，顯著優(yōu)于傳統(tǒng)的逐幀3D重建方法。更重要的是，4D-LRM只需一次前向推理就能重建24幀動(dòng)態(tài)序列，在單塊A100 GPU上耗時(shí)不到1.5秒，實(shí)現(xiàn)了真正的實(shí)時(shí)性能。

研究團(tuán)隊(duì)還深入分析了模型的插值能力。他們發(fā)現(xiàn)，當(dāng)某些時(shí)間戳缺失時(shí)，4D-LRM會(huì)自動(dòng)學(xué)習(xí)將某些高斯基元重新分配到這些缺失區(qū)域，有效填補(bǔ)時(shí)間空隙。在插值設(shè)置下，預(yù)測的4D高斯基元往往具有更大的時(shí)間方差，使每個(gè)高斯基元能夠影響更廣泛的相鄰時(shí)間戳，從而提高插值質(zhì)量和時(shí)間覆蓋范圍。

在4D內(nèi)容生成方面，4D-LRM也展現(xiàn)出了強(qiáng)大的潛力。通過與SV3D等擴(kuò)散模型結(jié)合，系統(tǒng)能夠從單張圖像生成動(dòng)態(tài)4D內(nèi)容，在保真度和推理速度方面都超越了現(xiàn)有的生成式4D建模方法。這種結(jié)合生成先驗(yàn)與重建模型的方式，為4D內(nèi)容創(chuàng)作開辟了新的可能性。

不過，這項(xiàng)技術(shù)也存在一些局限性。當(dāng)物體遵循非線性運(yùn)動(dòng)軌跡時(shí)，4D-LRM有時(shí)會(huì)遇到困難，因?yàn)闄E球高斯基元的核密度是沿主方向?qū)R的，難以有效捕捉彎曲或分支的運(yùn)動(dòng)路徑。此外，模型在處理快速運(yùn)動(dòng)和自遮擋場景時(shí)，可能出現(xiàn)時(shí)間重影等問題。

從技術(shù)發(fā)展前景來看，4D-LRM為未來的研究指明了幾個(gè)重要方向。研究團(tuán)隊(duì)認(rèn)為，長上下文處理是一個(gè)關(guān)鍵挑戰(zhàn)——如何讓模型高效處理數(shù)百張輸入圖像，支持1K或2K高分辨率，這需要在架構(gòu)層面的根本性突破，包括混合模型處理長上下文和測試時(shí)訓(xùn)練策略。

另一個(gè)重要方向是移除3D歸納偏置。目前4D-LRM依賴于已知的相機(jī)姿態(tài)，未來的研究應(yīng)該致力于從未標(biāo)定的圖像中學(xué)習(xí)重建，甚至摒棄顯式的3D表示如NeRF或3DGS，直接從"野外"視頻中進(jìn)行4D重建。

從物體級(jí)別擴(kuò)展到場景級(jí)別也是一個(gè)重要挑戰(zhàn)。雖然4D-LRM目前專注于物體重建，但場景級(jí)別的"任意視角"概念更為復(fù)雜——我們無法觀察墻后的內(nèi)容。雖然GS-LRM已證明該架構(gòu)可以擴(kuò)展到場景級(jí)重建，但目前缺乏許可兼容的高質(zhì)量4D場景數(shù)據(jù)集，而且物體級(jí)數(shù)據(jù)的增強(qiáng)策略無法直接遷移到場景級(jí)設(shè)置。

這項(xiàng)研究的意義遠(yuǎn)超技術(shù)本身。在AR/VR應(yīng)用中，4D-LRM能夠?qū)崿F(xiàn)更真實(shí)的虛擬體驗(yàn)，用戶可以從任意角度觀察動(dòng)態(tài)虛擬物體。在影視制作領(lǐng)域，這項(xiàng)技術(shù)可以大大降低特效制作成本，從少量實(shí)拍素材生成完整的動(dòng)態(tài)場景。在機(jī)器人學(xué)和具身AI領(lǐng)域，準(zhǔn)確的4D世界模型對(duì)于機(jī)器人理解和操作動(dòng)態(tài)環(huán)境至關(guān)重要。

研究團(tuán)隊(duì)在性能分析中還發(fā)現(xiàn)了一些有趣的規(guī)律。隨著輸入視角數(shù)量的增加，模型性能在48個(gè)視角時(shí)達(dá)到峰值，之后略有下降。這可能是由于過多的高斯基元導(dǎo)致4D表示過于擁擠，以及Transformer在處理超長輸入序列時(shí)的局限性。這一發(fā)現(xiàn)為未來設(shè)計(jì)能處理更長上下文的4D-LRM變體提供了重要指導(dǎo)。

在訓(xùn)練時(shí)縮放分析中，研究團(tuán)隊(duì)比較了多種設(shè)計(jì)選擇的效果。增加監(jiān)督視角數(shù)量能略微改善收斂速度，但會(huì)增加迭代時(shí)間。從零開始引入自由高斯基元不會(huì)顯著影響重建質(zhì)量，但會(huì)大幅減慢訓(xùn)練速度。基于HexPlane的分解式4DGS表示效果不如統(tǒng)一的時(shí)空表示，這證實(shí)了研究團(tuán)隊(duì)的設(shè)計(jì)選擇。

說到底，4D-LRM代表了計(jì)算機(jī)視覺領(lǐng)域的一個(gè)重要里程碑。它首次實(shí)現(xiàn)了真正意義上的大規(guī)模4D重建，能夠從稀疏的多視角輸入重建任意視角和時(shí)刻的動(dòng)態(tài)場景。這項(xiàng)技術(shù)不僅在學(xué)術(shù)上具有開創(chuàng)性意義，在實(shí)際應(yīng)用中也展現(xiàn)出巨大潛力。

歸根結(jié)底，我們正在見證AI技術(shù)如何重新定義我們對(duì)空間和時(shí)間的理解和重建能力。從靜態(tài)的照片到動(dòng)態(tài)的4D世界，從被動(dòng)的觀察到主動(dòng)的重建，4D-LRM讓我們離"數(shù)字孿生"的夢想又近了一步。未來，當(dāng)我們能夠從幾張手機(jī)照片就重建出完整的動(dòng)態(tài)場景時(shí)，現(xiàn)實(shí)與虛擬的邊界將變得更加模糊，而這種技術(shù)進(jìn)步將為人類社會(huì)帶來前所未有的可能性。

有興趣深入了解這項(xiàng)突破性研究的讀者，可以訪問Adobe Research的官方頁面或通過arXiv論文庫獲取完整技術(shù)細(xì)節(jié)。

Q&A

Q1：4D-LRM是什么？它能做什么？ A：4D-LRM是Adobe開發(fā)的AI系統(tǒng)，能從幾張不同角度、不同時(shí)間的照片重建完整的4D動(dòng)態(tài)場景。它就像一位超級(jí)藝術(shù)家，不僅能還原物體的三維形狀，還能重現(xiàn)物體在任意時(shí)刻的運(yùn)動(dòng)狀態(tài)，實(shí)現(xiàn)從任意視角觀察任意時(shí)間的動(dòng)態(tài)重建。

Q2：4D-LRM會(huì)不會(huì)取代傳統(tǒng)的3D建模和動(dòng)畫制作？ A：4D-LRM在特定場景下具有明顯優(yōu)勢，特別是快速原型制作和稀疏數(shù)據(jù)重建方面。但它更可能作為現(xiàn)有工作流程的強(qiáng)大補(bǔ)充工具，而非完全替代。傳統(tǒng)方法在精細(xì)控制和復(fù)雜場景處理方面仍有獨(dú)特價(jià)值，未來更可能是多種技術(shù)的融合應(yīng)用。

Q3：普通人如何使用4D-LRM技術(shù)？ A：目前4D-LRM主要是研究階段的技術(shù)，普通用戶還無法直接使用。不過Adobe作為商業(yè)軟件公司，未來很可能將這項(xiàng)技術(shù)集成到Creative Suite等產(chǎn)品中。研究代碼和模型可能會(huì)在GitHub等平臺(tái)開源，技術(shù)愛好者可以關(guān)注相關(guān)進(jìn)展。

計(jì)算機(jī)視覺4D重建時(shí)空表示學(xué)習(xí)

分享至

0贊

好文章，需要你的鼓勵(lì)

推薦文章

自對(duì)弈訓(xùn)練
推理能力提升
零和游戲?qū)W習(xí)

2025-07-02 14:26

AI玩游戲能讓推理變聰明？新加坡國立大學(xué)發(fā)現(xiàn)自對(duì)弈訓(xùn)練的神奇效果

新加坡國立大學(xué)研究團(tuán)隊(duì)開發(fā)了SPIRAL框架，通過讓AI與自己對(duì)弈零和游戲來提升推理能力。實(shí)驗(yàn)顯示，僅訓(xùn)練AI玩簡單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%，通用推理提升8.4%，且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中，為AI訓(xùn)練提供了新思路。
計(jì)算機(jī)視覺
圖像降噪
3D相機(jī)技術(shù)

2025-07-02 14:26

同濟(jì)大學(xué)突破性研究：讓3D相機(jī)告別"噪點(diǎn)困擾"的智能降噪新技術(shù)

同濟(jì)大學(xué)團(tuán)隊(duì)開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息，創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系，結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法，在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升，并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力，為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
人工智能
視覺語言模型
強(qiáng)化學(xué)習(xí)

2025-07-02 14:26

AI視覺推理模型的"頓悟時(shí)刻"真的存在嗎？伊利諾伊大學(xué)研究揭示令人意外的真相

伊利諾伊大學(xué)研究團(tuán)隊(duì)通過對(duì)比實(shí)驗(yàn)發(fā)現(xiàn)，經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象，但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距"，即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力，且模型在自我驗(yàn)證時(shí)無法有效利用視覺信息，為AI多模態(tài)推理發(fā)展提供了重要啟示。
大語言模型
稀疏性訓(xùn)練
計(jì)算效率優(yōu)化

2025-07-02 14:25

MIT團(tuán)隊(duì)發(fā)明"智能減肥法"讓AI訓(xùn)練快1.6倍：只需要一半的算力就能教會(huì)大模型新技能

MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù)，通過動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語言模型訓(xùn)練加速1.6倍，計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分，在保持模型性能的同時(shí)顯著提升訓(xùn)練效率，已在多個(gè)任務(wù)上驗(yàn)證有效性。

AI玩游戲能讓推理變聰明？新加坡國立大學(xué)發(fā)現(xiàn)自對(duì)弈訓(xùn)練的神奇效果

AI玩游戲能讓推理變聰明？新加坡國立大學(xué)發(fā)現(xiàn)自對(duì)弈訓(xùn)練的神奇效果

2025-07-02 14:26

同濟(jì)大學(xué)突破性研究：讓3D相機(jī)告別"噪點(diǎn)困擾"的智能降噪新技術(shù)

同濟(jì)大學(xué)突破性研究：讓3D相機(jī)告別"噪點(diǎn)困擾"的智能降噪新技術(shù)

2025-07-02 14:26

AI視覺推理模型的"頓悟時(shí)刻"真的存在嗎？伊利諾伊大學(xué)研究揭示令人意外的真相

AI視覺推理模型的"頓悟時(shí)刻"真的存在嗎？伊利諾伊大學(xué)研究揭示令人意外的真相

2025-07-02 14:26

MIT團(tuán)隊(duì)發(fā)明"智能減肥法"讓AI訓(xùn)練快1.6倍：只需要一半的算力就能教會(huì)大模型新技能

MIT團(tuán)隊(duì)發(fā)明"智能減肥法"讓AI訓(xùn)練快1.6倍：只需要一半的算力就能教會(huì)大模型新技能

2025-07-02 14:25

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時(shí)代

京ICP證15039648號(hào) 京ICP備15039648號(hào)-9 京公網(wǎng)安備 11010802021500號(hào)

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報(bào)電話：010-62641205　涉未成年人舉報(bào)專線：010-62641208 舉報(bào)郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報(bào)專區(qū)：https://www.12377.cn

<cite id="8hq81"></cite>

^{<thead id="8hq81"></thead>}

<cite id="8hq81"></cite>