我們生活中經(jīng)常遇到物品損壞的情況——古董花瓶的一角磕掉了,雕塑的某個(gè)部分缺失了,或者考古發(fā)現(xiàn)的文物殘缺不全。傳統(tǒng)修復(fù)需要專業(yè)技師花費(fèi)大量時(shí)間和精力,而且往往難以完美復(fù)原?,F(xiàn)在,來(lái)自南京大學(xué)、Great Bay大學(xué)、哈爾濱工業(yè)大學(xué)和中山大學(xué)的聯(lián)合研究團(tuán)隊(duì)帶來(lái)了一個(gè)革命性的解決方案——ObjFiller-3D,這項(xiàng)技術(shù)就像給3D物體做"美顏修復(fù)"一樣神奇。
這項(xiàng)研究發(fā)表于2025年8月,研究團(tuán)隊(duì)由南京大學(xué)的馮海唐、劉杰、唐杰和吳剛山領(lǐng)導(dǎo),Great Bay大學(xué)的王光聰教授、哈爾濱工業(yè)大學(xué)的陳貝奇以及中山大學(xué)的賴建煌教授共同參與。感興趣的讀者可以通過(guò)項(xiàng)目主頁(yè) https://objfiller3d.github.io 了解更多詳細(xì)信息。
過(guò)去的3D修復(fù)技術(shù)就像是讓多個(gè)畫家分別為同一個(gè)物體的不同角度畫畫,結(jié)果往往是每個(gè)角度看起來(lái)都不太一樣,拼接起來(lái)就像是四不像。傳統(tǒng)方法通常先用2D圖像修復(fù)工具分別處理物體的各個(gè)視角,然后再將這些圖像拼接成3D模型。這就好比幾個(gè)廚師各自按照自己的理解做同一道菜的不同部分,最后端上桌的菜品往往口味不協(xié)調(diào)。
ObjFiller-3D的創(chuàng)新之處在于將3D修復(fù)問(wèn)題轉(zhuǎn)化為視頻編輯問(wèn)題。研究團(tuán)隊(duì)發(fā)現(xiàn),如果把物體的360度旋轉(zhuǎn)視圖想象成一段視頻,那么修復(fù)缺失部分就變成了視頻修復(fù)任務(wù)。這就像是把一個(gè)轉(zhuǎn)動(dòng)的花瓶拍成視頻,然后用視頻編輯軟件修復(fù)其中的損壞部分,最后再?gòu)男迯?fù)后的視頻中提取出完整的3D模型。
一、從圖片拼接到視頻修復(fù)的革命性轉(zhuǎn)變
傳統(tǒng)的3D物體修復(fù)方法面臨著一個(gè)根本性難題:如何讓不同角度的修復(fù)結(jié)果保持一致性。過(guò)去的方法就像是請(qǐng)幾個(gè)互不溝通的修復(fù)師分別修復(fù)一個(gè)古董花瓶的不同面,每個(gè)人都有自己的理解和風(fēng)格,最終拼接出來(lái)的花瓶往往看起來(lái)很奇怪。
NeRFiller和Instant3dit這兩種之前的先進(jìn)方法嘗試了一些解決方案。NeRFiller提出了一個(gè)"網(wǎng)格先驗(yàn)"的概念,就是將四個(gè)不同角度的圖像排列成2×2的網(wǎng)格,一起進(jìn)行修復(fù)。這就像是讓四個(gè)修復(fù)師坐在一起商量著修復(fù),確實(shí)比各自為戰(zhàn)要好一些。Instant3dit在此基礎(chǔ)上更進(jìn)一步,專門訓(xùn)練了一個(gè)能夠理解這種2×2網(wǎng)格圖像的修復(fù)模型。
然而,這些方法都有一個(gè)致命缺陷:它們只能同時(shí)處理四個(gè)角度的圖像,這就好比只能從東南西北四個(gè)方向觀察一個(gè)物體。對(duì)于復(fù)雜的物體來(lái)說(shuō),四個(gè)角度遠(yuǎn)遠(yuǎn)不夠,就像你想全面了解一個(gè)精美的雕塑,僅僅從四個(gè)固定角度觀看是遠(yuǎn)遠(yuǎn)不夠的。
研究團(tuán)隊(duì)意識(shí)到,現(xiàn)在的視頻生成和編輯技術(shù)已經(jīng)非常成熟了。視頻模型天生就具有保持幀與幀之間一致性的能力,這正是3D修復(fù)所需要的。如果能將物體的多角度視圖當(dāng)作視頻的連續(xù)幀來(lái)處理,就能利用視頻模型的這種天然優(yōu)勢(shì)。
二、巧妙的視頻-3D轉(zhuǎn)換技術(shù)
將3D修復(fù)轉(zhuǎn)換為視頻處理并不是簡(jiǎn)單的概念轉(zhuǎn)換,而是需要解決一系列技術(shù)挑戰(zhàn)。研究團(tuán)隊(duì)深入分析了3D場(chǎng)景和真實(shí)視頻之間的根本差異。
3D場(chǎng)景就像一個(gè)完美的展示臺(tái),物體靜靜地放在中央,可以從任意角度無(wú)死角地觀察,照明均勻,沒(méi)有遮擋,就像博物館中精心布置的展品。而真實(shí)世界的視頻則完全不同,就像是在人群中匆忙拍攝的街頭場(chǎng)景,有快有慢,有遮擋,有模糊,還可能有各種意外情況。
為了彌合這種差異,研究團(tuán)隊(duì)采用了一種叫做LoRA(低秩適應(yīng))的技術(shù)來(lái)改造現(xiàn)有的視頻修復(fù)模型VACE。這個(gè)過(guò)程就像是給一個(gè)專業(yè)的電影剪輯師進(jìn)行專門的培訓(xùn),讓他學(xué)會(huì)處理博物館展品的修復(fù)工作。原來(lái)的視頻模型就像一個(gè)經(jīng)驗(yàn)豐富的電影剪輯師,擅長(zhǎng)處理各種復(fù)雜的動(dòng)態(tài)場(chǎng)景,但現(xiàn)在需要讓他專門學(xué)會(huì)修復(fù)靜態(tài)物體的技能。
LoRA技術(shù)的巧妙之處在于,它不會(huì)完全改變?cè)心P偷哪芰?,而是在現(xiàn)有能力基礎(chǔ)上添加新的專業(yè)技能。這就像是給一個(gè)多才多藝的工匠增加一項(xiàng)新技能,而不是讓他忘記之前的所有技能重新學(xué)習(xí)。
研究團(tuán)隊(duì)將每個(gè)3D物體從16個(gè)均勻分布的角度進(jìn)行拍攝,然后將這16張圖片按順序排列成一個(gè)360度的"旋轉(zhuǎn)視頻"。為了確保視頻能夠完美循環(huán),他們將第一幀圖像復(fù)制一份放在最后,這樣整個(gè)視頻就像一個(gè)無(wú)縫循環(huán)播放的動(dòng)畫。
三、基于參考圖像的智能修復(fù)
在實(shí)際應(yīng)用中,我們經(jīng)常有一些參考材料。比如修復(fù)一件古董時(shí),我們可能有這件古董完好時(shí)期的照片,或者有類似古董的完整樣本。ObjFiller-3D充分利用了這種情況,開發(fā)出了基于參考圖像的修復(fù)功能。
這個(gè)功能的實(shí)現(xiàn)非常巧妙。研究團(tuán)隊(duì)將參考圖像作為視頻序列的第一幀,并為這一幀提供一個(gè)全零的掩碼,告訴系統(tǒng)這一幀不需要任何修復(fù)。這就像是給修復(fù)師提供了一個(gè)完美的樣板:"請(qǐng)按照這個(gè)樣子來(lái)修復(fù)其他角度的損壞部分。"
在視頻修復(fù)完成后,這個(gè)參考幀會(huì)被丟棄,留下的是與參考圖像完美匹配的修復(fù)結(jié)果。整個(gè)過(guò)程就像是一個(gè)經(jīng)驗(yàn)豐富的古董修復(fù)師,先仔細(xì)觀察了完好的參考樣品,然后據(jù)此修復(fù)損壞的部分,確保修復(fù)后的物品與原物保持高度一致。
這種參考引導(dǎo)的修復(fù)方式特別適合文物保護(hù)和數(shù)字文化遺產(chǎn)保護(hù)領(lǐng)域??脊艑W(xué)家經(jīng)常會(huì)發(fā)現(xiàn)一些殘缺的文物,如果能找到相似的完整文物作為參考,就可以用ObjFiller-3D進(jìn)行高質(zhì)量的數(shù)字化修復(fù)。
四、突破性的實(shí)驗(yàn)成果
研究團(tuán)隊(duì)在多個(gè)不同類型的數(shù)據(jù)集上測(cè)試了ObjFiller-3D的性能,結(jié)果令人印象深刻。他們使用了三種不同類型的3D掩碼來(lái)模擬不同的損壞情況:凸包掩碼(模擬整體缺失)、表面掩碼(模擬表面劃痕)和體積掩碼(模擬深度損傷)。
在與最先進(jìn)的NeRFiller方法比較時(shí),ObjFiller-3D在圖像質(zhì)量指標(biāo)PSNR上取得了26.6的分?jǐn)?shù),遠(yuǎn)超NeRFiller的15.9分。在感知質(zhì)量指標(biāo)LPIPS上,ObjFiller-3D獲得了0.07的低分(越低越好),而NeRFiller為0.23。這些數(shù)字看起來(lái)可能很抽象,但實(shí)際意義非常明顯:ObjFiller-3D修復(fù)的物體看起來(lái)更加清晰、細(xì)致,更接近原始物體的真實(shí)樣貌。
更重要的是,ObjFiller-3D在處理速度上也有顯著優(yōu)勢(shì)。傳統(tǒng)的NeRFiller方法需要40多分鐘才能完成一個(gè)物體的修復(fù),而ObjFiller-3D只需要不到10分鐘,效率提升了4倍以上。這就像是將手工修復(fù)改為機(jī)器批量生產(chǎn),不僅質(zhì)量更好,速度也快得多。
研究團(tuán)隊(duì)還發(fā)現(xiàn),輸入的視角越多,修復(fù)效果越好。當(dāng)輸入視角從80個(gè)增加到140個(gè)時(shí),修復(fù)質(zhì)量持續(xù)提升。這說(shuō)明更全面的觀察角度能夠提供更豐富的信息,幫助系統(tǒng)更好地理解物體的真實(shí)結(jié)構(gòu)。
五、從物體修復(fù)到場(chǎng)景重建的全面應(yīng)用
ObjFiller-3D的應(yīng)用潛力遠(yuǎn)不止單個(gè)物體的修復(fù)。研究團(tuán)隊(duì)成功地將這項(xiàng)技術(shù)擴(kuò)展到了更復(fù)雜的3D場(chǎng)景修復(fù)任務(wù)。傳統(tǒng)的場(chǎng)景修復(fù)方法SPIn-NeRF只能處理相對(duì)簡(jiǎn)單的移除任務(wù),就像是從照片中刪除某個(gè)物體。而ObjFiller-3D能夠處理更大范圍、更復(fù)雜的場(chǎng)景修復(fù)任務(wù)。
在場(chǎng)景修復(fù)測(cè)試中,研究團(tuán)隊(duì)選擇了四種不同類型的場(chǎng)景進(jìn)行測(cè)試,包括室內(nèi)環(huán)境和戶外場(chǎng)景。實(shí)驗(yàn)結(jié)果顯示,ObjFiller-3D不僅能夠成功修復(fù)缺失的場(chǎng)景部分,還能保持修復(fù)區(qū)域與周圍環(huán)境的自然融合。這就像是一個(gè)熟練的景觀設(shè)計(jì)師,不僅能夠修復(fù)花園中缺失的部分,還能確保新修復(fù)的部分與整體風(fēng)格完美協(xié)調(diào)。
更有趣的是,由于修復(fù)和編輯在技術(shù)上密切相關(guān),ObjFiller-3D還可以用于物體編輯任務(wù)。比如,可以給自由女神像添加一個(gè)啤酒杯,或者改變物體的某個(gè)部分。這種編輯能力為數(shù)字內(nèi)容創(chuàng)作開辟了新的可能性。
六、技術(shù)實(shí)現(xiàn)的精妙細(xì)節(jié)
ObjFiller-3D的成功不僅在于創(chuàng)新的思路,更在于精心設(shè)計(jì)的技術(shù)細(xì)節(jié)。研究團(tuán)隊(duì)使用了一種叫做流匹配損失的訓(xùn)練方法,這種方法能夠確保生成的視頻幀之間保持時(shí)間一致性。這就像是訓(xùn)練一個(gè)團(tuán)隊(duì)合作,確保每個(gè)成員的動(dòng)作都與其他成員完美協(xié)調(diào)。
在數(shù)據(jù)準(zhǔn)備階段,研究團(tuán)隊(duì)重新處理了Instant3dit數(shù)據(jù)集,為大約7000個(gè)高質(zhì)量3D物體生成了16視角的渲染圖像。他們還使用Cap3D工具為每個(gè)物體生成了詳細(xì)的文字描述,這些描述就像是物體的"身份證",幫助AI更好地理解要修復(fù)的內(nèi)容。
訓(xùn)練過(guò)程采用了漸進(jìn)式的方法。研究團(tuán)隊(duì)首先使用VACE1.3B模型進(jìn)行初步測(cè)試,然后升級(jí)到更強(qiáng)大的VACE14B模型。較大的模型雖然需要更多的計(jì)算資源(約60GB顯存),但能夠產(chǎn)生更高質(zhì)量的修復(fù)結(jié)果。整個(gè)訓(xùn)練過(guò)程在單個(gè)NVIDIA A800 GPU上進(jìn)行,用時(shí)約3天。
七、面向未來(lái)的廣闊前景
ObjFiller-3D的意義遠(yuǎn)遠(yuǎn)超出了技術(shù)本身的創(chuàng)新。在文化遺產(chǎn)保護(hù)領(lǐng)域,這項(xiàng)技術(shù)可以幫助博物館和考古機(jī)構(gòu)對(duì)珍貴文物進(jìn)行數(shù)字化修復(fù)和保護(hù)。許多歷史文物由于年代久遠(yuǎn)而出現(xiàn)損壞,傳統(tǒng)的物理修復(fù)既昂貴又存在風(fēng)險(xiǎn),而數(shù)字修復(fù)則可以在不觸碰原物的情況下創(chuàng)建完美的虛擬復(fù)原版本。
在數(shù)字內(nèi)容創(chuàng)作領(lǐng)域,ObjFiller-3D為游戲開發(fā)、電影制作和虛擬現(xiàn)實(shí)應(yīng)用提供了強(qiáng)大的工具。游戲開發(fā)者可以快速修復(fù)或編輯3D模型,電影制作團(tuán)隊(duì)可以用它來(lái)修復(fù)拍攝中的缺陷,VR應(yīng)用開發(fā)者可以創(chuàng)建更完整、更逼真的虛擬環(huán)境。
工業(yè)設(shè)計(jì)和制造領(lǐng)域也能從這項(xiàng)技術(shù)中受益。當(dāng)產(chǎn)品原型出現(xiàn)缺陷時(shí),設(shè)計(jì)師可以使用ObjFiller-3D快速生成修復(fù)方案,而無(wú)需重新制作整個(gè)原型。這不僅節(jié)省了時(shí)間和成本,還能幫助設(shè)計(jì)師更好地可視化最終產(chǎn)品。
研究團(tuán)隊(duì)也坦誠(chéng)地指出了當(dāng)前技術(shù)的局限性。由于ObjFiller-3D基于視頻基礎(chǔ)模型構(gòu)建,其能力受到底層模型的限制。不過(guò),隨著視頻生成技術(shù)的快速發(fā)展,這些限制有望在未來(lái)得到解決。
說(shuō)到底,ObjFiller-3D代表了AI技術(shù)在3D內(nèi)容處理領(lǐng)域的一個(gè)重要突破。它不僅解決了長(zhǎng)期存在的多視角一致性問(wèn)題,還為3D修復(fù)和編輯任務(wù)提供了一個(gè)統(tǒng)一、高效的解決方案。這項(xiàng)技術(shù)將3D修復(fù)從一個(gè)需要專業(yè)技能和大量時(shí)間的復(fù)雜任務(wù),轉(zhuǎn)變?yōu)橐粋€(gè)幾乎可以自動(dòng)化完成的簡(jiǎn)單過(guò)程。
更重要的是,ObjFiller-3D展示了跨領(lǐng)域技術(shù)融合的巨大潛力。通過(guò)將視頻處理技術(shù)巧妙地應(yīng)用于3D問(wèn)題,研究團(tuán)隊(duì)開辟了一條全新的技術(shù)路徑。這種創(chuàng)新思路可能會(huì)啟發(fā)更多類似的跨界應(yīng)用,推動(dòng)AI技術(shù)在更多領(lǐng)域的發(fā)展和應(yīng)用。
對(duì)于普通用戶而言,這意味著未來(lái)我們可能會(huì)擁有更多智能、便捷的3D內(nèi)容創(chuàng)作和修復(fù)工具。無(wú)論是保護(hù)珍貴的家庭紀(jì)念品,還是創(chuàng)作個(gè)性化的數(shù)字內(nèi)容,這樣的技術(shù)都將讓復(fù)雜的3D操作變得像編輯照片一樣簡(jiǎn)單。
有興趣深入了解這項(xiàng)技術(shù)細(xì)節(jié)的讀者,可以訪問(wèn)項(xiàng)目主頁(yè)獲取更多信息,研究團(tuán)隊(duì)承諾將在論文正式發(fā)表后公開所有相關(guān)數(shù)據(jù)和代碼,為學(xué)術(shù)界和工業(yè)界的進(jìn)一步發(fā)展做出貢獻(xiàn)。
Q&A
Q1:ObjFiller-3D是什么?它能做什么?
A:ObjFiller-3D是南京大學(xué)等高校聯(lián)合開發(fā)的3D物體修復(fù)技術(shù),它能像視頻編輯一樣智能修復(fù)3D物體的缺失部分。無(wú)論是古董花瓶的缺角、雕塑的殘缺部分,還是考古文物的損壞區(qū)域,都能進(jìn)行高質(zhì)量的數(shù)字化修復(fù),修復(fù)后的物體各個(gè)角度都保持一致。
Q2:ObjFiller-3D比以前的3D修復(fù)技術(shù)好在哪里?
A:傳統(tǒng)方法就像讓多個(gè)畫家分別畫同一物體的不同角度,結(jié)果往往不一致。ObjFiller-3D將3D修復(fù)轉(zhuǎn)化為視頻處理問(wèn)題,利用視頻模型天然的幀間一致性優(yōu)勢(shì),修復(fù)質(zhì)量(PSNR 26.6 vs 15.9)和速度(10分鐘 vs 40分鐘)都大幅超越以前的方法。
Q3:普通人可以使用ObjFiller-3D技術(shù)嗎?
A:目前ObjFiller-3D還主要用于學(xué)術(shù)研究和專業(yè)應(yīng)用,研究團(tuán)隊(duì)承諾將公開相關(guān)代碼和數(shù)據(jù)。未來(lái)這項(xiàng)技術(shù)有望應(yīng)用于博物館文物修復(fù)、游戲開發(fā)、電影制作等領(lǐng)域,最終可能發(fā)展成普通用戶也能使用的3D內(nèi)容創(chuàng)作工具。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語(yǔ)言模型的敘事推理能力與音頻生成技術(shù),通過(guò)交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過(guò)讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問(wèn)題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語(yǔ)言模型人性化對(duì)話問(wèn)題。該研究創(chuàng)建了包含20萬(wàn)高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過(guò)創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過(guò)學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來(lái)了效率和精度的雙重突破。