av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁 阿里巴巴推出LHM:讓單張照片瞬間變身可動(dòng)3D人物的神奇技術(shù)

阿里巴巴推出LHM:讓單張照片瞬間變身可動(dòng)3D人物的神奇技術(shù)

2025-07-30 09:49
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-07-30 09:49 ? 科技行者

這項(xiàng)由阿里巴巴通義實(shí)驗(yàn)室的邱令騰、顧曉東、李佩豪、左琦等多位研究人員共同完成的突破性研究,于2025年3月發(fā)表在計(jì)算機(jī)視覺領(lǐng)域的頂級會(huì)議上。有興趣深入了解的讀者可以通過arXiv:2503.10625v1訪問完整論文。研究團(tuán)隊(duì)開發(fā)了一個(gè)名為LHM(Large Animatable Human Reconstruction Model)的大型人體重建模型,能夠在幾秒鐘內(nèi)將單張人物照片轉(zhuǎn)換成可以自由運(yùn)動(dòng)的3D虛擬人物。

想象你拿著一張朋友的照片,突然這個(gè)平面的人物活了過來,可以走路、跳舞、做各種動(dòng)作——這聽起來像是科幻電影中的場景,但阿里巴巴的研究團(tuán)隊(duì)已經(jīng)把它變成了現(xiàn)實(shí)。傳統(tǒng)上,要從單張照片創(chuàng)建一個(gè)能夠活動(dòng)的3D人物,就像試圖從一張蛋糕的照片推測出整個(gè)蛋糕的味道、質(zhì)地和內(nèi)部結(jié)構(gòu)一樣困難。照片只能告訴我們?nèi)宋锏恼嫱庥^,卻無法透露背面長什么樣,更別說如何讓這個(gè)人物自然地運(yùn)動(dòng)了。

這個(gè)問題的核心挑戰(zhàn)在于,當(dāng)我們看到一張人物照片時(shí),需要同時(shí)解決三個(gè)復(fù)雜的謎題:這個(gè)人的完整三維形狀是什么樣的(幾何信息),他們的衣服和皮膚是什么顏色和質(zhì)感的(外觀信息),以及當(dāng)他們運(yùn)動(dòng)時(shí)身體各部分應(yīng)該如何協(xié)調(diào)變形(運(yùn)動(dòng)信息)。這就像是一個(gè)偵探需要僅憑一個(gè)腳印就推斷出整個(gè)人的身高、體重、走路姿態(tài),甚至預(yù)測他在跳舞時(shí)的樣子。

傳統(tǒng)的解決方案要么像老式的木偶戲一樣,雖然能讓人物動(dòng)起來,但動(dòng)作僵硬不自然;要么像精雕細(xì)琢的藝術(shù)品,外觀很逼真,但完全不能動(dòng)。而那些試圖兩者兼顧的方法,往往需要花費(fèi)數(shù)分鐘甚至數(shù)小時(shí)的計(jì)算時(shí)間,就像用放大鏡一點(diǎn)一點(diǎn)地雕刻一樣慢。

阿里巴巴的研究團(tuán)隊(duì)提出了一個(gè)完全不同的解決思路。他們的LHM系統(tǒng)就像一個(gè)訓(xùn)練有素的魔術(shù)師,能夠在短短幾秒鐘內(nèi)完成這個(gè)看似不可能的任務(wù)。這個(gè)系統(tǒng)的核心創(chuàng)新在于使用了一種特殊的"多模態(tài)變換器"架構(gòu),可以同時(shí)處理和理解照片中的視覺信息和三維空間的幾何信息。

這種多模態(tài)變換器的工作原理可以比作一個(gè)經(jīng)驗(yàn)豐富的服裝設(shè)計(jì)師。當(dāng)設(shè)計(jì)師看到一張人物照片時(shí),他們不僅能看出這個(gè)人穿的是什么衣服,還能憑借豐富的經(jīng)驗(yàn)推斷出衣服的剪裁、面料的垂墜感,甚至想象出這個(gè)人走動(dòng)時(shí)衣服會(huì)如何擺動(dòng)。LHM系統(tǒng)通過深度學(xué)習(xí)訓(xùn)練,獲得了類似的"經(jīng)驗(yàn)"和"直覺"。

研究團(tuán)隊(duì)使用了一個(gè)巧妙的設(shè)計(jì)來解決人體重建的復(fù)雜性。他們首先從SMPL-X人體模型中采樣表面點(diǎn),這些點(diǎn)就像是給人體搭建的一個(gè)基礎(chǔ)框架,類似于制作雕塑時(shí)先搭建的鐵絲骨架。然后,系統(tǒng)會(huì)在這個(gè)框架的基礎(chǔ)上,根據(jù)輸入照片的信息來"填充血肉",預(yù)測出每個(gè)位置應(yīng)該有什么樣的三維高斯分布。

這里需要解釋一下什么是三維高斯分布??梢园阉胂蟪梢粋€(gè)個(gè)大小不同、方向各異的透明氣泡。每個(gè)氣泡都有自己的位置、大小、朝向、透明度和顏色。當(dāng)成千上萬個(gè)這樣的"氣泡"組合在一起時(shí),就能形成一個(gè)完整的、具有豐富細(xì)節(jié)的三維人物模型。這種表示方法的優(yōu)勢在于,它既能保持高質(zhì)量的視覺效果,又能支持實(shí)時(shí)渲染,就像現(xiàn)代游戲中的角色一樣流暢自然。

為了讓重建出的3D人物能夠真實(shí)地運(yùn)動(dòng),研究團(tuán)隊(duì)采用了線性混合蒙皮技術(shù)。這個(gè)技術(shù)的工作原理就像木偶師操控提線木偶一樣。每個(gè)"氣泡"都通過虛擬的"線"連接到人體骨骼上,當(dāng)骨骼移動(dòng)時(shí),相關(guān)的"氣泡"也會(huì)跟著協(xié)調(diào)運(yùn)動(dòng),從而實(shí)現(xiàn)自然的身體變形和運(yùn)動(dòng)效果。

考慮到人臉是最容易被觀察者注意到的部分,研究團(tuán)隊(duì)特別設(shè)計(jì)了一個(gè)"頭部特征金字塔編碼"方案來增強(qiáng)面部細(xì)節(jié)的保持。這個(gè)方案就像攝影師使用不同焦距的鏡頭來拍攝同一個(gè)主題一樣,從多個(gè)尺度來捕獲面部特征。近距離的"鏡頭"能夠捕捉到皮膚紋理、眼睛的細(xì)節(jié)等高頻信息,而遠(yuǎn)距離的"鏡頭"則能把握整個(gè)面部的結(jié)構(gòu)和比例。通過融合這些不同尺度的信息,系統(tǒng)能夠更好地保持人物的面部特征和身份特征。

在訓(xùn)練過程中,研究團(tuán)隊(duì)面臨一個(gè)實(shí)際問題:獲取大量高質(zhì)量的三維人體數(shù)據(jù)是極其困難和昂貴的,就像試圖收集博物館級別的藝術(shù)品一樣稀少珍貴。為了解決這個(gè)問題,他們采用了一種聰明的自監(jiān)督學(xué)習(xí)策略。系統(tǒng)不需要真實(shí)的三維人體數(shù)據(jù)作為"標(biāo)準(zhǔn)答案",而是通過觀看大量視頻來學(xué)習(xí)。

這個(gè)學(xué)習(xí)過程可以這樣理解:系統(tǒng)觀看一個(gè)人在視頻中的多個(gè)動(dòng)作片段,試圖從一個(gè)角度的圖像重建出完整的三維模型,然后將這個(gè)模型轉(zhuǎn)換到其他角度進(jìn)行驗(yàn)證。如果重建的模型是準(zhǔn)確的,那么從不同角度渲染出的圖像應(yīng)該與視頻中對應(yīng)角度的真實(shí)圖像相匹配。通過這種方式,系統(tǒng)逐漸學(xué)會(huì)了如何從有限的視覺信息中推斷出完整的三維結(jié)構(gòu)和運(yùn)動(dòng)規(guī)律。

研究團(tuán)隊(duì)在訓(xùn)練數(shù)據(jù)的準(zhǔn)備上也下了很大功夫。他們從50萬個(gè)初始的人體運(yùn)動(dòng)視頻樣本中,通過多階段的篩選流程,最終精選出30萬多個(gè)高質(zhì)量的單人視頻序列。這個(gè)篩選過程就像電影制片人從海量素材中挑選最佳鏡頭一樣嚴(yán)格,要確保每個(gè)視頻都沒有多人互動(dòng)、面部遮擋或質(zhì)量問題。

為了解決自然視頻中視角分布不均的問題(大多數(shù)視頻都是正面或側(cè)面拍攝,很少有背面或俯視角度),研究團(tuán)隊(duì)還補(bǔ)充了合成數(shù)據(jù)。他們使用了三個(gè)來源的高保真三維人體掃描數(shù)據(jù):2K2K數(shù)據(jù)集的1000個(gè)紋理模型、Human4DiT的4324個(gè)紋理角色,以及400個(gè)來自RenderPeople的商業(yè)資產(chǎn),總共形成了5724個(gè)高保真三維人體掃描模型。

在技術(shù)實(shí)現(xiàn)上,LHM系統(tǒng)采用了一種獨(dú)特的"多模態(tài)身體-頭部變換器"架構(gòu)。這個(gè)架構(gòu)的設(shè)計(jì)理念是讓系統(tǒng)能夠同時(shí)關(guān)注全身和面部的細(xì)節(jié),就像一個(gè)經(jīng)驗(yàn)豐富的肖像畫家能夠在把握整體比例的同時(shí),也不忽略面部表情的微妙變化。

系統(tǒng)首先將輸入圖像分解為身體圖像標(biāo)記和頭部圖像標(biāo)記,同時(shí)生成三維幾何標(biāo)記。這些不同類型的信息就像拼圖的不同部分,需要巧妙地組合才能形成完整的圖像。多模態(tài)變換器通過注意力機(jī)制讓這些不同的信息相互"對話",幾何標(biāo)記能夠有效地關(guān)注到圖像標(biāo)記的相關(guān)部分,從而實(shí)現(xiàn)局部和全局的細(xì)節(jié)優(yōu)化。

為了防止系統(tǒng)過分依賴頭部區(qū)域的特征而忽略身體部分的學(xué)習(xí),研究團(tuán)隊(duì)引入了一個(gè)巧妙的"頭部標(biāo)記收縮正則化"策略。這個(gè)策略的靈感來自于機(jī)器學(xué)習(xí)中的掩碼自編碼器技術(shù),在訓(xùn)練過程中隨機(jī)遮擋頭部區(qū)域的0%到50%,迫使系統(tǒng)學(xué)會(huì)更好地利用身體上下文信息。這就像訓(xùn)練一個(gè)畫家,有時(shí)候故意遮住模特的臉部,讓畫家學(xué)會(huì)通過身體姿態(tài)和整體輪廓來把握人物特征。

在損失函數(shù)的設(shè)計(jì)上,研究團(tuán)隊(duì)采用了一種綜合的優(yōu)化策略,結(jié)合了視圖空間監(jiān)督和規(guī)范空間正則化。視圖空間監(jiān)督包括三個(gè)部分:外觀損失確保重建模型在視覺上與輸入圖像相符,輪廓損失保證幾何對齊,感知質(zhì)量損失則保持高頻細(xì)節(jié)。

規(guī)范空間正則化則解決了單目重建固有的不適定問題。由于從單張照片重建三維模型本質(zhì)上是一個(gè)信息不足的問題,需要額外的約束來確保結(jié)果的合理性。研究團(tuán)隊(duì)設(shè)計(jì)了兩種互補(bǔ)的正則化項(xiàng):高斯形狀正則化鼓勵(lì)三維高斯分布保持接近球形,避免出現(xiàn)不自然的針狀橢球;位置錨定正則化則確保高斯分布的位置不會(huì)偏離初始的SMPL-X表面太遠(yuǎn),就像給飛翔的風(fēng)箏系上線繩一樣。

在實(shí)驗(yàn)驗(yàn)證方面,研究團(tuán)隊(duì)進(jìn)行了全面的對比實(shí)驗(yàn)。他們將LHM與現(xiàn)有的幾種主流方法進(jìn)行了比較,包括專注于靜態(tài)重建的GTA、SIFu、PSHuman和DreamGaussian,以及專注于可動(dòng)畫重建的En3D和AniGS。

實(shí)驗(yàn)結(jié)果顯示,LHM在多個(gè)評估指標(biāo)上都顯著優(yōu)于現(xiàn)有方法。在合成數(shù)據(jù)的評估中,LHM-0.5B模型在峰值信噪比(PSNR)指標(biāo)上達(dá)到了25.183,遠(yuǎn)高于其他方法的16-18范圍。在結(jié)構(gòu)相似性指數(shù)(SSIM)上達(dá)到0.951,在感知損失(LPIPS)上僅為0.029,在面部一致性(FC)上為0.035,這些數(shù)字表明LHM不僅能生成更清晰的圖像,還能更好地保持原始照片中人物的身份特征。

在真實(shí)數(shù)據(jù)的可動(dòng)畫人體重建任務(wù)上,LHM的優(yōu)勢更加明顯。與最佳的基線方法AniGS相比,LHM-0.5B在PSNR上提升了3.322,在SSIM上提升了0.059,在LPIPS上改善了0.063,在面部一致性上提升了0.018。更重要的是,LHM的推理時(shí)間僅需2.01秒,而AniGS需要15分鐘,En3D需要5分鐘,這種效率上的巨大差異使得LHM更適合實(shí)際應(yīng)用。

研究團(tuán)隊(duì)還驗(yàn)證了模型的可擴(kuò)展性。他們訓(xùn)練了不同參數(shù)規(guī)模的模型變體:LHM-0.5B(5億參數(shù))、LHM-0.7B(7億參數(shù))和LHM-1B(10億參數(shù))。實(shí)驗(yàn)結(jié)果證實(shí),隨著模型參數(shù)的增加,性能也相應(yīng)提升,這表明該架構(gòu)具有良好的可擴(kuò)展性,為未來的進(jìn)一步改進(jìn)留下了空間。

數(shù)據(jù)規(guī)模的影響也得到了驗(yàn)證。研究團(tuán)隊(duì)使用不同大小的訓(xùn)練數(shù)據(jù)集(從1萬個(gè)視頻到30萬個(gè)視頻)進(jìn)行了對比實(shí)驗(yàn)。結(jié)果表明,僅使用合成數(shù)據(jù)訓(xùn)練的模型在真實(shí)數(shù)據(jù)上的泛化能力較差,而加入真實(shí)視頻數(shù)據(jù)后性能顯著提升。隨著訓(xùn)練數(shù)據(jù)規(guī)模的增加,模型性能持續(xù)改善,雖然改善幅度逐漸遞減,但這證明了大規(guī)模數(shù)據(jù)訓(xùn)練的重要性。

在消融實(shí)驗(yàn)中,研究團(tuán)隊(duì)驗(yàn)證了各個(gè)組件的有效性。多模態(tài)身體-頭部變換器相比于普通的多模態(tài)變換器,在各項(xiàng)指標(biāo)上都有顯著提升。頭部標(biāo)記收縮正則化策略也被證明能夠提升整體性能,盡管在面部一致性上有輕微下降,但這是為了獲得更好的全身重建質(zhì)量而做出的權(quán)衡。

從視覺質(zhì)量的角度來看,LHM重建的3D人物在外觀保真度和紋理清晰度方面都表現(xiàn)出色,特別是在面部細(xì)節(jié)和服裝皺褶等方面。與其他方法相比,LHM能夠更好地保持輸入圖像的特征,避免過度平滑等常見問題。在動(dòng)畫效果方面,LHM生成的可動(dòng)畫人物能夠自然地執(zhí)行各種動(dòng)作,包括走路、跳躍、舞蹈等復(fù)雜運(yùn)動(dòng),而且在極端姿態(tài)下也能保持較好的視覺連貫性。

這項(xiàng)研究的意義遠(yuǎn)不止于技術(shù)層面的突破。在虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)應(yīng)用中,LHM可以讓用戶快速創(chuàng)建自己的虛擬化身,用于社交、游戲或工作場景。在電影和游戲制作中,這項(xiàng)技術(shù)可以大大降低角色建模的成本和時(shí)間,讓獨(dú)立創(chuàng)作者也能制作出高質(zhì)量的3D角色。在教育和培訓(xùn)領(lǐng)域,可以快速創(chuàng)建教學(xué)用的虛擬人物,提供更加生動(dòng)的學(xué)習(xí)體驗(yàn)。

從商業(yè)應(yīng)用的角度來看,這項(xiàng)技術(shù)可能會(huì)改變數(shù)字內(nèi)容創(chuàng)作的格局。傳統(tǒng)上,創(chuàng)建一個(gè)高質(zhì)量的3D人物角色需要專業(yè)的建模師花費(fèi)數(shù)天甚至數(shù)周的時(shí)間,現(xiàn)在普通用戶只需要一張照片和幾秒鐘的等待就能獲得類似的結(jié)果。這種效率的提升可能會(huì)催生新的商業(yè)模式和應(yīng)用場景。

研究團(tuán)隊(duì)也坦誠地討論了當(dāng)前方法的局限性。由于真實(shí)世界的視頻數(shù)據(jù)往往存在視角分布偏差,模型在處理一些不常見的視角或極端姿態(tài)時(shí)可能仍有改進(jìn)空間。此外,雖然系統(tǒng)在大多數(shù)情況下都能很好地工作,但對于一些特殊的服裝材質(zhì)或復(fù)雜的光照條件,重建質(zhì)量可能會(huì)有所下降。

展望未來,研究團(tuán)隊(duì)計(jì)劃進(jìn)一步改進(jìn)訓(xùn)練策略,收集更加多樣化和全面的數(shù)據(jù)集,以增強(qiáng)模型的魯棒性。他們也在探索如何將這項(xiàng)技術(shù)擴(kuò)展到多人場景和更復(fù)雜的交互情況。隨著計(jì)算能力的提升和算法的進(jìn)一步優(yōu)化,未來的版本可能會(huì)在質(zhì)量和速度上實(shí)現(xiàn)更大的突破。

說到底,LHM代表了計(jì)算機(jī)視覺和人工智能領(lǐng)域的一個(gè)重要進(jìn)步,它將單張照片到可動(dòng)畫3D人物重建這個(gè)曾經(jīng)需要專業(yè)技能和大量時(shí)間的任務(wù),轉(zhuǎn)變成了一個(gè)幾秒鐘就能完成的自動(dòng)化過程。這不僅僅是技術(shù)上的突破,更是數(shù)字內(nèi)容創(chuàng)作民主化的一個(gè)重要步驟。當(dāng)任何人都能輕松地從一張照片創(chuàng)建出栩栩如生的3D虛擬人物時(shí),我們可以期待看到更多創(chuàng)新的應(yīng)用和更豐富的數(shù)字體驗(yàn)。對于那些希望了解更多技術(shù)細(xì)節(jié)的讀者,可以訪問研究團(tuán)隊(duì)在GitHub上公開的代碼庫(https://github.com/aigc3d/LHM),親自體驗(yàn)這項(xiàng)令人興奮的技術(shù)。

Q&A

Q1:LHM技術(shù)能處理什么樣的照片?有什么要求嗎? A:LHM可以處理各種常見的人物照片,包括不同角度、不同服裝、不同姿勢的單人照片。系統(tǒng)對照片質(zhì)量要求不高,普通手機(jī)拍攝的照片就能使用。但需要注意的是,照片中只能有一個(gè)人,且人物不能被嚴(yán)重遮擋。面部清晰可見的照片效果會(huì)更好,但即使是側(cè)面或背面的照片也能處理。

Q2:生成的3D人物能做哪些動(dòng)作?動(dòng)作自然嗎? A:生成的3D人物可以執(zhí)行各種常見的人體動(dòng)作,包括走路、跑步、跳躍、舞蹈、揮手等。由于使用了SMPL-X人體模型作為骨架,理論上可以驅(qū)動(dòng)任何符合人體運(yùn)動(dòng)學(xué)的動(dòng)作。動(dòng)作的自然程度很高,特別是在常見姿態(tài)下表現(xiàn)優(yōu)秀。不過在一些極端姿態(tài)下,可能會(huì)出現(xiàn)輕微的變形或不自然現(xiàn)象。

Q3:這項(xiàng)技術(shù)會(huì)不會(huì)被用來制作虛假視頻或進(jìn)行欺騙? A:確實(shí)存在這種風(fēng)險(xiǎn)。任何能夠生成逼真人物圖像或視頻的技術(shù)都可能被惡意使用。不過,研究團(tuán)隊(duì)開發(fā)這項(xiàng)技術(shù)的初衷是為了推動(dòng)數(shù)字內(nèi)容創(chuàng)作和虛擬現(xiàn)實(shí)應(yīng)用的發(fā)展。重要的是建立相應(yīng)的倫理規(guī)范和技術(shù)檢測手段,確保技術(shù)被正當(dāng)使用。同時(shí),提高公眾對此類技術(shù)的認(rèn)知也很重要。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-