av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<blockquote id="df98p"><i id="df98p"></i></blockquote>

<big id="df98p"></big>

<cite id="df98p"><track id="df98p"><sub id="df98p"></sub></track></cite>

首頁(yè)
對(duì)話(huà)創(chuàng)新
對(duì)話(huà)科技行者
機(jī)器人新紀(jì)元
AI論文解讀
聯(lián)系我們

微信掃一掃，關(guān)注公眾號(hào)

科技行者
算力行者

見(jiàn)證連接與計(jì)算的「力量」

靜態(tài)與動(dòng)態(tài)的和諧：成功大學(xué)3D-4D高斯分布融合技術(shù)突破動(dòng)態(tài)場(chǎng)景建模效率瓶頸

計(jì)算機(jī)視覺(jué)3D高斯飛濺技術(shù)動(dòng)態(tài)場(chǎng)景重建

靜態(tài)與動(dòng)態(tài)的和諧：成功大學(xué)3D-4D高斯分布融合技術(shù)突破動(dòng)態(tài)場(chǎng)景建模效率瓶頸

作者：科技行者

2025-05-22 08:27

分享至：

這項(xiàng)研究提出了一種名為"混合3D-4D高斯分布"的新方法，巧妙解決了動(dòng)態(tài)場(chǎng)景重建的效率問(wèn)題。研究團(tuán)隊(duì)發(fā)現(xiàn)傳統(tǒng)4D高斯分布技術(shù)在處理靜態(tài)區(qū)域時(shí)存在大量冗余，因此開(kāi)發(fā)了自動(dòng)識(shí)別靜態(tài)/動(dòng)態(tài)區(qū)域的算法，并將靜態(tài)部分轉(zhuǎn)換為3D表示，動(dòng)態(tài)部分保留4D表示。實(shí)驗(yàn)證明，該方法在保持高品質(zhì)渲染的同時(shí)，將訓(xùn)練時(shí)間從數(shù)小時(shí)縮短至約12分鐘，為虛擬現(xiàn)實(shí)與增強(qiáng)現(xiàn)實(shí)應(yīng)用提供了更高效的動(dòng)態(tài)場(chǎng)景重建工具。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-05-22 08:27 ? 科技行者

這項(xiàng)由成功大學(xué)人工智能系的Seungjun Oh、Younggeun Lee、Hyejin Jeon以及延世大學(xué)人工智能系的Eunbyung Park共同完成的研究，發(fā)表于2025年5月19日的arXiv預(yù)印本平臺(tái)（arXiv:2505.13215v1），提出了一種名為"混合3D-4D高斯分布"（Hybrid 3D-4D Gaussian Splatting，簡(jiǎn)稱(chēng)3D-4DGS）的新型技術(shù)，為動(dòng)態(tài)場(chǎng)景重建帶來(lái)了顯著的效率提升。有興趣深入了解的讀者可以通過(guò)研究團(tuán)隊(duì)的項(xiàng)目網(wǎng)站https://ohsngjun.github.io/3D-4DGS/查看更多細(xì)節(jié)。

想象一下，當(dāng)你觀看一段VR視頻時(shí)，場(chǎng)景中有些物體在動(dòng)（比如人在行走），而其他元素則保持靜止（如背景墻壁和家具）。傳統(tǒng)技術(shù)往往用同一種方法來(lái)處理這兩種不同性質(zhì)的內(nèi)容，就像用同一種工具既要切面包又要鋸木頭一樣——效率低下且可能影響效果。

這正是當(dāng)前動(dòng)態(tài)場(chǎng)景三維重建技術(shù)面臨的核心挑戰(zhàn)。近年來(lái)，研究人員開(kāi)發(fā)了一系列基于神經(jīng)網(wǎng)絡(luò)的方法來(lái)實(shí)現(xiàn)高質(zhì)量的三維場(chǎng)景重建，特別是基于神經(jīng)輻射場(chǎng)（NeRF）的技術(shù)取得了顯著進(jìn)展。這些方法就像是一種"數(shù)字雕刻"，能夠從多張圖片中"雕刻"出完整的三維場(chǎng)景模型。

更近期的突破是3D高斯分布技術(shù)（3DGS），它使用一種特殊的數(shù)學(xué)工具——三維高斯分布（可以想象成三維空間中的小氣泡或云朵）來(lái)表示場(chǎng)景。這種方法相比NeRF有著更快的渲染速度和更好的視覺(jué)效果。當(dāng)研究人員嘗試將這種技術(shù)擴(kuò)展到動(dòng)態(tài)場(chǎng)景時(shí)，出現(xiàn)了兩種主要思路：一種是跟蹤高斯分布的運(yùn)動(dòng)（就像跟蹤移動(dòng)物體），另一種則是直接優(yōu)化四維高斯分布（4DGS），將時(shí)間作為額外的維度加入模型。

然而，這些方法都存在明顯的缺點(diǎn)。第一種方法在處理快速運(yùn)動(dòng)時(shí)表現(xiàn)不佳，就像用慢動(dòng)作攝像機(jī)無(wú)法清晰捕捉賽車(chē)一樣。第二種方法雖然效果好，但計(jì)算成本高昂，特別是當(dāng)它對(duì)場(chǎng)景中的靜態(tài)區(qū)域也使用復(fù)雜的時(shí)變參數(shù)時(shí)，這就像是用推土機(jī)來(lái)鏟一小堆沙子——大材小用且浪費(fèi)資源。

這就是Oh等人提出的混合3D-4D高斯分布技術(shù)的創(chuàng)新之處。他們的方法就像是一個(gè)聰明的導(dǎo)演，能夠識(shí)別場(chǎng)景中的"主角"（動(dòng)態(tài)部分）和"背景"（靜態(tài)部分），并為它們分配不同的"拍攝技術(shù)"。具體來(lái)說(shuō)，研究團(tuán)隊(duì)開(kāi)發(fā)了一種自動(dòng)分類(lèi)機(jī)制，將場(chǎng)景中的高斯分布分為靜態(tài)和動(dòng)態(tài)兩類(lèi)，靜態(tài)部分使用簡(jiǎn)單的3D高斯分布表示，而動(dòng)態(tài)部分則保留完整的4D表示能力。

這種混合表示方法帶來(lái)了顯著的性能提升。在標(biāo)準(zhǔn)的Neural 3D Video（N3V）數(shù)據(jù)集上進(jìn)行的實(shí)驗(yàn)表明，3D-4DGS僅需約12分鐘的訓(xùn)練時(shí)間就能達(dá)到與其他方法相當(dāng)甚至更好的渲染質(zhì)量，而傳統(tǒng)的4DGS則需要5.5小時(shí)。這就像是找到了一條高速公路，讓你以原來(lái)五分之一的時(shí)間到達(dá)同一個(gè)目的地。

接下來(lái)，讓我們深入了解這項(xiàng)技術(shù)的工作原理和實(shí)驗(yàn)結(jié)果。

一、高斯分布飛濺：一場(chǎng)三維重建的革命

在深入了解混合3D-4D高斯分布技術(shù)之前，我們需要先理解其基礎(chǔ)——3D高斯分布飛濺（3D Gaussian Splatting）。想象一下，如果你想用氣球來(lái)表示一個(gè)物體的形狀。普通氣球是圓形的，但如果你可以將氣球擠壓成各種形狀（橢圓形、扁平狀等），并在空間中擺放成千上萬(wàn)個(gè)這樣的氣球，那么你就能近似地表現(xiàn)出任何復(fù)雜物體的形狀和外觀。

這就是3D高斯分布的基本思想。每個(gè)"高斯"可以想象成一個(gè)三維空間中的氣球，它有自己的位置、大小、方向和顏色。當(dāng)我們從特定角度看這些"氣球"時(shí)，它們會(huì)投影到我們的視野中，形成一幅圖像。這個(gè)過(guò)程稱(chēng)為"飛濺"（Splatting），就像是將這些氣球潑灑到屏幕上一樣。

傳統(tǒng)的3D高斯分布技術(shù)主要用于靜態(tài)場(chǎng)景，但現(xiàn)實(shí)世界中的許多場(chǎng)景是動(dòng)態(tài)的——人物走動(dòng)、物體移動(dòng)等。為了捕捉這種變化，研究人員將時(shí)間作為第四個(gè)維度加入模型，發(fā)展出了4D高斯分布技術(shù)。

在4D高斯分布中，每個(gè)"氣球"不僅有空間屬性，還有一個(gè)時(shí)間屬性，表示它在哪個(gè)時(shí)刻存在或如何隨時(shí)間變化。這就像是給每個(gè)氣球添加了一個(gè)小馬達(dá)，讓它能夠按照特定路徑移動(dòng)。這種方法能夠很好地捕捉物體的運(yùn)動(dòng)，但代價(jià)是需要更多的計(jì)算資源和存儲(chǔ)空間。

特別是，4D高斯分布技術(shù)在處理靜態(tài)區(qū)域時(shí)效率低下。想象一面永遠(yuǎn)不動(dòng)的墻壁，用4D技術(shù)來(lái)表示它就相當(dāng)于在不同時(shí)間點(diǎn)重復(fù)存儲(chǔ)相同的信息，這無(wú)疑是一種浪費(fèi)。

二、混合3D-4D高斯分布：智能地區(qū)分靜與動(dòng)

Oh等人的創(chuàng)新之處在于，他們開(kāi)發(fā)了一種自動(dòng)識(shí)別靜態(tài)和動(dòng)態(tài)區(qū)域的方法，并對(duì)這兩類(lèi)區(qū)域采用不同的表示方式。這就像是一個(gè)聰明的攝影師，知道何時(shí)使用定格拍攝（對(duì)靜物），何時(shí)使用連續(xù)拍攝（對(duì)動(dòng)態(tài)物體）。

具體來(lái)說(shuō)，他們的方法首先將整個(gè)場(chǎng)景視為動(dòng)態(tài)的，使用4D高斯分布進(jìn)行表示。然后，系統(tǒng)會(huì)分析每個(gè)高斯分布的"時(shí)間尺度"參數(shù)。時(shí)間尺度可以理解為高斯分布在時(shí)間維度上的"延展性"。

想象一下，如果一個(gè)高斯分布的時(shí)間尺度很大，就意味著它在很長(zhǎng)一段時(shí)間內(nèi)都保持不變——也就是說(shuō)，它很可能表示的是場(chǎng)景中的靜態(tài)部分。相反，時(shí)間尺度小的高斯分布則可能表示場(chǎng)景中的動(dòng)態(tài)元素，因?yàn)樗枰S時(shí)間頻繁變化以捕捉運(yùn)動(dòng)。

研究團(tuán)隊(duì)設(shè)定了一個(gè)時(shí)間尺度閾值τ。當(dāng)一個(gè)高斯分布的時(shí)間尺度超過(guò)這個(gè)閾值時(shí)，系統(tǒng)會(huì)將其識(shí)別為"靜態(tài)"，并將其從4D表示轉(zhuǎn)換為更簡(jiǎn)單的3D表示。這個(gè)過(guò)程不是一次性完成的，而是在訓(xùn)練過(guò)程中逐步進(jìn)行，讓模型有足夠的時(shí)間來(lái)正確識(shí)別哪些部分是真正靜態(tài)的。

這種混合表示方法的最大優(yōu)勢(shì)在于，它可以顯著減少模型參數(shù)的數(shù)量。在實(shí)驗(yàn)中，研究團(tuán)隊(duì)發(fā)現(xiàn)大多數(shù)場(chǎng)景中，絕大部分高斯分布的時(shí)間尺度都很?。ǖ陀?.5），只有少數(shù)分布具有較大的時(shí)間尺度。通過(guò)將這些大時(shí)間尺度的分布轉(zhuǎn)換為3D表示，系統(tǒng)可以節(jié)省大量的計(jì)算資源和存儲(chǔ)空間。

三、技術(shù)實(shí)現(xiàn)：從4D到3D的優(yōu)雅過(guò)渡

那么，研究團(tuán)隊(duì)是如何實(shí)現(xiàn)從4D高斯分布到3D高斯分布的轉(zhuǎn)換的呢？這個(gè)過(guò)程可以想象成從一個(gè)復(fù)雜的四維積木拆解出一個(gè)更簡(jiǎn)單的三維積木。

在4D高斯分布中，每個(gè)分布都有一個(gè)四維空間中的均值（表示位置）和一個(gè)協(xié)方差矩陣（表示形狀和方向）。協(xié)方差矩陣通常被參數(shù)化為旋轉(zhuǎn)矩陣和縮放矩陣的組合。

當(dāng)系統(tǒng)識(shí)別出一個(gè)高斯分布是靜態(tài)的（基于其時(shí)間尺度），它會(huì)執(zhí)行以下轉(zhuǎn)換步驟：

首先，系統(tǒng)保留該高斯分布的空間位置（丟棄時(shí)間坐標(biāo)），并從四維旋轉(zhuǎn)矩陣中提取出三維部分。這就像是從一個(gè)復(fù)雜的四維積木中抽取出我們能看到的三維部分。

其次，系統(tǒng)固定該高斯分布的所有參數(shù)（位置、旋轉(zhuǎn)、顏色等），使其在整個(gè)時(shí)間序列中保持不變。這樣，這個(gè)高斯分布就成為了一個(gè)"永恒存在"的靜態(tài)元素。

這種轉(zhuǎn)換不僅簡(jiǎn)化了模型，還減少了需要在每個(gè)時(shí)間步更新的參數(shù)數(shù)量。在傳統(tǒng)的4D高斯分布方法中，每個(gè)時(shí)間步都需要計(jì)算所有高斯分布的參數(shù)。而在混合方法中，靜態(tài)高斯分布的參數(shù)保持不變，系統(tǒng)只需要更新動(dòng)態(tài)部分的參數(shù)。

通過(guò)這種方式，即使在處理長(zhǎng)時(shí)間序列（如40秒的視頻）時(shí)，模型依然能夠保持高效。這就像是在制作一部電影時(shí)，使用靜態(tài)背景板來(lái)表示不變的場(chǎng)景元素，只需要為移動(dòng)的角色制作動(dòng)畫(huà)，而不是為每一幀重新繪制整個(gè)場(chǎng)景。

四、優(yōu)化與渲染：無(wú)縫融合靜態(tài)與動(dòng)態(tài)

為了獲得最佳效果，研究團(tuán)隊(duì)還對(duì)優(yōu)化過(guò)程和渲染管線進(jìn)行了精心設(shè)計(jì)。

在優(yōu)化階段，系統(tǒng)首先使用完整的4D高斯分布模型進(jìn)行短期訓(xùn)練（約500次迭代），讓所有高斯分布有機(jī)會(huì)"穩(wěn)定下來(lái)"。然后，系統(tǒng)開(kāi)始應(yīng)用靜態(tài)/動(dòng)態(tài)識(shí)別機(jī)制，將滿(mǎn)足條件的高斯分布轉(zhuǎn)換為3D表示。

與此同時(shí)，系統(tǒng)對(duì)3D和4D高斯分布分別進(jìn)行自適應(yīng)密度控制和剪枝操作，確保每種表示都能得到充分優(yōu)化。這種分離的優(yōu)化策略大大加速了訓(xùn)練收斂速度。

在標(biāo)準(zhǔn)的4DGS訓(xùn)練中，每次迭代只會(huì)更新少量的4D高斯分布，因?yàn)樵S多分布在特定時(shí)間步不會(huì)對(duì)渲染產(chǎn)生顯著貢獻(xiàn)。相比之下，3D-4DGS方法中的靜態(tài)3D高斯分布在每次迭代中都會(huì)被更新，這使得模型能夠更快地收斂。

值得注意的是，研究團(tuán)隊(duì)還發(fā)現(xiàn)，在動(dòng)態(tài)場(chǎng)景重建中，傳統(tǒng)的"不透明度重置"技術(shù)（一種常用于消除靜態(tài)場(chǎng)景中的"浮動(dòng)物"的方法）可能會(huì)破壞時(shí)空優(yōu)化過(guò)程，特別是在訓(xùn)練時(shí)間有限的情況下。因此，他們選擇了一種直接的連續(xù)優(yōu)化方法，讓靜態(tài)和動(dòng)態(tài)高斯分布在整個(gè)訓(xùn)練過(guò)程中保持其不透明度，這實(shí)現(xiàn)了更穩(wěn)定的收斂。

最后，在渲染階段，系統(tǒng)將3D和4D高斯分布集成到一個(gè)統(tǒng)一的CUDA光柵化管線中。對(duì)于每個(gè)時(shí)間步，系統(tǒng)首先根據(jù)當(dāng)前時(shí)間對(duì)4D高斯分布進(jìn)行"切片"，生成瞬時(shí)3D高斯分布。然后，系統(tǒng)將這些瞬時(shí)分布與靜態(tài)3D高斯分布合并，投影到屏幕空間中，并按照前后順序進(jìn)行alpha混合，生成最終的渲染圖像。

通過(guò)這種無(wú)縫融合的方式，系統(tǒng)可以同時(shí)享受3D飛濺的效率和4D建模的靈活性，實(shí)現(xiàn)高質(zhì)量的動(dòng)態(tài)場(chǎng)景渲染。

五、實(shí)驗(yàn)結(jié)果：速度與質(zhì)量的雙重突破

研究團(tuán)隊(duì)在兩個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集上評(píng)估了他們的方法：Neural 3D Video（N3V）和Technicolor。N3V數(shù)據(jù)集包含六個(gè)多視角視頻序列，每個(gè)序列由18-21個(gè)攝像機(jī)捕捉，分辨率為2704×2028。其中五個(gè)序列持續(xù)10秒，一個(gè)序列持續(xù)40秒。Technicolor數(shù)據(jù)集包含16個(gè)攝像機(jī)捕捉的視頻記錄，分辨率為2048×1088。

實(shí)驗(yàn)結(jié)果令人印象深刻。在N3V數(shù)據(jù)集的10秒序列上，3D-4DGS僅需約12分鐘的訓(xùn)練時(shí)間就能達(dá)到32.25 dB的平均PSNR（峰值信噪比，一種圖像質(zhì)量評(píng)估指標(biāo)），超過(guò)了包括4DGS（需要5.5小時(shí)）在內(nèi)的多種最先進(jìn)方法。而在40秒的長(zhǎng)序列上，3D-4DGS在52分鐘內(nèi)就能達(dá)到29.2 dB的PSNR，這比其他方法快了一個(gè)數(shù)量級(jí)。

在Technicolor數(shù)據(jù)集上，即使使用更簡(jiǎn)單的稀疏COLMAP初始化（因?yàn)槊總€(gè)場(chǎng)景只有50幀），3D-4DGS也能在29分鐘內(nèi)達(dá)到33.22 dB的PSNR和0.911的SSIM（結(jié)構(gòu)相似性，另一種圖像質(zhì)量評(píng)估指標(biāo)）。相比之下，4DGS需要超過(guò)四小時(shí)才能達(dá)到相似的PSNR，而Ex4DGS雖然稍微精確一些，但也需要一小時(shí)多。

這些結(jié)果清楚地表明，通過(guò)智能區(qū)分靜態(tài)和動(dòng)態(tài)內(nèi)容，3D-4DGS不僅能夠顯著加速訓(xùn)練過(guò)程，還能保持甚至提高渲染質(zhì)量。這就像是找到了一條既能節(jié)省時(shí)間又不犧牲質(zhì)量的捷徑。

為了進(jìn)一步驗(yàn)證時(shí)間尺度閾值τ的影響，研究團(tuán)隊(duì)進(jìn)行了消融實(shí)驗(yàn)。他們發(fā)現(xiàn)，較低的閾值（如τ=2.5）會(huì)更激進(jìn)地將4D高斯分布轉(zhuǎn)換為3D，這可能會(huì)不當(dāng)?shù)貙?dòng)態(tài)內(nèi)容合并到靜態(tài)表示中，雖然能簡(jiǎn)化最終的幾何結(jié)構(gòu)，但可能會(huì)減少運(yùn)動(dòng)細(xì)節(jié)。相反，較高的閾值（如τ=3.5）在將高斯分布切換到3D時(shí)更為寬松，能夠保留微妙的動(dòng)態(tài)效果，但代價(jià)是較慢的收斂速度和更高的內(nèi)存使用率。中等范圍的設(shè)置（τ=3.0）在這些極端之間取得了平衡，保持了接近最優(yōu)的質(zhì)量，同時(shí)避免了過(guò)多的存儲(chǔ)開(kāi)銷(xiāo)。

此外，研究人員還可視化了空間分布的高斯分布，比較了他們的模型與4DGS的區(qū)別。結(jié)果顯示，原始的4DGS在靜態(tài)區(qū)域引入了大量高斯分布，暗示許多小時(shí)間尺度的4D高斯分布被用來(lái)表示場(chǎng)景的靜態(tài)部分。而他們的方法則在這些區(qū)域使用3D高斯分布，使高斯分布在整個(gè)場(chǎng)景中分布更加均勻。這進(jìn)一步證實(shí)了他們的方法能夠顯著減少冗余，降低內(nèi)存使用，加速優(yōu)化過(guò)程。

六、技術(shù)局限與未來(lái)方向

盡管3D-4DGS方法取得了顯著成功，但研究團(tuán)隊(duì)也坦率地指出了一些局限性。

首先，他們的啟發(fā)式尺度閾值設(shè)置可能需要進(jìn)一步精細(xì)化。目前，研究團(tuán)隊(duì)根據(jù)完全訓(xùn)練的4DGS中時(shí)間尺度的分布和目標(biāo)數(shù)據(jù)集的特性來(lái)經(jīng)驗(yàn)性地確定閾值τ。理想情況下，這個(gè)過(guò)程可以使用基于學(xué)習(xí)的或數(shù)據(jù)驅(qū)動(dòng)的方法來(lái)優(yōu)化。

其次，專(zhuān)門(mén)針對(duì)4D的密度控制策略可能進(jìn)一步減少冗余并優(yōu)化內(nèi)存使用。研究團(tuán)隊(duì)的方法目前直接采用了3DGS的密度控制策略，這可能不是4D場(chǎng)景的最優(yōu)選擇。基于3DGS密度控制的最新成功，開(kāi)發(fā)專(zhuān)門(mén)針對(duì)4D的方法可能會(huì)進(jìn)一步提高重建質(zhì)量和效率。

盡管存在這些局限性，3D-4DGS方法已經(jīng)為動(dòng)態(tài)場(chǎng)景重建設(shè)立了新的基準(zhǔn)，顯著提高了訓(xùn)練速度和渲染效率，同時(shí)保持了高質(zhì)量的視覺(jué)效果。這為實(shí)時(shí)動(dòng)態(tài)場(chǎng)景捕捉和渲染開(kāi)辟了新的可能性，有望在虛擬和增強(qiáng)現(xiàn)實(shí)、體育廣播、電影制作和現(xiàn)場(chǎng)表演等領(lǐng)域找到廣泛應(yīng)用。

這項(xiàng)研究不僅是對(duì)現(xiàn)有技術(shù)的改進(jìn)，更是對(duì)如何更有效地表示和處理動(dòng)態(tài)3D內(nèi)容的深刻思考。通過(guò)識(shí)別靜態(tài)和動(dòng)態(tài)部分并為它們分配不同的表示方法，研究團(tuán)隊(duì)展示了一種更加智能和高效的場(chǎng)景理解和重建方式。這種思路可能會(huì)影響未來(lái)更多領(lǐng)域的研究，如3D內(nèi)容壓縮、增量場(chǎng)景重建和實(shí)時(shí)交互系統(tǒng)。

總的來(lái)說(shuō)，混合3D-4D高斯分布技術(shù)代表了動(dòng)態(tài)場(chǎng)景重建的一個(gè)重要里程碑，它結(jié)合了3D和4D表示的優(yōu)勢(shì)，為創(chuàng)建更快、更高效和更高質(zhì)量的動(dòng)態(tài)3D內(nèi)容開(kāi)辟了新的道路。隨著虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)技術(shù)的不斷發(fā)展，這樣的方法將在塑造我們未來(lái)的數(shù)字體驗(yàn)中發(fā)揮關(guān)鍵作用。

計(jì)算機(jī)視覺(jué)3D高斯飛濺技術(shù)動(dòng)態(tài)場(chǎng)景重建

分享至

1贊

好文章，需要你的鼓勵(lì)

推薦文章

音頻生成
大語(yǔ)言模型
多模態(tài)AI

2025-09-10 09:47

如何讓AI像電影配樂(lè)師一樣創(chuàng)作完整的長(zhǎng)篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng)，首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語(yǔ)言模型的敘事推理能力與音頻生成技術(shù)，通過(guò)交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練，能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異，為AI音頻創(chuàng)作開(kāi)辟新方向。
視頻生成
深度學(xué)習(xí)
多模態(tài)學(xué)習(xí)

2025-09-09 13:57

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動(dòng)起來(lái)不再是奢望

Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù)，通過(guò)讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息，顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問(wèn)題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量，在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型，為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
多模態(tài)AI
人類(lèi)價(jià)值觀對(duì)齊
數(shù)據(jù)集構(gòu)建

2025-09-09 13:56

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說(shuō)人話(huà)"的神奇訓(xùn)練法，解決多模態(tài)AI與人類(lèi)價(jià)值觀對(duì)齊難題

上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究，首次系統(tǒng)性解決多模態(tài)大語(yǔ)言模型人性化對(duì)話(huà)問(wèn)題。該研究創(chuàng)建了包含20萬(wàn)高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn)，通過(guò)創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法，讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平，為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
人工智能
圖神經(jīng)網(wǎng)絡(luò)
天氣預(yù)報(bào)

2025-09-09 10:56

谷歌研究團(tuán)隊(duì)發(fā)布超級(jí)預(yù)測(cè)模型：讓AI像天氣預(yù)報(bào)員一樣預(yù)測(cè)全球大氣變化

谷歌DeepMind團(tuán)隊(duì)開(kāi)發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型，能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào)，準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù)，通過(guò)學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律，在極端天氣預(yù)測(cè)方面表現(xiàn)卓越，能耗僅為傳統(tǒng)方法的千分之一，為氣象學(xué)領(lǐng)域帶來(lái)了效率和精度的雙重突破。

如何讓AI像電影配樂(lè)師一樣創(chuàng)作完整的長(zhǎng)篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

如何讓AI像電影配樂(lè)師一樣創(chuàng)作完整的長(zhǎng)篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

2025-09-10 09:47

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動(dòng)起來(lái)不再是奢望

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動(dòng)起來(lái)不再是奢望

2025-09-09 13:57

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說(shuō)人話(huà)"的神奇訓(xùn)練法，解決多模態(tài)AI與人類(lèi)價(jià)值觀對(duì)齊難題

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說(shuō)人話(huà)"的神奇訓(xùn)練法，解決多模態(tài)AI與人類(lèi)價(jià)值觀對(duì)齊難題

2025-09-09 13:56

谷歌研究團(tuán)隊(duì)發(fā)布超級(jí)預(yù)測(cè)模型：讓AI像天氣預(yù)報(bào)員一樣預(yù)測(cè)全球大氣變化

谷歌研究團(tuán)隊(duì)發(fā)布超級(jí)預(yù)測(cè)模型：讓AI像天氣預(yù)報(bào)員一樣預(yù)測(cè)全球大氣變化

2025-09-09 10:56

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時(shí)代

京ICP證15039648號(hào) 京ICP備15039648號(hào)-9 京公網(wǎng)安備 11010802021500號(hào)

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報(bào)電話(huà)：010-62641205　涉未成年人舉報(bào)專(zhuān)線：010-62641208 舉報(bào)郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報(bào)專(zhuān)區(qū)：https://www.12377.cn