av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<pre id="myejs"><strike id="myejs"><input id="myejs"></input></strike></pre>

<cite id="myejs"><track id="myejs"></track></cite>

首頁(yè)
對(duì)話(huà)創(chuàng)新
對(duì)話(huà)科技行者
機(jī)器人新紀(jì)元
AI論文解讀
聯(lián)系我們

微信掃一掃，關(guān)注公眾號(hào)

科技行者
算力行者

見(jiàn)證連接與計(jì)算的「力量」

BinauralFlow：元(Meta)團(tuán)隊(duì)開(kāi)發(fā)的超高質(zhì)量空間音頻技術(shù)，讓虛擬聲音像真實(shí)世界一樣環(huán)繞你的耳朵

空間音頻流匹配模型虛擬現(xiàn)實(shí)

BinauralFlow：元(Meta)團(tuán)隊(duì)開(kāi)發(fā)的超高質(zhì)量空間音頻技術(shù)，讓虛擬聲音像真實(shí)世界一樣環(huán)繞你的耳朵

作者：科技行者

2025-07-07 17:36

分享至：

Meta和羅切斯特大學(xué)研究團(tuán)隊(duì)開(kāi)發(fā)的BinauralFlow是一種突破性雙耳語(yǔ)音合成框架，通過(guò)流匹配模型實(shí)現(xiàn)高質(zhì)量空間音頻生成。該技術(shù)將雙耳渲染視為生成任務(wù)而非傳統(tǒng)回歸問(wèn)題，并創(chuàng)新性地設(shè)計(jì)了因果U-Net架構(gòu)與連續(xù)推理管道，實(shí)現(xiàn)了流式推理能力。感知測(cè)試顯示，生成的音頻與真實(shí)錄音幾乎無(wú)法區(qū)分（42%混淆率）。這項(xiàng)技術(shù)為VR/AR、游戲和影視等領(lǐng)域提供了更沉浸式的音頻體驗(yàn)解決方案。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-07-07 17:36 ? 科技行者

這項(xiàng)由羅切斯特大學(xué)的Susan Liang與Meta公司Codec Avatars實(shí)驗(yàn)室的Dejan Markovic、Israel D. Gebru、Steven Krenn、Todd Keebler、Jacob Sandakly、Frank Yu、Samuel Hassel、Chenliang Xu和Alexander Richard共同完成的研究，發(fā)表于2025年5月的第42屆國(guó)際機(jī)器學(xué)習(xí)大會(huì)(ICML 2025)。有興趣深入了解的讀者可通過(guò)文中項(xiàng)目頁(yè)面https://liangsusan-git.github.io/project/binauralflow/訪問(wèn)更多演示視頻。

一、聲音也能"身臨其境"？認(rèn)識(shí)雙耳空間音頻

想象這樣一個(gè)場(chǎng)景：你戴著耳機(jī)，閉上眼睛。突然，你聽(tīng)到有人在你左邊說(shuō)話(huà)，聲音從遠(yuǎn)到近；接著，腳步聲從你背后繞到右邊，仿佛真有人在你周?chē)苿?dòng)。這種能讓聲音在三維空間中精確定位的技術(shù)，就是我們今天要講的"雙耳空間音頻"（也稱(chēng)為"雙耳聲音"或"3D音頻"）。

與普通的單聲道音頻（只有內(nèi)容，沒(méi)有空間感）不同，雙耳空間音頻通過(guò)兩個(gè)音頻通道（對(duì)應(yīng)你的左右耳），創(chuàng)造出聲音來(lái)自不同方向和距離的感覺(jué)。這種技術(shù)對(duì)提升沉浸感和用戶(hù)體驗(yàn)至關(guān)重要，被廣泛應(yīng)用于電影、游戲，以及虛擬現(xiàn)實(shí)(VR)、增強(qiáng)現(xiàn)實(shí)(AR)和混合現(xiàn)實(shí)(MR)等快速發(fā)展的領(lǐng)域。

雖然研究人員在這個(gè)領(lǐng)域已經(jīng)做了大量工作，但現(xiàn)有的雙耳音頻合成方法仍面臨兩大挑戰(zhàn)：一是渲染質(zhì)量不夠高，無(wú)法達(dá)到與真實(shí)錄音無(wú)法區(qū)分的程度；二是無(wú)法實(shí)現(xiàn)因果性和流式推理，也就是說(shuō)，無(wú)法實(shí)時(shí)連續(xù)地生成高質(zhì)量的空間音頻。

Meta和羅切斯特大學(xué)的研究團(tuán)隊(duì)提出了一種名為"BinauralFlow"的全新解決方案，這是一種基于流匹配模型（Flow Matching Models）的雙耳語(yǔ)音合成框架，不僅能生成高質(zhì)量的雙耳音頻，還支持流式推理，讓音頻合成過(guò)程能夠?qū)崟r(shí)連續(xù)進(jìn)行。

二、傳統(tǒng)方法難以逾越的障礙

為什么生成真正逼真的雙耳音頻如此之難？要回答這個(gè)問(wèn)題，我們需要理解聲音在現(xiàn)實(shí)世界中的傳播特性。

想象你站在一個(gè)房間里，有人在說(shuō)話(huà)。這個(gè)聲音到達(dá)你耳朵的過(guò)程中會(huì)發(fā)生很多事情：聲源與聽(tīng)者之間的距離會(huì)影響聲音的整體音量（越遠(yuǎn)音量越小）；它們的相對(duì)方向會(huì)影響你感知到的聲音方向（例如，時(shí)間差和音量差）；聲音會(huì)在房間內(nèi)的墻壁、地板、天花板和物體上反射，產(chǎn)生回聲和混響；房間內(nèi)還會(huì)有各種背景噪音，如空調(diào)聲、電子設(shè)備的嗡鳴等。

現(xiàn)有的方法大致可分為兩類(lèi)：數(shù)字音頻渲染和神經(jīng)音頻渲染。

數(shù)字音頻渲染方法使用數(shù)字信號(hào)處理技術(shù)，通過(guò)一系列線(xiàn)性時(shí)不變系統(tǒng)來(lái)估計(jì)雙耳音頻，包括房間沖激響應(yīng)、頭部相關(guān)傳遞函數(shù)和疊加環(huán)境噪聲。但由于簡(jiǎn)化的幾何模擬、非個(gè)性化的頭部相關(guān)傳遞函數(shù)和假設(shè)的靜態(tài)噪聲，真實(shí)錄音和生成聲音之間存在明顯的質(zhì)量差距。

神經(jīng)音頻渲染方法則利用深度神經(jīng)網(wǎng)絡(luò)的強(qiáng)大擬合能力。比如，Gao和Grauman開(kāi)發(fā)了一種視覺(jué)引導(dǎo)的雙耳化網(wǎng)絡(luò)，根據(jù)視頻幀生成雙耳音頻；Richard等人設(shè)計(jì)了一個(gè)神經(jīng)變形網(wǎng)絡(luò)，根據(jù)時(shí)間延遲和聽(tīng)者位置來(lái)變形單聲道音頻。雖然這些方法能夠產(chǎn)生合理的語(yǔ)音結(jié)果，但它們的回歸機(jī)制限制了生成能力，無(wú)法生成輸入數(shù)據(jù)中缺失的精確房間聲學(xué)和環(huán)境噪聲。

此外，大多數(shù)先進(jìn)的神經(jīng)渲染方法不支持連續(xù)合成，這是因?yàn)樗鼈兪褂梅且蚬Ｐ图軜?gòu)和低效的多步推理程序。

三、BinauralFlow：重新思考音頻生成

為了解決上述問(wèn)題，研究團(tuán)隊(duì)提出了BinauralFlow，這是一個(gè)流匹配的流式雙耳語(yǔ)音生成框架。這個(gè)方法的核心是將雙耳渲染問(wèn)題視為一個(gè)生成任務(wù)，而不是傳統(tǒng)的回歸任務(wù)。

### 1. 條件流匹配模型：雙耳音頻的魔法烹飪

傳統(tǒng)方法嘗試用回歸方式預(yù)測(cè)混響效果和背景噪聲是很困難的，因?yàn)檫@些特征在輸入音頻信號(hào)中不存在，而且它們表現(xiàn)出隨機(jī)行為。BinauralFlow將這個(gè)問(wèn)題重新定義為一個(gè)生成任務(wù)。

想象流匹配模型就像一位廚師，開(kāi)始時(shí)有一堆原料（噪聲），通過(guò)精確控制的烹飪過(guò)程（去噪過(guò)程），最終做出一道美味佳肴（雙耳音頻）。這個(gè)"烹飪"過(guò)程需要遵循一個(gè)"食譜"（向量場(chǎng)），告訴廚師每一步如何處理食材。

具體來(lái)說(shuō)，研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)條件流匹配模型，通過(guò)增強(qiáng)感知真實(shí)性來(lái)渲染逼真的聲學(xué)效果和動(dòng)態(tài)環(huán)境噪聲。為了增強(qiáng)渲染的雙耳語(yǔ)音與精確的雙耳提示，他們將模型條件設(shè)置為聲源和接收者的姿態(tài)，以指導(dǎo)語(yǔ)音渲染。

在技術(shù)層面，這個(gè)過(guò)程首先將單聲道音頻和雙耳音頻從時(shí)間域轉(zhuǎn)換到時(shí)頻域，使用短時(shí)傅里葉變換(STFT)。然后，模型采樣一個(gè)隨機(jī)噪聲，中心在單聲道輸入周?chē)?。流匹配模型的目?biāo)是設(shè)計(jì)一個(gè)流，將源數(shù)據(jù)（噪聲）移動(dòng)到目標(biāo)數(shù)據(jù)（雙耳音頻）。

研究團(tuán)隊(duì)使用了最優(yōu)傳輸公式來(lái)定義流函數(shù)，它在時(shí)間步t是源和目標(biāo)之間的線(xiàn)性插值。當(dāng)t=0時(shí)，分布圍繞單聲道音頻；當(dāng)t逐漸增加，分布的均值線(xiàn)性地從單聲道移向雙耳音頻，同時(shí)標(biāo)準(zhǔn)差減小。t=1時(shí)，分布收縮到雙耳音頻。

通過(guò)這種方式，定義的流將圍繞輸入音頻中心的樣本移動(dòng)到雙耳音頻，方差逐漸減小。研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)深度神經(jīng)網(wǎng)絡(luò)來(lái)匹配向量場(chǎng)，使用條件流匹配L1損失函數(shù)，同時(shí)將模型預(yù)測(cè)條件設(shè)置為說(shuō)話(huà)者和聽(tīng)者的姿態(tài)，以精確建模雙耳線(xiàn)索。

### 2. 因果U-Net架構(gòu)：時(shí)間只向前流動(dòng)

現(xiàn)有的流匹配模型通常無(wú)法支持連續(xù)推理，這是因?yàn)榉且蚬Ｐ图軜?gòu)和多步推理要求。流行的生成框架通常使用由卷積和注意力塊組成的非因果U-Net作為骨干網(wǎng)絡(luò)。非因果卷積核和全局感知的注意力計(jì)算機(jī)制在渲染過(guò)程中破壞了時(shí)間因果性。

為了解決這個(gè)問(wèn)題，研究團(tuán)隊(duì)引入了一種因果U-Net架構(gòu)，通過(guò)精心設(shè)計(jì)因果2D卷積塊，使下一個(gè)音頻塊的預(yù)測(cè)僅依賴(lài)于過(guò)去的塊。

想象這就像是一本書(shū)的連載，作者只能根據(jù)已經(jīng)寫(xiě)下的章節(jié)來(lái)創(chuàng)作新章節(jié)，而不能基于還未寫(xiě)出的未來(lái)情節(jié)。同樣，因果U-Net架構(gòu)確保音頻生成過(guò)程只依賴(lài)于已經(jīng)處理過(guò)的歷史信息。

具體來(lái)說(shuō)，研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)因果U-Net，它有一個(gè)收縮部分和一個(gè)擴(kuò)展部分，中間有跳躍連接。每個(gè)部分由幾個(gè)因果2D CNN塊組成。每個(gè)塊包含規(guī)范化和激活層、因果卷積層和可選的因果下采樣/上采樣層。

在規(guī)范化和激活層中，他們使用組歸一化來(lái)穩(wěn)定訓(xùn)練，但將計(jì)算限制在每個(gè)單獨(dú)幀上，而不是所有幀，以確保因果性。他們使用Sigmoid線(xiàn)性單元作為激活函數(shù)。因果卷積層是具有1的步長(zhǎng)和2的單側(cè)填充的3x3卷積層。單側(cè)填充將卷積核的感受野限制在歷史信息中。

由于U-Net需要在每個(gè)塊中減少或增加特征維度，他們?cè)O(shè)計(jì)了一個(gè)因果下采樣/上采樣層。因果下采樣層包含一個(gè)步長(zhǎng)為2的4x4卷積函數(shù)，它將特征維度減半。因果上采樣層包含一個(gè)4x4轉(zhuǎn)置卷積函數(shù)，它使特征維度加倍。

### 3. 連續(xù)推理管道：無(wú)縫流式音頻的秘密

僅有因果骨干網(wǎng)絡(luò)還不足以進(jìn)行流式推理，因?yàn)樯赡Ｐ托枰亩嗖缴蛇^(guò)程。生成性擴(kuò)散和流匹配模型依賴(lài)于一個(gè)迭代去噪過(guò)程，需要幾個(gè)步驟來(lái)完成生成過(guò)程。

為了實(shí)現(xiàn)連續(xù)生成，需要確保所有推理步驟的時(shí)間因果性。為此，研究團(tuán)隊(duì)構(gòu)建了一個(gè)連續(xù)推理管道，包括流式STFT/ISTFT操作、緩沖區(qū)庫(kù)、中點(diǎn)求解器和早期跳過(guò)計(jì)劃。

這就像是一條高效的裝配線(xiàn)，原材料（單聲道音頻塊）進(jìn)入后，經(jīng)過(guò)一系列精確協(xié)調(diào)的工作站處理，最終連續(xù)不斷地輸出成品（雙耳音頻）。即使新的原材料不斷到達(dá)，整個(gè)過(guò)程也能無(wú)縫運(yùn)行，不會(huì)出現(xiàn)中斷或不連續(xù)。

具體來(lái)說(shuō)，流式STFT/ISTFT通過(guò)添加緩沖區(qū)和調(diào)整填充方式來(lái)適應(yīng)流式處理。在因果U-Net中，他們?yōu)槊總€(gè)因果卷積層引入緩沖區(qū)，存儲(chǔ)當(dāng)前音頻塊的隱藏特征。這些緩沖區(qū)用于填充下一個(gè)音頻塊。

由于去噪過(guò)程涉及多個(gè)推理步驟，在所有步驟中重用同一緩沖區(qū)會(huì)覆蓋歷史信息。為解決這個(gè)問(wèn)題，他們構(gòu)建了一個(gè)基于字典的緩沖區(qū)庫(kù)，存儲(chǔ)所有時(shí)間步驟t的網(wǎng)絡(luò)緩沖區(qū)。

對(duì)于求解常微分方程，他們選擇中點(diǎn)求解器，因?yàn)樗苡行p少函數(shù)評(píng)估次數(shù)，同時(shí)保持性能。此外，為進(jìn)一步減少函數(shù)評(píng)估次數(shù)，他們提出了一個(gè)早期跳過(guò)計(jì)劃。

標(biāo)準(zhǔn)時(shí)間計(jì)劃將0到1的區(qū)間分成相等的段，并從0到1順序移動(dòng)。他們?cè)O(shè)計(jì)了兩個(gè)新計(jì)劃：跳過(guò)前半段的早期跳過(guò)計(jì)劃和避免后半段的晚期跳過(guò)計(jì)劃。他們發(fā)現(xiàn)使用早期跳過(guò)計(jì)劃不會(huì)影響渲染質(zhì)量，而晚期跳過(guò)會(huì)降低性能，背景噪聲建模更差。他們推測(cè)流匹配可能能夠在推理的后半部分糾正前半部分的錯(cuò)誤，所以即使進(jìn)行早期跳過(guò)，也不會(huì)明顯影響性能。因此，他們使用早期跳過(guò)策略將推理步驟減少到6步。相比之下，SGMSE模型需要30步才能生成可比結(jié)果。

四、實(shí)驗(yàn)驗(yàn)證：BinauralFlow的驚人表現(xiàn)

為了評(píng)估BinauralFlow的效果，研究團(tuán)隊(duì)收集了一個(gè)新的高質(zhì)量雙耳數(shù)據(jù)集。他們?cè)跊](méi)有顯著隔音或吸音材料的標(biāo)準(zhǔn)房間中錄制了10小時(shí)的配對(duì)單聲道和雙耳數(shù)據(jù)，以及說(shuō)話(huà)者和聽(tīng)者的頭部姿勢(shì)。為了匹配真實(shí)世界場(chǎng)景，他們收集了來(lái)自多個(gè)空調(diào)通風(fēng)口和電子設(shè)備的背景噪聲。此外，他們沒(méi)有使用雙耳人體模型和揚(yáng)聲器，而是讓真實(shí)參與者擔(dān)任說(shuō)話(huà)者和聽(tīng)者。在錄制過(guò)程中，說(shuō)話(huà)者可以在房間內(nèi)自由移動(dòng)，聽(tīng)者可以坐在椅子上自由轉(zhuǎn)動(dòng)頭部。

他們將數(shù)據(jù)集分為訓(xùn)練/驗(yàn)證/測(cè)試子集，分別為8.47/0.86/1.33小時(shí)。測(cè)試子集包含兩名在訓(xùn)練期間未見(jiàn)過(guò)的額外說(shuō)話(huà)者，一男一女。

研究團(tuán)隊(duì)將他們的方法與數(shù)字音頻渲染和更先進(jìn)的神經(jīng)音頻渲染方法進(jìn)行了比較。他們選擇SoundSpaces 2.0作為DSP基線(xiàn)，使用2.5D Visual Sound、WaveNet和WarpNet作為基于回歸的基線(xiàn)，并使用BinauralGrad和SGMSE作為生成性基線(xiàn)。BinauralGrad是雙耳語(yǔ)音合成任務(wù)的最先進(jìn)方法，是一個(gè)兩階段擴(kuò)散模型。

量化評(píng)估結(jié)果顯示，BinauralFlow在所有指標(biāo)上都大幅超過(guò)現(xiàn)有基線(xiàn)。與先前的最佳模型相比，BinauralFlow在波形L2誤差上降低了35.5%，在幅度L2誤差上降低了6.6%。此外，BinauralFlow的推理速度比其他生成模型快得多，達(dá)到了更有利的性能和推理速度之間的平衡。

質(zhì)量比較也直觀地展示了BinauralFlow的優(yōu)勢(shì)。SoundSpaces方法估計(jì)了傳輸單聲道音頻和接收雙耳音頻之間的不準(zhǔn)確時(shí)間延遲。BinauralGrad和SGMSE預(yù)測(cè)了準(zhǔn)確的時(shí)間延遲，但它們的振幅不匹配。相比之下，BinauralFlow模型正確預(yù)測(cè)了時(shí)間延遲和音頻振幅。

最重要的是，研究團(tuán)隊(duì)進(jìn)行了一項(xiàng)全面的感知評(píng)估，以評(píng)估渲染輸出的質(zhì)量和真實(shí)性。他們招募了23名參與者，請(qǐng)他們完成ABX測(cè)試、A-B測(cè)試和MUSHRA評(píng)估。ABX測(cè)試測(cè)量生成聲音和錄制聲音（基準(zhǔn)真實(shí)）之間是否有可感知的差異。A-B測(cè)試測(cè)量用戶(hù)是否能可靠地識(shí)別生成聲音與真實(shí)聲音。MUSHRA評(píng)估讓受試者根據(jù)環(huán)境（環(huán)境噪聲和混響）和空間化（聲源位置）的相似性對(duì)參考（基準(zhǔn)真實(shí)）和生成樣本進(jìn)行評(píng)分。

感知評(píng)估結(jié)果顯示，BinauralFlow在所有任務(wù)中都明顯優(yōu)于其他方法。特別是在A-B測(cè)試中，他們實(shí)現(xiàn)了42%的混淆率（上限是50%），表明用戶(hù)幾乎無(wú)法區(qū)分他們生成的聲音和錄制的樣本。這一結(jié)果證明了BinauralFlow在渲染真實(shí)性方面的卓越表現(xiàn)。

五、深入分析與未來(lái)方向

研究團(tuán)隊(duì)還分析了不同設(shè)計(jì)選擇對(duì)他們的雙耳語(yǔ)音合成框架的影響。

首先，他們比較了提出的流匹配模型和簡(jiǎn)化流匹配框架的性能。他們的方法在L2、Mag和Phase誤差上都取得了更好的結(jié)果，證明了其條件流匹配方法的有效性。

其次，他們比較了連續(xù)推理管道和非流式推理管道，并展示了生成的譜圖。給定一系列音頻塊，非流式管道單獨(dú)雙耳化每個(gè)塊，導(dǎo)致相鄰塊之間出現(xiàn)明顯的偽影。相比之下，他們的管道合成無(wú)縫平滑的譜圖。

他們還計(jì)算了不同函數(shù)評(píng)估數(shù)量下模型的實(shí)時(shí)因子。當(dāng)NFE設(shè)置為6時(shí)，實(shí)時(shí)因子為0.239。如果犧牲一些性能以實(shí)現(xiàn)更快的推理，將NFE設(shè)置為1會(huì)導(dǎo)致RTF為0.04。這表明他們的模型有實(shí)時(shí)流式生成的潛力。

最后，由于在真實(shí)世界場(chǎng)景中錄制10小時(shí)數(shù)據(jù)的成本高昂且費(fèi)力，研究團(tuán)隊(duì)開(kāi)發(fā)了一種大規(guī)模預(yù)訓(xùn)練策略。他們使用揚(yáng)聲器和人工雙耳頭代替真實(shí)個(gè)體，收集了一個(gè)包含超過(guò)7,700小時(shí)雙耳音頻數(shù)據(jù)的大規(guī)模數(shù)據(jù)集，涵蓋了來(lái)自英語(yǔ)多說(shuō)話(huà)者VCTK語(yǔ)料庫(kù)的97個(gè)說(shuō)話(huà)者身份。實(shí)驗(yàn)結(jié)果表明，這種預(yù)訓(xùn)練策略顯著提高了性能，預(yù)訓(xùn)練模型的零樣本性能與僅使用1%或5%真實(shí)數(shù)據(jù)從頭開(kāi)始訓(xùn)練的模型相當(dāng)或超過(guò)它。這證明了他們模型的強(qiáng)大泛化能力及其在各種應(yīng)用中的潛力。

六、總結(jié)：聲音也能有"3D效果"

歸根結(jié)底，BinauralFlow代表了雙耳音頻合成領(lǐng)域的一個(gè)重大突破。通過(guò)將雙耳渲染問(wèn)題重新定義為一個(gè)生成任務(wù)，而不是傳統(tǒng)的回歸任務(wù)，研究團(tuán)隊(duì)創(chuàng)造了一個(gè)能夠產(chǎn)生高度逼真空間音頻的系統(tǒng)，這些音頻幾乎無(wú)法與真實(shí)世界錄音區(qū)分開(kāi)來(lái)。

更重要的是，通過(guò)精心設(shè)計(jì)的因果U-Net架構(gòu)和連續(xù)推理管道，BinauralFlow實(shí)現(xiàn)了流式推理能力，使其非常適合需要實(shí)時(shí)音頻生成的應(yīng)用，如實(shí)時(shí)語(yǔ)音合成、交互式游戲或增強(qiáng)現(xiàn)實(shí)系統(tǒng)。

這項(xiàng)技術(shù)的潛在應(yīng)用非常廣泛：從創(chuàng)造更身臨其境的虛擬現(xiàn)實(shí)體驗(yàn)，到改善視頻會(huì)議中的音頻質(zhì)量，再到為聽(tīng)力受損者開(kāi)發(fā)更好的輔助設(shè)備。想象一下，未來(lái)的AR眼鏡可能能夠?qū)崟r(shí)將周?chē)h(huán)境的聲音轉(zhuǎn)換為高度個(gè)性化的空間音頻，大大提升用戶(hù)體驗(yàn)。

如果你對(duì)這項(xiàng)技術(shù)感興趣，可以訪問(wèn)研究團(tuán)隊(duì)的項(xiàng)目頁(yè)面(https://liangsusan-git.github.io/project/binauralflow/)查看演示視頻，親身體驗(yàn)BinauralFlow的神奇效果。

空間音頻流匹配模型虛擬現(xiàn)實(shí)

分享至

0贊

好文章，需要你的鼓勵(lì)

推薦文章

自對(duì)弈訓(xùn)練
推理能力提升
零和游戲?qū)W習(xí)

2025-07-02 14:26

AI玩游戲能讓推理變聰明？新加坡國(guó)立大學(xué)發(fā)現(xiàn)自對(duì)弈訓(xùn)練的神奇效果

新加坡國(guó)立大學(xué)研究團(tuán)隊(duì)開(kāi)發(fā)了SPIRAL框架，通過(guò)讓AI與自己對(duì)弈零和游戲來(lái)提升推理能力。實(shí)驗(yàn)顯示，僅訓(xùn)練AI玩簡(jiǎn)單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%，通用推理提升8.4%，且無(wú)需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中，為AI訓(xùn)練提供了新思路。
計(jì)算機(jī)視覺(jué)
圖像降噪
3D相機(jī)技術(shù)

2025-07-02 14:26

同濟(jì)大學(xué)突破性研究：讓3D相機(jī)告別"噪點(diǎn)困擾"的智能降噪新技術(shù)

同濟(jì)大學(xué)團(tuán)隊(duì)開(kāi)發(fā)的GIGA-ToF技術(shù)通過(guò)融合多幀圖像的"圖結(jié)構(gòu)"信息，創(chuàng)新性地解決了3D相機(jī)噪聲問(wèn)題。該技術(shù)利用圖像間的不變幾何關(guān)系，結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法，在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升，并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力，為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺(jué)解決方案。
人工智能
視覺(jué)語(yǔ)言模型
強(qiáng)化學(xué)習(xí)

2025-07-02 14:26

AI視覺(jué)推理模型的"頓悟時(shí)刻"真的存在嗎？伊利諾伊大學(xué)研究揭示令人意外的真相

伊利諾伊大學(xué)研究團(tuán)隊(duì)通過(guò)對(duì)比實(shí)驗(yàn)發(fā)現(xiàn)，經(jīng)過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺(jué)語(yǔ)言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象，但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距"，即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力，且模型在自我驗(yàn)證時(shí)無(wú)法有效利用視覺(jué)信息，為AI多模態(tài)推理發(fā)展提供了重要啟示。
大語(yǔ)言模型
稀疏性訓(xùn)練
計(jì)算效率優(yōu)化

2025-07-02 14:25

MIT團(tuán)隊(duì)發(fā)明"智能減肥法"讓AI訓(xùn)練快1.6倍：只需要一半的算力就能教會(huì)大模型新技能

MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù)，通過(guò)動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語(yǔ)言模型訓(xùn)練加速1.6倍，計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分，在保持模型性能的同時(shí)顯著提升訓(xùn)練效率，已在多個(gè)任務(wù)上驗(yàn)證有效性。

AI玩游戲能讓推理變聰明？新加坡國(guó)立大學(xué)發(fā)現(xiàn)自對(duì)弈訓(xùn)練的神奇效果

AI玩游戲能讓推理變聰明？新加坡國(guó)立大學(xué)發(fā)現(xiàn)自對(duì)弈訓(xùn)練的神奇效果

2025-07-02 14:26

同濟(jì)大學(xué)突破性研究：讓3D相機(jī)告別"噪點(diǎn)困擾"的智能降噪新技術(shù)

同濟(jì)大學(xué)突破性研究：讓3D相機(jī)告別"噪點(diǎn)困擾"的智能降噪新技術(shù)

2025-07-02 14:26

AI視覺(jué)推理模型的"頓悟時(shí)刻"真的存在嗎？伊利諾伊大學(xué)研究揭示令人意外的真相

AI視覺(jué)推理模型的"頓悟時(shí)刻"真的存在嗎？伊利諾伊大學(xué)研究揭示令人意外的真相

2025-07-02 14:26

MIT團(tuán)隊(duì)發(fā)明"智能減肥法"讓AI訓(xùn)練快1.6倍：只需要一半的算力就能教會(huì)大模型新技能

MIT團(tuán)隊(duì)發(fā)明"智能減肥法"讓AI訓(xùn)練快1.6倍：只需要一半的算力就能教會(huì)大模型新技能

2025-07-02 14:25

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時(shí)代

京ICP證15039648號(hào) 京ICP備15039648號(hào)-9 京公網(wǎng)安備 11010802021500號(hào)

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報(bào)電話(huà)：010-62641205　涉未成年人舉報(bào)專(zhuān)線(xiàn)：010-62641208 舉報(bào)郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報(bào)專(zhuān)區(qū)：https://www.12377.cn

<legend id="inmkh"><track id="inmkh"></track></legend>

<style id="inmkh"></style>

<cite id="inmkh"></cite>