這項由羅切斯特大學的Susan Liang與Meta公司Codec Avatars實驗室的Dejan Markovic、Israel D. Gebru、Steven Krenn、Todd Keebler、Jacob Sandakly、Frank Yu、Samuel Hassel、Chenliang Xu和Alexander Richard共同完成的研究,發(fā)表于2025年5月的第42屆國際機器學習大會(ICML 2025)。有興趣深入了解的讀者可通過文中項目頁面https://liangsusan-git.github.io/project/binauralflow/訪問更多演示視頻。
一、聲音也能"身臨其境"?認識雙耳空間音頻
想象這樣一個場景:你戴著耳機,閉上眼睛。突然,你聽到有人在你左邊說話,聲音從遠到近;接著,腳步聲從你背后繞到右邊,仿佛真有人在你周圍移動。這種能讓聲音在三維空間中精確定位的技術,就是我們今天要講的"雙耳空間音頻"(也稱為"雙耳聲音"或"3D音頻")。
與普通的單聲道音頻(只有內容,沒有空間感)不同,雙耳空間音頻通過兩個音頻通道(對應你的左右耳),創(chuàng)造出聲音來自不同方向和距離的感覺。這種技術對提升沉浸感和用戶體驗至關重要,被廣泛應用于電影、游戲,以及虛擬現(xiàn)實(VR)、增強現(xiàn)實(AR)和混合現(xiàn)實(MR)等快速發(fā)展的領域。
雖然研究人員在這個領域已經(jīng)做了大量工作,但現(xiàn)有的雙耳音頻合成方法仍面臨兩大挑戰(zhàn):一是渲染質量不夠高,無法達到與真實錄音無法區(qū)分的程度;二是無法實現(xiàn)因果性和流式推理,也就是說,無法實時連續(xù)地生成高質量的空間音頻。
Meta和羅切斯特大學的研究團隊提出了一種名為"BinauralFlow"的全新解決方案,這是一種基于流匹配模型(Flow Matching Models)的雙耳語音合成框架,不僅能生成高質量的雙耳音頻,還支持流式推理,讓音頻合成過程能夠實時連續(xù)進行。
二、傳統(tǒng)方法難以逾越的障礙
為什么生成真正逼真的雙耳音頻如此之難?要回答這個問題,我們需要理解聲音在現(xiàn)實世界中的傳播特性。
想象你站在一個房間里,有人在說話。這個聲音到達你耳朵的過程中會發(fā)生很多事情:聲源與聽者之間的距離會影響聲音的整體音量(越遠音量越?。?;它們的相對方向會影響你感知到的聲音方向(例如,時間差和音量差);聲音會在房間內的墻壁、地板、天花板和物體上反射,產(chǎn)生回聲和混響;房間內還會有各種背景噪音,如空調聲、電子設備的嗡鳴等。
現(xiàn)有的方法大致可分為兩類:數(shù)字音頻渲染和神經(jīng)音頻渲染。
數(shù)字音頻渲染方法使用數(shù)字信號處理技術,通過一系列線性時不變系統(tǒng)來估計雙耳音頻,包括房間沖激響應、頭部相關傳遞函數(shù)和疊加環(huán)境噪聲。但由于簡化的幾何模擬、非個性化的頭部相關傳遞函數(shù)和假設的靜態(tài)噪聲,真實錄音和生成聲音之間存在明顯的質量差距。
神經(jīng)音頻渲染方法則利用深度神經(jīng)網(wǎng)絡的強大擬合能力。比如,Gao和Grauman開發(fā)了一種視覺引導的雙耳化網(wǎng)絡,根據(jù)視頻幀生成雙耳音頻;Richard等人設計了一個神經(jīng)變形網(wǎng)絡,根據(jù)時間延遲和聽者位置來變形單聲道音頻。雖然這些方法能夠產(chǎn)生合理的語音結果,但它們的回歸機制限制了生成能力,無法生成輸入數(shù)據(jù)中缺失的精確房間聲學和環(huán)境噪聲。
此外,大多數(shù)先進的神經(jīng)渲染方法不支持連續(xù)合成,這是因為它們使用非因果模型架構和低效的多步推理程序。
三、BinauralFlow:重新思考音頻生成
為了解決上述問題,研究團隊提出了BinauralFlow,這是一個流匹配的流式雙耳語音生成框架。這個方法的核心是將雙耳渲染問題視為一個生成任務,而不是傳統(tǒng)的回歸任務。
### 1. 條件流匹配模型:雙耳音頻的魔法烹飪
傳統(tǒng)方法嘗試用回歸方式預測混響效果和背景噪聲是很困難的,因為這些特征在輸入音頻信號中不存在,而且它們表現(xiàn)出隨機行為。BinauralFlow將這個問題重新定義為一個生成任務。
想象流匹配模型就像一位廚師,開始時有一堆原料(噪聲),通過精確控制的烹飪過程(去噪過程),最終做出一道美味佳肴(雙耳音頻)。這個"烹飪"過程需要遵循一個"食譜"(向量場),告訴廚師每一步如何處理食材。
具體來說,研究團隊設計了一個條件流匹配模型,通過增強感知真實性來渲染逼真的聲學效果和動態(tài)環(huán)境噪聲。為了增強渲染的雙耳語音與精確的雙耳提示,他們將模型條件設置為聲源和接收者的姿態(tài),以指導語音渲染。
在技術層面,這個過程首先將單聲道音頻和雙耳音頻從時間域轉換到時頻域,使用短時傅里葉變換(STFT)。然后,模型采樣一個隨機噪聲,中心在單聲道輸入周圍。流匹配模型的目標是設計一個流,將源數(shù)據(jù)(噪聲)移動到目標數(shù)據(jù)(雙耳音頻)。
研究團隊使用了最優(yōu)傳輸公式來定義流函數(shù),它在時間步t是源和目標之間的線性插值。當t=0時,分布圍繞單聲道音頻;當t逐漸增加,分布的均值線性地從單聲道移向雙耳音頻,同時標準差減小。t=1時,分布收縮到雙耳音頻。
通過這種方式,定義的流將圍繞輸入音頻中心的樣本移動到雙耳音頻,方差逐漸減小。研究團隊設計了一個深度神經(jīng)網(wǎng)絡來匹配向量場,使用條件流匹配L1損失函數(shù),同時將模型預測條件設置為說話者和聽者的姿態(tài),以精確建模雙耳線索。
### 2. 因果U-Net架構:時間只向前流動
現(xiàn)有的流匹配模型通常無法支持連續(xù)推理,這是因為非因果模型架構和多步推理要求。流行的生成框架通常使用由卷積和注意力塊組成的非因果U-Net作為骨干網(wǎng)絡。非因果卷積核和全局感知的注意力計算機制在渲染過程中破壞了時間因果性。
為了解決這個問題,研究團隊引入了一種因果U-Net架構,通過精心設計因果2D卷積塊,使下一個音頻塊的預測僅依賴于過去的塊。
想象這就像是一本書的連載,作者只能根據(jù)已經(jīng)寫下的章節(jié)來創(chuàng)作新章節(jié),而不能基于還未寫出的未來情節(jié)。同樣,因果U-Net架構確保音頻生成過程只依賴于已經(jīng)處理過的歷史信息。
具體來說,研究團隊設計了一個因果U-Net,它有一個收縮部分和一個擴展部分,中間有跳躍連接。每個部分由幾個因果2D CNN塊組成。每個塊包含規(guī)范化和激活層、因果卷積層和可選的因果下采樣/上采樣層。
在規(guī)范化和激活層中,他們使用組歸一化來穩(wěn)定訓練,但將計算限制在每個單獨幀上,而不是所有幀,以確保因果性。他們使用Sigmoid線性單元作為激活函數(shù)。因果卷積層是具有1的步長和2的單側填充的3x3卷積層。單側填充將卷積核的感受野限制在歷史信息中。
由于U-Net需要在每個塊中減少或增加特征維度,他們設計了一個因果下采樣/上采樣層。因果下采樣層包含一個步長為2的4x4卷積函數(shù),它將特征維度減半。因果上采樣層包含一個4x4轉置卷積函數(shù),它使特征維度加倍。
### 3. 連續(xù)推理管道:無縫流式音頻的秘密
僅有因果骨干網(wǎng)絡還不足以進行流式推理,因為生成模型需要的多步生成過程。生成性擴散和流匹配模型依賴于一個迭代去噪過程,需要幾個步驟來完成生成過程。
為了實現(xiàn)連續(xù)生成,需要確保所有推理步驟的時間因果性。為此,研究團隊構建了一個連續(xù)推理管道,包括流式STFT/ISTFT操作、緩沖區(qū)庫、中點求解器和早期跳過計劃。
這就像是一條高效的裝配線,原材料(單聲道音頻塊)進入后,經(jīng)過一系列精確協(xié)調的工作站處理,最終連續(xù)不斷地輸出成品(雙耳音頻)。即使新的原材料不斷到達,整個過程也能無縫運行,不會出現(xiàn)中斷或不連續(xù)。
具體來說,流式STFT/ISTFT通過添加緩沖區(qū)和調整填充方式來適應流式處理。在因果U-Net中,他們?yōu)槊總€因果卷積層引入緩沖區(qū),存儲當前音頻塊的隱藏特征。這些緩沖區(qū)用于填充下一個音頻塊。
由于去噪過程涉及多個推理步驟,在所有步驟中重用同一緩沖區(qū)會覆蓋歷史信息。為解決這個問題,他們構建了一個基于字典的緩沖區(qū)庫,存儲所有時間步驟t的網(wǎng)絡緩沖區(qū)。
對于求解常微分方程,他們選擇中點求解器,因為它能有效減少函數(shù)評估次數(shù),同時保持性能。此外,為進一步減少函數(shù)評估次數(shù),他們提出了一個早期跳過計劃。
標準時間計劃將0到1的區(qū)間分成相等的段,并從0到1順序移動。他們設計了兩個新計劃:跳過前半段的早期跳過計劃和避免后半段的晚期跳過計劃。他們發(fā)現(xiàn)使用早期跳過計劃不會影響渲染質量,而晚期跳過會降低性能,背景噪聲建模更差。他們推測流匹配可能能夠在推理的后半部分糾正前半部分的錯誤,所以即使進行早期跳過,也不會明顯影響性能。因此,他們使用早期跳過策略將推理步驟減少到6步。相比之下,SGMSE模型需要30步才能生成可比結果。
四、實驗驗證:BinauralFlow的驚人表現(xiàn)
為了評估BinauralFlow的效果,研究團隊收集了一個新的高質量雙耳數(shù)據(jù)集。他們在沒有顯著隔音或吸音材料的標準房間中錄制了10小時的配對單聲道和雙耳數(shù)據(jù),以及說話者和聽者的頭部姿勢。為了匹配真實世界場景,他們收集了來自多個空調通風口和電子設備的背景噪聲。此外,他們沒有使用雙耳人體模型和揚聲器,而是讓真實參與者擔任說話者和聽者。在錄制過程中,說話者可以在房間內自由移動,聽者可以坐在椅子上自由轉動頭部。
他們將數(shù)據(jù)集分為訓練/驗證/測試子集,分別為8.47/0.86/1.33小時。測試子集包含兩名在訓練期間未見過的額外說話者,一男一女。
研究團隊將他們的方法與數(shù)字音頻渲染和更先進的神經(jīng)音頻渲染方法進行了比較。他們選擇SoundSpaces 2.0作為DSP基線,使用2.5D Visual Sound、WaveNet和WarpNet作為基于回歸的基線,并使用BinauralGrad和SGMSE作為生成性基線。BinauralGrad是雙耳語音合成任務的最先進方法,是一個兩階段擴散模型。
量化評估結果顯示,BinauralFlow在所有指標上都大幅超過現(xiàn)有基線。與先前的最佳模型相比,BinauralFlow在波形L2誤差上降低了35.5%,在幅度L2誤差上降低了6.6%。此外,BinauralFlow的推理速度比其他生成模型快得多,達到了更有利的性能和推理速度之間的平衡。
質量比較也直觀地展示了BinauralFlow的優(yōu)勢。SoundSpaces方法估計了傳輸單聲道音頻和接收雙耳音頻之間的不準確時間延遲。BinauralGrad和SGMSE預測了準確的時間延遲,但它們的振幅不匹配。相比之下,BinauralFlow模型正確預測了時間延遲和音頻振幅。
最重要的是,研究團隊進行了一項全面的感知評估,以評估渲染輸出的質量和真實性。他們招募了23名參與者,請他們完成ABX測試、A-B測試和MUSHRA評估。ABX測試測量生成聲音和錄制聲音(基準真實)之間是否有可感知的差異。A-B測試測量用戶是否能可靠地識別生成聲音與真實聲音。MUSHRA評估讓受試者根據(jù)環(huán)境(環(huán)境噪聲和混響)和空間化(聲源位置)的相似性對參考(基準真實)和生成樣本進行評分。
感知評估結果顯示,BinauralFlow在所有任務中都明顯優(yōu)于其他方法。特別是在A-B測試中,他們實現(xiàn)了42%的混淆率(上限是50%),表明用戶幾乎無法區(qū)分他們生成的聲音和錄制的樣本。這一結果證明了BinauralFlow在渲染真實性方面的卓越表現(xiàn)。
五、深入分析與未來方向
研究團隊還分析了不同設計選擇對他們的雙耳語音合成框架的影響。
首先,他們比較了提出的流匹配模型和簡化流匹配框架的性能。他們的方法在L2、Mag和Phase誤差上都取得了更好的結果,證明了其條件流匹配方法的有效性。
其次,他們比較了連續(xù)推理管道和非流式推理管道,并展示了生成的譜圖。給定一系列音頻塊,非流式管道單獨雙耳化每個塊,導致相鄰塊之間出現(xiàn)明顯的偽影。相比之下,他們的管道合成無縫平滑的譜圖。
他們還計算了不同函數(shù)評估數(shù)量下模型的實時因子。當NFE設置為6時,實時因子為0.239。如果犧牲一些性能以實現(xiàn)更快的推理,將NFE設置為1會導致RTF為0.04。這表明他們的模型有實時流式生成的潛力。
最后,由于在真實世界場景中錄制10小時數(shù)據(jù)的成本高昂且費力,研究團隊開發(fā)了一種大規(guī)模預訓練策略。他們使用揚聲器和人工雙耳頭代替真實個體,收集了一個包含超過7,700小時雙耳音頻數(shù)據(jù)的大規(guī)模數(shù)據(jù)集,涵蓋了來自英語多說話者VCTK語料庫的97個說話者身份。實驗結果表明,這種預訓練策略顯著提高了性能,預訓練模型的零樣本性能與僅使用1%或5%真實數(shù)據(jù)從頭開始訓練的模型相當或超過它。這證明了他們模型的強大泛化能力及其在各種應用中的潛力。
六、總結:聲音也能有"3D效果"
歸根結底,BinauralFlow代表了雙耳音頻合成領域的一個重大突破。通過將雙耳渲染問題重新定義為一個生成任務,而不是傳統(tǒng)的回歸任務,研究團隊創(chuàng)造了一個能夠產(chǎn)生高度逼真空間音頻的系統(tǒng),這些音頻幾乎無法與真實世界錄音區(qū)分開來。
更重要的是,通過精心設計的因果U-Net架構和連續(xù)推理管道,BinauralFlow實現(xiàn)了流式推理能力,使其非常適合需要實時音頻生成的應用,如實時語音合成、交互式游戲或增強現(xiàn)實系統(tǒng)。
這項技術的潛在應用非常廣泛:從創(chuàng)造更身臨其境的虛擬現(xiàn)實體驗,到改善視頻會議中的音頻質量,再到為聽力受損者開發(fā)更好的輔助設備。想象一下,未來的AR眼鏡可能能夠實時將周圍環(huán)境的聲音轉換為高度個性化的空間音頻,大大提升用戶體驗。
如果你對這項技術感興趣,可以訪問研究團隊的項目頁面(https://liangsusan-git.github.io/project/binauralflow/)查看演示視頻,親身體驗BinauralFlow的神奇效果。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結合大語言模型的敘事推理能力與音頻生成技術,通過交錯式推理生成、解耦橋接機制和漸進式訓練,能夠將復雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學聯(lián)合研發(fā)的VideoJAM技術,通過讓AI同時學習外觀和運動信息,顯著解決了當前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術僅需添加兩個線性層就能大幅提升運動質量,在多項測試中超越包括Sora在內的商業(yè)模型,為AI視頻生成的實用化應用奠定了重要基礎。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質量樣本的訓練數(shù)據(jù)集和MM-AlignBench評測基準,通過創(chuàng)新的數(shù)據(jù)生成和質量管控方法,讓AI在保持技術能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預測模型,能夠在不到一分鐘內完成10天全球天氣預報,準確性超越傳統(tǒng)方法90%的指標。該模型采用圖神經(jīng)網(wǎng)絡技術,通過學習40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學領域帶來了效率和精度的雙重突破。