這項(xiàng)由羅切斯特大學(xué)的Susan Liang與Meta公司Codec Avatars實(shí)驗(yàn)室的Dejan Markovic、Israel D. Gebru、Steven Krenn、Todd Keebler、Jacob Sandakly、Frank Yu、Samuel Hassel、Chenliang Xu和Alexander Richard共同完成的研究,發(fā)表于2025年5月的第42屆國(guó)際機(jī)器學(xué)習(xí)大會(huì)(ICML 2025)。有興趣深入了解的讀者可通過(guò)文中項(xiàng)目頁(yè)面https://liangsusan-git.github.io/project/binauralflow/訪問(wèn)更多演示視頻。
一、聲音也能"身臨其境"?認(rèn)識(shí)雙耳空間音頻
想象這樣一個(gè)場(chǎng)景:你戴著耳機(jī),閉上眼睛。突然,你聽(tīng)到有人在你左邊說(shuō)話(huà),聲音從遠(yuǎn)到近;接著,腳步聲從你背后繞到右邊,仿佛真有人在你周?chē)苿?dòng)。這種能讓聲音在三維空間中精確定位的技術(shù),就是我們今天要講的"雙耳空間音頻"(也稱(chēng)為"雙耳聲音"或"3D音頻")。
與普通的單聲道音頻(只有內(nèi)容,沒(méi)有空間感)不同,雙耳空間音頻通過(guò)兩個(gè)音頻通道(對(duì)應(yīng)你的左右耳),創(chuàng)造出聲音來(lái)自不同方向和距離的感覺(jué)。這種技術(shù)對(duì)提升沉浸感和用戶(hù)體驗(yàn)至關(guān)重要,被廣泛應(yīng)用于電影、游戲,以及虛擬現(xiàn)實(shí)(VR)、增強(qiáng)現(xiàn)實(shí)(AR)和混合現(xiàn)實(shí)(MR)等快速發(fā)展的領(lǐng)域。
雖然研究人員在這個(gè)領(lǐng)域已經(jīng)做了大量工作,但現(xiàn)有的雙耳音頻合成方法仍面臨兩大挑戰(zhàn):一是渲染質(zhì)量不夠高,無(wú)法達(dá)到與真實(shí)錄音無(wú)法區(qū)分的程度;二是無(wú)法實(shí)現(xiàn)因果性和流式推理,也就是說(shuō),無(wú)法實(shí)時(shí)連續(xù)地生成高質(zhì)量的空間音頻。
Meta和羅切斯特大學(xué)的研究團(tuán)隊(duì)提出了一種名為"BinauralFlow"的全新解決方案,這是一種基于流匹配模型(Flow Matching Models)的雙耳語(yǔ)音合成框架,不僅能生成高質(zhì)量的雙耳音頻,還支持流式推理,讓音頻合成過(guò)程能夠?qū)崟r(shí)連續(xù)進(jìn)行。
二、傳統(tǒng)方法難以逾越的障礙
為什么生成真正逼真的雙耳音頻如此之難?要回答這個(gè)問(wèn)題,我們需要理解聲音在現(xiàn)實(shí)世界中的傳播特性。
想象你站在一個(gè)房間里,有人在說(shuō)話(huà)。這個(gè)聲音到達(dá)你耳朵的過(guò)程中會(huì)發(fā)生很多事情:聲源與聽(tīng)者之間的距離會(huì)影響聲音的整體音量(越遠(yuǎn)音量越小);它們的相對(duì)方向會(huì)影響你感知到的聲音方向(例如,時(shí)間差和音量差);聲音會(huì)在房間內(nèi)的墻壁、地板、天花板和物體上反射,產(chǎn)生回聲和混響;房間內(nèi)還會(huì)有各種背景噪音,如空調(diào)聲、電子設(shè)備的嗡鳴等。
現(xiàn)有的方法大致可分為兩類(lèi):數(shù)字音頻渲染和神經(jīng)音頻渲染。
數(shù)字音頻渲染方法使用數(shù)字信號(hào)處理技術(shù),通過(guò)一系列線(xiàn)性時(shí)不變系統(tǒng)來(lái)估計(jì)雙耳音頻,包括房間沖激響應(yīng)、頭部相關(guān)傳遞函數(shù)和疊加環(huán)境噪聲。但由于簡(jiǎn)化的幾何模擬、非個(gè)性化的頭部相關(guān)傳遞函數(shù)和假設(shè)的靜態(tài)噪聲,真實(shí)錄音和生成聲音之間存在明顯的質(zhì)量差距。
神經(jīng)音頻渲染方法則利用深度神經(jīng)網(wǎng)絡(luò)的強(qiáng)大擬合能力。比如,Gao和Grauman開(kāi)發(fā)了一種視覺(jué)引導(dǎo)的雙耳化網(wǎng)絡(luò),根據(jù)視頻幀生成雙耳音頻;Richard等人設(shè)計(jì)了一個(gè)神經(jīng)變形網(wǎng)絡(luò),根據(jù)時(shí)間延遲和聽(tīng)者位置來(lái)變形單聲道音頻。雖然這些方法能夠產(chǎn)生合理的語(yǔ)音結(jié)果,但它們的回歸機(jī)制限制了生成能力,無(wú)法生成輸入數(shù)據(jù)中缺失的精確房間聲學(xué)和環(huán)境噪聲。
此外,大多數(shù)先進(jìn)的神經(jīng)渲染方法不支持連續(xù)合成,這是因?yàn)樗鼈兪褂梅且蚬P图軜?gòu)和低效的多步推理程序。
三、BinauralFlow:重新思考音頻生成
為了解決上述問(wèn)題,研究團(tuán)隊(duì)提出了BinauralFlow,這是一個(gè)流匹配的流式雙耳語(yǔ)音生成框架。這個(gè)方法的核心是將雙耳渲染問(wèn)題視為一個(gè)生成任務(wù),而不是傳統(tǒng)的回歸任務(wù)。
### 1. 條件流匹配模型:雙耳音頻的魔法烹飪
傳統(tǒng)方法嘗試用回歸方式預(yù)測(cè)混響效果和背景噪聲是很困難的,因?yàn)檫@些特征在輸入音頻信號(hào)中不存在,而且它們表現(xiàn)出隨機(jī)行為。BinauralFlow將這個(gè)問(wèn)題重新定義為一個(gè)生成任務(wù)。
想象流匹配模型就像一位廚師,開(kāi)始時(shí)有一堆原料(噪聲),通過(guò)精確控制的烹飪過(guò)程(去噪過(guò)程),最終做出一道美味佳肴(雙耳音頻)。這個(gè)"烹飪"過(guò)程需要遵循一個(gè)"食譜"(向量場(chǎng)),告訴廚師每一步如何處理食材。
具體來(lái)說(shuō),研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)條件流匹配模型,通過(guò)增強(qiáng)感知真實(shí)性來(lái)渲染逼真的聲學(xué)效果和動(dòng)態(tài)環(huán)境噪聲。為了增強(qiáng)渲染的雙耳語(yǔ)音與精確的雙耳提示,他們將模型條件設(shè)置為聲源和接收者的姿態(tài),以指導(dǎo)語(yǔ)音渲染。
在技術(shù)層面,這個(gè)過(guò)程首先將單聲道音頻和雙耳音頻從時(shí)間域轉(zhuǎn)換到時(shí)頻域,使用短時(shí)傅里葉變換(STFT)。然后,模型采樣一個(gè)隨機(jī)噪聲,中心在單聲道輸入周?chē)?。流匹配模型的目?biāo)是設(shè)計(jì)一個(gè)流,將源數(shù)據(jù)(噪聲)移動(dòng)到目標(biāo)數(shù)據(jù)(雙耳音頻)。
研究團(tuán)隊(duì)使用了最優(yōu)傳輸公式來(lái)定義流函數(shù),它在時(shí)間步t是源和目標(biāo)之間的線(xiàn)性插值。當(dāng)t=0時(shí),分布圍繞單聲道音頻;當(dāng)t逐漸增加,分布的均值線(xiàn)性地從單聲道移向雙耳音頻,同時(shí)標(biāo)準(zhǔn)差減小。t=1時(shí),分布收縮到雙耳音頻。
通過(guò)這種方式,定義的流將圍繞輸入音頻中心的樣本移動(dòng)到雙耳音頻,方差逐漸減小。研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)深度神經(jīng)網(wǎng)絡(luò)來(lái)匹配向量場(chǎng),使用條件流匹配L1損失函數(shù),同時(shí)將模型預(yù)測(cè)條件設(shè)置為說(shuō)話(huà)者和聽(tīng)者的姿態(tài),以精確建模雙耳線(xiàn)索。
### 2. 因果U-Net架構(gòu):時(shí)間只向前流動(dòng)
現(xiàn)有的流匹配模型通常無(wú)法支持連續(xù)推理,這是因?yàn)榉且蚬P图軜?gòu)和多步推理要求。流行的生成框架通常使用由卷積和注意力塊組成的非因果U-Net作為骨干網(wǎng)絡(luò)。非因果卷積核和全局感知的注意力計(jì)算機(jī)制在渲染過(guò)程中破壞了時(shí)間因果性。
為了解決這個(gè)問(wèn)題,研究團(tuán)隊(duì)引入了一種因果U-Net架構(gòu),通過(guò)精心設(shè)計(jì)因果2D卷積塊,使下一個(gè)音頻塊的預(yù)測(cè)僅依賴(lài)于過(guò)去的塊。
想象這就像是一本書(shū)的連載,作者只能根據(jù)已經(jīng)寫(xiě)下的章節(jié)來(lái)創(chuàng)作新章節(jié),而不能基于還未寫(xiě)出的未來(lái)情節(jié)。同樣,因果U-Net架構(gòu)確保音頻生成過(guò)程只依賴(lài)于已經(jīng)處理過(guò)的歷史信息。
具體來(lái)說(shuō),研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)因果U-Net,它有一個(gè)收縮部分和一個(gè)擴(kuò)展部分,中間有跳躍連接。每個(gè)部分由幾個(gè)因果2D CNN塊組成。每個(gè)塊包含規(guī)范化和激活層、因果卷積層和可選的因果下采樣/上采樣層。
在規(guī)范化和激活層中,他們使用組歸一化來(lái)穩(wěn)定訓(xùn)練,但將計(jì)算限制在每個(gè)單獨(dú)幀上,而不是所有幀,以確保因果性。他們使用Sigmoid線(xiàn)性單元作為激活函數(shù)。因果卷積層是具有1的步長(zhǎng)和2的單側(cè)填充的3x3卷積層。單側(cè)填充將卷積核的感受野限制在歷史信息中。
由于U-Net需要在每個(gè)塊中減少或增加特征維度,他們?cè)O(shè)計(jì)了一個(gè)因果下采樣/上采樣層。因果下采樣層包含一個(gè)步長(zhǎng)為2的4x4卷積函數(shù),它將特征維度減半。因果上采樣層包含一個(gè)4x4轉(zhuǎn)置卷積函數(shù),它使特征維度加倍。
### 3. 連續(xù)推理管道:無(wú)縫流式音頻的秘密
僅有因果骨干網(wǎng)絡(luò)還不足以進(jìn)行流式推理,因?yàn)樯赡P托枰亩嗖缴蛇^(guò)程。生成性擴(kuò)散和流匹配模型依賴(lài)于一個(gè)迭代去噪過(guò)程,需要幾個(gè)步驟來(lái)完成生成過(guò)程。
為了實(shí)現(xiàn)連續(xù)生成,需要確保所有推理步驟的時(shí)間因果性。為此,研究團(tuán)隊(duì)構(gòu)建了一個(gè)連續(xù)推理管道,包括流式STFT/ISTFT操作、緩沖區(qū)庫(kù)、中點(diǎn)求解器和早期跳過(guò)計(jì)劃。
這就像是一條高效的裝配線(xiàn),原材料(單聲道音頻塊)進(jìn)入后,經(jīng)過(guò)一系列精確協(xié)調(diào)的工作站處理,最終連續(xù)不斷地輸出成品(雙耳音頻)。即使新的原材料不斷到達(dá),整個(gè)過(guò)程也能無(wú)縫運(yùn)行,不會(huì)出現(xiàn)中斷或不連續(xù)。
具體來(lái)說(shuō),流式STFT/ISTFT通過(guò)添加緩沖區(qū)和調(diào)整填充方式來(lái)適應(yīng)流式處理。在因果U-Net中,他們?yōu)槊總€(gè)因果卷積層引入緩沖區(qū),存儲(chǔ)當(dāng)前音頻塊的隱藏特征。這些緩沖區(qū)用于填充下一個(gè)音頻塊。
由于去噪過(guò)程涉及多個(gè)推理步驟,在所有步驟中重用同一緩沖區(qū)會(huì)覆蓋歷史信息。為解決這個(gè)問(wèn)題,他們構(gòu)建了一個(gè)基于字典的緩沖區(qū)庫(kù),存儲(chǔ)所有時(shí)間步驟t的網(wǎng)絡(luò)緩沖區(qū)。
對(duì)于求解常微分方程,他們選擇中點(diǎn)求解器,因?yàn)樗苡行p少函數(shù)評(píng)估次數(shù),同時(shí)保持性能。此外,為進(jìn)一步減少函數(shù)評(píng)估次數(shù),他們提出了一個(gè)早期跳過(guò)計(jì)劃。
標(biāo)準(zhǔn)時(shí)間計(jì)劃將0到1的區(qū)間分成相等的段,并從0到1順序移動(dòng)。他們?cè)O(shè)計(jì)了兩個(gè)新計(jì)劃:跳過(guò)前半段的早期跳過(guò)計(jì)劃和避免后半段的晚期跳過(guò)計(jì)劃。他們發(fā)現(xiàn)使用早期跳過(guò)計(jì)劃不會(huì)影響渲染質(zhì)量,而晚期跳過(guò)會(huì)降低性能,背景噪聲建模更差。他們推測(cè)流匹配可能能夠在推理的后半部分糾正前半部分的錯(cuò)誤,所以即使進(jìn)行早期跳過(guò),也不會(huì)明顯影響性能。因此,他們使用早期跳過(guò)策略將推理步驟減少到6步。相比之下,SGMSE模型需要30步才能生成可比結(jié)果。
四、實(shí)驗(yàn)驗(yàn)證:BinauralFlow的驚人表現(xiàn)
為了評(píng)估BinauralFlow的效果,研究團(tuán)隊(duì)收集了一個(gè)新的高質(zhì)量雙耳數(shù)據(jù)集。他們?cè)跊](méi)有顯著隔音或吸音材料的標(biāo)準(zhǔn)房間中錄制了10小時(shí)的配對(duì)單聲道和雙耳數(shù)據(jù),以及說(shuō)話(huà)者和聽(tīng)者的頭部姿勢(shì)。為了匹配真實(shí)世界場(chǎng)景,他們收集了來(lái)自多個(gè)空調(diào)通風(fēng)口和電子設(shè)備的背景噪聲。此外,他們沒(méi)有使用雙耳人體模型和揚(yáng)聲器,而是讓真實(shí)參與者擔(dān)任說(shuō)話(huà)者和聽(tīng)者。在錄制過(guò)程中,說(shuō)話(huà)者可以在房間內(nèi)自由移動(dòng),聽(tīng)者可以坐在椅子上自由轉(zhuǎn)動(dòng)頭部。
他們將數(shù)據(jù)集分為訓(xùn)練/驗(yàn)證/測(cè)試子集,分別為8.47/0.86/1.33小時(shí)。測(cè)試子集包含兩名在訓(xùn)練期間未見(jiàn)過(guò)的額外說(shuō)話(huà)者,一男一女。
研究團(tuán)隊(duì)將他們的方法與數(shù)字音頻渲染和更先進(jìn)的神經(jīng)音頻渲染方法進(jìn)行了比較。他們選擇SoundSpaces 2.0作為DSP基線(xiàn),使用2.5D Visual Sound、WaveNet和WarpNet作為基于回歸的基線(xiàn),并使用BinauralGrad和SGMSE作為生成性基線(xiàn)。BinauralGrad是雙耳語(yǔ)音合成任務(wù)的最先進(jìn)方法,是一個(gè)兩階段擴(kuò)散模型。
量化評(píng)估結(jié)果顯示,BinauralFlow在所有指標(biāo)上都大幅超過(guò)現(xiàn)有基線(xiàn)。與先前的最佳模型相比,BinauralFlow在波形L2誤差上降低了35.5%,在幅度L2誤差上降低了6.6%。此外,BinauralFlow的推理速度比其他生成模型快得多,達(dá)到了更有利的性能和推理速度之間的平衡。
質(zhì)量比較也直觀地展示了BinauralFlow的優(yōu)勢(shì)。SoundSpaces方法估計(jì)了傳輸單聲道音頻和接收雙耳音頻之間的不準(zhǔn)確時(shí)間延遲。BinauralGrad和SGMSE預(yù)測(cè)了準(zhǔn)確的時(shí)間延遲,但它們的振幅不匹配。相比之下,BinauralFlow模型正確預(yù)測(cè)了時(shí)間延遲和音頻振幅。
最重要的是,研究團(tuán)隊(duì)進(jìn)行了一項(xiàng)全面的感知評(píng)估,以評(píng)估渲染輸出的質(zhì)量和真實(shí)性。他們招募了23名參與者,請(qǐng)他們完成ABX測(cè)試、A-B測(cè)試和MUSHRA評(píng)估。ABX測(cè)試測(cè)量生成聲音和錄制聲音(基準(zhǔn)真實(shí))之間是否有可感知的差異。A-B測(cè)試測(cè)量用戶(hù)是否能可靠地識(shí)別生成聲音與真實(shí)聲音。MUSHRA評(píng)估讓受試者根據(jù)環(huán)境(環(huán)境噪聲和混響)和空間化(聲源位置)的相似性對(duì)參考(基準(zhǔn)真實(shí))和生成樣本進(jìn)行評(píng)分。
感知評(píng)估結(jié)果顯示,BinauralFlow在所有任務(wù)中都明顯優(yōu)于其他方法。特別是在A-B測(cè)試中,他們實(shí)現(xiàn)了42%的混淆率(上限是50%),表明用戶(hù)幾乎無(wú)法區(qū)分他們生成的聲音和錄制的樣本。這一結(jié)果證明了BinauralFlow在渲染真實(shí)性方面的卓越表現(xiàn)。
五、深入分析與未來(lái)方向
研究團(tuán)隊(duì)還分析了不同設(shè)計(jì)選擇對(duì)他們的雙耳語(yǔ)音合成框架的影響。
首先,他們比較了提出的流匹配模型和簡(jiǎn)化流匹配框架的性能。他們的方法在L2、Mag和Phase誤差上都取得了更好的結(jié)果,證明了其條件流匹配方法的有效性。
其次,他們比較了連續(xù)推理管道和非流式推理管道,并展示了生成的譜圖。給定一系列音頻塊,非流式管道單獨(dú)雙耳化每個(gè)塊,導(dǎo)致相鄰塊之間出現(xiàn)明顯的偽影。相比之下,他們的管道合成無(wú)縫平滑的譜圖。
他們還計(jì)算了不同函數(shù)評(píng)估數(shù)量下模型的實(shí)時(shí)因子。當(dāng)NFE設(shè)置為6時(shí),實(shí)時(shí)因子為0.239。如果犧牲一些性能以實(shí)現(xiàn)更快的推理,將NFE設(shè)置為1會(huì)導(dǎo)致RTF為0.04。這表明他們的模型有實(shí)時(shí)流式生成的潛力。
最后,由于在真實(shí)世界場(chǎng)景中錄制10小時(shí)數(shù)據(jù)的成本高昂且費(fèi)力,研究團(tuán)隊(duì)開(kāi)發(fā)了一種大規(guī)模預(yù)訓(xùn)練策略。他們使用揚(yáng)聲器和人工雙耳頭代替真實(shí)個(gè)體,收集了一個(gè)包含超過(guò)7,700小時(shí)雙耳音頻數(shù)據(jù)的大規(guī)模數(shù)據(jù)集,涵蓋了來(lái)自英語(yǔ)多說(shuō)話(huà)者VCTK語(yǔ)料庫(kù)的97個(gè)說(shuō)話(huà)者身份。實(shí)驗(yàn)結(jié)果表明,這種預(yù)訓(xùn)練策略顯著提高了性能,預(yù)訓(xùn)練模型的零樣本性能與僅使用1%或5%真實(shí)數(shù)據(jù)從頭開(kāi)始訓(xùn)練的模型相當(dāng)或超過(guò)它。這證明了他們模型的強(qiáng)大泛化能力及其在各種應(yīng)用中的潛力。
六、總結(jié):聲音也能有"3D效果"
歸根結(jié)底,BinauralFlow代表了雙耳音頻合成領(lǐng)域的一個(gè)重大突破。通過(guò)將雙耳渲染問(wèn)題重新定義為一個(gè)生成任務(wù),而不是傳統(tǒng)的回歸任務(wù),研究團(tuán)隊(duì)創(chuàng)造了一個(gè)能夠產(chǎn)生高度逼真空間音頻的系統(tǒng),這些音頻幾乎無(wú)法與真實(shí)世界錄音區(qū)分開(kāi)來(lái)。
更重要的是,通過(guò)精心設(shè)計(jì)的因果U-Net架構(gòu)和連續(xù)推理管道,BinauralFlow實(shí)現(xiàn)了流式推理能力,使其非常適合需要實(shí)時(shí)音頻生成的應(yīng)用,如實(shí)時(shí)語(yǔ)音合成、交互式游戲或增強(qiáng)現(xiàn)實(shí)系統(tǒng)。
這項(xiàng)技術(shù)的潛在應(yīng)用非常廣泛:從創(chuàng)造更身臨其境的虛擬現(xiàn)實(shí)體驗(yàn),到改善視頻會(huì)議中的音頻質(zhì)量,再到為聽(tīng)力受損者開(kāi)發(fā)更好的輔助設(shè)備。想象一下,未來(lái)的AR眼鏡可能能夠?qū)崟r(shí)將周?chē)h(huán)境的聲音轉(zhuǎn)換為高度個(gè)性化的空間音頻,大大提升用戶(hù)體驗(yàn)。
如果你對(duì)這項(xiàng)技術(shù)感興趣,可以訪問(wèn)研究團(tuán)隊(duì)的項(xiàng)目頁(yè)面(https://liangsusan-git.github.io/project/binauralflow/)查看演示視頻,親身體驗(yàn)BinauralFlow的神奇效果。
好文章,需要你的鼓勵(lì)
新加坡國(guó)立大學(xué)研究團(tuán)隊(duì)開(kāi)發(fā)了SPIRAL框架,通過(guò)讓AI與自己對(duì)弈零和游戲來(lái)提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡(jiǎn)單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無(wú)需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開(kāi)發(fā)的GIGA-ToF技術(shù)通過(guò)融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問(wèn)題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺(jué)解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過(guò)對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺(jué)語(yǔ)言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無(wú)法有效利用視覺(jué)信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過(guò)動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語(yǔ)言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。