在數(shù)字時(shí)代,語(yǔ)音識(shí)別技術(shù)正快速改變著我們與設(shè)備交互的方式。無(wú)論是智能音箱、手機(jī)助手,還是自動(dòng)字幕生成,這些技術(shù)都依賴于強(qiáng)大的自動(dòng)語(yǔ)音識(shí)別(ASR)系統(tǒng)。2025年5月,來(lái)自新加坡科技設(shè)計(jì)大學(xué)StatNLP研究組的Tianduo Wang和Wei Lu,以及字節(jié)跳動(dòng)Seed團(tuán)隊(duì)的Lu Xu和Shanbo Cheng發(fā)表了一篇題為《從數(shù)十小時(shí)到數(shù)萬(wàn)小時(shí):擴(kuò)展反向翻譯用于語(yǔ)音識(shí)別》的研究論文,為解決語(yǔ)音識(shí)別中的數(shù)據(jù)稀缺問(wèn)題提供了一種創(chuàng)新方案。有興趣深入了解的讀者可以通過(guò)GitHub鏈接(https://github.com/tianduowang/speech-bt)獲取更多信息。
想象一下,你想教一個(gè)孩子認(rèn)識(shí)各種動(dòng)物。如果你有成百上千張不同動(dòng)物的照片,這個(gè)學(xué)習(xí)過(guò)程會(huì)相對(duì)簡(jiǎn)單。但如果你只有幾張照片,那么學(xué)習(xí)效果可能就會(huì)大打折扣。語(yǔ)音識(shí)別技術(shù)面臨著類似的挑戰(zhàn)——它需要大量的語(yǔ)音數(shù)據(jù)來(lái)"學(xué)習(xí)"如何準(zhǔn)確識(shí)別人類語(yǔ)音。對(duì)于英語(yǔ)和中文等資源豐富的語(yǔ)言,已經(jīng)有海量的標(biāo)注語(yǔ)音數(shù)據(jù)可供使用,但對(duì)于全球數(shù)千種語(yǔ)言中的大多數(shù),收集足夠的數(shù)據(jù)仍是一個(gè)巨大挑戰(zhàn)。
這就像是一個(gè)家庭只有少量食材,卻想準(zhǔn)備一頓豐盛的晚餐。研究團(tuán)隊(duì)提出的解決方案——"語(yǔ)音反向翻譯"(Speech Back-Translation),就像是找到了一種魔法配方,能夠用有限的食材"變出"更多豐富的食材。具體來(lái)說(shuō),他們展示了如何利用僅僅幾十小時(shí)的真實(shí)語(yǔ)音數(shù)據(jù),訓(xùn)練出能生成數(shù)萬(wàn)小時(shí)高質(zhì)量合成語(yǔ)音的系統(tǒng),實(shí)現(xiàn)了幾百倍的數(shù)據(jù)擴(kuò)充。
一、語(yǔ)音反向翻譯:從少到多的魔法轉(zhuǎn)變
語(yǔ)音反向翻譯的核心思想源自機(jī)器翻譯領(lǐng)域。在機(jī)器翻譯中,反向翻譯指的是使用一個(gè)從目標(biāo)語(yǔ)言翻譯回源語(yǔ)言的模型,來(lái)生成額外的訓(xùn)練數(shù)據(jù)。研究團(tuán)隊(duì)創(chuàng)造性地將這一概念應(yīng)用到語(yǔ)音識(shí)別領(lǐng)域:利用文本到語(yǔ)音(TTS)模型將大量文本數(shù)據(jù)轉(zhuǎn)換成合成語(yǔ)音,從而擴(kuò)充語(yǔ)音識(shí)別模型的訓(xùn)練數(shù)據(jù)。
這個(gè)過(guò)程就像是烹飪中的"一菜多吃"。假設(shè)你只有一小塊肉(少量真實(shí)語(yǔ)音數(shù)據(jù)),但你掌握了一種特殊烹飪技巧(TTS模型),可以用這塊肉的風(fēng)味來(lái)調(diào)制各種素材(文本數(shù)據(jù)),使它們都帶有肉的香味(語(yǔ)音特征)。這樣,你就能用有限的肉,做出滿桌子的"肉味"菜肴(大量合成語(yǔ)音數(shù)據(jù))。
研究團(tuán)隊(duì)的方案包含幾個(gè)關(guān)鍵步驟。首先,他們選擇一個(gè)在高資源語(yǔ)言上預(yù)訓(xùn)練的零樣本TTS模型。這類模型的特別之處在于,它們可以模仿任何聲音,即使是模型從未"聽(tīng)到"過(guò)的聲音。這就像是一個(gè)模仿大師,只需聽(tīng)?zhēng)拙湓?,就能模仿出說(shuō)話者的聲音風(fēng)格。
接下來(lái),研究人員用幾十小時(shí)的低資源語(yǔ)言語(yǔ)音數(shù)據(jù)對(duì)TTS模型進(jìn)行微調(diào)。這個(gè)過(guò)程相當(dāng)于教會(huì)模仿大師一種新的語(yǔ)言發(fā)音規(guī)則。在微調(diào)過(guò)程中,他們凍結(jié)了負(fù)責(zé)低層次聲學(xué)表示的模塊,只調(diào)整語(yǔ)言映射部分,這樣可以確保模型的基礎(chǔ)聲學(xué)能力不受干擾,同時(shí)有效適應(yīng)新語(yǔ)言的發(fā)音和韻律特點(diǎn)。
為了評(píng)估合成語(yǔ)音的質(zhì)量,研究團(tuán)隊(duì)提出了一種新的評(píng)估指標(biāo)——"歸一化可理解度"(Normalized Intelligibility)。傳統(tǒng)上,合成語(yǔ)音的質(zhì)量通常通過(guò)使用ASR系統(tǒng)計(jì)算的詞錯(cuò)誤率(WER)來(lái)衡量。但這種方法有兩個(gè)缺點(diǎn):一是評(píng)判的ASR系統(tǒng)本身可能存在錯(cuò)誤,特別是對(duì)于低資源語(yǔ)言;二是不同語(yǔ)言間的WER值無(wú)法直接比較。
研究團(tuán)隊(duì)的創(chuàng)新方法是使用Fleurs數(shù)據(jù)集中的高質(zhì)量語(yǔ)音作為基準(zhǔn),并用Whisper-large-v3作為評(píng)判系統(tǒng)。他們計(jì)算了兩個(gè)WER值:合成語(yǔ)音的WER(WERs)和真實(shí)語(yǔ)音的WER(WERr),然后通過(guò)一個(gè)巧妙的公式:Norm_I = exp((WERr - WERs) / WERr),得到歸一化可理解度分?jǐn)?shù)。這個(gè)分?jǐn)?shù)直觀地反映了合成語(yǔ)音相對(duì)于真實(shí)語(yǔ)音的質(zhì)量,使得不同語(yǔ)言間的比較成為可能。
二、從文字到聲音:打造數(shù)十萬(wàn)小時(shí)的合成語(yǔ)音庫(kù)
生成大規(guī)模合成語(yǔ)音面臨兩個(gè)主要挑戰(zhàn):一是需要大量多樣化的語(yǔ)音提示作為聲音風(fēng)格的參考;二是需要豐富多樣的文本語(yǔ)料作為內(nèi)容來(lái)源。研究團(tuán)隊(duì)針對(duì)這兩個(gè)方面都做了充分準(zhǔn)備。
對(duì)于語(yǔ)音提示,他們收集了約100萬(wàn)個(gè)短音頻片段,涵蓋不同的說(shuō)話者和錄音條件。為了避免聲音特征的重復(fù),他們使用ECAPA2說(shuō)話者編碼器提取每個(gè)音頻片段的說(shuō)話者嵌入,并通過(guò)比較余弦相似度(使用0.8作為閾值)去除重復(fù)的聲音。這就像是從人群中挑選各種獨(dú)特聲音的人,確保最終的"合唱團(tuán)"具有足夠的多樣性。
對(duì)于文本語(yǔ)料,他們參考了開(kāi)源大語(yǔ)言模型的數(shù)據(jù)混合實(shí)踐,從各種領(lǐng)域采樣句子,最大化語(yǔ)言多樣性。這些文本經(jīng)過(guò)分句、過(guò)濾(去除過(guò)短、過(guò)長(zhǎng)或包含過(guò)多非字母字符的句子)和去重處理,確保最終用于合成的文本既豐富多樣又高質(zhì)量。
一個(gè)重要的技術(shù)挑戰(zhàn)是TTS模型的推理速度。生成大規(guī)模合成語(yǔ)音需要高效的推理過(guò)程,否則將耗費(fèi)大量時(shí)間和計(jì)算資源。研究團(tuán)隊(duì)采用了兩種互補(bǔ)的優(yōu)化技術(shù):DeepSpeed-Inference和批量推理。
DeepSpeed-Inference涉及融合CUDA內(nèi)核和優(yōu)化內(nèi)核調(diào)度,可以顯著提高推理吞吐量。批量推理則是將具有相似長(zhǎng)度的多個(gè)句子組合在一起,使用單個(gè)語(yǔ)音提示,然后應(yīng)用定制的注意力掩碼,使模型能在一次前向傳遞中同時(shí)生成多個(gè)語(yǔ)音片段。通過(guò)這些優(yōu)化,他們?cè)趩蝹€(gè)NVIDIA V100 GPU上實(shí)現(xiàn)了超過(guò)30倍的速度提升,使大規(guī)模語(yǔ)音合成變得可行。
三、從小到大:實(shí)驗(yàn)驗(yàn)證與擴(kuò)展應(yīng)用
研究團(tuán)隊(duì)首先測(cè)試了他們的方法能否有效地將低資源語(yǔ)言的訓(xùn)練數(shù)據(jù)從幾十小時(shí)擴(kuò)展到上萬(wàn)小時(shí)。他們選擇了三種低資源語(yǔ)言——越南語(yǔ)、捷克語(yǔ)和匈牙利語(yǔ),分別只有100小時(shí)、50小時(shí)和60小時(shí)的真實(shí)標(biāo)注語(yǔ)音數(shù)據(jù)。
實(shí)驗(yàn)結(jié)果令人印象深刻:僅使用這些有限的真實(shí)語(yǔ)音,他們成功訓(xùn)練了TTS模型,并生成了每種語(yǔ)言1萬(wàn)小時(shí)的合成語(yǔ)音。使用這些合成數(shù)據(jù)訓(xùn)練的Whisper-medium和Whisper-large模型在詞錯(cuò)誤率(WER)上獲得了顯著改善。例如,對(duì)于越南語(yǔ),Whisper-large模型的WER從24.5%降低到16.0%,捷克語(yǔ)從19.9%降低到9.1%,匈牙利語(yǔ)從23.8%降低到11.1%。
這就像是一位廚師只用幾種基本食材,就能烹飪出一整桌豐盛的宴席,而且每道菜的品質(zhì)都不錯(cuò)。更重要的是,這種"食材倍增"的技術(shù)適用于各種不同的"菜系"(語(yǔ)言)。
進(jìn)一步驗(yàn)證方法的可擴(kuò)展性,研究團(tuán)隊(duì)將實(shí)驗(yàn)擴(kuò)展到七種語(yǔ)言:法語(yǔ)、德語(yǔ)和西班牙語(yǔ)(高資源語(yǔ)言);荷蘭語(yǔ)和意大利語(yǔ)(中等資源語(yǔ)言);捷克語(yǔ)和匈牙利語(yǔ)(低資源語(yǔ)言)。他們生成了總計(jì)16萬(wàn)小時(shí)的合成語(yǔ)音,并用這些數(shù)據(jù)訓(xùn)練不同大小的Whisper模型。
結(jié)果表明,合成數(shù)據(jù)不僅提高了模型在域內(nèi)(Common Voice測(cè)試集)的性能,還顯著增強(qiáng)了模型在域外(Voxpopuli數(shù)據(jù)集)的泛化能力。僅使用真實(shí)數(shù)據(jù)訓(xùn)練的模型在域內(nèi)表現(xiàn)良好,但域外改進(jìn)有限;而添加合成數(shù)據(jù)后,模型在兩個(gè)域上都取得了顯著進(jìn)步。這表明合成數(shù)據(jù)不僅能幫助模型更好地學(xué)習(xí)特定領(lǐng)域的模式,還能增強(qiáng)其應(yīng)對(duì)各種不同場(chǎng)景的能力。
研究人員還探索了TTS模型質(zhì)量與ASR性能之間的關(guān)系。他們發(fā)現(xiàn),TTS模型質(zhì)量與ASR性能改進(jìn)之間存在強(qiáng)烈的相關(guān)性,并確定了一個(gè)關(guān)鍵的可理解度閾值(約0.01)。低于這個(gè)閾值的合成語(yǔ)音會(huì)導(dǎo)致ASR性能下降,而一旦超過(guò)閾值,合成語(yǔ)音就能持續(xù)提升ASR準(zhǔn)確率,且可理解度越高,WER降低越明顯。
一個(gè)有趣的發(fā)現(xiàn)是,雖然足夠的訓(xùn)練數(shù)據(jù)對(duì)于跨越質(zhì)量閾值至關(guān)重要,但在歸一化可理解度接近1.0時(shí),WER改進(jìn)會(huì)趨于穩(wěn)定,大約降低3個(gè)百分點(diǎn)。這表明在達(dá)到一定質(zhì)量水平后,繼續(xù)提高TTS質(zhì)量可能不會(huì)帶來(lái)顯著的ASR性能提升。
四、有限域內(nèi)數(shù)據(jù)的有效利用
在實(shí)際應(yīng)用中,研究人員經(jīng)常面臨一個(gè)現(xiàn)實(shí)問(wèn)題:即使對(duì)于低資源語(yǔ)言,可能也只有極少量的目標(biāo)域內(nèi)數(shù)據(jù)可用。例如,研究團(tuán)隊(duì)在Common Voice越南語(yǔ)數(shù)據(jù)集中只找到了約3小時(shí)的轉(zhuǎn)錄音頻。如何有效利用這些寶貴但有限的域內(nèi)數(shù)據(jù)?
研究團(tuán)隊(duì)提出了三種方法:
第一種方法是先用大規(guī)模合成數(shù)據(jù)預(yù)訓(xùn)練Whisper模型,然后使用有限的域內(nèi)數(shù)據(jù)進(jìn)行微調(diào)。這就像是先讓孩子通過(guò)模擬練習(xí)掌握基本技能,然后再通過(guò)少量真實(shí)比賽來(lái)適應(yīng)實(shí)戰(zhàn)環(huán)境。
第二種方法是用域內(nèi)音頻片段作為T(mén)TS模型的提示,生成帶有域內(nèi)聲音特征的合成語(yǔ)音。這相當(dāng)于讓模仿大師聽(tīng)一小段目標(biāo)人物的聲音,然后用這個(gè)聲音風(fēng)格來(lái)朗讀大量文本。
第三種方法是先用大量通用語(yǔ)音數(shù)據(jù)訓(xùn)練TTS模型,然后用有限的域內(nèi)數(shù)據(jù)進(jìn)一步微調(diào)TTS模型,最后再用這個(gè)域適應(yīng)的TTS模型生成合成語(yǔ)音。這就像是先培養(yǎng)一個(gè)通用的模仿能力,然后專門(mén)練習(xí)模仿特定人物的聲音,最后用這種精確模仿的聲音來(lái)朗讀各種內(nèi)容。
實(shí)驗(yàn)結(jié)果表明,第三種方法最為有效。在Common Voice越南語(yǔ)測(cè)試集上,該方法將WER從25.4%降低到18.6%,相對(duì)改進(jìn)達(dá)27.0%。這一發(fā)現(xiàn)強(qiáng)調(diào)了在低資源場(chǎng)景下,同時(shí)適應(yīng)TTS和ASR模型到目標(biāo)域的重要性。
五、超大規(guī)模應(yīng)用:50萬(wàn)小時(shí)合成語(yǔ)音的驚人效果
基于前面的實(shí)驗(yàn)和發(fā)現(xiàn),研究團(tuán)隊(duì)將他們的方法擴(kuò)展到了一個(gè)前所未有的規(guī)模——總計(jì)50萬(wàn)小時(shí)的合成語(yǔ)音,涵蓋十種語(yǔ)言(增加了英語(yǔ)、中文和越南語(yǔ))。他們還擴(kuò)大了真實(shí)語(yǔ)音數(shù)據(jù)的規(guī)模,除了Common Voice,還包括了Multilingual LibriSpeech、Voxpopuli和viVoice數(shù)據(jù)集,總計(jì)1.5萬(wàn)小時(shí)的真實(shí)數(shù)據(jù)。
這些數(shù)據(jù)用于繼續(xù)預(yù)訓(xùn)練Whisper-large-v3模型,這是一個(gè)擁有15億參數(shù)的最先進(jìn)多語(yǔ)言ASR模型。為了進(jìn)行比較,他們選擇了兩個(gè)具有類似規(guī)模的ASR模型作為基準(zhǔn):SeamlessM4T-medium和Whisper-large-v2。
在三個(gè)基準(zhǔn)測(cè)試(Common Voice、Voxpopuli和Multilingual LibriSpeech)上的評(píng)估結(jié)果令人震驚:通過(guò)50萬(wàn)小時(shí)的語(yǔ)音反向翻譯數(shù)據(jù)增強(qiáng),Whisper-large-v3在所有語(yǔ)言類別上都取得了顯著改進(jìn),平均錯(cuò)誤率降低了30%。按語(yǔ)言組細(xì)分,高資源語(yǔ)言和中等資源語(yǔ)言分別實(shí)現(xiàn)了26%和30%的改進(jìn),而低資源語(yǔ)言更是取得了驚人的46%改進(jìn)。
這些結(jié)果清晰地表明,語(yǔ)音反向翻譯方法在擴(kuò)展多語(yǔ)言ASR系統(tǒng)方面具有卓越的效果,特別是對(duì)于傳統(tǒng)上資源不足的語(yǔ)言社區(qū)。這就像是一種教學(xué)方法,不僅能讓學(xué)生在熟悉的環(huán)境中表現(xiàn)出色,還能幫助他們?cè)谕耆吧沫h(huán)境中也應(yīng)對(duì)自如。
六、語(yǔ)音反向翻譯的局限性與未來(lái)方向
盡管研究團(tuán)隊(duì)的方法取得了顯著成功,但也存在一些局限。首先,通過(guò)TTS模型生成的合成語(yǔ)音可能無(wú)法完全捕捉真實(shí)世界環(huán)境中的聲學(xué)復(fù)雜性,特別是在有背景噪音、多個(gè)說(shuō)話者或錄音條件變化的情況下。這可能會(huì)影響模型在信噪比較低或聲學(xué)環(huán)境具有挑戰(zhàn)性的場(chǎng)景中的魯棒性。
其次,雖然研究團(tuán)隊(duì)引入了基于可理解度的評(píng)估指標(biāo),但這個(gè)評(píng)估框架可能無(wú)法全面捕捉所有可能影響ASR訓(xùn)練有效性的相關(guān)語(yǔ)音方面。未來(lái)的研究可以探索考慮韻律和情感表達(dá)等因素的額外質(zhì)量指標(biāo)。
第三,實(shí)驗(yàn)主要基于兩個(gè)零樣本TTS模型(XTTS和ChatTTS),這可能無(wú)法代表TTS能力和局限性的完整范圍。對(duì)更廣泛的TTS系統(tǒng)進(jìn)行更全面的評(píng)估,可以提供關(guān)于方法通用性的額外見(jiàn)解,并識(shí)別潛在的TTS特定偏差或偽影。
最后,雖然研究團(tuán)隊(duì)展示了方法的可擴(kuò)展性,生成了50萬(wàn)小時(shí)的合成語(yǔ)音,但語(yǔ)言覆蓋仍限于十種語(yǔ)言,其中九種已經(jīng)被現(xiàn)有TTS模型支持。未來(lái)的研究需要驗(yàn)證該方法在其他低資源語(yǔ)言中的有效性,特別是那些具有獨(dú)特音韻特征或語(yǔ)言資源有限的語(yǔ)言。
盡管存在這些局限,研究團(tuán)隊(duì)的工作仍然代表了多語(yǔ)言ASR領(lǐng)域的重要進(jìn)步。他們證明了僅用幾十小時(shí)的標(biāo)注語(yǔ)音數(shù)據(jù)就能生成數(shù)萬(wàn)小時(shí)的高質(zhì)量合成語(yǔ)音,這一發(fā)現(xiàn)為克服全球數(shù)千種語(yǔ)言中大多數(shù)面臨的數(shù)據(jù)稀缺問(wèn)題提供了可行的解決方案。
語(yǔ)音反向翻譯方法挑戰(zhàn)了對(duì)大規(guī)模人工標(biāo)注數(shù)據(jù)集的需求,通過(guò)有效擴(kuò)展有限數(shù)據(jù),使先進(jìn)的語(yǔ)音識(shí)別技術(shù)更容易在不同語(yǔ)言間普及。未來(lái)的工作可以將這種方法擴(kuò)展到極低資源語(yǔ)言,完善特定語(yǔ)言的評(píng)估指標(biāo),并與其他數(shù)據(jù)增強(qiáng)技術(shù)相結(jié)合,進(jìn)一步提高多語(yǔ)言ASR系統(tǒng)的性能和可訪問(wèn)性。
歸根結(jié)底,這項(xiàng)研究表明,即使在資源嚴(yán)重受限的情況下,創(chuàng)新的數(shù)據(jù)生成方法也能顯著提升語(yǔ)音技術(shù)的性能。隨著這些技術(shù)的進(jìn)一步發(fā)展和普及,我們可以期待語(yǔ)音技術(shù)將更加公平地惠及全球各種語(yǔ)言的使用者,無(wú)論其語(yǔ)言有多么小眾或資源有多么有限。對(duì)于那些母語(yǔ)不是主流語(yǔ)言的人來(lái)說(shuō),這意味著更好的語(yǔ)音交互體驗(yàn)、更準(zhǔn)確的自動(dòng)字幕和更廣泛的數(shù)字服務(wù)可及性。
如果你對(duì)這項(xiàng)研究感興趣,可以通過(guò)前文提到的GitHub鏈接查看更多詳情,或直接閱讀他們發(fā)表在arXiv上的論文。隨著語(yǔ)音技術(shù)的不斷發(fā)展,我們正在見(jiàn)證一個(gè)更加包容、多元的數(shù)字語(yǔ)音世界的誕生。
好文章,需要你的鼓勵(lì)
新加坡國(guó)立大學(xué)研究團(tuán)隊(duì)開(kāi)發(fā)了SPIRAL框架,通過(guò)讓AI與自己對(duì)弈零和游戲來(lái)提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡(jiǎn)單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無(wú)需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開(kāi)發(fā)的GIGA-ToF技術(shù)通過(guò)融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問(wèn)題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺(jué)解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過(guò)對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺(jué)語(yǔ)言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無(wú)法有效利用視覺(jué)信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過(guò)動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語(yǔ)言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。