這項(xiàng)由MIT計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室(MIT CSAIL)的張恒瑞、Saurabhchand Bhati、James Glass和劉亞歷山大領(lǐng)導(dǎo)的研究發(fā)表于2025年6月的arXiv預(yù)印本服務(wù)器(論文編號(hào):arXiv:2506.18843v1),有興趣深入了解的讀者可以通過(guò)該編號(hào)在arXiv網(wǎng)站上訪(fǎng)問(wèn)完整論文。這項(xiàng)研究開(kāi)發(fā)了一種名為USAD(Universal Speech and Audio Distillation,通用語(yǔ)音與音頻蒸餾)的創(chuàng)新技術(shù),徹底改變了計(jì)算機(jī)理解音頻的方式。
在我們的日常生活中,音頻無(wú)處不在——從手機(jī)里的語(yǔ)音助手到音樂(lè)播放器中的歌曲,再到周?chē)h(huán)境中的各種聲音。然而,讓計(jì)算機(jī)理解這些不同類(lèi)型的音頻一直是個(gè)棘手的問(wèn)題。就像一個(gè)專(zhuān)業(yè)的翻譯官可能精通英語(yǔ)到中文的翻譯,但對(duì)法語(yǔ)到日語(yǔ)的翻譯卻束手無(wú)策一樣,目前的AI系統(tǒng)在處理不同類(lèi)型音頻時(shí)也面臨著類(lèi)似的困境。大多數(shù)現(xiàn)有的音頻AI模型都像專(zhuān)科醫(yī)生,要么擅長(zhǎng)處理人類(lèi)語(yǔ)音(比如語(yǔ)音識(shí)別),要么專(zhuān)門(mén)處理音樂(lè)和環(huán)境聲音,但很少有模型能夠同時(shí)勝任所有類(lèi)型的音頻任務(wù)。
這種"術(shù)業(yè)有專(zhuān)攻"的現(xiàn)狀在實(shí)際應(yīng)用中造成了不少麻煩。當(dāng)科技公司想要開(kāi)發(fā)一個(gè)全能的音頻助手時(shí),他們往往需要同時(shí)部署多個(gè)不同的模型:一個(gè)負(fù)責(zé)理解用戶(hù)說(shuō)話(huà),另一個(gè)負(fù)責(zé)識(shí)別背景音樂(lè),還有一個(gè)專(zhuān)門(mén)處理環(huán)境噪音。這就像在廚房里需要準(zhǔn)備多套不同的炊具來(lái)做不同的菜一樣繁瑣和低效。更重要的是,隨著音頻大語(yǔ)言模型的興起,這些系統(tǒng)迫切需要一個(gè)能夠理解所有類(lèi)型音頻的"通用大腦",而不是多個(gè)互不相通的"專(zhuān)科大腦"。
MIT的研究團(tuán)隊(duì)意識(shí)到這個(gè)問(wèn)題的關(guān)鍵在于:雖然人類(lèi)語(yǔ)音、音樂(lè)和環(huán)境聲音在內(nèi)容上差異很大,但從本質(zhì)上講,它們都是聲波信號(hào),具有相似的物理特性。就像不同口味的湯品雖然味道各異,但都需要相似的烹飪技巧一樣,不同類(lèi)型的音頻也應(yīng)該能夠被一個(gè)統(tǒng)一的模型所理解。基于這樣的洞察,他們提出了USAD技術(shù),一種能夠同時(shí)掌握語(yǔ)音、音樂(lè)和環(huán)境聲音的"全能音頻理解師"。
USAD的核心創(chuàng)新在于采用了一種叫做"知識(shí)蒸餾"的巧妙方法。這個(gè)過(guò)程就像一位全科醫(yī)生向兩位專(zhuān)科醫(yī)生學(xué)習(xí):一位是語(yǔ)音專(zhuān)家,另一位是音樂(lè)與環(huán)境聲音專(zhuān)家。通過(guò)觀察這兩位"老師"如何分析相同的音頻樣本,這位"學(xué)生"逐漸掌握了處理各種音頻的綜合能力。更具體地說(shuō),研究團(tuán)隊(duì)選擇了兩個(gè)在各自領(lǐng)域表現(xiàn)出色的AI模型作為"老師":WavLM(專(zhuān)門(mén)處理語(yǔ)音)和ATST(專(zhuān)門(mén)處理音樂(lè)和環(huán)境聲音),然后訓(xùn)練一個(gè)新的"學(xué)生"模型來(lái)模仿這兩位老師的行為。
這種方法的巧妙之處在于,學(xué)生模型不是簡(jiǎn)單地復(fù)制老師的最終答案,而是學(xué)習(xí)老師的"思考過(guò)程"。研究團(tuán)隊(duì)開(kāi)發(fā)了一種稱(chēng)為"稀疏層到層蒸餾"的技術(shù),讓學(xué)生模型在處理音頻的每個(gè)步驟中都向老師學(xué)習(xí)。這就像學(xué)習(xí)繪畫(huà)時(shí),不僅要看老師的最終作品,還要觀察老師在創(chuàng)作過(guò)程中的每一筆每一劃。通過(guò)這種深度學(xué)習(xí),學(xué)生模型能夠融合兩位老師的優(yōu)點(diǎn),形成自己獨(dú)特的綜合能力。
為了驗(yàn)證USAD的實(shí)際效果,研究團(tuán)隊(duì)在多個(gè)標(biāo)準(zhǔn)化測(cè)試中對(duì)其進(jìn)行了全面評(píng)估。這些測(cè)試涵蓋了語(yǔ)音識(shí)別、說(shuō)話(huà)人識(shí)別、音樂(lè)分類(lèi)、環(huán)境聲音識(shí)別等各個(gè)方面,就像給一位全科醫(yī)生安排多個(gè)專(zhuān)科考試一樣。結(jié)果令人驚喜:USAD不僅在各項(xiàng)測(cè)試中都表現(xiàn)出色,在某些任務(wù)上甚至超越了專(zhuān)門(mén)為該任務(wù)設(shè)計(jì)的專(zhuān)科模型。特別值得一提的是,在SUPERB和HEAR這兩個(gè)權(quán)威的音頻AI評(píng)測(cè)基準(zhǔn)中,USAD取得了接近最佳的綜合成績(jī)。
一、技術(shù)原理:音頻版的"師父帶徒弟"
要理解USAD是如何工作的,我們可以把整個(gè)過(guò)程想象成傳統(tǒng)手工藝中師父帶徒弟的場(chǎng)景。在這個(gè)場(chǎng)景中,有兩位技藝精湛的師父:一位是專(zhuān)門(mén)制作精美瓷器的陶藝大師(代表語(yǔ)音處理專(zhuān)家WavLM),另一位是擅長(zhǎng)雕刻木器的木工師傅(代表音頻處理專(zhuān)家ATST)?,F(xiàn)在要培養(yǎng)一位能夠同時(shí)掌握陶藝和木工的全能工匠(USAD學(xué)生模型)。
傳統(tǒng)的學(xué)習(xí)方法可能是讓徒弟先跟陶藝大師學(xué)幾年,再跟木工師傅學(xué)幾年,但這樣培養(yǎng)出來(lái)的工匠往往無(wú)法很好地融合兩種技藝。USAD采用的"知識(shí)蒸餾"方法則不同,它讓徒弟同時(shí)觀察兩位師父處理同一塊材料的過(guò)程。比如,當(dāng)面對(duì)一塊既可以做陶器也可以做木器的特殊材料時(shí),兩位師父會(huì)展示各自的處理方法,而徒弟則要學(xué)會(huì)如何綜合運(yùn)用這些技巧。
在實(shí)際的技術(shù)實(shí)現(xiàn)中,這個(gè)過(guò)程表現(xiàn)為:當(dāng)一段音頻(比如一首歌曲中夾雜著人聲)輸入到系統(tǒng)中時(shí),兩個(gè)老師模型會(huì)分別從自己的專(zhuān)業(yè)角度分析這段音頻。語(yǔ)音專(zhuān)家會(huì)重點(diǎn)關(guān)注人聲部分的語(yǔ)言特征,音頻專(zhuān)家則會(huì)關(guān)注整體的音樂(lè)結(jié)構(gòu)和環(huán)境背景。學(xué)生模型需要同時(shí)學(xué)習(xí)這兩種分析方式,并找到一種能夠兼顧兩者優(yōu)點(diǎn)的綜合方法。
研究團(tuán)隊(duì)在這個(gè)基礎(chǔ)上進(jìn)一步創(chuàng)新,開(kāi)發(fā)了"稀疏層到層蒸餾"技術(shù)。這就像在師父教學(xué)過(guò)程中,不是讓徒弟學(xué)習(xí)每一個(gè)細(xì)微的動(dòng)作,而是選擇最關(guān)鍵的幾個(gè)步驟進(jìn)行重點(diǎn)學(xué)習(xí)。具體來(lái)說(shuō),如果老師模型有12層處理步驟,學(xué)生模型不需要在每一層都進(jìn)行模仿,而是選擇其中最重要的4層(比如第3、6、9、12層)進(jìn)行學(xué)習(xí)。這種方法大大提高了訓(xùn)練效率,同時(shí)保持了學(xué)習(xí)效果。
另一個(gè)重要的技術(shù)創(chuàng)新是訓(xùn)練目標(biāo)的簡(jiǎn)化。原來(lái)的方法需要進(jìn)行復(fù)雜的對(duì)比學(xué)習(xí),就像徒弟不僅要學(xué)會(huì)正確的做法,還要明確區(qū)分錯(cuò)誤的做法。新方法則采用了更直接的L1距離和余弦相似度損失,簡(jiǎn)單來(lái)說(shuō)就是讓學(xué)生的輸出盡可能接近老師的輸出,同時(shí)保持相似的方向。這種簡(jiǎn)化讓訓(xùn)練過(guò)程更加高效,減少了計(jì)算復(fù)雜度。
在特征提取方面,研究團(tuán)隊(duì)還解決了一個(gè)重要的技術(shù)難題。語(yǔ)音處理通常需要精細(xì)的時(shí)間分辨率來(lái)捕捉快速變化的語(yǔ)音特征,就像制作精密儀器需要精確到毫米的測(cè)量。而音樂(lè)和環(huán)境聲音處理則更注重整體的頻率模式,像繪畫(huà)時(shí)更關(guān)注色彩的搭配而非每個(gè)筆觸的細(xì)節(jié)。為了讓學(xué)生模型能夠同時(shí)掌握這兩種不同的分析方式,研究團(tuán)隊(duì)采用了基于幀的特征提取方法,這樣既保證了語(yǔ)音處理所需的時(shí)間精度,又能夠有效處理音樂(lè)和環(huán)境聲音。
二、數(shù)據(jù)準(zhǔn)備:搭建音頻"訓(xùn)練營(yíng)"
為了訓(xùn)練出一個(gè)真正全能的音頻理解模型,研究團(tuán)隊(duì)精心構(gòu)建了一個(gè)大規(guī)模的混合音頻數(shù)據(jù)集,就像為培養(yǎng)一名全能運(yùn)動(dòng)員而設(shè)計(jì)的綜合訓(xùn)練營(yíng)。這個(gè)數(shù)據(jù)集被命名為Mix126k-B,包含了超過(guò)16萬(wàn)小時(shí)的各類(lèi)音頻內(nèi)容,相當(dāng)于連續(xù)播放18年的音頻材料。
數(shù)據(jù)集的構(gòu)成就像一個(gè)營(yíng)養(yǎng)均衡的大餐。語(yǔ)音部分占據(jù)了47.1%的比重,主要來(lái)源于多個(gè)高質(zhì)量的語(yǔ)音數(shù)據(jù)庫(kù)。其中最大的貢獻(xiàn)者是LibriVox,這是一個(gè)包含大量有聲讀物的數(shù)據(jù)庫(kù),提供了超過(guò)5.6萬(wàn)小時(shí)的純凈英語(yǔ)語(yǔ)音。此外還包括了VoxPopuli(歐洲議會(huì)演講錄音)、GigaSpeech(多樣化的英語(yǔ)語(yǔ)音)、Common Voice(志愿者貢獻(xiàn)的多樣化語(yǔ)音)等多個(gè)來(lái)源,確保了語(yǔ)音數(shù)據(jù)的多樣性和代表性。
音頻和音樂(lè)部分占據(jù)了52.9%的比重,主要包括三大類(lèi)別。環(huán)境聲音方面,研究團(tuán)隊(duì)使用了AudioSet、SoundNet和LAION-Audio-630k等數(shù)據(jù)庫(kù),涵蓋了從動(dòng)物叫聲到機(jī)械噪音的各種環(huán)境音效。音樂(lè)方面則包含了Music4All數(shù)據(jù)庫(kù)中的910.6小時(shí)音樂(lè)內(nèi)容,涵蓋了不同風(fēng)格和類(lèi)型的音樂(lè)作品。
為了確保訓(xùn)練效果,研究團(tuán)隊(duì)對(duì)數(shù)據(jù)進(jìn)行了精心的預(yù)處理。他們將較長(zhǎng)的音頻片段切分成10秒鐘的標(biāo)準(zhǔn)長(zhǎng)度,同時(shí)剔除了過(guò)短(少于2秒)或過(guò)長(zhǎng)(超過(guò)30秒)的片段,以及那些幾乎沒(méi)有聲音內(nèi)容的靜音片段。所有音頻都被重新采樣到16kHz的統(tǒng)一頻率,確保了數(shù)據(jù)的一致性。
特別值得注意的是,研究團(tuán)隊(duì)發(fā)現(xiàn)了數(shù)據(jù)平衡的重要性。最初的數(shù)據(jù)中,語(yǔ)音內(nèi)容遠(yuǎn)多于音樂(lè)和環(huán)境聲音,這可能導(dǎo)致訓(xùn)練出來(lái)的模型偏向于語(yǔ)音處理。為了解決這個(gè)問(wèn)題,他們將音樂(lè)和環(huán)境聲音數(shù)據(jù)重復(fù)了一遍,使得語(yǔ)音與非語(yǔ)音數(shù)據(jù)達(dá)到了大致的平衡。這種做法就像在訓(xùn)練一個(gè)全能運(yùn)動(dòng)員時(shí),需要確保力量訓(xùn)練和耐力訓(xùn)練的時(shí)間分配合理,不能讓某一方面過(guò)度占主導(dǎo)地位。
研究團(tuán)隊(duì)還創(chuàng)建了一個(gè)較小的數(shù)據(jù)集LV-AS,專(zhuān)門(mén)用于快速實(shí)驗(yàn)和方法驗(yàn)證。這個(gè)數(shù)據(jù)集通過(guò)對(duì)LibriVox進(jìn)行下采樣,使其規(guī)模與AudioSet相匹配,形成了一個(gè)更加緊湊但同樣平衡的訓(xùn)練集。這就像在大規(guī)模訓(xùn)練之前先進(jìn)行小規(guī)模的試驗(yàn),確保方法的可行性。
在數(shù)據(jù)使用策略上,研究團(tuán)隊(duì)還考慮了不同數(shù)據(jù)源的特點(diǎn)。語(yǔ)音數(shù)據(jù)通常具有清晰的時(shí)間結(jié)構(gòu)和語(yǔ)義內(nèi)容,而音樂(lè)數(shù)據(jù)則更多體現(xiàn)和聲結(jié)構(gòu)和節(jié)奏模式,環(huán)境聲音數(shù)據(jù)則包含了更多的隨機(jī)性和多樣性。通過(guò)混合使用這些不同特點(diǎn)的數(shù)據(jù),USAD模型能夠?qū)W會(huì)處理各種復(fù)雜的音頻場(chǎng)景。
三、模型架構(gòu):構(gòu)建音頻"大腦"的內(nèi)部結(jié)構(gòu)
USAD的模型架構(gòu)就像一個(gè)經(jīng)過(guò)精心設(shè)計(jì)的音頻處理工廠,每個(gè)組件都有其特定的功能和作用。整個(gè)系統(tǒng)的核心是一個(gè)基于Transformer架構(gòu)的編碼器,這就像工廠的主要生產(chǎn)線(xiàn),負(fù)責(zé)將原始的音頻信號(hào)轉(zhuǎn)換成計(jì)算機(jī)能夠理解的表示。
音頻輸入的處理過(guò)程就像食品加工流水線(xiàn)一樣井然有序。首先,原始的音頻波形被轉(zhuǎn)換成128維的梅爾頻譜圖,這個(gè)過(guò)程使用25毫秒的窗口長(zhǎng)度和10毫秒的步長(zhǎng)。這就像將連續(xù)的聲波"切片"成一幀一幀的圖像,每一幀都包含了那個(gè)時(shí)間點(diǎn)的頻率信息。接下來(lái),如果老師模型使用基于幀的特征,系統(tǒng)會(huì)添加一個(gè)步長(zhǎng)為2的卷積特征提取器來(lái)進(jìn)一步處理這些特征。
特征標(biāo)準(zhǔn)化是另一個(gè)關(guān)鍵步驟,這個(gè)過(guò)程確保了不同來(lái)源的音頻都能被統(tǒng)一處理。隨后,經(jīng)過(guò)處理的特征被輸入到一個(gè)5層的卷積位置編碼模塊中,這個(gè)模塊的作用是告訴模型每個(gè)音頻幀在時(shí)間序列中的位置,就像給每個(gè)零件貼上時(shí)間標(biāo)簽一樣。
Transformer編碼器是整個(gè)系統(tǒng)的核心,它使用了相對(duì)位置編碼技術(shù),能夠更好地理解音頻序列中不同部分之間的關(guān)系。根據(jù)模型的大小,編碼器可能包含12層(小型和基礎(chǔ)版本)或24層(大型版本),每層都在逐步提煉和抽象音頻的特征表示。
預(yù)測(cè)頭部分就像工廠的質(zhì)量檢測(cè)部門(mén),由兩個(gè)獨(dú)立的多層感知器(MLP)組成,每個(gè)都包含兩個(gè)全連接層,中間使用ReLU激活函數(shù)。這兩個(gè)預(yù)測(cè)頭分別負(fù)責(zé)預(yù)測(cè)兩個(gè)老師模型的特征表示,確保學(xué)生模型能夠同時(shí)學(xué)習(xí)語(yǔ)音和音頻處理的精髓。
訓(xùn)練過(guò)程采用了線(xiàn)性學(xué)習(xí)率調(diào)度器,并包含預(yù)熱階段,這就像運(yùn)動(dòng)員在正式比賽前需要充分熱身一樣。整個(gè)系統(tǒng)在四塊NVIDIA A6000 GPU上進(jìn)行訓(xùn)練,根據(jù)模型大小的不同,訓(xùn)練時(shí)間從150k到400k次更新不等。
研究團(tuán)隊(duì)還特別注意了不同老師模型之間的特征對(duì)齊問(wèn)題。當(dāng)兩個(gè)老師模型使用不同類(lèi)型的特征時(shí)(比如一個(gè)使用幀級(jí)特征,另一個(gè)使用塊級(jí)特征),系統(tǒng)會(huì)將這些特征相加,因?yàn)樗鼈兙哂邢嗤膸省H绻蠋熌P偷膸什煌ū热鏏TST使用25Hz而其他模型使用50Hz),系統(tǒng)會(huì)在計(jì)算損失之前應(yīng)用均值池化來(lái)對(duì)齊特征。
模型的參數(shù)規(guī)模也經(jīng)過(guò)了精心設(shè)計(jì)。小型版本有2400萬(wàn)參數(shù),隱藏維度為384;基礎(chǔ)版本有9400萬(wàn)參數(shù),隱藏維度為768;大型版本則有3.3億參數(shù),隱藏維度達(dá)到1024。這種漸進(jìn)式的規(guī)模設(shè)計(jì)讓研究團(tuán)隊(duì)能夠探索模型容量與性能之間的關(guān)系,就像汽車(chē)制造商提供不同排量的發(fā)動(dòng)機(jī)選擇一樣。
四、實(shí)驗(yàn)設(shè)計(jì):全方位的"考試"體系
為了全面驗(yàn)證USAD的能力,研究團(tuán)隊(duì)設(shè)計(jì)了一套覆蓋面極廣的評(píng)估體系,就像為一名全科醫(yī)生安排多個(gè)專(zhuān)科的執(zhí)業(yè)考試。這套評(píng)估體系主要基于兩個(gè)國(guó)際公認(rèn)的音頻AI評(píng)測(cè)基準(zhǔn):SUPERB(語(yǔ)音處理通用性能基準(zhǔn))和HEAR(音頻表示全面評(píng)估),以及額外的音頻標(biāo)注和聲音分類(lèi)任務(wù)。
SUPERB基準(zhǔn)測(cè)試就像語(yǔ)音處理領(lǐng)域的"奧林匹克競(jìng)賽",包含了7個(gè)不同的任務(wù)類(lèi)別。在幀級(jí)語(yǔ)音任務(wù)中,系統(tǒng)需要完成音素識(shí)別(PR)、自動(dòng)語(yǔ)音識(shí)別(ASR)和說(shuō)話(huà)人分離(SD)等任務(wù)。音素識(shí)別要求模型能夠識(shí)別語(yǔ)音中的基本語(yǔ)音單元,就像識(shí)別單詞中的每個(gè)字母;自動(dòng)語(yǔ)音識(shí)別則要求將語(yǔ)音轉(zhuǎn)換為文字,這是我們?nèi)粘W钍煜さ恼Z(yǔ)音功能;說(shuō)話(huà)人分離則需要在多人對(duì)話(huà)中區(qū)分不同的說(shuō)話(huà)者。
在實(shí)例級(jí)語(yǔ)音任務(wù)中,包括了關(guān)鍵詞識(shí)別(KS)、意圖分類(lèi)(IC)、說(shuō)話(huà)人識(shí)別(SID)和情感識(shí)別(ER)等任務(wù)。關(guān)鍵詞識(shí)別類(lèi)似于智能音箱識(shí)別"小愛(ài)同學(xué)"或"Hey Siri"等喚醒詞;意圖分類(lèi)要求理解用戶(hù)話(huà)語(yǔ)的真實(shí)意圖;說(shuō)話(huà)人識(shí)別需要判斷說(shuō)話(huà)者的身份;情感識(shí)別則要分析說(shuō)話(huà)者的情緒狀態(tài)。
HEAR基準(zhǔn)測(cè)試則更像一個(gè)綜合性的音頻理解能力考核,包含了19個(gè)不同的任務(wù),涵蓋語(yǔ)音、音樂(lè)和環(huán)境聲音的各個(gè)方面。這些任務(wù)包括了音樂(lè)流派分類(lèi)、樂(lè)器識(shí)別、環(huán)境聲音識(shí)別、語(yǔ)言識(shí)別等多個(gè)維度。比如,系統(tǒng)需要能夠區(qū)分古典音樂(lè)和搖滾音樂(lè),識(shí)別小提琴和鋼琴的聲音,分辨雨聲和風(fēng)聲,甚至判斷說(shuō)話(huà)者使用的是英語(yǔ)還是其他語(yǔ)言。
除了這些標(biāo)準(zhǔn)化測(cè)試,研究團(tuán)隊(duì)還在AudioSet-20K和ESC-50數(shù)據(jù)集上進(jìn)行了微調(diào)實(shí)驗(yàn)。AudioSet-20K包含了2萬(wàn)個(gè)音頻錄音,涵蓋527個(gè)不同的聲音類(lèi)別,需要系統(tǒng)在平衡的標(biāo)簽分布下進(jìn)行音頻標(biāo)注。ESC-50則是一個(gè)環(huán)境聲音分類(lèi)數(shù)據(jù)集,包含50個(gè)不同類(lèi)別的環(huán)境聲音,使用5折交叉驗(yàn)證來(lái)確保結(jié)果的可靠性。
為了提供整體性能的量化指標(biāo),研究團(tuán)隊(duì)計(jì)算了SUPERB分?jǐn)?shù),這個(gè)分?jǐn)?shù)綜合考慮了模型在不同任務(wù)上的表現(xiàn),并與最佳性能進(jìn)行比較。計(jì)算公式會(huì)考慮每個(gè)任務(wù)的基線(xiàn)性能和最優(yōu)性能,然后將模型的表現(xiàn)標(biāo)準(zhǔn)化到0-1000的范圍內(nèi)。這就像計(jì)算綜合GPA一樣,能夠在單一數(shù)字中反映模型的整體能力。
評(píng)估過(guò)程還特別關(guān)注了計(jì)算效率。研究團(tuán)隊(duì)不僅比較了最終的性能指標(biāo),還分析了達(dá)到這些性能所需的計(jì)算資源。他們使用EFLOPS(每秒浮點(diǎn)運(yùn)算次數(shù))作為計(jì)算復(fù)雜度的指標(biāo),比較了USAD與其他模型在相同計(jì)算預(yù)算下的性能表現(xiàn)。這種分析就像比較不同汽車(chē)的燃油效率一樣,不僅看最高速度,還要看每升油能跑多遠(yuǎn)。
在老師模型選擇的實(shí)驗(yàn)中,研究團(tuán)隊(duì)系統(tǒng)性地測(cè)試了不同的老師模型組合。他們比較了使用單個(gè)老師與使用多個(gè)老師的效果,探索了不同領(lǐng)域?qū)iL(zhǎng)的老師模型組合對(duì)最終性能的影響。這些實(shí)驗(yàn)就像測(cè)試不同的師父組合對(duì)徒弟技能發(fā)展的影響一樣,為知識(shí)蒸餾方法的優(yōu)化提供了寶貴的洞察。
五、實(shí)驗(yàn)結(jié)果:全能選手的精彩表現(xiàn)
USAD在各項(xiàng)測(cè)試中的表現(xiàn)可以用"全面開(kāi)花"來(lái)形容,就像一位全能運(yùn)動(dòng)員在多個(gè)項(xiàng)目中都取得了優(yōu)異成績(jī)。在語(yǔ)音處理任務(wù)方面,USAD展現(xiàn)出了接近專(zhuān)業(yè)語(yǔ)音模型的強(qiáng)大能力。以最具挑戰(zhàn)性的幀級(jí)任務(wù)為例,USAD Large在音素識(shí)別任務(wù)中達(dá)到了4.0%的錯(cuò)誤率,僅比專(zhuān)門(mén)的語(yǔ)音模型WavLM Base+高出0.1個(gè)百分點(diǎn)。在自動(dòng)語(yǔ)音識(shí)別任務(wù)中,USAD的詞錯(cuò)誤率為6.5%,同樣表現(xiàn)出色。
更令人印象深刻的是,USAD在實(shí)例級(jí)語(yǔ)音任務(wù)中的表現(xiàn)甚至超越了一些專(zhuān)門(mén)的語(yǔ)音模型。在關(guān)鍵詞識(shí)別任務(wù)中,USAD Large達(dá)到了98.5%的準(zhǔn)確率,與最佳的專(zhuān)門(mén)模型持平。在說(shuō)話(huà)人識(shí)別任務(wù)中,USAD的準(zhǔn)確率達(dá)到91.2%,明顯優(yōu)于許多音頻模型,顯示出其在語(yǔ)音理解方面的強(qiáng)大能力。
在音頻和音樂(lè)處理方面,USAD同樣表現(xiàn)不俗,雖然與專(zhuān)門(mén)的音頻模型相比還有一定差距,但考慮到它同時(shí)要處理語(yǔ)音任務(wù),這樣的表現(xiàn)已經(jīng)相當(dāng)出色。在ESC-50環(huán)境聲音分類(lèi)任務(wù)中,USAD Large達(dá)到了92.7%的準(zhǔn)確率,接近專(zhuān)門(mén)音頻模型的表現(xiàn)。在AudioSet音頻標(biāo)注任務(wù)中,USAD也展現(xiàn)出了穩(wěn)定的性能提升趨勢(shì)。
HEAR基準(zhǔn)測(cè)試的結(jié)果更是充分展示了USAD作為通用音頻模型的潛力。在包含19個(gè)不同任務(wù)的綜合評(píng)估中,USAD在多個(gè)子任務(wù)上都取得了令人滿(mǎn)意的成績(jī)。特別值得注意的是,在一些需要綜合理解能力的復(fù)雜任務(wù)中,USAD的表現(xiàn)甚至超越了單獨(dú)的老師模型組合,這說(shuō)明知識(shí)蒸餾過(guò)程確實(shí)幫助模型學(xué)到了更好的綜合表示。
模型規(guī)模的影響也體現(xiàn)得十分明顯。從Small到Base再到Large版本,USAD在幾乎所有任務(wù)上都展現(xiàn)出了持續(xù)的性能提升。這種趨勢(shì)在音頻任務(wù)上表現(xiàn)得尤為明顯,說(shuō)明更大的模型容量確實(shí)有助于處理音頻中的復(fù)雜模式和長(zhǎng)程依賴(lài)關(guān)系。USAD Large的SUPERB總分達(dá)到了851.7分,比Small版本高出158.8分,充分說(shuō)明了規(guī)模擴(kuò)展的價(jià)值。
計(jì)算效率方面的分析結(jié)果同樣令人振奮。USAD Small模型僅用不到1個(gè)EFLOPS的計(jì)算量就達(dá)到了超越data2vec 2.0 Mix模型的性能,而USAD Large雖然使用了更多計(jì)算資源,但相比專(zhuān)門(mén)的音頻模型ATST Frame,在達(dá)到相似性能的同時(shí)減少了一個(gè)數(shù)量級(jí)的計(jì)算需求。這種效率優(yōu)勢(shì)使得USAD在實(shí)際部署中具有很強(qiáng)的競(jìng)爭(zhēng)力。
老師模型選擇的實(shí)驗(yàn)結(jié)果揭示了一些有趣的發(fā)現(xiàn)。使用幀級(jí)特征的老師模型組合普遍比使用塊級(jí)特征的組合表現(xiàn)更好,這驗(yàn)證了研究團(tuán)隊(duì)關(guān)于特征對(duì)齊重要性的假設(shè)。同時(shí),不同老師模型組合在語(yǔ)音和音頻任務(wù)上呈現(xiàn)出明顯的權(quán)衡關(guān)系,這為未來(lái)的模型設(shè)計(jì)提供了重要參考。
數(shù)據(jù)分布的影響實(shí)驗(yàn)顯示了平衡訓(xùn)練數(shù)據(jù)的重要性。當(dāng)語(yǔ)音數(shù)據(jù)與非語(yǔ)音數(shù)據(jù)的比例達(dá)到1:1時(shí),USAD能夠在兩類(lèi)任務(wù)上都取得相對(duì)均衡的性能。過(guò)多的語(yǔ)音數(shù)據(jù)會(huì)損害音頻任務(wù)的性能,而過(guò)多的音頻數(shù)據(jù)則會(huì)影響語(yǔ)音任務(wù)的效果。這種發(fā)現(xiàn)為構(gòu)建更大規(guī)模的混合音頻數(shù)據(jù)集提供了重要指導(dǎo)。
蒸餾策略的對(duì)比實(shí)驗(yàn)證實(shí)了簡(jiǎn)化方法的有效性。采用L1-余弦相似度損失比復(fù)雜的對(duì)比學(xué)習(xí)方法不僅計(jì)算更高效,在多數(shù)情況下性能也更好。稀疏層到層蒸餾相比密集蒸餾在保持性能的同時(shí)大大減少了計(jì)算開(kāi)銷(xiāo),使得整個(gè)訓(xùn)練過(guò)程更加實(shí)用。
六、應(yīng)用前景:音頻AI的新紀(jì)元
USAD技術(shù)的成功不僅僅是學(xué)術(shù)研究上的突破,更為現(xiàn)實(shí)世界中的音頻AI應(yīng)用開(kāi)辟了全新的可能性。這種通用音頻理解能力就像為AI系統(tǒng)裝上了一雙能夠同時(shí)"看懂"文字、圖片和視頻的眼睛,讓機(jī)器對(duì)音頻世界的理解變得更加全面和深入。
在智能助手領(lǐng)域,USAD的應(yīng)用前景尤為廣闊。目前的語(yǔ)音助手往往只能處理清晰的人聲指令,而對(duì)背景音樂(lè)或環(huán)境噪音要么視而不見(jiàn),要么將其視為干擾。有了USAD技術(shù),未來(lái)的智能助手將能夠真正理解復(fù)雜的音頻環(huán)境。比如,當(dāng)用戶(hù)在播放音樂(lè)時(shí)詢(xún)問(wèn)"這首歌是什么風(fēng)格",助手不僅能理解用戶(hù)的語(yǔ)音指令,還能同時(shí)分析背景音樂(lè)的特征給出準(zhǔn)確回答。當(dāng)用戶(hù)說(shuō)"把空調(diào)聲音調(diào)小一點(diǎn)"時(shí),助手能夠識(shí)別出環(huán)境中的空調(diào)噪音并采取相應(yīng)行動(dòng)。
在多媒體內(nèi)容處理方面,USAD為自動(dòng)化的音頻內(nèi)容分析和標(biāo)注提供了強(qiáng)大工具。視頻平臺(tái)可以使用這項(xiàng)技術(shù)自動(dòng)識(shí)別視頻中的語(yǔ)音內(nèi)容、背景音樂(lè)類(lèi)型和環(huán)境聲音,從而實(shí)現(xiàn)更精準(zhǔn)的內(nèi)容分類(lèi)和推薦。新聞媒體可以利用USAD自動(dòng)分析采訪(fǎng)錄音,不僅轉(zhuǎn)錄語(yǔ)音內(nèi)容,還能識(shí)別背景環(huán)境,為新聞報(bào)道提供更豐富的背景信息。
教育領(lǐng)域也將從USAD技術(shù)中受益匪淺。在線(xiàn)教育平臺(tái)可以使用這項(xiàng)技術(shù)分析學(xué)生的語(yǔ)音作業(yè),不僅檢查發(fā)音準(zhǔn)確性,還能評(píng)估表達(dá)的情感和流暢度。音樂(lè)教育應(yīng)用可以同時(shí)分析學(xué)生的演奏技巧和樂(lè)器音色,提供更全面的學(xué)習(xí)反饋。語(yǔ)言學(xué)習(xí)應(yīng)用則能夠在復(fù)雜的音頻環(huán)境中幫助學(xué)習(xí)者練習(xí)聽(tīng)力理解。
在娛樂(lè)產(chǎn)業(yè)中,USAD技術(shù)可能催生全新的交互體驗(yàn)。游戲開(kāi)發(fā)者可以創(chuàng)造出能夠?qū)崟r(shí)響應(yīng)玩家語(yǔ)音、理解環(huán)境音效并相應(yīng)調(diào)整劇情的智能游戲系統(tǒng)。音樂(lè)創(chuàng)作軟件可以分析音樂(lè)人的哼唱、演奏和創(chuàng)作環(huán)境,提供更智能的創(chuàng)作建議和協(xié)助。
醫(yī)療健康領(lǐng)域的應(yīng)用潛力同樣巨大。USAD可以幫助分析患者的語(yǔ)音特征來(lái)輔助診斷某些神經(jīng)系統(tǒng)疾病,同時(shí)監(jiān)測(cè)醫(yī)療環(huán)境中的設(shè)備聲音來(lái)確保安全。心理健康應(yīng)用可以通過(guò)分析用戶(hù)語(yǔ)音中的情感特征,結(jié)合環(huán)境聲音來(lái)評(píng)估用戶(hù)的心理狀態(tài)。
對(duì)于音頻大語(yǔ)言模型的發(fā)展,USAD提供了至關(guān)重要的基礎(chǔ)支撐?,F(xiàn)有的音頻大語(yǔ)言模型往往需要針對(duì)不同類(lèi)型的音頻使用不同的編碼器,這增加了系統(tǒng)的復(fù)雜性和計(jì)算開(kāi)銷(xiāo)。USAD的通用音頻理解能力使得構(gòu)建更簡(jiǎn)潔、更高效的音頻大語(yǔ)言模型成為可能,這些系統(tǒng)將能夠更自然地處理人機(jī)對(duì)話(huà)中可能出現(xiàn)的各種音頻情況。
在自動(dòng)駕駛和智能交通系統(tǒng)中,USAD技術(shù)可以幫助車(chē)輛更好地理解復(fù)雜的交通音頻環(huán)境。車(chē)載系統(tǒng)不僅能夠處理乘客的語(yǔ)音指令,還能同時(shí)識(shí)別道路上的各種聲音信號(hào),如救護(hù)車(chē)警報(bào)、剎車(chē)聲等,從而做出更安全的駕駛決策。
無(wú)障礙技術(shù)領(lǐng)域也將迎來(lái)重要進(jìn)展。USAD可以為聽(tīng)力障礙人士開(kāi)發(fā)更智能的環(huán)境聲音識(shí)別系統(tǒng),將各種環(huán)境音轉(zhuǎn)換為可視化信息。同時(shí),它也能為視覺(jué)障礙人士提供更豐富的音頻環(huán)境描述,幫助他們更好地理解周?chē)h(huán)境。
然而,正如任何強(qiáng)大的技術(shù)一樣,USAD的應(yīng)用也需要考慮倫理和隱私問(wèn)題。這種強(qiáng)大的音頻理解能力可能被用于未經(jīng)授權(quán)的音頻監(jiān)聽(tīng)和分析,因此需要建立相應(yīng)的技術(shù)和法律框架來(lái)保護(hù)用戶(hù)隱私。同時(shí),技術(shù)的普及也需要考慮公平性,確保不同語(yǔ)言和文化背景的用戶(hù)都能平等地享受技術(shù)帶來(lái)的便利。
七、技術(shù)挑戰(zhàn)與未來(lái)方向
盡管USAD在通用音頻理解方面取得了顯著進(jìn)展,但這項(xiàng)技術(shù)仍然面臨著一些重要的挑戰(zhàn)和改進(jìn)空間,就像一座剛剛建成的橋梁雖然已經(jīng)可以通行,但還需要進(jìn)一步的優(yōu)化和完善。
首先是跨語(yǔ)言和跨文化的適應(yīng)性問(wèn)題。目前的USAD主要在英語(yǔ)語(yǔ)音數(shù)據(jù)上進(jìn)行訓(xùn)練,雖然在音樂(lè)和環(huán)境聲音方面具有較好的通用性,但在處理其他語(yǔ)言的語(yǔ)音時(shí)可能存在性能下降。這就像一位主要接受中式烹飪訓(xùn)練的廚師在制作西式料理時(shí)可能不夠得心應(yīng)手。未來(lái)的研究需要擴(kuò)展到多語(yǔ)言訓(xùn)練數(shù)據(jù),構(gòu)建真正的全球化音頻理解模型。
模型的魯棒性也是一個(gè)需要持續(xù)關(guān)注的問(wèn)題。在實(shí)際應(yīng)用環(huán)境中,音頻質(zhì)量往往參差不齊,可能包含各種噪音、回聲或失真。雖然USAD在標(biāo)準(zhǔn)測(cè)試集上表現(xiàn)出色,但在面對(duì)這些"真實(shí)世界"的挑戰(zhàn)時(shí),性能可能會(huì)有所下降。這就像一位在標(biāo)準(zhǔn)考場(chǎng)中表現(xiàn)優(yōu)異的學(xué)生,在面對(duì)開(kāi)卷考試或?qū)嶋H工作環(huán)境時(shí)可能需要額外的適應(yīng)。
計(jì)算效率雖然相比傳統(tǒng)方法有所改善,但對(duì)于一些資源受限的應(yīng)用場(chǎng)景來(lái)說(shuō)仍然是個(gè)挑戰(zhàn)。移動(dòng)設(shè)備、嵌入式系統(tǒng)或邊緣計(jì)算環(huán)境可能無(wú)法支持大型USAD模型的實(shí)時(shí)推理。這需要進(jìn)一步的模型壓縮和優(yōu)化技術(shù),類(lèi)似于將高性能汽車(chē)的發(fā)動(dòng)機(jī)技術(shù)應(yīng)用到經(jīng)濟(jì)型車(chē)型中。
數(shù)據(jù)偏差是另一個(gè)需要認(rèn)真對(duì)待的問(wèn)題。訓(xùn)練數(shù)據(jù)的分布可能無(wú)法完全反映真實(shí)世界的音頻多樣性,比如某些方言、特殊音樂(lè)風(fēng)格或少見(jiàn)的環(huán)境聲音可能在訓(xùn)練數(shù)據(jù)中代表性不足。這種偏差可能導(dǎo)致模型在處理這些"長(zhǎng)尾"情況時(shí)性能不佳,就像一個(gè)主要在城市環(huán)境中訓(xùn)練的自動(dòng)駕駛系統(tǒng)在農(nóng)村道路上可能表現(xiàn)不夠理想。
在技術(shù)層面,知識(shí)蒸餾的深度和廣度還有進(jìn)一步探索的空間。目前的方法主要關(guān)注層級(jí)特征的對(duì)齊,但可能還有其他維度的知識(shí)值得學(xué)習(xí),比如注意力模式、激活分布等。同時(shí),如何選擇最優(yōu)的老師模型組合,以及如何動(dòng)態(tài)調(diào)整不同老師的重要性權(quán)重,都是值得深入研究的問(wèn)題。
實(shí)時(shí)處理能力是許多實(shí)際應(yīng)用的關(guān)鍵需求。雖然USAD在離線(xiàn)處理方面表現(xiàn)出色,但要實(shí)現(xiàn)真正的實(shí)時(shí)音頻理解,還需要在模型架構(gòu)和算法層面進(jìn)行進(jìn)一步優(yōu)化。這包括降低延遲、減少內(nèi)存占用、支持流式處理等技術(shù)挑戰(zhàn)。
針對(duì)這些挑戰(zhàn),研究團(tuán)隊(duì)和學(xué)術(shù)界已經(jīng)開(kāi)始探索多個(gè)有前景的解決方向。在多語(yǔ)言擴(kuò)展方面,可以采用漸進(jìn)式的訓(xùn)練策略,先在多語(yǔ)言語(yǔ)音數(shù)據(jù)上對(duì)模型進(jìn)行進(jìn)一步訓(xùn)練,然后再結(jié)合更多樣化的音頻和音樂(lè)數(shù)據(jù)。這種方法類(lèi)似于讓一位掌握基礎(chǔ)技能的工匠學(xué)習(xí)不同地區(qū)的傳統(tǒng)工藝。
在魯棒性提升方面,數(shù)據(jù)增強(qiáng)技術(shù)可以發(fā)揮重要作用。通過(guò)人工添加各種類(lèi)型的噪音、失真和干擾到訓(xùn)練數(shù)據(jù)中,可以讓模型學(xué)會(huì)在困難條件下保持穩(wěn)定的性能。同時(shí),對(duì)抗訓(xùn)練和域自適應(yīng)技術(shù)也可以幫助模型更好地處理分布偏移問(wèn)題。
模型壓縮和加速方面,除了傳統(tǒng)的知識(shí)蒸餾,還可以探索神經(jīng)架構(gòu)搜索、權(quán)重量化、稀疏化等技術(shù)。特別是針對(duì)不同應(yīng)用場(chǎng)景的需求,可以開(kāi)發(fā)專(zhuān)門(mén)優(yōu)化的輕量級(jí)版本,就像為不同用途設(shè)計(jì)不同規(guī)格的工具一樣。
在數(shù)據(jù)方面,眾包和自動(dòng)化數(shù)據(jù)收集技術(shù)可以幫助構(gòu)建更大規(guī)模、更多樣化的訓(xùn)練數(shù)據(jù)集。同時(shí),合成數(shù)據(jù)生成技術(shù)也可以用來(lái)補(bǔ)充訓(xùn)練數(shù)據(jù)中的稀缺樣本,特別是那些難以大量收集的特殊音頻類(lèi)型。
長(zhǎng)期來(lái)看,USAD技術(shù)可能會(huì)與其他AI技術(shù)進(jìn)行更深度的融合。比如與視覺(jué)理解技術(shù)結(jié)合,構(gòu)建真正的多模態(tài)理解系統(tǒng);與生成式AI技術(shù)結(jié)合,實(shí)現(xiàn)更自然的人機(jī)音頻交互;與知識(shí)圖譜技術(shù)結(jié)合,實(shí)現(xiàn)基于語(yǔ)義的音頻理解和推理。
USAD的成功也為音頻AI領(lǐng)域帶來(lái)了新的研究范式。從專(zhuān)門(mén)化模型向通用化模型的轉(zhuǎn)變,從單一任務(wù)優(yōu)化向多任務(wù)協(xié)同的演進(jìn),這些趨勢(shì)可能會(huì)影響整個(gè)音頻處理領(lǐng)域的發(fā)展方向。未來(lái)可能會(huì)看到更多類(lèi)似的通用音頻技術(shù)出現(xiàn),最終形成一個(gè)更加統(tǒng)一和高效的音頻AI生態(tài)系統(tǒng)。
說(shuō)到底,USAD代表了音頻AI發(fā)展的一個(gè)重要里程碑,但這只是開(kāi)始而不是終點(diǎn)。就像第一臺(tái)計(jì)算機(jī)的發(fā)明開(kāi)啟了信息時(shí)代一樣,通用音頻理解技術(shù)的突破可能會(huì)為我們帶來(lái)一個(gè)全新的"音頻智能時(shí)代"。在這個(gè)時(shí)代里,機(jī)器將能夠像人類(lèi)一樣自然地理解和處理各種音頻信息,為我們的生活和工作帶來(lái)前所未有的便利和可能性。這項(xiàng)由MIT團(tuán)隊(duì)開(kāi)發(fā)的開(kāi)創(chuàng)性技術(shù)為這個(gè)未來(lái)奠定了堅(jiān)實(shí)的基礎(chǔ),有興趣深入了解技術(shù)細(xì)節(jié)的讀者可以通過(guò)arXiv:2506.18843v1訪(fǎng)問(wèn)完整的研究論文。
Q&A
Q1:USAD是什么?它能做什么? A:USAD是MIT開(kāi)發(fā)的通用音頻理解模型,它最大的特點(diǎn)是能夠同時(shí)處理人類(lèi)語(yǔ)音、音樂(lè)和環(huán)境聲音三種不同類(lèi)型的音頻。就像一個(gè)全能的音頻"翻譯官",它可以進(jìn)行語(yǔ)音識(shí)別、音樂(lè)分類(lèi)、環(huán)境聲音識(shí)別等多種任務(wù),而傳統(tǒng)的AI模型通常只能專(zhuān)門(mén)處理其中一種類(lèi)型。
Q2:USAD會(huì)不會(huì)取代現(xiàn)有的專(zhuān)門(mén)音頻模型? A:目前不會(huì)完全取代,但會(huì)改變音頻AI的發(fā)展方向。USAD在綜合性能上表現(xiàn)出色,但在某些專(zhuān)門(mén)任務(wù)上可能還不如專(zhuān)門(mén)優(yōu)化的模型。它的價(jià)值主要在于簡(jiǎn)化系統(tǒng)架構(gòu),讓一個(gè)模型就能處理多種音頻任務(wù),特別適合需要綜合音頻理解能力的應(yīng)用場(chǎng)景。
Q3:普通人如何使用USAD技術(shù)?有什么實(shí)際應(yīng)用? A:目前USAD還是研究階段的技術(shù),普通用戶(hù)暫時(shí)無(wú)法直接使用。但它的技術(shù)原理可能很快會(huì)被集成到智能音箱、手機(jī)語(yǔ)音助手、視頻平臺(tái)等產(chǎn)品中。未來(lái)你可能會(huì)發(fā)現(xiàn)這些設(shè)備在理解復(fù)雜音頻環(huán)境方面變得更加智能,比如能同時(shí)理解你的話(huà)和背景音樂(lè)。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語(yǔ)言模型的敘事推理能力與音頻生成技術(shù),通過(guò)交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開(kāi)辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過(guò)讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問(wèn)題。該技術(shù)僅需添加兩個(gè)線(xiàn)性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語(yǔ)言模型人性化對(duì)話(huà)問(wèn)題。該研究創(chuàng)建了包含20萬(wàn)高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過(guò)創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開(kāi)發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過(guò)學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來(lái)了效率和精度的雙重突破。