這項由謝里夫理工大學(xué)計算機(jī)工程系的Mahta Fetrat Qharabagh、Zahra Dehghanian和Hamid R. Rabiee教授團(tuán)隊完成的研究,發(fā)表于2025年5月19日的arXiv預(yù)印本平臺(arXiv:2505.12973v1)。這項研究著眼于解決語音合成技術(shù)中一個看似微小卻十分關(guān)鍵的問題:多音字消歧。
多音字是什么?想象一下英語中的"read"這個詞,它在"I read a book yesterday"(我昨天讀了一本書)和"I will read this book"(我將讀這本書)中的發(fā)音完全不同。前者讀作/r?d/,后者讀作/ri:d/。這種拼寫相同但根據(jù)上下文發(fā)音不同的詞,就是語言學(xué)家所說的"多音字"或"同形異音詞"。
在許多語言中,尤其是資源較少的語言(如波斯語),處理這類多音字一直是個棘手的問題。目前的挑戰(zhàn)主要集中在兩個方面:一是構(gòu)建平衡且全面的多音字?jǐn)?shù)據(jù)集費(fèi)時費(fèi)力且成本高;二是專門的消歧策略往往會引入額外的延遲,使它們不適合屏幕閱讀器等需要實(shí)時響應(yīng)的輔助工具。
Qharabagh教授團(tuán)隊的研究正是針對這兩個問題提出了解決方案。他們的方法既實(shí)用又具有創(chuàng)新性,就像是在說:"有時候,解決問題的最佳方式不是更復(fù)雜的技術(shù),而是回歸基礎(chǔ)、注重速度和效率。"
首先,研究團(tuán)隊提出了一種半自動化的流程,用于構(gòu)建專注于多音字的數(shù)據(jù)集。想象你在制作一本食譜書,但是專門收集那些容易混淆的菜肴——它們的名字相同但根據(jù)不同地區(qū)的烹飪習(xí)慣,做法和味道完全不同。這就是他們的HomoRich數(shù)據(jù)集,一個專注于波斯語多音字的豐富數(shù)據(jù)集。
更令人驚訝的是,研究團(tuán)隊并不滿足于僅僅提升最先進(jìn)的神經(jīng)網(wǎng)絡(luò)模型。他們提出了一個觀點(diǎn)轉(zhuǎn)變——利用離線的豐富數(shù)據(jù)來指導(dǎo)開發(fā)快速、基于規(guī)則的方法,這些方法特別適合對延遲敏感的輔助應(yīng)用,如為視障人士服務(wù)的屏幕閱讀器。
為了驗(yàn)證這一理念,他們改進(jìn)了一個最知名的基于規(guī)則的石墨音素轉(zhuǎn)換系統(tǒng)eSpeak,將其升級為一個支持多音字識別的快速版本——HomoFast eSpeak。結(jié)果令人振奮:無論是神經(jīng)網(wǎng)絡(luò)模型還是基于規(guī)則的系統(tǒng),多音字消歧準(zhǔn)確率都提升了大約30%。
想象一下這意味著什么:視障人士使用屏幕閱讀器時,將能聽到更加自然、準(zhǔn)確的語音合成,而不是因?yàn)槎嘁糇肿R別錯誤而產(chǎn)生的怪異發(fā)音。這不僅提高了技術(shù)的可用性,更直接改善了特殊群體的生活質(zhì)量。
讓我們一起深入了解這項研究是如何在不犧牲速度的前提下,解決多音字這一棘手問題的。
一、研究背景與挑戰(zhàn)
石墨音素轉(zhuǎn)換(Grapheme-to-phoneme,簡稱G2P)是什么?簡單來說,就是將書面文字轉(zhuǎn)換為語音符號的過程。這就像是一個翻譯官,負(fù)責(zé)把你看到的文字轉(zhuǎn)化為語音合成系統(tǒng)能理解的"發(fā)音指南"。
想象你有一個智能助手,它需要朗讀文字給你聽。當(dāng)它看到"read"這個詞時,它需要決定是讀成/r?d/還是/ri:d/。這個決定過程就是G2P轉(zhuǎn)換的一部分,而多音字消歧則是這個過程中最具挑戰(zhàn)性的環(huán)節(jié)之一。
在波斯語等許多語言中,這個問題更為復(fù)雜。為什么呢?因?yàn)樵谶@些語言中,同一個書寫形式可能對應(yīng)多種不同的發(fā)音,而正確的選擇完全取決于上下文。就像在特定地區(qū),同一個手勢可能根據(jù)場合有完全不同的含義一樣。
研究團(tuán)隊指出,這個挑戰(zhàn)主要表現(xiàn)在兩個方面:
首先是數(shù)據(jù)稀缺問題。想象你想教一個外國人如何正確使用多音字,你需要提供足夠多的例句,覆蓋每個多音字在不同語境下的各種用法。更重要的是,這些例句需要保持平衡——每種發(fā)音都應(yīng)該有足夠多的例子。這樣的數(shù)據(jù)集在資源匱乏的語言中極為罕見,因?yàn)闃?gòu)建它們需要語言專家投入大量時間進(jìn)行標(biāo)注,成本高昂。
第二個挑戰(zhàn)是方法學(xué)上的。目前G2P轉(zhuǎn)換主要有兩種方法:基于規(guī)則的方法和神經(jīng)網(wǎng)絡(luò)模型。神經(jīng)網(wǎng)絡(luò)模型因其靈活性和學(xué)習(xí)能力而越來越受歡迎,但它們通常有一個致命缺點(diǎn)——推理延遲高。簡單來說,它們思考得太慢了,不適合屏幕閱讀器等需要實(shí)時響應(yīng)的應(yīng)用。想象一下,如果你的屏幕閱讀器每讀一個詞都要思考幾秒鐘,使用體驗(yàn)會有多糟糕。
這就引出了研究團(tuán)隊的創(chuàng)新思路:與其一味追求復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型,不如重新審視基于規(guī)則的方法,通過豐富的數(shù)據(jù)來提升它們在多音字處理上的能力,同時保持其固有的速度優(yōu)勢。
就像是選擇了一條不同尋常的道路:不是用更強(qiáng)大的發(fā)動機(jī)(神經(jīng)網(wǎng)絡(luò)),而是通過優(yōu)化現(xiàn)有的發(fā)動機(jī)(規(guī)則系統(tǒng))并提供更好的路線圖(豐富數(shù)據(jù)),使車輛能夠更快、更準(zhǔn)確地到達(dá)目的地。
二、數(shù)據(jù)集構(gòu)建:從稀缺到豐富
構(gòu)建一個高質(zhì)量的多音字?jǐn)?shù)據(jù)集,就像是要收集一本內(nèi)容豐富、例句平衡的多語言詞典,這通常是一項耗時且昂貴的工作。Qharabagh教授團(tuán)隊提出了一個實(shí)用的解決方案,將這個過程變得更加高效和經(jīng)濟(jì)。
他們的方法就像是一位聰明的廚師,不是從零開始準(zhǔn)備每一道菜,而是巧妙地組合現(xiàn)有材料,加入一些創(chuàng)新元素,創(chuàng)造出豐富多樣的菜單。具體來說,研究團(tuán)隊的數(shù)據(jù)準(zhǔn)備過程包含以下幾個環(huán)節(jié):
首先,他們從KaamelDict開始,這是Qharabagh在之前的研究中引入的最全面的波斯語G2P字典。想象這個字典就像是一個巨大的食材庫,研究團(tuán)隊需要從中篩選出最適合的"食材"。他們過濾出具有多種有效發(fā)音的單詞,識別潛在的多音字。
接下來,通過人工審核,他們排除了兩類單詞:一是那些有多種普遍接受的發(fā)音但不需要消歧的單詞(就像某些菜可以有不同的做法但本質(zhì)是同一道菜),二是那些包含古老、詩意或很少使用的形式的單詞(就像那些已經(jīng)過時的食譜)。經(jīng)過這一篩選,他們選出了285個既全面又實(shí)用的多音字單詞。
構(gòu)建數(shù)據(jù)集的下一個挑戰(zhàn)是為每個多音字生成多樣化且平衡的句子,覆蓋不同的使用上下文,確保所有發(fā)音都有同等的代表性。這就像是要確保食譜書中的每種菜式都有足夠多的變體,滿足不同人的口味需求。
為了自動化這一過程,研究團(tuán)隊嘗試使用大語言模型(LLM)為每種發(fā)音或含義生成句子。然而,他們發(fā)現(xiàn)即使給出明確的指令,生成的結(jié)果也往往偏向主流發(fā)音。這就像是算法總是傾向于推薦最受歡迎的菜譜,而忽略了那些同樣重要但不那么常見的變體。
經(jīng)過實(shí)驗(yàn),他們發(fā)現(xiàn)將多音字嵌入到一個完整的句子中,暗示其預(yù)期含義,可以顯著提高準(zhǔn)確性?;谶@一發(fā)現(xiàn),他們采用了一種混合方法:首先讓大約200名母語使用者為每個多音字的每種發(fā)音撰寫五個上下文各異的句子,然后使用這些人工撰寫的例子作為少量樣本提示,指導(dǎo)LLM生成更多的句子。
為了進(jìn)一步增強(qiáng)數(shù)據(jù)集并支持下游的文本轉(zhuǎn)語音和G2P任務(wù),他們還整合了三個廣泛使用的波斯語語料庫的句子:ManaTTS、GPTInformal和CommonVoice。這些補(bǔ)充旨在提高整體G2P準(zhǔn)確率,特別是音素錯誤率(PER),并用來自不同語域的音素標(biāo)注示例豐富語料庫。
接下來是音素化的挑戰(zhàn)——如何將文本轉(zhuǎn)換為其對應(yīng)的音素序列?研究團(tuán)隊利用他們之前在LLM驅(qū)動的G2P轉(zhuǎn)換方面的工作,證明LLM可以幫助標(biāo)記石墨與其音素的對應(yīng)關(guān)系。他們使用了幾種技術(shù)來增強(qiáng)LLM在G2P任務(wù)中的表現(xiàn),包括上下文學(xué)習(xí)、少量樣本示例、來自G2P字典的提示,以及最終的映射步驟,以生成目標(biāo)音素格式。
平衡成本、可用性和質(zhì)量,他們選擇了GPT-4o作為LLM,它在音素錯誤率(PER)方面達(dá)到了6.43%,在多音字消歧準(zhǔn)確率方面達(dá)到了64%,優(yōu)于許多現(xiàn)有的波斯語G2P系統(tǒng)。
最終生成的HomoRich數(shù)據(jù)集包含528,891個帶注釋的波斯語句子,其中包括專注于多音字的數(shù)據(jù)和通用G2P數(shù)據(jù)。這個數(shù)據(jù)集覆蓋了285個多音字單詞,每個多音字與多種發(fā)音相關(guān)聯(lián):257個有兩種變體,21個有三種,7個有四種。平均而言,每個多音字在超過1,000個不同的句子上下文中出現(xiàn)。為了避免對更頻繁的發(fā)音產(chǎn)生偏見,他們?yōu)槊總€變體維持了平衡的樣本數(shù)量。
這種數(shù)據(jù)構(gòu)建方法就像是一位園丁,不僅僅是隨機(jī)種植,而是精心設(shè)計一個花園,確保每種植物都有適當(dāng)?shù)目臻g和資源茁壯成長。通過結(jié)合人工智能和人類專業(yè)知識,研究團(tuán)隊創(chuàng)建了一個豐富、平衡的數(shù)據(jù)集,為解決多音字消歧問題提供了堅實(shí)的基礎(chǔ)。
三、模型優(yōu)化與創(chuàng)新
有了豐富的數(shù)據(jù)集,研究團(tuán)隊接下來面臨的問題是:如何最有效地利用這些數(shù)據(jù)來提升G2P系統(tǒng)的性能,特別是在多音字處理方面?他們的答案是雙管齊下:一方面優(yōu)化神經(jīng)網(wǎng)絡(luò)模型,另一方面增強(qiáng)基于規(guī)則的系統(tǒng)。
### 神經(jīng)網(wǎng)絡(luò)模型:Homo-GE2PE
研究團(tuán)隊首先將目光投向了神經(jīng)網(wǎng)絡(luò)模型。他們選擇了GE2PE,這是一個基于T5(Text-to-Text Transfer Transformer)的模型,在近期研究中已被證明在波斯語G2P任務(wù)上表現(xiàn)出色。想象T5就像一位精通多種語言的翻譯專家,能夠?qū)⒁环N"文本"(書面文字)轉(zhuǎn)換為另一種"文本"(音素序列)。
研究團(tuán)隊通過一個三階段的過程對GE2PE進(jìn)行了進(jìn)一步微調(diào):
首先,他們在常規(guī)G2P子集上進(jìn)行初始微調(diào)。這就像是讓翻譯專家先熟悉一般的翻譯任務(wù),掌握基本的規(guī)則和模式。
然后,進(jìn)入第二階段,他們使用LLM生成的多音字句子進(jìn)行微調(diào)。這相當(dāng)于向翻譯專家提供更多關(guān)于特殊或有歧義表達(dá)的例子,幫助他們理解上下文如何影響翻譯。
最后,在第三階段,他們使用高質(zhì)量的、人工撰寫的多音字句子進(jìn)行最終微調(diào)。這就像是由語言大師提供的最精確的例子,幫助翻譯專家完善他們的技能。
這三個階段分別使用了5、20和50個訓(xùn)練周期,學(xué)習(xí)率為5e-4,批量大小為32,整個訓(xùn)練過程在一臺配備NVIDIA GTX TITAN X顯卡和Intel i7-5820K CPU的機(jī)器上進(jìn)行,總共耗時約24小時。
通過這種逐步微調(diào)的方法,他們創(chuàng)建了增強(qiáng)版的模型,命名為Homo-GE2PE,它不僅在一般的G2P轉(zhuǎn)換上表現(xiàn)出色,還特別擅長處理多音字的消歧。
### 基于規(guī)則的系統(tǒng):HomoFast eSpeak
然而,研究團(tuán)隊的真正創(chuàng)新在于他們對基于規(guī)則的系統(tǒng)的改進(jìn)。他們指出,盡管神經(jīng)網(wǎng)絡(luò)模型強(qiáng)大,但在實(shí)時應(yīng)用(如屏幕閱讀器)中,基于規(guī)則的系統(tǒng)因其低延遲而具有不可替代的優(yōu)勢。
基于規(guī)則的系統(tǒng)就像是一本詳細(xì)的食譜書,按照預(yù)定的步驟和規(guī)則進(jìn)行操作,可以快速得出結(jié)果。相比之下,神經(jīng)網(wǎng)絡(luò)模型更像是一位思考型廚師,可能會做出更精細(xì)的決策,但需要更多的時間來考慮和權(quán)衡。
研究團(tuán)隊的核心洞察是:基于規(guī)則的系統(tǒng)最大的局限在于它們難以消歧多音字,因?yàn)樗鼈內(nèi)狈虿淮嬖谡Z義或上下文理解。為了解決這個問題,他們提出了一種利用生成的數(shù)據(jù)集增強(qiáng)G2P系統(tǒng)多音字消歧能力的策略。
這個策略純粹是統(tǒng)計性的,不依賴于神經(jīng)模型或嵌入,使其成為提高基于規(guī)則方法的多音字準(zhǔn)確率的完美解決方案,而不會犧牲其關(guān)鍵優(yōu)勢——速度和低延遲。
具體來說,他們的方法首先對數(shù)據(jù)集中的句子進(jìn)行分詞,去除停用詞,然后構(gòu)建一個數(shù)據(jù)庫,將多音字的不同發(fā)音映射到經(jīng)常與每種發(fā)音一起出現(xiàn)的上下文詞列表。
對于一個新句子,他們計算其上下文詞與每種發(fā)音的上下文列表之間的加權(quán)重疊,從而得出相似度分?jǐn)?shù)。為了減輕對較長列表的偏見,他們通過相應(yīng)上下文列表的長度對每個分?jǐn)?shù)進(jìn)行歸一化。然后選擇歸一化分?jǐn)?shù)最高的發(fā)音作為上下文最適合的發(fā)音。
他們將這種方法應(yīng)用于廣泛使用的eSpeak NG項目,選擇該項目是因?yàn)槠湓诂F(xiàn)實(shí)世界應(yīng)用中的相關(guān)性。eSpeak NG是一個緊湊、開源的文本到語音合成器,可在Linux、Windows、Android和其他平臺上使用,支持100多種語言和口音,受益于各種語言社區(qū)的貢獻(xiàn)。值得注意的是,它在開源NVDA屏幕閱讀器中有一個附加組件,其波斯語G2P模塊被伊朗大部分盲人社區(qū)在屏幕閱讀器中廣泛使用。
他們將增強(qiáng)版本命名為HomoFast eSpeak,如后續(xù)章節(jié)所示,它展示了出色的結(jié)果,表明為基于規(guī)則的TTS系統(tǒng)增強(qiáng)波斯語是一條可行的路徑。
四、實(shí)驗(yàn)結(jié)果與分析
研究團(tuán)隊的創(chuàng)新方法取得了怎樣的成果?讓我們來看看實(shí)驗(yàn)結(jié)果和分析。
在這項研究之前,用于基準(zhǔn)測試G2P系統(tǒng)多音字準(zhǔn)確率的公開句子級數(shù)據(jù)集幾乎不存在。研究團(tuán)隊采用了他們之前的LLM驅(qū)動的G2P工作中引入的SentenceBench作為主要基準(zhǔn)。
首先,他們評估了現(xiàn)有G2P工具在SentenceBench基準(zhǔn)上的表現(xiàn)。結(jié)果顯示,只有兩個模型在音素錯誤率(PER)方面表現(xiàn)良好:神經(jīng)網(wǎng)絡(luò)模型GE2PE和基于規(guī)則的工具eSpeak。然而,即使是這些模型,在多音字消歧方面的表現(xiàn)也比隨機(jī)選擇差。
為了解決波斯語G2P系統(tǒng)中多音字消歧的挑戰(zhàn),研究團(tuán)隊利用精心策劃的多音字?jǐn)?shù)據(jù)集增強(qiáng)了神經(jīng)和基于規(guī)則的模型。具體來說,他們對GE2PE模型進(jìn)行了微調(diào),并提出了一個統(tǒng)計消歧模塊集成到eSpeak中,從而產(chǎn)生了兩個改進(jìn)的變體:Homo-GE2PE和HomoFast eSpeak。
實(shí)驗(yàn)結(jié)果令人印象深刻:他們改進(jìn)的GE2PE模型在多音字準(zhǔn)確率方面實(shí)現(xiàn)了29.72%的提升,同時還降低了音素錯誤率(PER)。更值得注意的是,他們的統(tǒng)計消歧模塊——完全沒有任何神經(jīng)成分或?qū)W習(xí)嵌入——在集成到基于規(guī)則的模型時,提供了相同水平的多音字準(zhǔn)確率提升,同時保持了原有的推理速度。這凸顯了高質(zhì)量數(shù)據(jù)的價值,并顯示即使是簡單的統(tǒng)計技術(shù),在強(qiáng)大數(shù)據(jù)集的支持下也能非常有效。
研究團(tuán)隊還僅使用他們的數(shù)據(jù)集微調(diào)了基礎(chǔ)GE2PE模型(T5),稱為Homo-T5。盡管他們的數(shù)據(jù)集比原始GE2PE研究中使用的500萬樣本合成數(shù)據(jù)集小一個數(shù)量級,但Homo-T5仍然實(shí)現(xiàn)了具有競爭力的音素錯誤率和高多音字準(zhǔn)確率,證明了他們方法的質(zhì)量和實(shí)用性。
另一個關(guān)鍵因素是推理速度。雖然Homo-GE2PE模型在準(zhǔn)確性方面優(yōu)于HomoFast eSpeak,但它的速度慢了幾個數(shù)量級,使其不適合屏幕閱讀器等實(shí)時應(yīng)用。研究顯示,eSpeak和HomoFast eSpeak是最快的模型,后者還受益于新添加的功能,可以在單次運(yùn)行中處理更大的文本段落。
總體而言,實(shí)驗(yàn)結(jié)果表明,通過結(jié)合豐富的數(shù)據(jù)和適當(dāng)?shù)姆椒ǎ梢燥@著提高G2P系統(tǒng)的多音字消歧能力,而不犧牲關(guān)鍵特性如速度和響應(yīng)性。這對于屏幕閱讀器等輔助技術(shù)具有重要意義,使它們能夠提供更自然、更準(zhǔn)確的語音合成,從而提高可用性和用戶體驗(yàn)。
五、研究影響與未來方向
這項研究的影響遠(yuǎn)不止于技術(shù)改進(jìn),它觸及到了技術(shù)可訪問性和包容性的核心問題。想象一下,對于依賴屏幕閱讀器的視覺障礙用戶來說,聽到自然、流暢且語義準(zhǔn)確的語音是多么重要。每一次多音字被正確解讀,都意味著減少了一次可能的誤解和困惑。
研究團(tuán)隊的工作表明,有時候最有效的解決方案并不一定是最復(fù)雜或最前沿的技術(shù)。相反,通過巧妙地結(jié)合高質(zhì)量數(shù)據(jù)和簡單但高效的算法,可以實(shí)現(xiàn)顯著的性能提升,同時保持實(shí)時響應(yīng)能力。這種"快速而不花哨"的方法對于資源受限的語言和應(yīng)用場景尤為重要。
然而,研究團(tuán)隊也指出了一些局限性。他們提到多音字消歧并不是波斯語中唯一的上下文相關(guān)挑戰(zhàn)。另一個值得注意的挑戰(zhàn)是正確處理Ezafe,這是一個連接詞的音素,在語法和語義上連接詞語。這是當(dāng)前基于規(guī)則系統(tǒng)的主要弱點(diǎn)。
未來的研究方向可能包括設(shè)計既快速又具有語言學(xué)意識的基于規(guī)則方法,以解決像Ezafe處理這樣的上下文敏感現(xiàn)象。解決這些挑戰(zhàn)可能會使基于規(guī)則的G2P模型在自然度方面顯著接近神經(jīng)模型,同時保持對實(shí)際部署至關(guān)重要的速度優(yōu)勢。
最重要的是,這項研究強(qiáng)調(diào)了開放、高質(zhì)量離線數(shù)據(jù)集的潛力,不僅可以訓(xùn)練神經(jīng)模型,還可以豐富和現(xiàn)代化傳統(tǒng)的基于規(guī)則系統(tǒng)。通過以CC0-1.0許可證發(fā)布所有資源,研究團(tuán)隊旨在促進(jìn)低資源語言輔助技術(shù)的進(jìn)一步研究和實(shí)際應(yīng)用。
總的來說,這項研究展示了一種平衡技術(shù)進(jìn)步和實(shí)際需求的方法。它提醒我們,有時候最有效的創(chuàng)新不是開發(fā)全新的復(fù)雜系統(tǒng),而是明智地結(jié)合現(xiàn)有技術(shù)和豐富數(shù)據(jù),創(chuàng)造既先進(jìn)又實(shí)用的解決方案。對于依賴這些技術(shù)的用戶來說,這種平衡可能意味著更好的體驗(yàn)和更高的生活質(zhì)量。
好文章,需要你的鼓勵
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學(xué)習(xí)外觀和運(yùn)動信息,顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運(yùn)動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報,準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。