這項由微軟研究院的彭志良、俞建偉、王文輝、常耀耀等多位研究人員領(lǐng)導(dǎo)的突破性研究發(fā)表于2024年8月,研究成果已在arXiv平臺公開發(fā)布(論文編號:arXiv:2508.19205v1)。對這項技術(shù)感興趣的讀者可以通過微軟官方項目頁面(aka.ms/VibeVoice)以及GitHub開源代碼庫獲取更多詳細信息。
說起語音合成技術(shù),大多數(shù)人可能還停留在那種機械化、單調(diào)乏味的電腦聲音印象中。但微軟研究院剛剛推出的VIBEVOICE技術(shù),徹底顛覆了我們對AI語音合成的認知。這項技術(shù)最令人震撼的地方在于,它能夠一口氣生成長達90分鐘的多人對話音頻,聽起來就像真人在進行自然對話一樣流暢生動。
要理解VIBEVOICE的革命性意義,我們得先想象一下傳統(tǒng)語音合成技術(shù)面臨的困境。就像一個廚師想要烹飪一桌豐盛的晚宴,傳統(tǒng)技術(shù)只能一道菜一道菜地單獨制作,每道菜都是獨立的,缺乏整體的協(xié)調(diào)和連貫性。而VIBEVOICE則像一位頂級大廚,能夠統(tǒng)籌安排整個宴席,讓每道菜都恰到好處地融入整體氛圍中。
傳統(tǒng)的文字轉(zhuǎn)語音系統(tǒng)雖然在短句生成方面已經(jīng)相當成熟,但一旦涉及到長篇對話,特別是多人參與的對話場景,就會暴露出明顯的局限性。這些系統(tǒng)往往只能機械地將一句句文字轉(zhuǎn)換成語音,然后簡單拼接在一起,完全缺乏真實對話中那種自然的節(jié)奏感、情緒變化和說話者之間的互動感。更要命的是,當處理時長較長的音頻時,計算效率極其低下,就像用算盤來計算復(fù)雜的數(shù)學(xué)公式一樣費時費力。
VIBEVOICE的出現(xiàn)徹底改變了這種局面。研究團隊巧妙地將大型語言模型的強大理解能力與下一令牌擴散技術(shù)相結(jié)合,創(chuàng)造出了一種全新的語音合成架構(gòu)。這種設(shè)計就像給一位經(jīng)驗豐富的播音員配備了超級大腦,不僅能理解每句話的含義,還能掌握整個對話的節(jié)奏和氛圍。
一、技術(shù)核心:像拼圖大師一樣組裝語音
VIBEVOICE的技術(shù)架構(gòu)可以比作一個精密的拼圖制作工坊。在這個工坊里,有三個關(guān)鍵的工作臺:語音編碼臺、理解分析臺和音頻重建臺。
首先是語音編碼臺,這里有兩個專門的工匠。第一個工匠專門負責提取語音的"聲音特征",就像一個調(diào)音師能夠敏銳地分辨出每種樂器的音色、音調(diào)和音量變化。這個聲學(xué)編碼器采用了變分自編碼器的設(shè)計原理,但研究團隊對其進行了特殊改進,使用了σ-VAE變體來避免傳統(tǒng)VAE在自回歸建模中可能出現(xiàn)的方差坍塌問題。具體來說,這個編碼器不是學(xué)習(xí)方差參數(shù),而是使用預(yù)定義的方差分布,這樣可以確保生成過程的穩(wěn)定性。
更令人驚嘆的是,這個聲學(xué)編碼器實現(xiàn)了3200倍的壓縮率,將原本24kHz采樣率的音頻壓縮到每秒僅7.5個令牌的極低頻率。打個比方,這就像把一本厚厚的百科全書壓縮成幾頁紙,但仍然保留了所有關(guān)鍵信息。這種超高壓縮率使得處理90分鐘長音頻成為可能,因為計算負擔大大減輕了。
第二個工匠專門負責理解語音的"語義內(nèi)容",就像一個資深翻譯能夠準確把握說話者想要表達的真正含義。這個語義編碼器雖然在架構(gòu)上與聲學(xué)編碼器類似,但它的訓(xùn)練目標完全不同。它使用自動語音識別作為代理任務(wù),通過預(yù)測文字轉(zhuǎn)錄來學(xué)習(xí)語音的語義表示。訓(xùn)練完成后,用于預(yù)測文字的解碼器部分會被丟棄,只保留編碼器用于提取語義特征。
理解分析臺的核心是一個大型語言模型,研究團隊選擇了Qwen2.5作為基礎(chǔ)架構(gòu),提供1.5B和7B兩個參數(shù)版本。這個語言模型就像一位經(jīng)驗豐富的對話導(dǎo)演,能夠理解復(fù)雜的用戶輸入,包括詳細的文本腳本和角色分配。用戶輸入的信息會被整理成一個特殊的格式:首先是各個說話者的語音樣本,然后是對應(yīng)的文本腳本,都用說話者標識符清楚地分隔開來。
音頻重建臺采用了輕量級的擴散頭設(shè)計,這個組件只有4層結(jié)構(gòu),但功能極其強大。它的工作原理類似于一位雕塑大師,從一塊粗糙的石頭開始,通過不斷地精雕細琢,最終呈現(xiàn)出完美的藝術(shù)品。具體來說,這個擴散頭會從隨機噪聲開始,在語言模型隱藏狀態(tài)的指導(dǎo)下,通過10輪迭代去噪過程,逐步生成清晰的聲學(xué)特征。
整個系統(tǒng)的訓(xùn)練策略也頗具匠心。研究團隊采用了課程學(xué)習(xí)的方法,就像教孩子學(xué)習(xí)一樣,從簡單開始逐步增加難度。訓(xùn)練序列長度從最初的4096個令牌逐步增加到65536個令牌,讓模型逐漸適應(yīng)處理越來越長的音頻序列。在訓(xùn)練過程中,預(yù)訓(xùn)練的聲學(xué)和語義編碼器參數(shù)保持凍結(jié),只更新語言模型和擴散頭的參數(shù)。
二、創(chuàng)新突破:壓縮比與質(zhì)量的完美平衡
VIBEVOICE最令人矚目的創(chuàng)新點在于其獨特的連續(xù)語音編碼器設(shè)計。傳統(tǒng)的語音編碼器就像老式的照相機,需要消耗大量膠卷才能拍攝一段視頻,而VIBEVOICE的編碼器則像現(xiàn)代數(shù)碼相機,能夠用極少的存儲空間記錄高質(zhì)量的內(nèi)容。
研究團隊開發(fā)的聲學(xué)編碼器實現(xiàn)了前所未有的3200倍壓縮率,這意味著每秒音頻只需要7.5個令牌來表示。相比之下,流行的Encodec模型需要300-600個令牌才能表示同樣長度的音頻。這種巨大的效率提升使得語音令牌與文本令牌的比例達到了約2:1,也就是說,兩個語音令牌大致相當于一個BPE文本令牌。這種平衡的令牌比例為長篇對話生成奠定了堅實基礎(chǔ)。
更重要的是,這種超高壓縮率并沒有犧牲音頻質(zhì)量。在LibriTTS數(shù)據(jù)集上的評測結(jié)果顯示,VIBEVOICE的聲學(xué)編碼器在PESQ、STOI和UTMOS等關(guān)鍵指標上都達到了業(yè)界領(lǐng)先水平。具體來說,在test-clean數(shù)據(jù)集上,VIBEVOICE取得了3.068的PESQ分數(shù)和4.181的UTMOS分數(shù),在test-other數(shù)據(jù)集上也保持了2.848的PESQ分數(shù)和3.724的UTMOS分數(shù)。這些數(shù)字可能看起來很抽象,但簡單來說,就是重建的音頻聽起來幾乎與原始錄音沒有區(qū)別。
編碼器的架構(gòu)設(shè)計同樣值得稱道。研究團隊采用了7級分層設(shè)計,每一級都使用改進的Transformer塊,但將傳統(tǒng)的自注意力機制替換為一維深度卷積,這種設(shè)計既保證了處理效率,又支持流式處理。6層下采樣結(jié)構(gòu)實現(xiàn)了從24kHz輸入到7.5 tokens/second輸出的巨大壓縮比。每個編碼器和解碼器組件大約包含3.4億個參數(shù),在保證性能的同時控制了模型規(guī)模。
三、性能表現(xiàn):全面超越現(xiàn)有技術(shù)
為了驗證VIBEVOICE的實際效果,研究團隊設(shè)計了一系列全面的評測實驗。在長對話語音生成任務(wù)上,他們構(gòu)建了一個包含8段長對話轉(zhuǎn)錄的測試集,總時長約1小時,并邀請24位人工評估員從真實感、豐富度和偏好三個維度進行主觀評價。
評測結(jié)果令人印象深刻。VIBEVOICE-7B在所有主觀指標上都取得了最高分:真實感達到3.71分,豐富度3.81分,整體偏好3.75分。相比之下,表現(xiàn)第二好的Gemini 2.5 Pro預(yù)覽版TTS分別為3.55分、3.78分和3.65分。更小的VIBEVOICE-1.5B版本也表現(xiàn)不俗,各項指標均在3.44-3.59分之間,仍然超越了大多數(shù)競爭對手。
在客觀指標方面,VIBEVOICE同樣表現(xiàn)優(yōu)異。使用Whisper-large-v3進行語音識別測試,VIBEVOICE-7B的詞錯誤率僅為1.29%,VIBEVOICE-1.5B更是低至1.11%,遠低于大多數(shù)競爭系統(tǒng)。這說明生成的語音不僅聽起來自然,在內(nèi)容準確性方面也非??煽俊?/p>
說話者相似度測試中,VIBEVOICE-7B獲得了0.692的高分,這意味著生成的語音能夠很好地保持原始說話者的聲音特征。這對于需要保持特定說話者身份的應(yīng)用場景具有重要意義。
更為重要的是,VIBEVOICE展現(xiàn)出了強大的可擴展性。研究結(jié)果顯示,從1.5B參數(shù)擴展到7B參數(shù)的過程中,模型在所有評測指標上都獲得了顯著提升,這表明進一步擴大模型規(guī)模很可能帶來更好的性能表現(xiàn)。
在短語音合成任務(wù)上,VIBEVOICE也展現(xiàn)了良好的泛化能力。盡管主要針對長對話場景進行訓(xùn)練,但在SEED測試集上的表現(xiàn)依然可圈可點。在中文測試中,字符錯誤率為1.16%,說話者相似度達到0.744;在英文測試中,詞錯誤率3.04%,說話者相似度0.689。雖然在短語音任務(wù)上的表現(xiàn)不如專門優(yōu)化的系統(tǒng),但考慮到VIBEVOICE的主要優(yōu)勢在于長對話生成,這樣的結(jié)果已經(jīng)相當不錯。
四、應(yīng)用前景:從播客到有聲讀物的革命
VIBEVOICE的出現(xiàn)為語音合成應(yīng)用開辟了全新的可能性。最直接的應(yīng)用場景是播客制作。傳統(tǒng)播客制作需要真人錄制,不僅成本高昂,而且受到時間和地點限制。有了VIBEVOICE,內(nèi)容創(chuàng)作者只需要準備文字腳本和少量語音樣本,就能生成長達90分鐘的高質(zhì)量播客內(nèi)容。這對于教育機構(gòu)、新聞媒體和個人創(chuàng)作者來說都是巨大的福音。
有聲讀物制作是另一個重要應(yīng)用領(lǐng)域。目前有聲讀物制作主要依賴專業(yè)配音演員,制作周期長、成本高。VIBEVOICE能夠支持最多4個說話者的對話,這意味著它可以處理大多數(shù)小說和戲劇作品的多角色需求。出版社可以利用這項技術(shù)快速將文字作品轉(zhuǎn)換為有聲版本,大大降低制作門檻。
在企業(yè)培訓(xùn)和在線教育方面,VIBEVOICE也有著廣闊應(yīng)用前景。培訓(xùn)機構(gòu)可以制作個性化的培訓(xùn)音頻內(nèi)容,模擬真實的對話場景,提高學(xué)習(xí)效果。特別是對于語言學(xué)習(xí)應(yīng)用,能夠生成自然對話的技術(shù)將極大提升用戶體驗。
無障礙技術(shù)領(lǐng)域同樣受益匪淺。視覺障礙人士可以通過VIBEVOICE技術(shù)獲得更豐富的音頻內(nèi)容體驗,包括將文字材料轉(zhuǎn)換為自然的多人對話形式,讓信息獲取變得更加生動有趣。
客戶服務(wù)和虛擬助手應(yīng)用也將因此技術(shù)而改變。傳統(tǒng)的語音助手通常只能進行簡單的問答對話,而VIBEVOICE的長對話能力使得開發(fā)更智能、更自然的對話系統(tǒng)成為可能。
五、技術(shù)細節(jié):深入理解核心機制
VIBEVOICE的技術(shù)實現(xiàn)涉及多個精巧設(shè)計,每個細節(jié)都經(jīng)過了仔細考慮。在輸入表示方面,系統(tǒng)采用了一種優(yōu)雅的混合表示方法。用戶輸入被組織成特定格式:語音字體特征和文本腳本嵌入按說話者交替排列,形如[Speaker1: z1, Speaker2: z2, ..., SpeakerN: zN] + [Speaker1: T1, Speaker2: T2, ..., SpeakerN: TN],其中z代表聲學(xué)潛在表示,T代表各角色的文本腳本。這種設(shè)計既保證了信息的完整性,又便于模型理解多說話者的對話結(jié)構(gòu)。
令牌級擴散機制是VIBEVOICE的另一個核心創(chuàng)新。傳統(tǒng)的擴散模型通常在整個序列或圖像級別進行操作,而VIBEVOICE實現(xiàn)了令牌級別的精細控制。擴散頭在每個令牌位置上都能接收語言模型的隱藏狀態(tài)作為條件信息,這使得生成過程更加精確和可控。在訓(xùn)練階段,擴散頭學(xué)習(xí)預(yù)測添加到干凈聲學(xué)VAE特征上的噪聲;在推理階段,它從隨機高斯噪聲開始,通過迭代去噪過程逐步生成目標聲學(xué)特征。
無分類器引導(dǎo)技術(shù)的應(yīng)用進一步提升了生成質(zhì)量。這種技術(shù)通過在條件預(yù)測和無條件預(yù)測之間進行插值來增強生成效果。研究團隊將引導(dǎo)尺度設(shè)置為1.3,并使用DPM-Solver++作為高效采樣器,將迭代去噪步驟控制在10步以內(nèi),既保證了質(zhì)量又提高了效率。
課程學(xué)習(xí)策略在訓(xùn)練過程中發(fā)揮了關(guān)鍵作用。系統(tǒng)首先在較短的序列(4096令牌)上進行訓(xùn)練,然后逐步增加到65536令牌。這種漸進式訓(xùn)練方法幫助模型更好地學(xué)習(xí)長序列建模,避免了直接處理長序列可能遇到的收斂困難。
模型的內(nèi)存和計算效率優(yōu)化也值得關(guān)注。通過使用極低幀率的連續(xù)表示,VIBEVOICE大大減少了處理長音頻序列所需的計算資源。7.5Hz的幀率意味著90分鐘的音頻只需要約40500個聲學(xué)令牌,這在現(xiàn)代GPU上是完全可處理的。
六、局限性與未來發(fā)展
盡管VIBEVOICE取得了令人矚目的成果,但研究團隊也誠實地指出了當前技術(shù)的一些局限性。首先是語言支持范圍的限制,目前系統(tǒng)主要針對英語和中文進行了優(yōu)化,對于其他語言可能會產(chǎn)生意想不到的輸出效果。這主要是因為訓(xùn)練數(shù)據(jù)的語言分布所致,未來擴展到更多語言需要相應(yīng)的數(shù)據(jù)支持。
音頻類型的局限也是一個需要考慮的因素。VIBEVOICE專注于純語音合成,不處理背景音樂、環(huán)境噪聲或其他聲效。這意味著它生成的是干凈的語音內(nèi)容,需要后期處理才能加入背景元素。對于某些需要豐富音頻環(huán)境的應(yīng)用場景,這可能是一個限制。
重疊語音的處理是另一個技術(shù)挑戰(zhàn)。在真實對話中,說話者之間經(jīng)常會有打斷、重疊或同時說話的情況,但當前的VIBEVOICE模型沒有顯式建模這種復(fù)雜的交互模式。系統(tǒng)生成的對話更接近輪流發(fā)言的模式,而不是自然對話中的自由交互。
從更廣泛的角度來看,任何高質(zhì)量語音合成技術(shù)都面臨著潛在的濫用風(fēng)險。VIBEVOICE能夠生成極其逼真的語音內(nèi)容,這可能被惡意使用者利用來制作深度偽造音頻,進行身份冒充、欺詐或傳播虛假信息。研究團隊強調(diào),用戶必須確保轉(zhuǎn)錄內(nèi)容的可靠性,檢查內(nèi)容準確性,避免將生成內(nèi)容用于誤導(dǎo)性目的。
正因為這些考慮,研究團隊明確表示不建議在商業(yè)或真實世界應(yīng)用中直接使用VIBEVOICE,而是將其定位為研究和開發(fā)工具。這種負責任的態(tài)度體現(xiàn)了學(xué)術(shù)界對于新興AI技術(shù)潛在風(fēng)險的重視。
展望未來,VIBEVOICE技術(shù)還有很大的發(fā)展空間。多語言支持的擴展將是一個重要方向,隨著訓(xùn)練數(shù)據(jù)的豐富和模型架構(gòu)的改進,未來版本有望支持更多語言。重疊語音建模是另一個有前景的研究方向,通過引入更復(fù)雜的對話動態(tài)模型,可能實現(xiàn)更自然的多人交互效果。
音頻環(huán)境的豐富化也是值得探索的領(lǐng)域。未來的系統(tǒng)可能整合背景音樂生成、環(huán)境聲效添加等功能,創(chuàng)造更沉浸式的音頻體驗。此外,實時生成能力的提升將為直播、游戲等應(yīng)用場景開辟新的可能性。
七、技術(shù)影響與意義
VIBEVOICE的出現(xiàn)標志著語音合成技術(shù)進入了一個新的發(fā)展階段。從技術(shù)角度來看,它證明了將大語言模型與擴散模型相結(jié)合的可行性和潛力。這種混合架構(gòu)不僅在語音生成領(lǐng)域取得了突破,也為其他多模態(tài)生成任務(wù)提供了有價值的參考。
更深層次的意義在于,VIBEVOICE重新定義了我們對AI語音合成能力邊界的認知。90分鐘的連續(xù)生成能力和多說話者支持,使得AI首次在長對話合成方面達到了實用級別。這種能力的飛躍不僅僅是量的變化,更是質(zhì)的突破,為整個行業(yè)開辟了全新的應(yīng)用空間。
從研究方法論的角度,VIBEVOICE展現(xiàn)了端到端深度學(xué)習(xí)方法的強大威力。通過將復(fù)雜的語音生成流程整合到單一的神經(jīng)網(wǎng)絡(luò)架構(gòu)中,研究團隊避免了傳統(tǒng)流水線方法中各個模塊之間的誤差累積問題,實現(xiàn)了更高的整體性能。
技術(shù)開源化的做法也值得稱贊。微軟研究院選擇將VIBEVOICE的核心技術(shù)通過GitHub平臺開源,這種開放態(tài)度有助于推動整個領(lǐng)域的發(fā)展,讓更多研究者和開發(fā)者能夠基于這項技術(shù)進行創(chuàng)新和改進。
在產(chǎn)業(yè)發(fā)展方面,VIBEVOICE的成功可能引發(fā)語音合成領(lǐng)域的新一輪競爭和創(chuàng)新浪潮。各大科技公司很可能會加大在長對話語音合成方向的投入,推動相關(guān)技術(shù)的快速進步。同時,這項技術(shù)的成熟也將催生新的商業(yè)模式和應(yīng)用場景,為創(chuàng)業(yè)者和企業(yè)提供新的機會。
說到底,VIBEVOICE代表的是人工智能在理解和生成人類語言方面的又一次重要進步。雖然我們距離完全自然的AI語音交互還有一定距離,但VIBEVOICE已經(jīng)讓我們看到了這個目標的輪廓。隨著技術(shù)的持續(xù)改進和完善,我們有理由相信,在不久的將來,AI生成的語音內(nèi)容將在更多場景中發(fā)揮重要作用,為人們的生活和工作帶來便利。
當然,技術(shù)進步也帶來了新的思考。如何在享受技術(shù)便利的同時防范潛在風(fēng)險,如何建立相應(yīng)的監(jiān)管機制和道德規(guī)范,這些都是我們需要認真考慮的問題。VIBEVOICE的研究團隊已經(jīng)給出了負責任的表態(tài),這為整個行業(yè)樹立了良好的榜樣。
對于普通人來說,VIBEVOICE技術(shù)的成熟意味著我們將能夠享受到更豐富、更個性化的語音內(nèi)容。無論是收聽個性化播客、體驗沉浸式有聲讀物,還是獲得更智能的語音助手服務(wù),這些應(yīng)用場景都將因為VIBEVOICE這樣的技術(shù)而變得更加精彩。有興趣深入了解這項技術(shù)的讀者,可以訪問微軟官方項目頁面(aka.ms/VibeVoice)或查閱完整的研究論文(arXiv:2508.19205v1)獲取更多詳細信息。
Q&A
Q1:VIBEVOICE能生成多長時間的語音?支持幾個人同時說話?
A:VIBEVOICE可以連續(xù)生成長達90分鐘的語音內(nèi)容,最多支持4個不同說話者的對話。這是目前語音合成技術(shù)中最長的生成能力,遠超傳統(tǒng)系統(tǒng)只能處理短句的限制。系統(tǒng)通過64K上下文窗口長度實現(xiàn)這種超長語音生成。
Q2:VIBEVOICE的語音質(zhì)量如何?聽起來自然嗎?
A:根據(jù)24位專業(yè)評估員的測試,VIBEVOICE-7B在真實感、豐富度和整體偏好三個維度都獲得了3.7分以上的高分(滿分5分),全面超越了包括谷歌Gemini 2.5 Pro在內(nèi)的其他主流系統(tǒng)。生成的語音不僅聽起來自然,詞錯誤率也僅為1.29%,內(nèi)容準確性很高。
Q3:普通人現(xiàn)在可以使用VIBEVOICE嗎?有什么限制?
A:目前VIBEVOICE主要定位為研究工具,微軟不推薦在商業(yè)或?qū)嶋H應(yīng)用中直接使用。技術(shù)已在GitHub開源,但主要面向研究者和開發(fā)者?,F(xiàn)有限制包括只支持英語和中文、不能處理背景音樂、不支持重疊語音等。用戶需要負責任使用,避免制作誤導(dǎo)性內(nèi)容。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機制和漸進式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學(xué)習(xí)外觀和運動信息,顯著解決了當前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準,通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報,準確性超越傳統(tǒng)方法90%的指標。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。