這項(xiàng)由俄羅斯人工智能研究院(AIRI)聯(lián)合斯科爾科沃理工學(xué)院(Skoltech)的Dmitrii Korzh、Dmitrii Tarasov等研究團(tuán)隊(duì)完成的突破性工作,于2025年8月發(fā)表在計算機(jī)視覺領(lǐng)域的頂級學(xué)術(shù)預(yù)印本平臺arXiv上。有興趣深入了解的讀者可以通過論文編號arXiv:2508.03542v1訪問完整研究內(nèi)容。這項(xiàng)研究首次系統(tǒng)性地解決了一個困擾學(xué)術(shù)界和教育界多年的問題:如何讓計算機(jī)準(zhǔn)確理解人類口述的數(shù)學(xué)表達(dá)式,并將其轉(zhuǎn)換為標(biāo)準(zhǔn)的數(shù)學(xué)格式。
當(dāng)我們在課堂上聽數(shù)學(xué)老師講解復(fù)雜方程式時,往往能夠輕松理解"x的平方加上2y等于5"這樣的表述,并在腦海中形成相應(yīng)的數(shù)學(xué)公式。然而,對于計算機(jī)來說,這個看似簡單的過程卻異常困難。就好比一個外國人初次學(xué)習(xí)漢語,雖然能夠聽懂個別詞匯,但要完全理解句子的含義并準(zhǔn)確寫出漢字,仍然需要大量的訓(xùn)練和專門的技能。
研究團(tuán)隊(duì)發(fā)現(xiàn),現(xiàn)有的語音識別技術(shù)雖然在日常對話中表現(xiàn)出色,但在處理數(shù)學(xué)語言時卻顯得力不從心。當(dāng)老師說出"e的i乘以π次方等于負(fù)一"這樣的表述時,普通的語音識別系統(tǒng)可能會將其轉(zhuǎn)錄為錯誤的文字,更不用說將其準(zhǔn)確轉(zhuǎn)換為標(biāo)準(zhǔn)的LaTeX數(shù)學(xué)格式了。這種困難主要源于數(shù)學(xué)語言的特殊性:同樣的口述表達(dá)可能對應(yīng)不同的數(shù)學(xué)公式,而且數(shù)學(xué)符號的讀音往往與日常用語差異很大。
為了解決這個問題,研究團(tuán)隊(duì)就像烹飪大師精心準(zhǔn)備食材一樣,首先收集和整理了一個前所未有的大規(guī)模數(shù)據(jù)集。這個名為S2L(Speech-to-LaTeX)的數(shù)據(jù)集包含了超過6.6萬個人工標(biāo)注的音頻樣本和57.1萬個人工合成的音頻樣本,涵蓋英語和俄語兩種語言。每個樣本都包含了一個完整的數(shù)學(xué)表達(dá)式朗讀錄音以及對應(yīng)的標(biāo)準(zhǔn)LaTeX格式。
這個數(shù)據(jù)收集過程就像組織一場大型的國際數(shù)學(xué)競賽。研究團(tuán)隊(duì)從多個來源收集數(shù)學(xué)表達(dá)式,包括著名的MathBridge數(shù)據(jù)集、TextTeller數(shù)據(jù)集,以及從學(xué)術(shù)論文庫Proof-Pile中提取的真實(shí)科研內(nèi)容。為了確保數(shù)據(jù)的多樣性和準(zhǔn)確性,他們邀請了33名來自不同背景的標(biāo)注者參與錄音工作,每個人都需要朗讀數(shù)百個數(shù)學(xué)表達(dá)式。這樣做的目的是讓系統(tǒng)能夠適應(yīng)不同的口音、語調(diào)和表達(dá)習(xí)慣,就像訓(xùn)練一個多語種翻譯專家一樣。
在數(shù)據(jù)準(zhǔn)備階段,研究團(tuán)隊(duì)面臨的挑戰(zhàn)就像整理一個混亂的圖書館。原始的MathBridge數(shù)據(jù)集雖然規(guī)模龐大,包含2300萬個數(shù)學(xué)表達(dá)式,但質(zhì)量參差不齊。許多條目存在明顯錯誤,比如將純文本當(dāng)作數(shù)學(xué)公式,或者公式與對應(yīng)的讀音完全不匹配。研究團(tuán)隊(duì)必須逐一檢查和篩選,最終從中選出了高質(zhì)量的樣本進(jìn)行進(jìn)一步處理。
為了增加數(shù)據(jù)的豐富性,研究團(tuán)隊(duì)還使用了GPT-4這樣的大型語言模型來生成新的數(shù)學(xué)表達(dá)式和對應(yīng)的讀音。這個過程類似于請一位數(shù)學(xué)教授為不同難度的課程設(shè)計題目,涵蓋了從基礎(chǔ)算術(shù)到高等數(shù)學(xué)的各個領(lǐng)域,包括微積分、線性代數(shù)、量子力學(xué)、廣義相對論等多個學(xué)科分支。每個生成的表達(dá)式都配有詳細(xì)的朗讀指南,確保標(biāo)注者能夠準(zhǔn)確發(fā)音。
在模型設(shè)計方面,研究團(tuán)隊(duì)采用了兩種主要策略,就像修建一座橋梁可以選擇不同的建筑方案一樣。第一種方案是"分步處理法",類似于流水線作業(yè):首先使用語音識別系統(tǒng)將音頻轉(zhuǎn)換為文字,然后使用專門訓(xùn)練的語言模型將文字轉(zhuǎn)換為標(biāo)準(zhǔn)的LaTeX格式。這種方法的優(yōu)勢在于每個步驟都可以獨(dú)立優(yōu)化,就像專業(yè)分工能夠提高整體效率一樣。
第二種方案是"端到端處理法",就像訓(xùn)練一個全能選手直接從音頻跳躍到最終結(jié)果。研究團(tuán)隊(duì)使用了SALMONN這樣的多模態(tài)大型語言模型,讓系統(tǒng)能夠直接理解音頻內(nèi)容并生成相應(yīng)的數(shù)學(xué)格式,中間不需要經(jīng)過文字轉(zhuǎn)錄這個環(huán)節(jié)。這種方法的潛在優(yōu)勢在于能夠避免語音識別錯誤的累積影響。
在具體的技術(shù)實(shí)現(xiàn)中,研究團(tuán)隊(duì)發(fā)現(xiàn)不同的語音識別系統(tǒng)在處理數(shù)學(xué)語言時表現(xiàn)差異很大。Whisper-Large v3在識別希臘字母和數(shù)學(xué)符號方面表現(xiàn)最為出色,而傳統(tǒng)的WavLM和Wav2Vec2.0系統(tǒng)則經(jīng)常出現(xiàn)符號識別錯誤。這種差異就像不同品牌的汽車在山路行駛時表現(xiàn)不同,有些引擎更適合復(fù)雜地形。
為了評估系統(tǒng)的性能,研究團(tuán)隊(duì)設(shè)計了一套全面的評估指標(biāo)。除了傳統(tǒng)的字符錯誤率(CER)之外,他們還引入了專門為數(shù)學(xué)公式設(shè)計的TeXBLEU指標(biāo)。這個指標(biāo)能夠更好地反映數(shù)學(xué)表達(dá)式的語義準(zhǔn)確性,而不僅僅是字面匹配。就好比評價一道菜的質(zhì)量,不僅要看外觀是否美觀,還要考慮口感和營養(yǎng)價值。
實(shí)驗(yàn)結(jié)果顯示,研究團(tuán)隊(duì)開發(fā)的系統(tǒng)在處理孤立數(shù)學(xué)表達(dá)式時達(dá)到了27-30%的字符錯誤率,這個成績雖然看起來不夠完美,但考慮到數(shù)學(xué)語言的復(fù)雜性和歧義性,實(shí)際上代表了相當(dāng)不錯的性能水平。更重要的是,在與現(xiàn)有的MathSpeech系統(tǒng)對比時,新系統(tǒng)在某些測試中的性能優(yōu)勢超過了40個百分點(diǎn)。
然而,當(dāng)系統(tǒng)處理嵌入在自然語言中的數(shù)學(xué)表達(dá)式時,挑戰(zhàn)變得更加復(fù)雜。就像在一篇散文中準(zhǔn)確理解詩句的含義一樣,系統(tǒng)需要在連續(xù)的語音流中準(zhǔn)確識別出數(shù)學(xué)部分,并正確理解其在整個語境中的作用。在這種情況下,系統(tǒng)的文本部分錯誤率能夠控制在10%以下,而數(shù)學(xué)部分的錯誤率約為40%。
研究團(tuán)隊(duì)還特別關(guān)注了跨語言學(xué)習(xí)的效果。他們發(fā)現(xiàn),同時使用英語和俄語數(shù)據(jù)訓(xùn)練的模型在某些情況下比單語種模型表現(xiàn)更好,這種現(xiàn)象類似于雙語人士往往具有更強(qiáng)的語言理解能力。特別有趣的是,英語數(shù)據(jù)中包含的某些LaTeX符號(如?和^)在俄語數(shù)據(jù)中并不常見,但多語種模型能夠?qū)W會在俄語語境中正確使用這些符號。
在數(shù)據(jù)增強(qiáng)策略方面,研究團(tuán)隊(duì)發(fā)現(xiàn)人工標(biāo)注的數(shù)據(jù)雖然成本較高,但能夠顯著提升系統(tǒng)性能,特別是在處理真實(shí)人類語音時。相比之下,文本轉(zhuǎn)語音(TTS)技術(shù)生成的合成語音雖然有助于擴(kuò)大訓(xùn)練數(shù)據(jù)規(guī)模,但在某些細(xì)節(jié)處理上仍然無法完全替代人類的自然發(fā)音。這種差異就像手工制作的藝術(shù)品與機(jī)器生產(chǎn)的產(chǎn)品之間的區(qū)別,各有其價值和適用場景。
系統(tǒng)在實(shí)際應(yīng)用中表現(xiàn)出了令人鼓舞的魯棒性。即使在存在發(fā)音歧義的情況下,比如"kappa"可能對應(yīng)κ或κ兩種不同符號,或者"one over x plus two"可能表示1/(x+2)或1/x+2兩種不同含義時,系統(tǒng)仍然能夠生成語法正確的LaTeX代碼。這種能力就像一個經(jīng)驗(yàn)豐富的數(shù)學(xué)教師,即使學(xué)生的表述不夠準(zhǔn)確,也能夠理解其真實(shí)意圖。
研究團(tuán)隊(duì)還發(fā)現(xiàn)了一些有趣的現(xiàn)象。例如,當(dāng)訓(xùn)練數(shù)據(jù)中包含更多樣化的TTS聲音時,系統(tǒng)的泛化能力會顯著提升。這類似于學(xué)習(xí)外語時,接觸不同口音的說話者能夠提高整體的理解能力。另外,模型大小與性能之間的關(guān)系并非簡單的線性關(guān)系,1.5B參數(shù)的模型在某些任務(wù)上甚至超過了7B參數(shù)的大型模型,這主要是由于不同的訓(xùn)練策略導(dǎo)致的。
在技術(shù)細(xì)節(jié)方面,研究團(tuán)隊(duì)采用了一系列創(chuàng)新的數(shù)據(jù)預(yù)處理技術(shù)。他們開發(fā)了專門的LaTeX標(biāo)準(zhǔn)化程序,能夠?qū)⒉煌袷降臄?shù)學(xué)表達(dá)式轉(zhuǎn)換為統(tǒng)一的標(biāo)準(zhǔn)形式。這個過程就像將不同方言的文字轉(zhuǎn)換為標(biāo)準(zhǔn)普通話寫法,確保系統(tǒng)訓(xùn)練的一致性。通過這種標(biāo)準(zhǔn)化處理,系統(tǒng)的整體性能提升了約1個百分點(diǎn)。
評估過程中,研究團(tuán)隊(duì)特別注意到大小寫敏感性對結(jié)果的影響。在數(shù)學(xué)表達(dá)式中,φ和Φ代表完全不同的數(shù)學(xué)概念,因此準(zhǔn)確識別大小寫至關(guān)重要。令人欣慰的是,系統(tǒng)在這方面的表現(xiàn)相當(dāng)穩(wěn)定,大小寫相關(guān)的錯誤并未顯著影響整體性能,這表明訓(xùn)練數(shù)據(jù)的標(biāo)注質(zhì)量較高。
為了驗(yàn)證系統(tǒng)的實(shí)用性,研究團(tuán)隊(duì)在多個真實(shí)場景中進(jìn)行了測試。結(jié)果顯示,系統(tǒng)生成的LaTeX代碼有98-99.5%能夠成功編譯,這意味著絕大多數(shù)輸出都是語法正確的。失敗的案例主要涉及括號匹配錯誤等技術(shù)性問題,這些問題相對容易通過后處理步驟解決。
在與現(xiàn)有技術(shù)的比較中,研究團(tuán)隊(duì)的系統(tǒng)展現(xiàn)出了明顯優(yōu)勢。雖然MathSpeech系統(tǒng)在其自有測試集上略有優(yōu)勢(27.7%對30.0%的錯誤率),但在研究團(tuán)隊(duì)設(shè)計的更加全面的測試集上,新系統(tǒng)的性能明顯更優(yōu)(27.2%對64.0%的錯誤率)。這種差異主要源于測試數(shù)據(jù)的多樣性和復(fù)雜性不同,類似于在不同難度的考試中,學(xué)生的表現(xiàn)會有顯著差異。
研究還揭示了一些技術(shù)實(shí)現(xiàn)的關(guān)鍵細(xì)節(jié)。例如,在使用多個語音識別系統(tǒng)的輸出作為輸入時,系統(tǒng)性能并未如預(yù)期那樣提升,反而可能因?yàn)樾畔⑷哂喽档?。這個發(fā)現(xiàn)提醒我們,在復(fù)雜系統(tǒng)設(shè)計中,更多的輸入信息并不總是意味著更好的結(jié)果。
針對不同類型的數(shù)學(xué)表達(dá)式,系統(tǒng)的處理能力也存在差異。簡單的算術(shù)表達(dá)式和基礎(chǔ)代數(shù)公式的識別準(zhǔn)確率較高,而涉及多層嵌套或特殊符號的復(fù)雜表達(dá)式仍然具有挑戰(zhàn)性。這種現(xiàn)象類似于人類學(xué)習(xí)數(shù)學(xué)的過程,簡單概念往往更容易掌握,而復(fù)雜概念需要更多的練習(xí)和理解。
在多模態(tài)學(xué)習(xí)方面,SALMONN等端到端模型展現(xiàn)出了獨(dú)特的優(yōu)勢。這些模型能夠直接從音頻特征中提取數(shù)學(xué)語義信息,避免了語音識別錯誤的傳播。特別是在處理復(fù)雜的數(shù)學(xué)句子時,端到端模型的整體錯誤率達(dá)到了15-20%,明顯優(yōu)于分步處理方法的表現(xiàn)。
研究團(tuán)隊(duì)還探索了少樣本學(xué)習(xí)(few-shot learning)的可能性,即使用少量示例來指導(dǎo)模型處理新的數(shù)學(xué)表達(dá)式。結(jié)果顯示,雖然少樣本方法在某些簡單任務(wù)上能夠取得不錯的效果,但在復(fù)雜的數(shù)學(xué)轉(zhuǎn)換任務(wù)中,專門訓(xùn)練的模型仍然具有明顯優(yōu)勢。這個發(fā)現(xiàn)強(qiáng)調(diào)了專業(yè)化訓(xùn)練在特定領(lǐng)域應(yīng)用中的重要性。
在數(shù)據(jù)集設(shè)計方面,研究團(tuán)隊(duì)特別注重覆蓋數(shù)學(xué)教育的各個層次。從中學(xué)代數(shù)到研究生級別的高等數(shù)學(xué),從純數(shù)學(xué)理論到應(yīng)用物理公式,數(shù)據(jù)集力求全面反映數(shù)學(xué)語言的豐富性。這種設(shè)計理念就像編寫一本全面的數(shù)學(xué)詞典,確保各個領(lǐng)域的專業(yè)術(shù)語都能得到適當(dāng)?shù)母采w。
音頻質(zhì)量控制是整個項(xiàng)目的另一個重要方面。研究團(tuán)隊(duì)建立了嚴(yán)格的質(zhì)量審核機(jī)制,每個標(biāo)注者的錄音都需要經(jīng)過專業(yè)審核,錯誤率超過15%的錄音會被排除在訓(xùn)練數(shù)據(jù)之外。這種嚴(yán)格的質(zhì)量控制措施確保了最終數(shù)據(jù)集的高質(zhì)量,為模型訓(xùn)練提供了可靠的基礎(chǔ)。
在實(shí)際應(yīng)用前景方面,這項(xiàng)研究為自動化教育技術(shù)開辟了新的可能性。未來的在線教育平臺可能會集成這種技術(shù),自動將教師的數(shù)學(xué)講解轉(zhuǎn)換為標(biāo)準(zhǔn)的電子文檔。學(xué)術(shù)會議的實(shí)時轉(zhuǎn)錄系統(tǒng)也可能受益于這項(xiàng)技術(shù),使得復(fù)雜的數(shù)學(xué)演講能夠被準(zhǔn)確記錄和分享。
研究團(tuán)隊(duì)也誠實(shí)地討論了當(dāng)前系統(tǒng)的局限性。在處理高度模糊或上下文依賴的數(shù)學(xué)表達(dá)式時,系統(tǒng)仍然可能出現(xiàn)誤解。另外,對于某些特殊的數(shù)學(xué)符號或非標(biāo)準(zhǔn)的表達(dá)方式,系統(tǒng)的處理能力還有待提升。這些問題的解決需要更大規(guī)模的數(shù)據(jù)收集和更精細(xì)的模型設(shè)計。
從技術(shù)發(fā)展的角度來看,這項(xiàng)研究代表了人工智能在數(shù)學(xué)理解領(lǐng)域的重要進(jìn)步。它不僅解決了一個具體的技術(shù)問題,更重要的是為人機(jī)交互在專業(yè)領(lǐng)域的應(yīng)用提供了新的思路。隨著技術(shù)的不斷改進(jìn),我們可以期待看到更多類似的突破性應(yīng)用。
整個研究項(xiàng)目的開源性質(zhì)也值得特別關(guān)注。研究團(tuán)隊(duì)將完整的數(shù)據(jù)集和訓(xùn)練代碼公開發(fā)布,這種做法有助于推動整個研究社區(qū)的發(fā)展,讓更多研究者能夠在此基礎(chǔ)上進(jìn)行改進(jìn)和創(chuàng)新。這種開放的研究態(tài)度體現(xiàn)了現(xiàn)代科學(xué)研究的協(xié)作精神。
Q&A
Q1:Speech-to-LaTeX技術(shù)是什么?它能解決什么問題?
A:Speech-to-LaTeX是一種能夠?qū)⑷祟惪谑龅臄?shù)學(xué)表達(dá)式自動轉(zhuǎn)換為標(biāo)準(zhǔn)LaTeX數(shù)學(xué)格式的人工智能技術(shù)。它主要解決了傳統(tǒng)語音識別系統(tǒng)無法準(zhǔn)確處理數(shù)學(xué)語言的問題,比如當(dāng)老師說"x的平方加y等于5"時,系統(tǒng)能準(zhǔn)確轉(zhuǎn)換為$x^2+y=5$的標(biāo)準(zhǔn)格式。
Q2:這個系統(tǒng)的準(zhǔn)確率如何?普通人使用效果怎么樣?
A:系統(tǒng)在處理孤立數(shù)學(xué)表達(dá)式時的字符錯誤率為27-30%,在處理包含數(shù)學(xué)的完整句子時,文本部分錯誤率約10%,數(shù)學(xué)部分約40%。雖然看起來錯誤率不低,但考慮到數(shù)學(xué)語言的復(fù)雜性和歧義性,這已經(jīng)是相當(dāng)不錯的表現(xiàn),生成的LaTeX代碼有98-99.5%都能成功編譯。
Q3:這項(xiàng)技術(shù)未來會如何應(yīng)用到實(shí)際生活中?
A:這項(xiàng)技術(shù)有很多實(shí)用價值,比如在線教育平臺可以自動將數(shù)學(xué)老師的講課轉(zhuǎn)換成標(biāo)準(zhǔn)電子文檔,學(xué)術(shù)會議可以實(shí)時轉(zhuǎn)錄包含復(fù)雜數(shù)學(xué)公式的演講,研究人員也能更方便地記錄和分享數(shù)學(xué)思路。隨著技術(shù)改進(jìn),它將讓數(shù)學(xué)交流變得更加便捷高效。
好文章,需要你的鼓勵
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學(xué)習(xí)外觀和運(yùn)動信息,顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運(yùn)動質(zhì)量,在多項(xiàng)測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報,準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。