這項由阿聯(lián)酋穆罕默德·本·扎耶德人工智能大學(xué)(MBZUAI)的Fan Zhou、Zengzhi Wang等研究團隊完成的突破性研究發(fā)表于2025年4月,論文標(biāo)題為"MegaMath: Pushing the Limits of Open Math Corpora"。有興趣深入了解的讀者可以通過https://hf.co/datasets/LLM360/MegaMath和https://github.com/LLM360/MegaMath訪問完整數(shù)據(jù)集和代碼。
要理解這項研究的重要性,我們可以把大型語言模型(LLM)比作一個正在學(xué)習(xí)的學(xué)生。就像學(xué)生需要大量高質(zhì)量的教科書和練習(xí)題來掌握數(shù)學(xué)知識一樣,AI模型也需要海量的優(yōu)質(zhì)數(shù)學(xué)文本數(shù)據(jù)來提升數(shù)學(xué)推理能力。然而,目前的情況就像是數(shù)學(xué)老師們發(fā)現(xiàn)市面上缺乏足夠好的數(shù)學(xué)教材——現(xiàn)有的開源數(shù)學(xué)數(shù)據(jù)集不僅規(guī)模太小,質(zhì)量也參差不齊,遠遠無法滿足訓(xùn)練頂級數(shù)學(xué)AI的需求。
近期諸如OpenAI的o1和DeepSeek-R1等AI模型在數(shù)學(xué)競賽中表現(xiàn)驚人,但它們的成功很大程度上依賴于大規(guī)模的高質(zhì)量數(shù)學(xué)預(yù)訓(xùn)練數(shù)據(jù)。比如DeepSeekMath使用了1200億個Token的數(shù)學(xué)數(shù)據(jù),而Qwen-2.5-Math更是使用了1萬億個Token。相比之下,現(xiàn)有的開源數(shù)學(xué)數(shù)據(jù)集規(guī)模最大的也只有幾百億Token,質(zhì)量也難以保證。這種情況就像是公立學(xué)校的學(xué)生只能使用質(zhì)量一般的教科書,而私立學(xué)校的學(xué)生卻擁有精裝版的高質(zhì)量教材一樣。
為了解決這個問題,MBZUAI的研究團隊就像是一群教育專家,決定親自編寫一套史上最全面的數(shù)學(xué)教材集。他們創(chuàng)建了MegaMath數(shù)據(jù)集,這是一個包含3716億個Token的巨大數(shù)學(xué)文本庫——相當(dāng)于把全世界最好的數(shù)學(xué)教科書、習(xí)題集、代碼示例都搜集起來,整理成一個超級數(shù)學(xué)圖書館。
這個數(shù)據(jù)集的規(guī)模之大令人震撼。如果我們把一個Token比作一個英文單詞,那么3716億個Token大約相當(dāng)于7400多億個英文單詞。以普通人每分鐘閱讀200個單詞的速度計算,一個人不眠不休地閱讀這個數(shù)據(jù)集需要大約700萬年。這個數(shù)據(jù)集不僅在規(guī)模上創(chuàng)造了開源數(shù)學(xué)數(shù)據(jù)的新紀(jì)錄,更重要的是,研究團隊在構(gòu)建過程中采用了極其嚴(yán)格的質(zhì)量控制標(biāo)準(zhǔn)。
MegaMath數(shù)據(jù)集就像一個精心設(shè)計的三層建筑。底層是MegaMath-Web,包含2790億個Token的網(wǎng)頁數(shù)學(xué)內(nèi)容,這就像是從整個互聯(lián)網(wǎng)上精選出來的數(shù)學(xué)相關(guān)文章和教程。中層是MegaMath-Code,包含281億個Token的數(shù)學(xué)相關(guān)代碼,這相當(dāng)于收集了全世界程序員編寫的與數(shù)學(xué)計算相關(guān)的代碼。頂層是MegaMath-Synth,包含645億個Token的人工合成數(shù)學(xué)數(shù)據(jù),這就像是讓AI自己創(chuàng)造出更多高質(zhì)量的數(shù)學(xué)問題和解答。
在構(gòu)建網(wǎng)頁數(shù)據(jù)部分時,研究團隊面臨了一個巨大挑戰(zhàn):傳統(tǒng)的網(wǎng)頁文本提取工具在處理數(shù)學(xué)內(nèi)容時表現(xiàn)很差,經(jīng)常會丟失重要的數(shù)學(xué)公式和符號。這就像是用普通的復(fù)印機去復(fù)制數(shù)學(xué)教科書,結(jié)果所有的數(shù)學(xué)公式都變成了亂碼。為了解決這個問題,團隊開發(fā)了專門的數(shù)學(xué)內(nèi)容提取技術(shù),能夠?qū)⒕W(wǎng)頁中的數(shù)學(xué)公式正確地轉(zhuǎn)換為LaTeX格式保存下來。
他們采用了一種"粗篩選后精加工"的兩階段策略。首先使用快速但略顯粗糙的Resiliparse工具進行初步提取和篩選,這就像是先用大網(wǎng)撈魚,把大致符合要求的內(nèi)容收集起來。然后再使用更精細但處理速度較慢的trafilatura工具進行二次加工,這就像是用細網(wǎng)進行精選,確保最終得到的都是高質(zhì)量的數(shù)學(xué)內(nèi)容。
為了確保數(shù)據(jù)質(zhì)量,研究團隊還開發(fā)了一個智能篩選系統(tǒng)。他們使用fastText分類器來識別數(shù)學(xué)相關(guān)的文本,這個分類器經(jīng)過精心訓(xùn)練,能夠準(zhǔn)確判斷一篇文章是否包含有價值的數(shù)學(xué)內(nèi)容。這就像是雇傭了一位經(jīng)驗豐富的數(shù)學(xué)老師,專門負責(zé)從海量文獻中挑選出真正有用的數(shù)學(xué)教材。
在處理代碼數(shù)據(jù)時,團隊從Stack V2代碼庫中精選出與數(shù)學(xué)相關(guān)的代碼片段。他們選擇了11種主要編程語言,包括Python、Java、C++等,這些語言在科學(xué)計算和數(shù)學(xué)建模中應(yīng)用廣泛。為了確保代碼質(zhì)量,他們使用大型語言模型對代碼進行評分,然后訓(xùn)練一個小型模型來大規(guī)模篩選高質(zhì)量的數(shù)學(xué)代碼。這個過程就像是讓編程專家先評估一批代碼樣本,然后培訓(xùn)一個助手去處理更大量的代碼庫。
合成數(shù)據(jù)的生成展現(xiàn)了現(xiàn)代AI技術(shù)的強大能力。研究團隊使用先進的語言模型從網(wǎng)頁文檔中提取問答對,然后對這些問答進行精細化處理,確保解答過程清晰完整。他們還將其他編程語言的數(shù)學(xué)代碼翻譯成Python,并生成了包含文本和代碼塊的混合數(shù)據(jù)。這就像是讓AI成為一個全能的數(shù)學(xué)老師,既能出題也能解題,既能用不同的編程語言編寫程序,也能將復(fù)雜的數(shù)學(xué)概念用通俗易懂的方式解釋出來。
為了驗證數(shù)據(jù)集的效果,研究團隊進行了大量的實驗。他們使用TinyLlama-1B作為測試模型,在多個數(shù)學(xué)基準(zhǔn)測試上評估性能。結(jié)果顯示,使用MegaMath數(shù)據(jù)訓(xùn)練的模型在GSM8K、MATH等主流數(shù)學(xué)測試中表現(xiàn)顯著優(yōu)于使用其他數(shù)據(jù)集訓(xùn)練的模型。這就像是用他們編寫的教材培養(yǎng)出來的學(xué)生在數(shù)學(xué)考試中取得了更好的成績。
更令人印象深刻的是,當(dāng)研究團隊將MegaMath數(shù)據(jù)集應(yīng)用于最新的Llama-3.2系列模型時,結(jié)果顯示出了驚人的提升。以Llama-3.2-3B模型為例,使用MegaMath數(shù)據(jù)集訓(xùn)練后,該模型在GSM8K數(shù)學(xué)測試中的準(zhǔn)確率從30.1%提升到了56.2%,在MATH測試中的準(zhǔn)確率從9.2%提升到了25.1%。這種提升程度就像是一個數(shù)學(xué)成績平平的學(xué)生通過使用優(yōu)質(zhì)教材,在短時間內(nèi)成績突飛猛進,達到了數(shù)學(xué)競賽的水平。
研究團隊還特別關(guān)注了數(shù)據(jù)質(zhì)量的控制。他們開發(fā)了MegaMath-Web-Pro,這是一個經(jīng)過特別篩選和優(yōu)化的高質(zhì)量子集,包含151億個Token。這個子集就像是從整個圖書館中精選出來的經(jīng)典教材,雖然數(shù)量相對較少,但質(zhì)量極高,特別適合模型訓(xùn)練的后期階段使用。
在代碼數(shù)據(jù)的處理上,研究團隊發(fā)現(xiàn)了一個有趣的現(xiàn)象:嚴(yán)格的篩選標(biāo)準(zhǔn)能夠顯著提升模型使用代碼解決數(shù)學(xué)問題的能力,而且代碼數(shù)據(jù)的比例不應(yīng)超過總數(shù)據(jù)的20%,這樣既能保持代碼輔助解題的優(yōu)勢,又不會損害模型的自然語言推理能力。這就像是在數(shù)學(xué)教學(xué)中,適量的編程練習(xí)能夠幫助學(xué)生更好地理解數(shù)學(xué)概念,但如果編程練習(xí)過多,反而會分散學(xué)生對數(shù)學(xué)理論的注意力。
為了確保數(shù)據(jù)的原創(chuàng)性和避免測試污染,研究團隊還實施了嚴(yán)格的去重和去污染措施。他們使用MinHash算法進行文檔級別的去重,并檢查數(shù)據(jù)集與12個下游數(shù)學(xué)基準(zhǔn)測試的重疊情況,確保訓(xùn)練數(shù)據(jù)不包含測試題目。這就像是確保教材中的練習(xí)題不會與期末考試題目重復(fù),保證了評估結(jié)果的公正性。
從技術(shù)創(chuàng)新的角度來看,MegaMath的貢獻不僅在于數(shù)據(jù)規(guī)模的突破,更在于數(shù)據(jù)處理流程的系統(tǒng)性創(chuàng)新。研究團隊在HTML數(shù)學(xué)內(nèi)容提取、多語言代碼篩選、合成數(shù)據(jù)生成等多個環(huán)節(jié)都提出了新的解決方案。這些技術(shù)創(chuàng)新就像是發(fā)明了新的印刷術(shù),不僅能夠更好地保存和傳播數(shù)學(xué)知識,還能夠創(chuàng)造出前所未有的高質(zhì)量數(shù)學(xué)教育資源。
這項研究的影響遠不止于學(xué)術(shù)界。隨著MegaMath數(shù)據(jù)集的開源發(fā)布,全世界的研究者和開發(fā)者都可以使用這個資源來訓(xùn)練自己的數(shù)學(xué)AI模型。這就像是把一個世界級的數(shù)學(xué)圖書館免費開放給所有人使用,必將推動整個人工智能領(lǐng)域在數(shù)學(xué)推理方面的快速發(fā)展。
值得注意的是,這項研究還為未來的數(shù)據(jù)集構(gòu)建提供了重要的方法論參考。研究團隊詳細記錄了每個處理步驟的設(shè)計決策和實驗結(jié)果,這些經(jīng)驗對于其他研究者構(gòu)建類似的大規(guī)模數(shù)據(jù)集具有重要的指導(dǎo)意義。他們的工作就像是為后來者繪制了一張詳細的地圖,指明了如何在數(shù)據(jù)質(zhì)量和處理效率之間找到最佳平衡點。
從更廣闊的視角來看,MegaMath數(shù)據(jù)集的出現(xiàn)標(biāo)志著AI數(shù)學(xué)能力發(fā)展的一個重要里程碑。它不僅縮小了開源模型與閉源模型在數(shù)學(xué)推理能力上的差距,也為教育、科研、工程等領(lǐng)域的AI應(yīng)用提供了強大的基礎(chǔ)支撐。當(dāng)AI能夠更好地理解和處理數(shù)學(xué)問題時,它在科學(xué)計算、工程設(shè)計、金融分析等領(lǐng)域的應(yīng)用潛力將得到極大釋放。
總的來說,MBZUAI研究團隊的這項工作不僅在技術(shù)層面實現(xiàn)了突破,更在推動AI民主化方面做出了重要貢獻。通過開源這個史上最大的數(shù)學(xué)訓(xùn)練數(shù)據(jù)集,他們?yōu)槿虻腁I研究者和開發(fā)者提供了一個強大的工具,這必將加速AI在數(shù)學(xué)推理領(lǐng)域的發(fā)展,并最終惠及更多的用戶和應(yīng)用場景。
Q&A
Q1:MegaMath數(shù)據(jù)集到底有多大?它包含什么內(nèi)容? A:MegaMath數(shù)據(jù)集包含3716億個Token,相當(dāng)于7400多億個英文單詞。它包含三個主要部分:2790億Token的網(wǎng)頁數(shù)學(xué)內(nèi)容、281億Token的數(shù)學(xué)相關(guān)代碼,以及645億Token的AI合成數(shù)學(xué)數(shù)據(jù)。這是目前最大的開源數(shù)學(xué)訓(xùn)練數(shù)據(jù)集,比之前的數(shù)據(jù)集大了數(shù)十倍。
Q2:使用MegaMath訓(xùn)練的AI模型會不會比現(xiàn)有模型更強? A:是的,實驗結(jié)果顯示效果顯著。比如Llama-3.2-3B模型使用MegaMath訓(xùn)練后,在GSM8K數(shù)學(xué)測試中的準(zhǔn)確率從30.1%提升到56.2%,在MATH測試中從9.2%提升到25.1%。這種提升程度在AI領(lǐng)域是非常罕見的。
Q3:普通開發(fā)者如何使用MegaMath數(shù)據(jù)集?有什么要求? A:MegaMath數(shù)據(jù)集完全開源,任何人都可以通過https://hf.co/datasets/LLM360/MegaMath免費下載使用。不過由于數(shù)據(jù)量巨大,需要有足夠的存儲空間和計算資源。研究團隊還提供了詳細的使用指南和代碼,降低了使用門檻。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機制和漸進式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學(xué)習(xí)外觀和運動信息,顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報,準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。