av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<style id="af8kl"></style>

微信掃一掃，關(guān)注公眾號

科技行者
算力行者

見證連接與計算的「力量」

MegaMath：MBZUAI研究團隊打造出史上最大開源數(shù)學(xué)訓(xùn)練數(shù)據(jù)集，3700億Token讓AI數(shù)學(xué)能力飛躍

數(shù)據(jù)集構(gòu)建數(shù)學(xué)推理人工智能

MegaMath：MBZUAI研究團隊打造出史上最大開源數(shù)學(xué)訓(xùn)練數(shù)據(jù)集，3700億Token讓AI數(shù)學(xué)能力飛躍

作者：科技行者

2025-07-17 13:58

分享至：

MBZUAI研究團隊發(fā)布了史上最大的開源數(shù)學(xué)訓(xùn)練數(shù)據(jù)集MegaMath，包含3716億個Token，是現(xiàn)有開源數(shù)學(xué)數(shù)據(jù)集的數(shù)十倍。該數(shù)據(jù)集通過創(chuàng)新的數(shù)據(jù)處理技術(shù)，從網(wǎng)頁、代碼庫和AI合成等多個來源收集高質(zhì)量數(shù)學(xué)內(nèi)容。實驗顯示，使用MegaMath訓(xùn)練的AI模型在數(shù)學(xué)推理任務(wù)上性能顯著提升，為AI數(shù)學(xué)能力發(fā)展提供了強大支撐。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-07-17 13:58 ? 科技行者

這項由阿聯(lián)酋穆罕默德·本·扎耶德人工智能大學(xué)（MBZUAI）的Fan Zhou、Zengzhi Wang等研究團隊完成的突破性研究發(fā)表于2025年4月，論文標(biāo)題為"MegaMath: Pushing the Limits of Open Math Corpora"。有興趣深入了解的讀者可以通過https://hf.co/datasets/LLM360/MegaMath和https://github.com/LLM360/MegaMath訪問完整數(shù)據(jù)集和代碼。

要理解這項研究的重要性，我們可以把大型語言模型（LLM）比作一個正在學(xué)習(xí)的學(xué)生。就像學(xué)生需要大量高質(zhì)量的教科書和練習(xí)題來掌握數(shù)學(xué)知識一樣，AI模型也需要海量的優(yōu)質(zhì)數(shù)學(xué)文本數(shù)據(jù)來提升數(shù)學(xué)推理能力。然而，目前的情況就像是數(shù)學(xué)老師們發(fā)現(xiàn)市面上缺乏足夠好的數(shù)學(xué)教材——現(xiàn)有的開源數(shù)學(xué)數(shù)據(jù)集不僅規(guī)模太小，質(zhì)量也參差不齊，遠遠無法滿足訓(xùn)練頂級數(shù)學(xué)AI的需求。

近期諸如OpenAI的o1和DeepSeek-R1等AI模型在數(shù)學(xué)競賽中表現(xiàn)驚人，但它們的成功很大程度上依賴于大規(guī)模的高質(zhì)量數(shù)學(xué)預(yù)訓(xùn)練數(shù)據(jù)。比如DeepSeekMath使用了1200億個Token的數(shù)學(xué)數(shù)據(jù)，而Qwen-2.5-Math更是使用了1萬億個Token。相比之下，現(xiàn)有的開源數(shù)學(xué)數(shù)據(jù)集規(guī)模最大的也只有幾百億Token，質(zhì)量也難以保證。這種情況就像是公立學(xué)校的學(xué)生只能使用質(zhì)量一般的教科書，而私立學(xué)校的學(xué)生卻擁有精裝版的高質(zhì)量教材一樣。

為了解決這個問題，MBZUAI的研究團隊就像是一群教育專家，決定親自編寫一套史上最全面的數(shù)學(xué)教材集。他們創(chuàng)建了MegaMath數(shù)據(jù)集，這是一個包含3716億個Token的巨大數(shù)學(xué)文本庫——相當(dāng)于把全世界最好的數(shù)學(xué)教科書、習(xí)題集、代碼示例都搜集起來，整理成一個超級數(shù)學(xué)圖書館。

這個數(shù)據(jù)集的規(guī)模之大令人震撼。如果我們把一個Token比作一個英文單詞，那么3716億個Token大約相當(dāng)于7400多億個英文單詞。以普通人每分鐘閱讀200個單詞的速度計算，一個人不眠不休地閱讀這個數(shù)據(jù)集需要大約700萬年。這個數(shù)據(jù)集不僅在規(guī)模上創(chuàng)造了開源數(shù)學(xué)數(shù)據(jù)的新紀(jì)錄，更重要的是，研究團隊在構(gòu)建過程中采用了極其嚴(yán)格的質(zhì)量控制標(biāo)準(zhǔn)。

MegaMath數(shù)據(jù)集就像一個精心設(shè)計的三層建筑。底層是MegaMath-Web，包含2790億個Token的網(wǎng)頁數(shù)學(xué)內(nèi)容，這就像是從整個互聯(lián)網(wǎng)上精選出來的數(shù)學(xué)相關(guān)文章和教程。中層是MegaMath-Code，包含281億個Token的數(shù)學(xué)相關(guān)代碼，這相當(dāng)于收集了全世界程序員編寫的與數(shù)學(xué)計算相關(guān)的代碼。頂層是MegaMath-Synth，包含645億個Token的人工合成數(shù)學(xué)數(shù)據(jù)，這就像是讓AI自己創(chuàng)造出更多高質(zhì)量的數(shù)學(xué)問題和解答。

在構(gòu)建網(wǎng)頁數(shù)據(jù)部分時，研究團隊面臨了一個巨大挑戰(zhàn)：傳統(tǒng)的網(wǎng)頁文本提取工具在處理數(shù)學(xué)內(nèi)容時表現(xiàn)很差，經(jīng)常會丟失重要的數(shù)學(xué)公式和符號。這就像是用普通的復(fù)印機去復(fù)制數(shù)學(xué)教科書，結(jié)果所有的數(shù)學(xué)公式都變成了亂碼。為了解決這個問題，團隊開發(fā)了專門的數(shù)學(xué)內(nèi)容提取技術(shù)，能夠?qū)⒕W(wǎng)頁中的數(shù)學(xué)公式正確地轉(zhuǎn)換為LaTeX格式保存下來。

他們采用了一種"粗篩選后精加工"的兩階段策略。首先使用快速但略顯粗糙的Resiliparse工具進行初步提取和篩選，這就像是先用大網(wǎng)撈魚，把大致符合要求的內(nèi)容收集起來。然后再使用更精細但處理速度較慢的trafilatura工具進行二次加工，這就像是用細網(wǎng)進行精選，確保最終得到的都是高質(zhì)量的數(shù)學(xué)內(nèi)容。

為了確保數(shù)據(jù)質(zhì)量，研究團隊還開發(fā)了一個智能篩選系統(tǒng)。他們使用fastText分類器來識別數(shù)學(xué)相關(guān)的文本，這個分類器經(jīng)過精心訓(xùn)練，能夠準(zhǔn)確判斷一篇文章是否包含有價值的數(shù)學(xué)內(nèi)容。這就像是雇傭了一位經(jīng)驗豐富的數(shù)學(xué)老師，專門負責(zé)從海量文獻中挑選出真正有用的數(shù)學(xué)教材。

在處理代碼數(shù)據(jù)時，團隊從Stack V2代碼庫中精選出與數(shù)學(xué)相關(guān)的代碼片段。他們選擇了11種主要編程語言，包括Python、Java、C++等，這些語言在科學(xué)計算和數(shù)學(xué)建模中應(yīng)用廣泛。為了確保代碼質(zhì)量，他們使用大型語言模型對代碼進行評分，然后訓(xùn)練一個小型模型來大規(guī)模篩選高質(zhì)量的數(shù)學(xué)代碼。這個過程就像是讓編程專家先評估一批代碼樣本，然后培訓(xùn)一個助手去處理更大量的代碼庫。

合成數(shù)據(jù)的生成展現(xiàn)了現(xiàn)代AI技術(shù)的強大能力。研究團隊使用先進的語言模型從網(wǎng)頁文檔中提取問答對，然后對這些問答進行精細化處理，確保解答過程清晰完整。他們還將其他編程語言的數(shù)學(xué)代碼翻譯成Python，并生成了包含文本和代碼塊的混合數(shù)據(jù)。這就像是讓AI成為一個全能的數(shù)學(xué)老師，既能出題也能解題，既能用不同的編程語言編寫程序，也能將復(fù)雜的數(shù)學(xué)概念用通俗易懂的方式解釋出來。

為了驗證數(shù)據(jù)集的效果，研究團隊進行了大量的實驗。他們使用TinyLlama-1B作為測試模型，在多個數(shù)學(xué)基準(zhǔn)測試上評估性能。結(jié)果顯示，使用MegaMath數(shù)據(jù)訓(xùn)練的模型在GSM8K、MATH等主流數(shù)學(xué)測試中表現(xiàn)顯著優(yōu)于使用其他數(shù)據(jù)集訓(xùn)練的模型。這就像是用他們編寫的教材培養(yǎng)出來的學(xué)生在數(shù)學(xué)考試中取得了更好的成績。

更令人印象深刻的是，當(dāng)研究團隊將MegaMath數(shù)據(jù)集應(yīng)用于最新的Llama-3.2系列模型時，結(jié)果顯示出了驚人的提升。以Llama-3.2-3B模型為例，使用MegaMath數(shù)據(jù)集訓(xùn)練后，該模型在GSM8K數(shù)學(xué)測試中的準(zhǔn)確率從30.1%提升到了56.2%，在MATH測試中的準(zhǔn)確率從9.2%提升到了25.1%。這種提升程度就像是一個數(shù)學(xué)成績平平的學(xué)生通過使用優(yōu)質(zhì)教材，在短時間內(nèi)成績突飛猛進，達到了數(shù)學(xué)競賽的水平。

研究團隊還特別關(guān)注了數(shù)據(jù)質(zhì)量的控制。他們開發(fā)了MegaMath-Web-Pro，這是一個經(jīng)過特別篩選和優(yōu)化的高質(zhì)量子集，包含151億個Token。這個子集就像是從整個圖書館中精選出來的經(jīng)典教材，雖然數(shù)量相對較少，但質(zhì)量極高，特別適合模型訓(xùn)練的后期階段使用。

在代碼數(shù)據(jù)的處理上，研究團隊發(fā)現(xiàn)了一個有趣的現(xiàn)象：嚴(yán)格的篩選標(biāo)準(zhǔn)能夠顯著提升模型使用代碼解決數(shù)學(xué)問題的能力，而且代碼數(shù)據(jù)的比例不應(yīng)超過總數(shù)據(jù)的20%，這樣既能保持代碼輔助解題的優(yōu)勢，又不會損害模型的自然語言推理能力。這就像是在數(shù)學(xué)教學(xué)中，適量的編程練習(xí)能夠幫助學(xué)生更好地理解數(shù)學(xué)概念，但如果編程練習(xí)過多，反而會分散學(xué)生對數(shù)學(xué)理論的注意力。

為了確保數(shù)據(jù)的原創(chuàng)性和避免測試污染，研究團隊還實施了嚴(yán)格的去重和去污染措施。他們使用MinHash算法進行文檔級別的去重，并檢查數(shù)據(jù)集與12個下游數(shù)學(xué)基準(zhǔn)測試的重疊情況，確保訓(xùn)練數(shù)據(jù)不包含測試題目。這就像是確保教材中的練習(xí)題不會與期末考試題目重復(fù)，保證了評估結(jié)果的公正性。

從技術(shù)創(chuàng)新的角度來看，MegaMath的貢獻不僅在于數(shù)據(jù)規(guī)模的突破，更在于數(shù)據(jù)處理流程的系統(tǒng)性創(chuàng)新。研究團隊在HTML數(shù)學(xué)內(nèi)容提取、多語言代碼篩選、合成數(shù)據(jù)生成等多個環(huán)節(jié)都提出了新的解決方案。這些技術(shù)創(chuàng)新就像是發(fā)明了新的印刷術(shù)，不僅能夠更好地保存和傳播數(shù)學(xué)知識，還能夠創(chuàng)造出前所未有的高質(zhì)量數(shù)學(xué)教育資源。

這項研究的影響遠不止于學(xué)術(shù)界。隨著MegaMath數(shù)據(jù)集的開源發(fā)布，全世界的研究者和開發(fā)者都可以使用這個資源來訓(xùn)練自己的數(shù)學(xué)AI模型。這就像是把一個世界級的數(shù)學(xué)圖書館免費開放給所有人使用，必將推動整個人工智能領(lǐng)域在數(shù)學(xué)推理方面的快速發(fā)展。

值得注意的是，這項研究還為未來的數(shù)據(jù)集構(gòu)建提供了重要的方法論參考。研究團隊詳細記錄了每個處理步驟的設(shè)計決策和實驗結(jié)果，這些經(jīng)驗對于其他研究者構(gòu)建類似的大規(guī)模數(shù)據(jù)集具有重要的指導(dǎo)意義。他們的工作就像是為后來者繪制了一張詳細的地圖，指明了如何在數(shù)據(jù)質(zhì)量和處理效率之間找到最佳平衡點。

從更廣闊的視角來看，MegaMath數(shù)據(jù)集的出現(xiàn)標(biāo)志著AI數(shù)學(xué)能力發(fā)展的一個重要里程碑。它不僅縮小了開源模型與閉源模型在數(shù)學(xué)推理能力上的差距，也為教育、科研、工程等領(lǐng)域的AI應(yīng)用提供了強大的基礎(chǔ)支撐。當(dāng)AI能夠更好地理解和處理數(shù)學(xué)問題時，它在科學(xué)計算、工程設(shè)計、金融分析等領(lǐng)域的應(yīng)用潛力將得到極大釋放。

總的來說，MBZUAI研究團隊的這項工作不僅在技術(shù)層面實現(xiàn)了突破，更在推動AI民主化方面做出了重要貢獻。通過開源這個史上最大的數(shù)學(xué)訓(xùn)練數(shù)據(jù)集，他們?yōu)槿虻腁I研究者和開發(fā)者提供了一個強大的工具，這必將加速AI在數(shù)學(xué)推理領(lǐng)域的發(fā)展，并最終惠及更多的用戶和應(yīng)用場景。

Q&A

Q1：MegaMath數(shù)據(jù)集到底有多大？它包含什么內(nèi)容？ A：MegaMath數(shù)據(jù)集包含3716億個Token，相當(dāng)于7400多億個英文單詞。它包含三個主要部分：2790億Token的網(wǎng)頁數(shù)學(xué)內(nèi)容、281億Token的數(shù)學(xué)相關(guān)代碼，以及645億Token的AI合成數(shù)學(xué)數(shù)據(jù)。這是目前最大的開源數(shù)學(xué)訓(xùn)練數(shù)據(jù)集，比之前的數(shù)據(jù)集大了數(shù)十倍。

Q2：使用MegaMath訓(xùn)練的AI模型會不會比現(xiàn)有模型更強？ A：是的，實驗結(jié)果顯示效果顯著。比如Llama-3.2-3B模型使用MegaMath訓(xùn)練后，在GSM8K數(shù)學(xué)測試中的準(zhǔn)確率從30.1%提升到56.2%，在MATH測試中從9.2%提升到25.1%。這種提升程度在AI領(lǐng)域是非常罕見的。

Q3：普通開發(fā)者如何使用MegaMath數(shù)據(jù)集？有什么要求？ A：MegaMath數(shù)據(jù)集完全開源，任何人都可以通過https://hf.co/datasets/LLM360/MegaMath免費下載使用。不過由于數(shù)據(jù)量巨大，需要有足夠的存儲空間和計算資源。研究團隊還提供了詳細的使用指南和代碼，降低了使用門檻。

數(shù)據(jù)集構(gòu)建數(shù)學(xué)推理人工智能

分享至

0贊

好文章，需要你的鼓勵

推薦文章

音頻生成
大語言模型
多模態(tài)AI

2025-09-10 09:47

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實驗室團隊AudioStory突破性進展

騰訊ARC實驗室推出AudioStory系統(tǒng)，首次實現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù)，通過交錯式推理生成、解耦橋接機制和漸進式訓(xùn)練，能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異，為AI音頻創(chuàng)作開辟新方向。
視頻生成
深度學(xué)習(xí)
多模態(tài)學(xué)習(xí)

2025-09-09 13:57

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù)，通過讓AI同時學(xué)習(xí)外觀和運動信息，顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運動質(zhì)量，在多項測試中超越包括Sora在內(nèi)的商業(yè)模型，為AI視頻生成的實用化應(yīng)用奠定了重要基礎(chǔ)。
多模態(tài)AI
人類價值觀對齊
數(shù)據(jù)集構(gòu)建

2025-09-09 13:56

上海AI實驗室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價值觀對齊難題

上海AI實驗室發(fā)布OmniAlign-V研究，首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn)，通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法，讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平，為AI價值觀對齊提供了可行技術(shù)路徑。
人工智能
圖神經(jīng)網(wǎng)絡(luò)
天氣預(yù)報

2025-09-09 10:56

谷歌研究團隊發(fā)布超級預(yù)測模型：讓AI像天氣預(yù)報員一樣預(yù)測全球大氣變化

谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型，能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報，準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù)，通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律，在極端天氣預(yù)測方面表現(xiàn)卓越，能耗僅為傳統(tǒng)方法的千分之一，為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實驗室團隊AudioStory突破性進展

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實驗室團隊AudioStory突破性進展

2025-09-10 09:47

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

2025-09-09 13:57

上海AI實驗室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價值觀對齊難題

上海AI實驗室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價值觀對齊難題

2025-09-09 13:56

谷歌研究團隊發(fā)布超級預(yù)測模型：讓AI像天氣預(yù)報員一樣預(yù)測全球大氣變化

谷歌研究團隊發(fā)布超級預(yù)測模型：讓AI像天氣預(yù)報員一樣預(yù)測全球大氣變化

2025-09-09 10:56

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時代

京ICP證15039648號京ICP備15039648號-9 京公網(wǎng)安備 11010802021500號

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報電話：010-62641205　涉未成年人舉報專線：010-62641208 舉報郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報專區(qū)：https://www.12377.cn

<sub id="vzpip"></sub>

<s id="vzpip"></s>

<abbr id="vzpip"></abbr>