這項由MiniMax公司研究團隊發(fā)表于2025年6月的突破性研究,介紹了世界首個開源的大規(guī)?;旌献⒁饬ν评砟P蚆iniMax-M1。這份發(fā)表在arXiv平臺的論文(編號:arXiv:2506.13585v1),為有興趣深入了解的讀者提供了完整的技術(shù)細節(jié)和實驗數(shù)據(jù)。
當我們談?wù)撊斯ぶ悄艿?思考"過程時,就像人類解決復(fù)雜數(shù)學(xué)題需要在草稿紙上寫下很多推理步驟一樣,AI模型也需要生成大量的"思考文本"來解決難題。然而,傳統(tǒng)的AI架構(gòu)就像用昂貴的高檔紙張寫草稿——每多寫一個字都要付出巨大的計算成本。MiniMax-M1的突破就在于發(fā)明了一種"經(jīng)濟型草稿紙",讓AI能夠以更低的成本進行更長時間的思考。
MiniMax-M1采用了一種叫做"閃電注意力"的創(chuàng)新機制,這就像是給AI的大腦裝上了一個高效的信息處理器。傳統(tǒng)的注意力機制在處理長文本時,計算量會呈平方式增長——處理1000個詞需要的計算量是處理100個詞的100倍。而閃電注意力則實現(xiàn)了近似線性增長,就像從指數(shù)爆炸的房貸利率變成了固定的月租費。
這個模型擁有4560億個參數(shù),但在實際運行時只激活其中的459億個參數(shù),就像一個擁有巨大圖書館的學(xué)者,每次只調(diào)用需要的那幾本書。更令人印象深刻的是,它能原生支持100萬個詞匯的上下文長度,這相當于能一次性閱讀幾十本小說的內(nèi)容,比目前最好的開源模型多出8倍的處理能力。
在效率方面,當生成10萬個詞匯的推理內(nèi)容時,MiniMax-M1只需要傳統(tǒng)模型四分之一的計算資源。這種效率優(yōu)勢不僅體現(xiàn)在推理階段,更重要的是在訓(xùn)練過程中大大降低了成本。研究團隊僅用512塊H800 GPU,花費3周時間就完成了完整的強化學(xué)習(xí)訓(xùn)練,總租賃成本約53.47萬美元——這在大模型訓(xùn)練領(lǐng)域算是相當經(jīng)濟的投入。
一、技術(shù)創(chuàng)新的核心突破
MiniMax-M1的技術(shù)創(chuàng)新可以用建筑工程來類比。傳統(tǒng)的AI注意力機制就像建造一座大廈時,每個工人都要和其他所有工人直接溝通協(xié)調(diào),隨著工人數(shù)量增加,溝通成本呈幾何級數(shù)增長。而MiniMax-M1采用的混合架構(gòu)則像是建立了一個高效的項目管理體系:大部分時候工人通過簡化的線性溝通渠道工作,只在關(guān)鍵節(jié)點才啟用全面協(xié)調(diào)機制。
具體而言,模型采用了7:1的混合比例設(shè)計——每7個使用閃電注意力的層后面跟著1個傳統(tǒng)注意力層。這種設(shè)計既保持了處理復(fù)雜信息的能力,又大幅降低了計算開銷。研究團隊通過大量實驗驗證,這種比例能夠在保持性能的同時實現(xiàn)最優(yōu)的效率平衡。
在訓(xùn)練數(shù)據(jù)方面,研究團隊首先對基礎(chǔ)模型進行了7.5萬億詞匯的繼續(xù)預(yù)訓(xùn)練。這個過程就像給一個已經(jīng)博學(xué)的學(xué)者提供更多專業(yè)書籍,讓其在數(shù)學(xué)、編程和邏輯推理等領(lǐng)域變得更加精通。訓(xùn)練數(shù)據(jù)中70%專注于STEM、代碼、書籍和推理相關(guān)內(nèi)容,確保模型在復(fù)雜任務(wù)上具備堅實基礎(chǔ)。
特別值得關(guān)注的是長上下文擴展策略。由于混合注意力架構(gòu)的復(fù)雜性,過于激進的上下文長度擴展可能導(dǎo)致梯度爆炸問題。研究團隊采用了漸進式擴展方法,從3.2萬詞匯開始,逐步擴展到100萬詞匯,就像訓(xùn)練長跑運動員時循序漸進增加訓(xùn)練強度,避免運動損傷。
二、強化學(xué)習(xí)算法的重大改進
在強化學(xué)習(xí)方面,研究團隊開發(fā)了一種名為CISPO(Clipped Importance Sampling Policy Optimization)的新算法。理解這個算法的關(guān)鍵在于認識傳統(tǒng)方法的局限性。
傳統(tǒng)的PPO算法在處理低概率但重要的詞匯時存在問題。這些詞匯通常是推理過程中的關(guān)鍵轉(zhuǎn)折點,比如"然而"、"重新檢查"、"等等"、"啊哈"等表示反思的詞匯。由于這些詞在基礎(chǔ)模型中出現(xiàn)概率較低,在策略更新時容易被"剪裁"掉,就像在編輯文章時把最精彩的轉(zhuǎn)折句子刪除了。
CISPO算法的創(chuàng)新在于改變剪裁策略。傳統(tǒng)方法是對詞匯更新進行剪裁,而CISPO是對重要性采樣權(quán)重進行剪裁。這就像從"禁止某些學(xué)生發(fā)言"改為"調(diào)節(jié)所有學(xué)生發(fā)言的音量",確保每個聲音都能被聽到,只是調(diào)整其影響力大小。
實驗驗證顯示,CISPO在相同訓(xùn)練步數(shù)下顯著優(yōu)于GRPO和DAPO等競爭算法。在基于Qwen2.5-32B模型的對比實驗中,CISPO實現(xiàn)了2倍的訓(xùn)練加速,在AIME 2024數(shù)學(xué)競賽數(shù)據(jù)集上的表現(xiàn)也明顯更優(yōu)。這種效率提升對于大規(guī)模模型訓(xùn)練尤其重要,因為它直接轉(zhuǎn)化為時間和成本的節(jié)約。
三、混合架構(gòu)帶來的獨特挑戰(zhàn)與解決方案
作為首個在大規(guī)模強化學(xué)習(xí)中使用混合注意力架構(gòu)的團隊,研究人員遇到了前所未有的技術(shù)挑戰(zhàn)。最關(guān)鍵的問題是訓(xùn)練模式和推理模式之間的精度不匹配。
這個問題可以比作精密儀器的校準問題。在理論上,同一個模型在訓(xùn)練時和實際使用時應(yīng)該給出完全相同的概率預(yù)測,就像同一把尺子無論何時測量都應(yīng)該給出相同結(jié)果。然而研究團隊發(fā)現(xiàn),訓(xùn)練核心和推理核心之間存在微小但關(guān)鍵的精度差異,導(dǎo)致概率相關(guān)性從理想的1.0降到約0.9。
通過逐層分析,團隊發(fā)現(xiàn)問題源于語言模型頭部的高幅度激活。解決方案是將語言模型輸出頭的精度從原來的混合精度提升到FP32全精度。這就像把測量工具從普通精度升級到高精度版本,將相關(guān)性提升到0.99以上,確保了訓(xùn)練過程的穩(wěn)定性。
另一個重要挑戰(zhàn)是優(yōu)化器超參數(shù)的敏感性。AdamW優(yōu)化器的beta1、beta2和epsilon參數(shù)配置不當會導(dǎo)致訓(xùn)練不收斂。研究團隊發(fā)現(xiàn)MiniMax-M1訓(xùn)練中的梯度幅度范圍極廣,從1e-18到1e-5,且相鄰迭代間梯度相關(guān)性較弱?;谶@些觀察,他們調(diào)整參數(shù)為beta1=0.9、beta2=0.95、eps=1e-15,確保了訓(xùn)練穩(wěn)定性。
為了防止生成過程中的病理性重復(fù),團隊還開發(fā)了基于概率的早期截斷機制。當連續(xù)3000個詞匯的概率都超過0.99時(表明模型陷入重復(fù)循環(huán)),系統(tǒng)會自動終止生成。這種機制既防止了模型不穩(wěn)定,又提高了生成效率。
四、多樣化的訓(xùn)練數(shù)據(jù)與獎勵設(shè)計
MiniMax-M1的訓(xùn)練采用了規(guī)模龐大且類型豐富的數(shù)據(jù)集,涵蓋了可驗證和不可驗證兩大類任務(wù)。這種設(shè)計就像培養(yǎng)一個全能型人才,既要在標準化考試中表現(xiàn)優(yōu)異,也要在開放性創(chuàng)作中展現(xiàn)創(chuàng)意。
在可驗證任務(wù)方面,數(shù)學(xué)推理數(shù)據(jù)包含數(shù)十萬個競賽級別的高質(zhì)量問題。數(shù)據(jù)清洗過程極其嚴格,包括去除不完整樣本、格式錯誤和重復(fù)內(nèi)容,同時進行語義去重以確保與監(jiān)督學(xué)習(xí)數(shù)據(jù)的嚴格分離。團隊還使用n-gram和嵌入方法消除與常用數(shù)學(xué)基準測試的潛在污染,確保評估公平性。
邏輯推理數(shù)據(jù)通過SynLogic框架合成,涵蓋41種不同的邏輯推理任務(wù),包括密碼破解、數(shù)獨等需要非平凡推理能力的問題??蚣芨鶕?jù)當前最強推理模型的能力邊界動態(tài)調(diào)整難度參數(shù),確保訓(xùn)練數(shù)據(jù)既有挑戰(zhàn)性又不會過于困難。隨著模型能力在訓(xùn)練過程中的提升,數(shù)據(jù)難度也相應(yīng)增加,形成了動態(tài)的課程學(xué)習(xí)效果。
競爭編程數(shù)據(jù)來源于在線評判平臺和流行編程網(wǎng)站,對于缺乏測試用例的問題,團隊開發(fā)了基于大語言模型的工作流來生成comprehensive測試套件。類似于數(shù)學(xué)數(shù)據(jù)的處理,編程數(shù)據(jù)也基于模型采樣的通過率進行質(zhì)量和難度篩選。
軟件工程數(shù)據(jù)最為復(fù)雜,受SWE-bench啟發(fā),團隊構(gòu)建了基于真實GitHub倉庫的可驗證強化學(xué)習(xí)環(huán)境。這些數(shù)據(jù)主要包括問題定位、代碼修復(fù)和測試用例生成等常見軟件開發(fā)挑戰(zhàn)。為了實現(xiàn)有效的強化學(xué)習(xí),團隊開發(fā)了復(fù)雜的容器化沙盒環(huán)境,模擬真實的軟件開發(fā)工作流程。
在不可驗證任務(wù)方面,團隊構(gòu)建了2.5萬個復(fù)雜樣本的通用數(shù)據(jù)集。對于有標準答案但難以用規(guī)則驗證的任務(wù),他們開發(fā)了生成式獎勵模型(GenRM),采用五級獎勵量表評估模型響應(yīng)與標準答案的一致性。對于完全開放式的任務(wù),則采用成對比較框架,將模型輸出與參考答案進行比較,得分為-1、0或1。
五、獎勵模型的偏差控制
生成式獎勵模型的一個關(guān)鍵挑戰(zhàn)是長度偏差問題。研究發(fā)現(xiàn),GenRM傾向于偏好更長的輸出,而不考慮實際推理質(zhì)量。這種偏差在復(fù)雜推理任務(wù)的強化學(xué)習(xí)中可能產(chǎn)生嚴重誤導(dǎo),激勵模型產(chǎn)生冗長但無實質(zhì)內(nèi)容的輸出。
團隊的核心策略是在強化學(xué)習(xí)訓(xùn)練期間持續(xù)在線監(jiān)控長度偏差。他們建立了特定指標來檢測強化學(xué)習(xí)策略是否過度延長輸出長度以最大化GenRM獎勵,而沒有在任務(wù)成功率或推理深度方面獲得真正收益。一旦檢測到這種有害的長度尋求行為,就會立即觸發(fā)GenRM重新校準。
這種迭代調(diào)整機制對于防止與輸出長度相關(guān)的獎勵黑客至關(guān)重要,確保策略優(yōu)先考慮實質(zhì)性的能力提升而非表面的文本膨脹。同時,團隊還系統(tǒng)性地采用了獎勵塑形、數(shù)值裁剪和歸一化等強化學(xué)習(xí)端技術(shù),這些機制使獎勵信號對極端值不敏感,將策略優(yōu)化引導(dǎo)向長推理鏈的實質(zhì)性質(zhì)量和正確性。
六、課程式訓(xùn)練策略
考慮到強化學(xué)習(xí)數(shù)據(jù)跨越廣泛的類別范圍,訓(xùn)練單一策略同時在推理密集型任務(wù)和通用領(lǐng)域任務(wù)上表現(xiàn)優(yōu)異是一個核心挑戰(zhàn)。團隊采用了精心管理的課程和動態(tài)權(quán)重策略來解決這個問題。
訓(xùn)練過程從僅包含基于規(guī)則獎勵的推理密集型任務(wù)開始,然后逐漸混入通用領(lǐng)域任務(wù)。這確保了模型在繼續(xù)改進其可驗證技能(如數(shù)學(xué)和代碼)的同時,逐步增強在從復(fù)雜指令遵循到開放式推理等多樣化通用任務(wù)上的性能。
這種混合強化學(xué)習(xí)訓(xùn)練鼓勵模型學(xué)習(xí)其推理能力的上下文依賴應(yīng)用——對可驗證問題應(yīng)用嚴格的逐步演繹,對通用查詢應(yīng)用更靈活的自適應(yīng)生成——所有這些都在統(tǒng)一的策略框架內(nèi)。這種方法防止了專業(yè)技能的災(zāi)難性遺忘,同時促進了更廣泛的泛化能力。
七、擴展到更長推理的挑戰(zhàn)
研究團隊首先訓(xùn)練了輸出長度限制為4萬詞匯的模型,然后進一步擴展到8萬詞匯。這種擴展過程采用了階段性窗口擴展策略,從4萬詞匯開始,逐步增加到4.8萬、5.6萬、6.4萬、7.2萬,最終達到8萬詞匯。
每個階段的轉(zhuǎn)換都基于經(jīng)驗指標確定,包括生成序列上的困惑度收斂以及輸出長度的99th分位數(shù)是否接近當前上下文窗口限制。這些信號為模型在每個長度上的準備情況提供了寶貴見解,使團隊能夠在整個過程中保持robust訓(xùn)練。
在擴展過程中遇到的一個關(guān)鍵問題是后期訓(xùn)練階段的模式崩潰傾向。具體表現(xiàn)為模型容易產(chǎn)生病理性的長重復(fù)響應(yīng),其梯度可能威脅模型穩(wěn)定性。團隊識別出根本原因:在輸出長度擴展過程中,負樣本的長度增長速度遠快于正樣本,經(jīng)常更早達到上下文窗口限制。
這導(dǎo)致在生成序列的后續(xù)段中積累了不成比例的大負梯度。這種不平衡源于GRPO優(yōu)勢歸一化和采用的token級損失的本質(zhì)上不平等特性。為了解決這個問題,團隊實施了三個關(guān)鍵解決方案:通過早期停止檢測重復(fù)模式、采用結(jié)合sample級損失和token級歸一化來緩解負正樣本不平衡、降低梯度剪裁閾值和重要性采樣上限以進一步穩(wěn)定生成。
八、全面的性能評估
MiniMax-M1在多個關(guān)鍵領(lǐng)域的評估結(jié)果展現(xiàn)了其強大的綜合能力。在數(shù)學(xué)推理方面,MiniMax-M1-80k在AIME 2024上達到86.0%的準確率,在開源模型中排名第二,僅次于最新的DeepSeek-R1-0528模型。在AIME 2025上獲得76.9%的成績,在MATH-500基準上達到96.8%的高分。
編程能力評估顯示,模型在LiveCodeBench上達到65.0%的通過率,在FullStackBench上獲得68.3%的成績,與Qwen3-235B等leading開源模型性能相當。在推理與知識評估中,GPQA-Diamond測試獲得70.0%,MMLU-Pro達到81.1%,ZebraLogic邏輯推理測試獲得86.8%的優(yōu)異成績。
最令人印象深刻的是在復(fù)雜場景中的表現(xiàn)。在軟件工程任務(wù)SWE-bench Verified上,MiniMax-M1獲得56.0%的成功率,顯著超越其他開源模型。借助100萬詞匯的上下文窗口優(yōu)勢,模型在長上下文理解任務(wù)中表現(xiàn)卓越,在OpenAI-MRCR (128k)上獲得73.4%,在1M長度測試中達到56.2%,甚至超越了OpenAI o3和Claude 4 Opus等商業(yè)模型。
在智能體工具使用場景(TAU-bench)中,MiniMax-M1-40k超越了所有開源模型,甚至優(yōu)于Gemini-2.5 Pro。MiniMax-M1-80k在大多數(shù)基準測試中持續(xù)優(yōu)于MiniMax-M1-40k,證實了擴展測試時計算的益處。
這些評估結(jié)果驗證了MiniMax-M1在數(shù)學(xué)競賽和編程競賽等標準任務(wù)上的競爭力,更重要的是,突出了其在軟件工程、長上下文理解和智能體工具使用等更貼近實際應(yīng)用場景中的獨特優(yōu)勢。
九、強化學(xué)習(xí)效果的深度分析
為了深入理解強化學(xué)習(xí)擴展的效果,研究團隊追蹤了整個訓(xùn)練過程中的性能變化和響應(yīng)長度演化。通過對AIME 2024、AIME 2025和LiveCodeBench v5等代表性基準的分析,發(fā)現(xiàn)了性能提升與響應(yīng)長度增加之間的強烈正相關(guān)關(guān)系。
在AIME 2024測試中,模型準確率從訓(xùn)練初期的68%大幅提升到80%,同時平均響應(yīng)長度從約1.2萬詞匯增長到超過2.2萬詞匯。這種趨勢在AIME 2025和LiveCodeBench上同樣明顯,平均響應(yīng)長度都超過了2萬詞匯,充分說明了擴展推理過程對于復(fù)雜任務(wù)求解的重要性。
這種現(xiàn)象揭示了一個重要觀察:更長的推理鏈條并非簡單的冗余重復(fù),而是模型進行更深入、更細致思考的體現(xiàn)。就像人類數(shù)學(xué)家在解決困難問題時需要更多的草稿紙和計算步驟一樣,AI模型也通過更長的"思考過程"來處理復(fù)雜的邏輯推理和問題求解。
強化學(xué)習(xí)過程中性能與長度的協(xié)同提升,證明了MiniMax-M1架構(gòu)設(shè)計的合理性。混合注意力機制在保持計算效率的同時,確實能夠支持更長、更復(fù)雜的推理過程,這為未來開發(fā)更強大的推理模型提供了重要的設(shè)計原則和經(jīng)驗證據(jù)。
說到底,MiniMax-M1代表了AI推理能力發(fā)展的一個重要里程碑。通過創(chuàng)新的混合注意力架構(gòu)和高效的強化學(xué)習(xí)算法,它成功地解決了長期困擾該領(lǐng)域的計算效率問題。這項工作不僅在技術(shù)上實現(xiàn)了突破,更重要的是大幅降低了高性能推理模型的訓(xùn)練和使用成本,讓更多研究者和開發(fā)者能夠參與到AI推理技術(shù)的發(fā)展中來。
模型在復(fù)雜現(xiàn)實場景中的優(yōu)異表現(xiàn),特別是在軟件工程、長文檔理解和智能體應(yīng)用等領(lǐng)域的突出能力,預(yù)示著AI技術(shù)正在從實驗室走向真實世界的復(fù)雜應(yīng)用。隨著測試時計算的持續(xù)擴展,我們有理由相信這類高效架構(gòu)將在推動AI解決真實世界挑戰(zhàn)方面發(fā)揮重要作用,無論是自動化企業(yè)工作流程,還是協(xié)助科學(xué)研究,都將展現(xiàn)出巨大的應(yīng)用潛力。
研究團隊將模型完全開源并提供了詳細的部署指南,這種開放態(tài)度為整個AI社區(qū)的發(fā)展做出了重要貢獻。MiniMax-M1不僅是一個技術(shù)產(chǎn)品,更是推動AI推理技術(shù)民主化發(fā)展的重要一步,為構(gòu)建下一代語言模型智能體奠定了堅實的技術(shù)基礎(chǔ)。
Q&A
Q1:什么是"閃電注意力"機制?它比傳統(tǒng)注意力好在哪里? A:閃電注意力是MiniMax-M1的核心創(chuàng)新,它將傳統(tǒng)注意力機制中平方級別的計算復(fù)雜度降低到近似線性。就像從指數(shù)增長的房貸利率變成固定月租費,處理長文本時計算成本大幅降低,使AI能夠進行更長時間的"思考"而不會消耗過多計算資源。
Q2:MiniMax-M1的訓(xùn)練成本真的只要53萬美元嗎?這在行業(yè)內(nèi)算什么水平? A:是的,完整的強化學(xué)習(xí)訓(xùn)練僅需53.47萬美元。這在大模型訓(xùn)練領(lǐng)域算是相當經(jīng)濟的投入,主要得益于混合注意力架構(gòu)的效率優(yōu)勢和新開發(fā)的CISPO算法。相比其他同規(guī)模模型動輒數(shù)百萬甚至千萬的訓(xùn)練成本,這個數(shù)字確實很有競爭力。
Q3:普通開發(fā)者可以使用MiniMax-M1嗎?有什么技術(shù)門檻? A:可以使用。研究團隊已將模型完全開源,并提供了vLLM和Transformers框架的支持,還有詳細的部署指南。普通開發(fā)者可以通過GitHub和Hugging Face平臺獲取模型,MiniMax公司也提供商業(yè)級API服務(wù)。主要門檻是需要足夠的計算資源來運行這個4560億參數(shù)的大模型。
好文章,需要你的鼓勵
新加坡國立大學(xué)研究團隊開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實驗顯示,僅訓(xùn)練AI玩簡單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟大學(xué)團隊開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實現(xiàn)37.9%的精度提升,并在真實設(shè)備上展現(xiàn)出色泛化能力,為機器人、AR和自動駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團隊通過對比實驗發(fā)現(xiàn),經(jīng)過強化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時刻"現(xiàn)象,但這些自我糾錯行為并不能實際提升推理準確率。研究揭示了AI模型存在"生成-驗證差距",即生成答案的能力強于驗證答案質(zhì)量的能力,且模型在自我驗證時無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動態(tài)稀疏性實現(xiàn)大語言模型訓(xùn)練加速1.6倍,計算成本降低2.2倍。該方法使用SVD稀疏性估計器智能選擇重要計算部分,在保持模型性能的同時顯著提升訓(xùn)練效率,已在多個任務(wù)上驗證有效性。