av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<progress id="unfix"><track id="unfix"></track></progress><tt id="unfix"></tt>

<blockquote id="unfix"></blockquote>

<thead id="unfix"></thead>

微信掃一掃，關(guān)注公眾號

科技行者
算力行者

見證連接與計算的「力量」

MiniMax-M1：讓AI推理不再昂貴的革命性突破

人工智能注意力機制強化學(xué)習(xí)

MiniMax-M1：讓AI推理不再昂貴的革命性突破

作者：科技行者

2025-06-20 10:27

分享至：

MiniMax公司發(fā)布了世界首個開源大規(guī)?；旌献⒁饬ν评砟Ｐ蚆iniMax-M1，通過創(chuàng)新的"閃電注意力"機制將AI推理的計算復(fù)雜度從平方級降低到線性級，支持100萬詞匯上下文和8萬詞匯生成長度。該模型在保持強大性能的同時，將長文本處理的計算成本降低75%，僅用53萬美元就完成了完整訓(xùn)練，在軟件工程、長文檔理解等復(fù)雜場景中表現(xiàn)優(yōu)異，為AI推理技術(shù)的普及奠定了重要基礎(chǔ)。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-06-20 10:27 ? 科技行者

這項由MiniMax公司研究團隊發(fā)表于2025年6月的突破性研究，介紹了世界首個開源的大規(guī)?；旌献⒁饬ν评砟Ｐ蚆iniMax-M1。這份發(fā)表在arXiv平臺的論文（編號：arXiv:2506.13585v1），為有興趣深入了解的讀者提供了完整的技術(shù)細節(jié)和實驗數(shù)據(jù)。

當我們談?wù)撊斯ぶ悄艿?思考"過程時，就像人類解決復(fù)雜數(shù)學(xué)題需要在草稿紙上寫下很多推理步驟一樣，AI模型也需要生成大量的"思考文本"來解決難題。然而，傳統(tǒng)的AI架構(gòu)就像用昂貴的高檔紙張寫草稿——每多寫一個字都要付出巨大的計算成本。MiniMax-M1的突破就在于發(fā)明了一種"經(jīng)濟型草稿紙"，讓AI能夠以更低的成本進行更長時間的思考。

MiniMax-M1采用了一種叫做"閃電注意力"的創(chuàng)新機制，這就像是給AI的大腦裝上了一個高效的信息處理器。傳統(tǒng)的注意力機制在處理長文本時，計算量會呈平方式增長——處理1000個詞需要的計算量是處理100個詞的100倍。而閃電注意力則實現(xiàn)了近似線性增長，就像從指數(shù)爆炸的房貸利率變成了固定的月租費。

這個模型擁有4560億個參數(shù)，但在實際運行時只激活其中的459億個參數(shù)，就像一個擁有巨大圖書館的學(xué)者，每次只調(diào)用需要的那幾本書。更令人印象深刻的是，它能原生支持100萬個詞匯的上下文長度，這相當于能一次性閱讀幾十本小說的內(nèi)容，比目前最好的開源模型多出8倍的處理能力。

在效率方面，當生成10萬個詞匯的推理內(nèi)容時，MiniMax-M1只需要傳統(tǒng)模型四分之一的計算資源。這種效率優(yōu)勢不僅體現(xiàn)在推理階段，更重要的是在訓(xùn)練過程中大大降低了成本。研究團隊僅用512塊H800 GPU，花費3周時間就完成了完整的強化學(xué)習(xí)訓(xùn)練，總租賃成本約53.47萬美元——這在大模型訓(xùn)練領(lǐng)域算是相當經(jīng)濟的投入。

一、技術(shù)創(chuàng)新的核心突破

MiniMax-M1的技術(shù)創(chuàng)新可以用建筑工程來類比。傳統(tǒng)的AI注意力機制就像建造一座大廈時，每個工人都要和其他所有工人直接溝通協(xié)調(diào)，隨著工人數(shù)量增加，溝通成本呈幾何級數(shù)增長。而MiniMax-M1采用的混合架構(gòu)則像是建立了一個高效的項目管理體系：大部分時候工人通過簡化的線性溝通渠道工作，只在關(guān)鍵節(jié)點才啟用全面協(xié)調(diào)機制。

具體而言，模型采用了7:1的混合比例設(shè)計——每7個使用閃電注意力的層后面跟著1個傳統(tǒng)注意力層。這種設(shè)計既保持了處理復(fù)雜信息的能力，又大幅降低了計算開銷。研究團隊通過大量實驗驗證，這種比例能夠在保持性能的同時實現(xiàn)最優(yōu)的效率平衡。

在訓(xùn)練數(shù)據(jù)方面，研究團隊首先對基礎(chǔ)模型進行了7.5萬億詞匯的繼續(xù)預(yù)訓(xùn)練。這個過程就像給一個已經(jīng)博學(xué)的學(xué)者提供更多專業(yè)書籍，讓其在數(shù)學(xué)、編程和邏輯推理等領(lǐng)域變得更加精通。訓(xùn)練數(shù)據(jù)中70%專注于STEM、代碼、書籍和推理相關(guān)內(nèi)容，確保模型在復(fù)雜任務(wù)上具備堅實基礎(chǔ)。

特別值得關(guān)注的是長上下文擴展策略。由于混合注意力架構(gòu)的復(fù)雜性，過于激進的上下文長度擴展可能導(dǎo)致梯度爆炸問題。研究團隊采用了漸進式擴展方法，從3.2萬詞匯開始，逐步擴展到100萬詞匯，就像訓(xùn)練長跑運動員時循序漸進增加訓(xùn)練強度，避免運動損傷。

二、強化學(xué)習(xí)算法的重大改進

在強化學(xué)習(xí)方面，研究團隊開發(fā)了一種名為CISPO（Clipped Importance Sampling Policy Optimization）的新算法。理解這個算法的關(guān)鍵在于認識傳統(tǒng)方法的局限性。

傳統(tǒng)的PPO算法在處理低概率但重要的詞匯時存在問題。這些詞匯通常是推理過程中的關(guān)鍵轉(zhuǎn)折點，比如"然而"、"重新檢查"、"等等"、"啊哈"等表示反思的詞匯。由于這些詞在基礎(chǔ)模型中出現(xiàn)概率較低，在策略更新時容易被"剪裁"掉，就像在編輯文章時把最精彩的轉(zhuǎn)折句子刪除了。

CISPO算法的創(chuàng)新在于改變剪裁策略。傳統(tǒng)方法是對詞匯更新進行剪裁，而CISPO是對重要性采樣權(quán)重進行剪裁。這就像從"禁止某些學(xué)生發(fā)言"改為"調(diào)節(jié)所有學(xué)生發(fā)言的音量"，確保每個聲音都能被聽到，只是調(diào)整其影響力大小。

實驗驗證顯示，CISPO在相同訓(xùn)練步數(shù)下顯著優(yōu)于GRPO和DAPO等競爭算法。在基于Qwen2.5-32B模型的對比實驗中，CISPO實現(xiàn)了2倍的訓(xùn)練加速，在AIME 2024數(shù)學(xué)競賽數(shù)據(jù)集上的表現(xiàn)也明顯更優(yōu)。這種效率提升對于大規(guī)模模型訓(xùn)練尤其重要，因為它直接轉(zhuǎn)化為時間和成本的節(jié)約。

三、混合架構(gòu)帶來的獨特挑戰(zhàn)與解決方案

作為首個在大規(guī)模強化學(xué)習(xí)中使用混合注意力架構(gòu)的團隊，研究人員遇到了前所未有的技術(shù)挑戰(zhàn)。最關(guān)鍵的問題是訓(xùn)練模式和推理模式之間的精度不匹配。

這個問題可以比作精密儀器的校準問題。在理論上，同一個模型在訓(xùn)練時和實際使用時應(yīng)該給出完全相同的概率預(yù)測，就像同一把尺子無論何時測量都應(yīng)該給出相同結(jié)果。然而研究團隊發(fā)現(xiàn)，訓(xùn)練核心和推理核心之間存在微小但關(guān)鍵的精度差異，導(dǎo)致概率相關(guān)性從理想的1.0降到約0.9。

通過逐層分析，團隊發(fā)現(xiàn)問題源于語言模型頭部的高幅度激活。解決方案是將語言模型輸出頭的精度從原來的混合精度提升到FP32全精度。這就像把測量工具從普通精度升級到高精度版本，將相關(guān)性提升到0.99以上，確保了訓(xùn)練過程的穩(wěn)定性。

另一個重要挑戰(zhàn)是優(yōu)化器超參數(shù)的敏感性。AdamW優(yōu)化器的beta1、beta2和epsilon參數(shù)配置不當會導(dǎo)致訓(xùn)練不收斂。研究團隊發(fā)現(xiàn)MiniMax-M1訓(xùn)練中的梯度幅度范圍極廣，從1e-18到1e-5，且相鄰迭代間梯度相關(guān)性較弱?；谶@些觀察，他們調(diào)整參數(shù)為beta1=0.9、beta2=0.95、eps=1e-15，確保了訓(xùn)練穩(wěn)定性。

為了防止生成過程中的病理性重復(fù)，團隊還開發(fā)了基于概率的早期截斷機制。當連續(xù)3000個詞匯的概率都超過0.99時（表明模型陷入重復(fù)循環(huán)），系統(tǒng)會自動終止生成。這種機制既防止了模型不穩(wěn)定，又提高了生成效率。

四、多樣化的訓(xùn)練數(shù)據(jù)與獎勵設(shè)計

MiniMax-M1的訓(xùn)練采用了規(guī)模龐大且類型豐富的數(shù)據(jù)集，涵蓋了可驗證和不可驗證兩大類任務(wù)。這種設(shè)計就像培養(yǎng)一個全能型人才，既要在標準化考試中表現(xiàn)優(yōu)異，也要在開放性創(chuàng)作中展現(xiàn)創(chuàng)意。

在可驗證任務(wù)方面，數(shù)學(xué)推理數(shù)據(jù)包含數(shù)十萬個競賽級別的高質(zhì)量問題。數(shù)據(jù)清洗過程極其嚴格，包括去除不完整樣本、格式錯誤和重復(fù)內(nèi)容，同時進行語義去重以確保與監(jiān)督學(xué)習(xí)數(shù)據(jù)的嚴格分離。團隊還使用n-gram和嵌入方法消除與常用數(shù)學(xué)基準測試的潛在污染，確保評估公平性。

邏輯推理數(shù)據(jù)通過SynLogic框架合成，涵蓋41種不同的邏輯推理任務(wù)，包括密碼破解、數(shù)獨等需要非平凡推理能力的問題?？蚣芨鶕?jù)當前最強推理模型的能力邊界動態(tài)調(diào)整難度參數(shù)，確保訓(xùn)練數(shù)據(jù)既有挑戰(zhàn)性又不會過于困難。隨著模型能力在訓(xùn)練過程中的提升，數(shù)據(jù)難度也相應(yīng)增加，形成了動態(tài)的課程學(xué)習(xí)效果。

競爭編程數(shù)據(jù)來源于在線評判平臺和流行編程網(wǎng)站，對于缺乏測試用例的問題，團隊開發(fā)了基于大語言模型的工作流來生成comprehensive測試套件。類似于數(shù)學(xué)數(shù)據(jù)的處理，編程數(shù)據(jù)也基于模型采樣的通過率進行質(zhì)量和難度篩選。

軟件工程數(shù)據(jù)最為復(fù)雜，受SWE-bench啟發(fā)，團隊構(gòu)建了基于真實GitHub倉庫的可驗證強化學(xué)習(xí)環(huán)境。這些數(shù)據(jù)主要包括問題定位、代碼修復(fù)和測試用例生成等常見軟件開發(fā)挑戰(zhàn)。為了實現(xiàn)有效的強化學(xué)習(xí)，團隊開發(fā)了復(fù)雜的容器化沙盒環(huán)境，模擬真實的軟件開發(fā)工作流程。

在不可驗證任務(wù)方面，團隊構(gòu)建了2.5萬個復(fù)雜樣本的通用數(shù)據(jù)集。對于有標準答案但難以用規(guī)則驗證的任務(wù)，他們開發(fā)了生成式獎勵模型（GenRM），采用五級獎勵量表評估模型響應(yīng)與標準答案的一致性。對于完全開放式的任務(wù)，則采用成對比較框架，將模型輸出與參考答案進行比較，得分為-1、0或1。

五、獎勵模型的偏差控制

生成式獎勵模型的一個關(guān)鍵挑戰(zhàn)是長度偏差問題。研究發(fā)現(xiàn)，GenRM傾向于偏好更長的輸出，而不考慮實際推理質(zhì)量。這種偏差在復(fù)雜推理任務(wù)的強化學(xué)習(xí)中可能產(chǎn)生嚴重誤導(dǎo)，激勵模型產(chǎn)生冗長但無實質(zhì)內(nèi)容的輸出。

團隊的核心策略是在強化學(xué)習(xí)訓(xùn)練期間持續(xù)在線監(jiān)控長度偏差。他們建立了特定指標來檢測強化學(xué)習(xí)策略是否過度延長輸出長度以最大化GenRM獎勵，而沒有在任務(wù)成功率或推理深度方面獲得真正收益。一旦檢測到這種有害的長度尋求行為，就會立即觸發(fā)GenRM重新校準。

這種迭代調(diào)整機制對于防止與輸出長度相關(guān)的獎勵黑客至關(guān)重要，確保策略優(yōu)先考慮實質(zhì)性的能力提升而非表面的文本膨脹。同時，團隊還系統(tǒng)性地采用了獎勵塑形、數(shù)值裁剪和歸一化等強化學(xué)習(xí)端技術(shù)，這些機制使獎勵信號對極端值不敏感，將策略優(yōu)化引導(dǎo)向長推理鏈的實質(zhì)性質(zhì)量和正確性。

六、課程式訓(xùn)練策略

考慮到強化學(xué)習(xí)數(shù)據(jù)跨越廣泛的類別范圍，訓(xùn)練單一策略同時在推理密集型任務(wù)和通用領(lǐng)域任務(wù)上表現(xiàn)優(yōu)異是一個核心挑戰(zhàn)。團隊采用了精心管理的課程和動態(tài)權(quán)重策略來解決這個問題。

訓(xùn)練過程從僅包含基于規(guī)則獎勵的推理密集型任務(wù)開始，然后逐漸混入通用領(lǐng)域任務(wù)。這確保了模型在繼續(xù)改進其可驗證技能（如數(shù)學(xué)和代碼）的同時，逐步增強在從復(fù)雜指令遵循到開放式推理等多樣化通用任務(wù)上的性能。

這種混合強化學(xué)習(xí)訓(xùn)練鼓勵模型學(xué)習(xí)其推理能力的上下文依賴應(yīng)用——對可驗證問題應(yīng)用嚴格的逐步演繹，對通用查詢應(yīng)用更靈活的自適應(yīng)生成——所有這些都在統(tǒng)一的策略框架內(nèi)。這種方法防止了專業(yè)技能的災(zāi)難性遺忘，同時促進了更廣泛的泛化能力。

七、擴展到更長推理的挑戰(zhàn)

研究團隊首先訓(xùn)練了輸出長度限制為4萬詞匯的模型，然后進一步擴展到8萬詞匯。這種擴展過程采用了階段性窗口擴展策略，從4萬詞匯開始，逐步增加到4.8萬、5.6萬、6.4萬、7.2萬，最終達到8萬詞匯。

每個階段的轉(zhuǎn)換都基于經(jīng)驗指標確定，包括生成序列上的困惑度收斂以及輸出長度的99th分位數(shù)是否接近當前上下文窗口限制。這些信號為模型在每個長度上的準備情況提供了寶貴見解，使團隊能夠在整個過程中保持robust訓(xùn)練。

在擴展過程中遇到的一個關(guān)鍵問題是后期訓(xùn)練階段的模式崩潰傾向。具體表現(xiàn)為模型容易產(chǎn)生病理性的長重復(fù)響應(yīng)，其梯度可能威脅模型穩(wěn)定性。團隊識別出根本原因：在輸出長度擴展過程中，負樣本的長度增長速度遠快于正樣本，經(jīng)常更早達到上下文窗口限制。

這導(dǎo)致在生成序列的后續(xù)段中積累了不成比例的大負梯度。這種不平衡源于GRPO優(yōu)勢歸一化和采用的token級損失的本質(zhì)上不平等特性。為了解決這個問題，團隊實施了三個關(guān)鍵解決方案：通過早期停止檢測重復(fù)模式、采用結(jié)合sample級損失和token級歸一化來緩解負正樣本不平衡、降低梯度剪裁閾值和重要性采樣上限以進一步穩(wěn)定生成。

八、全面的性能評估

MiniMax-M1在多個關(guān)鍵領(lǐng)域的評估結(jié)果展現(xiàn)了其強大的綜合能力。在數(shù)學(xué)推理方面，MiniMax-M1-80k在AIME 2024上達到86.0%的準確率，在開源模型中排名第二，僅次于最新的DeepSeek-R1-0528模型。在AIME 2025上獲得76.9%的成績，在MATH-500基準上達到96.8%的高分。

編程能力評估顯示，模型在LiveCodeBench上達到65.0%的通過率，在FullStackBench上獲得68.3%的成績，與Qwen3-235B等leading開源模型性能相當。在推理與知識評估中，GPQA-Diamond測試獲得70.0%，MMLU-Pro達到81.1%，ZebraLogic邏輯推理測試獲得86.8%的優(yōu)異成績。

最令人印象深刻的是在復(fù)雜場景中的表現(xiàn)。在軟件工程任務(wù)SWE-bench Verified上，MiniMax-M1獲得56.0%的成功率，顯著超越其他開源模型。借助100萬詞匯的上下文窗口優(yōu)勢，模型在長上下文理解任務(wù)中表現(xiàn)卓越，在OpenAI-MRCR (128k)上獲得73.4%，在1M長度測試中達到56.2%，甚至超越了OpenAI o3和Claude 4 Opus等商業(yè)模型。

在智能體工具使用場景（TAU-bench）中，MiniMax-M1-40k超越了所有開源模型，甚至優(yōu)于Gemini-2.5 Pro。MiniMax-M1-80k在大多數(shù)基準測試中持續(xù)優(yōu)于MiniMax-M1-40k，證實了擴展測試時計算的益處。

這些評估結(jié)果驗證了MiniMax-M1在數(shù)學(xué)競賽和編程競賽等標準任務(wù)上的競爭力，更重要的是，突出了其在軟件工程、長上下文理解和智能體工具使用等更貼近實際應(yīng)用場景中的獨特優(yōu)勢。

九、強化學(xué)習(xí)效果的深度分析

為了深入理解強化學(xué)習(xí)擴展的效果，研究團隊追蹤了整個訓(xùn)練過程中的性能變化和響應(yīng)長度演化。通過對AIME 2024、AIME 2025和LiveCodeBench v5等代表性基準的分析，發(fā)現(xiàn)了性能提升與響應(yīng)長度增加之間的強烈正相關(guān)關(guān)系。

在AIME 2024測試中，模型準確率從訓(xùn)練初期的68%大幅提升到80%，同時平均響應(yīng)長度從約1.2萬詞匯增長到超過2.2萬詞匯。這種趨勢在AIME 2025和LiveCodeBench上同樣明顯，平均響應(yīng)長度都超過了2萬詞匯，充分說明了擴展推理過程對于復(fù)雜任務(wù)求解的重要性。

這種現(xiàn)象揭示了一個重要觀察：更長的推理鏈條并非簡單的冗余重復(fù)，而是模型進行更深入、更細致思考的體現(xiàn)。就像人類數(shù)學(xué)家在解決困難問題時需要更多的草稿紙和計算步驟一樣，AI模型也通過更長的"思考過程"來處理復(fù)雜的邏輯推理和問題求解。

強化學(xué)習(xí)過程中性能與長度的協(xié)同提升，證明了MiniMax-M1架構(gòu)設(shè)計的合理性。混合注意力機制在保持計算效率的同時，確實能夠支持更長、更復(fù)雜的推理過程，這為未來開發(fā)更強大的推理模型提供了重要的設(shè)計原則和經(jīng)驗證據(jù)。

說到底，MiniMax-M1代表了AI推理能力發(fā)展的一個重要里程碑。通過創(chuàng)新的混合注意力架構(gòu)和高效的強化學(xué)習(xí)算法，它成功地解決了長期困擾該領(lǐng)域的計算效率問題。這項工作不僅在技術(shù)上實現(xiàn)了突破，更重要的是大幅降低了高性能推理模型的訓(xùn)練和使用成本，讓更多研究者和開發(fā)者能夠參與到AI推理技術(shù)的發(fā)展中來。

模型在復(fù)雜現(xiàn)實場景中的優(yōu)異表現(xiàn)，特別是在軟件工程、長文檔理解和智能體應(yīng)用等領(lǐng)域的突出能力，預(yù)示著AI技術(shù)正在從實驗室走向真實世界的復(fù)雜應(yīng)用。隨著測試時計算的持續(xù)擴展，我們有理由相信這類高效架構(gòu)將在推動AI解決真實世界挑戰(zhàn)方面發(fā)揮重要作用，無論是自動化企業(yè)工作流程，還是協(xié)助科學(xué)研究，都將展現(xiàn)出巨大的應(yīng)用潛力。

研究團隊將模型完全開源并提供了詳細的部署指南，這種開放態(tài)度為整個AI社區(qū)的發(fā)展做出了重要貢獻。MiniMax-M1不僅是一個技術(shù)產(chǎn)品，更是推動AI推理技術(shù)民主化發(fā)展的重要一步，為構(gòu)建下一代語言模型智能體奠定了堅實的技術(shù)基礎(chǔ)。

Q&A

Q1：什么是"閃電注意力"機制？它比傳統(tǒng)注意力好在哪里？ A：閃電注意力是MiniMax-M1的核心創(chuàng)新，它將傳統(tǒng)注意力機制中平方級別的計算復(fù)雜度降低到近似線性。就像從指數(shù)增長的房貸利率變成固定月租費，處理長文本時計算成本大幅降低，使AI能夠進行更長時間的"思考"而不會消耗過多計算資源。

Q2：MiniMax-M1的訓(xùn)練成本真的只要53萬美元嗎？這在行業(yè)內(nèi)算什么水平？ A：是的，完整的強化學(xué)習(xí)訓(xùn)練僅需53.47萬美元。這在大模型訓(xùn)練領(lǐng)域算是相當經(jīng)濟的投入，主要得益于混合注意力架構(gòu)的效率優(yōu)勢和新開發(fā)的CISPO算法。相比其他同規(guī)模模型動輒數(shù)百萬甚至千萬的訓(xùn)練成本，這個數(shù)字確實很有競爭力。

Q3：普通開發(fā)者可以使用MiniMax-M1嗎？有什么技術(shù)門檻？ A：可以使用。研究團隊已將模型完全開源，并提供了vLLM和Transformers框架的支持，還有詳細的部署指南。普通開發(fā)者可以通過GitHub和Hugging Face平臺獲取模型，MiniMax公司也提供商業(yè)級API服務(wù)。主要門檻是需要足夠的計算資源來運行這個4560億參數(shù)的大模型。

人工智能注意力機制強化學(xué)習(xí)

分享至

0贊

好文章，需要你的鼓勵

推薦文章

自對弈訓(xùn)練
推理能力提升
零和游戲?qū)W習(xí)

2025-07-02 14:26

AI玩游戲能讓推理變聰明？新加坡國立大學(xué)發(fā)現(xiàn)自對弈訓(xùn)練的神奇效果

新加坡國立大學(xué)研究團隊開發(fā)了SPIRAL框架，通過讓AI與自己對弈零和游戲來提升推理能力。實驗顯示，僅訓(xùn)練AI玩簡單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%，通用推理提升8.4%，且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中，為AI訓(xùn)練提供了新思路。
計算機視覺
圖像降噪
3D相機技術(shù)

2025-07-02 14:26

同濟大學(xué)突破性研究：讓3D相機告別"噪點困擾"的智能降噪新技術(shù)

同濟大學(xué)團隊開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息，創(chuàng)新性地解決了3D相機噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系，結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法，在合成數(shù)據(jù)集上實現(xiàn)37.9%的精度提升，并在真實設(shè)備上展現(xiàn)出色泛化能力，為機器人、AR和自動駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
人工智能
視覺語言模型
強化學(xué)習(xí)

2025-07-02 14:26

AI視覺推理模型的"頓悟時刻"真的存在嗎？伊利諾伊大學(xué)研究揭示令人意外的真相

伊利諾伊大學(xué)研究團隊通過對比實驗發(fā)現(xiàn)，經(jīng)過強化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時刻"現(xiàn)象，但這些自我糾錯行為并不能實際提升推理準確率。研究揭示了AI模型存在"生成-驗證差距"，即生成答案的能力強于驗證答案質(zhì)量的能力，且模型在自我驗證時無法有效利用視覺信息，為AI多模態(tài)推理發(fā)展提供了重要啟示。
大語言模型
稀疏性訓(xùn)練
計算效率優(yōu)化

2025-07-02 14:25

MIT團隊發(fā)明"智能減肥法"讓AI訓(xùn)練快1.6倍：只需要一半的算力就能教會大模型新技能

MIT等頂尖機構(gòu)聯(lián)合提出SparseLoRA技術(shù)，通過動態(tài)稀疏性實現(xiàn)大語言模型訓(xùn)練加速1.6倍，計算成本降低2.2倍。該方法使用SVD稀疏性估計器智能選擇重要計算部分，在保持模型性能的同時顯著提升訓(xùn)練效率，已在多個任務(wù)上驗證有效性。

AI玩游戲能讓推理變聰明？新加坡國立大學(xué)發(fā)現(xiàn)自對弈訓(xùn)練的神奇效果

AI玩游戲能讓推理變聰明？新加坡國立大學(xué)發(fā)現(xiàn)自對弈訓(xùn)練的神奇效果

2025-07-02 14:26

同濟大學(xué)突破性研究：讓3D相機告別"噪點困擾"的智能降噪新技術(shù)

同濟大學(xué)突破性研究：讓3D相機告別"噪點困擾"的智能降噪新技術(shù)

2025-07-02 14:26

AI視覺推理模型的"頓悟時刻"真的存在嗎？伊利諾伊大學(xué)研究揭示令人意外的真相

AI視覺推理模型的"頓悟時刻"真的存在嗎？伊利諾伊大學(xué)研究揭示令人意外的真相

2025-07-02 14:26

MIT團隊發(fā)明"智能減肥法"讓AI訓(xùn)練快1.6倍：只需要一半的算力就能教會大模型新技能

MIT團隊發(fā)明"智能減肥法"讓AI訓(xùn)練快1.6倍：只需要一半的算力就能教會大模型新技能

2025-07-02 14:25

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時代

京ICP證15039648號京ICP備15039648號-9 京公網(wǎng)安備 11010802021500號

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報電話：010-62641205　涉未成年人舉報專線：010-62641208 舉報郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報專區(qū)：https://www.12377.cn

<pre id="0fnlo"></pre>