這項(xiàng)由清華大學(xué)OpenBMB團(tuán)隊(duì)領(lǐng)導(dǎo)的研究于2025年6月發(fā)表在arXiv預(yù)印本平臺(tái)上,有興趣深入了解的讀者可以通過arXiv:2506.07900v1訪問完整論文。該研究的主要負(fù)責(zé)人包括胡世東、肖朝君、李雨軒、韓旭等知名AI研究者,他們?cè)诖笳Z言模型效率優(yōu)化方面有著豐富的經(jīng)驗(yàn)。
想象一下,如果有一天你的手機(jī)能夠像現(xiàn)在的ChatGPT一樣聰明,不需要連接互聯(lián)網(wǎng)就能回答各種復(fù)雜問題,幫你寫文章、分析數(shù)據(jù),甚至進(jìn)行推理思考,那會(huì)是什么樣的體驗(yàn)?這聽起來像科幻小說,但OpenBMB團(tuán)隊(duì)的最新研究成果MiniCPM4正在讓這個(gè)想象變成現(xiàn)實(shí)。
說起大語言模型,大多數(shù)人想到的都是那些需要強(qiáng)大服務(wù)器支撐的龐然大物,就像需要整個(gè)發(fā)電廠才能運(yùn)轉(zhuǎn)的超級(jí)計(jì)算機(jī)。但是,OpenBMB團(tuán)隊(duì)卻在思考一個(gè)不同的問題:能不能把這些聰明的AI壓縮成手機(jī)大小,讓每個(gè)人都能隨身攜帶一個(gè)私人AI助手?
MiniCPM4就是他們交出的答案。這個(gè)模型就像是把一臺(tái)大型計(jì)算機(jī)的能力裝進(jìn)了手機(jī)芯片里。更令人驚訝的是,它只用了競(jìng)爭(zhēng)對(duì)手22%的訓(xùn)練數(shù)據(jù),就達(dá)到了同等的性能水平。這就好比一個(gè)人只吃了五分之一的食物,卻長(zhǎng)得和正常飲食的人一樣強(qiáng)壯。
這項(xiàng)研究的意義遠(yuǎn)超技術(shù)本身。想想看,如果每個(gè)人的設(shè)備上都有一個(gè)不需要聯(lián)網(wǎng)的AI助手,那意味著什么?首先,你的隱私數(shù)據(jù)不再需要上傳到云端,就像把珍貴的家庭照片鎖在自己的保險(xiǎn)箱里而不是寄存在銀行。其次,即使在沒有網(wǎng)絡(luò)的偏遠(yuǎn)地區(qū),你也能享受AI服務(wù),就像隨身攜帶了一本永遠(yuǎn)不會(huì)過時(shí)的百科全書。
研究團(tuán)隊(duì)采用了四個(gè)維度的創(chuàng)新策略來實(shí)現(xiàn)這個(gè)目標(biāo)。第一個(gè)策略是重新設(shè)計(jì)模型架構(gòu),他們開發(fā)了一種叫做InfLLM v2的"稀疏注意力機(jī)制"。想象一下,如果你的大腦在思考問題時(shí)不需要同時(shí)關(guān)注所有信息,而是能夠智能地選擇最相關(guān)的部分,那你的思考效率會(huì)高很多。這就是稀疏注意力的工作原理,它讓模型在處理長(zhǎng)文本時(shí)只關(guān)注最重要的內(nèi)容,從而大大提高了處理速度。
第二個(gè)策略是數(shù)據(jù)質(zhì)量的提升。研究團(tuán)隊(duì)開發(fā)了名為UltraClean的數(shù)據(jù)過濾技術(shù),這就像是為AI準(zhǔn)備了營(yíng)養(yǎng)豐富、搭配均衡的精致餐食,而不是讓它吃垃圾食品。他們還創(chuàng)建了UltraChat v2數(shù)據(jù)集,專門用于訓(xùn)練模型的對(duì)話能力。通過這種精心篩選的訓(xùn)練數(shù)據(jù),MiniCPM4僅用8萬億個(gè)訓(xùn)練詞匯就達(dá)到了其他模型需要36萬億詞匯才能達(dá)到的效果。
第三個(gè)策略聚焦于訓(xùn)練算法的優(yōu)化。團(tuán)隊(duì)升級(jí)了他們的ModelTunnel v2系統(tǒng),這個(gè)系統(tǒng)就像是一個(gè)超級(jí)高效的教練,能夠找到最佳的訓(xùn)練方法。他們還引入了"分塊式展開"的強(qiáng)化學(xué)習(xí)技術(shù),這種方法就像是把一個(gè)復(fù)雜的學(xué)習(xí)任務(wù)分解成多個(gè)小步驟,讓模型能夠更穩(wěn)定、更高效地學(xué)習(xí)。
第四個(gè)策略是推理系統(tǒng)的創(chuàng)新。研究團(tuán)隊(duì)開發(fā)了CPM.cu推理框架,這個(gè)系統(tǒng)集成了稀疏注意力、模型量化和投機(jī)采樣等多種技術(shù)。簡(jiǎn)單來說,就是讓模型在運(yùn)行時(shí)變得更聰明、更節(jié)能,就像一輛配備了最先進(jìn)燃油經(jīng)濟(jì)技術(shù)的汽車,能夠用更少的燃料跑更遠(yuǎn)的距離。
一、突破性的稀疏注意力技術(shù)
在MiniCPM4的所有創(chuàng)新中,最核心的要算InfLLM v2稀疏注意力機(jī)制了。要理解這個(gè)技術(shù)的重要性,我們可以把注意力機(jī)制想象成人類閱讀一本書的過程。當(dāng)你閱讀一篇長(zhǎng)文章時(shí),你的大腦并不會(huì)同時(shí)關(guān)注每一個(gè)字詞,而是會(huì)根據(jù)當(dāng)前的閱讀需要,重點(diǎn)關(guān)注最相關(guān)的段落和句子。
傳統(tǒng)的AI模型就像是一個(gè)過分認(rèn)真的學(xué)生,每次處理文本時(shí)都要把所有內(nèi)容從頭到尾仔細(xì)看一遍,即使處理一個(gè)簡(jiǎn)單問題也要翻遍整本教科書。這樣雖然很全面,但效率極低,特別是在處理長(zhǎng)文檔時(shí),計(jì)算量會(huì)呈指數(shù)級(jí)增長(zhǎng)。
InfLLM v2的巧妙之處在于,它教會(huì)了AI如何像人類一樣"選擇性關(guān)注"。它把整篇文檔分成許多小塊,就像把一本厚書分成若干章節(jié)。然后,當(dāng)AI需要回答問題或生成文本時(shí),它會(huì)智能地選擇最相關(guān)的幾個(gè)章節(jié)來重點(diǎn)分析,而不是每次都要通讀全書。
這個(gè)過程分為兩個(gè)階段。第一階段是"動(dòng)態(tài)塊選擇",AI會(huì)快速瀏覽所有文檔塊,計(jì)算每個(gè)塊與當(dāng)前任務(wù)的相關(guān)性分?jǐn)?shù),就像你翻閱目錄尋找相關(guān)章節(jié)一樣。第二階段是"精確處理",AI只對(duì)選中的高相關(guān)性塊進(jìn)行詳細(xì)分析,大大減少了計(jì)算量。
更聰明的是,InfLLM v2還引入了"語義核心"概念。想象一下,每個(gè)文檔塊都有一個(gè)"精華摘要",AI可以通過這些摘要快速判斷哪些內(nèi)容值得深入閱讀。這就像你在圖書館查資料時(shí),先看書籍的摘要和目錄,再?zèng)Q定是否需要借閱這本書。
實(shí)驗(yàn)結(jié)果顯示,這種稀疏注意力機(jī)制讓MiniCPM4在處理長(zhǎng)文檔時(shí)速度提升了7倍,同時(shí)保持了與傳統(tǒng)方法相當(dāng)?shù)臏?zhǔn)確性。這意味著,在手機(jī)這樣的設(shè)備上,MiniCPM4能夠流暢地處理長(zhǎng)達(dá)128K字符的文檔,這相當(dāng)于一本中等篇幅小說的長(zhǎng)度。
特別值得一提的是,這種技術(shù)既能加速"預(yù)填充"過程(即AI首次處理輸入文本的階段),也能加速"解碼"過程(即AI生成回復(fù)的階段)。這就像同時(shí)提高了汽車的啟動(dòng)速度和行駛速度,讓整個(gè)用戶體驗(yàn)變得更加流暢。
二、革命性的數(shù)據(jù)處理策略
如果說稀疏注意力是MiniCPM4的"大腦優(yōu)化",那么UltraClean數(shù)據(jù)處理技術(shù)就是它的"營(yíng)養(yǎng)改善計(jì)劃"。在AI訓(xùn)練領(lǐng)域,有一句話說得好:"垃圾進(jìn),垃圾出"。無論模型設(shè)計(jì)得多么精巧,如果訓(xùn)練數(shù)據(jù)質(zhì)量不高,最終的效果也會(huì)大打折扣。
傳統(tǒng)的AI訓(xùn)練就像是讓一個(gè)學(xué)生閱讀整個(gè)互聯(lián)網(wǎng)上的所有文章,其中既有高質(zhì)量的學(xué)術(shù)論文,也有錯(cuò)誤百出的網(wǎng)絡(luò)謠言。這種"來者不拒"的學(xué)習(xí)方式不僅效率低下,還可能讓AI學(xué)到錯(cuò)誤的知識(shí)。
OpenBMB團(tuán)隊(duì)開發(fā)的UltraClean系統(tǒng)就像是一個(gè)超級(jí)嚴(yán)格的圖書管理員,它會(huì)對(duì)所有訓(xùn)練數(shù)據(jù)進(jìn)行多層篩選。這個(gè)過程包含兩個(gè)主要?jiǎng)?chuàng)新:高效驗(yàn)證策略和智能質(zhì)量分類器。
高效驗(yàn)證策略的工作原理特別巧妙。傳統(tǒng)方法需要用候選數(shù)據(jù)從頭訓(xùn)練一個(gè)完整的AI模型來驗(yàn)證數(shù)據(jù)質(zhì)量,這就像為了測(cè)試一道菜的味道而重新開一家餐廳一樣浪費(fèi)。而UltraClean采用的方法更像是找一個(gè)已經(jīng)快要畢業(yè)的廚師,讓他嘗試用新食材做幾道菜,通過最終成品的質(zhì)量來判斷食材的好壞。
具體來說,研究團(tuán)隊(duì)會(huì)用一個(gè)接近訓(xùn)練完成的模型作為基礎(chǔ),在最后的訓(xùn)練步驟中加入候選數(shù)據(jù),然后觀察模型性能的變化。如果新數(shù)據(jù)能讓模型表現(xiàn)得更好,就說明這些數(shù)據(jù)是高質(zhì)量的;如果性能下降,就說明數(shù)據(jù)有問題。這種方法將驗(yàn)證成本從1200個(gè)GPU小時(shí)降低到了110個(gè)GPU小時(shí),效率提升了10倍以上。
智能質(zhì)量分類器則基于一個(gè)簡(jiǎn)單而深刻的假設(shè):能夠提升AI表現(xiàn)的高質(zhì)量數(shù)據(jù),也應(yīng)該能訓(xùn)練出更好的質(zhì)量判別器。研究團(tuán)隊(duì)用驗(yàn)證過的高質(zhì)量數(shù)據(jù)作為正面樣本,用隨機(jī)抽取的網(wǎng)絡(luò)數(shù)據(jù)作為負(fù)面樣本,訓(xùn)練了一個(gè)專門識(shí)別數(shù)據(jù)質(zhì)量的分類器。
這個(gè)分類器的訓(xùn)練過程也很有講究。為了確保分類器的魯棒性,研究團(tuán)隊(duì)從多個(gè)不同來源收集負(fù)面樣本,包括FineWeb、C4、Dolma等主流數(shù)據(jù)集。這就像訓(xùn)練一個(gè)食品安全檢查員,不僅要讓他知道好食材長(zhǎng)什么樣,還要讓他見識(shí)過各種可能的問題食材。
更有趣的是,研究團(tuán)隊(duì)還采用了"迭代訓(xùn)練機(jī)制"。在初始訓(xùn)練完成后,他們用當(dāng)前分類器識(shí)別出的正負(fù)樣本作為新的訓(xùn)練數(shù)據(jù),不斷改進(jìn)分類器的判斷能力。這個(gè)過程就像是讓檢查員通過實(shí)際工作經(jīng)驗(yàn)不斷提升自己的判斷水平。
在數(shù)據(jù)生成方面,團(tuán)隊(duì)還專門針對(duì)推理密集型任務(wù)開發(fā)了數(shù)據(jù)生成管道。他們發(fā)現(xiàn),雖然網(wǎng)絡(luò)上有大量的知識(shí)性內(nèi)容,但真正需要邏輯推理的高質(zhì)量數(shù)據(jù)卻相對(duì)稀缺。因此,他們利用現(xiàn)有的AI模型生成了大量數(shù)學(xué)和編程相關(guān)的推理數(shù)據(jù),就像是專門為AI學(xué)生定制了邏輯思維訓(xùn)練題。
通過這套完整的數(shù)據(jù)處理流水線,研究團(tuán)隊(duì)最終構(gòu)建了UltraFineWeb數(shù)據(jù)集。實(shí)驗(yàn)結(jié)果顯示,用這個(gè)數(shù)據(jù)集訓(xùn)練的模型在多個(gè)評(píng)測(cè)任務(wù)上都顯著超越了用原始數(shù)據(jù)訓(xùn)練的模型。在英語評(píng)測(cè)中,平均性能提升了3.61個(gè)百分點(diǎn);在中文評(píng)測(cè)中,也有1.98個(gè)百分點(diǎn)的提升。這個(gè)提升幅度在AI領(lǐng)域已經(jīng)是相當(dāng)顯著的進(jìn)步了。
三、智能化的訓(xùn)練優(yōu)化系統(tǒng)
如果把AI訓(xùn)練比作培養(yǎng)一個(gè)學(xué)生,那么ModelTunnel v2就是一個(gè)超級(jí)智能的教育顧問,它能夠?yàn)槊總€(gè)學(xué)生制定最適合的學(xué)習(xí)計(jì)劃。在AI研究領(lǐng)域,找到最佳的訓(xùn)練參數(shù)一直是一個(gè)令人頭疼的問題,傳統(tǒng)方法往往需要進(jìn)行大量昂貴的試驗(yàn)才能找到理想的設(shè)置。
ModelTunnel v2的核心思想是"小模型大智慧"。研究團(tuán)隊(duì)發(fā)現(xiàn),雖然我們無法直接在大模型上進(jìn)行大量實(shí)驗(yàn)(因?yàn)槌杀咎撸?,但我們可以在小模型上找到最?yōu)的訓(xùn)練策略,然后將這些策略應(yīng)用到大模型上。這就像是先在沙盤上演練戰(zhàn)術(shù),確認(rèn)有效后再在真實(shí)戰(zhàn)場(chǎng)上實(shí)施。
這個(gè)系統(tǒng)的一個(gè)重要改進(jìn)是引入了更合理的性能指標(biāo)。傳統(tǒng)的預(yù)測(cè)縮放方法通常用語言模型損失作為性能指標(biāo),但這就像用考試分?jǐn)?shù)來評(píng)價(jià)一個(gè)學(xué)生的綜合能力一樣,往往不夠準(zhǔn)確。研究團(tuán)隊(duì)構(gòu)建了ScalingBench評(píng)測(cè)體系,建立了損失值與下游任務(wù)性能之間的映射關(guān)系。
ScalingBench的工作原理很巧妙。研究團(tuán)隊(duì)從各種下游任務(wù)的驗(yàn)證數(shù)據(jù)集中構(gòu)建評(píng)測(cè)數(shù)據(jù),然后用GPT-4o為每個(gè)測(cè)試樣例生成推理步驟。這樣,模型在預(yù)測(cè)答案時(shí)不僅要考慮最終結(jié)果,還要考慮推理過程的合理性。通過這種方式計(jì)算出的損失值能夠更好地反映模型在實(shí)際任務(wù)中的表現(xiàn)。
為了驗(yàn)證ScalingBench的有效性,研究團(tuán)隊(duì)用不同規(guī)模的模型(從0.36B到4B參數(shù))進(jìn)行了大量實(shí)驗(yàn)。結(jié)果顯示,ScalingBench分?jǐn)?shù)與下游任務(wù)性能之間確實(shí)存在穩(wěn)定的S型函數(shù)關(guān)系。更令人信服的是,那些沒有參與函數(shù)擬合的7B和80B參數(shù)模型的表現(xiàn)也完全符合這個(gè)關(guān)系,證明了這種預(yù)測(cè)方法的可靠性。
在具體的訓(xùn)練策略搜索方面,ModelTunnel v2比較了μP(maximal update parameterization)和StepLaw兩種不同的超參數(shù)遷移方法。μP方法通過修改模型的計(jì)算過程來確保超參數(shù)設(shè)置可以在不同規(guī)模的模型之間共享,而StepLaw則通過分析超參數(shù)與模型規(guī)模之間的關(guān)系來確定最優(yōu)配置。
經(jīng)過系統(tǒng)性的比較實(shí)驗(yàn),研究團(tuán)隊(duì)發(fā)現(xiàn)這兩種方法在他們的實(shí)驗(yàn)環(huán)境下性能相當(dāng),但μP方法的搜索成本要低得多。這就像是發(fā)現(xiàn)了兩條通往同一目的地的路徑,其中一條路程更短、花費(fèi)更少。因此,他們選擇了μP作為MiniCPM4的基礎(chǔ)架構(gòu)。
在訓(xùn)練工程優(yōu)化方面,研究團(tuán)隊(duì)還實(shí)現(xiàn)了多項(xiàng)技術(shù)改進(jìn)。他們采用了多令牌預(yù)測(cè)訓(xùn)練目標(biāo),這種方法不僅能引入更密集的監(jiān)督信號(hào),還能讓額外的預(yù)測(cè)頭在投機(jī)采樣中發(fā)揮作用,提高推理速度。同時(shí),他們還實(shí)現(xiàn)了FP8混合精度訓(xùn)練框架,充分利用GPU的計(jì)算能力,進(jìn)一步提升訓(xùn)練效率。
這些優(yōu)化措施的綜合效果是顯著的。最終的MiniCPM4-8B模型用8.3萬億個(gè)高質(zhì)量令牌就達(dá)到了與其他模型用36萬億令牌相當(dāng)?shù)男阅?,?xùn)練效率提升了約4.3倍。這不僅大大降低了訓(xùn)練成本,也為更多研究機(jī)構(gòu)參與大模型研究提供了可能。
四、革新的后訓(xùn)練技術(shù)
如果說前面的技術(shù)是為了培養(yǎng)一個(gè)基礎(chǔ)扎實(shí)的學(xué)生,那么后訓(xùn)練階段就是要讓這個(gè)學(xué)生學(xué)會(huì)與人交流,學(xué)會(huì)思考和推理。在這個(gè)階段,MiniCPM4引入了幾項(xiàng)創(chuàng)新技術(shù),讓模型不僅能夠理解和生成文本,還能進(jìn)行深度推理和復(fù)雜任務(wù)處理。
UltraChat v2是這個(gè)階段的核心數(shù)據(jù)集,它的設(shè)計(jì)理念是"質(zhì)量?jī)?yōu)于數(shù)量"。與傳統(tǒng)的指令調(diào)優(yōu)數(shù)據(jù)集不同,UltraChat v2專注于構(gòu)建需要深度推理的多輪對(duì)話。想象一下,這就像是從簡(jiǎn)單的問答游戲升級(jí)到了復(fù)雜的案例討論,每個(gè)對(duì)話都需要模型進(jìn)行多步推理和邏輯分析。
這個(gè)數(shù)據(jù)集涵蓋了五個(gè)關(guān)鍵能力領(lǐng)域。首先是知識(shí)密集型數(shù)據(jù),研究團(tuán)隊(duì)從各學(xué)科的教材、考試大綱和專業(yè)文獻(xiàn)中提取知識(shí)點(diǎn),然后利用AI模型生成針對(duì)性的問答對(duì)。這個(gè)過程就像是為AI學(xué)生準(zhǔn)備了一套覆蓋各個(gè)學(xué)科的練習(xí)題庫。
在推理密集型數(shù)據(jù)方面,研究團(tuán)隊(duì)特別關(guān)注數(shù)學(xué)推理和代碼推理兩個(gè)領(lǐng)域。對(duì)于數(shù)學(xué)推理,他們系統(tǒng)性地整理了從初等數(shù)學(xué)到大學(xué)數(shù)學(xué)的各個(gè)知識(shí)點(diǎn),包括線性代數(shù)、微積分、概率統(tǒng)計(jì)等。更重要的是,他們不僅生成問題和答案,還要求模型生成完整的推理過程和自我反思,這就像是要求學(xué)生不僅要給出正確答案,還要詳細(xì)解釋解題思路。
代碼推理數(shù)據(jù)的構(gòu)建則更加貼近實(shí)際應(yīng)用場(chǎng)景。研究團(tuán)隊(duì)從GitHub等開源平臺(tái)收集高質(zhì)量代碼片段,然后設(shè)計(jì)各種編程場(chǎng)景和問題。這些問題不僅包括語義補(bǔ)全、錯(cuò)誤定位等基礎(chǔ)任務(wù),還包括復(fù)雜的邏輯理解和跨語言轉(zhuǎn)換。為了確保代碼的正確性,每個(gè)生成的程序都會(huì)配備相應(yīng)的單元測(cè)試和輸入輸出樣例。
在指令遵循數(shù)據(jù)方面,研究團(tuán)隊(duì)采用了"漸進(jìn)式復(fù)雜度構(gòu)建"的策略。他們從簡(jiǎn)單的基礎(chǔ)指令開始,逐步增加格式、風(fēng)格和內(nèi)容方面的要求,就像是循序漸進(jìn)地訓(xùn)練一個(gè)學(xué)生適應(yīng)越來越復(fù)雜的任務(wù)要求。特別有趣的是,他們還開發(fā)了"結(jié)果可驗(yàn)證指令生成"方法,確保每個(gè)指令都有明確的評(píng)判標(biāo)準(zhǔn)。
長(zhǎng)上下文數(shù)據(jù)的構(gòu)建靈感來源于LongAlign項(xiàng)目。研究團(tuán)隊(duì)會(huì)從預(yù)訓(xùn)練語料中采樣一個(gè)文檔,然后圍繞這個(gè)文檔生成多個(gè)不同類型的查詢,包括提取、總結(jié)、推理和開放域問答等。為了模擬長(zhǎng)上下文推理的挑戰(zhàn)性,他們還會(huì)檢索相關(guān)但可能無關(guān)的文檔作為干擾項(xiàng),這就像是在信息海洋中尋找特定的珍珠。
工具使用數(shù)據(jù)則涵蓋了函數(shù)調(diào)用和代碼解釋器兩個(gè)方面。函數(shù)調(diào)用數(shù)據(jù)結(jié)合了公開數(shù)據(jù)集和內(nèi)部生成數(shù)據(jù),并且為每個(gè)工具調(diào)用添加了思維鏈推理步驟,幫助模型更好地理解任務(wù)需求和工具選擇邏輯。代碼解釋器數(shù)據(jù)則關(guān)注解決實(shí)際問題的完整流程,包括代碼生成、執(zhí)行、結(jié)果分析和迭代改進(jìn)。
五、突破性的分塊式強(qiáng)化學(xué)習(xí)
在后訓(xùn)練的高級(jí)階段,研究團(tuán)隊(duì)引入了一項(xiàng)名為"分塊式展開"的強(qiáng)化學(xué)習(xí)技術(shù)。這項(xiàng)技術(shù)的出現(xiàn)主要是為了解決一個(gè)實(shí)際問題:在強(qiáng)化學(xué)習(xí)過程中,不同的推理任務(wù)可能需要生成不同長(zhǎng)度的回答,有些可能只需要幾句話,有些可能需要長(zhǎng)篇大論,這種長(zhǎng)度差異會(huì)導(dǎo)致計(jì)算資源的浪費(fèi)和訓(xùn)練的不穩(wěn)定。
想象一下這樣的場(chǎng)景:在一個(gè)課堂上,老師給出了不同難度的題目,有些學(xué)生很快就能完成簡(jiǎn)單題目,而另一些學(xué)生還在苦思冥想復(fù)雜問題。如果按照傳統(tǒng)方法,所有學(xué)生都必須等到最慢的那個(gè)完成才能進(jìn)入下一輪,這顯然是低效的。
分塊式展開技術(shù)就像是給每個(gè)學(xué)生設(shè)定了一個(gè)固定的答題時(shí)間。在這個(gè)時(shí)間內(nèi),能完成的就提交答案進(jìn)行評(píng)分,沒完成的就保存當(dāng)前進(jìn)度,下一輪繼續(xù)作答。這樣既避免了計(jì)算資源的浪費(fèi),又保證了訓(xùn)練過程的穩(wěn)定性。
具體來說,這個(gè)技術(shù)限制了每次展開階段的最大輸出令牌預(yù)算,那些在規(guī)定時(shí)間內(nèi)沒有完成的軌跡會(huì)在后續(xù)迭代中繼續(xù)生成。為了處理這種"跨迭代"的不完整軌跡,研究團(tuán)隊(duì)開發(fā)了幾項(xiàng)穩(wěn)定化技術(shù)。
首先是分塊級(jí)重要性采樣。由于不同的軌跡可能跨越多個(gè)策略模型版本,需要在分塊級(jí)別獨(dú)立地進(jìn)行重要性權(quán)重計(jì)算。這就像是根據(jù)每個(gè)學(xué)生使用的不同版本教材來調(diào)整他們答案的評(píng)分權(quán)重。
其次是雙重裁剪技術(shù)。分塊式策略容易引入部分離策略展開,這可能導(dǎo)致訓(xùn)練損失的劇烈波動(dòng)。雙重裁剪技術(shù)通過從兩個(gè)方向限制策略更新范圍,有效減少了由軌跡分布差異引起的不穩(wěn)定性。
第三是帶動(dòng)態(tài)參考更新的KL正則化。與一些移除KL損失的最新研究不同,研究團(tuán)隊(duì)發(fā)現(xiàn)保留KL懲罰對(duì)分塊式展開的穩(wěn)定訓(xùn)練至關(guān)重要。為了避免過度限制策略模型的潛力,他們定期更新參考模型,在訓(xùn)練穩(wěn)定性和模型性能之間找到平衡。
最后是亂碼過濾器。由于分塊式展開會(huì)重用之前策略模型的不完整軌跡,存在生成損壞或不連貫文本的風(fēng)險(xiǎn)。亂碼過濾器能夠檢測(cè)并排除這些異常軌跡,防止它們影響訓(xùn)練穩(wěn)定性。
實(shí)驗(yàn)結(jié)果顯示,分塊式展開策略在保持性能的同時(shí)顯著提升了訓(xùn)練效率。在DAPO數(shù)據(jù)集上的測(cè)試表明,這種方法能夠有效減少采樣時(shí)間,提高GPU利用率,同時(shí)保持與傳統(tǒng)方法相當(dāng)?shù)男阅芩健?/p>
六、極致壓縮的量化技術(shù)
為了讓MiniCPM4能夠在資源極其有限的設(shè)備上運(yùn)行,研究團(tuán)隊(duì)還開發(fā)了BitCPM4量化技術(shù)。這項(xiàng)技術(shù)的目標(biāo)是將模型的參數(shù)從傳統(tǒng)的16位或32位壓縮到極端的3位(三進(jìn)制),就像是把一本厚重的百科全書壓縮成一本口袋手冊(cè),但仍然保留其核心知識(shí)。
傳統(tǒng)的量化方法通常需要從頭開始訓(xùn)練量化模型,這個(gè)過程既耗時(shí)又耗費(fèi)計(jì)算資源。BitCPM4采用了一種更聰明的兩階段訓(xùn)練策略。首先訓(xùn)練一個(gè)高精度的FP8模型,然后將其轉(zhuǎn)換為三進(jìn)制模型進(jìn)行量化感知訓(xùn)練。這就像是先培養(yǎng)一個(gè)有扎實(shí)基礎(chǔ)的學(xué)生,然后再教他如何在有限條件下發(fā)揮能力。
研究團(tuán)隊(duì)通過大量實(shí)驗(yàn)發(fā)現(xiàn)了一個(gè)重要規(guī)律:當(dāng)量化感知訓(xùn)練的令牌數(shù)量超過總訓(xùn)練令牌的40%時(shí),最終性能就能接近從頭開始訓(xùn)練三進(jìn)制模型的效果。這個(gè)發(fā)現(xiàn)意義重大,因?yàn)樗馕吨梢杂酶俚挠?jì)算資源獲得同樣的效果。
在模型性能方面,BitCPM4取得了令人印象深刻的結(jié)果。0.5B參數(shù)的BitCPM4在知識(shí)相關(guān)任務(wù)(如MMLU、CMMLU、C-EVAL等)上超越了Qwen3-0.6B模型,而1B參數(shù)的BitCPM4性能甚至可以與2B參數(shù)的競(jìng)爭(zhēng)模型相媲美。更重要的是,BitCPM4所需的訓(xùn)練令牌僅為BitNet-2B的10%,大大降低了訓(xùn)練成本。
然而,研究團(tuán)隊(duì)也坦誠(chéng)地指出了當(dāng)前方法的局限性。0.5B參數(shù)的模型在復(fù)雜的數(shù)學(xué)和編程任務(wù)上表現(xiàn)相對(duì)較弱,這主要是因?yàn)檩^小的模型規(guī)模限制了推理能力?,F(xiàn)有的量化有效性確實(shí)遵循與模型規(guī)模相關(guān)的縮放定律,未來需要將這種量化方法應(yīng)用到更大規(guī)模的模型上。
七、高效推理系統(tǒng)的整體設(shè)計(jì)
為了充分發(fā)揮MiniCPM4的潛力,研究團(tuán)隊(duì)還開發(fā)了兩套完整的推理系統(tǒng):CPM.cu和ArkInfer。這兩個(gè)系統(tǒng)就像是為高性能跑車配備的專業(yè)跑道和支持團(tuán)隊(duì),確保模型能夠在各種環(huán)境下都發(fā)揮出最佳性能。
CPM.cu是專門為NVIDIA端側(cè)設(shè)備優(yōu)化的輕量級(jí)推理框架。這個(gè)框架的設(shè)計(jì)理念是"一切為了速度",它集成了靜態(tài)內(nèi)存管理、內(nèi)核融合和高效投機(jī)采樣等多種優(yōu)化技術(shù)。想象一下,這就像是為一輛賽車配備了最先進(jìn)的空氣動(dòng)力學(xué)套件、輕量化材料和高性能引擎。
在投機(jī)采樣優(yōu)化方面,研究團(tuán)隊(duì)發(fā)現(xiàn)傳統(tǒng)方法的一個(gè)瓶頸是草稿模型的語言建模頭計(jì)算開銷過大。為了解決這個(gè)問題,他們開發(fā)了FR-Spec技術(shù),通過頻率排序的詞匯表構(gòu)建和草稿驗(yàn)證來優(yōu)化投機(jī)采樣過程。這種方法基于自然語言中詞匯頻率的長(zhǎng)尾分布特性,通過限制草稿搜索到高頻詞匯子集,將語言建模頭的計(jì)算開銷減少了75%。
量化技術(shù)方面,研究團(tuán)隊(duì)提出了P-GPTQ(前綴感知后訓(xùn)練量化)方法。他們發(fā)現(xiàn),大多數(shù)LLM在初始詞匯位置會(huì)出現(xiàn)大量激活,這會(huì)顯著降低激活量化的保真度。P-GPTQ通過在Hessian計(jì)算過程中排除這些初始詞匯位置的干擾,避免了統(tǒng)計(jì)偏差,提高了量化精度。
ArkInfer則是一個(gè)跨平臺(tái)部署系統(tǒng),旨在解決端側(cè)芯片碎片化的問題。這個(gè)系統(tǒng)支持MediaTek、Nvidia、Qualcomm、Rockchip等多種硬件平臺(tái),每個(gè)平臺(tái)都有其原生推理框架(如NeuroPilot、Genie、RK-LLM、TensorRT-LLM等)。ArkInfer通過統(tǒng)一的執(zhí)行器接口和適配器系統(tǒng),讓同一個(gè)模型能夠無縫地在不同平臺(tái)上運(yùn)行。
這種跨平臺(tái)兼容性的實(shí)現(xiàn)并不簡(jiǎn)單。研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)強(qiáng)大的抽象層,包括適配器系統(tǒng)來標(biāo)準(zhǔn)化不同后端的API,統(tǒng)一的張量結(jié)構(gòu)來處理各種數(shù)據(jù)類型和維度,以及專門的KV緩存管理器來優(yōu)化歷史狀態(tài)的存儲(chǔ)和檢索。
八、令人驚嘆的性能表現(xiàn)
經(jīng)過全面的評(píng)測(cè),MiniCPM4的表現(xiàn)確實(shí)令人印象深刻。在標(biāo)準(zhǔn)評(píng)測(cè)中,MiniCPM4-0.5B和MiniCPM4-8B都在同規(guī)模模型中取得了最佳性能,甚至超越了一些參數(shù)規(guī)模更大的競(jìng)爭(zhēng)對(duì)手。
在知識(shí)密集型任務(wù)方面,MiniCPM4-8B在MMLU測(cè)試中達(dá)到了75.83分,在中文CMMLU測(cè)試中更是達(dá)到了80.62分,在C-Eval測(cè)試中取得了81.36分。這些分?jǐn)?shù)不僅超越了同規(guī)模的其他開源模型,也證明了高質(zhì)量數(shù)據(jù)和高效訓(xùn)練策略的重要性。
在推理能力測(cè)試方面,MiniCPM4-8B在BigBench Hard測(cè)試中取得了76.73分,在數(shù)學(xué)推理GSM8K測(cè)試中達(dá)到了91.51分,在編程能力HumanEval測(cè)試中獲得了85.37分。這些結(jié)果表明,MiniCPM4不僅具備了扎實(shí)的知識(shí)基礎(chǔ),還具備了良好的邏輯推理和問題解決能力。
特別值得關(guān)注的是長(zhǎng)上下文處理能力。在RULER-NIAH(大海撈針)測(cè)試中,MiniCPM4在128K上下文長(zhǎng)度下達(dá)到了100%的準(zhǔn)確率,而且每個(gè)詞匯只需要關(guān)注約6K個(gè)上下文詞匯,稀疏度僅為5%。這意味著MiniCPM4能夠高效地處理長(zhǎng)篇文檔,這對(duì)于實(shí)際應(yīng)用來說是一個(gè)重要優(yōu)勢(shì)。
在推理速度方面,MiniCPM4的表現(xiàn)更是令人驚嘆。在Jetson AGX Orin設(shè)備上,與Qwen3-8B相比,MiniCPM4在解碼階段實(shí)現(xiàn)了約7倍的加速。隨著文本長(zhǎng)度的增加,這種效率優(yōu)勢(shì)變得更加明顯,這主要得益于稀疏注意力機(jī)制能夠有效減少長(zhǎng)文本的計(jì)算和內(nèi)存訪問開銷。
在RTX 4090這樣的高端設(shè)備上,MiniCPM4同樣表現(xiàn)出色。在處理128K長(zhǎng)度序列時(shí),預(yù)填充速度相比其他模型有顯著提升,解碼速度也保持了明顯優(yōu)勢(shì)。這種一致的性能表現(xiàn)證明了MiniCPM4的技術(shù)創(chuàng)新確實(shí)具有普遍適用性。
九、實(shí)際應(yīng)用的精彩展示
為了展示MiniCPM4的實(shí)際應(yīng)用價(jià)值,研究團(tuán)隊(duì)開發(fā)了兩個(gè)引人注目的應(yīng)用案例:MiniCPM4-Survey和MiniCPM4-MCP。這兩個(gè)應(yīng)用不僅證明了模型的技術(shù)能力,也展示了端側(cè)AI的巨大潛力。
MiniCPM4-Survey是一個(gè)自動(dòng)化學(xué)術(shù)綜述生成系統(tǒng)。想象一下,如果有一個(gè)AI助手能夠幫你閱讀大量學(xué)術(shù)論文,然后寫出一篇條理清晰、內(nèi)容全面的綜述文章,那將為研究人員節(jié)省多少時(shí)間和精力?這個(gè)系統(tǒng)采用"計(jì)劃-檢索-寫作"的三段式工作流程,能夠自動(dòng)規(guī)劃綜述結(jié)構(gòu)、檢索相關(guān)文獻(xiàn)、生成連貫內(nèi)容。
系統(tǒng)的工作過程就像一個(gè)經(jīng)驗(yàn)豐富的研究生導(dǎo)師指導(dǎo)學(xué)生寫綜述。首先,它會(huì)根據(jù)用戶的查詢生成一個(gè)詳細(xì)的全局計(jì)劃,確定需要涵蓋的主要章節(jié)和子主題。然后,它會(huì)根據(jù)計(jì)劃內(nèi)容生成合適的檢索關(guān)鍵詞,從知識(shí)庫中獲取相關(guān)的學(xué)術(shù)文獻(xiàn)。最后,它會(huì)綜合檢索到的信息,生成條理清晰、邏輯連貫的綜述內(nèi)容。
為了確保生成內(nèi)容的質(zhì)量,研究團(tuán)隊(duì)設(shè)計(jì)了一套全面的獎(jiǎng)勵(lì)系統(tǒng),包括結(jié)構(gòu)合理性、內(nèi)容相關(guān)性、覆蓋廣度、論述深度、觀點(diǎn)新穎性等多個(gè)維度。這就像是給AI設(shè)置了多個(gè)評(píng)價(jià)標(biāo)準(zhǔn),確保它不僅能寫出文章,還能寫出高質(zhì)量的文章。
在與其他系統(tǒng)的對(duì)比評(píng)測(cè)中,MiniCPM4-Survey在多個(gè)指標(biāo)上都表現(xiàn)出色,甚至在某些方面達(dá)到了與OpenAI Deep Research相當(dāng)?shù)乃健8匾氖?,這個(gè)系統(tǒng)在事實(shí)準(zhǔn)確性方面得分最高,達(dá)到了68.73分,這對(duì)于學(xué)術(shù)應(yīng)用來說是至關(guān)重要的。
MiniCPM4-MCP則展示了模型在工具使用方面的能力。MCP(模型上下文協(xié)議)是一個(gè)新興的標(biāo)準(zhǔn)化框架,旨在讓AI模型能夠與各種外部工具無縫協(xié)作。這就像是給AI配備了一個(gè)萬能工具箱,讓它能夠根據(jù)任務(wù)需要調(diào)用合適的工具。
系統(tǒng)支持16個(gè)不同的MCP服務(wù)器,涵蓋辦公效率、日常生活、通信、信息服務(wù)和工作管理等多個(gè)領(lǐng)域。在評(píng)測(cè)中,MiniCPM4-MCP在函數(shù)名準(zhǔn)確性方面達(dá)到了88.3%,在參數(shù)名準(zhǔn)確性方面達(dá)到了76.1%,在參數(shù)值準(zhǔn)確性方面達(dá)到了51.2%,整體表現(xiàn)超越了同規(guī)模的其他模型。
這兩個(gè)應(yīng)用案例充分展示了MiniCPM4在復(fù)雜任務(wù)中的應(yīng)用潛力。它們不僅證明了模型具備處理長(zhǎng)序列、進(jìn)行深度推理、使用外部工具的能力,也展示了端側(cè)AI在保護(hù)隱私、降低成本、提高響應(yīng)速度等方面的獨(dú)特優(yōu)勢(shì)。
說到底,MiniCPM4代表的不僅僅是一個(gè)技術(shù)進(jìn)步,更是AI發(fā)展方向的一次重要探索。在云端AI服務(wù)越來越普及的今天,端側(cè)AI提供了一種完全不同的可能性:讓每個(gè)人都能擁有一個(gè)私人的、不需要聯(lián)網(wǎng)的AI助手。
這種技術(shù)路線的意義是深遠(yuǎn)的。首先,它解決了隱私保護(hù)的問題,用戶的敏感數(shù)據(jù)不再需要上傳到云端,就像把貴重物品鎖在自己家的保險(xiǎn)柜里而不是寄存在銀行。其次,它大大降低了使用成本,不需要為每次AI交互付費(fèi),就像擁有一本永久免費(fèi)的百科全書。最后,它消除了網(wǎng)絡(luò)依賴,即使在偏遠(yuǎn)地區(qū)或網(wǎng)絡(luò)不穩(wěn)定的環(huán)境下,AI服務(wù)依然可用。
當(dāng)然,這項(xiàng)研究也還有一些待完善的地方。比如,較小規(guī)模的模型在某些復(fù)雜推理任務(wù)上仍有提升空間,極低比特量化的硬件支持還需要進(jìn)一步優(yōu)化。但是,從整體來看,MiniCPM4已經(jīng)為端側(cè)AI的發(fā)展提供了一個(gè)非常有前景的技術(shù)路徑。
未來,隨著硬件性能的不斷提升和算法的持續(xù)優(yōu)化,我們有理由相信,每個(gè)人的手機(jī)、平板、甚至智能手表上都可能運(yùn)行著一個(gè)強(qiáng)大的AI助手。這不是遙遠(yuǎn)的科幻夢(mèng)想,而是正在逐步實(shí)現(xiàn)的技術(shù)現(xiàn)實(shí)。MiniCPM4的出現(xiàn),讓我們離這個(gè)未來又近了一步。
對(duì)于普通用戶來說,這意味著什么呢?想象一下,你的手機(jī)能夠在完全離線的狀態(tài)下幫你寫郵件、翻譯文檔、回答問題、甚至進(jìn)行創(chuàng)意寫作。你不需要擔(dān)心隱私泄露,不需要支付高額費(fèi)用,也不需要等待網(wǎng)絡(luò)響應(yīng)。這樣的AI助手將真正成為你生活和工作中不可缺少的伙伴。
而對(duì)于開發(fā)者和研究者來說,MiniCPM4提供的不僅是一個(gè)高效的模型,更是一套完整的端側(cè)AI解決方案。從模型架構(gòu)到訓(xùn)練策略,從數(shù)據(jù)處理到推理優(yōu)化,這項(xiàng)研究為整個(gè)領(lǐng)域提供了寶貴的經(jīng)驗(yàn)和可復(fù)現(xiàn)的技術(shù)路徑。
這項(xiàng)來自清華大學(xué)OpenBMB團(tuán)隊(duì)的研究,無疑將在AI發(fā)展史上留下重要的一筆。它證明了通過巧妙的技術(shù)創(chuàng)新和精心的工程優(yōu)化,我們完全可能在保持模型能力的同時(shí)大幅降低計(jì)算需求。這不僅為AI的民主化鋪平了道路,也為人工智能技術(shù)的可持續(xù)發(fā)展提供了新的思路。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對(duì)話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。