近日,小米公司旗下的LLM-Core團(tuán)隊發(fā)布了一項重磅研究成果——MiMo-VL-7B系列視覺語言模型。這項研究于2025年6月4日在arXiv預(yù)印本平臺發(fā)布,論文標(biāo)題為《MiMo-VL Technical Report》,有興趣深入了解的讀者可以通過https://github.com/XiaomiMiMo/MiMo-VL訪問完整論文和模型代碼。
一、小小模型,大大能耐:MiMo-VL-7B的驚人實力
想象一下,你有一位只有7歲的小朋友,卻能解答大學(xué)生都頭疼的數(shù)學(xué)題,還能精準(zhǔn)理解各種圖像內(nèi)容,甚至幫你操作電腦完成復(fù)雜任務(wù)。這聽起來不可思議,但小米團(tuán)隊正是創(chuàng)造了這樣一個"小個子大智慧"的AI模型。
MiMo-VL-7B系列包含兩個版本:經(jīng)過監(jiān)督微調(diào)的MiMo-VL-7B-SFT和經(jīng)過強(qiáng)化學(xué)習(xí)優(yōu)化的MiMo-VL-7B-RL。雖然它們都只有7B參數(shù)(可以理解為AI的"大腦容量"只有7B個神經(jīng)元連接),但性能卻異常出色,甚至超越了許多擁有更大"大腦"(高達(dá)78B參數(shù))的模型。
具體來說,MiMo-VL-7B-RL在40項評測任務(wù)中的35項上超過了同等規(guī)模的Qwen2.5-VL-7B模型。在數(shù)學(xué)奧林匹克級別的多模態(tài)推理基準(zhǔn)測試OlympiadBench上,它獲得了59.4分的高分,超越了許多參數(shù)量高達(dá)78B的大模型。更令人驚訝的是,在圖形界面交互能力測試OSWorld-G上,它以56.1分的成績創(chuàng)下新標(biāo)準(zhǔn),甚至超過了專門為此類任務(wù)設(shè)計的專用模型如UI-TARS。
這就像一位小學(xué)生不僅在普通考試中拿滿分,還能在大學(xué)奧數(shù)比賽中擊敗大學(xué)生,同時還是電腦操作的高手——這樣的全能型人才在AI世界中也是極為罕見的。
二、獨特的訓(xùn)練方法:像教育天才兒童一樣培養(yǎng)AI
小米團(tuán)隊是如何打造出這款超能力模型的呢?他們采用了一種多階段、多方法結(jié)合的訓(xùn)練策略,就像培養(yǎng)一個天才兒童需要精心設(shè)計的教育計劃一樣。
首先是四階段的預(yù)訓(xùn)練過程,就像孩子從幼兒園到高中的系統(tǒng)學(xué)習(xí):
第一階段:投射器熱身階段。這就像教孩子認(rèn)字之前先教會他們辨認(rèn)形狀和顏色。模型通過處理圖像-文本配對數(shù)據(jù),學(xué)習(xí)將視覺概念映射到語言模型的表示空間。
第二階段:視覺-語言對齊階段。這相當(dāng)于孩子開始學(xué)習(xí)將看到的事物與語言描述對應(yīng)起來。在這個階段,研究團(tuán)隊解凍了視覺變換器(ViT),并引入了穿插數(shù)據(jù)以進(jìn)一步加強(qiáng)視覺-語言對齊能力。
第三階段:多模態(tài)預(yù)訓(xùn)練階段。這就像青少年開始接觸各種知識和技能,從體育到音樂,從科學(xué)到藝術(shù)。此時,所有參數(shù)都可訓(xùn)練,模型接觸到更多樣化的數(shù)據(jù)和任務(wù),包括OCR(光學(xué)字符識別)、定位、視頻和GUI(圖形用戶界面)數(shù)據(jù),總計處理了1.4萬億個標(biāo)記,以增強(qiáng)模型的通用多模態(tài)能力。
第四階段:長上下文監(jiān)督微調(diào)階段。這相當(dāng)于高中階段的深入學(xué)習(xí)。訓(xùn)練序列長度從8K擴(kuò)展到32K標(biāo)記,引入了額外的數(shù)據(jù)類型,如長純文本、高分辨率圖像、長文檔、擴(kuò)展視頻和長推理數(shù)據(jù),以增強(qiáng)其長上下文處理能力。
這四個階段的訓(xùn)練消耗了總計2.4萬億個標(biāo)記,相當(dāng)于模型"閱讀"了人類歷史上所有書籍的數(shù)百倍。這個預(yù)訓(xùn)練過程產(chǎn)生了MiMo-VL-7B-SFT模型。
接下來,研究團(tuán)隊采用了一種創(chuàng)新的混合在線策略強(qiáng)化學(xué)習(xí)(MORL)框架進(jìn)行后訓(xùn)練,就像讓天才學(xué)生參加特殊的奧林匹克訓(xùn)練營。這個框架無縫集成了具有可驗證獎勵的強(qiáng)化學(xué)習(xí)(RLVR)和基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF),覆蓋感知準(zhǔn)確性、視覺定位精度、邏輯推理能力和人類偏好等多種能力的培養(yǎng)。
這種訓(xùn)練方法有點像同時請多位不同領(lǐng)域的專家(數(shù)學(xué)家、藝術(shù)家、心理學(xué)家等)來指導(dǎo)一個全能型學(xué)生,各自關(guān)注學(xué)生的不同能力發(fā)展。最終產(chǎn)生的是MiMo-VL-7B-RL模型,一個在各方面都表現(xiàn)出色的"AI全能冠軍"。
三、數(shù)據(jù)就是力量:豐富多樣的"知識食糧"
在培養(yǎng)這個AI天才的過程中,"吃什么"和"怎么吃"同樣重要。小米研究團(tuán)隊精心策劃了一套豐富多樣的訓(xùn)練數(shù)據(jù)集,就像為成長中的孩子提供全面均衡的營養(yǎng)餐。
圖像說明數(shù)據(jù):通過多階段處理,研究團(tuán)隊構(gòu)建了一個平衡、高質(zhì)量、多樣化的圖像說明數(shù)據(jù)集。他們首先聚合了大量公開可用的說明數(shù)據(jù),然后進(jìn)行嚴(yán)格的去重和篩選。隨后,他們使用專門的模型重新生成說明,并采用MetaCLIP方法構(gòu)建雙語(中文和英文)元數(shù)據(jù),以優(yōu)化說明分布,減少高頻條目的過度表示和數(shù)據(jù)噪音。
穿插數(shù)據(jù):團(tuán)隊編譯了來自網(wǎng)頁、書籍和學(xué)術(shù)論文的大量穿插圖像-文本數(shù)據(jù)。他們使用先進(jìn)的PDF解析工具包提取和清理內(nèi)容,優(yōu)先保留豐富的世界知識,如教科書、百科全書、手冊、指南、專利和傳記。文本部分基于知識密度和可讀性等指標(biāo)進(jìn)行評估,圖像部分則應(yīng)用過濾器排除尺寸過小、比例異常、不安全內(nèi)容和視覺信息最少的圖像。
OCR和定位數(shù)據(jù):為增強(qiáng)模型在OCR和物體定位方面的能力,團(tuán)隊編譯了大量OCR和定位數(shù)據(jù)。OCR圖像包含各種文本內(nèi)容,從文檔、表格到一般場景和數(shù)學(xué)公式。為增加學(xué)習(xí)難度,他們特意納入了包含手寫文本、排版變形文本和模糊/遮擋文本的圖像。定位數(shù)據(jù)則涵蓋了單一和多物體場景,使用復(fù)雜的物體表達(dá)式來提高模型理解復(fù)雜參考意圖的能力。
視頻數(shù)據(jù):該數(shù)據(jù)集主要來自公開可用的在線視頻,涵蓋各種領(lǐng)域、類型和時長。團(tuán)隊設(shè)計了一個視頻重新說明流程,生成密集、細(xì)粒度的事件級描述,每個說明都有精確的開始和結(jié)束時間戳。他們還收集了視頻分析數(shù)據(jù),總結(jié)視頻的全局語義,如敘事結(jié)構(gòu)、風(fēng)格元素和隱含意圖。
圖形用戶界面數(shù)據(jù):為增強(qiáng)模型在GUI導(dǎo)航方面的能力,團(tuán)隊收集了涵蓋移動、網(wǎng)頁和桌面平臺的開源預(yù)訓(xùn)練數(shù)據(jù)。他們還設(shè)計了一個合成數(shù)據(jù)引擎,以彌補(bǔ)開源數(shù)據(jù)的局限性并增強(qiáng)模型特定能力。對于GUI定位,他們收集了元素定位和指令定位數(shù)據(jù);對于GUI操作,他們收集了大量長GUI操作軌跡,并將不同平臺的操作統(tǒng)一到標(biāo)準(zhǔn)化的操作空間中。
合成推理數(shù)據(jù):團(tuán)隊廣泛收集了開源問題,涵蓋感知問答、文檔問答、視頻問答和視覺推理任務(wù),輔以從網(wǎng)絡(luò)內(nèi)容和文學(xué)作品中派生的問答對。他們使用大型推理模型生成整合顯式推理的答案,并進(jìn)行嚴(yán)格的多階段質(zhì)量控制,評估思維清晰度,消除冗余,確保格式一致。
這些多樣化的數(shù)據(jù)就像為AI學(xué)生提供了豐富的"營養(yǎng)餐",既有基礎(chǔ)"主食"(如圖像說明數(shù)據(jù)),也有各種"營養(yǎng)補(bǔ)充劑"(如OCR、GUI和推理數(shù)據(jù)),確保它在各種任務(wù)上都表現(xiàn)出色。
四、兩個關(guān)鍵發(fā)現(xiàn):改變未來AI訓(xùn)練方式的啟示
在這項研究過程中,小米團(tuán)隊有兩個重要發(fā)現(xiàn),可能會對未來AI模型的訓(xùn)練方式產(chǎn)生深遠(yuǎn)影響。
第一個發(fā)現(xiàn):在預(yù)訓(xùn)練階段就納入高質(zhì)量、廣泛覆蓋的推理數(shù)據(jù)至關(guān)重要。這就像從小就培養(yǎng)孩子的思考能力,而不是等到高中才開始訓(xùn)練邏輯思維。
研究團(tuán)隊發(fā)現(xiàn),傳統(tǒng)的問答(QA)數(shù)據(jù),因其直接、簡短的答案,往往將模型局限于膚淺的模式匹配,容易導(dǎo)致過擬合。相比之下,合成的推理數(shù)據(jù)配合長鏈?zhǔn)剿伎?CoT)能夠讓模型學(xué)習(xí)復(fù)雜的邏輯關(guān)系和可泛化的推理模式,提供更豐富的監(jiān)督信號,顯著提高性能和訓(xùn)練效率。
為利用這一優(yōu)勢,團(tuán)隊通過識別多樣化的查詢,使用大型推理模型重新生成帶有長鏈?zhǔn)剿伎嫉捻憫?yīng),并應(yīng)用拒絕采樣來確保質(zhì)量,構(gòu)建了高質(zhì)量的推理數(shù)據(jù)。更重要的是,他們不是將這些數(shù)據(jù)作為補(bǔ)充微調(diào)數(shù)據(jù),而是直接將大量合成推理數(shù)據(jù)納入后期預(yù)訓(xùn)練階段,在那里延長訓(xùn)練產(chǎn)生了持續(xù)的性能改進(jìn),沒有出現(xiàn)飽和現(xiàn)象。
第二個發(fā)現(xiàn):混合在線策略強(qiáng)化學(xué)習(xí)進(jìn)一步提升了模型性能,但同時實現(xiàn)穩(wěn)定的同步改進(jìn)仍然具有挑戰(zhàn)性。這就像一個全能型學(xué)生同時接受多位不同領(lǐng)域?qū)<业挠?xùn)練,雖然整體能力提高了,但各個領(lǐng)域的進(jìn)步速度并不均衡。
研究團(tuán)隊在各種能力上應(yīng)用了RL,包括推理、感知、定位和人類偏好對齊,跨越文本、圖像和視頻等模態(tài)。雖然這種混合訓(xùn)練方法進(jìn)一步釋放了模型的潛力,但數(shù)據(jù)域之間的干擾仍然是一個挑戰(zhàn)。響應(yīng)長度增長趨勢和任務(wù)難度水平的差異阻礙了所有能力的穩(wěn)定、同步改進(jìn)。
這些發(fā)現(xiàn)不僅對小米團(tuán)隊自身的研究有指導(dǎo)意義,也為整個AI研究社區(qū)提供了寶貴的經(jīng)驗和啟示。
五、全面評估:從多個角度檢驗?zāi)P蛯嵙?/strong>
為了全面評估MiMo-VL-7B的能力,研究團(tuán)隊在50多個任務(wù)上進(jìn)行了廣泛測試,涵蓋了從基本視覺理解到復(fù)雜多模態(tài)推理的各個方面。
在基本視覺感知任務(wù)上,MiMo-VL-7B-RL達(dá)到了同等規(guī)模開源VLM中的最先進(jìn)性能,在MMMU上得分66.7,在35項評估任務(wù)中的35項上優(yōu)于Qwen2.5-VL-7B。這就像一個小學(xué)生在各種識別測試中獲得滿分,展示出超強(qiáng)的觀察力和理解力。
對于復(fù)雜的多模態(tài)推理,MiMo-VL-7B-RL表現(xiàn)出色,在OlympiadBench上得分59.4,超越了參數(shù)量高達(dá)72B的模型。這相當(dāng)于這個"小學(xué)生"能夠解決大學(xué)生級別的復(fù)雜數(shù)學(xué)問題,展示出深厚的邏輯思維能力。
在GUI定位方面,該模型創(chuàng)下新標(biāo)準(zhǔn),在OSWorld-G上得分為54.7,甚至超過了像UI-TARS這樣的專門模型。這就像這個"小學(xué)生"不僅學(xué)習(xí)成績好,還精通電腦操作,能夠幫助人們高效完成各種計算機(jī)任務(wù)。
在用戶體驗和偏好方面,MiMo-VL-7B-RL在研究團(tuán)隊的內(nèi)部用戶偏好評估中獲得了所有開源VLM中的最高Elo評分,與專有模型如Claude 3.7 Sonnet的表現(xiàn)相當(dāng)。這意味著用戶與這個AI互動時,感覺它的回應(yīng)既有幫助性又很自然,就像與一個知識淵博、表達(dá)清晰的朋友交談一樣。
這些評估結(jié)果證實了小米團(tuán)隊的方法是有效的:通過將強(qiáng)感知、復(fù)雜推理和精確定位能力結(jié)合在他們的MORL框架中,MiMo-VL-7B-SFT和MiMo-VL-7B-RL為開源視覺語言模型確立了新的標(biāo)準(zhǔn)。
六、實際應(yīng)用案例:看看MiMo-VL-7B能做什么
為了讓我們更直觀地了解MiMo-VL-7B的能力,論文中展示了幾個實際應(yīng)用案例。
在一個例子中,模型展示了強(qiáng)大的劇情理解能力,成功地將復(fù)雜的劇情轉(zhuǎn)換為結(jié)構(gòu)良好的markdown表格。這就像一個學(xué)生能夠?qū)⒁徊繌?fù)雜的小說情節(jié)整理成清晰的大綱,展示出對文本的深刻理解和組織能力。
另一個例子中,模型展示了在STEM任務(wù)中的卓越推理能力。它能夠在單個響應(yīng)中有效地解決多個STEM問題,就像一個數(shù)學(xué)天才能夠輕松解決一套復(fù)雜的數(shù)學(xué)試卷一樣。
更令人印象深刻的是,MiMo-VL-7B還展示了強(qiáng)大的代理能力。在一個案例中,它成功地導(dǎo)航網(wǎng)站,將小米SU7添加到愿望清單中,并自定義了油漆和內(nèi)飾選項。這就像一個非常熟練的個人助理,能夠幫你在網(wǎng)上完成復(fù)雜的購物任務(wù),包括選擇顏色、配置等細(xì)節(jié)。
這些實際應(yīng)用案例生動地展示了MiMo-VL-7B的多功能性和實用性,從學(xué)術(shù)任務(wù)到日常生活應(yīng)用,它都能提供有價值的幫助。
七、結(jié)語:開源的力量與未來展望
小米團(tuán)隊不僅創(chuàng)造了這款出色的視覺語言模型,還選擇將其開源,包括模型檢查點和完整的評估套件,這對整個AI社區(qū)來說是一個重大貢獻(xiàn)。
MiMo-VL-7B的成功證明,即使是相對"小型"的模型,只要訓(xùn)練方法得當(dāng),數(shù)據(jù)選擇恰當(dāng),也能達(dá)到甚至超越許多大型模型的性能。這對于希望在有限計算資源下部署高性能AI系統(tǒng)的研究人員和開發(fā)者來說,是一個極大的鼓舞。
該研究的發(fā)現(xiàn),特別是關(guān)于在預(yù)訓(xùn)練階段納入推理數(shù)據(jù)的重要性,以及混合強(qiáng)化學(xué)習(xí)策略的挑戰(zhàn)與機(jī)遇,為未來的AI模型訓(xùn)練提供了寶貴的見解和指導(dǎo)。
隨著這些技術(shù)的進(jìn)一步發(fā)展和應(yīng)用,我們可以期待看到更多強(qiáng)大、高效且易于訪問的AI系統(tǒng)出現(xiàn),為各行各業(yè)帶來變革性的影響。
對于想要深入了解或使用MiMo-VL-7B的讀者,可以通過https://github.com/XiaomiMiMo/MiMo-VL訪問完整的模型代碼和評估套件。無論你是研究人員、開發(fā)者還是對AI技術(shù)感興趣的普通人,這都是一個探索視覺語言模型最新進(jìn)展的絕佳機(jī)會。
好文章,需要你的鼓勵
新加坡國立大學(xué)研究團(tuán)隊開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實驗顯示,僅訓(xùn)練AI玩簡單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實現(xiàn)37.9%的精度提升,并在真實設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊通過對比實驗發(fā)現(xiàn),經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時刻"現(xiàn)象,但這些自我糾錯行為并不能實際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗證差距",即生成答案的能力強(qiáng)于驗證答案質(zhì)量的能力,且模型在自我驗證時無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動態(tài)稀疏性實現(xiàn)大語言模型訓(xùn)練加速1.6倍,計算成本降低2.2倍。該方法使用SVD稀疏性估計器智能選擇重要計算部分,在保持模型性能的同時顯著提升訓(xùn)練效率,已在多個任務(wù)上驗證有效性。