這項(xiàng)由上海AI實(shí)驗(yàn)室、上海交通大學(xué)、香港大學(xué)等多家機(jī)構(gòu)合作完成的研究,于2025年4月發(fā)表在arXiv預(yù)印本平臺(tái)(論文編號(hào):arXiv:2503.07365v2)。有興趣深入了解的讀者可以通過https://github.com/ModalMinds/MM-EUREKA訪問完整的開源代碼、模型和數(shù)據(jù)。
想象一下,當(dāng)你面對(duì)一道既有圖形又有文字的復(fù)雜數(shù)學(xué)題時(shí),大腦是如何工作的?你首先觀察圖形中的幾何關(guān)系,然后結(jié)合文字描述進(jìn)行邏輯推理,最后得出答案。這個(gè)看似簡(jiǎn)單的過程,對(duì)于人工智能來說卻是一個(gè)巨大的挑戰(zhàn)。就像教會(huì)一個(gè)從未見過顏色的人理解彩虹一樣,讓AI同時(shí)理解圖像和文字并進(jìn)行復(fù)雜推理,一直是科學(xué)家們努力攻克的難題。
上海AI實(shí)驗(yàn)室的研究團(tuán)隊(duì)最近在這個(gè)領(lǐng)域取得了突破性進(jìn)展。他們開發(fā)了一個(gè)名為MM-Eureka的AI系統(tǒng),就像給機(jī)器裝上了一雙能"看懂"圖片的眼睛和一個(gè)能"思考"問題的大腦。這個(gè)系統(tǒng)不僅能理解圖片中的內(nèi)容,還能結(jié)合文字信息進(jìn)行深度推理,在多個(gè)學(xué)科的視覺推理任務(wù)中表現(xiàn)出色。
為了訓(xùn)練這個(gè)AI系統(tǒng),研究團(tuán)隊(duì)還構(gòu)建了一個(gè)名為MMK12的大型數(shù)據(jù)集,包含了超過15000個(gè)多模態(tài)數(shù)學(xué)推理問題。這就像為AI準(zhǔn)備了一本內(nèi)容豐富的"習(xí)題冊(cè)",涵蓋了從小學(xué)到高中各個(gè)年級(jí)的數(shù)學(xué)、物理、化學(xué)、生物等學(xué)科問題。每道題都配有標(biāo)準(zhǔn)答案和詳細(xì)的解題過程,確保AI能夠?qū)W到正確的推理方法。
更令人興奮的是,MM-Eureka在許多基準(zhǔn)測(cè)試中的表現(xiàn)已經(jīng)接近甚至超越了一些知名的閉源AI系統(tǒng)。在數(shù)學(xué)視覺推理任務(wù)上,它甚至能與OpenAI的o1模型相提并論。這意味著,我們正在接近一個(gè)AI能夠像人類一樣進(jìn)行復(fù)雜視覺推理的時(shí)代。
一、打造AI的"視覺推理大腦":從看圖到解題的技術(shù)突破
傳統(tǒng)的AI系統(tǒng)就像一個(gè)只會(huì)背書的學(xué)生,雖然記住了大量知識(shí),但在面對(duì)需要靈活運(yùn)用的復(fù)雜問題時(shí)往往束手無策。研究團(tuán)隊(duì)發(fā)現(xiàn),要讓AI真正具備視覺推理能力,關(guān)鍵在于采用強(qiáng)化學(xué)習(xí)的訓(xùn)練方法,這就像是給AI找了一位嚴(yán)格的私人教練。
在強(qiáng)化學(xué)習(xí)過程中,AI系統(tǒng)就像一個(gè)正在學(xué)習(xí)騎自行車的孩子。每當(dāng)它給出正確答案時(shí),就會(huì)得到獎(jiǎng)勵(lì),這種正向反饋會(huì)讓它更傾向于重復(fù)正確的推理過程。相反,當(dāng)它犯錯(cuò)時(shí),系統(tǒng)會(huì)調(diào)整策略,避免重復(fù)同樣的錯(cuò)誤。這種"試錯(cuò)學(xué)習(xí)"的方式讓AI逐漸掌握了復(fù)雜的推理技巧。
然而,訓(xùn)練大型視覺推理模型面臨著一個(gè)重大挑戰(zhàn):系統(tǒng)容易在訓(xùn)練過程中"崩潰"。這就像學(xué)生在高強(qiáng)度訓(xùn)練中可能出現(xiàn)的倦怠現(xiàn)象,AI模型會(huì)突然失去之前學(xué)到的能力。為了解決這個(gè)問題,研究團(tuán)隊(duì)開發(fā)了一套創(chuàng)新的訓(xùn)練策略。
他們采用了在線過濾機(jī)制,這相當(dāng)于為AI配備了一個(gè)智能的"學(xué)習(xí)管家"。這個(gè)管家會(huì)實(shí)時(shí)監(jiān)控AI的學(xué)習(xí)狀態(tài),自動(dòng)篩選出那些對(duì)學(xué)習(xí)最有幫助的訓(xùn)練題目。當(dāng)AI對(duì)某類題目已經(jīng)完全掌握或完全不會(huì)時(shí),系統(tǒng)會(huì)暫時(shí)跳過這些題目,專注于那些處于"學(xué)習(xí)邊界"的問題。這種方法大大提高了訓(xùn)練效率,同時(shí)避免了模型崩潰。
對(duì)于更大規(guī)模的32B參數(shù)模型,研究團(tuán)隊(duì)還設(shè)計(jì)了一個(gè)兩階段訓(xùn)練策略。第一階段就像讓AI先學(xué)會(huì)走路,專注于培養(yǎng)基礎(chǔ)的推理能力。在這個(gè)階段,系統(tǒng)會(huì)暫時(shí)放松一些約束條件,讓AI有更大的探索空間。第二階段則像教AI跑步,在已有基礎(chǔ)上進(jìn)一步優(yōu)化性能,同時(shí)加入更嚴(yán)格的約束機(jī)制來保證訓(xùn)練穩(wěn)定性。
這種訓(xùn)練方法的效果是顯著的。經(jīng)過訓(xùn)練的MM-Eureka不僅在數(shù)學(xué)問題上表現(xiàn)出色,更令人驚訝的是,它在物理、化學(xué)、生物等其他學(xué)科上也展現(xiàn)出了強(qiáng)大的推理能力。這種跨學(xué)科的泛化能力表明,AI確實(shí)學(xué)會(huì)了一種通用的推理思維模式,而不是簡(jiǎn)單的模式匹配。
二、構(gòu)建AI學(xué)習(xí)的"百科全書":MMK12數(shù)據(jù)集的創(chuàng)新設(shè)計(jì)
就像為學(xué)生準(zhǔn)備高質(zhì)量的教材一樣,訓(xùn)練優(yōu)秀的AI推理系統(tǒng)需要精心設(shè)計(jì)的數(shù)據(jù)集。研究團(tuán)隊(duì)發(fā)現(xiàn),現(xiàn)有的多模態(tài)推理數(shù)據(jù)集存在諸多問題:有些數(shù)據(jù)集范圍太窄,只涵蓋幾何問題;有些雖然題目多樣,但答案準(zhǔn)確性難以保證;還有些是人工合成的題目,缺乏真實(shí)場(chǎng)景的復(fù)雜性。
為了解決這些問題,研究團(tuán)隊(duì)投入了大量精力構(gòu)建MMK12數(shù)據(jù)集。這個(gè)名稱中的"K12"代表從幼兒園到12年級(jí)的完整教育體系,體現(xiàn)了數(shù)據(jù)集的全面性。整個(gè)構(gòu)建過程就像編撰一部權(quán)威的教學(xué)參考書,每一個(gè)細(xì)節(jié)都經(jīng)過了精心設(shè)計(jì)和驗(yàn)證。
數(shù)據(jù)收集階段,研究團(tuán)隊(duì)從各種中文教材和考試試卷中收集了豐富多樣的多模態(tài)數(shù)學(xué)問題。這些題目涵蓋了函數(shù)、幾何、方程等多個(gè)數(shù)學(xué)領(lǐng)域,難度從小學(xué)到高中逐步遞增。收集到的原始材料就像一堆珍貴但雜亂的寶石,需要經(jīng)過精心的加工和整理。
接下來是翻譯和優(yōu)化階段。研究團(tuán)隊(duì)利用大語言模型將中文題目翻譯成英文,但這并不是簡(jiǎn)單的逐字翻譯。他們對(duì)每道題目進(jìn)行了細(xì)致的語言優(yōu)化,確保翻譯后的內(nèi)容既保持原意,又符合英文表達(dá)習(xí)慣。這個(gè)過程就像將一部?jī)?yōu)秀的中文小說改編成英文版本,需要在保持原作精神的同時(shí)適應(yīng)新的語言環(huán)境。
為了確保數(shù)據(jù)質(zhì)量,研究團(tuán)隊(duì)只保留了填空題格式的問題。這種選擇看似限制了題型多樣性,但實(shí)際上是一個(gè)聰明的策略。填空題的答案相對(duì)確定,便于AI系統(tǒng)進(jìn)行準(zhǔn)確的自我評(píng)估,減少了訓(xùn)練過程中的噪聲干擾。這就像在學(xué)習(xí)初期選擇標(biāo)準(zhǔn)答案明確的練習(xí)題,有助于建立正確的解題思路。
研究團(tuán)隊(duì)還使用了Math-Verify這樣的專業(yè)工具來解析和驗(yàn)證答案,確保每道題目的答案都是準(zhǔn)確無誤的。這種嚴(yán)格的質(zhì)量控制機(jī)制保證了AI在學(xué)習(xí)過程中接收到的都是正確的反饋信號(hào),避免了"學(xué)壞"的風(fēng)險(xiǎn)。
最終構(gòu)建完成的MMK12數(shù)據(jù)集包含了15616個(gè)多模態(tài)填空數(shù)學(xué)問題。這些問題按難度分層:小學(xué)題目455個(gè),初中題目9776個(gè),高中題目5385個(gè)。每個(gè)樣本都包含問題描述、相關(guān)圖像、標(biāo)準(zhǔn)答案和詳細(xì)的解題過程,為AI提供了完整的學(xué)習(xí)材料。
除了訓(xùn)練數(shù)據(jù),研究團(tuán)隊(duì)還構(gòu)建了一個(gè)包含2000個(gè)多選題的評(píng)估數(shù)據(jù)集,涵蓋數(shù)學(xué)、物理、化學(xué)、生物四個(gè)學(xué)科,每個(gè)學(xué)科500題。這就像為學(xué)生準(zhǔn)備了標(biāo)準(zhǔn)化考試,能夠全面評(píng)估AI在不同學(xué)科上的推理能力。
三、訓(xùn)練AI的"思維體操":強(qiáng)化學(xué)習(xí)讓機(jī)器學(xué)會(huì)推理
要理解MM-Eureka的訓(xùn)練過程,可以把它想象成培養(yǎng)一個(gè)天才學(xué)生的過程。傳統(tǒng)的AI訓(xùn)練方法就像讓學(xué)生死記硬背標(biāo)準(zhǔn)答案,雖然能在考試中取得不錯(cuò)的成績(jī),但缺乏真正的理解和靈活應(yīng)用能力。而強(qiáng)化學(xué)習(xí)則像是培養(yǎng)學(xué)生的獨(dú)立思考能力,讓它們學(xué)會(huì)自己分析問題、推導(dǎo)答案。
在MM-Eureka的訓(xùn)練體系中,研究團(tuán)隊(duì)采用了基于規(guī)則的獎(jiǎng)勵(lì)機(jī)制。這套機(jī)制非常簡(jiǎn)潔卻十分有效,就像設(shè)計(jì)了一個(gè)公平的評(píng)分系統(tǒng)。當(dāng)AI給出的答案完全正確時(shí),它會(huì)獲得1分的獎(jiǎng)勵(lì);如果答案錯(cuò)誤但遵循了指定的格式(使用了正確的標(biāo)簽和結(jié)構(gòu)),它會(huì)獲得0.5分的格式獎(jiǎng)勵(lì);如果既答錯(cuò)又格式不對(duì),那就是0分。這種設(shè)計(jì)鼓勵(lì)A(yù)I不僅要得出正確答案,還要學(xué)會(huì)規(guī)范的表達(dá)方式。
訓(xùn)練過程中最關(guān)鍵的創(chuàng)新是在線過濾策略。在傳統(tǒng)訓(xùn)練中,AI會(huì)接觸到所有的訓(xùn)練題目,包括那些它已經(jīng)完全掌握的簡(jiǎn)單題目和完全無法理解的超難題目。這就像讓一個(gè)數(shù)學(xué)優(yōu)等生反復(fù)練習(xí)加法題,或者讓初學(xué)者直接挑戰(zhàn)奧數(shù)競(jìng)賽題,都是效率低下的做法。
在線過濾機(jī)制則像一個(gè)智能的學(xué)習(xí)顧問,會(huì)實(shí)時(shí)監(jiān)控AI的學(xué)習(xí)狀態(tài)。當(dāng)AI對(duì)某類題目的正確率達(dá)到100%或者降到0%時(shí),系統(tǒng)會(huì)暫時(shí)將這些題目從訓(xùn)練隊(duì)列中移除,讓AI專注于那些處于"學(xué)習(xí)甜點(diǎn)"的題目。這些甜點(diǎn)題目通常是AI有一定基礎(chǔ)但還沒有完全掌握的,正是最有學(xué)習(xí)價(jià)值的材料。
為了處理大型模型訓(xùn)練中的穩(wěn)定性問題,研究團(tuán)隊(duì)設(shè)計(jì)了兩階段訓(xùn)練策略。第一階段可以比作讓AI進(jìn)行"自由探索"。在這個(gè)階段,系統(tǒng)會(huì)暫時(shí)放寬一些約束條件,讓AI有更大的嘗試空間。這種自由度有助于AI發(fā)現(xiàn)各種可能的解題路徑,培養(yǎng)創(chuàng)新的推理方式。
第二階段則轉(zhuǎn)向"精確優(yōu)化"。系統(tǒng)會(huì)引入更嚴(yán)格的約束機(jī)制,通過KL散度正則化來控制AI的行為變化幅度。這就像給一個(gè)已經(jīng)學(xué)會(huì)基本動(dòng)作的運(yùn)動(dòng)員進(jìn)行技術(shù)細(xì)節(jié)優(yōu)化,既要保持已有的優(yōu)勢(shì),又要在細(xì)節(jié)上精益求精。同時(shí),第二階段還會(huì)引入特定領(lǐng)域的訓(xùn)練數(shù)據(jù)(如幾何題目),來彌補(bǔ)第一階段可能存在的知識(shí)盲點(diǎn)。
整個(gè)訓(xùn)練過程采用了GRPO(Group Relative Policy Optimization)算法作為核心優(yōu)化方法。這個(gè)算法的巧妙之處在于,它不需要訓(xùn)練一個(gè)復(fù)雜的價(jià)值評(píng)估網(wǎng)絡(luò),而是通過對(duì)比同一題目的多個(gè)解答來確定優(yōu)劣。這就像組織學(xué)生進(jìn)行小組討論,通過相互比較來發(fā)現(xiàn)各自的優(yōu)缺點(diǎn),這種相對(duì)評(píng)估的方法既簡(jiǎn)單又有效。
通過這種精心設(shè)計(jì)的訓(xùn)練策略,MM-Eureka不僅學(xué)會(huì)了準(zhǔn)確解答各種復(fù)雜的視覺推理題目,更重要的是掌握了通用的推理思維模式。這種能力使它能夠在從未見過的新題型上也表現(xiàn)出色,真正實(shí)現(xiàn)了舉一反三的學(xué)習(xí)效果。
四、跨學(xué)科推理的意外驚喜:從數(shù)學(xué)到物理化學(xué)生物的全面突破
研究過程中最令團(tuán)隊(duì)意外的發(fā)現(xiàn)之一,是MM-Eureka展現(xiàn)出了令人驚嘆的跨學(xué)科推理能力。雖然它主要在數(shù)學(xué)題目上進(jìn)行訓(xùn)練,但在物理、化學(xué)、生物等其他學(xué)科的測(cè)試中也表現(xiàn)出色。這種現(xiàn)象就像一個(gè)專攻數(shù)學(xué)的學(xué)霸,突然發(fā)現(xiàn)自己在物理和化學(xué)考試中也能輕松獲得高分。
這種跨學(xué)科的優(yōu)秀表現(xiàn)并非偶然,而是反映了一個(gè)深刻的科學(xué)原理:不同學(xué)科之間存在著共同的邏輯推理模式。當(dāng)AI掌握了在數(shù)學(xué)領(lǐng)域進(jìn)行嚴(yán)密推理的能力后,這種推理技巧自然而然地遷移到了其他需要邏輯分析的學(xué)科上。這就像學(xué)會(huì)了騎自行車的人,也更容易掌握騎摩托車的技巧,因?yàn)閮烧叨忌婕捌胶夂蛥f(xié)調(diào)的基本原理。
在物理學(xué)測(cè)試中,MM-Eureka展現(xiàn)了對(duì)復(fù)雜物理概念的深度理解。比如在一道關(guān)于彈簧系統(tǒng)的題目中,當(dāng)兩個(gè)物體放置在豎直彈簧上時(shí),AI需要分析瞬時(shí)接觸力的大小。基礎(chǔ)模型只能簡(jiǎn)單地認(rèn)為接觸力等于物體重量,而MM-Eureka則能正確應(yīng)用牛頓第二定律,分析系統(tǒng)的加速度狀態(tài),準(zhǔn)確計(jì)算出接觸力為24N。這種分析過程展現(xiàn)了AI對(duì)物理概念的真正理解,而不是簡(jiǎn)單的公式套用。
化學(xué)推理方面的表現(xiàn)同樣令人印象深刻。在一道涉及酸堿滴定的復(fù)雜題目中,AI需要理解滴定曲線的變化規(guī)律,分析不同滴定點(diǎn)的離子濃度關(guān)系。MM-Eureka不僅能準(zhǔn)確識(shí)別滴定過程的各個(gè)階段,還能正確判斷離子濃度的大小關(guān)系,展現(xiàn)了對(duì)化學(xué)平衡原理的深度掌握。
生物學(xué)推理則涉及更加復(fù)雜的概念理解。在一道關(guān)于基因雜交的題目中,AI需要理解DNA與mRNA的雜交過程,分析哪些區(qū)域能夠配對(duì),哪些區(qū)域保持單鏈狀態(tài)。MM-Eureka能夠正確理解雜交的分子機(jī)制,準(zhǔn)確分析核苷酸類型和堿基配對(duì)規(guī)律,展現(xiàn)了對(duì)分子生物學(xué)概念的準(zhǔn)確把握。
更有趣的是,研究團(tuán)隊(duì)通過對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),強(qiáng)化學(xué)習(xí)的訓(xùn)練方法在跨學(xué)科泛化方面明顯優(yōu)于傳統(tǒng)的監(jiān)督學(xué)習(xí)方法。在MMK12測(cè)試集上,雖然AI只在數(shù)學(xué)題目上進(jìn)行過強(qiáng)化學(xué)習(xí)訓(xùn)練,但在物理、化學(xué)、生物學(xué)科上的表現(xiàn)提升分別達(dá)到了10.8分、9.8分和11.2分。這種顯著的跨學(xué)科提升證明了強(qiáng)化學(xué)習(xí)訓(xùn)練確實(shí)幫助AI掌握了一種通用的推理能力。
這種跨學(xué)科推理能力的背后,反映了一個(gè)重要的認(rèn)知科學(xué)原理:知識(shí)和推理能力在某種程度上是可以分離的。AI雖然在不同學(xué)科的具體知識(shí)方面可能有所欠缺,但通過強(qiáng)化學(xué)習(xí)訓(xùn)練獲得的推理能力卻能夠幫助它更好地運(yùn)用已有知識(shí)解決新問題。這就像一個(gè)具備良好邏輯思維能力的人,即使在新的領(lǐng)域也能快速上手,因?yàn)榻鉀Q問題的基本思路是相通的。
這一發(fā)現(xiàn)對(duì)于AI教育和訓(xùn)練具有重要啟示意義。它表明,與其讓AI在各個(gè)學(xué)科分別進(jìn)行大量訓(xùn)練,不如重點(diǎn)培養(yǎng)其通用的推理能力。一旦AI掌握了這種核心能力,它就能在各個(gè)需要邏輯推理的領(lǐng)域發(fā)揮作用,大大提高了AI系統(tǒng)的通用性和實(shí)用性。
五、性能大比拼:MM-Eureka如何挑戰(zhàn)行業(yè)標(biāo)桿
要評(píng)判一個(gè)AI系統(tǒng)的真實(shí)水平,最直接的方法就是讓它與現(xiàn)有的頂尖系統(tǒng)進(jìn)行正面較量。研究團(tuán)隊(duì)將MM-Eureka放在了多個(gè)權(quán)威測(cè)試平臺(tái)上,與包括GPT-4o、Claude-3.7等知名閉源模型,以及InternVL、Qwen等優(yōu)秀開源模型進(jìn)行全面對(duì)比。結(jié)果顯示,MM-Eureka的表現(xiàn)令人刮目相看。
在最受關(guān)注的MathVista數(shù)學(xué)視覺推理測(cè)試中,MM-Eureka-7B獲得了73.0分的優(yōu)異成績(jī)。這個(gè)分?jǐn)?shù)意味著什么呢?它不僅超越了參數(shù)量是自己10倍多的InternVL2.5-78B模型(72.3分),甚至比專門針對(duì)推理優(yōu)化的InternVL2.5-38B-MPO模型還要高出0.2分。這就像一個(gè)體重級(jí)別較低的拳擊手,卻能擊敗重量級(jí)冠軍,展現(xiàn)了技術(shù)優(yōu)勢(shì)對(duì)純粹規(guī)模優(yōu)勢(shì)的超越。
更大規(guī)模的MM-Eureka-32B表現(xiàn)更加搶眼,在MathVista上達(dá)到74.8分,在WeMath測(cè)試中獲得73.4分,這些成績(jī)不僅在開源模型中位居第一,甚至超越了一些知名的閉源模型。比如在WeMath測(cè)試中,MM-Eureka-32B的表現(xiàn)就超過了Claude-3.7 Sonnet的72.6分,這意味著它在某些方面已經(jīng)達(dá)到了商業(yè)AI產(chǎn)品的水準(zhǔn)。
在跨學(xué)科推理能力的測(cè)試中,MM-Eureka的表現(xiàn)更是令人驚艷。在MMK12的綜合測(cè)試中,MM-Eureka-32B獲得了72.2分的總成績(jī),僅比OpenAI的o1模型低1.7分。要知道,o1是目前公認(rèn)的推理能力最強(qiáng)的AI系統(tǒng)之一,能夠接近這樣的標(biāo)桿性能,說明MM-Eureka確實(shí)達(dá)到了世界先進(jìn)水平。
更值得關(guān)注的是各個(gè)學(xué)科的具體表現(xiàn)。在數(shù)學(xué)學(xué)科上,MM-Eureka-32B獲得74.6分,在物理學(xué)科上獲得62.0分,在化學(xué)學(xué)科上獲得75.4分,在生物學(xué)科上獲得76.8分。這種均衡的跨學(xué)科表現(xiàn)特別難得,很多專門的AI系統(tǒng)往往在某個(gè)領(lǐng)域表現(xiàn)突出,但在其他領(lǐng)域就相對(duì)較弱。MM-Eureka的均衡性表明它確實(shí)掌握了通用的推理能力,而不是針對(duì)特定領(lǐng)域的模式識(shí)別。
性能對(duì)比還揭示了一個(gè)有趣的現(xiàn)象:參數(shù)規(guī)模并不是決定推理能力的唯一因素。MM-Eureka-7B雖然參數(shù)量相對(duì)較小,但在許多測(cè)試中的表現(xiàn)都超越了參數(shù)量更大的模型。這說明訓(xùn)練方法和數(shù)據(jù)質(zhì)量的重要性可能比模型規(guī)模更加關(guān)鍵,這為AI領(lǐng)域的發(fā)展提供了新的思路。
在與閉源模型的對(duì)比中,MM-Eureka雖然在某些高難度測(cè)試中還存在差距,但考慮到它是完全開源的,這樣的性能表現(xiàn)已經(jīng)具有重要意義。開源意味著全世界的研究者都可以基于這項(xiàng)工作進(jìn)行進(jìn)一步改進(jìn),這種開放性將加速整個(gè)領(lǐng)域的發(fā)展進(jìn)步。
特別值得一提的是,MM-Eureka在保持高性能的同時(shí),還展現(xiàn)出了良好的可解釋性。通過分析它的推理過程,研究人員發(fā)現(xiàn)AI確實(shí)學(xué)會(huì)了類似人類的推理思路,會(huì)先分析圖像信息,然后結(jié)合文字描述進(jìn)行邏輯推導(dǎo),最后得出結(jié)論。這種清晰的推理鏈條不僅有助于理解AI的工作機(jī)制,也為進(jìn)一步優(yōu)化提供了方向。
六、深入探索:知識(shí)與推理能力的奇妙分離現(xiàn)象
在研究過程中,團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)令人深思的現(xiàn)象:知識(shí)儲(chǔ)備和推理能力似乎可以在某種程度上獨(dú)立存在。這個(gè)發(fā)現(xiàn)就像發(fā)現(xiàn)了大腦中負(fù)責(zé)記憶和負(fù)責(zé)思考的區(qū)域可以分別訓(xùn)練一樣,對(duì)理解AI的學(xué)習(xí)機(jī)制具有重要意義。
為了驗(yàn)證這個(gè)假設(shè),研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)巧妙的實(shí)驗(yàn)。他們讓基礎(chǔ)模型和經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的MM-Eureka對(duì)同一道數(shù)學(xué)題進(jìn)行8次解答,然后統(tǒng)計(jì)正確答案的分布情況。結(jié)果顯示了一個(gè)清晰的模式:對(duì)于那些基礎(chǔ)模型至少能答對(duì)一次的題目,MM-Eureka的正確率有了顯著提升;但對(duì)于那些基礎(chǔ)模型8次都答錯(cuò)的題目,MM-Eureka的表現(xiàn)幾乎沒有改善。
這個(gè)現(xiàn)象就像一個(gè)有趣的類比:假設(shè)你有一把鑰匙但鎖著一個(gè)復(fù)雜的保險(xiǎn)箱,如果你學(xué)會(huì)了更好的開鎖技巧,就能更容易地打開保險(xiǎn)箱;但如果你根本沒有正確的鑰匙,再高超的技巧也無濟(jì)于事。MM-Eureka通過強(qiáng)化學(xué)習(xí)獲得的是"開鎖技巧",也就是推理能力的提升,但它無法憑空創(chuàng)造出原本不存在的"鑰匙",也就是基礎(chǔ)知識(shí)。
這種現(xiàn)象在實(shí)際的問題解答中表現(xiàn)得更加明顯。研究團(tuán)隊(duì)展示了一個(gè)典型案例:在一道幾何題中,基礎(chǔ)模型雖然知道相關(guān)的數(shù)學(xué)概念和公式,但在具體應(yīng)用時(shí)出現(xiàn)了邏輯錯(cuò)誤,導(dǎo)致答案不正確。而MM-Eureka使用同樣的知識(shí)基礎(chǔ),卻能夠正確地進(jìn)行邏輯推導(dǎo),得出準(zhǔn)確答案。這說明強(qiáng)化學(xué)習(xí)訓(xùn)練確實(shí)提升了AI運(yùn)用已有知識(shí)的能力。
進(jìn)一步的分析揭示了推理能力提升的具體表現(xiàn)。經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的MM-Eureka在面對(duì)復(fù)雜問題時(shí),會(huì)表現(xiàn)出更加系統(tǒng)性的思考過程。它會(huì)先仔細(xì)分析題目中的圖像信息,識(shí)別關(guān)鍵的幾何關(guān)系或物理狀態(tài);然后結(jié)合文字描述,確定需要應(yīng)用的概念和原理;最后進(jìn)行步驟化的邏輯推導(dǎo),確保每一步都有充分的依據(jù)。
這種系統(tǒng)性的推理過程與人類專家解題的思路非常相似。當(dāng)一個(gè)經(jīng)驗(yàn)豐富的數(shù)學(xué)老師面對(duì)難題時(shí),也會(huì)遵循類似的步驟:觀察、分析、推理、驗(yàn)證。MM-Eureka通過強(qiáng)化學(xué)習(xí)訓(xùn)練,似乎學(xué)會(huì)了這種專業(yè)的解題思維模式,而不僅僅是記住了更多的解題套路。
這一發(fā)現(xiàn)對(duì)AI訓(xùn)練策略具有重要指導(dǎo)意義。它表明,提升AI能力有兩個(gè)相對(duì)獨(dú)立的途徑:擴(kuò)大知識(shí)儲(chǔ)備和增強(qiáng)推理能力。傳統(tǒng)的訓(xùn)練方法主要集中在前者,通過讓AI接觸更多的數(shù)據(jù)來增加其知識(shí)量。而強(qiáng)化學(xué)習(xí)則專注于后者,通過反復(fù)的試錯(cuò)和優(yōu)化來提升AI運(yùn)用知識(shí)的能力。
更有趣的是,這種推理能力的提升具有很強(qiáng)的通用性。即使AI只在數(shù)學(xué)領(lǐng)域進(jìn)行了強(qiáng)化學(xué)習(xí)訓(xùn)練,獲得的推理技巧也能遷移到物理、化學(xué)、生物等其他學(xué)科。這就像學(xué)會(huì)了科學(xué)思維方法的學(xué)生,在面對(duì)不同學(xué)科的問題時(shí)都能展現(xiàn)出更好的分析能力。
這種知識(shí)與推理的分離現(xiàn)象也解釋了為什么MM-Eureka能夠在相對(duì)較小的參數(shù)規(guī)模下獲得優(yōu)異性能。與其無限制地?cái)U(kuò)大模型規(guī)模來儲(chǔ)存更多知識(shí),不如重點(diǎn)優(yōu)化AI的推理機(jī)制,讓它能夠更有效地運(yùn)用已有知識(shí)。這種思路不僅更加經(jīng)濟(jì)高效,也更符合人類認(rèn)知的基本規(guī)律。
七、訓(xùn)練穩(wěn)定性的技術(shù)突破:解決大模型訓(xùn)練中的"崩潰"難題
在AI模型訓(xùn)練過程中,最令研究者頭疼的問題之一就是訓(xùn)練不穩(wěn)定性,特別是在大規(guī)模模型的強(qiáng)化學(xué)習(xí)訓(xùn)練中。這種不穩(wěn)定性就像開車時(shí)突然失控,AI模型可能在訓(xùn)練過程中突然"忘記"之前學(xué)到的所有技能,性能急劇下降到接近隨機(jī)水平。研究團(tuán)隊(duì)在這個(gè)關(guān)鍵問題上實(shí)現(xiàn)了重要突破。
傳統(tǒng)的強(qiáng)化學(xué)習(xí)訓(xùn)練就像讓學(xué)生在沒有任何指導(dǎo)的情況下自由學(xué)習(xí),雖然給了足夠的自由度,但也增加了走錯(cuò)路的風(fēng)險(xiǎn)。特別是對(duì)于參數(shù)量達(dá)到320億的大型模型,這種風(fēng)險(xiǎn)更是成倍增加。研究團(tuán)隊(duì)通過深入分析發(fā)現(xiàn),訓(xùn)練崩潰通常與策略比率的劇烈波動(dòng)有關(guān)。
策略比率可以理解為AI在學(xué)習(xí)過程中"改變想法"的幅度。當(dāng)這個(gè)比率變化過于劇烈時(shí),就像學(xué)生突然完全改變學(xué)習(xí)方法,可能導(dǎo)致之前的積累付之東流。為了解決這個(gè)問題,研究團(tuán)隊(duì)在訓(xùn)練的第二階段引入了KL散度約束機(jī)制,這就像給學(xué)生提供了一個(gè)學(xué)習(xí)進(jìn)度的參考框架,確保改進(jìn)是漸進(jìn)式的而不是顛覆性的。
在線過濾策略的引入則是另一個(gè)關(guān)鍵創(chuàng)新。傳統(tǒng)訓(xùn)練中,AI會(huì)接觸到各種難度的題目,包括那些它已經(jīng)完全掌握的簡(jiǎn)單題目和完全無法理解的超難題目。這種做法不僅效率低下,還可能導(dǎo)致訓(xùn)練信號(hào)的混亂。在線過濾就像一個(gè)智能的學(xué)習(xí)管家,會(huì)實(shí)時(shí)評(píng)估AI的學(xué)習(xí)狀態(tài),自動(dòng)調(diào)整訓(xùn)練內(nèi)容的難度分布。
具體來說,當(dāng)AI對(duì)某類題目的成功率達(dá)到100%或者降到0%時(shí),系統(tǒng)會(huì)暫時(shí)將這些題目移出訓(xùn)練隊(duì)列。這種做法的邏輯很簡(jiǎn)單:對(duì)于已經(jīng)完全掌握的題目,繼續(xù)練習(xí)是浪費(fèi)時(shí)間;對(duì)于完全不會(huì)的題目,盲目練習(xí)只會(huì)增加挫敗感而無助于能力提升。真正的學(xué)習(xí)發(fā)生在那些成功率處于中等水平的題目上,這些題目既有一定挑戰(zhàn)性,又在AI的能力范圍內(nèi)。
兩階段訓(xùn)練策略的設(shè)計(jì)體現(xiàn)了"先探索后優(yōu)化"的教育理念。第一階段可以比作讓學(xué)生進(jìn)行創(chuàng)造性思維訓(xùn)練,暫時(shí)不過分拘泥于標(biāo)準(zhǔn)答案,鼓勵(lì)多樣化的解題嘗試。這個(gè)階段不使用KL散度約束,給AI更大的探索空間,讓它能夠發(fā)現(xiàn)各種可能的推理路徑。
第二階段則轉(zhuǎn)向精確化訓(xùn)練,就像對(duì)學(xué)生進(jìn)行考試技巧指導(dǎo)。在這個(gè)階段,系統(tǒng)會(huì)引入更嚴(yán)格的約束機(jī)制,確保AI的推理過程更加規(guī)范和穩(wěn)定。同時(shí),還會(huì)加入特定領(lǐng)域的訓(xùn)練數(shù)據(jù),比如幾何題目,來彌補(bǔ)第一階段可能存在的知識(shí)盲點(diǎn)。
實(shí)驗(yàn)結(jié)果證明了這種訓(xùn)練策略的有效性。使用在線過濾機(jī)制的模型在長(zhǎng)期訓(xùn)練中表現(xiàn)出更好的穩(wěn)定性,準(zhǔn)確率和響應(yīng)長(zhǎng)度都保持在合理范圍內(nèi)。相比之下,沒有使用過濾機(jī)制的模型在訓(xùn)練后期出現(xiàn)了明顯的性能退化,準(zhǔn)確率下降到接近零,響應(yīng)長(zhǎng)度也大幅縮短,這是典型的模型崩潰征象。
兩階段訓(xùn)練的優(yōu)勢(shì)在32B模型上表現(xiàn)得尤為明顯。第一階段訓(xùn)練后,雖然模型的整體性能有所提升,但在某些特定領(lǐng)域(如幾何問題)的表現(xiàn)反而有所下降。第二階段的針對(duì)性訓(xùn)練很好地解決了這個(gè)問題,不僅恢復(fù)了在特定領(lǐng)域的能力,還進(jìn)一步提升了整體性能。
這些技術(shù)突破不僅解決了MM-Eureka訓(xùn)練中的實(shí)際問題,也為整個(gè)AI領(lǐng)域的大模型訓(xùn)練提供了有價(jià)值的經(jīng)驗(yàn)。訓(xùn)練穩(wěn)定性問題一直是制約大模型發(fā)展的重要瓶頸,研究團(tuán)隊(duì)的解決方案為其他研究者提供了可以借鑒的思路和方法。
八、開源精神的力量:為AI研究社區(qū)貢獻(xiàn)完整工具鏈
在當(dāng)今AI領(lǐng)域,許多突破性成果都被大公司的技術(shù)壁壘所保護(hù),普通研究者難以接觸到前沿技術(shù)的細(xì)節(jié)。研究團(tuán)隊(duì)選擇了一條截然不同的道路:將所有研究成果完全開源,包括代碼、模型、數(shù)據(jù)集以及訓(xùn)練過程中的經(jīng)驗(yàn)總結(jié)。這種開源精神就像在知識(shí)的大海中點(diǎn)亮了一座燈塔,為后續(xù)研究者指明了方向。
完整的開源工具鏈包含了多個(gè)重要組成部分。首先是MMK12數(shù)據(jù)集,這個(gè)包含15616個(gè)訓(xùn)練樣本和2000個(gè)測(cè)試樣本的高質(zhì)量數(shù)據(jù)集,為其他研究者提供了寶貴的訓(xùn)練材料。數(shù)據(jù)集的構(gòu)建過程全部公開,包括數(shù)據(jù)收集、清洗、翻譯、驗(yàn)證的每一個(gè)步驟,確保其他研究者能夠理解和復(fù)現(xiàn)整個(gè)過程。
代碼開源更是體現(xiàn)了團(tuán)隊(duì)的誠(chéng)意。他們不僅公開了模型的訓(xùn)練代碼,還包括了完整的推理框架、評(píng)估工具以及各種輔助腳本。這些代碼經(jīng)過了精心的整理和注釋,即使是初學(xué)者也能相對(duì)容易地理解和使用。更重要的是,代碼框架具有很好的可擴(kuò)展性,支持多種不同的模型架構(gòu)和訓(xùn)練算法,為后續(xù)研究提供了靈活的基礎(chǔ)。
模型權(quán)重的開源則是最有價(jià)值的貢獻(xiàn)之一。訓(xùn)練一個(gè)高性能的多模態(tài)推理模型需要大量的計(jì)算資源和時(shí)間,普通研究機(jī)構(gòu)往往難以承擔(dān)這樣的成本。通過開源訓(xùn)練好的模型權(quán)重,研究團(tuán)隊(duì)讓更多的研究者能夠直接使用這些模型進(jìn)行實(shí)驗(yàn)和改進(jìn),大大降低了研究門檻。
開源框架的設(shè)計(jì)體現(xiàn)了對(duì)兼容性的充分考慮。系統(tǒng)支持多種主流的多模態(tài)模型架構(gòu),包括InternVL、QwenVL等,研究者可以根據(jù)自己的需求選擇合適的基礎(chǔ)模型。同時(shí),框架還支持多種強(qiáng)化學(xué)習(xí)算法,不僅限于論文中使用的GRPO,還包括PPO、DPO等其他流行算法,為不同的研究需求提供了選擇空間。
這種全面開源的做法產(chǎn)生了深遠(yuǎn)的影響。首先,它加速了整個(gè)領(lǐng)域的研究進(jìn)度。其他研究團(tuán)隊(duì)可以基于這些開源資源進(jìn)行改進(jìn)和創(chuàng)新,而不需要從零開始重復(fù)基礎(chǔ)工作。這就像在前人的肩膀上繼續(xù)攀登,每一步都能走得更高更遠(yuǎn)。
其次,開源促進(jìn)了研究的透明度和可重現(xiàn)性。在AI領(lǐng)域,很多研究成果難以被其他團(tuán)隊(duì)重現(xiàn),這不僅影響了學(xué)術(shù)交流,也阻礙了技術(shù)進(jìn)步。通過提供完整的代碼和數(shù)據(jù),研究團(tuán)隊(duì)確保了其他研究者能夠驗(yàn)證和重現(xiàn)實(shí)驗(yàn)結(jié)果,提高了研究的可信度。
開源還推動(dòng)了技術(shù)的民主化。以前,只有擁有大量資源的大公司才能開發(fā)高性能的AI系統(tǒng)?,F(xiàn)在,即使是小型研究團(tuán)隊(duì)或個(gè)人開發(fā)者,也能基于開源資源開發(fā)出實(shí)用的AI應(yīng)用,這種技術(shù)的普及對(duì)整個(gè)社會(huì)都具有積極意義。
研究團(tuán)隊(duì)在開源過程中還特別注重文檔和教程的完善。他們提供了詳細(xì)的使用說明、最佳實(shí)踐指南以及常見問題解答,幫助新用戶快速上手。這種貼心的服務(wù)就像提供了一份詳細(xì)的使用手冊(cè),讓技術(shù)的傳播變得更加順暢。
更值得稱贊的是,團(tuán)隊(duì)承諾持續(xù)維護(hù)和更新這些開源資源。隨著技術(shù)的發(fā)展和用戶反饋的積累,他們會(huì)不斷改進(jìn)代碼質(zhì)量、修復(fù)bug、添加新功能。這種長(zhǎng)期承諾為開源社區(qū)提供了可靠的保障,確保這些資源能夠持續(xù)發(fā)揮價(jià)值。
通過這種全面的開源策略,研究團(tuán)隊(duì)不僅分享了自己的研究成果,更重要的是為整個(gè)AI研究社區(qū)搭建了一個(gè)協(xié)作平臺(tái)。在這個(gè)平臺(tái)上,來自世界各地的研究者可以共同推進(jìn)多模態(tài)推理技術(shù)的發(fā)展,最終造福全人類。
這項(xiàng)研究的意義遠(yuǎn)不止于技術(shù)突破本身。它證明了開源合作模式在推動(dòng)科技進(jìn)步方面的強(qiáng)大力量,也為AI領(lǐng)域的發(fā)展樹立了一個(gè)積極的榜樣。當(dāng)越來越多的研究團(tuán)隊(duì)選擇開放合作而非封閉競(jìng)爭(zhēng)時(shí),整個(gè)人類社會(huì)都將從中受益。
說到底,MM-Eureka不僅僅是一個(gè)優(yōu)秀的AI推理系統(tǒng),更是開源精神在AI時(shí)代的生動(dòng)體現(xiàn)。它讓我們看到了當(dāng)技術(shù)與開放精神相結(jié)合時(shí)能夠產(chǎn)生的巨大潛力。這種潛力不僅體現(xiàn)在技術(shù)指標(biāo)的提升上,更體現(xiàn)在對(duì)整個(gè)科研生態(tài)的積極影響上。
對(duì)于普通人來說,這意味著未來可能會(huì)有更多功能強(qiáng)大、使用方便的AI工具出現(xiàn)在我們的生活中。無論是教育輔導(dǎo)、科研支持還是日常問題解決,這些基于開源技術(shù)開發(fā)的AI助手都將為我們提供更好的服務(wù)。而對(duì)于AI研究領(lǐng)域來說,MM-Eureka的開源貢獻(xiàn)將繼續(xù)推動(dòng)技術(shù)邊界的拓展,讓機(jī)器真正具備人類級(jí)別的視覺推理能力不再是遙不可及的夢(mèng)想。
Q&A
Q1:MM-Eureka是什么?它有什么特別之處? A:MM-Eureka是一個(gè)能同時(shí)理解圖像和文字并進(jìn)行復(fù)雜推理的AI系統(tǒng),就像給機(jī)器裝上了能"看懂"圖片的眼睛和能"思考"問題的大腦。它最特別的地方是通過強(qiáng)化學(xué)習(xí)訓(xùn)練,不僅能解答數(shù)學(xué)題,還能在物理、化學(xué)、生物等多個(gè)學(xué)科表現(xiàn)出色,性能接近OpenAI的o1模型。
Q2:為什么說MM-Eureka實(shí)現(xiàn)了知識(shí)與推理能力的分離? A:研究發(fā)現(xiàn)MM-Eureka無法解決那些基礎(chǔ)模型完全不會(huì)的題目,但能顯著提升已有知識(shí)基礎(chǔ)上的推理準(zhǔn)確率。這說明強(qiáng)化學(xué)習(xí)主要提升了AI運(yùn)用現(xiàn)有知識(shí)進(jìn)行推理的能力,而非增加新知識(shí),就像提升了"開鎖技巧"但無法創(chuàng)造新"鑰匙"。
Q3:普通研究者或開發(fā)者能使用MM-Eureka嗎? A:可以。研究團(tuán)隊(duì)將所有代碼、模型、數(shù)據(jù)集完全開源,任何人都可以通過https://github.com/ModalMinds/MM-EUREKA免費(fèi)獲取。這包括完整的訓(xùn)練代碼、推理框架和高質(zhì)量的MMK12數(shù)據(jù)集,為AI研究和應(yīng)用開發(fā)提供了寶貴資源。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對(duì)話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。