2025年6月5日,香港中文大學(xué)多媒體實(shí)驗(yàn)室(CUHK MMLab)的研究團(tuán)隊(duì)發(fā)表了一項(xiàng)突破性研究。由陳欣燕和張仁瑞共同第一作者領(lǐng)導(dǎo)的團(tuán)隊(duì)提出了MINT-CoT,一種全新的方法,旨在改進(jìn)人工智能在處理數(shù)學(xué)視覺問題時(shí)的推理能力。這項(xiàng)研究已在arXiv上發(fā)布(arXiv:2506.05331v1),有興趣深入了解的讀者可通過GitHub(https://github.com/xinyan-cxy/MINT-CoT)訪問其代碼和數(shù)據(jù)集。
想象一下,當(dāng)你解一道幾何題時(shí),你會(huì)怎么做?你可能會(huì)先看圖,然后指著特定的角度、線段或形狀,一邊思考一邊用手指引導(dǎo)自己的思路。傳統(tǒng)的AI模型在解決這類問題時(shí)卻像是"盲人摸象"——它們能看到整張圖,但難以精確定位和關(guān)注問題中的關(guān)鍵元素。這就是當(dāng)前AI在處理數(shù)學(xué)視覺問題時(shí)面臨的挑戰(zhàn)。
這個(gè)問題其實(shí)很像我們?cè)谀吧鞘袑?dǎo)航時(shí)的情況。傳統(tǒng)AI相當(dāng)于只能看到整個(gè)城市地圖,卻不知道應(yīng)該關(guān)注哪個(gè)街區(qū)或路口;或者只能圈出大致區(qū)域,卻無法精確定位到具體的拐角或地標(biāo)。MINT-CoT則像是一個(gè)能夠精確指向"在第五大道和橡樹街交叉口的那個(gè)紅色郵筒"的導(dǎo)航系統(tǒng),讓AI能夠在推理過程中精確地關(guān)注數(shù)學(xué)圖形中的關(guān)鍵元素。
研究團(tuán)隊(duì)指出,現(xiàn)有的方法在處理數(shù)學(xué)圖像時(shí)主要存在三個(gè)問題:首先,它們依賴于粗粒度的矩形區(qū)域選擇,這對(duì)于捕捉數(shù)學(xué)圖像中復(fù)雜的結(jié)構(gòu)(如線段、角度等)效果不佳;其次,主流視覺編碼器在處理數(shù)學(xué)內(nèi)容方面的感知能力有限,因?yàn)樗鼈冎饕腔谧匀粓D像訓(xùn)練的;最后,一些方法依賴外部工具來修改或生成圖像,這增加了額外的復(fù)雜性和成本。
為了解決這些問題,研究團(tuán)隊(duì)開發(fā)了MINT-CoT(數(shù)學(xué)交織令牌思維鏈推理)方法。這種方法就像是給AI裝上了一個(gè)精準(zhǔn)的"數(shù)學(xué)顯微鏡",使它能夠在思考過程中自動(dòng)選擇并關(guān)注與當(dāng)前推理步驟最相關(guān)的圖像部分,而且這種選擇不限于矩形區(qū)域,可以是任意形狀。
這項(xiàng)技術(shù)的核心是一個(gè)名為"交織令牌"(Interleave Token)的特殊標(biāo)記,它就像是AI的"注意力指揮官"。在推理過程中,它會(huì)計(jì)算圖像中每個(gè)視覺元素與當(dāng)前思考步驟的相關(guān)性,然后挑選出最重要的視覺信息融入到推理中。這就像是數(shù)學(xué)老師在講解題目時(shí),用手指精確地指向圖中的特定元素一樣自然。
為了訓(xùn)練這種能力,研究團(tuán)隊(duì)構(gòu)建了包含54,000個(gè)數(shù)學(xué)問題的MINT-CoT數(shù)據(jù)集。這些數(shù)據(jù)不僅包含問題和答案,還包含詳細(xì)的推理步驟和每一步對(duì)應(yīng)的視覺區(qū)域標(biāo)注。這種精細(xì)的標(biāo)注是通過一個(gè)四步流程自動(dòng)生成的:首先將圖像分割成網(wǎng)格;然后使用OCR技術(shù)識(shí)別圖像中的文字并映射到網(wǎng)格;接著提取推理步驟中的關(guān)鍵詞;最后,使用先進(jìn)的多模態(tài)大語言模型將這些關(guān)鍵詞與對(duì)應(yīng)的圖像區(qū)域?qū)R。
在訓(xùn)練方面,團(tuán)隊(duì)采用了一個(gè)三階段的策略:首先是純文本思維鏈訓(xùn)練,幫助模型學(xué)習(xí)基本的推理格式;然后是交織思維鏈監(jiān)督微調(diào),訓(xùn)練模型學(xué)習(xí)將視覺內(nèi)容融入推理過程;最后通過強(qiáng)化學(xué)習(xí)進(jìn)一步優(yōu)化模型的交織推理能力。這種漸進(jìn)式的訓(xùn)練方法就像是教孩子學(xué)習(xí)解題:先教基本解題思路,再教如何結(jié)合圖表信息,最后通過大量練習(xí)提升綜合應(yīng)用能力。
研究團(tuán)隊(duì)使用這種方法訓(xùn)練了一個(gè)7B參數(shù)的模型(MINT-CoT-7B),并在多個(gè)數(shù)學(xué)視覺推理基準(zhǔn)上進(jìn)行了評(píng)估。結(jié)果令人振奮:在MathVista基準(zhǔn)測(cè)試上,MINT-CoT-7B比基線模型提升了32.59%;在GeoQA基準(zhǔn)上提升了26.92%;在MMStar數(shù)學(xué)子集上提升了23.2%。值得注意的是,這個(gè)模型在幾何推理、代數(shù)推理和幾何問題解決等多個(gè)方面都取得了顯著進(jìn)步。
以一個(gè)具體例子來說明MINT-CoT的優(yōu)勢(shì):當(dāng)面對(duì)一個(gè)關(guān)于圓中直徑、切線和角度的幾何問題時(shí),傳統(tǒng)模型可能會(huì)產(chǎn)生錯(cuò)誤的答案,因?yàn)樗鼰o法精確定位關(guān)鍵的幾何元素。而MINT-CoT能夠精確地關(guān)注到題目中的直徑、切線、角度等關(guān)鍵元素,并在推理的每一步都引入相關(guān)的視覺信息,從而得出正確答案。
這項(xiàng)研究的意義遠(yuǎn)不止于提高數(shù)學(xué)問題的解答準(zhǔn)確率。它代表了AI系統(tǒng)在理解和處理結(jié)構(gòu)化視覺信息方面的一個(gè)重要進(jìn)步。在未來,類似的技術(shù)可能被應(yīng)用到教育領(lǐng)域,幫助學(xué)生理解復(fù)雜的數(shù)學(xué)概念;或者應(yīng)用到科學(xué)研究中,輔助分析復(fù)雜的圖表和數(shù)據(jù)可視化。
總的來說,MINT-CoT為AI系統(tǒng)提供了一種更加精細(xì)、更加智能的方式來處理數(shù)學(xué)視覺推理問題。它不僅僅是看到了圖像,更是學(xué)會(huì)了如何有策略地關(guān)注圖像中的關(guān)鍵部分,這正是人類在解題過程中自然而然會(huì)做的事情。隨著這類技術(shù)的不斷發(fā)展,我們可以期待未來的AI系統(tǒng)在處理復(fù)雜視覺信息方面會(huì)變得越來越人性化和智能化。
好文章,需要你的鼓勵(lì)
新加坡國(guó)立大學(xué)研究團(tuán)隊(duì)開發(fā)了SPIRAL框架,通過讓AI與自己對(duì)弈零和游戲來提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡(jiǎn)單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。