av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁 數(shù)學(xué)視覺推理新突破:CUHK多媒體實(shí)驗(yàn)室的MINT-CoT如何讓AI更好地理解數(shù)學(xué)圖形

數(shù)學(xué)視覺推理新突破:CUHK多媒體實(shí)驗(yàn)室的MINT-CoT如何讓AI更好地理解數(shù)學(xué)圖形

2025-06-09 15:30
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-09 15:30 ? 科技行者

2025年6月5日,香港中文大學(xué)多媒體實(shí)驗(yàn)室(CUHK MMLab)的研究團(tuán)隊(duì)發(fā)表了一項(xiàng)突破性研究。由陳欣燕和張仁瑞共同第一作者領(lǐng)導(dǎo)的團(tuán)隊(duì)提出了MINT-CoT,一種全新的方法,旨在改進(jìn)人工智能在處理數(shù)學(xué)視覺問題時(shí)的推理能力。這項(xiàng)研究已在arXiv上發(fā)布(arXiv:2506.05331v1),有興趣深入了解的讀者可通過GitHub(https://github.com/xinyan-cxy/MINT-CoT)訪問其代碼和數(shù)據(jù)集。

想象一下,當(dāng)你解一道幾何題時(shí),你會(huì)怎么做?你可能會(huì)先看圖,然后指著特定的角度、線段或形狀,一邊思考一邊用手指引導(dǎo)自己的思路。傳統(tǒng)的AI模型在解決這類問題時(shí)卻像是"盲人摸象"——它們能看到整張圖,但難以精確定位和關(guān)注問題中的關(guān)鍵元素。這就是當(dāng)前AI在處理數(shù)學(xué)視覺問題時(shí)面臨的挑戰(zhàn)。

這個(gè)問題其實(shí)很像我們?cè)谀吧鞘袑?dǎo)航時(shí)的情況。傳統(tǒng)AI相當(dāng)于只能看到整個(gè)城市地圖,卻不知道應(yīng)該關(guān)注哪個(gè)街區(qū)或路口;或者只能圈出大致區(qū)域,卻無法精確定位到具體的拐角或地標(biāo)。MINT-CoT則像是一個(gè)能夠精確指向"在第五大道和橡樹街交叉口的那個(gè)紅色郵筒"的導(dǎo)航系統(tǒng),讓AI能夠在推理過程中精確地關(guān)注數(shù)學(xué)圖形中的關(guān)鍵元素。

研究團(tuán)隊(duì)指出,現(xiàn)有的方法在處理數(shù)學(xué)圖像時(shí)主要存在三個(gè)問題:首先,它們依賴于粗粒度的矩形區(qū)域選擇,這對(duì)于捕捉數(shù)學(xué)圖像中復(fù)雜的結(jié)構(gòu)(如線段、角度等)效果不佳;其次,主流視覺編碼器在處理數(shù)學(xué)內(nèi)容方面的感知能力有限,因?yàn)樗鼈冎饕腔谧匀粓D像訓(xùn)練的;最后,一些方法依賴外部工具來修改或生成圖像,這增加了額外的復(fù)雜性和成本。

為了解決這些問題,研究團(tuán)隊(duì)開發(fā)了MINT-CoT(數(shù)學(xué)交織令牌思維鏈推理)方法。這種方法就像是給AI裝上了一個(gè)精準(zhǔn)的"數(shù)學(xué)顯微鏡",使它能夠在思考過程中自動(dòng)選擇并關(guān)注與當(dāng)前推理步驟最相關(guān)的圖像部分,而且這種選擇不限于矩形區(qū)域,可以是任意形狀。

這項(xiàng)技術(shù)的核心是一個(gè)名為"交織令牌"(Interleave Token)的特殊標(biāo)記,它就像是AI的"注意力指揮官"。在推理過程中,它會(huì)計(jì)算圖像中每個(gè)視覺元素與當(dāng)前思考步驟的相關(guān)性,然后挑選出最重要的視覺信息融入到推理中。這就像是數(shù)學(xué)老師在講解題目時(shí),用手指精確地指向圖中的特定元素一樣自然。

為了訓(xùn)練這種能力,研究團(tuán)隊(duì)構(gòu)建了包含54,000個(gè)數(shù)學(xué)問題的MINT-CoT數(shù)據(jù)集。這些數(shù)據(jù)不僅包含問題和答案,還包含詳細(xì)的推理步驟和每一步對(duì)應(yīng)的視覺區(qū)域標(biāo)注。這種精細(xì)的標(biāo)注是通過一個(gè)四步流程自動(dòng)生成的:首先將圖像分割成網(wǎng)格;然后使用OCR技術(shù)識(shí)別圖像中的文字并映射到網(wǎng)格;接著提取推理步驟中的關(guān)鍵詞;最后,使用先進(jìn)的多模態(tài)大語言模型將這些關(guān)鍵詞與對(duì)應(yīng)的圖像區(qū)域?qū)R。

在訓(xùn)練方面,團(tuán)隊(duì)采用了一個(gè)三階段的策略:首先是純文本思維鏈訓(xùn)練,幫助模型學(xué)習(xí)基本的推理格式;然后是交織思維鏈監(jiān)督微調(diào),訓(xùn)練模型學(xué)習(xí)將視覺內(nèi)容融入推理過程;最后通過強(qiáng)化學(xué)習(xí)進(jìn)一步優(yōu)化模型的交織推理能力。這種漸進(jìn)式的訓(xùn)練方法就像是教孩子學(xué)習(xí)解題:先教基本解題思路,再教如何結(jié)合圖表信息,最后通過大量練習(xí)提升綜合應(yīng)用能力。

研究團(tuán)隊(duì)使用這種方法訓(xùn)練了一個(gè)7B參數(shù)的模型(MINT-CoT-7B),并在多個(gè)數(shù)學(xué)視覺推理基準(zhǔn)上進(jìn)行了評(píng)估。結(jié)果令人振奮:在MathVista基準(zhǔn)測(cè)試上,MINT-CoT-7B比基線模型提升了32.59%;在GeoQA基準(zhǔn)上提升了26.92%;在MMStar數(shù)學(xué)子集上提升了23.2%。值得注意的是,這個(gè)模型在幾何推理、代數(shù)推理和幾何問題解決等多個(gè)方面都取得了顯著進(jìn)步。

以一個(gè)具體例子來說明MINT-CoT的優(yōu)勢(shì):當(dāng)面對(duì)一個(gè)關(guān)于圓中直徑、切線和角度的幾何問題時(shí),傳統(tǒng)模型可能會(huì)產(chǎn)生錯(cuò)誤的答案,因?yàn)樗鼰o法精確定位關(guān)鍵的幾何元素。而MINT-CoT能夠精確地關(guān)注到題目中的直徑、切線、角度等關(guān)鍵元素,并在推理的每一步都引入相關(guān)的視覺信息,從而得出正確答案。

這項(xiàng)研究的意義遠(yuǎn)不止于提高數(shù)學(xué)問題的解答準(zhǔn)確率。它代表了AI系統(tǒng)在理解和處理結(jié)構(gòu)化視覺信息方面的一個(gè)重要進(jìn)步。在未來,類似的技術(shù)可能被應(yīng)用到教育領(lǐng)域,幫助學(xué)生理解復(fù)雜的數(shù)學(xué)概念;或者應(yīng)用到科學(xué)研究中,輔助分析復(fù)雜的圖表和數(shù)據(jù)可視化。

總的來說,MINT-CoT為AI系統(tǒng)提供了一種更加精細(xì)、更加智能的方式來處理數(shù)學(xué)視覺推理問題。它不僅僅是看到了圖像,更是學(xué)會(huì)了如何有策略地關(guān)注圖像中的關(guān)鍵部分,這正是人類在解題過程中自然而然會(huì)做的事情。隨著這類技術(shù)的不斷發(fā)展,我們可以期待未來的AI系統(tǒng)在處理復(fù)雜視覺信息方面會(huì)變得越來越人性化和智能化。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-