av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<nav id="gajwv"><fieldset id="gajwv"><dl id="gajwv"></dl></fieldset></nav>

首頁
對(duì)話創(chuàng)新
對(duì)話科技行者
機(jī)器人新紀(jì)元
AI論文解讀
聯(lián)系我們

微信掃一掃，關(guān)注公眾號(hào)

科技行者
算力行者

見證連接與計(jì)算的「力量」

數(shù)學(xué)視覺推理新突破：CUHK多媒體實(shí)驗(yàn)室的MINT-CoT如何讓AI更好地理解數(shù)學(xué)圖形

人工智能數(shù)學(xué)視覺推理多模態(tài)學(xué)習(xí)

數(shù)學(xué)視覺推理新突破：CUHK多媒體實(shí)驗(yàn)室的MINT-CoT如何讓AI更好地理解數(shù)學(xué)圖形

作者：科技行者

2025-06-09 15:30

分享至：

香港中文大學(xué)多媒體實(shí)驗(yàn)室開發(fā)的MINT-CoT是一種創(chuàng)新方法，能讓AI在數(shù)學(xué)視覺推理中實(shí)現(xiàn)精確的"視覺交織"。這項(xiàng)技術(shù)通過引入特殊的"交織令牌"，使模型能夠在推理過程中自動(dòng)選擇關(guān)注任意形狀的相關(guān)圖像區(qū)域，而非僅限于矩形框。研究團(tuán)隊(duì)構(gòu)建了包含54K樣本的數(shù)據(jù)集，并通過三階段訓(xùn)練策略顯著提升了模型性能，在多個(gè)數(shù)學(xué)視覺基準(zhǔn)測(cè)試上取得32.59%到23.2%不等的巨大進(jìn)步。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-06-09 15:30 ? 科技行者

2025年6月5日，香港中文大學(xué)多媒體實(shí)驗(yàn)室（CUHK MMLab）的研究團(tuán)隊(duì)發(fā)表了一項(xiàng)突破性研究。由陳欣燕和張仁瑞共同第一作者領(lǐng)導(dǎo)的團(tuán)隊(duì)提出了MINT-CoT，一種全新的方法，旨在改進(jìn)人工智能在處理數(shù)學(xué)視覺問題時(shí)的推理能力。這項(xiàng)研究已在arXiv上發(fā)布（arXiv:2506.05331v1），有興趣深入了解的讀者可通過GitHub（https://github.com/xinyan-cxy/MINT-CoT）訪問其代碼和數(shù)據(jù)集。

想象一下，當(dāng)你解一道幾何題時(shí)，你會(huì)怎么做？你可能會(huì)先看圖，然后指著特定的角度、線段或形狀，一邊思考一邊用手指引導(dǎo)自己的思路。傳統(tǒng)的AI模型在解決這類問題時(shí)卻像是"盲人摸象"——它們能看到整張圖，但難以精確定位和關(guān)注問題中的關(guān)鍵元素。這就是當(dāng)前AI在處理數(shù)學(xué)視覺問題時(shí)面臨的挑戰(zhàn)。

這個(gè)問題其實(shí)很像我們?cè)谀吧鞘袑?dǎo)航時(shí)的情況。傳統(tǒng)AI相當(dāng)于只能看到整個(gè)城市地圖，卻不知道應(yīng)該關(guān)注哪個(gè)街區(qū)或路口；或者只能圈出大致區(qū)域，卻無法精確定位到具體的拐角或地標(biāo)。MINT-CoT則像是一個(gè)能夠精確指向"在第五大道和橡樹街交叉口的那個(gè)紅色郵筒"的導(dǎo)航系統(tǒng)，讓AI能夠在推理過程中精確地關(guān)注數(shù)學(xué)圖形中的關(guān)鍵元素。

研究團(tuán)隊(duì)指出，現(xiàn)有的方法在處理數(shù)學(xué)圖像時(shí)主要存在三個(gè)問題：首先，它們依賴于粗粒度的矩形區(qū)域選擇，這對(duì)于捕捉數(shù)學(xué)圖像中復(fù)雜的結(jié)構(gòu)（如線段、角度等）效果不佳；其次，主流視覺編碼器在處理數(shù)學(xué)內(nèi)容方面的感知能力有限，因?yàn)樗鼈冎饕腔谧匀粓D像訓(xùn)練的；最后，一些方法依賴外部工具來修改或生成圖像，這增加了額外的復(fù)雜性和成本。

為了解決這些問題，研究團(tuán)隊(duì)開發(fā)了MINT-CoT（數(shù)學(xué)交織令牌思維鏈推理）方法。這種方法就像是給AI裝上了一個(gè)精準(zhǔn)的"數(shù)學(xué)顯微鏡"，使它能夠在思考過程中自動(dòng)選擇并關(guān)注與當(dāng)前推理步驟最相關(guān)的圖像部分，而且這種選擇不限于矩形區(qū)域，可以是任意形狀。

這項(xiàng)技術(shù)的核心是一個(gè)名為"交織令牌"（Interleave Token）的特殊標(biāo)記，它就像是AI的"注意力指揮官"。在推理過程中，它會(huì)計(jì)算圖像中每個(gè)視覺元素與當(dāng)前思考步驟的相關(guān)性，然后挑選出最重要的視覺信息融入到推理中。這就像是數(shù)學(xué)老師在講解題目時(shí)，用手指精確地指向圖中的特定元素一樣自然。

為了訓(xùn)練這種能力，研究團(tuán)隊(duì)構(gòu)建了包含54,000個(gè)數(shù)學(xué)問題的MINT-CoT數(shù)據(jù)集。這些數(shù)據(jù)不僅包含問題和答案，還包含詳細(xì)的推理步驟和每一步對(duì)應(yīng)的視覺區(qū)域標(biāo)注。這種精細(xì)的標(biāo)注是通過一個(gè)四步流程自動(dòng)生成的：首先將圖像分割成網(wǎng)格；然后使用OCR技術(shù)識(shí)別圖像中的文字并映射到網(wǎng)格；接著提取推理步驟中的關(guān)鍵詞；最后，使用先進(jìn)的多模態(tài)大語言模型將這些關(guān)鍵詞與對(duì)應(yīng)的圖像區(qū)域?qū)R。

在訓(xùn)練方面，團(tuán)隊(duì)采用了一個(gè)三階段的策略：首先是純文本思維鏈訓(xùn)練，幫助模型學(xué)習(xí)基本的推理格式；然后是交織思維鏈監(jiān)督微調(diào)，訓(xùn)練模型學(xué)習(xí)將視覺內(nèi)容融入推理過程；最后通過強(qiáng)化學(xué)習(xí)進(jìn)一步優(yōu)化模型的交織推理能力。這種漸進(jìn)式的訓(xùn)練方法就像是教孩子學(xué)習(xí)解題：先教基本解題思路，再教如何結(jié)合圖表信息，最后通過大量練習(xí)提升綜合應(yīng)用能力。

研究團(tuán)隊(duì)使用這種方法訓(xùn)練了一個(gè)7B參數(shù)的模型（MINT-CoT-7B），并在多個(gè)數(shù)學(xué)視覺推理基準(zhǔn)上進(jìn)行了評(píng)估。結(jié)果令人振奮：在MathVista基準(zhǔn)測(cè)試上，MINT-CoT-7B比基線模型提升了32.59%；在GeoQA基準(zhǔn)上提升了26.92%；在MMStar數(shù)學(xué)子集上提升了23.2%。值得注意的是，這個(gè)模型在幾何推理、代數(shù)推理和幾何問題解決等多個(gè)方面都取得了顯著進(jìn)步。

以一個(gè)具體例子來說明MINT-CoT的優(yōu)勢(shì)：當(dāng)面對(duì)一個(gè)關(guān)于圓中直徑、切線和角度的幾何問題時(shí)，傳統(tǒng)模型可能會(huì)產(chǎn)生錯(cuò)誤的答案，因?yàn)樗鼰o法精確定位關(guān)鍵的幾何元素。而MINT-CoT能夠精確地關(guān)注到題目中的直徑、切線、角度等關(guān)鍵元素，并在推理的每一步都引入相關(guān)的視覺信息，從而得出正確答案。

這項(xiàng)研究的意義遠(yuǎn)不止于提高數(shù)學(xué)問題的解答準(zhǔn)確率。它代表了AI系統(tǒng)在理解和處理結(jié)構(gòu)化視覺信息方面的一個(gè)重要進(jìn)步。在未來，類似的技術(shù)可能被應(yīng)用到教育領(lǐng)域，幫助學(xué)生理解復(fù)雜的數(shù)學(xué)概念；或者應(yīng)用到科學(xué)研究中，輔助分析復(fù)雜的圖表和數(shù)據(jù)可視化。

總的來說，MINT-CoT為AI系統(tǒng)提供了一種更加精細(xì)、更加智能的方式來處理數(shù)學(xué)視覺推理問題。它不僅僅是看到了圖像，更是學(xué)會(huì)了如何有策略地關(guān)注圖像中的關(guān)鍵部分，這正是人類在解題過程中自然而然會(huì)做的事情。隨著這類技術(shù)的不斷發(fā)展，我們可以期待未來的AI系統(tǒng)在處理復(fù)雜視覺信息方面會(huì)變得越來越人性化和智能化。

人工智能數(shù)學(xué)視覺推理多模態(tài)學(xué)習(xí)

分享至

0贊

好文章，需要你的鼓勵(lì)

推薦文章

自對(duì)弈訓(xùn)練
推理能力提升
零和游戲?qū)W習(xí)

2025-07-02 14:26

AI玩游戲能讓推理變聰明？新加坡國(guó)立大學(xué)發(fā)現(xiàn)自對(duì)弈訓(xùn)練的神奇效果

新加坡國(guó)立大學(xué)研究團(tuán)隊(duì)開發(fā)了SPIRAL框架，通過讓AI與自己對(duì)弈零和游戲來提升推理能力。實(shí)驗(yàn)顯示，僅訓(xùn)練AI玩簡(jiǎn)單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%，通用推理提升8.4%，且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中，為AI訓(xùn)練提供了新思路。
計(jì)算機(jī)視覺
圖像降噪
3D相機(jī)技術(shù)

2025-07-02 14:26

同濟(jì)大學(xué)突破性研究：讓3D相機(jī)告別"噪點(diǎn)困擾"的智能降噪新技術(shù)

同濟(jì)大學(xué)團(tuán)隊(duì)開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息，創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系，結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法，在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升，并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力，為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
人工智能
視覺語言模型
強(qiáng)化學(xué)習(xí)

2025-07-02 14:26

AI視覺推理模型的"頓悟時(shí)刻"真的存在嗎？伊利諾伊大學(xué)研究揭示令人意外的真相

伊利諾伊大學(xué)研究團(tuán)隊(duì)通過對(duì)比實(shí)驗(yàn)發(fā)現(xiàn)，經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象，但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距"，即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力，且模型在自我驗(yàn)證時(shí)無法有效利用視覺信息，為AI多模態(tài)推理發(fā)展提供了重要啟示。
大語言模型
稀疏性訓(xùn)練
計(jì)算效率優(yōu)化

2025-07-02 14:25

MIT團(tuán)隊(duì)發(fā)明"智能減肥法"讓AI訓(xùn)練快1.6倍：只需要一半的算力就能教會(huì)大模型新技能

MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù)，通過動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語言模型訓(xùn)練加速1.6倍，計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分，在保持模型性能的同時(shí)顯著提升訓(xùn)練效率，已在多個(gè)任務(wù)上驗(yàn)證有效性。

AI玩游戲能讓推理變聰明？新加坡國(guó)立大學(xué)發(fā)現(xiàn)自對(duì)弈訓(xùn)練的神奇效果

AI玩游戲能讓推理變聰明？新加坡國(guó)立大學(xué)發(fā)現(xiàn)自對(duì)弈訓(xùn)練的神奇效果

2025-07-02 14:26

同濟(jì)大學(xué)突破性研究：讓3D相機(jī)告別"噪點(diǎn)困擾"的智能降噪新技術(shù)

同濟(jì)大學(xué)突破性研究：讓3D相機(jī)告別"噪點(diǎn)困擾"的智能降噪新技術(shù)

2025-07-02 14:26

AI視覺推理模型的"頓悟時(shí)刻"真的存在嗎？伊利諾伊大學(xué)研究揭示令人意外的真相

AI視覺推理模型的"頓悟時(shí)刻"真的存在嗎？伊利諾伊大學(xué)研究揭示令人意外的真相

2025-07-02 14:26

MIT團(tuán)隊(duì)發(fā)明"智能減肥法"讓AI訓(xùn)練快1.6倍：只需要一半的算力就能教會(huì)大模型新技能

MIT團(tuán)隊(duì)發(fā)明"智能減肥法"讓AI訓(xùn)練快1.6倍：只需要一半的算力就能教會(huì)大模型新技能

2025-07-02 14:25

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時(shí)代

京ICP證15039648號(hào) 京ICP備15039648號(hào)-9 京公網(wǎng)安備 11010802021500號(hào)

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報(bào)電話：010-62641205　涉未成年人舉報(bào)專線：010-62641208 舉報(bào)郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報(bào)專區(qū)：https://www.12377.cn

<tt id="xtjud"></tt>

<tt id="xtjud"></tt>