av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<ol id="ghty7"></ol>

<span id="ghty7"></span>

<acronym id="ghty7"><strike id="ghty7"></strike></acronym>

微信掃一掃，關(guān)注公眾號

科技行者
算力行者

見證連接與計(jì)算的「力量」

百度等機(jī)構(gòu)聯(lián)合推出MathReal：真實(shí)世界里的AI數(shù)學(xué)能力究竟如何？

多模態(tài)學(xué)習(xí)數(shù)學(xué)推理真實(shí)場景評估

百度等機(jī)構(gòu)聯(lián)合推出MathReal：真實(shí)世界里的AI數(shù)學(xué)能力究竟如何？

作者：科技行者

2025-08-18 10:18

分享至：

百度等機(jī)構(gòu)聯(lián)合推出MATHREAL數(shù)據(jù)集，首次系統(tǒng)評估AI模型在真實(shí)K-12教育場景中的數(shù)學(xué)推理能力。通過2000道真實(shí)拍攝的數(shù)學(xué)題目，研究發(fā)現(xiàn)即使是最先進(jìn)的AI模型在面對模糊、傾斜等真實(shí)條件時(shí)準(zhǔn)確率也只有53.9%，遠(yuǎn)低于標(biāo)準(zhǔn)測試表現(xiàn)，揭示了當(dāng)前AI教育應(yīng)用的重大局限性。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-08-18 10:18 ? 科技行者

這項(xiàng)由百度公司、南洋理工大學(xué)、小鵬汽車、中國人民大學(xué)和北京航空航天大學(xué)聯(lián)合開展的研究，發(fā)表于2025年8月，相關(guān)數(shù)據(jù)和代碼已在GitHub平臺公開（https://github.com/junfeng0288/MathReal）。有興趣深入了解的讀者可以通過論文預(yù)印本網(wǎng)站訪問完整研究內(nèi)容。

當(dāng)我們談?wù)撊斯ぶ悄苡卸嗦斆鲿r(shí)，經(jīng)常會(huì)聽到一些令人印象深刻的數(shù)字：某個(gè)AI模型在數(shù)學(xué)競賽中獲得了接近人類水平的成績，或者在標(biāo)準(zhǔn)化測試中表現(xiàn)優(yōu)異。然而，當(dāng)你真的拿起手機(jī)拍下孩子的數(shù)學(xué)作業(yè)，向AI求助時(shí)，結(jié)果往往讓人失望。這就像是一位在實(shí)驗(yàn)室里表現(xiàn)完美的廚師，一旦走進(jìn)真實(shí)的家庭廚房，面對各種不完美的食材和工具時(shí)，卻手忙腳亂起來。

這種差距的根本原因在于，現(xiàn)有的AI數(shù)學(xué)能力測試大多基于清晰、標(biāo)準(zhǔn)化的圖片和文本，就像是在理想環(huán)境下進(jìn)行的考試。而現(xiàn)實(shí)生活中，當(dāng)學(xué)生用手機(jī)拍攝作業(yè)題目時(shí)，照片往往是傾斜的、模糊的，或者有陰影遮擋。教科書頁面可能有折痕，習(xí)題冊上可能有手寫的答案和涂抹痕跡。這些"不完美"的真實(shí)條件，恰恰是AI在實(shí)際應(yīng)用中必須面對的挑戰(zhàn)。

研究團(tuán)隊(duì)意識到了這個(gè)問題的重要性。他們發(fā)現(xiàn)，盡管多模態(tài)大語言模型在各種數(shù)學(xué)推理基準(zhǔn)測試中表現(xiàn)出色，但這些測試都基于經(jīng)過清理和處理的圖像輸入，很少考慮真實(shí)世界K-12教育用戶提供的圖像情況。當(dāng)學(xué)生們用手持移動(dòng)設(shè)備拍攝教科書頁面或作業(yè)問題尋求幫助時(shí)，AI模型的表現(xiàn)往往大打折扣。

為了填補(bǔ)這一空白，研究團(tuán)隊(duì)創(chuàng)建了MATHREAL數(shù)據(jù)集，這是一個(gè)包含2000道數(shù)學(xué)題的綜合測試平臺。這些題目全部來自真實(shí)的教育場景，每一張圖片都是用手機(jī)在自然條件下拍攝的。研究人員將這些真實(shí)世界的挑戰(zhàn)系統(tǒng)地分為三大類：圖像質(zhì)量退化、視角變化和無關(guān)內(nèi)容干擾，并進(jìn)一步細(xì)化為14個(gè)子類別。

圖像質(zhì)量退化就像是在不同光線條件下拍照產(chǎn)生的問題。當(dāng)光線不足時(shí)，照片會(huì)變得模糊不清，就像在昏暗的房間里拍攝作業(yè)一樣。過度曝光會(huì)讓部分內(nèi)容看不清楚，就像在強(qiáng)烈陽光下拍照時(shí)產(chǎn)生的炫光。陰影覆蓋則像是有人的手或其他物體擋住了部分題目，造成內(nèi)容缺失。這些都是學(xué)生在日常拍攝作業(yè)時(shí)經(jīng)常遇到的情況。

視角變化涉及拍攝角度和方向的問題。旋轉(zhuǎn)是最常見的情況，學(xué)生可能無意中將手機(jī)傾斜了90度或180度來拍攝。平面內(nèi)傾斜指的是輕微的角度偏差，就像書本沒有完全放平時(shí)的效果。非平面拍攝則是當(dāng)書頁有彎曲或折疊時(shí)產(chǎn)生的透視扭曲。背景扭曲可能來自于紙張本身的彎曲變形，這些都會(huì)影響AI對內(nèi)容的準(zhǔn)確識別。

無關(guān)內(nèi)容干擾則包含了各種可能出現(xiàn)在真實(shí)作業(yè)環(huán)境中的額外信息。手寫題目是指學(xué)生或老師用手寫形式添加的問題文字，這些手寫內(nèi)容的識別難度通常比印刷體要大得多。反面內(nèi)容是指紙張背面的文字或圖形透過來產(chǎn)生的干擾。題目標(biāo)記包括學(xué)生用筆圈出重要部分或做的各種記號。圖形標(biāo)記是在幾何圖形上添加的輔助線或注釋。對于選擇題，可能會(huì)有學(xué)生已經(jīng)填寫的手寫答案，而對于解答題，頁面上可能顯示完整的手寫解答過程。

這個(gè)數(shù)據(jù)集不僅僅是圖片的集合，更是一個(gè)完整的評估體系。每道題目都經(jīng)過專業(yè)標(biāo)注，包含五個(gè)核心知識和能力類別：平面幾何、立體幾何、邏輯推理、函數(shù)圖像和統(tǒng)計(jì)圖表。題目類型涵蓋了三種常見形式：選擇題、填空題和解答題。難度分為小學(xué)、初中和高中三個(gè)層次，確保能夠全面評估AI模型在不同教育階段的表現(xiàn)。

為了確保數(shù)據(jù)質(zhì)量，研究團(tuán)隊(duì)建立了嚴(yán)格的三階段人工標(biāo)注流程。第一階段是重新篩選，確保每個(gè)樣本都包含單個(gè)完整的問題，且圖形對于解題是必需的。第二階段是對圖像條件進(jìn)行詳細(xì)標(biāo)注，按照預(yù)定義的分類體系對每種真實(shí)世界場景類型進(jìn)行分級。第三階段是問題級元數(shù)據(jù)標(biāo)注，包括問題內(nèi)容、類型、教育階段、知識類別、圖形描述和正確答案。所有標(biāo)注工作都經(jīng)過完全的人工驗(yàn)證，確保最終數(shù)據(jù)集既反映了多樣化的真實(shí)世界條件，又保持了高質(zhì)量的語義和結(jié)構(gòu)標(biāo)準(zhǔn)。

一、真實(shí)世界與理想測試的巨大差距

當(dāng)研究團(tuán)隊(duì)使用MATHREAL對當(dāng)前最先進(jìn)的AI模型進(jìn)行測試時(shí)，結(jié)果令人震驚。即使是表現(xiàn)最好的模型Doubao-1.5-thinking-vision-pro，在相對簡單的K-12場景中也只達(dá)到了53.9%的準(zhǔn)確率。這與這些模型在傳統(tǒng)數(shù)學(xué)基準(zhǔn)測試中接近人類甚至競賽級別的表現(xiàn)形成了鮮明對比，凸顯了實(shí)際應(yīng)用能力的巨大差距。

這種差距就像是一個(gè)在標(biāo)準(zhǔn)化考場中表現(xiàn)優(yōu)異的學(xué)生，突然被要求在嘈雜的環(huán)境中、使用不完整的材料來解決同樣的問題時(shí)，表現(xiàn)大幅下降。研究結(jié)果表明，現(xiàn)有的多模態(tài)大語言模型在面對真實(shí)教育場景時(shí)仍然遠(yuǎn)未達(dá)到可靠應(yīng)用的水平。

更深入的分析顯示，這種性能下降主要源于三個(gè)方面的挑戰(zhàn)。首先是視覺感知能力的脆弱性。當(dāng)圖像出現(xiàn)模糊、傾斜或光線不均時(shí)，模型往往無法準(zhǔn)確提取文字和識別幾何圖形。這就像是一個(gè)人戴著有度數(shù)偏差的眼鏡看書，基礎(chǔ)信息的獲取就出現(xiàn)了問題。

其次是多步推理的不穩(wěn)定性。研究發(fā)現(xiàn)，即使模型能夠正確識別圖像內(nèi)容，在進(jìn)行復(fù)雜的數(shù)學(xué)推理時(shí)也容易出錯(cuò)。特別是對于需要多個(gè)步驟才能得出答案的問題，任何一個(gè)中間環(huán)節(jié)的小錯(cuò)誤都可能導(dǎo)致最終結(jié)果的完全錯(cuò)誤。

最后是對真實(shí)世界噪音的適應(yīng)性不足。傳統(tǒng)訓(xùn)練數(shù)據(jù)中的圖像大多經(jīng)過清理和標(biāo)準(zhǔn)化處理，缺乏對各種真實(shí)世界干擾因素的充分訓(xùn)練。當(dāng)面對手寫標(biāo)記、陰影遮擋或背景干擾時(shí)，模型往往表現(xiàn)出明顯的不適應(yīng)。

二、不同類型問題的表現(xiàn)差異

研究團(tuán)隊(duì)對不同類型問題的分析揭示了AI模型能力的微妙差異。在統(tǒng)計(jì)圖表類問題上，模型表現(xiàn)相對最好，最高準(zhǔn)確率可達(dá)48.5%。這類問題通常具有結(jié)構(gòu)化的布局和相對清晰的幾何形狀，使得信息提取相對容易。就像是閱讀一份設(shè)計(jì)良好的信息圖表，即使在不完美的條件下也能獲取到主要信息。

相比之下，邏輯推理和函數(shù)圖像是最具挑戰(zhàn)性的類別。邏輯推理需要抽象的符號推斷能力，即使是頂級模型也只能達(dá)到39.1%的嚴(yán)格準(zhǔn)確率。函數(shù)圖像問題則需要精確的空間對齊，將視覺特征與數(shù)學(xué)表達(dá)式準(zhǔn)確匹配，這對當(dāng)前的AI技術(shù)來說仍然非常困難。

平面幾何和立體幾何的表現(xiàn)處于中等水平，但也暴露了模型在處理幾何關(guān)系時(shí)的局限性。特別是當(dāng)幾何圖形出現(xiàn)扭曲、部分遮擋或手繪標(biāo)記時(shí)，模型往往難以準(zhǔn)確理解空間關(guān)系和角度信息。

在問題類型方面，填空題的整體表現(xiàn)最好，最高可達(dá)67.7%的準(zhǔn)確率。這類問題通常有明確的數(shù)值答案，較少涉及復(fù)雜的文字表述。解答題的表現(xiàn)適中，頂級模型可達(dá)51.8%，但這類問題需要完整的推理鏈條和結(jié)構(gòu)化的答案組織。選擇題的表現(xiàn)最差，只有大約42%的上限，這可能是因?yàn)檫x擇題更依賴于精確的視覺識別來區(qū)分不同選項(xiàng)。

三、封閉源碼與開源模型的性能鴻溝

研究結(jié)果顯示，封閉源碼模型在所有評估指標(biāo)和任務(wù)類型上都顯著優(yōu)于開源模型，而這種性能差距在嘈雜的視覺輸入條件下進(jìn)一步放大。在嚴(yán)格準(zhǔn)確率指標(biāo)下，表現(xiàn)最好的封閉源碼模型Doubao-1.5-thinking-vision-pro達(dá)到了41.0%的平均準(zhǔn)確率，而表現(xiàn)最好的開源模型ERNIE-4.5-Turbo-VL-Preview只達(dá)到17.1%，差距超過20個(gè)百分點(diǎn)。

這種差距背后反映了不同類型模型在設(shè)計(jì)理念和訓(xùn)練資源上的根本差異。封閉源碼模型通常擁有更大的計(jì)算資源、更精細(xì)的數(shù)據(jù)策展和更深度的工程優(yōu)化。它們在處理真實(shí)世界的視覺挑戰(zhàn)時(shí)表現(xiàn)出更強(qiáng)的魯棒性，能夠在一定程度上應(yīng)對圖像質(zhì)量下降、視角變化等問題。

開源模型雖然在透明度和可訪問性方面有優(yōu)勢，但在處理復(fù)雜的多模態(tài)任務(wù)時(shí)仍顯不足。特別是專門的推理模型，表現(xiàn)更加落后，最強(qiáng)的推理模型MiMo-VL-7B-RL在嚴(yán)格準(zhǔn)確率下只達(dá)到13.5%，大多數(shù)其他推理模型都低于10%。這突出了將推理管道與魯棒視覺感知相結(jié)合的困難，也強(qiáng)調(diào)了封閉源碼模型中端到端、良好對齊架構(gòu)在處理真實(shí)世界視覺挑戰(zhàn)時(shí)的優(yōu)勢。

然而，研究也發(fā)現(xiàn)了一些有趣的例外情況。某些開源模型在特定類別上表現(xiàn)出色，比如InternVL-3-78B在邏輯推理方面達(dá)到了15.2%的成績，這在開源模型中是相當(dāng)不錯(cuò)的表現(xiàn)。這表明通過針對性的優(yōu)化和訓(xùn)練，開源模型仍有進(jìn)一步提升的空間。

四、OCR準(zhǔn)確性與數(shù)學(xué)推理的關(guān)系

研究團(tuán)隊(duì)設(shè)計(jì)了六種不同的實(shí)驗(yàn)設(shè)置來系統(tǒng)分析模型的感知和推理能力。這些設(shè)置從純圖像輸入逐步過渡到提供人工標(biāo)注的問題文本和圖形描述，就像是為模型提供了不同程度的"輔助工具"。

結(jié)果顯示，模型性能在這些設(shè)置下表現(xiàn)出明顯的層次化提升。當(dāng)從純圖像輸入(I)切換到提供準(zhǔn)確文本和圖形描述的設(shè)置(I+QG+DG)時(shí)，大多數(shù)模型的準(zhǔn)確率都有顯著提升。例如，Grok-4模型從5.4%提升到57.7%，這種巨大的性能躍升表明該模型在純文本推理方面能力很強(qiáng)，但視覺感知環(huán)節(jié)存在嚴(yán)重瓶頸。

有趣的是，不同模型表現(xiàn)出了不同的能力特征。Claude-sonnet-4-thinking在OCR和圖形理解方面表現(xiàn)較弱，從I設(shè)置下的16.5%只提升到I+QM(模型自生成文本)下的15.6%，甚至在I+QM+DM(添加模型自生成圖形描述)下降至13.5%。只有在提供準(zhǔn)確的人工標(biāo)注輸入時(shí)，性能才顯著提升，這表明該模型的視覺-文本提取能力較弱。

相比之下，Gemini-2.5-pro-thinking展現(xiàn)出更強(qiáng)的內(nèi)部感知能力。它從I設(shè)置下的51.1%穩(wěn)步提升到I+QM下的59.3%，再到I+QM+DM下的61.9%。即使在提供準(zhǔn)確輸入的情況下，提升幅度相對較小，這表明該模型已經(jīng)具備了相對強(qiáng)大的內(nèi)部感知和理解能力。

這些發(fā)現(xiàn)揭示了當(dāng)前多模態(tài)模型的一個(gè)關(guān)鍵問題：大多數(shù)模型在處理清晰文本時(shí)表現(xiàn)良好，但從真實(shí)視覺輸入中進(jìn)行魯棒提取和結(jié)構(gòu)化仍然是一個(gè)重大挑戰(zhàn)。這就像是一個(gè)優(yōu)秀的數(shù)學(xué)家，如果給他完整準(zhǔn)確的題目描述，他能很好地解決問題，但如果讓他從模糊不清的照片中提取題目信息，就會(huì)遇到困難。

五、真實(shí)圖像與清潔圖像的對比實(shí)驗(yàn)

為了量化圖像質(zhì)量對模型性能的具體影響，研究團(tuán)隊(duì)選擇了175個(gè)問題，同時(shí)獲取了這些問題的真實(shí)拍攝版本和清潔版本進(jìn)行對比測試。結(jié)果顯示，大多數(shù)模型在清潔圖像上的表現(xiàn)都有顯著提升，但不同模型的提升幅度差異很大。

Llama-4-Maverick模型表現(xiàn)出最大的性能差距，在清潔圖像上比真實(shí)圖像高出12.0個(gè)百分點(diǎn)。Claude-sonnet-4-thinking的差距也達(dá)到了11.8%，這表明視覺噪聲嚴(yán)重限制了這些模型在真實(shí)圖像上的性能。這種現(xiàn)象類似于某些人在安靜環(huán)境中能夠?qū)Ｗ⑺伎?，但在嘈雜環(huán)境中就難以集中注意力。

然而，也有一些令人意外的發(fā)現(xiàn)。Doubao-1.5-thinking-vision-pro在真實(shí)圖像上的表現(xiàn)實(shí)際上比清潔圖像還要好0.21個(gè)百分點(diǎn)。這可能是因?yàn)樵撃Ｐ偷囊曈X主干網(wǎng)絡(luò)在大量真實(shí)移動(dòng)設(shè)備拍攝的數(shù)據(jù)上進(jìn)行了充分訓(xùn)練，使其能夠利用真實(shí)世界的光照、陰影和紋理線索來更好地理解內(nèi)容。

具體的噪聲類型分析揭示了不同干擾因素的影響程度。模糊是最嚴(yán)重的問題，因?yàn)樗鼤?huì)削弱OCR文本提取和精細(xì)視覺特征識別所需的高頻細(xì)節(jié)。旋轉(zhuǎn)會(huì)破壞空間對齊，迫使模型依賴隱式的幾何變換能力。有趣的是，圖形標(biāo)記和手寫答案干擾有時(shí)反而能帶來輕微的性能提升，這可能是因?yàn)檫@些標(biāo)記突出了關(guān)鍵區(qū)域或提供了解題線索。

六、錯(cuò)誤模式的深入分析

研究團(tuán)隊(duì)對兩個(gè)頂級模型Doubao-1.5-thinking-vision-pro和Gemini-2.5-pro-thinking各隨機(jī)抽取100個(gè)失敗案例進(jìn)行詳細(xì)的錯(cuò)誤分析，發(fā)現(xiàn)了一致的錯(cuò)誤分布模式。推理錯(cuò)誤占據(jù)了最大比例，超過三分之一，這表明即使在感知大致正確的情況下，模型仍經(jīng)常無法構(gòu)建有效的邏輯鏈條或應(yīng)用正確的數(shù)學(xué)原理。

視覺理解問題是另一個(gè)主要失敗來源。圖形感知錯(cuò)誤和OCR錯(cuò)誤合計(jì)占到40-50%的失敗案例，這反映了多模態(tài)數(shù)學(xué)任務(wù)對準(zhǔn)確視覺解碼的強(qiáng)烈依賴。當(dāng)模型誤讀數(shù)字、錯(cuò)誤解釋幾何結(jié)構(gòu)或忽略關(guān)鍵的視覺信息時(shí)，后續(xù)的推理過程即使完全正確也無法得出正確答案。

計(jì)算錯(cuò)誤、幻覺錯(cuò)誤和拒絕錯(cuò)誤的出現(xiàn)頻率相對較低，但仍然值得關(guān)注?；糜X錯(cuò)誤通常發(fā)生在模型編造不存在的數(shù)值或假設(shè)時(shí)，而拒絕錯(cuò)誤反映了模型在面對不確定性時(shí)未能產(chǎn)生有意義答案的情況。

這種錯(cuò)誤分布揭示了多模態(tài)數(shù)學(xué)推理的兩個(gè)主要挑戰(zhàn)：在不完美輸入條件下的魯棒視覺理解，以及在嘈雜或模糊內(nèi)容上的一致多步推理。僅僅解決其中一個(gè)方面是不夠的，未來多模態(tài)大語言模型的進(jìn)步需要在感知、解析和推理組件之間實(shí)現(xiàn)緊密集成的改進(jìn)。

七、不同模型家族的特色表現(xiàn)

深入分析各個(gè)模型家族的表現(xiàn)特點(diǎn)，可以發(fā)現(xiàn)不同的技術(shù)路線和設(shè)計(jì)理念帶來的差異。Doubao家族在幾何和結(jié)構(gòu)化推理任務(wù)上表現(xiàn)出強(qiáng)大的能力，Doubao-1.5-thinking-vision-pro在平面幾何(43.3%)、立體幾何(43.2%)和統(tǒng)計(jì)圖表(48.5%)上都取得了最高的嚴(yán)格準(zhǔn)確率，這表明其在需要空間理解和正式視覺解析的任務(wù)上具有優(yōu)勢。

在Doubao家族內(nèi)部，非思維版本Doubao-seed-1.6在某些抽象推理任務(wù)上反而超越了思維版本。在邏輯推理類別中，非思維版本達(dá)到32.6%，而思維版本只有17.4%，這表明更長的推理鏈條在視覺噪聲環(huán)境下可能反而會(huì)影響性能。這種現(xiàn)象類似于在嘈雜環(huán)境中，簡單直接的思考方式有時(shí)比復(fù)雜的分析更有效。

Gemini家族展現(xiàn)出一致強(qiáng)勁且平衡的性能。Gemini-2.5-pro-thinking在各項(xiàng)任務(wù)中都排名前列，在統(tǒng)計(jì)圖表上達(dá)到48.5%，在平面幾何和立體幾何上都超過40%。即使在最具挑戰(zhàn)性的邏輯推理類別中，它也達(dá)到了39.1%，顯示出穩(wěn)定的多模態(tài)推理能力。這種平衡性表明Gemini在不同類型的視覺-數(shù)學(xué)任務(wù)上都有良好的適應(yīng)性。

InternVL模型表現(xiàn)出了有趣的逆向擴(kuò)展模式。InternVL-3-78B在邏輯推理方面取得了開源模型中的最佳成績(15.2%)，但在統(tǒng)計(jì)圖表任務(wù)上卻不如InternVL-3-38B，這可能是由于過擬合或在更大規(guī)模下視覺泛化能力的退化。

Qwen2.5VL家族在結(jié)構(gòu)化視覺任務(wù)上表現(xiàn)出色。32B模型在函數(shù)圖像(18.6%)和統(tǒng)計(jì)圖表(30.3%)上領(lǐng)先，顯示出在視覺-文本對齊方面的優(yōu)勢。然而，擴(kuò)展到72B時(shí)，特別是在復(fù)雜推理任務(wù)上，性能提升有限，這表明單純的模型規(guī)模擴(kuò)大在處理真實(shí)世界視覺挑戰(zhàn)時(shí)可能存在收益遞減的問題。

八、嚴(yán)格評估揭示的推理穩(wěn)定性問題

研究采用了兩種評估標(biāo)準(zhǔn)來全面衡量模型性能。寬松準(zhǔn)確率允許部分正確，按照每個(gè)問題中正確回答的子問題比例計(jì)算。嚴(yán)格準(zhǔn)確率則要求問題中的所有子答案都必須正確才能得分，任何一個(gè)子答案錯(cuò)誤都會(huì)導(dǎo)致整個(gè)問題被標(biāo)記為錯(cuò)誤。

這兩種評估方式之間的差距揭示了模型在多步推理中的穩(wěn)定性問題。許多在寬松評估下表現(xiàn)不錯(cuò)的模型，在嚴(yán)格評估下出現(xiàn)顯著下降。例如，Gemini-2.5-pro-thinking在寬松準(zhǔn)確率下達(dá)到48.1%，但在嚴(yán)格評估下下降到42.9%，反映出小的推理失誤或不完整的邏輯鏈條。

更明顯的例子是InternVL-3-14B，它在寬松準(zhǔn)確率下達(dá)到19.0%，但嚴(yán)格準(zhǔn)確率只有10.9%，差距超過8個(gè)百分點(diǎn)。這突出表明該模型在完整任務(wù)一致性方面存在困難，經(jīng)常能夠部分解決問題但無法完全正確。

嚴(yán)格評估標(biāo)準(zhǔn)更好地反映了模型是否能夠完全解決多步驟問題的能力，這與教育標(biāo)準(zhǔn)更加一致。在真實(shí)的教育場景中，部分正確的答案往往不能滿足學(xué)習(xí)需求，學(xué)生和教師需要的是完整、準(zhǔn)確的解題過程。因此，嚴(yán)格評估揭示的推理穩(wěn)定性問題是現(xiàn)有模型需要重點(diǎn)改進(jìn)的方向。

這種評估方式的對比也為模型改進(jìn)提供了方向。那些在兩種評估方式下差距較小的模型，通常具有更穩(wěn)定的推理能力和更好的錯(cuò)誤容忍性。而差距較大的模型，則需要重點(diǎn)提升推理鏈條的完整性和一致性。

研究結(jié)果表明，MATHREAL不僅提供了一個(gè)更真實(shí)的評估環(huán)境，也為多模態(tài)大語言模型在實(shí)際教育應(yīng)用中的部署指出了明確的改進(jìn)方向。當(dāng)前的模型雖然在標(biāo)準(zhǔn)化測試中表現(xiàn)出色，但在面對真實(shí)世界的復(fù)雜性和不確定性時(shí)，仍有很大的提升空間。

說到底，這項(xiàng)研究就像是給AI模型安排了一次"實(shí)戰(zhàn)考試"，結(jié)果發(fā)現(xiàn)這些在"標(biāo)準(zhǔn)考場"中表現(xiàn)優(yōu)異的模型，在面對真實(shí)世界的"野外環(huán)境"時(shí)還有很多不足。不過，這正是科學(xué)進(jìn)步的價(jià)值所在，通過發(fā)現(xiàn)問題來推動(dòng)技術(shù)的不斷改進(jìn)。對于普通用戶來說，這意味著在使用AI輔導(dǎo)工具時(shí)，可能還需要一些耐心，同時(shí)也提醒我們，技術(shù)的發(fā)展是一個(gè)漸進(jìn)的過程，真正實(shí)用的AI教育助手還需要更多的技術(shù)突破和優(yōu)化。

這項(xiàng)研究的意義不僅在于揭示了當(dāng)前AI技術(shù)的局限性，更在于為未來的改進(jìn)方向提供了清晰的路線圖。相信隨著更多研究者關(guān)注這些實(shí)際應(yīng)用中的挑戰(zhàn)，我們將看到更加實(shí)用和可靠的AI教育工具的出現(xiàn)。對于有興趣深入了解技術(shù)細(xì)節(jié)的讀者，可以通過GitHub平臺訪問完整的數(shù)據(jù)集和代碼，為這個(gè)重要的研究領(lǐng)域貢獻(xiàn)自己的力量。

Q&A

Q1：MATHREAL數(shù)據(jù)集和普通的AI數(shù)學(xué)測試有什么不同？

A：MATHREAL使用的是真實(shí)學(xué)生用手機(jī)拍攝的作業(yè)照片，包含模糊、傾斜、陰影等真實(shí)情況，而不是清晰的標(biāo)準(zhǔn)化圖片。就像是讓AI在真實(shí)的"野外環(huán)境"而不是"標(biāo)準(zhǔn)考場"中答題，更能反映實(shí)際使用中的表現(xiàn)。

Q2：為什么AI在真實(shí)拍攝的數(shù)學(xué)題上表現(xiàn)這么差？

A：主要有三個(gè)原因：首先是圖像質(zhì)量問題，模糊、傾斜的照片讓AI難以準(zhǔn)確識別文字和圖形；其次是多步推理不穩(wěn)定，任何一個(gè)環(huán)節(jié)出錯(cuò)都可能導(dǎo)致最終答案錯(cuò)誤；最后是缺乏對真實(shí)世界噪音的適應(yīng)訓(xùn)練，AI習(xí)慣了清晰標(biāo)準(zhǔn)的輸入。

Q3：這項(xiàng)研究對普通用戶使用AI學(xué)習(xí)工具有什么啟示？

A：研究表明目前的AI教育工具在處理手機(jī)拍攝的作業(yè)時(shí)還不夠可靠，準(zhǔn)確率只有50%左右。用戶在使用時(shí)需要保持耐心，盡量提供清晰、正面拍攝的圖片，同時(shí)不要完全依賴AI答案，最好結(jié)合人工檢查。

多模態(tài)學(xué)習(xí)數(shù)學(xué)推理真實(shí)場景評估

分享至

0贊

好文章，需要你的鼓勵(lì)

推薦文章

音頻生成
大語言模型
多模態(tài)AI

2025-09-10 09:47

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng)，首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù)，通過交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練，能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異，為AI音頻創(chuàng)作開辟新方向。
視頻生成
深度學(xué)習(xí)
多模態(tài)學(xué)習(xí)

2025-09-09 13:57

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動(dòng)起來不再是奢望

Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù)，通過讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息，顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量，在多項(xiàng)測試中超越包括Sora在內(nèi)的商業(yè)模型，為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
多模態(tài)AI
人類價(jià)值觀對齊
數(shù)據(jù)集構(gòu)建

2025-09-09 13:56

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價(jià)值觀對齊難題

上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究，首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn)，通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法，讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平，為AI價(jià)值觀對齊提供了可行技術(shù)路徑。
人工智能
圖神經(jīng)網(wǎng)絡(luò)
天氣預(yù)報(bào)

2025-09-09 10:56

谷歌研究團(tuán)隊(duì)發(fā)布超級預(yù)測模型：讓AI像天氣預(yù)報(bào)員一樣預(yù)測全球大氣變化

谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測模型，能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào)，準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù)，通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律，在極端天氣預(yù)測方面表現(xiàn)卓越，能耗僅為傳統(tǒng)方法的千分之一，為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

2025-09-10 09:47

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動(dòng)起來不再是奢望

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動(dòng)起來不再是奢望

2025-09-09 13:57

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價(jià)值觀對齊難題

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價(jià)值觀對齊難題

2025-09-09 13:56

谷歌研究團(tuán)隊(duì)發(fā)布超級預(yù)測模型：讓AI像天氣預(yù)報(bào)員一樣預(yù)測全球大氣變化

谷歌研究團(tuán)隊(duì)發(fā)布超級預(yù)測模型：讓AI像天氣預(yù)報(bào)員一樣預(yù)測全球大氣變化

2025-09-09 10:56

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時(shí)代

京ICP證15039648號京ICP備15039648號-9 京公網(wǎng)安備 11010802021500號

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報(bào)電話：010-62641205　涉未成年人舉報(bào)專線：010-62641208 舉報(bào)郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報(bào)專區(qū)：https://www.12377.cn

<p id="2l1ou"></p>

<bdo id="2l1ou"></bdo>