這項(xiàng)由百度公司、南洋理工大學(xué)、小鵬汽車、中國人民大學(xué)和北京航空航天大學(xué)聯(lián)合開展的研究,發(fā)表于2025年8月,相關(guān)數(shù)據(jù)和代碼已在GitHub平臺公開(https://github.com/junfeng0288/MathReal)。有興趣深入了解的讀者可以通過論文預(yù)印本網(wǎng)站訪問完整研究內(nèi)容。
當(dāng)我們談?wù)撊斯ぶ悄苡卸嗦斆鲿r(shí),經(jīng)常會(huì)聽到一些令人印象深刻的數(shù)字:某個(gè)AI模型在數(shù)學(xué)競賽中獲得了接近人類水平的成績,或者在標(biāo)準(zhǔn)化測試中表現(xiàn)優(yōu)異。然而,當(dāng)你真的拿起手機(jī)拍下孩子的數(shù)學(xué)作業(yè),向AI求助時(shí),結(jié)果往往讓人失望。這就像是一位在實(shí)驗(yàn)室里表現(xiàn)完美的廚師,一旦走進(jìn)真實(shí)的家庭廚房,面對各種不完美的食材和工具時(shí),卻手忙腳亂起來。
這種差距的根本原因在于,現(xiàn)有的AI數(shù)學(xué)能力測試大多基于清晰、標(biāo)準(zhǔn)化的圖片和文本,就像是在理想環(huán)境下進(jìn)行的考試。而現(xiàn)實(shí)生活中,當(dāng)學(xué)生用手機(jī)拍攝作業(yè)題目時(shí),照片往往是傾斜的、模糊的,或者有陰影遮擋。教科書頁面可能有折痕,習(xí)題冊上可能有手寫的答案和涂抹痕跡。這些"不完美"的真實(shí)條件,恰恰是AI在實(shí)際應(yīng)用中必須面對的挑戰(zhàn)。
研究團(tuán)隊(duì)意識到了這個(gè)問題的重要性。他們發(fā)現(xiàn),盡管多模態(tài)大語言模型在各種數(shù)學(xué)推理基準(zhǔn)測試中表現(xiàn)出色,但這些測試都基于經(jīng)過清理和處理的圖像輸入,很少考慮真實(shí)世界K-12教育用戶提供的圖像情況。當(dāng)學(xué)生們用手持移動(dòng)設(shè)備拍攝教科書頁面或作業(yè)問題尋求幫助時(shí),AI模型的表現(xiàn)往往大打折扣。
為了填補(bǔ)這一空白,研究團(tuán)隊(duì)創(chuàng)建了MATHREAL數(shù)據(jù)集,這是一個(gè)包含2000道數(shù)學(xué)題的綜合測試平臺。這些題目全部來自真實(shí)的教育場景,每一張圖片都是用手機(jī)在自然條件下拍攝的。研究人員將這些真實(shí)世界的挑戰(zhàn)系統(tǒng)地分為三大類:圖像質(zhì)量退化、視角變化和無關(guān)內(nèi)容干擾,并進(jìn)一步細(xì)化為14個(gè)子類別。
圖像質(zhì)量退化就像是在不同光線條件下拍照產(chǎn)生的問題。當(dāng)光線不足時(shí),照片會(huì)變得模糊不清,就像在昏暗的房間里拍攝作業(yè)一樣。過度曝光會(huì)讓部分內(nèi)容看不清楚,就像在強(qiáng)烈陽光下拍照時(shí)產(chǎn)生的炫光。陰影覆蓋則像是有人的手或其他物體擋住了部分題目,造成內(nèi)容缺失。這些都是學(xué)生在日常拍攝作業(yè)時(shí)經(jīng)常遇到的情況。
視角變化涉及拍攝角度和方向的問題。旋轉(zhuǎn)是最常見的情況,學(xué)生可能無意中將手機(jī)傾斜了90度或180度來拍攝。平面內(nèi)傾斜指的是輕微的角度偏差,就像書本沒有完全放平時(shí)的效果。非平面拍攝則是當(dāng)書頁有彎曲或折疊時(shí)產(chǎn)生的透視扭曲。背景扭曲可能來自于紙張本身的彎曲變形,這些都會(huì)影響AI對內(nèi)容的準(zhǔn)確識別。
無關(guān)內(nèi)容干擾則包含了各種可能出現(xiàn)在真實(shí)作業(yè)環(huán)境中的額外信息。手寫題目是指學(xué)生或老師用手寫形式添加的問題文字,這些手寫內(nèi)容的識別難度通常比印刷體要大得多。反面內(nèi)容是指紙張背面的文字或圖形透過來產(chǎn)生的干擾。題目標(biāo)記包括學(xué)生用筆圈出重要部分或做的各種記號。圖形標(biāo)記是在幾何圖形上添加的輔助線或注釋。對于選擇題,可能會(huì)有學(xué)生已經(jīng)填寫的手寫答案,而對于解答題,頁面上可能顯示完整的手寫解答過程。
這個(gè)數(shù)據(jù)集不僅僅是圖片的集合,更是一個(gè)完整的評估體系。每道題目都經(jīng)過專業(yè)標(biāo)注,包含五個(gè)核心知識和能力類別:平面幾何、立體幾何、邏輯推理、函數(shù)圖像和統(tǒng)計(jì)圖表。題目類型涵蓋了三種常見形式:選擇題、填空題和解答題。難度分為小學(xué)、初中和高中三個(gè)層次,確保能夠全面評估AI模型在不同教育階段的表現(xiàn)。
為了確保數(shù)據(jù)質(zhì)量,研究團(tuán)隊(duì)建立了嚴(yán)格的三階段人工標(biāo)注流程。第一階段是重新篩選,確保每個(gè)樣本都包含單個(gè)完整的問題,且圖形對于解題是必需的。第二階段是對圖像條件進(jìn)行詳細(xì)標(biāo)注,按照預(yù)定義的分類體系對每種真實(shí)世界場景類型進(jìn)行分級。第三階段是問題級元數(shù)據(jù)標(biāo)注,包括問題內(nèi)容、類型、教育階段、知識類別、圖形描述和正確答案。所有標(biāo)注工作都經(jīng)過完全的人工驗(yàn)證,確保最終數(shù)據(jù)集既反映了多樣化的真實(shí)世界條件,又保持了高質(zhì)量的語義和結(jié)構(gòu)標(biāo)準(zhǔn)。
一、真實(shí)世界與理想測試的巨大差距
當(dāng)研究團(tuán)隊(duì)使用MATHREAL對當(dāng)前最先進(jìn)的AI模型進(jìn)行測試時(shí),結(jié)果令人震驚。即使是表現(xiàn)最好的模型Doubao-1.5-thinking-vision-pro,在相對簡單的K-12場景中也只達(dá)到了53.9%的準(zhǔn)確率。這與這些模型在傳統(tǒng)數(shù)學(xué)基準(zhǔn)測試中接近人類甚至競賽級別的表現(xiàn)形成了鮮明對比,凸顯了實(shí)際應(yīng)用能力的巨大差距。
這種差距就像是一個(gè)在標(biāo)準(zhǔn)化考場中表現(xiàn)優(yōu)異的學(xué)生,突然被要求在嘈雜的環(huán)境中、使用不完整的材料來解決同樣的問題時(shí),表現(xiàn)大幅下降。研究結(jié)果表明,現(xiàn)有的多模態(tài)大語言模型在面對真實(shí)教育場景時(shí)仍然遠(yuǎn)未達(dá)到可靠應(yīng)用的水平。
更深入的分析顯示,這種性能下降主要源于三個(gè)方面的挑戰(zhàn)。首先是視覺感知能力的脆弱性。當(dāng)圖像出現(xiàn)模糊、傾斜或光線不均時(shí),模型往往無法準(zhǔn)確提取文字和識別幾何圖形。這就像是一個(gè)人戴著有度數(shù)偏差的眼鏡看書,基礎(chǔ)信息的獲取就出現(xiàn)了問題。
其次是多步推理的不穩(wěn)定性。研究發(fā)現(xiàn),即使模型能夠正確識別圖像內(nèi)容,在進(jìn)行復(fù)雜的數(shù)學(xué)推理時(shí)也容易出錯(cuò)。特別是對于需要多個(gè)步驟才能得出答案的問題,任何一個(gè)中間環(huán)節(jié)的小錯(cuò)誤都可能導(dǎo)致最終結(jié)果的完全錯(cuò)誤。
最后是對真實(shí)世界噪音的適應(yīng)性不足。傳統(tǒng)訓(xùn)練數(shù)據(jù)中的圖像大多經(jīng)過清理和標(biāo)準(zhǔn)化處理,缺乏對各種真實(shí)世界干擾因素的充分訓(xùn)練。當(dāng)面對手寫標(biāo)記、陰影遮擋或背景干擾時(shí),模型往往表現(xiàn)出明顯的不適應(yīng)。
二、不同類型問題的表現(xiàn)差異
研究團(tuán)隊(duì)對不同類型問題的分析揭示了AI模型能力的微妙差異。在統(tǒng)計(jì)圖表類問題上,模型表現(xiàn)相對最好,最高準(zhǔn)確率可達(dá)48.5%。這類問題通常具有結(jié)構(gòu)化的布局和相對清晰的幾何形狀,使得信息提取相對容易。就像是閱讀一份設(shè)計(jì)良好的信息圖表,即使在不完美的條件下也能獲取到主要信息。
相比之下,邏輯推理和函數(shù)圖像是最具挑戰(zhàn)性的類別。邏輯推理需要抽象的符號推斷能力,即使是頂級模型也只能達(dá)到39.1%的嚴(yán)格準(zhǔn)確率。函數(shù)圖像問題則需要精確的空間對齊,將視覺特征與數(shù)學(xué)表達(dá)式準(zhǔn)確匹配,這對當(dāng)前的AI技術(shù)來說仍然非常困難。
平面幾何和立體幾何的表現(xiàn)處于中等水平,但也暴露了模型在處理幾何關(guān)系時(shí)的局限性。特別是當(dāng)幾何圖形出現(xiàn)扭曲、部分遮擋或手繪標(biāo)記時(shí),模型往往難以準(zhǔn)確理解空間關(guān)系和角度信息。
在問題類型方面,填空題的整體表現(xiàn)最好,最高可達(dá)67.7%的準(zhǔn)確率。這類問題通常有明確的數(shù)值答案,較少涉及復(fù)雜的文字表述。解答題的表現(xiàn)適中,頂級模型可達(dá)51.8%,但這類問題需要完整的推理鏈條和結(jié)構(gòu)化的答案組織。選擇題的表現(xiàn)最差,只有大約42%的上限,這可能是因?yàn)檫x擇題更依賴于精確的視覺識別來區(qū)分不同選項(xiàng)。
三、封閉源碼與開源模型的性能鴻溝
研究結(jié)果顯示,封閉源碼模型在所有評估指標(biāo)和任務(wù)類型上都顯著優(yōu)于開源模型,而這種性能差距在嘈雜的視覺輸入條件下進(jìn)一步放大。在嚴(yán)格準(zhǔn)確率指標(biāo)下,表現(xiàn)最好的封閉源碼模型Doubao-1.5-thinking-vision-pro達(dá)到了41.0%的平均準(zhǔn)確率,而表現(xiàn)最好的開源模型ERNIE-4.5-Turbo-VL-Preview只達(dá)到17.1%,差距超過20個(gè)百分點(diǎn)。
這種差距背后反映了不同類型模型在設(shè)計(jì)理念和訓(xùn)練資源上的根本差異。封閉源碼模型通常擁有更大的計(jì)算資源、更精細(xì)的數(shù)據(jù)策展和更深度的工程優(yōu)化。它們在處理真實(shí)世界的視覺挑戰(zhàn)時(shí)表現(xiàn)出更強(qiáng)的魯棒性,能夠在一定程度上應(yīng)對圖像質(zhì)量下降、視角變化等問題。
開源模型雖然在透明度和可訪問性方面有優(yōu)勢,但在處理復(fù)雜的多模態(tài)任務(wù)時(shí)仍顯不足。特別是專門的推理模型,表現(xiàn)更加落后,最強(qiáng)的推理模型MiMo-VL-7B-RL在嚴(yán)格準(zhǔn)確率下只達(dá)到13.5%,大多數(shù)其他推理模型都低于10%。這突出了將推理管道與魯棒視覺感知相結(jié)合的困難,也強(qiáng)調(diào)了封閉源碼模型中端到端、良好對齊架構(gòu)在處理真實(shí)世界視覺挑戰(zhàn)時(shí)的優(yōu)勢。
然而,研究也發(fā)現(xiàn)了一些有趣的例外情況。某些開源模型在特定類別上表現(xiàn)出色,比如InternVL-3-78B在邏輯推理方面達(dá)到了15.2%的成績,這在開源模型中是相當(dāng)不錯(cuò)的表現(xiàn)。這表明通過針對性的優(yōu)化和訓(xùn)練,開源模型仍有進(jìn)一步提升的空間。
四、OCR準(zhǔn)確性與數(shù)學(xué)推理的關(guān)系
研究團(tuán)隊(duì)設(shè)計(jì)了六種不同的實(shí)驗(yàn)設(shè)置來系統(tǒng)分析模型的感知和推理能力。這些設(shè)置從純圖像輸入逐步過渡到提供人工標(biāo)注的問題文本和圖形描述,就像是為模型提供了不同程度的"輔助工具"。
結(jié)果顯示,模型性能在這些設(shè)置下表現(xiàn)出明顯的層次化提升。當(dāng)從純圖像輸入(I)切換到提供準(zhǔn)確文本和圖形描述的設(shè)置(I+QG+DG)時(shí),大多數(shù)模型的準(zhǔn)確率都有顯著提升。例如,Grok-4模型從5.4%提升到57.7%,這種巨大的性能躍升表明該模型在純文本推理方面能力很強(qiáng),但視覺感知環(huán)節(jié)存在嚴(yán)重瓶頸。
有趣的是,不同模型表現(xiàn)出了不同的能力特征。Claude-sonnet-4-thinking在OCR和圖形理解方面表現(xiàn)較弱,從I設(shè)置下的16.5%只提升到I+QM(模型自生成文本)下的15.6%,甚至在I+QM+DM(添加模型自生成圖形描述)下降至13.5%。只有在提供準(zhǔn)確的人工標(biāo)注輸入時(shí),性能才顯著提升,這表明該模型的視覺-文本提取能力較弱。
相比之下,Gemini-2.5-pro-thinking展現(xiàn)出更強(qiáng)的內(nèi)部感知能力。它從I設(shè)置下的51.1%穩(wěn)步提升到I+QM下的59.3%,再到I+QM+DM下的61.9%。即使在提供準(zhǔn)確輸入的情況下,提升幅度相對較小,這表明該模型已經(jīng)具備了相對強(qiáng)大的內(nèi)部感知和理解能力。
這些發(fā)現(xiàn)揭示了當(dāng)前多模態(tài)模型的一個(gè)關(guān)鍵問題:大多數(shù)模型在處理清晰文本時(shí)表現(xiàn)良好,但從真實(shí)視覺輸入中進(jìn)行魯棒提取和結(jié)構(gòu)化仍然是一個(gè)重大挑戰(zhàn)。這就像是一個(gè)優(yōu)秀的數(shù)學(xué)家,如果給他完整準(zhǔn)確的題目描述,他能很好地解決問題,但如果讓他從模糊不清的照片中提取題目信息,就會(huì)遇到困難。
五、真實(shí)圖像與清潔圖像的對比實(shí)驗(yàn)
為了量化圖像質(zhì)量對模型性能的具體影響,研究團(tuán)隊(duì)選擇了175個(gè)問題,同時(shí)獲取了這些問題的真實(shí)拍攝版本和清潔版本進(jìn)行對比測試。結(jié)果顯示,大多數(shù)模型在清潔圖像上的表現(xiàn)都有顯著提升,但不同模型的提升幅度差異很大。
Llama-4-Maverick模型表現(xiàn)出最大的性能差距,在清潔圖像上比真實(shí)圖像高出12.0個(gè)百分點(diǎn)。Claude-sonnet-4-thinking的差距也達(dá)到了11.8%,這表明視覺噪聲嚴(yán)重限制了這些模型在真實(shí)圖像上的性能。這種現(xiàn)象類似于某些人在安靜環(huán)境中能夠?qū)W⑺伎?,但在嘈雜環(huán)境中就難以集中注意力。
然而,也有一些令人意外的發(fā)現(xiàn)。Doubao-1.5-thinking-vision-pro在真實(shí)圖像上的表現(xiàn)實(shí)際上比清潔圖像還要好0.21個(gè)百分點(diǎn)。這可能是因?yàn)樵撃P偷囊曈X主干網(wǎng)絡(luò)在大量真實(shí)移動(dòng)設(shè)備拍攝的數(shù)據(jù)上進(jìn)行了充分訓(xùn)練,使其能夠利用真實(shí)世界的光照、陰影和紋理線索來更好地理解內(nèi)容。
具體的噪聲類型分析揭示了不同干擾因素的影響程度。模糊是最嚴(yán)重的問題,因?yàn)樗鼤?huì)削弱OCR文本提取和精細(xì)視覺特征識別所需的高頻細(xì)節(jié)。旋轉(zhuǎn)會(huì)破壞空間對齊,迫使模型依賴隱式的幾何變換能力。有趣的是,圖形標(biāo)記和手寫答案干擾有時(shí)反而能帶來輕微的性能提升,這可能是因?yàn)檫@些標(biāo)記突出了關(guān)鍵區(qū)域或提供了解題線索。
六、錯(cuò)誤模式的深入分析
研究團(tuán)隊(duì)對兩個(gè)頂級模型Doubao-1.5-thinking-vision-pro和Gemini-2.5-pro-thinking各隨機(jī)抽取100個(gè)失敗案例進(jìn)行詳細(xì)的錯(cuò)誤分析,發(fā)現(xiàn)了一致的錯(cuò)誤分布模式。推理錯(cuò)誤占據(jù)了最大比例,超過三分之一,這表明即使在感知大致正確的情況下,模型仍經(jīng)常無法構(gòu)建有效的邏輯鏈條或應(yīng)用正確的數(shù)學(xué)原理。
視覺理解問題是另一個(gè)主要失敗來源。圖形感知錯(cuò)誤和OCR錯(cuò)誤合計(jì)占到40-50%的失敗案例,這反映了多模態(tài)數(shù)學(xué)任務(wù)對準(zhǔn)確視覺解碼的強(qiáng)烈依賴。當(dāng)模型誤讀數(shù)字、錯(cuò)誤解釋幾何結(jié)構(gòu)或忽略關(guān)鍵的視覺信息時(shí),后續(xù)的推理過程即使完全正確也無法得出正確答案。
計(jì)算錯(cuò)誤、幻覺錯(cuò)誤和拒絕錯(cuò)誤的出現(xiàn)頻率相對較低,但仍然值得關(guān)注?;糜X錯(cuò)誤通常發(fā)生在模型編造不存在的數(shù)值或假設(shè)時(shí),而拒絕錯(cuò)誤反映了模型在面對不確定性時(shí)未能產(chǎn)生有意義答案的情況。
這種錯(cuò)誤分布揭示了多模態(tài)數(shù)學(xué)推理的兩個(gè)主要挑戰(zhàn):在不完美輸入條件下的魯棒視覺理解,以及在嘈雜或模糊內(nèi)容上的一致多步推理。僅僅解決其中一個(gè)方面是不夠的,未來多模態(tài)大語言模型的進(jìn)步需要在感知、解析和推理組件之間實(shí)現(xiàn)緊密集成的改進(jìn)。
七、不同模型家族的特色表現(xiàn)
深入分析各個(gè)模型家族的表現(xiàn)特點(diǎn),可以發(fā)現(xiàn)不同的技術(shù)路線和設(shè)計(jì)理念帶來的差異。Doubao家族在幾何和結(jié)構(gòu)化推理任務(wù)上表現(xiàn)出強(qiáng)大的能力,Doubao-1.5-thinking-vision-pro在平面幾何(43.3%)、立體幾何(43.2%)和統(tǒng)計(jì)圖表(48.5%)上都取得了最高的嚴(yán)格準(zhǔn)確率,這表明其在需要空間理解和正式視覺解析的任務(wù)上具有優(yōu)勢。
在Doubao家族內(nèi)部,非思維版本Doubao-seed-1.6在某些抽象推理任務(wù)上反而超越了思維版本。在邏輯推理類別中,非思維版本達(dá)到32.6%,而思維版本只有17.4%,這表明更長的推理鏈條在視覺噪聲環(huán)境下可能反而會(huì)影響性能。這種現(xiàn)象類似于在嘈雜環(huán)境中,簡單直接的思考方式有時(shí)比復(fù)雜的分析更有效。
Gemini家族展現(xiàn)出一致強(qiáng)勁且平衡的性能。Gemini-2.5-pro-thinking在各項(xiàng)任務(wù)中都排名前列,在統(tǒng)計(jì)圖表上達(dá)到48.5%,在平面幾何和立體幾何上都超過40%。即使在最具挑戰(zhàn)性的邏輯推理類別中,它也達(dá)到了39.1%,顯示出穩(wěn)定的多模態(tài)推理能力。這種平衡性表明Gemini在不同類型的視覺-數(shù)學(xué)任務(wù)上都有良好的適應(yīng)性。
InternVL模型表現(xiàn)出了有趣的逆向擴(kuò)展模式。InternVL-3-78B在邏輯推理方面取得了開源模型中的最佳成績(15.2%),但在統(tǒng)計(jì)圖表任務(wù)上卻不如InternVL-3-38B,這可能是由于過擬合或在更大規(guī)模下視覺泛化能力的退化。
Qwen2.5VL家族在結(jié)構(gòu)化視覺任務(wù)上表現(xiàn)出色。32B模型在函數(shù)圖像(18.6%)和統(tǒng)計(jì)圖表(30.3%)上領(lǐng)先,顯示出在視覺-文本對齊方面的優(yōu)勢。然而,擴(kuò)展到72B時(shí),特別是在復(fù)雜推理任務(wù)上,性能提升有限,這表明單純的模型規(guī)模擴(kuò)大在處理真實(shí)世界視覺挑戰(zhàn)時(shí)可能存在收益遞減的問題。
八、嚴(yán)格評估揭示的推理穩(wěn)定性問題
研究采用了兩種評估標(biāo)準(zhǔn)來全面衡量模型性能。寬松準(zhǔn)確率允許部分正確,按照每個(gè)問題中正確回答的子問題比例計(jì)算。嚴(yán)格準(zhǔn)確率則要求問題中的所有子答案都必須正確才能得分,任何一個(gè)子答案錯(cuò)誤都會(huì)導(dǎo)致整個(gè)問題被標(biāo)記為錯(cuò)誤。
這兩種評估方式之間的差距揭示了模型在多步推理中的穩(wěn)定性問題。許多在寬松評估下表現(xiàn)不錯(cuò)的模型,在嚴(yán)格評估下出現(xiàn)顯著下降。例如,Gemini-2.5-pro-thinking在寬松準(zhǔn)確率下達(dá)到48.1%,但在嚴(yán)格評估下下降到42.9%,反映出小的推理失誤或不完整的邏輯鏈條。
更明顯的例子是InternVL-3-14B,它在寬松準(zhǔn)確率下達(dá)到19.0%,但嚴(yán)格準(zhǔn)確率只有10.9%,差距超過8個(gè)百分點(diǎn)。這突出表明該模型在完整任務(wù)一致性方面存在困難,經(jīng)常能夠部分解決問題但無法完全正確。
嚴(yán)格評估標(biāo)準(zhǔn)更好地反映了模型是否能夠完全解決多步驟問題的能力,這與教育標(biāo)準(zhǔn)更加一致。在真實(shí)的教育場景中,部分正確的答案往往不能滿足學(xué)習(xí)需求,學(xué)生和教師需要的是完整、準(zhǔn)確的解題過程。因此,嚴(yán)格評估揭示的推理穩(wěn)定性問題是現(xiàn)有模型需要重點(diǎn)改進(jìn)的方向。
這種評估方式的對比也為模型改進(jìn)提供了方向。那些在兩種評估方式下差距較小的模型,通常具有更穩(wěn)定的推理能力和更好的錯(cuò)誤容忍性。而差距較大的模型,則需要重點(diǎn)提升推理鏈條的完整性和一致性。
研究結(jié)果表明,MATHREAL不僅提供了一個(gè)更真實(shí)的評估環(huán)境,也為多模態(tài)大語言模型在實(shí)際教育應(yīng)用中的部署指出了明確的改進(jìn)方向。當(dāng)前的模型雖然在標(biāo)準(zhǔn)化測試中表現(xiàn)出色,但在面對真實(shí)世界的復(fù)雜性和不確定性時(shí),仍有很大的提升空間。
說到底,這項(xiàng)研究就像是給AI模型安排了一次"實(shí)戰(zhàn)考試",結(jié)果發(fā)現(xiàn)這些在"標(biāo)準(zhǔn)考場"中表現(xiàn)優(yōu)異的模型,在面對真實(shí)世界的"野外環(huán)境"時(shí)還有很多不足。不過,這正是科學(xué)進(jìn)步的價(jià)值所在,通過發(fā)現(xiàn)問題來推動(dòng)技術(shù)的不斷改進(jìn)。對于普通用戶來說,這意味著在使用AI輔導(dǎo)工具時(shí),可能還需要一些耐心,同時(shí)也提醒我們,技術(shù)的發(fā)展是一個(gè)漸進(jìn)的過程,真正實(shí)用的AI教育助手還需要更多的技術(shù)突破和優(yōu)化。
這項(xiàng)研究的意義不僅在于揭示了當(dāng)前AI技術(shù)的局限性,更在于為未來的改進(jìn)方向提供了清晰的路線圖。相信隨著更多研究者關(guān)注這些實(shí)際應(yīng)用中的挑戰(zhàn),我們將看到更加實(shí)用和可靠的AI教育工具的出現(xiàn)。對于有興趣深入了解技術(shù)細(xì)節(jié)的讀者,可以通過GitHub平臺訪問完整的數(shù)據(jù)集和代碼,為這個(gè)重要的研究領(lǐng)域貢獻(xiàn)自己的力量。
Q&A
Q1:MATHREAL數(shù)據(jù)集和普通的AI數(shù)學(xué)測試有什么不同?
A:MATHREAL使用的是真實(shí)學(xué)生用手機(jī)拍攝的作業(yè)照片,包含模糊、傾斜、陰影等真實(shí)情況,而不是清晰的標(biāo)準(zhǔn)化圖片。就像是讓AI在真實(shí)的"野外環(huán)境"而不是"標(biāo)準(zhǔn)考場"中答題,更能反映實(shí)際使用中的表現(xiàn)。
Q2:為什么AI在真實(shí)拍攝的數(shù)學(xué)題上表現(xiàn)這么差?
A:主要有三個(gè)原因:首先是圖像質(zhì)量問題,模糊、傾斜的照片讓AI難以準(zhǔn)確識別文字和圖形;其次是多步推理不穩(wěn)定,任何一個(gè)環(huán)節(jié)出錯(cuò)都可能導(dǎo)致最終答案錯(cuò)誤;最后是缺乏對真實(shí)世界噪音的適應(yīng)訓(xùn)練,AI習(xí)慣了清晰標(biāo)準(zhǔn)的輸入。
Q3:這項(xiàng)研究對普通用戶使用AI學(xué)習(xí)工具有什么啟示?
A:研究表明目前的AI教育工具在處理手機(jī)拍攝的作業(yè)時(shí)還不夠可靠,準(zhǔn)確率只有50%左右。用戶在使用時(shí)需要保持耐心,盡量提供清晰、正面拍攝的圖片,同時(shí)不要完全依賴AI答案,最好結(jié)合人工檢查。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。