對于想要理解人工智能如何進行數(shù)學(xué)推理的讀者來說,這是一個激動人心的時刻。由阿聯(lián)酋穆罕默德·本·扎耶德人工智能大學(xué)(MBZUAI)的Hanoona Rasheed、Abdelrahman Shaker、Anqi Tang、Muhammad Maaz,加州大學(xué)默塞德分校和谷歌研究院的Ming-Hsuan Yang,以及澳大利亞國立大學(xué)和瑞典林雪平大學(xué)的Salman Khan和Fahad Shahbaz Khan共同開發(fā)的一項創(chuàng)新研究于2025年6月發(fā)表在arXiv預(yù)印本平臺(arXiv:2506.05349v1)。這項研究推出了一個名為"VideoMathQA"的基準測試,用于評估人工智能模型在視頻環(huán)境中的數(shù)學(xué)推理能力。有興趣深入了解的讀者可以訪問項目官網(wǎng):https://mbzuai-oryx.github.io/VideoMathQA。
想象一下,你正在觀看一段數(shù)學(xué)教學(xué)視頻。教授一邊講解,一邊在白板上寫下公式,還不時地指向圖表或動畫演示。作為人類,我們能夠輕松地將所看到的圖像、聽到的解釋以及屏幕上出現(xiàn)的文字信息整合起來,理解整個數(shù)學(xué)概念。但對于人工智能來說,這是一項極其復(fù)雜的挑戰(zhàn)——這正是VideoMathQA要解決的問題。
在真實世界的視頻環(huán)境中進行數(shù)學(xué)推理,與在靜態(tài)圖像或純文本中相比有著本質(zhì)的不同。視頻中的數(shù)學(xué)推理要求模型能夠解讀精細的視覺信息,準確閱讀手寫或數(shù)字文本,并整合口頭解釋,而這些信息常常以非線性方式分散在時間軸上。在這種多模態(tài)環(huán)境中,成功不僅僅依賴于感知能力,還取決于能否從豐富而嘈雜的內(nèi)容流中選擇性地識別和整合正確的上下文細節(jié)。
一、基準測試的獨特設(shè)計
VideoMathQA基準測試覆蓋了10個不同的數(shù)學(xué)領(lǐng)域,視頻長度從10秒到超過1小時不等。它要求模型解釋結(jié)構(gòu)化的視覺內(nèi)容,理解教學(xué)敘述,并在視覺、音頻和文本模態(tài)之間建立概念聯(lián)系。研究團隊聘請了研究生級別的專家進行高質(zhì)量標注,總計超過920人時的標注工作。
為了反映真實場景,問題圍繞三個核心推理挑戰(zhàn)設(shè)計:直接問題解決,答案基于呈現(xiàn)的問題;概念遷移,需要將學(xué)習(xí)到的方法應(yīng)用于新問題;以及深度教學(xué)理解,涉及對長時間解釋和部分解答的多步推理。每個問題都包含多步推理標注,使得對模型能力進行精細診斷成為可能。
想象一下"大海撈針"的難度——只不過這里的"針"是分散在視頻、文本和音頻三種模態(tài)中的關(guān)鍵信息。研究人員將這種挑戰(zhàn)稱為"多模態(tài)大海撈針"問題,這正是VideoMathQA基準測試的核心難點。
二、構(gòu)建高質(zhì)量的數(shù)據(jù)集
VideoMathQA包含420個精心策劃的視頻-問題對,涵蓋從結(jié)構(gòu)化問題演練到概念演示,再到完整的白板或數(shù)字講座以及涉及圖表推理的動畫紀錄片等多種教學(xué)內(nèi)容。每個問題都包含多步推理步驟,整個數(shù)據(jù)集總共有2,945個專家標注的步驟。
每個問題都從四個維度進行特征化:數(shù)學(xué)概念、推理類型、視頻時長和難度級別。在數(shù)學(xué)概念方面,基準測試覆蓋了幾何、算術(shù)與微積分、統(tǒng)計與概率、計數(shù)、圖論、拼圖、拓撲學(xué)和圖表閱讀等10個領(lǐng)域。推理類型分為"問題聚焦型"、"概念遷移型"和"深度理解型"三類。視頻時長從10秒到1小時以上,分為短、中、長三組。難度級別則分為簡單、中等和困難,其中困難問題占到了57%。
標注過程包括三個階段:視頻選擇、問題-答案標注和逐步推理。這需要相當大的專家努力:平均花費30分鐘找到合適的視頻,40分鐘制作高質(zhì)量的問題-答案對,以及1小時撰寫詳細的逐步推理,每個樣本總計約2到2.5小時。整個數(shù)據(jù)集的標注工作大約相當于115個人天的工作量。不同的標注者處理每個樣本的各個階段,以確保獨立驗證。
三、多模態(tài)理解的深度挑戰(zhàn)
VideoMathQA基準測試的一個關(guān)鍵特點是它要求模型進行深度的跨模態(tài)推理。以"概念遷移"類型的問題為例,模型可能需要觀看教師在視頻中演示如何計算三角形的個數(shù),然后將學(xué)到的方法應(yīng)用到一個新的、相似但不完全相同的問題上。這就像是學(xué)生需要從課堂講解中理解一個方法,然后運用到家庭作業(yè)中一樣。
再如,"深度理解"類型的問題可能涉及跟蹤一個長達20分鐘的講解視頻,其中教授正在解釋一個復(fù)雜的微積分問題,并且只完成了部分解答。模型需要理解講解內(nèi)容,識別問題要求,解讀部分完成的解答,然后完成剩余的解答步驟。這模擬了學(xué)生需要跟上教授講課節(jié)奏并填補空白的真實學(xué)習(xí)場景。
四、全面的模型評估
研究團隊對30個專有和開源的多模態(tài)模型進行了全面評估,包括5個專有模型(Claude-3.7-sonnet、GPT-4o、GPT-o4-mini、Gemini 2.0 Flash和Gemini 1.5 Flash)以及25個開源模型,覆蓋了5B、9B、40B和80B四個參數(shù)規(guī)模類別。
評估采用了四種策略:多項選擇評估(MCQ)、多二元評估(MBin)、思維鏈(CoT)與直接回答的比較,以及逐步推理評估。這些方法相互補充,提供了對模型能力的全面視角。
結(jié)果顯示,模型性能通常隨著規(guī)模增大而提高,但架構(gòu)和訓(xùn)練質(zhì)量往往更具決定性——較新的、較小的模型經(jīng)常優(yōu)于較舊的、較大的模型。例如,InternVL-3-38B在CoT和直接回答中都超過了多個72B模型。這表明,更強的架構(gòu)、改進的視覺理解和更好的推理能力使這些模型能夠勝過較大的、以前的最先進模型。
有趣的是,專有模型和開源模型之間的差距正在縮小。經(jīng)過優(yōu)化的開源模型,如Qwen2.5-VL-72B和InternVL-3-78B,表現(xiàn)超過了幾個專有競爭對手,包括Claude-3.7-Sonnet、Gemini-2.0-Flash和GPT-4o。
五、字幕和多模態(tài)推理的影響
研究發(fā)現(xiàn),字幕一致地提高了模型性能,尤其是對于更大的開源和專有模型。然而,字幕的影響并不均勻:較小的模型(<5B和<9B)通常顯示最小或不一致的增益。相比之下,具有推理能力的模型,如GPT-o4-mini,在使用字幕時性能從42.1%提高到44.8%,而Qwen2.5-VL則從24.5%提高到28.6%。
這些改進反映了模型將細粒度音頻線索與視覺幀集成的能力——這正是"多模態(tài)大海撈針"挑戰(zhàn)的核心,其中關(guān)鍵信息分布在各種模態(tài)中。具有更強推理能力的模型更能夠?qū)⑦@些分散的線索整合為連貫的解決方案,而其他模型可能會忽略關(guān)鍵的語言線索。
六、視頻長度和幀采樣的影響
研究團隊評估了模型在短(<30秒)、中(30秒-2分鐘)和長(2分鐘-1小時)三種視頻類別上的表現(xiàn),觀察到兩個明顯的趨勢。
首先,雖然大多數(shù)模型在短視頻上表現(xiàn)相對較好,但在中等長度的視頻上準確率通常會提高,在更長時間的視頻上則會下降。這些趨勢與基準測試所針對的三種推理挑戰(zhàn)相一致。短視頻通常對應(yīng)于"問題聚焦"型問題,成功取決于一般數(shù)學(xué)能力和提取關(guān)鍵視覺或語言線索的能力。中等長度的視頻通常涉及"概念遷移"問題,有利于能夠有效理解指示的模型。相比之下,長視頻對應(yīng)于"深度理解"問題,這些問題要求跟隨擴展的、通常是非線性的教學(xué)序列來解釋上下文。
其次,研究團隊通過評估Qwen2.5-VL在16、64、256和768幀設(shè)置下的表現(xiàn),研究了幀采樣如何影響性能。結(jié)果發(fā)現(xiàn),增加幀數(shù)提供了持續(xù)的改進,特別是對于較長的視頻:短視頻提高5點,長視頻提高8點,這表明能夠處理擴展幀序列并保持長期時間連貫性的模型更適合基于視頻的數(shù)學(xué)推理。
七、不同數(shù)學(xué)概念的表現(xiàn)差異
研究團隊分析了模型在基準測試涵蓋的十個數(shù)學(xué)類別中的表現(xiàn),發(fā)現(xiàn)了明顯的變化。當前模型在涉及算術(shù)和微積分的問題上表現(xiàn)較好,平均準確率約為32%,GPT-o4-mini在CoT評估中取得了最佳表現(xiàn)63.5%。大多數(shù)模型在幾何推理和拼圖等類別上表現(xiàn)中等,平均表現(xiàn)在24%到30%之間。相比之下,圖表閱讀、拓撲學(xué)、圖論以及統(tǒng)計與概率對所有模型來說都更具挑戰(zhàn)性,這些類別的平均準確率通常在16%到21%之間。
八、推理過程中的常見失敗模式
VideoMathQA的一個重要貢獻是對模型錯誤的詳細分析。研究人員將模型錯誤分為七類:理解問題錯誤、未能檢索相關(guān)信息、視覺解讀錯誤、概念應(yīng)用錯誤、策略選擇錯誤、記憶/上下文錯誤和計算錯誤。
在這些錯誤中,最常見的是理解問題錯誤,模型誤解了問題要求或忽略了視頻中的關(guān)鍵多模態(tài)線索。這反映了基準測試的核心挑戰(zhàn)——即使缺少一個小的語言或視覺細節(jié)也會完全破壞推理過程。專有模型如GPT-o4-mini和Gemini-2.0-Flash在概念應(yīng)用和策略選擇方面的錯誤較少(分別為12%和6%),表明它們有更強的領(lǐng)域基礎(chǔ)和更好的問題解決執(zhí)行能力。相比之下,開源模型如InternVL-3展示了更廣泛分布的錯誤,概念應(yīng)用和策略選擇錯誤共占總錯誤的23%,同時在計算方面也有明顯的錯誤。同時,GPT-o4-mini在視覺解讀錯誤方面的比例較高,表明它在處理精細的視覺線索(如圖表和圖表)方面存在困難。
九、研究結(jié)論與未來方向
VideoMathQA展示了當前多模態(tài)模型在處理視頻中的數(shù)學(xué)推理時面臨的顯著挑戰(zhàn)。盡管專有模型如GPT-o4-mini在某些數(shù)學(xué)領(lǐng)域表現(xiàn)出色,但即使是最先進的模型也難以在更復(fù)雜的推理任務(wù)上取得高準確率,特別是在需要長期關(guān)注和跨模態(tài)整合的任務(wù)上。
研究的關(guān)鍵發(fā)現(xiàn)包括: - 成功不僅取決于視覺感知,還取決于對分散在時間、模態(tài)和上下文中的細微線索的持續(xù)關(guān)注 - 模型往往在關(guān)鍵幀、符號或口頭細節(jié)被遺漏時失敗,揭示了整合長期多模態(tài)信息的能力有限 - 雖然性能通常隨著規(guī)模增加而提高,但架構(gòu)和訓(xùn)練質(zhì)量往往更具決定性 - 專有和開源系統(tǒng)之間的差距正在縮小,最新的開源模型現(xiàn)在可以匹配或超過專有模型
通過建立這個基準測試,研究團隊為未來的模型發(fā)展提供了系統(tǒng)評估框架,強調(diào)了現(xiàn)有方法的局限性,并為在時間擴展和模態(tài)豐富的數(shù)學(xué)問題環(huán)境中進行推理(而不僅僅是感知)的模型設(shè)定了標準。
這項研究不僅推動了AI在教育領(lǐng)域的應(yīng)用,還為開發(fā)能夠在復(fù)雜、多模態(tài)環(huán)境中進行深度推理的更強大系統(tǒng)鋪平了道路,這將對從在線教育到科學(xué)研究的各種領(lǐng)域產(chǎn)生深遠影響。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機制和漸進式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學(xué)習(xí)外觀和運動信息,顯著解決了當前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準,通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報,準確性超越傳統(tǒng)方法90%的指標。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。