在日新月異的人工智能領域,視覺-語言模型(Vision-Language Models,簡稱VLMs)正變得越來越強大,它們能同時理解圖像和文本,就像我們人類一樣。然而,這些模型在理解圖表方面存在一個有趣的不平衡現(xiàn)象,這正是德克薩斯大學奧斯汀分校的研究團隊所關注的焦點。這項由Liyan Tang、Grace Kim、Xinyu Zhao等多位研究者共同完成的研究于2025年5月19日發(fā)表在arXiv預印本平臺上(arXiv:2505.13444v1),感興趣的讀者可通過他們官方網(wǎng)站https://chartmuseum-leaderboard.github.io了解更多內容。
想象一下,你給一個智能助手看一張復雜的統(tǒng)計圖表,然后問:"哪個國家的女性畢業(yè)生人數(shù)與男性畢業(yè)生人數(shù)最接近?"對于人類來說,我們會直觀地尋找圖表中最"平衡"的部分,但對AI來說,這種看似簡單的視覺判斷卻可能異常困難。為什么呢?這就是本研究要探討的核心問題。
目前的視覺-語言模型就像是一個擅長閱讀和分析文字的人,但當面對需要"看圖說話"的任務時,它們往往顯得力不從心。這些模型在處理有明確文字標注的圖表時表現(xiàn)尚可,但一旦需要純粹依靠視覺觀察來理解圖表,它們的能力就明顯下降。這種現(xiàn)象就像是一個人可以流利地讀出圖表上的數(shù)字和標簽,但卻難以直觀地"看出"數(shù)據(jù)之間的關系和趨勢。
研究團隊首先通過一項精心設計的實驗證實了這一現(xiàn)象:他們創(chuàng)建了一些只能通過視覺推理解決的合成圖表測試,結果顯示,隨著視覺復雜度增加,模型的表現(xiàn)顯著下降,而人類的表現(xiàn)則保持穩(wěn)定。這就像是在越來越擁擠的超市中尋找特定商品,人類能夠輕松應對,而AI卻越來越迷失。
基于這一發(fā)現(xiàn),研究團隊推出了名為"CHARTMUSEUM"(圖表博物館)的全新基準測試數(shù)據(jù)集,這個數(shù)據(jù)集包含1,162個由專家精心注釋的問題,涵蓋了多種推理類型,并從184個不同來源中精選了真實世界的圖表。這個數(shù)據(jù)集就像一個精心策劃的博物館展覽,展示了各種各樣的圖表"藝術品",每一件都伴隨著需要深思熟慮的問題。
與現(xiàn)有的圖表理解基準測試不同,CHARTMUSEUM揭示了模型和人類表現(xiàn)之間的巨大差距:雖然人類能達到93%的準確率,但表現(xiàn)最好的模型Gemini-2.5-Pro也僅能達到63.0%,而領先的開源視覺-語言模型Qwen2.5-VL-72B-Instruct更是只有38.5%的準確率。更讓人驚訝的是,在主要需要視覺推理的問題上,所有模型的表現(xiàn)都比在文本推理為主的問題上低35%-55%。
這項研究就像是給AI模型做了一次全面的視力檢查,揭示了它們在"看"圖表方面的短板。通過對錯誤案例的深入分析,研究團隊還識別出了當前視覺-語言模型所面臨的特定視覺推理挑戰(zhàn)類別,為未來的模型改進提供了明確方向。
一、背景與動機:為什么圖表理解對AI如此重要?
在人工智能研究領域,大量工作已經集中在推理能力上,尤其是在數(shù)學和編程領域。然而,多模態(tài)推理(同時處理文字和圖像的能力)卻相對缺乏深入研究,即使它面臨著獨特的挑戰(zhàn),比如視覺編碼器的表征瓶頸。
圖表理解代表了一個理想的領域來探索文本和視覺推理的光譜。想象一下圖表的設計初衷:它們旨在以一種視覺方式呈現(xiàn)數(shù)據(jù),使觀看者能夠快速獲取從原始數(shù)據(jù)中不那么明顯的洞察?;卮痍P于圖表的問題需要融合視覺解釋、文本信息提取和自然語言推理。研究團隊發(fā)現(xiàn),現(xiàn)有的圖表問答數(shù)據(jù)集往往優(yōu)先考慮文本推理或僅限于有限的真實圖表來源,這限制了它們評估的范圍。
為了證明即使在頂尖模型在現(xiàn)有基準測試中表現(xiàn)良好的情況下,它們仍在純粹的視覺推理上存在顯著短板,研究團隊進行了一項案例研究。他們使用合成數(shù)據(jù)集進行測試,這些數(shù)據(jù)只能通過視覺推理解決,就像是一個專門設計來測試"眼力"的挑戰(zhàn)。結果令人深思:隨著視覺復雜度增加,模型表現(xiàn)顯著下降,而人類表現(xiàn)則保持穩(wěn)健。
想象你正在觀察一個越來越復雜的拼圖:拼圖塊數(shù)量從3個增加到9個。對人類來說,無論拼圖有多少塊,只要圖案清晰,我們都能相對輕松地識別出來。但對AI模型來說,隨著拼圖塊數(shù)量增加,它們越來越難以"看清"整體圖案。這正是研究團隊在視覺推理測試中觀察到的現(xiàn)象。
二、CHARTMUSEUM:一個新的圖表問答基準測試
為了解決現(xiàn)有基準測試的局限性,研究團隊推出了CHARTMUSEUM,這是一個全面的圖表問答基準測試,旨在評估大型視覺-語言模型在復雜真實圖表上的視覺和文本推理能力。
CHARTMUSEUM由13位計算機科學研究人員共同創(chuàng)建,包含1,162個(圖像、問題、答案)三元組,這些內容來自184個網(wǎng)站的928個獨特真實世界圖像。與以往的基準測試(如ChartBench、CharXiv、ChartQAPro)不同,這些基準測試中的問題通常是由模型生成并后來由標注者精煉的,這可能限制了它們的真實性和多樣性。而CHARTMUSEUM中的所有問題都是研究人員在沒有語言模型輔助的情況下策劃的。
每個問題都經過了手動多階段審查過程,以確保問題質量和答案客觀性。這就像是一本精心編輯的教科書,每道練習題都經過了多輪專家審核,確保它們既有意義又有明確答案。
標注過程遵循了嚴格的要求。首先,研究團隊要求問題必須有一個大的答案空間,明確避免二元問題或簡單的比較。其次,所有問題必須有客觀和無歧義的答案。對于沒有標注數(shù)據(jù)的圖表(如前面提到的純視覺推理問題),研究人員專注于產生不需要容錯范圍就能產生唯一答案的比較問題。
此外,研究團隊還排除了一些問題類型,比如"為什么"和"如何"問題,因為這些通常會產生冗長、可能帶有主觀性的回答,難以客觀評估。他們也排除了僅詢問視覺明顯信息的描述性問題,以及組合多個查詢的復合問題。
為了更好地分類和分析,研究團隊將所有圖表理解問題分為四個類別: 1. 文本推理問題:幾乎完全可以通過文本推理解決; 2. 視覺推理問題:最容易從圖表的視覺方面回答; 3. 文本/視覺推理問題:可以通過主要文本或主要視覺推理來回答; 4. 綜合推理問題:需要同時進行文本和視覺推理。
整個標注過程包括實踐環(huán)節(jié)和兩個正式標注環(huán)節(jié)。平均而言,每個(圖像、問題、短答案)三元組需要20分鐘的總工作時間:10分鐘用于圖表選擇和初始問題-答案對標注,5分鐘用于質量審查和反饋,5分鐘用于迭代完善。這個過程總共花費了約400小時來完成整個CHARTMUSEUM基準測試。
三、實驗設計:如何測試模型的圖表理解能力?
研究團隊對當前最先進的視覺-語言模型進行了全面的基準測試。他們評估了21個模型,包括11個專有模型和10個開源模型:
在專有模型方面,他們測試了OpenAI的GPT-4o、GPT-4.1-mini、GPT-4.1、o3和o4-mini;Anthropic的Claude-3.5-Sonnet和Claude-3.7-Sonnet;以及Google的Gemini-1.5-Flash/Pro和Gemini-2.5-Pro。
在開源模型方面,他們包括了阿里巴巴的Qwen2.5-VL-3B/7B/32B/72B-Instruct;上海AI實驗室的InternVL3-2B/8B/38B/78B;以及Mistral AI的Pixtral-Large-Instruct。此外,他們還包括了最新的專門用于圖表理解的模型Bespoke-MiniChart-7B。
為了評估人類在CHARTMUSEUM上的表現(xiàn),研究團隊進行了一項小規(guī)模的標注研究,六名標注者分為兩組,每組三人。對于每組,他們從剩余十名標注者(即不包括該組的三人)的標注中各抽取五個例子,從而為每組產生一個50個例子的集合??偣玻麄?yōu)?00個例子收集了標注,每個例子由三名標注者獨立標注。他們報告了基于多數(shù)投票的人類表現(xiàn),準確率為93%。
在評估方法上,研究團隊使用了"LLM作為評判者"作為主要評估方法,以考慮答案的釋義。這就像是雇傭了一個公正的裁判,專門負責判斷模型的答案是否與正確答案等價,即使表達方式可能不同。
四、研究發(fā)現(xiàn):視覺-語言模型在圖表理解方面的表現(xiàn)如何?
CHARTMUSEUM揭示了模型之間存在巨大的性能差距。與之前被廣泛評估的基準測試如ChartQA不同(在那里模型準確率緊密聚集在85%至90%之間),這個基準測試展示了最佳開源模型Qwen2.5-VL-72B-Instruct(38.5%)和最佳專有模型Gemini-2.5-Pro(63.0%)之間有24.5%的準確率差距。
專門的圖表理解模型Bespoke-MiniChart-7B雖然大幅超過其他開源7B模型并接近72B模型性能,但仍遠遠落后于專有模型,突顯了需要更強大的專門圖表理解模型。最終,人類性能(93.0%)超過了最佳專有和開源模型分別30.0%和54.5%,強調了圖表理解方面仍有很大的改進空間。
更重要的是,視覺推理性能比文本推理落后35%到55%,遠遠低于接近完美的人類視覺推理。與研究團隊在ChartQA上的發(fā)現(xiàn)一致,模型在很大程度上依賴文本推理的問題上表現(xiàn)最佳。當面對主要需要復雜視覺推理的問題時,性能顯著下降。模型如GPT-4.1、Qwen2.5-VL-72B和Bespoke-MiniChart-7B在視覺推理子集上的表現(xiàn)比在文本推理子集上下降了50%以上。
雖然模型如Claude-3.7-Sonnet、o3(高級)和Gemini-2.5-Pro的性能下降不那么明顯,但這些仍然顯示出約35%的絕對準確率下降,突顯了視覺推理方面持續(xù)存在的不足。而這些對模型極具挑戰(zhàn)的問題,人類在抽樣的視覺推理集上幾乎達到完美表現(xiàn)(56/57正確,或98.2%)。
有趣的是,盡管最近的研究表明語言模型在數(shù)學和代碼等任務上可以通過擴展思考(即帶有策略包括規(guī)劃、自反思和自我驗證的長鏈思考)顯著提高性能,但研究團隊并沒有在圖表理解方面觀察到這種趨勢。所有推理模型的改進性能都在Claude-3.7-Sonnet沒有擴展思考的3%范圍內。實際上,Claude-3.7-Sonnet使用擴展思考(61.7%)僅比其標準版本(60.3%)提高了1.4%,甚至在幾個問題類別上表現(xiàn)下降。研究發(fā)現(xiàn),這種有限的改進主要源于視覺推理能力的根本限制。
五、定性分析:模型在視覺推理方面的具體挑戰(zhàn)
研究團隊通過定性分析進一步診斷了模型在視覺推理方面的短板。他們開發(fā)了一個視覺任務分類法,并檢查了模型的視覺推理錯誤,以確定其技能缺陷。
具體來說,研究團隊識別出四個視覺任務類別: 1. 符號選擇:根據(jù)特定視覺標準(如圖例顏色、形狀、圖案或輪廓)識別圖表中的對象。 2. 視覺比較:基于大小、高度、空間位置、顏色強度或范圍比較多個對象(或對象組)。 3. 軌跡跟蹤與判斷:跟蹤由線條或箭頭表示的元素的位置,并描述其屬性或與另一個視覺元素的關系。 4. X/Y值識別:識別圖表元素的位置或值。
研究團隊分析了100個隨機錯誤實例(Claude-3.7-Sonnet和Gemini-2.5-Pro各50個),發(fā)現(xiàn)絕大多數(shù)錯誤是由于上述視覺推理任務的失敗造成的,而文本推理錯誤相對罕見。
他們還發(fā)現(xiàn)了一種特殊的策略錯誤:模型錯過了解決問題所需的預期視覺推理"技巧",而是求助于發(fā)散的思維鏈(通常涉及提取顯式X/Y值或完全放棄)。這通常發(fā)生在所需元素的值沒有明確說明,而是相對于其他視覺元素隱含的情況下。
例如,當問"紙飛機在一周中哪一天顯示的飛行距離范圍最大?"時,Claude-3.7-Sonnet能夠認識到有"飛機飛行可視化",但沒有意識到這可以用來回答問題。它轉而關注右上角顯示每天平均飛行長度的圓形圖表。同樣,Gemini-2.5-Pro識別到飛行弧線對回答問題很重要,但因為精確估計太難而放棄,沒有認識到仍然可以進行視覺范圍比較。
實際上,這個問題可以通過觀察到最近和最遠的線都是綠色(表示周五)輕松回答,而無需測量其他日子的飛行距離范圍。
這些發(fā)現(xiàn)突顯了當前視覺-語言模型的一個關鍵局限性:它們過度依賴文本推理策略,即使在面對可以通過直觀視覺比較更容易解決的任務時也是如此。這就像是一個人總是試圖通過閱讀和計算來解決問題,即使直接"看"就能得到答案。
六、結論與未來方向:圖表理解的新篇章
研究團隊提出的CHARTMUSEUM代表了圖表理解領域的一個重要里程碑。通過揭示模型在視覺推理方面的顯著短板,這項研究為未來的模型改進指明了方向。
特別是,CHARTMUSEUM展示了一個明顯的趨勢:即使最先進的模型在處理需要視覺推理的問題時,表現(xiàn)也比處理文本推理問題差得多。這種不平衡突顯了在提高模型的視覺理解能力方面的重要機會。
此外,研究團隊的定性錯誤分析提供了對當前視覺-語言模型面臨的具體視覺推理挑戰(zhàn)類別的寶貴見解。未來的工作可以專注于改進符號選擇、視覺比較、軌跡跟蹤和X/Y值識別等特定能力,從而縮小模型與人類表現(xiàn)之間的差距。
雖然本研究限于英語圖表和問題,可能無法反映多語言環(huán)境中的表現(xiàn),但由于大多數(shù)當前的視覺-語言模型都針對英語進行了優(yōu)化,這一焦點提供了當前能力的及時評估。此外,基準測試集中在具有簡短答案的問題回答上,不包括其他圖表理解任務,如摘要或開放式回答。然而,研究團隊認為,簡短答案的問題回答是識別模型弱點的有效代理,而其他任務通??梢灾匦卤硎鰹閱柎鹦问剑蛘弑举|上難以客觀評估。
綜上所述,CHARTMUSEUM為評估和改進大型視覺-語言模型在圖表理解方面的能力提供了一個可靠的測試平臺。通過專注于識別并解決在視覺推理方面的根本挑戰(zhàn),研究社區(qū)可以朝著開發(fā)能夠像人類一樣無縫整合文本和視覺理解的下一代AI系統(tǒng)邁進,從而在兩種模態(tài)上都實現(xiàn)強大的推理能力。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結合大語言模型的敘事推理能力與音頻生成技術,通過交錯式推理生成、解耦橋接機制和漸進式訓練,能夠將復雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學聯(lián)合研發(fā)的VideoJAM技術,通過讓AI同時學習外觀和運動信息,顯著解決了當前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術僅需添加兩個線性層就能大幅提升運動質量,在多項測試中超越包括Sora在內的商業(yè)模型,為AI視頻生成的實用化應用奠定了重要基礎。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質量樣本的訓練數(shù)據(jù)集和MM-AlignBench評測基準,通過創(chuàng)新的數(shù)據(jù)生成和質量管控方法,讓AI在保持技術能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預測模型,能夠在不到一分鐘內完成10天全球天氣預報,準確性超越傳統(tǒng)方法90%的指標。該模型采用圖神經網(wǎng)絡技術,通過學習40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學領域帶來了效率和精度的雙重突破。