av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁 圖表博物館:測試大型視覺-語言模型的視覺推理能力——德克薩斯大學(xué)奧斯汀分校團(tuán)隊(duì)開創(chuàng)性研究

圖表博物館:測試大型視覺-語言模型的視覺推理能力——德克薩斯大學(xué)奧斯汀分校團(tuán)隊(duì)開創(chuàng)性研究

2025-05-22 08:16
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-22 08:16 ? 科技行者

在日新月異的人工智能領(lǐng)域,視覺-語言模型(Vision-Language Models,簡稱VLMs)正變得越來越強(qiáng)大,它們能同時(shí)理解圖像和文本,就像我們?nèi)祟愐粯?。然而,這些模型在理解圖表方面存在一個(gè)有趣的不平衡現(xiàn)象,這正是德克薩斯大學(xué)奧斯汀分校的研究團(tuán)隊(duì)所關(guān)注的焦點(diǎn)。這項(xiàng)由Liyan Tang、Grace Kim、Xinyu Zhao等多位研究者共同完成的研究于2025年5月19日發(fā)表在arXiv預(yù)印本平臺上(arXiv:2505.13444v1),感興趣的讀者可通過他們官方網(wǎng)站https://chartmuseum-leaderboard.github.io了解更多內(nèi)容。

想象一下,你給一個(gè)智能助手看一張復(fù)雜的統(tǒng)計(jì)圖表,然后問:"哪個(gè)國家的女性畢業(yè)生人數(shù)與男性畢業(yè)生人數(shù)最接近?"對于人類來說,我們會直觀地尋找圖表中最"平衡"的部分,但對AI來說,這種看似簡單的視覺判斷卻可能異常困難。為什么呢?這就是本研究要探討的核心問題。

目前的視覺-語言模型就像是一個(gè)擅長閱讀和分析文字的人,但當(dāng)面對需要"看圖說話"的任務(wù)時(shí),它們往往顯得力不從心。這些模型在處理有明確文字標(biāo)注的圖表時(shí)表現(xiàn)尚可,但一旦需要純粹依靠視覺觀察來理解圖表,它們的能力就明顯下降。這種現(xiàn)象就像是一個(gè)人可以流利地讀出圖表上的數(shù)字和標(biāo)簽,但卻難以直觀地"看出"數(shù)據(jù)之間的關(guān)系和趨勢。

研究團(tuán)隊(duì)首先通過一項(xiàng)精心設(shè)計(jì)的實(shí)驗(yàn)證實(shí)了這一現(xiàn)象:他們創(chuàng)建了一些只能通過視覺推理解決的合成圖表測試,結(jié)果顯示,隨著視覺復(fù)雜度增加,模型的表現(xiàn)顯著下降,而人類的表現(xiàn)則保持穩(wěn)定。這就像是在越來越擁擠的超市中尋找特定商品,人類能夠輕松應(yīng)對,而AI卻越來越迷失。

基于這一發(fā)現(xiàn),研究團(tuán)隊(duì)推出了名為"CHARTMUSEUM"(圖表博物館)的全新基準(zhǔn)測試數(shù)據(jù)集,這個(gè)數(shù)據(jù)集包含1,162個(gè)由專家精心注釋的問題,涵蓋了多種推理類型,并從184個(gè)不同來源中精選了真實(shí)世界的圖表。這個(gè)數(shù)據(jù)集就像一個(gè)精心策劃的博物館展覽,展示了各種各樣的圖表"藝術(shù)品",每一件都伴隨著需要深思熟慮的問題。

與現(xiàn)有的圖表理解基準(zhǔn)測試不同,CHARTMUSEUM揭示了模型和人類表現(xiàn)之間的巨大差距:雖然人類能達(dá)到93%的準(zhǔn)確率,但表現(xiàn)最好的模型Gemini-2.5-Pro也僅能達(dá)到63.0%,而領(lǐng)先的開源視覺-語言模型Qwen2.5-VL-72B-Instruct更是只有38.5%的準(zhǔn)確率。更讓人驚訝的是,在主要需要視覺推理的問題上,所有模型的表現(xiàn)都比在文本推理為主的問題上低35%-55%。

這項(xiàng)研究就像是給AI模型做了一次全面的視力檢查,揭示了它們在"看"圖表方面的短板。通過對錯誤案例的深入分析,研究團(tuán)隊(duì)還識別出了當(dāng)前視覺-語言模型所面臨的特定視覺推理挑戰(zhàn)類別,為未來的模型改進(jìn)提供了明確方向。

一、背景與動機(jī):為什么圖表理解對AI如此重要?

在人工智能研究領(lǐng)域,大量工作已經(jīng)集中在推理能力上,尤其是在數(shù)學(xué)和編程領(lǐng)域。然而,多模態(tài)推理(同時(shí)處理文字和圖像的能力)卻相對缺乏深入研究,即使它面臨著獨(dú)特的挑戰(zhàn),比如視覺編碼器的表征瓶頸。

圖表理解代表了一個(gè)理想的領(lǐng)域來探索文本和視覺推理的光譜。想象一下圖表的設(shè)計(jì)初衷:它們旨在以一種視覺方式呈現(xiàn)數(shù)據(jù),使觀看者能夠快速獲取從原始數(shù)據(jù)中不那么明顯的洞察?;卮痍P(guān)于圖表的問題需要融合視覺解釋、文本信息提取和自然語言推理。研究團(tuán)隊(duì)發(fā)現(xiàn),現(xiàn)有的圖表問答數(shù)據(jù)集往往優(yōu)先考慮文本推理或僅限于有限的真實(shí)圖表來源,這限制了它們評估的范圍。

為了證明即使在頂尖模型在現(xiàn)有基準(zhǔn)測試中表現(xiàn)良好的情況下,它們?nèi)栽诩兇獾囊曈X推理上存在顯著短板,研究團(tuán)隊(duì)進(jìn)行了一項(xiàng)案例研究。他們使用合成數(shù)據(jù)集進(jìn)行測試,這些數(shù)據(jù)只能通過視覺推理解決,就像是一個(gè)專門設(shè)計(jì)來測試"眼力"的挑戰(zhàn)。結(jié)果令人深思:隨著視覺復(fù)雜度增加,模型表現(xiàn)顯著下降,而人類表現(xiàn)則保持穩(wěn)健。

想象你正在觀察一個(gè)越來越復(fù)雜的拼圖:拼圖塊數(shù)量從3個(gè)增加到9個(gè)。對人類來說,無論拼圖有多少塊,只要圖案清晰,我們都能相對輕松地識別出來。但對AI模型來說,隨著拼圖塊數(shù)量增加,它們越來越難以"看清"整體圖案。這正是研究團(tuán)隊(duì)在視覺推理測試中觀察到的現(xiàn)象。

二、CHARTMUSEUM:一個(gè)新的圖表問答基準(zhǔn)測試

為了解決現(xiàn)有基準(zhǔn)測試的局限性,研究團(tuán)隊(duì)推出了CHARTMUSEUM,這是一個(gè)全面的圖表問答基準(zhǔn)測試,旨在評估大型視覺-語言模型在復(fù)雜真實(shí)圖表上的視覺和文本推理能力。

CHARTMUSEUM由13位計(jì)算機(jī)科學(xué)研究人員共同創(chuàng)建,包含1,162個(gè)(圖像、問題、答案)三元組,這些內(nèi)容來自184個(gè)網(wǎng)站的928個(gè)獨(dú)特真實(shí)世界圖像。與以往的基準(zhǔn)測試(如ChartBench、CharXiv、ChartQAPro)不同,這些基準(zhǔn)測試中的問題通常是由模型生成并后來由標(biāo)注者精煉的,這可能限制了它們的真實(shí)性和多樣性。而CHARTMUSEUM中的所有問題都是研究人員在沒有語言模型輔助的情況下策劃的。

每個(gè)問題都經(jīng)過了手動多階段審查過程,以確保問題質(zhì)量和答案客觀性。這就像是一本精心編輯的教科書,每道練習(xí)題都經(jīng)過了多輪專家審核,確保它們既有意義又有明確答案。

標(biāo)注過程遵循了嚴(yán)格的要求。首先,研究團(tuán)隊(duì)要求問題必須有一個(gè)大的答案空間,明確避免二元問題或簡單的比較。其次,所有問題必須有客觀和無歧義的答案。對于沒有標(biāo)注數(shù)據(jù)的圖表(如前面提到的純視覺推理問題),研究人員專注于產(chǎn)生不需要容錯范圍就能產(chǎn)生唯一答案的比較問題。

此外,研究團(tuán)隊(duì)還排除了一些問題類型,比如"為什么"和"如何"問題,因?yàn)檫@些通常會產(chǎn)生冗長、可能帶有主觀性的回答,難以客觀評估。他們也排除了僅詢問視覺明顯信息的描述性問題,以及組合多個(gè)查詢的復(fù)合問題。

為了更好地分類和分析,研究團(tuán)隊(duì)將所有圖表理解問題分為四個(gè)類別: 1. 文本推理問題:幾乎完全可以通過文本推理解決; 2. 視覺推理問題:最容易從圖表的視覺方面回答; 3. 文本/視覺推理問題:可以通過主要文本或主要視覺推理來回答; 4. 綜合推理問題:需要同時(shí)進(jìn)行文本和視覺推理。

整個(gè)標(biāo)注過程包括實(shí)踐環(huán)節(jié)和兩個(gè)正式標(biāo)注環(huán)節(jié)。平均而言,每個(gè)(圖像、問題、短答案)三元組需要20分鐘的總工作時(shí)間:10分鐘用于圖表選擇和初始問題-答案對標(biāo)注,5分鐘用于質(zhì)量審查和反饋,5分鐘用于迭代完善。這個(gè)過程總共花費(fèi)了約400小時(shí)來完成整個(gè)CHARTMUSEUM基準(zhǔn)測試。

三、實(shí)驗(yàn)設(shè)計(jì):如何測試模型的圖表理解能力?

研究團(tuán)隊(duì)對當(dāng)前最先進(jìn)的視覺-語言模型進(jìn)行了全面的基準(zhǔn)測試。他們評估了21個(gè)模型,包括11個(gè)專有模型和10個(gè)開源模型:

在專有模型方面,他們測試了OpenAI的GPT-4o、GPT-4.1-mini、GPT-4.1、o3和o4-mini;Anthropic的Claude-3.5-Sonnet和Claude-3.7-Sonnet;以及Google的Gemini-1.5-Flash/Pro和Gemini-2.5-Pro。

在開源模型方面,他們包括了阿里巴巴的Qwen2.5-VL-3B/7B/32B/72B-Instruct;上海AI實(shí)驗(yàn)室的InternVL3-2B/8B/38B/78B;以及Mistral AI的Pixtral-Large-Instruct。此外,他們還包括了最新的專門用于圖表理解的模型Bespoke-MiniChart-7B。

為了評估人類在CHARTMUSEUM上的表現(xiàn),研究團(tuán)隊(duì)進(jìn)行了一項(xiàng)小規(guī)模的標(biāo)注研究,六名標(biāo)注者分為兩組,每組三人。對于每組,他們從剩余十名標(biāo)注者(即不包括該組的三人)的標(biāo)注中各抽取五個(gè)例子,從而為每組產(chǎn)生一個(gè)50個(gè)例子的集合。總共,他們?yōu)?00個(gè)例子收集了標(biāo)注,每個(gè)例子由三名標(biāo)注者獨(dú)立標(biāo)注。他們報(bào)告了基于多數(shù)投票的人類表現(xiàn),準(zhǔn)確率為93%。

在評估方法上,研究團(tuán)隊(duì)使用了"LLM作為評判者"作為主要評估方法,以考慮答案的釋義。這就像是雇傭了一個(gè)公正的裁判,專門負(fù)責(zé)判斷模型的答案是否與正確答案等價(jià),即使表達(dá)方式可能不同。

四、研究發(fā)現(xiàn):視覺-語言模型在圖表理解方面的表現(xiàn)如何?

CHARTMUSEUM揭示了模型之間存在巨大的性能差距。與之前被廣泛評估的基準(zhǔn)測試如ChartQA不同(在那里模型準(zhǔn)確率緊密聚集在85%至90%之間),這個(gè)基準(zhǔn)測試展示了最佳開源模型Qwen2.5-VL-72B-Instruct(38.5%)和最佳專有模型Gemini-2.5-Pro(63.0%)之間有24.5%的準(zhǔn)確率差距。

專門的圖表理解模型Bespoke-MiniChart-7B雖然大幅超過其他開源7B模型并接近72B模型性能,但仍遠(yuǎn)遠(yuǎn)落后于專有模型,突顯了需要更強(qiáng)大的專門圖表理解模型。最終,人類性能(93.0%)超過了最佳專有和開源模型分別30.0%和54.5%,強(qiáng)調(diào)了圖表理解方面仍有很大的改進(jìn)空間。

更重要的是,視覺推理性能比文本推理落后35%到55%,遠(yuǎn)遠(yuǎn)低于接近完美的人類視覺推理。與研究團(tuán)隊(duì)在ChartQA上的發(fā)現(xiàn)一致,模型在很大程度上依賴文本推理的問題上表現(xiàn)最佳。當(dāng)面對主要需要復(fù)雜視覺推理的問題時(shí),性能顯著下降。模型如GPT-4.1、Qwen2.5-VL-72B和Bespoke-MiniChart-7B在視覺推理子集上的表現(xiàn)比在文本推理子集上下降了50%以上。

雖然模型如Claude-3.7-Sonnet、o3(高級)和Gemini-2.5-Pro的性能下降不那么明顯,但這些仍然顯示出約35%的絕對準(zhǔn)確率下降,突顯了視覺推理方面持續(xù)存在的不足。而這些對模型極具挑戰(zhàn)的問題,人類在抽樣的視覺推理集上幾乎達(dá)到完美表現(xiàn)(56/57正確,或98.2%)。

有趣的是,盡管最近的研究表明語言模型在數(shù)學(xué)和代碼等任務(wù)上可以通過擴(kuò)展思考(即帶有策略包括規(guī)劃、自反思和自我驗(yàn)證的長鏈思考)顯著提高性能,但研究團(tuán)隊(duì)并沒有在圖表理解方面觀察到這種趨勢。所有推理模型的改進(jìn)性能都在Claude-3.7-Sonnet沒有擴(kuò)展思考的3%范圍內(nèi)。實(shí)際上,Claude-3.7-Sonnet使用擴(kuò)展思考(61.7%)僅比其標(biāo)準(zhǔn)版本(60.3%)提高了1.4%,甚至在幾個(gè)問題類別上表現(xiàn)下降。研究發(fā)現(xiàn),這種有限的改進(jìn)主要源于視覺推理能力的根本限制。

五、定性分析:模型在視覺推理方面的具體挑戰(zhàn)

研究團(tuán)隊(duì)通過定性分析進(jìn)一步診斷了模型在視覺推理方面的短板。他們開發(fā)了一個(gè)視覺任務(wù)分類法,并檢查了模型的視覺推理錯誤,以確定其技能缺陷。

具體來說,研究團(tuán)隊(duì)識別出四個(gè)視覺任務(wù)類別: 1. 符號選擇:根據(jù)特定視覺標(biāo)準(zhǔn)(如圖例顏色、形狀、圖案或輪廓)識別圖表中的對象。 2. 視覺比較:基于大小、高度、空間位置、顏色強(qiáng)度或范圍比較多個(gè)對象(或?qū)ο蠼M)。 3. 軌跡跟蹤與判斷:跟蹤由線條或箭頭表示的元素的位置,并描述其屬性或與另一個(gè)視覺元素的關(guān)系。 4. X/Y值識別:識別圖表元素的位置或值。

研究團(tuán)隊(duì)分析了100個(gè)隨機(jī)錯誤實(shí)例(Claude-3.7-Sonnet和Gemini-2.5-Pro各50個(gè)),發(fā)現(xiàn)絕大多數(shù)錯誤是由于上述視覺推理任務(wù)的失敗造成的,而文本推理錯誤相對罕見。

他們還發(fā)現(xiàn)了一種特殊的策略錯誤:模型錯過了解決問題所需的預(yù)期視覺推理"技巧",而是求助于發(fā)散的思維鏈(通常涉及提取顯式X/Y值或完全放棄)。這通常發(fā)生在所需元素的值沒有明確說明,而是相對于其他視覺元素隱含的情況下。

例如,當(dāng)問"紙飛機(jī)在一周中哪一天顯示的飛行距離范圍最大?"時(shí),Claude-3.7-Sonnet能夠認(rèn)識到有"飛機(jī)飛行可視化",但沒有意識到這可以用來回答問題。它轉(zhuǎn)而關(guān)注右上角顯示每天平均飛行長度的圓形圖表。同樣,Gemini-2.5-Pro識別到飛行弧線對回答問題很重要,但因?yàn)榫_估計(jì)太難而放棄,沒有認(rèn)識到仍然可以進(jìn)行視覺范圍比較。

實(shí)際上,這個(gè)問題可以通過觀察到最近和最遠(yuǎn)的線都是綠色(表示周五)輕松回答,而無需測量其他日子的飛行距離范圍。

這些發(fā)現(xiàn)突顯了當(dāng)前視覺-語言模型的一個(gè)關(guān)鍵局限性:它們過度依賴文本推理策略,即使在面對可以通過直觀視覺比較更容易解決的任務(wù)時(shí)也是如此。這就像是一個(gè)人總是試圖通過閱讀和計(jì)算來解決問題,即使直接"看"就能得到答案。

六、結(jié)論與未來方向:圖表理解的新篇章

研究團(tuán)隊(duì)提出的CHARTMUSEUM代表了圖表理解領(lǐng)域的一個(gè)重要里程碑。通過揭示模型在視覺推理方面的顯著短板,這項(xiàng)研究為未來的模型改進(jìn)指明了方向。

特別是,CHARTMUSEUM展示了一個(gè)明顯的趨勢:即使最先進(jìn)的模型在處理需要視覺推理的問題時(shí),表現(xiàn)也比處理文本推理問題差得多。這種不平衡突顯了在提高模型的視覺理解能力方面的重要機(jī)會。

此外,研究團(tuán)隊(duì)的定性錯誤分析提供了對當(dāng)前視覺-語言模型面臨的具體視覺推理挑戰(zhàn)類別的寶貴見解。未來的工作可以專注于改進(jìn)符號選擇、視覺比較、軌跡跟蹤和X/Y值識別等特定能力,從而縮小模型與人類表現(xiàn)之間的差距。

雖然本研究限于英語圖表和問題,可能無法反映多語言環(huán)境中的表現(xiàn),但由于大多數(shù)當(dāng)前的視覺-語言模型都針對英語進(jìn)行了優(yōu)化,這一焦點(diǎn)提供了當(dāng)前能力的及時(shí)評估。此外,基準(zhǔn)測試集中在具有簡短答案的問題回答上,不包括其他圖表理解任務(wù),如摘要或開放式回答。然而,研究團(tuán)隊(duì)認(rèn)為,簡短答案的問題回答是識別模型弱點(diǎn)的有效代理,而其他任務(wù)通??梢灾匦卤硎鰹閱柎鹦问?,或者本質(zhì)上難以客觀評估。

綜上所述,CHARTMUSEUM為評估和改進(jìn)大型視覺-語言模型在圖表理解方面的能力提供了一個(gè)可靠的測試平臺。通過專注于識別并解決在視覺推理方面的根本挑戰(zhàn),研究社區(qū)可以朝著開發(fā)能夠像人類一樣無縫整合文本和視覺理解的下一代AI系統(tǒng)邁進(jìn),從而在兩種模態(tài)上都實(shí)現(xiàn)強(qiáng)大的推理能力。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-