av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁 ChartLens:讓圖表理解更加透明 —— 從馬里蘭大學(xué)和Adobe研究院聯(lián)合推出的細(xì)粒度視覺歸因技術(shù)談起

ChartLens:讓圖表理解更加透明 —— 從馬里蘭大學(xué)和Adobe研究院聯(lián)合推出的細(xì)粒度視覺歸因技術(shù)談起

2025-06-03 13:35
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-03 13:35 ? 科技行者

近年來,隨著人工智能技術(shù)的發(fā)展,多模態(tài)大型語言模型(MLLMs)在圖表理解方面取得了長(zhǎng)足進(jìn)步。然而,這些模型經(jīng)常面臨一個(gè)關(guān)鍵問題:幻覺現(xiàn)象——即模型生成的文本內(nèi)容與所提供的視覺數(shù)據(jù)不符。這就像是我們請(qǐng)了一位解說員描述一張圖表,但他卻時(shí)不時(shí)地"憑空想象"出圖表中并不存在的信息。這種現(xiàn)象在依賴精確數(shù)據(jù)的圖表理解領(lǐng)域尤為嚴(yán)重,因?yàn)閳D表本身就是為了傳達(dá)準(zhǔn)確的數(shù)據(jù)關(guān)系而存在的。

2025年5月,馬里蘭大學(xué)學(xué)院公園分校的Manan Suri和Dinesh Manocha,以及Adobe研究院的Puneet Mathur、Nedim Lipka、Franck Dernoncourt和Ryan A. Rossi共同發(fā)表了一篇題為《ChartLens: Fine-grained Visual Attribution in Charts》的研究論文。這項(xiàng)研究為解決多模態(tài)大型語言模型在圖表理解中的幻覺問題提供了一種新穎的解決方案。

想象一下,當(dāng)我們使用AI來分析一張關(guān)于全球各國(guó)貿(mào)易數(shù)據(jù)的圖表時(shí),AI告訴我們"2005年,有3個(gè)國(guó)家的進(jìn)口文件要求高于平均值"。這聽起來很專業(yè),但如何確定這個(gè)回答是基于圖表的真實(shí)數(shù)據(jù),而不是AI的"憑空想象"?ChartLens就像是給AI裝上了一個(gè)"放大鏡",它不僅能告訴我們答案,還能準(zhǔn)確地指出圖表中支持這個(gè)答案的具體元素(比如哪幾個(gè)柱形或哪幾個(gè)數(shù)據(jù)點(diǎn))。

這種技術(shù)被稱為"圖表視覺歸因"(Visual Attribution for Charts),它能夠?qū)⑽谋净卮鹋c圖表中的特定區(qū)域關(guān)聯(lián)起來,讓用戶能夠直觀地驗(yàn)證AI生成內(nèi)容的準(zhǔn)確性。就像在學(xué)術(shù)論文中引用參考文獻(xiàn)一樣,這種歸因機(jī)制讓AI的回答變得可追溯、可驗(yàn)證,大大提高了系統(tǒng)的可靠性和透明度。

本文將詳細(xì)介紹ChartLens這一創(chuàng)新技術(shù)的工作原理、評(píng)估方法以及其在提高圖表理解準(zhǔn)確性方面的突出表現(xiàn)。無論你是對(duì)AI技術(shù)感興趣的普通讀者,還是希望了解最新圖表理解技術(shù)的專業(yè)人士,這篇文章都將為你揭示AI如何實(shí)現(xiàn)更透明、更可靠的圖表理解能力。

一、背景:為什么圖表歸因如此重要?

在我們?nèi)粘I钪校瑘D表無處不在——從商業(yè)報(bào)告到科學(xué)研究,從新聞媒體到政策分析。圖表之所以如此普及,是因?yàn)樗鼈兡軌蛞灾庇^的方式呈現(xiàn)復(fù)雜的數(shù)據(jù)關(guān)系。隨著人工智能技術(shù)的發(fā)展,多模態(tài)大型語言模型(MLLMs)已經(jīng)開始接管圖表理解的任務(wù),如圖表問答、圖表描述和圖表到表格的轉(zhuǎn)換等。

然而,圖表理解面臨著獨(dú)特的挑戰(zhàn)。與普通文本不同,圖表包含精確的數(shù)量和復(fù)雜的關(guān)系,如趨勢(shì)、比例和對(duì)比等。準(zhǔn)確解讀這些關(guān)系需要理解圖表類型、數(shù)據(jù)編碼方式以及各種視覺組件(如坐標(biāo)軸、圖例、顏色和形狀)的布局。此外,歸因任務(wù)還需要解開重疊的視覺元素,解決標(biāo)簽的歧義性,并一致地將視覺證據(jù)映射到文本答案。

想象一下,當(dāng)金融分析師使用AI系統(tǒng)分析季度報(bào)告中的圖表時(shí),如果系統(tǒng)無法清楚地說明其結(jié)論是基于圖表中的哪些具體元素,那么分析師就無法判斷這些結(jié)論是基于真實(shí)數(shù)據(jù)還是受到了"幻覺"的影響。這種不透明性可能導(dǎo)致錯(cuò)誤的結(jié)論,從而影響關(guān)鍵決策。在金融分析、政策制定和科學(xué)研究等領(lǐng)域,準(zhǔn)確的數(shù)據(jù)解讀對(duì)決策至關(guān)重要。

可靠的歸因機(jī)制可以減輕這些風(fēng)險(xiǎn),使模型的過程變得可驗(yàn)證。具體來說,它允許用戶追蹤模型的回答到圖表中的可識(shí)別視覺元素。正如我們?cè)谌粘?duì)話中會(huì)說"根據(jù)這個(gè)圖表的第三個(gè)柱子所示..."一樣,AI系統(tǒng)也應(yīng)該能夠明確指出其回答的依據(jù)。這樣一來,用戶就可以確認(rèn)生成的回答是直接由圖表數(shù)據(jù)支持的,從而減少幻覺或錯(cuò)誤解釋的可能性。

二、ChartLens:細(xì)粒度圖表歸因的新方法

ChartLens是一種創(chuàng)新的圖表歸因算法,它能夠識(shí)別支持給定問題答案的特定圖表元素。這就像是給AI配備了一個(gè)精確的指向設(shè)備,當(dāng)它回答關(guān)于圖表的問題時(shí),不僅能給出答案,還能明確指出"這個(gè)答案是基于圖表中的這些特定元素"。

ChartLens的工作流程可以分為兩個(gè)主要階段:標(biāo)記生成(Mark Generation)和多模態(tài)LLM歸因(Attribution with Multimodal LLMs)。

在標(biāo)記生成階段,ChartLens首先識(shí)別并標(biāo)記圖表中的細(xì)粒度視覺特征,形成歸因候選項(xiàng)集。這些標(biāo)記充當(dāng)視覺錨點(diǎn),為多模態(tài)LLM提供基于位置的參考。有效的標(biāo)記生成需要能夠隔離單個(gè)圖表組件,同時(shí)確保在各種圖表類型和視覺風(fēng)格中的穩(wěn)健性。

對(duì)于柱狀圖,ChartLens首先使用Otsu閾值處理將輸入圖像二值化,這一步就像是將圖像轉(zhuǎn)換為黑白照片,突出顯示重要的形狀。如果圖表有深色背景,二值化圖像會(huì)被反轉(zhuǎn),確保前景特征(如柱形)被正確突出。然后,從二值化圖像中生成一組初始輪廓,并通過使用唯一像素值將它們分解,隔離出單個(gè)柱形。為了消除不相關(guān)或虛假的輪廓,基于實(shí)心度和面積閾值應(yīng)用過濾步驟,確保只保留定義明確的柱形。

對(duì)于餅圖,分割從識(shí)別二值化圖像中的最大輪廓開始,通常對(duì)應(yīng)于餅圖本身。然后計(jì)算該輪廓的最小外接圓,近似圖表的邊界。遵循Savva等人的方法,餅圖沿徑向軸展開,創(chuàng)建線性表示。在這種展開形式中,檢測(cè)完整邊緣以識(shí)別扇區(qū)邊界,然后將其映射回原始圓形區(qū)域。這個(gè)過程產(chǎn)生對(duì)應(yīng)于餅圖各個(gè)切片的分段。

盡管這些啟發(fā)式方法有效地利用了圖表的結(jié)構(gòu)和幾何特性,但它們存在一些局限性。它們對(duì)噪聲敏感,在低對(duì)比度圖像上表現(xiàn)不佳,經(jīng)常將網(wǎng)格線或標(biāo)簽等無關(guān)組件誤認(rèn)為圖表元素。為了解決這些問題,ChartLens采用了分割任何物體模型(SAM)進(jìn)行實(shí)例分割。具體來說,從每個(gè)檢測(cè)到的元素中采樣n個(gè)點(diǎn),并將其用作SAM的提示。該模型生成精確包圍與采樣點(diǎn)相關(guān)的對(duì)象的掩碼,克服了經(jīng)典方法的缺點(diǎn)。

SAM的架構(gòu)使其能夠更穩(wěn)健地處理嘈雜和低質(zhì)量的圖像。它生成與圖表元素邊界緊密對(duì)齊的精確掩碼,即使在復(fù)雜情況下也是如此。此外,SAM自然抑制背景特征,如網(wǎng)格線,因?yàn)檫@些元素缺乏主要圖表組件的空間連貫性,從而為這些元素生成較弱的掩碼(低IoU)。與啟發(fā)式方法不同,SAM在不需要大量參數(shù)調(diào)整的情況下,能夠很好地泛化到各種圖表類型和布局。

對(duì)于線圖,ChartLens使用LineFormer提取線條。線條由于其細(xì)長(zhǎng)的結(jié)構(gòu)特征(如窄寬度、重疊軌跡和交叉線)而給分割帶來了獨(dú)特的挑戰(zhàn)。這些特性使得經(jīng)典計(jì)算機(jī)視覺方法或基于點(diǎn)的提示方法難以準(zhǔn)確識(shí)別和分割線條,尤其是在密集或復(fù)雜的圖表中。LineFormer利用Transformer架構(gòu)提供的全局上下文來區(qū)分即使是緊密排列或相交的線條。在使用LineFormer檢測(cè)候選線條后,我們沿著其水平范圍將每條線分成等距的段。這些較小的段作為我們歸因算法的細(xì)粒度標(biāo)記。

在多模態(tài)LLM歸因階段,ChartLens使用一種稱為"標(biāo)記集提示"(Set-of-Marks prompting)的視覺提示技術(shù),旨在利用多模態(tài)LLM的視覺定位能力。受Yang等人的啟發(fā),標(biāo)記集提示將圖像分割為不同粒度的區(qū)域,使用像SEEM或SAM這樣的交互式分割模型。這些分割區(qū)域隨后被疊加上視覺標(biāo)記,如字母數(shù)字標(biāo)簽、掩碼或邊界框。這個(gè)標(biāo)記過的圖像作為輸入提供給多模態(tài)LLM。

標(biāo)記集提示之所以有效,是因?yàn)樗鼘?shí)現(xiàn)了圖像內(nèi)的顯式定位,幫助模型隔離不同區(qū)域并理解它們的空間關(guān)系。此外,通過標(biāo)記這些元素,該技術(shù)簡(jiǎn)化了模型的推理過程,使其更容易在視覺定位任務(wù)中引用特定組件。這些因素的結(jié)合增強(qiáng)了模型解釋和連接視覺信息與文本查詢的能力。

在ChartLens的方法中,多模態(tài)LLM接收疊加了標(biāo)記的圖表圖像。提示的結(jié)構(gòu)旨在實(shí)現(xiàn)兩個(gè)主要目標(biāo):驗(yàn)證和歸因。提示首先解釋圖表歸因的概念,提供問答(QA)對(duì)及其對(duì)應(yīng)歸因的幾個(gè)文本示例。接下來,模型被指示遵循逐步思考(CoT)推理過程,執(zhí)行驗(yàn)證和歸因。

驗(yàn)證涉及確認(rèn)QA對(duì)是否與圖表圖像中的信息一致。模型評(píng)估答案是否與圖表中呈現(xiàn)的視覺元素和數(shù)據(jù)一致。歸因要求模型識(shí)別并提及圖表中支持給定答案的特定標(biāo)記元素。通過明確引用這些元素,模型的回應(yīng)變得更加透明,更容易驗(yàn)證。

三、ChartVA-Eval:為圖表歸因而生的基準(zhǔn)測(cè)試集

為了評(píng)估圖表視覺歸因方法的性能,研究團(tuán)隊(duì)創(chuàng)建了ChartVA-Eval基準(zhǔn)測(cè)試集。這個(gè)基準(zhǔn)測(cè)試集包含了超過1200個(gè)樣本,涵蓋了合成圖表和真實(shí)世界圖表,來自金融、政策和經(jīng)濟(jì)等多個(gè)領(lǐng)域,并配有細(xì)粒度的歸因注釋。

ChartVA-Eval由三個(gè)關(guān)鍵數(shù)據(jù)集組成:MATSA-AITQA、PlotQA和ChartQA,每個(gè)數(shù)據(jù)集都提供了獨(dú)特的特性和挑戰(zhàn)。

MATSA-AITQA數(shù)據(jù)集源自美國(guó)主要航空公司2017年至2019年財(cái)政年度的SEC文件的表格問答。這些表格與問答對(duì)配對(duì),并標(biāo)注了支持答案的數(shù)據(jù)點(diǎn)對(duì)應(yīng)的單元格。研究團(tuán)隊(duì)從這些表格生成了合成圖表,通過應(yīng)用主題、調(diào)色板、字體和設(shè)計(jì)元素(如網(wǎng)格線和刻度樣式)的變化,產(chǎn)生了超過10,000種可能的樣式組合。每個(gè)問答對(duì)都與單一視覺歸因相關(guān)聯(lián)。數(shù)據(jù)集包括分組柱狀圖、堆疊柱狀圖、簡(jiǎn)單柱狀圖(水平和垂直)以及折線圖等圖表類型。

PlotQA數(shù)據(jù)集專注于配有邊界框注釋和各種基于推理的問題的合成科學(xué)圖表。數(shù)據(jù)集包括折線圖和柱狀圖(垂直和水平),每個(gè)答案都有一個(gè)或多個(gè)視覺元素作為支持。這些圖表的數(shù)據(jù)來自公開可獲取的存儲(chǔ)庫(kù),包括世界銀行開放數(shù)據(jù)、開放政府?dāng)?shù)據(jù)和全球恐怖主義數(shù)據(jù)庫(kù)。這種受控的合成環(huán)境允許評(píng)估需要仔細(xì)解釋和邏輯推理的細(xì)粒度歸因任務(wù)。

ChartQA數(shù)據(jù)集提供了真實(shí)世界的圖表,伴有人工編寫的問答注釋。這些圖表來自Statista、皮尤研究中心、"我們的世界數(shù)據(jù)"(OWID)和經(jīng)濟(jì)合作與發(fā)展組織(OECD)等平臺(tái)。數(shù)據(jù)集包括各種圖表類型,特別是餅圖、折線圖和柱狀圖??紤]到其他數(shù)據(jù)集中餅圖的稀缺性,我們對(duì)它們進(jìn)行了過采樣以確保平衡表示。ChartQA捕捉了真實(shí)世界數(shù)據(jù)可視化中的復(fù)雜性和可變性,為評(píng)估歸因模型提供了一個(gè)現(xiàn)實(shí)的基準(zhǔn)。

對(duì)于歸因注釋,研究團(tuán)隊(duì)采用了混合方法,結(jié)合了大規(guī)模自動(dòng)注釋和人工驗(yàn)證。對(duì)于ChartQA和PlotQA數(shù)據(jù)集,他們利用GPT-4o生成初始注釋,利用底層數(shù)據(jù)表格、問題和答案。具體來說,他們識(shí)別了頻繁的問題模板,并為每個(gè)模板設(shè)計(jì)了定制的提示。例如,對(duì)于與基數(shù)相關(guān)的問答對(duì),模型被指示選擇基數(shù)計(jì)數(shù)中的所有數(shù)據(jù)點(diǎn)。這些自動(dòng)注釋隨后通過人工驗(yàn)證進(jìn)行細(xì)化。

在交互式設(shè)置中,注釋者審查了圖表上渲染的邊界框,并根據(jù)兩個(gè)標(biāo)準(zhǔn)評(píng)估注釋:(1)相關(guān)性——確保注釋的元素直接支持答案,以及(2)完整性——驗(yàn)證包含了所有必要的圖表元素。這個(gè)過程確保了高質(zhì)量和精確的歸因注釋。

四、實(shí)驗(yàn)與結(jié)果分析:ChartLens表現(xiàn)優(yōu)異

為了全面評(píng)估ChartLens的性能,研究團(tuán)隊(duì)將其與幾個(gè)基線方法進(jìn)行了比較,包括零樣本GPT-4o邊界框提示、Kosmos-2和LISA。實(shí)驗(yàn)結(jié)果表明,ChartLens在所有圖表類型上都顯著優(yōu)于這些基線方法,突顯了其在視覺圖表理解方面的穩(wěn)健性和有效性。

首先,讓我們了解一下這些基線方法。零樣本GPT-4o邊界框提示是一種方法,研究團(tuán)隊(duì)提示GPT-4o基于輸入文本和視覺圖表預(yù)測(cè)圖表組件(如線條、柱形、餅圖扇區(qū))的歸一化邊界框坐標(biāo)。這種方法與先前的零樣本定位任務(wù)工作一致。Kosmos-2是一種在接地圖像-文本數(shù)據(jù)(GrIT)上訓(xùn)練的多模態(tài)大型語言模型,它集成了文本到視覺定位能力。通過將對(duì)象位置表示為Markdown鏈接,它支持諸如指代表達(dá)理解、短語定位和多模態(tài)推理等任務(wù),并為視覺定位任務(wù)生成邊界框。LISA(大型語言指令分割助手)是一種基于推理的分割模型,它從隱含和復(fù)雜的文本查詢生成掩碼。通過引入標(biāo)記并利用嵌入即掩碼范式,LISA擴(kuò)展了MLLM能力到推理分割,具有強(qiáng)大的零樣本性能,并通過最小的任務(wù)特定微調(diào)進(jìn)一步改進(jìn)。

實(shí)驗(yàn)結(jié)果顯示,在柱狀圖上,ChartLens實(shí)現(xiàn)了顯著的性能改進(jìn),在ChartVA-AITQA上達(dá)到69.28的F1分?jǐn)?shù),在ChartVA-PlotQA上達(dá)到34.65,在ChartVA-ChartQA上達(dá)到64.14。相比之下,零樣本ChatGPT4o的F1分?jǐn)?shù)要低得多,分別為22.77、3.30和7.75,反映出其在數(shù)值推理和視覺歸因方面的局限性。Kosmos2和LISA表現(xiàn)不佳,F(xiàn)1分?jǐn)?shù)在各基準(zhǔn)測(cè)試中均低于5,突顯出它們由于視覺和數(shù)值推理不足而無法處理柱狀圖的情況。

對(duì)于折線圖,ChartLens在ChartVA-AITQA、PlotQA和ChartQA上分別實(shí)現(xiàn)了59.14%、51.84%和77.8%的強(qiáng)檢測(cè)精度,圖表區(qū)域錯(cuò)誤率低,分別為1.25%、9.98%和5.34%。雖然LISA和KOSMOS2實(shí)現(xiàn)了高檢測(cè)率,但這主要是由于它們的歸因覆蓋了圖表的大部分區(qū)域;覆蓋圖表的大面積使捕捉特定點(diǎn)變得不那么困難,但減少了歸因的特異性,使它們?cè)诩?xì)粒度定位方面效果較差。相比之下,ChartLens將圖表覆蓋區(qū)域減少了約3-50倍。

在餅圖上,ChartLens優(yōu)于基線方法,F(xiàn)1分?jǐn)?shù)達(dá)到48.56,顯著高于零樣本ChatGPT4o(7.17)、KOSMOS2(11.70)和LISA(2.41)。其精度(53.33)和召回率(44.57)證實(shí)了其準(zhǔn)確歸因餅圖段的能力。相比之下,零樣本ChatGPT4o和KOSMOS2在解釋比例方面存在困難,而LISA的極低性能突顯了其在處理餅圖幾何和分割任務(wù)方面的困難。

質(zhì)性比較進(jìn)一步展示了ChartLens與基線方法相比在柱狀圖、折線圖和餅圖上的優(yōu)勢(shì)。ChartLens一致地比基線方法更準(zhǔn)確地識(shí)別和歸因相關(guān)圖表元素,展示了對(duì)數(shù)值和視覺關(guān)系的清晰理解。零樣本ChatGPT4o嘗試進(jìn)行細(xì)粒度的特定選擇,但由于使用基于文本的坐標(biāo)表達(dá)歸因,無法展示穩(wěn)健的定位。LISA和KOSMOS2一致地引用典型的圖表組件,如整個(gè)餅圖或整個(gè)區(qū)域,但對(duì)給定查詢不夠敏感。

五、ChartLens的創(chuàng)新與局限性

ChartLens在細(xì)粒度視覺歸因領(lǐng)域取得了顯著進(jìn)展,但它也存在一些值得注意的局限性。首先,系統(tǒng)依賴分割作為核心組件,分割過程中的任何不準(zhǔn)確性都可能導(dǎo)致不完美或不完整的歸因。然而,由于分割是模塊化的,未來可以用更先進(jìn)的方法改進(jìn)或替換它。

其次,ChartLens主要關(guān)注視覺圖表元素,如柱形、點(diǎn)或扇區(qū),未考慮標(biāo)題、標(biāo)簽或標(biāo)題等文本組件。解決這一局限性并將基于文本的推理與視覺歸因集成是未來研究的一個(gè)有前途的方向。

盡管存在這些局限性,ChartLens仍然為提高多模態(tài)大型語言模型在圖表理解任務(wù)中的透明度和可靠性鋪平了道路。通過其創(chuàng)新的標(biāo)記生成和標(biāo)記集提示方法,它實(shí)現(xiàn)了比競(jìng)爭(zhēng)基線方法高26-66%的歸因準(zhǔn)確性。

六、總結(jié)與展望:邁向更透明的圖表理解

ChartLens的研究為解決多模態(tài)大型語言模型在圖表理解中的幻覺問題提供了一種有效的解決方案。通過將文本回答與圖表中的特定視覺元素關(guān)聯(lián)起來,它增強(qiáng)了模型輸出的透明度和可驗(yàn)證性,這對(duì)于金融分析、政策制定和科學(xué)研究等關(guān)鍵應(yīng)用領(lǐng)域至關(guān)重要。

這項(xiàng)研究的主要貢獻(xiàn)包括:引入了針對(duì)圖表的后驗(yàn)細(xì)粒度視覺歸因任務(wù),專注于確定支持給定圖表相關(guān)文本回答的特定圖表元素;提出了ChartVA-Eval基準(zhǔn)測(cè)試集,包含超過1200個(gè)樣本,涵蓋了來自金融、政策和經(jīng)濟(jì)等多個(gè)領(lǐng)域的真實(shí)世界和合成圖表;以及開發(fā)了ChartLens,一種基于多模態(tài)LLM的標(biāo)記集提示的新型圖表歸因算法,該算法在評(píng)估中展示了顯著的性能改進(jìn)。

未來的工作方向包括將這些方法擴(kuò)展到其他形式的視覺數(shù)據(jù),以及提高算法在各種圖表樣式和復(fù)雜性中的穩(wěn)健性。隨著對(duì)透明和可驗(yàn)證的AI系統(tǒng)需求的增長(zhǎng),ChartLens這樣的技術(shù)將在確保多模態(tài)大型語言模型輸出的可靠性和可信度方面發(fā)揮關(guān)鍵作用。

究其根本,ChartLens代表了AI系統(tǒng)設(shè)計(jì)理念的一個(gè)重要轉(zhuǎn)變——從僅關(guān)注準(zhǔn)確性,到同時(shí)重視透明度和可解釋性。正如科學(xué)研究需要引用來源,法律判決需要引用先例一樣,AI系統(tǒng)的輸出也應(yīng)該能夠明確其依據(jù)。ChartLens的工作表明,這種透明度不僅是技術(shù)上可行的,而且能夠顯著提高系統(tǒng)的可靠性和用戶信任度。

對(duì)于關(guān)注AI發(fā)展的普通讀者來說,ChartLens代表了一種更加負(fù)責(zé)任和值得信賴的AI方向——一種不僅能給出答案,還能解釋其推理過程的AI。這種透明度將有助于AI系統(tǒng)在數(shù)據(jù)分析、商業(yè)智能和科學(xué)研究等關(guān)鍵領(lǐng)域獲得更廣泛的接受和采用。

如果你對(duì)這項(xiàng)研究感興趣,可以通過arXiv:2505.19360v1查閱完整論文。隨著研究的繼續(xù)發(fā)展,我們期待看到像ChartLens這樣的技術(shù)如何進(jìn)一步改進(jìn),最終使AI系統(tǒng)在處理圖表和其他視覺數(shù)據(jù)時(shí)變得更加透明、可靠和值得信賴。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-