av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見(jiàn)證連接與計(jì)算的「力量」

首頁(yè) ChartIR:教機(jī)器人看懂圖表然后寫代碼的新方法——上海交通大學(xué)團(tuán)隊(duì)的創(chuàng)新突破

ChartIR:教機(jī)器人看懂圖表然后寫代碼的新方法——上海交通大學(xué)團(tuán)隊(duì)的創(chuàng)新突破

2025-06-25 11:35
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-25 11:35 ? 科技行者

這項(xiàng)由上海交通大學(xué)MIFA實(shí)驗(yàn)室的徐承志、王宇陽(yáng)、魏來(lái)研究團(tuán)隊(duì)與利哈伊大學(xué)的孫立超教授以及北京通用人工智能研究院的黃偉然教授聯(lián)合完成的研究發(fā)表于2025年6月15日,論文編號(hào)為arXiv:2506.14837v1。感興趣的讀者可以通過(guò)arXiv平臺(tái)訪問(wèn)完整論文。

現(xiàn)在我們身邊到處都是聰明的AI助手,它們能看懂圖片、回答問(wèn)題,甚至能寫代碼。但是當(dāng)你拿一張統(tǒng)計(jì)圖表給它們看,請(qǐng)它們寫出能畫出這個(gè)圖表的Python代碼時(shí),這些平時(shí)很聰明的AI就開(kāi)始犯糊涂了。這就像是一個(gè)會(huì)做菜的機(jī)器人,你給它看一道菜的照片,它卻寫不出正確的菜譜來(lái)重現(xiàn)這道菜。

為了解決這個(gè)問(wèn)題,上海交通大學(xué)的研究團(tuán)隊(duì)開(kāi)發(fā)了一套叫做ChartIR的新方法。這個(gè)方法就像是給AI配了一副"理解圖表的眼鏡"和一個(gè)"翻譯助手"。當(dāng)AI看到一張圖表時(shí),它不再是直接硬著頭皮去寫代碼,而是先仔細(xì)觀察圖表,用文字描述出圖表的各種細(xì)節(jié),然后基于這些描述來(lái)一步步改進(jìn)代碼,直到生成的圖表和原圖幾乎一模一樣。

研究團(tuán)隊(duì)發(fā)現(xiàn),現(xiàn)有的AI模型在處理圖表轉(zhuǎn)代碼這個(gè)任務(wù)時(shí)面臨兩大難題。第一個(gè)難題是"看不懂"——AI很難準(zhǔn)確理解圖表中的復(fù)雜信息,比如顏色、文字標(biāo)注、坐標(biāo)軸設(shè)置等等。第二個(gè)難題是"說(shuō)不清"——即使看懂了圖表,AI也很難將這些視覺(jué)信息準(zhǔn)確地轉(zhuǎn)換成能運(yùn)行的代碼。這就好比一個(gè)外國(guó)游客看到中國(guó)菜譜,既看不懂中文描述,又不知道怎么把理解的內(nèi)容轉(zhuǎn)換成實(shí)際的烹飪步驟。

一、給AI配上"圖表理解眼鏡"

ChartIR方法的第一個(gè)創(chuàng)新是給AI配了一副特殊的"眼鏡",讓它能夠更好地理解圖表。這副眼鏡的工作原理很像一個(gè)專業(yè)的圖表分析師。當(dāng)這個(gè)分析師看到一張圖表時(shí),他不會(huì)急著下結(jié)論,而是會(huì)有條不紊地觀察各個(gè)細(xì)節(jié)。

具體來(lái)說(shuō),這個(gè)過(guò)程分為兩個(gè)階段。在第一階段,AI會(huì)像一個(gè)細(xì)心的觀察者一樣,對(duì)圖表進(jìn)行全面的"體檢"。它會(huì)記錄下圖表包含幾個(gè)子圖、每個(gè)子圖是什么類型(比如是餅圖、柱狀圖還是折線圖)、坐標(biāo)軸上有什么標(biāo)簽、使用了哪些顏色、有什么文字注釋等等。這個(gè)描述過(guò)程非常詳細(xì),就像醫(yī)生給病人做全身檢查時(shí)要記錄各項(xiàng)指標(biāo)一樣。

舉個(gè)例子,當(dāng)AI看到一個(gè)餅圖時(shí),它不會(huì)簡(jiǎn)單地說(shuō)"這是個(gè)餅圖",而是會(huì)詳細(xì)描述:"這是一個(gè)餅圖,包含四個(gè)扇形區(qū)域。第一個(gè)區(qū)域是藍(lán)色的,占37.5%,標(biāo)注著'375g面粉';第二個(gè)區(qū)域是橙色的,占7.5%,標(biāo)注著'75g糖'..."這樣的描述就像是一個(gè)專業(yè)的圖表解說(shuō)員在為盲人朋友詳細(xì)解說(shuō)圖表內(nèi)容。

這種描述方法的巧妙之處在于,它把視覺(jué)信息轉(zhuǎn)換成了語(yǔ)言信息。我們都知道,現(xiàn)在的AI在處理語(yǔ)言方面比處理圖像要強(qiáng)得多,這就像是把一個(gè)復(fù)雜的數(shù)學(xué)題翻譯成了AI更擅長(zhǎng)的語(yǔ)言題。

二、循序漸進(jìn)的代碼改進(jìn)策略

有了詳細(xì)的圖表描述后,ChartIR進(jìn)入第二個(gè)階段——迭代改進(jìn)。這個(gè)過(guò)程就像是一個(gè)學(xué)生在老師指導(dǎo)下反復(fù)修改作文一樣。AI首先會(huì)根據(jù)圖表描述寫出一個(gè)初始版本的代碼,然后運(yùn)行這個(gè)代碼看看生成的圖表是什么樣子。

接下來(lái)就是關(guān)鍵的改進(jìn)環(huán)節(jié)。AI會(huì)把自己生成的圖表和原始圖表進(jìn)行對(duì)比,就像是拿著兩張照片找不同。它會(huì)仔細(xì)分析:"我畫出的圖表哪里和原圖不一樣?顏色對(duì)了嗎?文字標(biāo)注位置正確嗎?比例準(zhǔn)確嗎?"然后AI會(huì)寫出一份"差異報(bào)告",詳細(xì)描述兩張圖的區(qū)別。

基于這份差異報(bào)告,AI會(huì)對(duì)代碼進(jìn)行針對(duì)性的修改。比如,如果發(fā)現(xiàn)生成的圖表缺少文字標(biāo)注,AI就會(huì)在代碼中添加相應(yīng)的標(biāo)注代碼;如果發(fā)現(xiàn)顏色不對(duì),就會(huì)修改顏色設(shè)置。修改完成后,AI會(huì)再次運(yùn)行代碼,生成新的圖表,然后繼續(xù)對(duì)比、分析、改進(jìn)。

這個(gè)過(guò)程會(huì)反復(fù)進(jìn)行,直到生成的圖表和原圖幾乎一模一樣,或者連續(xù)幾次改進(jìn)都沒(méi)有明顯進(jìn)步為止。這就像是一個(gè)畫家反復(fù)修改自己的作品,每次都在細(xì)節(jié)上做一些調(diào)整,最終達(dá)到滿意的效果。

與之前的方法相比,ChartIR的優(yōu)勢(shì)在于它考慮的是圖表的整體質(zhì)量,而不是某個(gè)單一方面。之前的METAL方法就像是一個(gè)偏科的學(xué)生,每次只專注于改進(jìn)一個(gè)方面(比如只管顏色或只管文字),結(jié)果可能是顏色對(duì)了但文字位置錯(cuò)了,或者文字對(duì)了但顏色又變錯(cuò)了。而ChartIR則像是一個(gè)全面發(fā)展的好學(xué)生,每次改進(jìn)時(shí)都會(huì)綜合考慮各個(gè)方面,確保整體效果的提升。

三、實(shí)驗(yàn)驗(yàn)證:數(shù)字說(shuō)話的成果

為了驗(yàn)證ChartIR方法的有效性,研究團(tuán)隊(duì)進(jìn)行了大量的實(shí)驗(yàn)測(cè)試。他們選擇了兩個(gè)廣泛使用的圖表數(shù)據(jù)集:Plot2Code和ChartMimic。這兩個(gè)數(shù)據(jù)集就像是圖表轉(zhuǎn)代碼任務(wù)的"高考試題庫(kù)",包含了各種類型和難度的圖表,是檢驗(yàn)AI能力的標(biāo)準(zhǔn)測(cè)試平臺(tái)。

實(shí)驗(yàn)結(jié)果相當(dāng)令人鼓舞。在Plot2Code數(shù)據(jù)集上,當(dāng)使用強(qiáng)大的GPT-4o模型時(shí),直接讓AI生成代碼只能得到5.61分(滿分10分),使用之前最好的METAL方法可以達(dá)到6.02分,而使用ChartIR方法則達(dá)到了6.56分,相比直接生成提升了17%。這個(gè)提升幅度相當(dāng)可觀,就像是一個(gè)學(xué)生的考試成績(jī)從56分提高到了66分。

更有意思的是,ChartIR不僅在總體評(píng)分上表現(xiàn)優(yōu)秀,在各個(gè)細(xì)分指標(biāo)上也都有顯著改善。比如在圖表布局準(zhǔn)確性方面,ChartIR達(dá)到了95%的準(zhǔn)確率,明顯超過(guò)了其他方法。在傳統(tǒng)的圖像相似度指標(biāo)上,比如PSNR(圖像質(zhì)量評(píng)估指標(biāo))從13.53提升到14.29,SSIM(結(jié)構(gòu)相似性指標(biāo))從0.68提升到0.69。

對(duì)于開(kāi)源模型Qwen2-VL,ChartIR的改進(jìn)效果更加明顯。在ChartMimic數(shù)據(jù)集上,直接生成代碼只能得到2.20分,METAL方法達(dá)到2.32分,而ChartIR達(dá)到了3.86分,提升幅度高達(dá)75%。這種大幅提升說(shuō)明,對(duì)于能力相對(duì)較弱的模型,ChartIR的結(jié)構(gòu)化指導(dǎo)方法特別有效,就像是給一個(gè)基礎(chǔ)較差的學(xué)生配了一個(gè)優(yōu)秀的家教。

研究團(tuán)隊(duì)還進(jìn)行了詳細(xì)的消融實(shí)驗(yàn),就像是拆解一臺(tái)機(jī)器來(lái)看每個(gè)零件的作用。他們發(fā)現(xiàn),如果去掉圖表描述部分,性能會(huì)明顯下降;如果去掉迭代改進(jìn)部分,性能同樣會(huì)受損。這說(shuō)明ChartIR的兩個(gè)核心組件都是必不可少的,就像做菜時(shí)鹽和油都不能少一樣。

四、真實(shí)案例:看看ChartIR是如何工作的

為了更直觀地展示ChartIR的工作過(guò)程,研究團(tuán)隊(duì)提供了一個(gè)具體的案例。這個(gè)案例涉及一個(gè)餅圖,顯示了烘焙食譜中各種原料的比例。

在初始階段,AI首先生成了對(duì)這個(gè)餅圖的詳細(xì)描述:"這是一個(gè)餅圖,包含四個(gè)扇形區(qū)域,分別代表面粉、糖、黃油和漿果。顏色方案使用固定值:面粉是藍(lán)色,糖是橙色,黃油是綠色,漿果是紅色。每個(gè)扇形都標(biāo)注了百分比和重量..."

基于這個(gè)描述,AI生成了初始代碼并運(yùn)行,得到了第一版圖表。然而,這個(gè)初始版本雖然顏色正確,但缺少了文字標(biāo)注。這就像是畫了一個(gè)餅圖的輪廓,但忘記加上標(biāo)簽。

在第一次改進(jìn)中,AI對(duì)比了初始圖表和原圖,發(fā)現(xiàn)了文字缺失問(wèn)題,于是生成了差異報(bào)告:"在第一張圖中,餅圖扇形內(nèi)沒(méi)有注釋或文字。在第二張圖中,每個(gè)餅圖扇形都標(biāo)注了百分比和對(duì)應(yīng)的重量..."基于這個(gè)分析,AI修改了代碼,添加了文字標(biāo)注功能。

運(yùn)行修改后的代碼,生成了第二版圖表。這次文字標(biāo)注出現(xiàn)了,但有一個(gè)扇形的顏色變成了淺橙色而不是原來(lái)的紅色。就像是解決了一個(gè)問(wèn)題又出現(xiàn)了新問(wèn)題。

在第二次改進(jìn)中,AI再次進(jìn)行對(duì)比分析,識(shí)別出了顏色問(wèn)題:"第一張圖中,漿果部分是藍(lán)色、橙色、綠色、淺橙色。第二張圖中,漿果部分應(yīng)該是紅色而不是淺橙色..."于是AI再次修改代碼,將漿果的顏色從淺橙色改為紅色。

經(jīng)過(guò)這兩輪改進(jìn),最終生成的圖表在顏色和文字標(biāo)注方面都與原圖完全一致。這個(gè)過(guò)程就像是一個(gè)學(xué)徒在師傅指導(dǎo)下反復(fù)修改作品,每次都在原有基礎(chǔ)上解決一個(gè)具體問(wèn)題,最終達(dá)到了完美復(fù)制的效果。

五、技術(shù)實(shí)現(xiàn)的巧思與細(xì)節(jié)

ChartIR方法的成功不僅在于整體思路的創(chuàng)新,更在于許多技術(shù)實(shí)現(xiàn)上的巧思。比如,為了確保改進(jìn)的有效性,研究團(tuán)隊(duì)設(shè)計(jì)了一套綜合評(píng)價(jià)體系。這個(gè)體系不像之前的方法那樣只看單一指標(biāo),而是綜合考慮多個(gè)視覺(jué)相似度指標(biāo),包括CLIP得分、DINO特征、SSIM結(jié)構(gòu)相似性等等。

這種綜合評(píng)價(jià)方式就像是給學(xué)生評(píng)分時(shí)不只看一門課的成績(jī),而是看總分。只有當(dāng)新生成的圖表在綜合得分上確實(shí)比之前的版本更好時(shí),AI才會(huì)采用新的代碼。這樣可以避免"拆東墻補(bǔ)西墻"的問(wèn)題,確保每次改進(jìn)都是真正的進(jìn)步。

另一個(gè)巧妙的設(shè)計(jì)是收斂機(jī)制。為了防止AI無(wú)休止地修改下去,研究團(tuán)隊(duì)設(shè)置了一個(gè)"耐心計(jì)數(shù)器"。如果連續(xù)幾次改進(jìn)都沒(méi)有帶來(lái)明顯提升,系統(tǒng)就會(huì)停止嘗試,返回當(dāng)前最好的結(jié)果。這就像是告訴一個(gè)完美主義者:"差不多就行了,不要追求絕對(duì)完美。"

對(duì)于代碼調(diào)試問(wèn)題,研究團(tuán)隊(duì)也考慮得很周到。在迭代過(guò)程中,AI生成的代碼有時(shí)可能包含語(yǔ)法錯(cuò)誤或邏輯錯(cuò)誤,導(dǎo)致無(wú)法運(yùn)行。為了解決這個(gè)問(wèn)題,研究團(tuán)隊(duì)引入了專門的代碼修復(fù)機(jī)制,就像是給AI配了一個(gè)專業(yè)的程序員助手,專門負(fù)責(zé)修復(fù)代碼中的bug。

對(duì)于開(kāi)源模型和閉源模型,ChartIR采用了不同的策略。對(duì)于GPT-4o這樣的強(qiáng)大閉源模型,由于它本身就具備很好的圖表理解能力,可以直接讓它生成圖表描述。但對(duì)于能力相對(duì)較弱的開(kāi)源模型,研究團(tuán)隊(duì)專門訓(xùn)練了一個(gè)圖表描述生成器,使用GPT-4o生成的高質(zhì)量訓(xùn)練數(shù)據(jù)對(duì)Qwen2.5-VL進(jìn)行微調(diào),讓它具備生成準(zhǔn)確圖表描述的能力。

六、局限性與改進(jìn)空間

盡管ChartIR取得了顯著的成果,但研究團(tuán)隊(duì)也坦誠(chéng)地指出了方法的局限性。首先是計(jì)算成本問(wèn)題。相比直接生成代碼,ChartIR需要多輪迭代,因此需要更多的計(jì)算資源和時(shí)間。這就像是精工細(xì)作雖然質(zhì)量更好,但也需要更多時(shí)間和精力。

另一個(gè)局限是對(duì)閉源模型的改進(jìn)效果相對(duì)有限。GPT-4o這樣的強(qiáng)大模型本身就具備很好的圖表理解能力,因此ChartIR的結(jié)構(gòu)化指導(dǎo)對(duì)它的幫助不如對(duì)開(kāi)源模型那么明顯。這有點(diǎn)像是給已經(jīng)很優(yōu)秀的學(xué)生請(qǐng)家教,效果自然不如給基礎(chǔ)較差的學(xué)生請(qǐng)家教那么顯著。

此外,當(dāng)前的方法主要針對(duì)常見(jiàn)的圖表類型進(jìn)行了優(yōu)化,對(duì)于一些特殊或復(fù)雜的圖表類型,效果可能還有提升空間。就像是一個(gè)廚師雖然擅長(zhǎng)做家常菜,但對(duì)于一些特殊的異國(guó)料理可能還需要進(jìn)一步學(xué)習(xí)。

七、對(duì)未來(lái)的影響與展望

ChartIR方法的意義遠(yuǎn)不止是在技術(shù)指標(biāo)上的提升,它代表了一種新的思路:通過(guò)結(jié)構(gòu)化的中間表示來(lái)橋接不同模態(tài)之間的鴻溝。這種思路可能會(huì)啟發(fā)更多類似的研究,比如從表格生成圖表、從音頻生成樂(lè)譜等等。

對(duì)于普通用戶來(lái)說(shuō),這項(xiàng)研究的實(shí)際應(yīng)用價(jià)值很大。想象一下,你在看一篇學(xué)術(shù)論文或新聞報(bào)道時(shí),看到一個(gè)很有意思的圖表,想要基于類似的數(shù)據(jù)制作自己的圖表。有了ChartIR這樣的技術(shù),你只需要把圖表截圖給AI看,它就能幫你生成相應(yīng)的代碼,你可以修改數(shù)據(jù)來(lái)制作自己的圖表。

對(duì)于教育領(lǐng)域,這項(xiàng)技術(shù)也有很大潛力。學(xué)生在學(xué)習(xí)數(shù)據(jù)可視化時(shí),可以通過(guò)分析現(xiàn)有圖表來(lái)學(xué)習(xí)不同的制圖技巧。老師也可以更容易地為學(xué)生提供代碼示例,幫助他們理解各種圖表的制作方法。

從更廣闊的角度看,ChartIR體現(xiàn)了當(dāng)前AI研究的一個(gè)重要趨勢(shì):不是簡(jiǎn)單地讓AI變得更大更強(qiáng),而是讓AI變得更聰明更有條理。通過(guò)合理的方法設(shè)計(jì),即使是能力相對(duì)較弱的模型也能在特定任務(wù)上取得出色的表現(xiàn)。

說(shuō)到底,ChartIR這項(xiàng)研究告訴我們,解決復(fù)雜問(wèn)題的關(guān)鍵往往不是蠻力,而是巧思。就像古人說(shuō)的"四兩撥千斤",通過(guò)合理的方法設(shè)計(jì),可以讓AI在圖表理解這個(gè)復(fù)雜任務(wù)上取得重大突破。隨著這類方法的不斷完善,我們有理由相信,AI在各種多模態(tài)任務(wù)上都會(huì)有更好的表現(xiàn),最終更好地服務(wù)于人類的日常工作和生活。

這項(xiàng)研究的開(kāi)源代碼和詳細(xì)實(shí)現(xiàn)已經(jīng)公開(kāi),感興趣的開(kāi)發(fā)者和研究人員可以在此基礎(chǔ)上進(jìn)一步改進(jìn)和擴(kuò)展。毫無(wú)疑問(wèn),ChartIR只是這個(gè)研究方向的一個(gè)開(kāi)始,未來(lái)還會(huì)有更多更好的方法出現(xiàn),讓AI在理解和生成各種類型的內(nèi)容方面變得更加智能和可靠。

Q&A

Q1:ChartIR是什么?它能做什么? A:ChartIR是上海交通大學(xué)團(tuán)隊(duì)開(kāi)發(fā)的一種新方法,能讓AI看懂圖表并寫出相應(yīng)的Python代碼。它的核心能力是將圖表圖像轉(zhuǎn)換成能重現(xiàn)該圖表的可執(zhí)行代碼,就像給AI配了一副"理解圖表的眼鏡"和一個(gè)"代碼翻譯助手"。

Q2:ChartIR會(huì)不會(huì)比現(xiàn)有方法更好用? A:是的,實(shí)驗(yàn)結(jié)果顯示ChartIR明顯優(yōu)于現(xiàn)有方法。在標(biāo)準(zhǔn)測(cè)試中,使用GPT-4o時(shí)比直接生成提升17%,使用開(kāi)源模型時(shí)提升更是高達(dá)75%。它不僅準(zhǔn)確率更高,生成的圖表在顏色、文字、布局等各方面都更接近原圖。

Q3:普通人能用ChartIR嗎?使用門檻高不高? A:目前ChartIR還是一個(gè)研究階段的技術(shù),主要面向開(kāi)發(fā)者和研究人員。不過(guò)由于研究團(tuán)隊(duì)已經(jīng)開(kāi)源了代碼,技術(shù)人員可以基于這個(gè)方法開(kāi)發(fā)更容易使用的應(yīng)用。未來(lái)很可能會(huì)有基于ChartIR的在線工具,讓普通用戶也能輕松使用。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-