**2025年5月,來自中國科學技術大學、上海創(chuàng)新研究院、南開大學、武漢大學和上海人工智能實驗室的研究團隊在arXiv平臺發(fā)布了一項開創(chuàng)性研究,論文題為《SridBench: Benchmark of Scientific Research Illustration Drawing of Image Generation Model》(SridBench:圖像生成模型科研插圖繪制基準測試),預計將提交至2025年神經(jīng)信息處理系統(tǒng)大會(NeurIPS 2025)。這項研究由Yifan Chang、Yukang Feng、Jianwen Sun、Jiaxin Ai、Chuanhao Li、S. Kevin Zhou和Kaipeng Zhang共同完成,其中Kaipeng Zhang教授擔任通訊作者。**
一、研究背景:科研插圖自動化的迫切需求
想象一下,你是一位正在準備重要學術論文的科學家。你的研究成果豐碩,但要向同行清晰展示你的復雜理論框架、實驗流程或數(shù)據(jù)結構,你需要制作精美的科研插圖。然而,這些插圖往往需要耗費你數(shù)小時的寶貴時間,還可能需要使用昂貴的專業(yè)軟件工具,更不用說反復修改的過程了。這正是科研工作者面臨的真實困境。
近年來,人工智能領域取得了長足進步,特別是在圖像生成領域。最初的擴散模型(如Stable Diffusion、DALL·E和Flux)專注于提升圖像的視覺質(zhì)量,而最新的多模態(tài)模型(如GPT-4o-image)則開始整合高級推理能力,展現(xiàn)出更強的語義理解和結構組合能力。這些進展讓我們看到了自動化科研插圖繪制的希望。
科研插圖生成是一項極具挑戰(zhàn)性的任務。與普通圖像生成不同,它要求模型能夠精確理解復雜的技術描述,并將抽象結構轉化為清晰、標準化的視覺表達。這是一項知識密集型任務,需要模型具備深厚的專業(yè)知識和推理能力。近期調(diào)查顯示,制作一張科研圖表通常需要數(shù)小時的人工勞動,經(jīng)常需要使用昂貴的軟件工具,并進行反復修改。如果能夠以可控且智能的方式自動化這一過程,將為科研工作帶來巨大的實際效益。
然而,目前尚無基準測試能系統(tǒng)評估AI在此任務上的表現(xiàn)。為填補這一空白,來自多所高校和研究機構的研究團隊提出了SridBench,這是首個專為評估多模態(tài)模型在科學圖表生成方面能力而設計的基準測試。
二、SridBench基準測試:設計與實現(xiàn)
SridBench就像是一位嚴格的科研繪圖考官。想象一下,這位考官收集了各個學科的權威科學論文,精心挑選了其中的高質(zhì)量圖表,并設計了一套全面的評分標準,用來考核AI模型的科研繪圖能力。那么,這位考官是如何工作的呢?
首先,研究團隊通過人類專家和多模態(tài)大語言模型(MLLM)的協(xié)作,從權威科學論文網(wǎng)站上收集并篩選了1,120個高質(zhì)量樣本。這些樣本橫跨了13個學科領域,涵蓋了自然科學和計算機科學兩大類。具體來說,在計算機科學類別下包含了軟件工程、機器人學、網(wǎng)絡與互聯(lián)網(wǎng)架構、人機交互、分布式與并行計算、計算機視覺與模式識別、密碼學與安全、計算與語言、硬件架構九個方向,而自然科學類別下則包含了物理學、有機化學、地理環(huán)境和生物結構四個方向。
為了確保數(shù)據(jù)的科學性和權威性,研究團隊采用了嚴格的篩選標準。他們首先從arXiv和Nature等權威平臺下載論文,然后使用多模態(tài)大語言模型初步判斷圖表類型,篩選出概念圖、模型框架圖、流程圖和結構圖等科研示意圖(而非實驗結果圖表、統(tǒng)計數(shù)據(jù)分析圖或真實照片)。人類專家隨后對篩選結果進行審核,確保所選圖表清晰、科學、嚴謹,且具有一定表現(xiàn)力。每個樣本都包含了三個關鍵元素:原始圖像、圖像說明文字和相關章節(jié)內(nèi)容。
評估框架是SridBench的另一個核心創(chuàng)新。研究團隊設計了六個評估維度,包括: 1. 文本信息完整性:生成的圖表是否包含了參考圖表中的所有文本信息 2. 文本信息準確性:文本信息是否科學嚴謹 3. 圖表結構完整性:是否繪制了圖表的所有元素 4. 圖表邏輯性:元素排列是否科學合理 5. 認知可讀性:圖表是否便于讀者簡潔地理解內(nèi)容 6. 美學感受:圖表是否具有美感或設計感
評分采用1到5的等級制(1:不合格,2:較差,3:一般,4:良好,5:優(yōu)秀)。研究團隊不僅支持人類專家評估,還開發(fā)了基于GPT-4o等多模態(tài)大模型的自動評分機制,經(jīng)驗證這種自動評分與人類專家的評分高度一致。
三、實驗設置:模型與數(shù)據(jù)的詳細分析
在這項研究中,團隊選擇了三種主流圖像生成模型進行測試:GPT-4o-image、Gemini-2.0-Flash和Emu-3。由于Emu-3生成圖像需要耗費過長時間,團隊主要對GPT-4o-image和Gemini-2.0-Flash進行了定量分析,并使用GPT-4o作為自動評分工具。
在數(shù)據(jù)收集過程中,研究團隊特別注重樣本的質(zhì)量和多樣性。計算機科學類數(shù)據(jù)來自arXiv和頂級期刊會議,而自然科學類數(shù)據(jù)則來自Nature網(wǎng)站的Reviews & Analysis部分。對于arXiv上的論文,研究團隊優(yōu)先選擇了引用次數(shù)超過25次的論文,確保了數(shù)據(jù)的權威性和質(zhì)量。每個方向精選了100個三元組數(shù)據(jù)(圖像、說明文字、相關章節(jié)),而Nature部分則精選了220個高質(zhì)量三元組。
為了便于更深入的分析,研究團隊還對計算機科學圖像進行了更細致的功能分類,包括軟件設計、名詞分類、數(shù)學結構、硬件設計、工程系統(tǒng)設計、算法流程、AI模型和其他類型八個類別。自然科學圖像則被分為物理圖表、有機化學圖表、地理環(huán)境圖表和生物結構圖表四種類型。
生成過程中,研究團隊將圖像說明文字和相關章節(jié)內(nèi)容填入精心設計的提示模板中,然后使用圖像生成模型繪制科研插圖。通過MLLM的API,他們實現(xiàn)了批量自動化的圖像生成過程。得到生成結果后,研究人員將它們與原始圖像進行比較,并根據(jù)六個維度進行評分。
四、研究結果:AI模型與人類專家仍有明顯差距
研究結果就像一面鏡子,清晰地反映出當前AI模型在科研繪圖領域的真實能力。想象一下,你正在評價一位初學者和一位專業(yè)畫師的作品差距。
首先,在整體表現(xiàn)上,Gemini-2.0-Flash在六個評估維度上的得分均低于2分,表明該模型幾乎不具備繪制專業(yè)科研插圖的能力。它在"圖表結構完整性"維度獲得了相對最高的分數(shù),說明該模型對科研繪圖的基本風格和框架結構有一定理解,但在具體內(nèi)容表達、科學邏輯推理方面幾乎毫無能力。
相比之下,GPT-4o-image表現(xiàn)出明顯優(yōu)勢。無論是計算機科學還是自然科學主題,該模型在各項指標上的得分普遍在3分左右,部分指標甚至超過3分。這意味著GPT-4o-image的科研繪圖能力已達到人類可接受的基本標準。研究團隊還隨機選取了50個自然科學和50個計算機科學的三元組數(shù)據(jù),讓Gemini-2.0-pro、GPT-4o和人類專家同時進行獨立評分。結果表明,GPT-4o的評分與人類專家基本一致,而Gemini-2.0-pro的評分則與人類評分存在明顯偏差。
在自然科學數(shù)據(jù)上,GPT-4o-image生成的圖像元素(如細胞結構、傳感器結構等)的完整性明顯高于文本元素的完整性。雖然該模型無法完整表達所有文本信息,但能保證已表達文本的準確性。然而,在邏輯性、簡潔性和美學方面,GPT-4o-image得分低于平均水平,說明自然科學圖像渲染的整體外觀和感覺仍有很大改進空間。值得注意的是,GPT-4o-image在不同自然科學學科之間的表現(xiàn)差異不大,顯示出較為均衡的跨學科能力。
在計算機科學數(shù)據(jù)方面,GPT-4o-image在文本信息完整性和準確性指標上的得分明顯下降。與自然科學圖表相比,計算機科學圖表通常包含更多文字和更復雜的流程結構,這使得GPT-4o-image在生成圖像和文本元素時面臨更大挑戰(zhàn)。不過,另一個顯著改進是GPT-4o-image在可讀性和美學方面的能力提升。這與計算機科學圖表的示意性質(zhì)相關,因為大多數(shù)計算機科學圖表是由文本、邊框和箭頭等元素組成的流程圖,對于這類圖表,GPT-4o-image更容易繪制。
五、案例分析:生成圖像的典型問題
研究團隊通過詳細比較三種圖像生成模型(Emu-3、Gemini-2.0-Flash和GPT-4o-image)與原始論文圖像的差異,揭示了當前AI模型在科研繪圖中面臨的典型問題。
從實例來看,Emu-3完全不具備科學寫作的理解能力,其生成的內(nèi)容與要求毫無關聯(lián)。Gemini-2.0-Flash的表現(xiàn)略好一些,但通常只是在圖像中繪制文本,沒有圖形元素,而且文本問題嚴重,更像是符號而非文字。在部分自然科學圖像生成中,雖然出現(xiàn)了類似植物的結構,但生成的圖像仍然難以解讀。
GPT-4o-image在內(nèi)容生成質(zhì)量上顯著優(yōu)于其他模型。它能生成定義清晰、表達良好的文本,圖表結構清晰,且能在生成結果中反映參考圖像的基本元素。可以說,GPT-4o-image已具備初步的、相對合格的科學文本理解和圖像生成能力,能夠簡單明了地生成具有科學性、推理性和邏輯性的圖像。
然而,這僅是初步能力。研究團隊指出,GPT-4o-image在生成科研插圖時仍存在顯著問題,如元素缺失、文本表達遺漏和錯誤等。例如,在繪制天文模型時,GPT-4o-image會出現(xiàn)太陽圍繞地球運轉的常識性錯誤;在繪制有機化合物結構時,反應條件標注不正確,涉及的化合物和反應結果也未正確繪制;在地理位置理解和地圖生成方面,雖具備基本能力,但在更精確的定位和地理過程解釋上仍有錯誤和遺漏。
與人類專家繪制的參考圖像相比,當前AI模型在正確性和科學準確性方面仍有顯著差距。研究表明,即使是表現(xiàn)最好的GPT-4o-image,其科研繪圖能力也僅達到一般水平,距離專業(yè)標準尚有較大差距。
六、結論與未來展望:AI科研繪圖的漫長之路
這項研究首次系統(tǒng)評估了AI模型在科研插圖繪制任務上的表現(xiàn),揭示了當前技術的能力邊界和局限性。研究發(fā)現(xiàn),除GPT-4o-image外,其他圖像生成模型(如Gemini-2.0-Flash)幾乎不具備任何科研繪圖能力。而GPT-4o-image雖然能初步完成科研繪圖任務,生成清晰的文本和完整的結構,但仍面臨三大主要挑戰(zhàn):文本信息缺失、視覺元素缺失以及科學常識錯誤。
這些發(fā)現(xiàn)表明,當前AI模型在科研插圖生成這一強推理任務中仍有巨大的提升空間。研究團隊認為,如何改進圖像生成模型在強推理任務中的生成能力應成為未來研究者關注的焦點。
SridBench作為首個專門評估科研插圖繪制能力的基準測試,不僅提供了寶貴的數(shù)據(jù)資源,也建立了多維度的評估協(xié)議,為未來的研究提供了系統(tǒng)比較的基礎。隨著AI技術的不斷發(fā)展,我們有理由相信,未來的圖像生成模型將能更好地理解科學文本,生成更準確、更專業(yè)的科研插圖,為科學研究和知識傳播提供有力支持。
對于普通用戶而言,這項研究意味著雖然當前的AI繪圖工具已能生成基本合格的科研示意圖,但在制作高質(zhì)量、高準確度的學術論文插圖時,人類專家的參與仍然不可或缺。不過,隨著技術的進步,我們可以期待未來的AI助手能夠大幅減輕科研人員在圖表制作方面的工作負擔,讓他們將更多精力投入到科研本身。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結合大語言模型的敘事推理能力與音頻生成技術,通過交錯式推理生成、解耦橋接機制和漸進式訓練,能夠將復雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學聯(lián)合研發(fā)的VideoJAM技術,通過讓AI同時學習外觀和運動信息,顯著解決了當前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術僅需添加兩個線性層就能大幅提升運動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實用化應用奠定了重要基礎。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓練數(shù)據(jù)集和MM-AlignBench評測基準,通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預報,準確性超越傳統(tǒng)方法90%的指標。該模型采用圖神經(jīng)網(wǎng)絡技術,通過學習40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學領域帶來了效率和精度的雙重突破。