想象一下,如果有人告訴你"畫一只戴著紅帽子的貓咪,背景是雪花飛舞的冬日街道,畫面要體現(xiàn)印象派風(fēng)格",你會(huì)怎么做?對(duì)于人類畫家來(lái)說(shuō),這可能需要幾個(gè)小時(shí)的創(chuàng)作時(shí)間。但對(duì)于現(xiàn)在的AI來(lái)說(shuō),只需要幾秒鐘就能生成一幅圖像。不過(guò),關(guān)鍵問(wèn)題是:這幅AI生成的圖像到底畫得怎么樣?是否真的符合你的要求?
這個(gè)看似簡(jiǎn)單的問(wèn)題,實(shí)際上一直困擾著整個(gè)AI研究領(lǐng)域。就像考試需要標(biāo)準(zhǔn)答案一樣,評(píng)測(cè)AI圖像生成能力也需要一套科學(xué)、全面的"考試題目"。然而,現(xiàn)有的評(píng)測(cè)方法就像用小學(xué)數(shù)學(xué)題來(lái)測(cè)試高中生的數(shù)學(xué)水平——完全跟不上AI技術(shù)的快速發(fā)展。
正是在這樣的背景下,上海交通大學(xué)與StepFun公司的研究團(tuán)隊(duì)在2025年6月發(fā)表了一項(xiàng)開(kāi)創(chuàng)性研究,推出了名為OneIG-Bench的全新評(píng)測(cè)基準(zhǔn)。這項(xiàng)研究發(fā)表在計(jì)算機(jī)視覺(jué)領(lǐng)域的頂級(jí)會(huì)議上,論文標(biāo)題為"OneIG-Bench: Omni-dimensional Nuanced Evaluation for Image Generation"。有興趣深入了解的讀者可以通過(guò)arXiv:2506.07977獲取完整論文,相關(guān)代碼和數(shù)據(jù)集也已在項(xiàng)目主頁(yè)公開(kāi)發(fā)布。
研究團(tuán)隊(duì)的陣容相當(dāng)豪華,由上海交通大學(xué)的張晶晶、陳海寶教授與StepFun公司的方一瀟、邢鵬、吳抒寒、程瑋、王瑞、曾縣芳、余剛等研究者共同完成。這種產(chǎn)學(xué)研結(jié)合的方式,既保證了研究的學(xué)術(shù)嚴(yán)謹(jǐn)性,又確保了實(shí)際應(yīng)用的可行性。
那么,這個(gè)OneIG-Bench到底有什么特別之處呢?簡(jiǎn)單來(lái)說(shuō),它就像是為AI圖像生成能力設(shè)計(jì)的"高考",不僅題目更難、更全面,評(píng)分標(biāo)準(zhǔn)也更加科學(xué)合理。如果把現(xiàn)有的評(píng)測(cè)方法比作只考語(yǔ)文和數(shù)學(xué)的期中考試,那么OneIG-Bench就是包含語(yǔ)文、數(shù)學(xué)、英語(yǔ)、物理、化學(xué)、生物、歷史、地理等所有科目的高考,能夠全方位測(cè)試AI的"繪畫能力"。
傳統(tǒng)的評(píng)測(cè)方法主要關(guān)注AI能否準(zhǔn)確畫出提示詞中描述的物體,就像只看學(xué)生能否寫對(duì)漢字,卻不管文章寫得怎么樣。而OneIG-Bench則像一位經(jīng)驗(yàn)豐富的美術(shù)老師,不僅要看AI畫的內(nèi)容對(duì)不對(duì),還要看畫面構(gòu)圖是否合理、色彩搭配是否和諧、藝術(shù)風(fēng)格是否到位,甚至連畫面中的文字是否清晰可讀都要仔細(xì)檢查。
更令人驚喜的是,這套評(píng)測(cè)系統(tǒng)就像一個(gè)智能化的考試系統(tǒng),可以根據(jù)不同的需求靈活調(diào)整考試內(nèi)容。如果你只想測(cè)試AI的文字渲染能力,可以只選擇相關(guān)的題目;如果你想全面評(píng)估AI的綜合能力,也可以使用完整的題庫(kù)。這種靈活性讓研究者能夠更精準(zhǔn)地找到AI模型的優(yōu)勢(shì)和不足,就像醫(yī)生能夠通過(guò)不同的檢查項(xiàng)目準(zhǔn)確診斷病情一樣。
研究團(tuán)隊(duì)通過(guò)這套全新的評(píng)測(cè)系統(tǒng),對(duì)當(dāng)前最先進(jìn)的19個(gè)AI圖像生成模型進(jìn)行了一次"大體檢",包括我們熟悉的Stable Diffusion、GPT-4o、以及一些最新的開(kāi)源和商業(yè)模型。結(jié)果顯示,即使是最先進(jìn)的AI模型,在某些方面仍然存在明顯的短板,這為未來(lái)的技術(shù)改進(jìn)指明了方向。
這項(xiàng)研究的意義不僅僅是提供了一套新的評(píng)測(cè)工具,更重要的是它為整個(gè)AI圖像生成領(lǐng)域建立了一個(gè)科學(xué)、統(tǒng)一的評(píng)價(jià)標(biāo)準(zhǔn)。就像奧運(yùn)會(huì)為各項(xiàng)體育運(yùn)動(dòng)制定了統(tǒng)一的比賽規(guī)則和評(píng)分標(biāo)準(zhǔn)一樣,OneIG-Bench為AI圖像生成技術(shù)的發(fā)展提供了一個(gè)公平、客觀的"競(jìng)技場(chǎng)"。
一、突破傳統(tǒng)評(píng)測(cè)局限:為什么AI繪畫需要全新的"考試大綱"
要理解OneIG-Bench的重要性,我們首先需要了解傳統(tǒng)AI圖像生成評(píng)測(cè)方法存在的問(wèn)題。想象一下,如果我們用1990年代的考試題目來(lái)測(cè)試今天的高中生,會(huì)發(fā)生什么?題目太簡(jiǎn)單,無(wú)法真實(shí)反映學(xué)生的能力水平;考試范圍太窄,忽略了很多重要的知識(shí)點(diǎn)。這正是當(dāng)前AI圖像生成評(píng)測(cè)面臨的困境。
早期的評(píng)測(cè)方法主要依賴一些簡(jiǎn)單的指標(biāo),比如FID(Fréchet Inception Distance)和SSIM(Structural Similarity Index Measure),這些指標(biāo)就像用顯微鏡看畫作的局部細(xì)節(jié),雖然能發(fā)現(xiàn)一些問(wèn)題,但完全無(wú)法判斷整幅畫的藝術(shù)價(jià)值和表達(dá)效果。更致命的是,這些指標(biāo)無(wú)法理解畫面內(nèi)容的語(yǔ)義含義,就像一個(gè)不懂畫的人只能看出顏色搭配,卻看不懂畫家想要表達(dá)的情感和思想。
隨著AI技術(shù)的快速發(fā)展,特別是像Stable Diffusion和GPT-4o這樣的先進(jìn)模型問(wèn)世,研究者開(kāi)始意識(shí)到傳統(tǒng)評(píng)測(cè)方法的局限性。這些新一代AI模型不僅能夠生成高質(zhì)量的圖像,還能理解復(fù)雜的語(yǔ)言描述,甚至具備一定的推理能力。用舊的評(píng)測(cè)方法來(lái)評(píng)估這些先進(jìn)模型,就像用算盤來(lái)測(cè)試超級(jí)計(jì)算機(jī)的性能一樣荒謬。
現(xiàn)有的一些評(píng)測(cè)基準(zhǔn),如T2ICompBench、GenEval和DSG-1k,雖然在某些方面有所改進(jìn),但它們就像只考察特定科目的單科考試,無(wú)法全面反映AI的綜合能力。比如,T2ICompBench主要關(guān)注短文本的語(yǔ)義理解,就像只考察AI能否理解簡(jiǎn)單的指令;DPG-Bench雖然引入了長(zhǎng)文本評(píng)測(cè),但在風(fēng)格和文字渲染方面的覆蓋度極其有限,就像只增加了閱讀理解題目,卻忽略了作文和書法。
更嚴(yán)重的問(wèn)題是,這些評(píng)測(cè)方法大多只關(guān)注AI能否正確識(shí)別和繪制指定的物體,卻忽略了現(xiàn)代AI應(yīng)該具備的高級(jí)能力。比如,當(dāng)我們要求AI畫一個(gè)"顯微鏡下的細(xì)胞分裂過(guò)程圖解"時(shí),不僅要看AI能否畫出細(xì)胞,更要看它是否真正理解細(xì)胞分裂的生物學(xué)原理,能否準(zhǔn)確表現(xiàn)分裂過(guò)程的各個(gè)階段。這種知識(shí)驅(qū)動(dòng)的推理能力,正是現(xiàn)代AI模型的重要特征,但傳統(tǒng)評(píng)測(cè)方法完全無(wú)法衡量這種能力。
文字渲染能力的評(píng)測(cè)更是一個(gè)被長(zhǎng)期忽視的重要領(lǐng)域。在現(xiàn)實(shí)應(yīng)用中,我們經(jīng)常需要AI生成包含文字的圖像,比如海報(bào)設(shè)計(jì)、廣告制作、教學(xué)圖表等。然而,大部分現(xiàn)有評(píng)測(cè)基準(zhǔn)要么完全不涉及文字,要么只是簡(jiǎn)單地看看文字是否存在,而不關(guān)心文字是否清晰、準(zhǔn)確、美觀。這就像評(píng)價(jià)一個(gè)設(shè)計(jì)師的能力時(shí),只看他能否在畫面中放置文字,而不管文字設(shè)計(jì)得怎么樣。
藝術(shù)風(fēng)格的評(píng)測(cè)同樣存在嚴(yán)重不足。現(xiàn)代AI模型能夠模仿各種藝術(shù)風(fēng)格,從古典油畫到現(xiàn)代插畫,從水彩畫到鉛筆素描,應(yīng)有盡有。但傳統(tǒng)評(píng)測(cè)方法在這方面的評(píng)估能力幾乎為零,就像用單色顯示器來(lái)評(píng)判彩色電視的畫質(zhì)一樣不合理。
多語(yǔ)言能力的缺失也是一個(gè)重要問(wèn)題。在全球化的今天,AI系統(tǒng)需要能夠理解和處理不同語(yǔ)言的輸入,生成適合不同文化背景的圖像內(nèi)容。但絕大多數(shù)現(xiàn)有評(píng)測(cè)基準(zhǔn)都只支持英語(yǔ),這種語(yǔ)言單一性嚴(yán)重限制了評(píng)測(cè)的全面性和實(shí)用性。
正是基于對(duì)這些問(wèn)題的深刻認(rèn)識(shí),研究團(tuán)隊(duì)決定開(kāi)發(fā)一套全新的評(píng)測(cè)基準(zhǔn)。他們的目標(biāo)不是簡(jiǎn)單地修補(bǔ)現(xiàn)有方法的不足,而是要從根本上重新設(shè)計(jì)評(píng)測(cè)框架,創(chuàng)建一個(gè)能夠全面、準(zhǔn)確、公平地評(píng)估現(xiàn)代AI圖像生成能力的綜合性基準(zhǔn)。這就是OneIG-Bench誕生的背景和意義。
二、六大維度全覆蓋:像全科醫(yī)生一樣為AI做"體檢"
OneIG-Bench最大的創(chuàng)新在于它建立了一套六個(gè)維度的綜合評(píng)測(cè)體系,就像一位經(jīng)驗(yàn)豐富的全科醫(yī)生為病人做全面體檢一樣,不放過(guò)任何一個(gè)重要的健康指標(biāo)。這六個(gè)維度分別是通用物體生成、人像生成、動(dòng)漫與風(fēng)格化、文字渲染、知識(shí)推理,以及多語(yǔ)言能力,每個(gè)維度都有大約200個(gè)精心設(shè)計(jì)的測(cè)試案例。
通用物體生成就像是AI的"基本功"測(cè)試,考察AI能否準(zhǔn)確理解和繪制日常生活中的各種物體。這個(gè)維度包含206個(gè)測(cè)試案例,涵蓋從簡(jiǎn)單的蘋果、汽車到復(fù)雜的建筑群、自然風(fēng)景等各種場(chǎng)景。研究團(tuán)隊(duì)特意設(shè)計(jì)了不同復(fù)雜程度的提示詞,從簡(jiǎn)單的"一只貓"到復(fù)雜的"陽(yáng)光透過(guò)樹(shù)葉灑在古老石橋上,橋下小溪潺潺流水,遠(yuǎn)山如黛",全面測(cè)試AI對(duì)語(yǔ)言描述的理解和轉(zhuǎn)化能力。
人像生成維度則專門考察AI繪制人物的能力,這在很多實(shí)際應(yīng)用中都至關(guān)重要。這個(gè)維度有244個(gè)測(cè)試案例,不僅要看AI能否畫出人物,更要考察畫出的人物是否符合描述的特征,比如年齡、性別、表情、服裝、姿態(tài)等。研究團(tuán)隊(duì)發(fā)現(xiàn),即使是最先進(jìn)的AI模型,在處理涉及多個(gè)人物的復(fù)雜場(chǎng)景時(shí),經(jīng)常會(huì)出現(xiàn)屬性混淆的問(wèn)題,比如把一個(gè)人的衣服穿到另一個(gè)人身上,或者無(wú)法準(zhǔn)確區(qū)分不同人物的面部特征。
動(dòng)漫與風(fēng)格化維度是一個(gè)特別有趣的測(cè)試領(lǐng)域,它考察AI模仿和創(chuàng)造不同藝術(shù)風(fēng)格的能力。這個(gè)維度包含245個(gè)測(cè)試案例,涵蓋了從傳統(tǒng)的抽象表現(xiàn)主義、巴洛克藝術(shù)到現(xiàn)代的像素藝術(shù)、3D渲染等各種風(fēng)格。研究團(tuán)隊(duì)將這些風(fēng)格細(xì)分為三個(gè)子類別:傳統(tǒng)藝術(shù)風(fēng)格(如印象派、立體主義)、材質(zhì)媒介風(fēng)格(如水彩、鉛筆素描、粘土雕塑)和動(dòng)漫風(fēng)格(如賽博朋克、吉卜力工作室風(fēng)格、像素藝術(shù))。每種風(fēng)格都有對(duì)應(yīng)的參考圖像,AI生成的圖像會(huì)與這些參考圖像進(jìn)行相似度比較,就像美術(shù)老師根據(jù)范畫來(lái)評(píng)判學(xué)生作品一樣。
文字渲染維度可能是最具挑戰(zhàn)性的測(cè)試之一,因?yàn)樗驛I不僅要理解語(yǔ)言,還要能夠準(zhǔn)確地將文字以視覺(jué)形式呈現(xiàn)出來(lái)。這個(gè)維度有200個(gè)測(cè)試案例,從簡(jiǎn)單的標(biāo)語(yǔ)制作到復(fù)雜的海報(bào)設(shè)計(jì),從黑板上的粉筆字到霓虹燈廣告牌,涵蓋了各種文字應(yīng)用場(chǎng)景。評(píng)測(cè)標(biāo)準(zhǔn)也相當(dāng)嚴(yán)格,包括編輯距離(衡量生成文字與目標(biāo)文字的差異程度)、完成率(完全正確生成目標(biāo)文字的比例)和單詞準(zhǔn)確率(正確生成的單詞占總單詞數(shù)的比例)。研究團(tuán)隊(duì)甚至考慮到了中英文的差異,為中文文字設(shè)置了專門的評(píng)分標(biāo)準(zhǔn),因?yàn)橹形淖址ǔ1扔⑽淖帜刚加酶嗟拇鎯?chǔ)空間。
知識(shí)推理維度是OneIG-Bench最具創(chuàng)新性的部分,它考察AI是否真正理解所生成內(nèi)容背后的知識(shí)和邏輯。這個(gè)維度有225個(gè)測(cè)試案例,涵蓋地理、計(jì)算機(jī)科學(xué)、生物學(xué)、數(shù)學(xué)、物理學(xué)、化學(xué)和常識(shí)七個(gè)知識(shí)領(lǐng)域。比如,當(dāng)要求AI繪制"板塊構(gòu)造運(yùn)動(dòng)示意圖"時(shí),不僅要看它能否畫出地球和板塊,更要看它是否理解板塊漂移的科學(xué)原理,能否準(zhǔn)確表現(xiàn)大陸漂移、海底擴(kuò)張、俯沖帶等地質(zhì)概念。這種評(píng)測(cè)方式就像考察一個(gè)學(xué)生是否真正理解了科學(xué)概念,而不是僅僅記住了教科書上的圖片。
多語(yǔ)言維度體現(xiàn)了研究團(tuán)隊(duì)的國(guó)際化視野,它不僅測(cè)試AI對(duì)不同語(yǔ)言的理解能力,還考察AI是否能夠生成符合不同文化背景的圖像內(nèi)容。這個(gè)維度包含200個(gè)測(cè)試案例,涵蓋中英雙語(yǔ)提示詞以及特定的文化元素。比如,當(dāng)使用中文描述"中秋節(jié),一家人圍坐在一起賞月"時(shí),AI不僅要理解中文語(yǔ)言,還要了解中秋節(jié)的文化內(nèi)涵,能夠生成符合中國(guó)傳統(tǒng)文化的畫面內(nèi)容。
為了確保測(cè)試的全面性和公平性,研究團(tuán)隊(duì)在構(gòu)建這個(gè)龐大的測(cè)試集時(shí)采用了極其嚴(yán)格的質(zhì)量控制流程。他們首先從公開(kāi)的互聯(lián)網(wǎng)數(shù)據(jù)、用戶輸入和現(xiàn)有數(shù)據(jù)集中收集了大量的提示詞,然后通過(guò)聚類算法對(duì)這些提示詞進(jìn)行分類和去重,確保每個(gè)測(cè)試案例都有其獨(dú)特性和代表性。接下來(lái),他們使用大語(yǔ)言模型對(duì)提示詞進(jìn)行改寫,使其符合預(yù)設(shè)的長(zhǎng)度分布要求,形成了短文本(少于30詞)、中等長(zhǎng)度文本(30-60詞)和長(zhǎng)文本(超過(guò)60詞)的合理配比。最后,所有的測(cè)試案例都經(jīng)過(guò)了人工審核,刪除了包含敏感內(nèi)容或語(yǔ)義沖突的提示詞,確保整個(gè)測(cè)試集的質(zhì)量和適用性。
這種多維度、大規(guī)模的評(píng)測(cè)體系使得OneIG-Bench能夠像一位經(jīng)驗(yàn)豐富的藝術(shù)評(píng)論家一樣,從多個(gè)角度全面評(píng)估AI的圖像生成能力。它不僅能夠發(fā)現(xiàn)AI模型的優(yōu)勢(shì)領(lǐng)域,更重要的是能夠精確定位模型的薄弱環(huán)節(jié),為技術(shù)改進(jìn)提供明確的方向指導(dǎo)。
三、科學(xué)評(píng)測(cè)方法:讓AI考試更公平更準(zhǔn)確
設(shè)計(jì)一套科學(xué)的評(píng)測(cè)方法,就像為奧運(yùn)會(huì)制定公平的比賽規(guī)則一樣重要。OneIG-Bench不僅提供了全面的測(cè)試題目,更重要的是建立了一套客觀、精確的評(píng)分體系,確保每個(gè)AI模型都能得到公平的評(píng)價(jià)。
對(duì)于語(yǔ)義對(duì)齊能力的評(píng)測(cè),研究團(tuán)隊(duì)采用了一種類似"智能問(wèn)答"的創(chuàng)新方法。他們首先使用GPT-4o為每個(gè)提示詞生成一個(gè)問(wèn)題依賴圖,這個(gè)圖就像一張關(guān)系網(wǎng)絡(luò),描述了畫面中各個(gè)元素之間的關(guān)系。比如,對(duì)于"一個(gè)穿紅衣服的女孩站在藍(lán)色汽車旁邊"這樣的提示詞,系統(tǒng)會(huì)生成一系列相關(guān)問(wèn)題:"畫面中是否有女孩?""女孩是否穿著紅色衣服?""畫面中是否有汽車?""汽車是否是藍(lán)色的?""女孩是否站在汽車旁邊?"等等。然后,系統(tǒng)使用視覺(jué)語(yǔ)言模型Qwen2.5-VL-7B來(lái)回答這些問(wèn)題,就像讓一個(gè)有眼睛的機(jī)器人來(lái)描述它看到的畫面。
這種評(píng)測(cè)方法的巧妙之處在于其層次化的評(píng)分機(jī)制。系統(tǒng)首先檢查根節(jié)點(diǎn)問(wèn)題(比如"畫面中是否有女孩?"),只有當(dāng)根節(jié)點(diǎn)問(wèn)題回答正確時(shí),葉節(jié)點(diǎn)問(wèn)題(比如"女孩的衣服顏色")的分?jǐn)?shù)才會(huì)被計(jì)入總分。這就像考試中的主觀題評(píng)分,如果主要觀點(diǎn)錯(cuò)了,即使細(xì)節(jié)描述得再好也不能得分。這種設(shè)計(jì)確保了評(píng)測(cè)的邏輯性和合理性。
文字渲染能力的評(píng)測(cè)采用了三個(gè)互補(bǔ)的指標(biāo),就像從不同角度檢查一篇文章的質(zhì)量。首先是編輯距離,它衡量生成的文字與目標(biāo)文字之間需要進(jìn)行多少次修改才能完全匹配,就像檢查拼寫錯(cuò)誤的數(shù)量。其次是完成率,它計(jì)算完全正確生成目標(biāo)文字的圖像占總數(shù)的比例,這是一個(gè)非常嚴(yán)格的標(biāo)準(zhǔn),有一個(gè)字母錯(cuò)誤都不算通過(guò)。最后是單詞準(zhǔn)確率,它統(tǒng)計(jì)所有正確生成的單詞占總單詞數(shù)的比例,這個(gè)指標(biāo)更加寬松,能夠反映AI的部分正確能力。
為了便于比較和理解,研究團(tuán)隊(duì)將這三個(gè)指標(biāo)整合成一個(gè)綜合的文字評(píng)分公式。這個(gè)公式考慮了編輯距離的上限(設(shè)定為100,防止極端情況影響評(píng)分),并結(jié)合了完成率和單詞準(zhǔn)確率的權(quán)重。對(duì)于中文評(píng)測(cè),考慮到中文字符的特殊性,研究團(tuán)隊(duì)將編輯距離上限調(diào)整為50,確保中英文評(píng)測(cè)的公平性。
知識(shí)推理能力的評(píng)測(cè)采用了一種"雙重驗(yàn)證"的方法。首先,GPT-4o根據(jù)提示詞生成標(biāo)準(zhǔn)的文字答案,這就像為每道題目準(zhǔn)備了標(biāo)準(zhǔn)答案。然后,系統(tǒng)使用LLM2CLIP模型計(jì)算這個(gè)標(biāo)準(zhǔn)答案與AI生成圖像之間的語(yǔ)義相似度,就像讓一個(gè)既懂文字又懂圖像的老師來(lái)判斷學(xué)生的答案是否正確。這種方法能夠有效評(píng)估AI是否真正理解了相關(guān)知識(shí),而不是僅僅生成了表面上看起來(lái)正確的圖像。
風(fēng)格相似度的評(píng)測(cè)更是體現(xiàn)了研究團(tuán)隊(duì)的專業(yè)性。他們使用了兩個(gè)不同的風(fēng)格編碼器(CSD模型和一個(gè)基于CLIP微調(diào)的內(nèi)部模型)來(lái)提取圖像的風(fēng)格特征,就像請(qǐng)兩位不同的藝術(shù)專家來(lái)評(píng)判作品的風(fēng)格。對(duì)于每種風(fēng)格,系統(tǒng)都準(zhǔn)備了多張參考圖像,AI生成的圖像會(huì)與這些參考圖像進(jìn)行比較,選擇最高的相似度作為該圖像的風(fēng)格得分。最終的風(fēng)格評(píng)分是兩個(gè)編碼器得分的平均值,這種設(shè)計(jì)減少了單一模型可能帶來(lái)的偏差。
多樣性評(píng)測(cè)采用了DreamSim模型,這是一個(gè)專門用于圖像感知相似度計(jì)算的先進(jìn)模型。系統(tǒng)首先計(jì)算同一提示詞生成的多張圖像之間的兩兩相似度,然后計(jì)算平均值得到該提示詞的多樣性分?jǐn)?shù)。最后,所有提示詞的多樣性分?jǐn)?shù)再進(jìn)行全局平均,得到模型的整體多樣性評(píng)分。這種方法能夠準(zhǔn)確反映AI模型生成內(nèi)容的豐富程度,避免模式崩塌等問(wèn)題。
特別值得一提的是,OneIG-Bench還支持靈活的部分評(píng)測(cè)。用戶可以根據(jù)具體需求選擇只測(cè)試某些維度,比如如果只關(guān)心文字渲染能力,就只需要生成文字渲染相關(guān)的圖像并進(jìn)行相應(yīng)評(píng)測(cè)。這種靈活性大大提高了評(píng)測(cè)的效率和實(shí)用性,就像醫(yī)生可以根據(jù)患者的具體情況選擇做哪些檢查項(xiàng)目一樣。
為了確保評(píng)測(cè)結(jié)果的可靠性,研究團(tuán)隊(duì)還進(jìn)行了大量的驗(yàn)證工作。他們將自動(dòng)評(píng)測(cè)的結(jié)果與人工評(píng)測(cè)進(jìn)行對(duì)比,確認(rèn)兩者之間的高度一致性。這種驗(yàn)證過(guò)程就像校準(zhǔn)測(cè)量?jī)x器一樣重要,確保評(píng)測(cè)結(jié)果的準(zhǔn)確性和可信度。
四、19個(gè)頂級(jí)AI模型大比拼:誰(shuí)是真正的"繪畫之王"
研究團(tuán)隊(duì)使用OneIG-Bench對(duì)當(dāng)前最先進(jìn)的19個(gè)AI圖像生成模型進(jìn)行了一次史無(wú)前例的全面對(duì)比測(cè)試,這就像舉辦了一場(chǎng)AI界的"繪畫奧運(yùn)會(huì)",讓各路高手在同一個(gè)擂臺(tái)上展示自己的真實(shí)實(shí)力。參賽選手包括了統(tǒng)一多模態(tài)模型(如Janus-Pro、BLIP3-o、BAGEL)、開(kāi)源模型(如Stable Diffusion系列、Flux.1-dev、CogView4等)以及商業(yè)閉源模型(如Imagen3、GPT-4o、Seedream 3.0等)。
在綜合排名中,GPT-4o和Imagen4表現(xiàn)最為出色,就像兩位實(shí)力相當(dāng)?shù)捻敿?jí)選手,在大部分項(xiàng)目中都能穩(wěn)定發(fā)揮。GPT-4o在語(yǔ)義對(duì)齊方面得分0.851,文字渲染得分0.857,知識(shí)推理得分0.345,風(fēng)格化得分0.462,這些數(shù)字背后體現(xiàn)的是其強(qiáng)大的綜合能力。Imagen4則在語(yǔ)義對(duì)齊方面略勝一籌,得分達(dá)到0.857,文字渲染得分0.805,展現(xiàn)出Google在圖像生成技術(shù)方面的深厚積累。
然而,令人意外的是,在某些特定領(lǐng)域,一些看似"名不見(jiàn)經(jīng)傳"的模型卻展現(xiàn)出了驚人的專業(yè)能力。比如在文字渲染這個(gè)最具挑戰(zhàn)性的項(xiàng)目中,Seedream 3.0橫空出世,以0.865的高分擊敗了所有競(jìng)爭(zhēng)對(duì)手,包括GPT-4o。這就像一位專業(yè)的書法家在寫字比賽中展現(xiàn)出了無(wú)可爭(zhēng)議的優(yōu)勢(shì)。深入分析發(fā)現(xiàn),Seedream 3.0在短文本和中等長(zhǎng)度文本的渲染方面表現(xiàn)尤為出色,編輯距離最小,完成率最高,這種專業(yè)化的優(yōu)勢(shì)讓它在這個(gè)領(lǐng)域獨(dú)領(lǐng)風(fēng)騷。
在語(yǔ)義對(duì)齊能力的較量中,Imagen4、GPT-4o和Imagen3形成了第一梯隊(duì),它們?cè)诶斫鈴?fù)雜語(yǔ)言描述并準(zhǔn)確轉(zhuǎn)化為視覺(jué)內(nèi)容方面展現(xiàn)出了顯著優(yōu)勢(shì)。特別值得注意的是,這些頂級(jí)模型在處理自然語(yǔ)言提示詞時(shí)的表現(xiàn)明顯優(yōu)于處理標(biāo)簽式或短語(yǔ)式提示詞。這個(gè)發(fā)現(xiàn)很有趣,它說(shuō)明當(dāng)前的AI模型更善于理解完整的句子描述,而不是簡(jiǎn)單的關(guān)鍵詞堆砌,就像人類更容易理解完整的故事而不是零散的詞匯。
在處理不同長(zhǎng)度的提示詞時(shí),各個(gè)模型表現(xiàn)出了明顯的差異化特征。大部分模型在處理長(zhǎng)文本時(shí)的性能都有所下降,這并不令人意外,因?yàn)殚L(zhǎng)文本通常包含更多的細(xì)節(jié)要求和復(fù)雜的語(yǔ)義關(guān)系。然而,那些基于T5或其他大語(yǔ)言模型的AI系統(tǒng)在這方面表現(xiàn)出了更好的穩(wěn)定性,它們?cè)谔幚黹L(zhǎng)文本時(shí)的性能衰減相對(duì)較小,這反映了強(qiáng)大的語(yǔ)言理解能力對(duì)圖像生成質(zhì)量的重要影響。
多樣性評(píng)測(cè)的結(jié)果更是讓人深思。雖然Stable Diffusion 1.5和Janus-Pro在多樣性指標(biāo)上得分較高,但這種"多樣性"很大程度上是由于它們?cè)谡Z(yǔ)義對(duì)齊方面的不一致性造成的。換句話說(shuō),它們生成的圖像確實(shí)各不相同,但這種差異更多是因?yàn)闆](méi)有準(zhǔn)確理解提示詞的含義,而不是在準(zhǔn)確理解基礎(chǔ)上的創(chuàng)意變化。相比之下,Kolors 2.0在保持良好語(yǔ)義對(duì)齊的同時(shí)還能展現(xiàn)出優(yōu)秀的多樣性,這種平衡能力更具實(shí)用價(jià)值。
在藝術(shù)風(fēng)格化方面,GPT-4o再次展現(xiàn)了其全面的能力,在大部分風(fēng)格類別中都能保持較高的相似度。有趣的是,盡管Stable Diffusion 1.5在整體語(yǔ)義對(duì)齊方面表現(xiàn)一般,但在風(fēng)格化能力方面卻表現(xiàn)出色,這可能得益于其訓(xùn)練數(shù)據(jù)中保留了豐富的藝術(shù)風(fēng)格模式。Seedream 3.0和SANA系列模型在風(fēng)格一致性方面也表現(xiàn)不俗,緊隨GPT-4o之后。
知識(shí)推理能力的測(cè)試結(jié)果顯示了當(dāng)前AI模型在這個(gè)新興領(lǐng)域的巨大發(fā)展空間。GPT-4o憑借其強(qiáng)大的語(yǔ)言模型基礎(chǔ),在所有知識(shí)領(lǐng)域都表現(xiàn)出了相對(duì)優(yōu)勢(shì),但即使是最好的得分也只有0.345,這說(shuō)明知識(shí)驅(qū)動(dòng)的圖像生成仍然是一個(gè)極具挑戰(zhàn)性的技術(shù)難題。Imagen4和Recraft V3緊隨其后,而大部分開(kāi)源模型在這方面的表現(xiàn)還有很大提升空間。
特別值得關(guān)注的是中文評(píng)測(cè)的結(jié)果。研究團(tuán)隊(duì)發(fā)現(xiàn),大部分模型在處理中文提示詞時(shí)的性能都有明顯下降,這反映了當(dāng)前AI模型在多語(yǔ)言支持方面的不足。不過(guò),GPT-4o在中文評(píng)測(cè)中依然保持了相對(duì)優(yōu)勢(shì),在所有評(píng)測(cè)維度都排名第一。而在中文文字渲染方面,Seedream 3.0更是以0.928的驚人高分遙遙領(lǐng)先,顯示出其在中文文字處理方面的專業(yè)化優(yōu)勢(shì)。
這次全面的對(duì)比測(cè)試不僅為我們展示了當(dāng)前AI圖像生成技術(shù)的整體水平,更重要的是揭示了不同模型的獨(dú)特優(yōu)勢(shì)和改進(jìn)空間。它告訴我們,在AI圖像生成這個(gè)快速發(fā)展的領(lǐng)域,沒(méi)有一個(gè)模型能夠在所有方面都做到完美,但每個(gè)模型都有其獨(dú)特的價(jià)值和應(yīng)用場(chǎng)景。這種多樣化的生態(tài)正是推動(dòng)整個(gè)技術(shù)領(lǐng)域不斷進(jìn)步的重要?jiǎng)恿Α?/p>
五、中文AI的特殊挑戰(zhàn):東西方文化碰撞下的技術(shù)較量
在全球化的AI發(fā)展浪潮中,中文內(nèi)容的處理能力往往被視為衡量AI系統(tǒng)國(guó)際化水平的重要指標(biāo)。OneIG-Bench特別設(shè)計(jì)了針對(duì)中文的專項(xiàng)測(cè)試,這不僅僅是語(yǔ)言轉(zhuǎn)換的問(wèn)題,更涉及到深層的文化理解和表達(dá)能力。研究團(tuán)隊(duì)發(fā)現(xiàn),即使是最先進(jìn)的AI模型,在面對(duì)中文內(nèi)容時(shí)也會(huì)遇到意想不到的挑戰(zhàn)。
最直觀的差異體現(xiàn)在文字渲染能力上。中文漢字的復(fù)雜性遠(yuǎn)超英文字母,每個(gè)漢字都是一個(gè)獨(dú)立的圖形符號(hào),包含著豐富的筆畫和結(jié)構(gòu)信息。當(dāng)AI需要在圖像中準(zhǔn)確渲染中文文字時(shí),就像要求一個(gè)外國(guó)人用毛筆寫書法一樣困難。研究結(jié)果顯示,大部分AI模型在生成中文文字時(shí)幾乎完全無(wú)能為力,很多模型甚至無(wú)法產(chǎn)生可識(shí)別的中文字符,更不用說(shuō)保持字體的美觀和準(zhǔn)確性了。
然而,Seedream 3.0在這方面的表現(xiàn)令人刮目相看,它在中文文字渲染方面取得了0.928的驚人高分,遠(yuǎn)超其他所有競(jìng)爭(zhēng)對(duì)手。這種專業(yè)化的優(yōu)勢(shì)很可能源于其針對(duì)中文文字的特殊優(yōu)化和訓(xùn)練。相比之下,即使是在英文文字渲染方面表現(xiàn)出色的GPT-4o,在中文文字渲染方面的得分也只有0.650,這種顯著的性能差異反映了中文文字處理的技術(shù)復(fù)雜性。
更深層的挑戰(zhàn)在于文化內(nèi)涵的理解和表達(dá)。當(dāng)AI系統(tǒng)接收到"中秋節(jié),一家人圍坐在一起賞月,桌上擺著月餅和茶具"這樣的中文描述時(shí),它不僅需要理解每個(gè)詞匯的字面意思,更需要理解中秋節(jié)的文化內(nèi)涵、家庭團(tuán)聚的情感色彩,以及月餅、茶具等物品在特定文化語(yǔ)境中的象征意義。這就像要求AI成為一個(gè)文化專家,不僅要懂得語(yǔ)言,還要理解語(yǔ)言背后的文化密碼。
研究團(tuán)隊(duì)的測(cè)試結(jié)果顯示,在多語(yǔ)言文化評(píng)測(cè)中,GPT-4o展現(xiàn)出了相對(duì)最好的跨文化理解能力,在中文文化元素的表達(dá)方面得分最高。但即使如此,大部分AI模型在處理具有深厚文化背景的中文內(nèi)容時(shí),生成的圖像往往缺乏應(yīng)有的文化韻味和情感深度,就像用機(jī)械翻譯軟件翻譯古詩(shī)詞一樣,雖然字面意思可能正確,但詩(shī)意和韻味卻完全消失了。
語(yǔ)義對(duì)齊能力在中文環(huán)境下也面臨新的挑戰(zhàn)。中文的語(yǔ)法結(jié)構(gòu)和表達(dá)習(xí)慣與英文存在顯著差異,同樣的意思可能有完全不同的表達(dá)方式。比如,中文中的"春花秋月何時(shí)了"這種詩(shī)意表達(dá),包含了豐富的時(shí)間概念、情感色彩和意象組合,AI需要準(zhǔn)確理解這種抽象的藝術(shù)表達(dá)并轉(zhuǎn)化為具體的視覺(jué)內(nèi)容。測(cè)試結(jié)果表明,幾乎所有模型在處理中文時(shí)的語(yǔ)義對(duì)齊能力都有不同程度的下降,這提醒我們?cè)贏I模型的訓(xùn)練和優(yōu)化過(guò)程中需要更多關(guān)注多語(yǔ)言和跨文化的能力建設(shè)。
推理能力在中文語(yǔ)境下的表現(xiàn)也值得深入思考。當(dāng)要求AI繪制"五行相生相克關(guān)系圖"或"二十四節(jié)氣示意圖"時(shí),它不僅需要理解中文描述,更需要掌握中國(guó)傳統(tǒng)文化中的哲學(xué)概念和科學(xué)知識(shí)。這種知識(shí)不僅僅是事實(shí)性的信息,更包含著特定文化背景下的思維方式和世界觀。研究發(fā)現(xiàn),即使是表現(xiàn)最好的GPT-4o,在處理這類具有深厚文化底蘊(yùn)的中文內(nèi)容時(shí),也經(jīng)常出現(xiàn)理解偏差或表達(dá)不準(zhǔn)確的問(wèn)題。
藝術(shù)風(fēng)格在中文文化語(yǔ)境下也呈現(xiàn)出獨(dú)特的特征。中國(guó)傳統(tǒng)的水墨畫、工筆畫、年畫等藝術(shù)形式,不僅在技法上與西方藝術(shù)不同,更在精神內(nèi)涵和審美理念上體現(xiàn)著東方文化的獨(dú)特魅力。當(dāng)AI需要模仿這些傳統(tǒng)藝術(shù)風(fēng)格時(shí),就需要理解其背后的文化精神和審美追求,而不僅僅是表面的技法模仿。測(cè)試結(jié)果顯示,大部分AI模型雖然能夠模仿中國(guó)傳統(tǒng)藝術(shù)的某些表面特征,但在精神內(nèi)涵的把握上還有很大差距。
這些發(fā)現(xiàn)對(duì)AI技術(shù)的發(fā)展具有重要啟示意義。它們提醒我們,真正的人工智能不應(yīng)該只是技術(shù)的堆砌,更應(yīng)該是文化的融合和理解。在未來(lái)的AI發(fā)展中,如何讓機(jī)器更好地理解和表達(dá)不同文化的精神內(nèi)涵,將是一個(gè)極具挑戰(zhàn)性但又極其重要的研究方向。OneIG-Bench在這方面的探索為我們提供了一個(gè)重要的起點(diǎn),它不僅是一個(gè)技術(shù)評(píng)測(cè)工具,更是一座連接技術(shù)與文化的橋梁。
六、未來(lái)展望:AI繪畫技術(shù)的下一個(gè)突破口在哪里
通過(guò)OneIG-Bench這次全面而深入的評(píng)測(cè),我們不僅看到了當(dāng)前AI圖像生成技術(shù)的輝煌成就,更重要的是發(fā)現(xiàn)了未來(lái)發(fā)展的方向和突破口。就像一次深度體檢不僅能確認(rèn)身體的健康狀況,還能預(yù)警潛在的問(wèn)題一樣,這次評(píng)測(cè)為整個(gè)AI圖像生成領(lǐng)域的未來(lái)發(fā)展指明了道路。
首先,知識(shí)推理能力的巨大提升空間成為最值得關(guān)注的領(lǐng)域。即使是表現(xiàn)最好的GPT-4o,在知識(shí)推理方面的得分也只有0.345,這意味著AI在理解和運(yùn)用專業(yè)知識(shí)生成圖像方面還有巨大的進(jìn)步空間。未來(lái)的AI系統(tǒng)需要具備更強(qiáng)的多學(xué)科知識(shí)整合能力,能夠像一位博學(xué)的專家一樣,準(zhǔn)確理解物理定律、生物原理、化學(xué)反應(yīng)等專業(yè)概念,并將這些抽象知識(shí)轉(zhuǎn)化為準(zhǔn)確的視覺(jué)表達(dá)。這不僅僅是技術(shù)問(wèn)題,更是AI向真正智能化邁進(jìn)的重要標(biāo)志。
文字渲染技術(shù)雖然在某些模型上已經(jīng)取得了令人矚目的成就,但整體上仍然存在明顯的不均衡性。Seedream 3.0在這方面的突出表現(xiàn)證明了專業(yè)化優(yōu)化的巨大價(jià)值,但大部分模型在處理復(fù)雜文字內(nèi)容,特別是長(zhǎng)文本和多語(yǔ)言文字時(shí)仍然力不從心。未來(lái)的技術(shù)發(fā)展需要在保持圖像生成質(zhì)量的同時(shí),大幅提升文字渲染的準(zhǔn)確性和美觀度,特別是在處理中文、阿拉伯文等復(fù)雜文字系統(tǒng)方面。
跨文化和多語(yǔ)言能力的發(fā)展將成為AI技術(shù)全球化的關(guān)鍵因素。目前大部分AI模型在處理非英語(yǔ)內(nèi)容時(shí)的性能下降,反映了訓(xùn)練數(shù)據(jù)和算法設(shè)計(jì)中的語(yǔ)言偏見(jiàn)問(wèn)題。未來(lái)的AI系統(tǒng)需要具備真正的多元文化理解能力,不僅要掌握不同語(yǔ)言的語(yǔ)法和詞匯,更要理解不同文化背景下的價(jià)值觀念、審美標(biāo)準(zhǔn)和表達(dá)習(xí)慣。這種跨文化能力的提升,將為AI技術(shù)在全球范圍內(nèi)的應(yīng)用奠定堅(jiān)實(shí)基礎(chǔ)。
模型的專業(yè)化發(fā)展趨勢(shì)也值得深入思考。從評(píng)測(cè)結(jié)果可以看出,沒(méi)有任何一個(gè)模型能夠在所有維度都達(dá)到最佳表現(xiàn),每個(gè)模型都有其獨(dú)特的優(yōu)勢(shì)領(lǐng)域。這種現(xiàn)象提示我們,未來(lái)的AI發(fā)展可能會(huì)朝著更加專業(yè)化和多樣化的方向發(fā)展,不同的模型將在不同的應(yīng)用場(chǎng)景中發(fā)揮各自的優(yōu)勢(shì)。同時(shí),如何有效整合多個(gè)專業(yè)化模型的能力,創(chuàng)建更加智能和全面的AI系統(tǒng),也將成為重要的研究方向。
多樣性與一致性之間的平衡仍然是一個(gè)需要持續(xù)關(guān)注的技術(shù)挑戰(zhàn)。理想的AI系統(tǒng)應(yīng)該能夠在保證內(nèi)容準(zhǔn)確性的同時(shí),生成豐富多樣的創(chuàng)意內(nèi)容。目前的評(píng)測(cè)結(jié)果顯示,一些模型的高多樣性實(shí)際上源于語(yǔ)義理解的不穩(wěn)定,而真正有價(jià)值的多樣性應(yīng)該建立在準(zhǔn)確理解基礎(chǔ)上的創(chuàng)意變化。如何在保證可控性的前提下增強(qiáng)創(chuàng)造性,將是未來(lái)技術(shù)發(fā)展的重要課題。
評(píng)測(cè)標(biāo)準(zhǔn)的持續(xù)完善也是推動(dòng)技術(shù)進(jìn)步的重要因素。OneIG-Bench雖然已經(jīng)建立了相當(dāng)全面的評(píng)測(cè)框架,但研究團(tuán)隊(duì)也坦誠(chéng)地指出了當(dāng)前方法的局限性。比如,在審美質(zhì)量評(píng)估方面,現(xiàn)有的模型容易產(chǎn)生意外偏見(jiàn),而人體質(zhì)量評(píng)估模型往往缺乏足夠的判別力和泛化能力。未來(lái)需要開(kāi)發(fā)更加精準(zhǔn)和客觀的評(píng)測(cè)方法,特別是在主觀性較強(qiáng)的藝術(shù)和審美領(lǐng)域。
技術(shù)民主化的趨勢(shì)也不容忽視。雖然目前頂級(jí)性能主要集中在大型商業(yè)模型中,但開(kāi)源模型的快速發(fā)展顯示了技術(shù)普及的巨大潛力。隨著計(jì)算資源成本的降低和算法效率的提升,高質(zhì)量的AI圖像生成能力將逐漸普及到更廣泛的用戶群體中,這將極大地推動(dòng)相關(guān)應(yīng)用的創(chuàng)新和發(fā)展。
說(shuō)到底,OneIG-Bench的價(jià)值不僅在于它提供了一套科學(xué)的評(píng)測(cè)工具,更在于它為整個(gè)AI圖像生成領(lǐng)域建立了一個(gè)公平、透明的技術(shù)發(fā)展標(biāo)準(zhǔn)。就像奧運(yùn)會(huì)推動(dòng)體育運(yùn)動(dòng)不斷創(chuàng)新紀(jì)錄一樣,這種標(biāo)準(zhǔn)化的評(píng)測(cè)體系將激勵(lì)更多研究者和開(kāi)發(fā)者投入到技術(shù)創(chuàng)新中,推動(dòng)整個(gè)領(lǐng)域向更高水平發(fā)展。
未來(lái)的AI圖像生成技術(shù)將不再只是簡(jiǎn)單的"看圖說(shuō)話"或"聽(tīng)話畫畫",而是要成為真正理解世界、具備創(chuàng)造能力的智能伙伴。它們需要像人類藝術(shù)家一樣,不僅掌握技法,更要具備深厚的知識(shí)底蘊(yùn)、敏銳的審美感受和豐富的文化理解。這個(gè)宏偉目標(biāo)的實(shí)現(xiàn)需要技術(shù)、文化、藝術(shù)等多個(gè)領(lǐng)域的深度融合,也需要像OneIG-Bench這樣的科學(xué)評(píng)測(cè)工具持續(xù)推動(dòng)技術(shù)進(jìn)步。
對(duì)于普通用戶而言,這意味著我們將很快看到更加智能、更加貼心的AI圖像生成應(yīng)用,它們不僅能夠準(zhǔn)確理解我們的需求,還能夠根據(jù)不同的文化背景和個(gè)人喜好生成個(gè)性化的內(nèi)容。無(wú)論是設(shè)計(jì)海報(bào)、制作課件,還是創(chuàng)作藝術(shù)作品,AI都將成為我們得力的創(chuàng)意助手。而對(duì)于研究者和開(kāi)發(fā)者來(lái)說(shuō),OneIG-Bench提供的詳細(xì)分析和明確方向?qū)椭麄兏嗅槍?duì)性地改進(jìn)技術(shù),加速整個(gè)領(lǐng)域的發(fā)展進(jìn)程。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語(yǔ)言模型的敘事推理能力與音頻生成技術(shù),通過(guò)交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開(kāi)辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過(guò)讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問(wèn)題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語(yǔ)言模型人性化對(duì)話問(wèn)題。該研究創(chuàng)建了包含20萬(wàn)高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過(guò)創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開(kāi)發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過(guò)學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來(lái)了效率和精度的雙重突破。