av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁 當(dāng)所有AI都敗下陣來:劍橋大學(xué)團(tuán)隊(duì)推出史上最難視覺推理測(cè)試ZeroBench

當(dāng)所有AI都敗下陣來:劍橋大學(xué)團(tuán)隊(duì)推出史上最難視覺推理測(cè)試ZeroBench

2025-08-21 16:41
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-08-21 16:41 ? 科技行者

這是一個(gè)讓人震驚的實(shí)驗(yàn)結(jié)果:當(dāng)研究者們把最新的視覺推理測(cè)試題擺在全球最先進(jìn)的20個(gè)AI模型面前時(shí),所有模型都交出了同一個(gè)答案——0分。沒錯(cuò),是零分,一道題都沒答對(duì)。

這項(xiàng)由劍橋大學(xué)的喬納森·羅伯茨領(lǐng)導(dǎo)的國(guó)際研究團(tuán)隊(duì)發(fā)表于2025年3月的研究論文,創(chuàng)造了一個(gè)前所未有的評(píng)測(cè)基準(zhǔn)ZeroBench。這個(gè)基準(zhǔn)包含100道精心設(shè)計(jì)的視覺推理題目,每一道都經(jīng)過嚴(yán)格篩選,確保當(dāng)前最強(qiáng)大的AI模型都無法解答。有興趣深入了解的讀者可以通過https://zerobench.github.io/訪問完整的研究資料。

羅伯茨和來自全球14個(gè)頂尖研究機(jī)構(gòu)的50多位研究者合作完成了這項(xiàng)工作,其中包括阿爾伯塔大學(xué)的默罕默德·禮薩·塔埃西里、香港大學(xué)的韓凱教授,以及牛津大學(xué)、圖賓根大學(xué)等知名學(xué)府的研究人員。這個(gè)龐大的國(guó)際團(tuán)隊(duì)花費(fèi)了數(shù)月時(shí)間,像偵探一樣仔細(xì)研究當(dāng)前AI的視覺能力邊界,最終設(shè)計(jì)出這套"不可能完成"的測(cè)試。

要理解這項(xiàng)研究的重要性,我們可以把AI的視覺能力比作一個(gè)正在學(xué)習(xí)看世界的孩子。過去幾年里,這些AI"孩子們"在各種視覺測(cè)試中表現(xiàn)越來越好,就像考試成績(jī)不斷提高的學(xué)霸。然而,研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)令人擔(dān)憂的現(xiàn)象:雖然AI在標(biāo)準(zhǔn)化測(cè)試中得分很高,但在真正需要視覺理解和推理的復(fù)雜任務(wù)上,它們的表現(xiàn)卻遠(yuǎn)不如人類,甚至不如動(dòng)物。

這就好比一個(gè)學(xué)生雖然能在選擇題考試中得高分,但遇到需要真正理解和思考的綜合性問題時(shí)就束手無策了。更嚴(yán)重的是,隨著AI技術(shù)的快速發(fā)展,現(xiàn)有的測(cè)試題目正在被快速"攻破",就像游戲通關(guān)一樣,留給研究者評(píng)估AI真實(shí)能力的空間越來越小。

ZeroBench的誕生正是為了解決這個(gè)問題。研究團(tuán)隊(duì)采用了一種獨(dú)特的"對(duì)抗性篩選"方法,就像設(shè)計(jì)一道道關(guān)卡,只有那些能夠難倒所有當(dāng)前AI的題目才能入選。這個(gè)過程就像制作一份極其困難的考卷,每道題都要經(jīng)過層層篩選,確保連最聰明的"學(xué)生"都答不出來。

經(jīng)過嚴(yán)格的四輪篩選過程,研究團(tuán)隊(duì)從140道候選題目中精選出100道核心題目,構(gòu)成了ZeroBench的主體。同時(shí),為了能夠更細(xì)致地評(píng)估不同AI模型的能力差異,他們還為每道主題設(shè)計(jì)了334道相對(duì)簡(jiǎn)單的子題目,就像把一道綜合題分解成若干個(gè)小步驟,讓研究者能夠看出AI在哪個(gè)環(huán)節(jié)卡住了。

一、視覺推理的終極挑戰(zhàn):ZeroBench的誕生背景

現(xiàn)代AI的發(fā)展速度快得令人眩目,特別是在視覺理解方面。過去一年里,各種新的大型多模態(tài)模型層出不窮,它們?cè)趥鹘y(tǒng)視覺測(cè)試中的表現(xiàn)一路攀升,就像破紀(jì)錄的運(yùn)動(dòng)員一樣不斷刷新成績(jī)單。

然而,這種表面上的"優(yōu)異成績(jī)"掩蓋了一個(gè)深層問題。研究團(tuán)隊(duì)發(fā)現(xiàn),當(dāng)前的視覺測(cè)試基準(zhǔn)正在快速失效,就像一把逐漸變鈍的刀,無法再準(zhǔn)確衡量AI的真實(shí)能力。以O(shè)penCompass平臺(tái)追蹤的數(shù)據(jù)為例,在2024年短短一年內(nèi),AI模型在各種視覺測(cè)試中的得分普遍提升了數(shù)十個(gè)百分點(diǎn)。MMBench測(cè)試的最高分從年初的不到60分提升到了接近90分,OCRBench更是接近滿分。

這種現(xiàn)象就像考試題目變得過于簡(jiǎn)單,導(dǎo)致所有學(xué)生都能輕松得高分,老師再也無法區(qū)分誰的能力更強(qiáng)。更重要的是,這些高分并不意味著AI真的具備了強(qiáng)大的視覺理解能力。事實(shí)上,多項(xiàng)深入研究揭示了AI視覺能力的嚴(yán)重缺陷:它們?cè)诨A(chǔ)的計(jì)數(shù)任務(wù)上表現(xiàn)糟糕,無法準(zhǔn)確識(shí)別圖像中兩條線的交叉點(diǎn),甚至在地圖上定位一個(gè)簡(jiǎn)單的點(diǎn)都會(huì)出錯(cuò)。

最讓人震驚的是,研究發(fā)現(xiàn)某些AI的空間認(rèn)知能力竟然不如小動(dòng)物。這就好比一個(gè)在數(shù)學(xué)考試中得滿分的學(xué)生,卻連簡(jiǎn)單的空間幾何問題都無法解決。這種能力和表現(xiàn)之間的巨大差距暴露了當(dāng)前評(píng)測(cè)體系的根本性問題。

研究團(tuán)隊(duì)意識(shí)到,傳統(tǒng)的多選題測(cè)試方式存在天然的缺陷。AI可能通過各種技巧和模式匹配來"猜對(duì)"答案,而不是真正理解圖像內(nèi)容。這就像學(xué)生掌握了選擇題的答題技巧,但并沒有真正理解知識(shí)內(nèi)容一樣。

另一個(gè)促使ZeroBench誕生的重要因素是推理模型的興起。OpenAI的o1系列、谷歌的Gemini 2.0 Flash Thinking等新一代AI模型采用了"思考時(shí)間計(jì)算"的概念,它們會(huì)花費(fèi)更多時(shí)間來思考和推理,就像學(xué)生在考試時(shí)反復(fù)檢查答案一樣。這些模型的推理過程可能產(chǎn)生數(shù)千個(gè)token的"思考鏈",相應(yīng)的計(jì)算成本也呈指數(shù)級(jí)增長(zhǎng)。

在這種背景下,傳統(tǒng)的大規(guī)模測(cè)試基準(zhǔn)變得既昂貴又不實(shí)用。如果一個(gè)測(cè)試包含上千道題目,讓這些"深度思考"的AI模型完成測(cè)試可能需要天文數(shù)字般的計(jì)算資源。因此,研究社區(qū)迫切需要一種既輕量又具有高度挑戰(zhàn)性的評(píng)測(cè)工具。

ZeroBench正是在這種需求下應(yīng)運(yùn)而生。它不追求題目數(shù)量的龐大,而專注于質(zhì)量的精深。每一道題都經(jīng)過精心設(shè)計(jì)和反復(fù)驗(yàn)證,確保能夠真正測(cè)試AI的視覺推理能力,而不是簡(jiǎn)單的模式匹配能力。

這種設(shè)計(jì)理念就像制作一道精致的法式料理,每一個(gè)細(xì)節(jié)都經(jīng)過深思熟慮,寧可數(shù)量少一些,也要確保每一口都有獨(dú)特的價(jià)值和意義。研究團(tuán)隊(duì)相信,真正困難的題目具有更長(zhǎng)的"保質(zhì)期",能夠在AI技術(shù)快速發(fā)展的浪潮中保持相對(duì)穩(wěn)定的挑戰(zhàn)性。

二、精工細(xì)作的題目設(shè)計(jì):如何打造"不可能的任務(wù)"

創(chuàng)造一套能夠難倒所有當(dāng)前AI的題目,這本身就是一項(xiàng)極具挑戰(zhàn)性的工作。研究團(tuán)隊(duì)采用了一種類似眾包的方式,由20多位來自不同背景的研究者各自貢獻(xiàn)題目,就像一群經(jīng)驗(yàn)豐富的出題老師聚在一起,每個(gè)人都拿出自己的"壓箱底"難題。

題目設(shè)計(jì)的基本原則非常明確:每道題必須包含一個(gè)對(duì)視覺理解至關(guān)重要的組件,需要多步推理才能解決,并且要盡可能困難。這就像設(shè)計(jì)一道綜合性的數(shù)學(xué)應(yīng)用題,不僅要考查基礎(chǔ)知識(shí),還要測(cè)試邏輯推理和綜合分析能力。

為了確保題目的多樣性和創(chuàng)新性,研究團(tuán)隊(duì)特意給題目創(chuàng)造者們很大的自由發(fā)揮空間。每個(gè)創(chuàng)造者都可以根據(jù)自己的專業(yè)背景和創(chuàng)意靈感來設(shè)計(jì)題目,涵蓋從自然圖像到合成圖像,從單圖推理到多圖分析等各個(gè)方面。這種做法就像舉辦一場(chǎng)創(chuàng)意比賽,每個(gè)參與者都努力貢獻(xiàn)最具挑戰(zhàn)性的作品。

整個(gè)題目篩選過程分為四個(gè)嚴(yán)格的階段,就像層層過濾的篩網(wǎng),確保只有最優(yōu)質(zhì)的題目才能最終入選。

第一個(gè)階段是反饋和改進(jìn)。所有候選題目都會(huì)經(jīng)過同行評(píng)議,創(chuàng)造者們互相審查彼此的題目,提出改進(jìn)建議。這個(gè)過程就像學(xué)術(shù)論文的同行評(píng)議,確保每道題目都達(dá)到基本的質(zhì)量標(biāo)準(zhǔn)。許多題目在這個(gè)階段得到了顯著改善,變得更加精準(zhǔn)和具有挑戰(zhàn)性。

第二個(gè)階段是初步評(píng)估。研究團(tuán)隊(duì)使用當(dāng)時(shí)最先進(jìn)的兩個(gè)AI模型——OpenAI的o1 pro和阿里巴巴的QVQ來測(cè)試所有候選題目。這就像讓兩個(gè)最優(yōu)秀的學(xué)生先做一遍試卷,看看哪些題目對(duì)它們來說還是太簡(jiǎn)單了。

第三個(gè)階段是深度審查?;诔醪皆u(píng)估的結(jié)果,每道候選題目都會(huì)接受徹底的檢查,確保題目表述清晰、答案正確、難度適當(dāng)且表達(dá)簡(jiǎn)潔。審查者被特意安排,確保創(chuàng)造者不會(huì)審查自己的題目,避免"當(dāng)局者迷"的問題。在這個(gè)階段,許多題目被進(jìn)一步修改以增加難度,一些存在歧義或答案空間過小的題目被淘汰。研究團(tuán)隊(duì)特別注意避免那些答案只是簡(jiǎn)單的是非選擇或小整數(shù)的題目,因?yàn)檫@類題目容易被AI"蒙對(duì)"。

第四個(gè)也是最關(guān)鍵的階段是對(duì)抗性過濾。研究團(tuán)隊(duì)用20個(gè)不同的AI模型對(duì)剩余的題目進(jìn)行測(cè)試,任何被任一模型正確回答的題目都會(huì)被無情淘汰。這個(gè)過程就像設(shè)置一道道關(guān)卡,只有那些能夠"全滅"所有AI模型的題目才有資格進(jìn)入最終的ZeroBench。

有趣的是,不同AI模型表現(xiàn)出了截然不同的"專長(zhǎng)領(lǐng)域"。一些相對(duì)較弱的模型偶爾能夠答對(duì)連最強(qiáng)模型都無法解決的題目,這種現(xiàn)象反映了當(dāng)前AI技術(shù)發(fā)展的不均衡性。這種差異性也證明了使用多個(gè)模型進(jìn)行對(duì)抗性篩選的必要性,確保最終的題目集合對(duì)所有類型的AI都具有挑戰(zhàn)性。

經(jīng)過這四輪嚴(yán)格篩選,研究團(tuán)隊(duì)從最初的140道候選題目中篩選出了100道最終題目,構(gòu)成了ZeroBench的核心。為了能夠更細(xì)致地評(píng)估AI模型的能力,研究團(tuán)隊(duì)還為每道主題目設(shè)計(jì)了平均3.3道子題目,總共334道子題目。這些子題目就像把一道復(fù)雜的綜合題分解成若干個(gè)步驟,讓研究者能夠精確定位AI模型在哪個(gè)環(huán)節(jié)出現(xiàn)了問題。

ZeroBench的題目涵蓋了極其廣泛的視覺推理場(chǎng)景。有些題目要求AI理解復(fù)雜的空間關(guān)系,比如分析雪花的體積或理解時(shí)鐘的方向;有些題目需要精確的計(jì)數(shù)能力,比如統(tǒng)計(jì)圖像中的特定對(duì)象;還有些題目需要跨圖像的信息整合和推理。每道題目都經(jīng)過精心設(shè)計(jì),確保無法通過簡(jiǎn)單的模式匹配或猜測(cè)來解決。

為了保持測(cè)試的完整性,研究團(tuán)隊(duì)還采用了一個(gè)創(chuàng)新的做法:在論文中嵌入了一個(gè)特殊的"金絲雀字符串"。這個(gè)字符串的作用就像數(shù)字水印,可以幫助識(shí)別包含ZeroBench相關(guān)信息的數(shù)據(jù),從而在未來的AI訓(xùn)練過程中將這些數(shù)據(jù)過濾掉,避免AI模型"作弊"。

三、史無前例的全軍覆沒:20個(gè)頂級(jí)AI的零分答卷

當(dāng)研究團(tuán)隊(duì)將精心設(shè)計(jì)的ZeroBench擺在全球最先進(jìn)的20個(gè)AI模型面前時(shí),結(jié)果令所有人震驚:在最嚴(yán)格的單次作答測(cè)試中,所有模型都交出了同樣的成績(jī)單——0分,一道題都沒答對(duì)。

這20個(gè)"參考學(xué)生"可謂是當(dāng)今AI世界的精英陣容。其中包括OpenAI最新的推理模型o1和o1 pro,這兩個(gè)模型以其強(qiáng)大的"深度思考"能力著稱,能夠產(chǎn)生長(zhǎng)達(dá)數(shù)萬token的推理鏈條。谷歌的Gemini系列也悉數(shù)到場(chǎng),包括最新的Gemini 2.0 Flash Thinking實(shí)驗(yàn)版本,以及經(jīng)典的Gemini 1.5 Pro和Flash版本。

Claude系列更是派出了最強(qiáng)陣容:包括被譽(yù)為當(dāng)前最強(qiáng)文本模型之一的Claude 3.5 Sonnet v2,以及Claude 3 Opus、Sonnet和Haiku等各個(gè)版本。開源陣營(yíng)也不甘示弱,Meta的Llama 3.2 90B、阿里巴巴的Qwen2-VL-72B-Instruct、以及英偉達(dá)的NVLM-D-72B等模型都參與了這場(chǎng)"大考"。

這些模型在其他視覺測(cè)試中的表現(xiàn)堪稱優(yōu)異。以O(shè)CRBench為例,最高分已經(jīng)接近滿分;在MMBench等綜合視覺測(cè)試中,許多模型的得分都在80分以上。然而,面對(duì)ZeroBench的挑戰(zhàn),所有這些"學(xué)霸"都敗下陣來。

為了讓結(jié)果更加全面,研究團(tuán)隊(duì)還進(jìn)行了多次抽樣測(cè)試,即讓每個(gè)AI模型對(duì)同一道題進(jìn)行5次嘗試,只要其中一次答對(duì)就算通過。在這種相對(duì)寬松的評(píng)測(cè)條件下,結(jié)果稍有改善,但仍然慘不忍睹。表現(xiàn)最好的Gemini 2.0 Flash Thinking也只答對(duì)了5道題,得分率僅為5%。其他大多數(shù)模型的得分都在1-3分之間徘徊。

更令人意外的是,那些以強(qiáng)大推理能力著稱的"思考型"AI模型并沒有顯示出明顯優(yōu)勢(shì)。o1模型雖然在回答時(shí)產(chǎn)生了平均7500個(gè)token的長(zhǎng)篇思考過程,相當(dāng)于寫了一篇詳細(xì)的分析文章,但最終的答案準(zhǔn)確率并沒有比傳統(tǒng)模型更高。這就好比一個(gè)學(xué)生在考試時(shí)洋洋灑灑寫了好幾頁紙,但關(guān)鍵問題還是沒有答對(duì)。

從計(jì)算成本的角度來看,這些深度思考模型的表現(xiàn)更加尷尬。o1模型平均每道題需要花費(fèi)約0.47美元的計(jì)算成本,這意味著完成整個(gè)ZeroBench測(cè)試需要近50美元,而傳統(tǒng)模型通常只需要幾分錢。然而,昂貴的計(jì)算成本并沒有帶來相應(yīng)的性能提升。

在子題目的測(cè)試中,AI模型的表現(xiàn)稍好一些,但仍然遠(yuǎn)未達(dá)到及格水平。表現(xiàn)最好的Claude 3.5 Sonnet v2在334道子題目中答對(duì)了82道,得分率為25.5%。這個(gè)結(jié)果雖然比主題目好很多,但仍然說明AI在基礎(chǔ)的視覺理解任務(wù)上存在嚴(yán)重不足。

有趣的是,商用閉源模型和開源模型之間出現(xiàn)了明顯的性能差距。在子題目測(cè)試中,開源模型中表現(xiàn)最好的QVQ得分為20.47%,比最強(qiáng)的閉源模型低了5個(gè)百分點(diǎn)。這種差距反映了當(dāng)前AI技術(shù)發(fā)展的不平衡狀態(tài)。

研究團(tuán)隊(duì)還測(cè)試了AI模型回答的一致性。他們讓每個(gè)模型對(duì)同一道題回答5次,只有5次都答對(duì)的情況下才算真正掌握。結(jié)果顯示,所有模型在這個(gè)更嚴(yán)格的標(biāo)準(zhǔn)下的得分都是0%,這意味著即使偶爾答對(duì)了某道題,AI模型也無法穩(wěn)定地重現(xiàn)這個(gè)結(jié)果。

這種不一致性暴露了AI視覺理解的另一個(gè)根本性問題:缺乏穩(wěn)定性和可靠性。真正的理解應(yīng)該是穩(wěn)定和可重復(fù)的,而不是偶然的幸運(yùn)猜測(cè)。這就像一個(gè)學(xué)生偶爾能解對(duì)一道復(fù)雜的數(shù)學(xué)題,但讓他再做一遍同樣的題目時(shí)卻答不出來,說明他并沒有真正掌握解題方法。

四、AI視覺能力的軟肋:錯(cuò)誤模式深度剖析

通過對(duì)AI模型在ZeroBench上的表現(xiàn)進(jìn)行深入分析,研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)令人深思的現(xiàn)象:AI的失敗主要源于視覺解讀能力的不足,而非邏輯推理能力的缺陷。這就好比一個(gè)學(xué)生具備了很強(qiáng)的數(shù)學(xué)計(jì)算能力,但卻看不清楚題目上的數(shù)字和符號(hào)。

最常見的錯(cuò)誤類型是計(jì)數(shù)問題。即使是看起來相對(duì)簡(jiǎn)單的計(jì)數(shù)任務(wù),AI模型也頻頻出錯(cuò)。研究團(tuán)隊(duì)展示了兩個(gè)典型例子:在一個(gè)相對(duì)簡(jiǎn)單的場(chǎng)景中,要求AI數(shù)出貨架第一層缺少的Montellier瓶子數(shù)量,多個(gè)先進(jìn)模型都給出了錯(cuò)誤答案。更復(fù)雜的情況下,面對(duì)一堆疊放的面包(Sangak),AI需要數(shù)出總數(shù)量,結(jié)果更是差距懸殊,有些模型的估計(jì)值與實(shí)際數(shù)量相差數(shù)十個(gè)。

這種計(jì)數(shù)錯(cuò)誤反映了AI視覺系統(tǒng)的根本性缺陷。人類在計(jì)數(shù)時(shí)會(huì)建立清晰的視覺-空間映射,能夠系統(tǒng)地跟蹤已經(jīng)數(shù)過的物體和尚未計(jì)算的物體。而AI似乎缺乏這種組織化的視覺注意力機(jī)制,更像是在進(jìn)行隨機(jī)的視覺采樣,而不是有序的計(jì)數(shù)過程。

空間推理是另一個(gè)重大薄弱環(huán)節(jié)。在一道涉及圓形重疊關(guān)系的題目中,AI需要識(shí)別哪些圓形對(duì)是完全分離的(不重疊的)。這個(gè)任務(wù)對(duì)人類來說相對(duì)簡(jiǎn)單,只需要逐一檢查圓形對(duì)之間是否存在重疊區(qū)域。然而,多個(gè)AI模型都無法準(zhǔn)確完成這項(xiàng)任務(wù),經(jīng)常將重疊的圓形對(duì)誤判為分離狀態(tài),或反之。

更令人擔(dān)憂的是AI在處理指向關(guān)系時(shí)的表現(xiàn)。在一個(gè)涉及波斯語書法的題目中,不同顏色的箭頭指向不同的字母,要求AI按照特定順序讀出這些字母并翻譯成英語。這個(gè)任務(wù)結(jié)合了空間定位、符號(hào)識(shí)別和語言翻譯多個(gè)能力,結(jié)果顯示AI在最基礎(chǔ)的空間定位環(huán)節(jié)就出現(xiàn)了問題,無法準(zhǔn)確識(shí)別箭頭所指向的具體字母。

時(shí)間和空間的復(fù)合推理是AI面臨的另一個(gè)重大挑戰(zhàn)。在一個(gè)涉及時(shí)鐘讀取的題目中,AI不僅需要識(shí)別時(shí)針和分針的位置,還要理解時(shí)鐘的特殊朝向,并結(jié)合"現(xiàn)在是晚上"這一情境信息來計(jì)算距離中午的時(shí)間。這種多層次的信息整合對(duì)AI來說顯得格外困難。

令人意外的是,即使在相對(duì)簡(jiǎn)單的視覺識(shí)別任務(wù)上,AI也會(huì)犯出人意料的錯(cuò)誤。在一個(gè)要求識(shí)別"非典型手部"圖像的任務(wù)中,AI需要在16張手部圖像中找出那些具有異常特征的圖像,比如手指數(shù)量不正?;蛐螤罟之?。然而,多個(gè)AI模型都無法準(zhǔn)確識(shí)別這些明顯的視覺異常,有時(shí)甚至將正常的手部誤判為異常。

鏡像和反射是AI視覺系統(tǒng)的另一個(gè)盲點(diǎn)。在健身房的鏡子前,AI需要數(shù)出啞鈴的總數(shù)量,這要求它能夠區(qū)分真實(shí)物體和鏡像反射。結(jié)果顯示,AI經(jīng)常被鏡像所迷惑,要么重復(fù)計(jì)算鏡像,要么完全忽略鏡像中可見的信息。在另一個(gè)例子中,手表的顯示屏部分被遮擋,但通過鏡像可以看到完整的時(shí)間顯示,AI卻無法有效利用這個(gè)鏡像信息。

邏輯電路追蹤代表了視覺推理的高級(jí)形式。在一個(gè)數(shù)字邏輯電路的題目中,AI需要跟蹤信號(hào)通過各種邏輯門的傳播路徑,并計(jì)算最終的輸出值。這種任務(wù)需要AI具備精確的線路追蹤能力和邏輯運(yùn)算能力的結(jié)合。結(jié)果顯示,AI經(jīng)常在信號(hào)追蹤的早期階段就出現(xiàn)錯(cuò)誤,導(dǎo)致最終結(jié)果完全錯(cuò)誤。

圖形導(dǎo)航是另一個(gè)暴露AI局限性的領(lǐng)域。在一個(gè)網(wǎng)絡(luò)圖中,AI需要根據(jù)邊上的標(biāo)簽按照特定序列進(jìn)行導(dǎo)航,并識(shí)別第一個(gè)被重復(fù)訪問的節(jié)點(diǎn)。這個(gè)任務(wù)類似于在復(fù)雜的地圖上按照指示進(jìn)行導(dǎo)航,對(duì)人類來說是一個(gè)相對(duì)直觀的過程。然而,AI在這種任務(wù)上的表現(xiàn)表明,它們?nèi)狈τ行У目臻g記憶和路徑追蹤機(jī)制。

更深層次的分析揭示了這些錯(cuò)誤的共同特征:AI模型在需要精確視覺定位、空間關(guān)系理解和序列化處理的任務(wù)上表現(xiàn)最差。這些能力對(duì)人類來說是如此自然,以至于我們很少意識(shí)到它們的復(fù)雜性。然而,對(duì)AI來說,這些看似基礎(chǔ)的能力卻是最難掌握的。

研究團(tuán)隊(duì)指出,這種錯(cuò)誤模式的分布與之前的一些研究結(jié)果形成了有趣的對(duì)比。在多圖推理基準(zhǔn)ReMI上的類似分析發(fā)現(xiàn),AI的主要問題在于邏輯推理而非視覺理解。這種差異可能反映了AI技術(shù)發(fā)展的不同階段:早期的模型在邏輯推理上相對(duì)較弱,而新一代模型在推理能力上有了顯著改善,但視覺理解能力的提升相對(duì)滯后。

五、技術(shù)細(xì)節(jié)揭秘:評(píng)測(cè)方法的精妙設(shè)計(jì)

ZeroBench的評(píng)測(cè)方法體現(xiàn)了研究團(tuán)隊(duì)在設(shè)計(jì)上的諸多巧思,每一個(gè)細(xì)節(jié)都經(jīng)過深思熟慮,確保能夠公平、準(zhǔn)確地評(píng)估AI模型的真實(shí)能力。

在模型選擇上,研究團(tuán)隊(duì)涵蓋了當(dāng)前AI技術(shù)的各個(gè)主要流派。推理型模型如o1系列和QVQ代表了"慢思考"的技術(shù)路線,它們會(huì)花費(fèi)大量計(jì)算資源進(jìn)行深度推理。傳統(tǒng)的大型多模態(tài)模型如GPT-4o、Gemini系列和Claude系列則代表了"快反應(yīng)"的技術(shù)路線。開源模型如Llama、Qwen和NVLM則為評(píng)測(cè)提供了開放性的參照點(diǎn)。這種全方位的模型覆蓋確保了測(cè)試結(jié)果的代表性和說服力。

提示詞設(shè)計(jì)遵循了簡(jiǎn)潔而有效的原則。研究團(tuán)隊(duì)沒有使用復(fù)雜的提示工程技巧,而是采用了標(biāo)準(zhǔn)化的對(duì)話格式,包含圖像、問題文本和一個(gè)簡(jiǎn)單的引導(dǎo)語句:"讓我們一步步思考,并將最終答案放在花括號(hào)中"。這種設(shè)計(jì)既鼓勵(lì)A(yù)I進(jìn)行鏈?zhǔn)酵评恚执_保答案格式的一致性,便于自動(dòng)化評(píng)測(cè)。

超參數(shù)設(shè)置體現(xiàn)了對(duì)不同推理模式的考慮。在確定性評(píng)測(cè)中,所有模型都使用貪婪解碼(溫度設(shè)為0),并設(shè)置隨機(jī)種子以確保結(jié)果的可重現(xiàn)性。在隨機(jī)性評(píng)測(cè)中,研究團(tuán)隊(duì)將溫度設(shè)為0.7,top-p設(shè)為0.95,這些參數(shù)接近于各模型的默認(rèn)推薦設(shè)置,反映了模型在實(shí)際應(yīng)用中的表現(xiàn)。

答案評(píng)測(cè)采用了精確匹配的嚴(yán)格標(biāo)準(zhǔn)??紤]到ZeroBench的題目大多要求數(shù)值答案,研究團(tuán)隊(duì)使用自動(dòng)化解析來提取花括號(hào)中的答案,然后與標(biāo)準(zhǔn)答案進(jìn)行精確比較。這種做法排除了部分正確的可能性,確保只有完全正確的答案才被認(rèn)可。對(duì)于少數(shù)無法遵循輸出格式的模型(如o1 pro和QVQ),研究團(tuán)隊(duì)使用Gemini 2 Flash作為輔助評(píng)判器來解析最終答案。

推理鏈條的處理反映了對(duì)真實(shí)應(yīng)用場(chǎng)景的考慮。如果AI模型的推理過程超出了最大token限制而無法給出最終答案,這個(gè)回答會(huì)被直接判定為錯(cuò)誤。這種嚴(yán)格的處理方式模擬了實(shí)際應(yīng)用中的資源限制,確保評(píng)測(cè)結(jié)果的實(shí)用性。

為了更深入地理解模型能力的差異,研究團(tuán)隊(duì)設(shè)計(jì)了子題目評(píng)測(cè)系統(tǒng)。每個(gè)主題目被分解為平均3.3個(gè)子題目,這些子題目通常對(duì)應(yīng)主題目解答過程中的關(guān)鍵步驟或中間結(jié)果。子題目的設(shè)計(jì)遵循了由易到難的原則,讓研究者能夠精確定位AI模型在哪個(gè)環(huán)節(jié)出現(xiàn)了問題。

pass@k評(píng)測(cè)提供了對(duì)模型穩(wěn)定性的洞察。在這種評(píng)測(cè)模式下,AI模型對(duì)每道題目生成k個(gè)不同的回答,只要其中一個(gè)正確就算通過。這種方法能夠揭示模型偶爾答對(duì)某道題是否源于真正的理解還是隨機(jī)的幸運(yùn)。相應(yīng)地,k/k可靠性測(cè)試要求所有k個(gè)回答都正確,這是對(duì)模型一致性的嚴(yán)格考驗(yàn)。

成本分析為實(shí)際應(yīng)用提供了重要參考。研究團(tuán)隊(duì)詳細(xì)記錄了每個(gè)模型完成測(cè)試所需的token數(shù)量和相應(yīng)的API調(diào)用成本。結(jié)果顯示,傳統(tǒng)模型的單題成本通常在幾分錢以內(nèi),而深度推理模型的成本可能高達(dá)每題0.5美元。這種成本差異對(duì)于大規(guī)模應(yīng)用具有重要意義。

多圖像處理體現(xiàn)了對(duì)復(fù)雜視覺場(chǎng)景的考慮。ZeroBench包含7道多圖像題目,要求AI模型整合來自不同圖像的信息。在技術(shù)實(shí)現(xiàn)上,大多數(shù)模型支持在單個(gè)提示中包含多張圖像,但對(duì)于某些模型(如通過vLLM部署的模型),研究團(tuán)隊(duì)將多張圖像拼接成單一圖像來處理。

圖像分辨率的處理確保了公平性。所有模型都使用原始高分辨率圖像進(jìn)行評(píng)測(cè),避免了因圖像壓縮或降采樣導(dǎo)致的信息丟失。這一點(diǎn)特別重要,因?yàn)閆eroBench中的許多題目要求AI識(shí)別精細(xì)的視覺細(xì)節(jié)。

為了保證測(cè)試的完整性,研究團(tuán)隊(duì)還實(shí)施了嚴(yán)格的質(zhì)量控制措施。所有題目在正式發(fā)布前都經(jīng)過了社區(qū)紅隊(duì)測(cè)試,邀請(qǐng)外部研究者查找可能的問題。這個(gè)過程發(fā)現(xiàn)并修正了23%主題目中的各種問題,確保了最終版本的高質(zhì)量。

時(shí)間控制反映了對(duì)模型發(fā)展速度的考慮。所有API調(diào)用都在嚴(yán)格控制的時(shí)間窗口內(nèi)完成,避免了因模型版本更新導(dǎo)致的結(jié)果差異。這種做法確保了不同模型之間比較的公平性。

六、深遠(yuǎn)影響與未來展望:重新審視AI的視覺智能

ZeroBench的研究結(jié)果不僅僅是一個(gè)測(cè)試數(shù)據(jù)的集合,它更像一面鏡子,讓我們重新審視當(dāng)前AI技術(shù)的真實(shí)狀態(tài)和發(fā)展方向。這項(xiàng)研究的意義遠(yuǎn)超出了學(xué)術(shù)界的范疇,對(duì)整個(gè)AI產(chǎn)業(yè)和社會(huì)都具有深遠(yuǎn)的啟示意義。

從技術(shù)發(fā)展的角度來看,ZeroBench揭示了一個(gè)令人深思的現(xiàn)象:AI技術(shù)的進(jìn)步并非在所有維度上都是均衡的。雖然新一代的推理模型在邏輯思考和語言處理方面取得了顯著進(jìn)步,但在基礎(chǔ)的視覺理解能力上卻仍然存在根本性缺陷。這種不平衡發(fā)展就像一個(gè)在數(shù)學(xué)方面天賦異稟但在基礎(chǔ)觀察能力上有缺陷的學(xué)生,提醒我們需要更加全面地看待AI能力的發(fā)展。

研究團(tuán)隊(duì)預(yù)測(cè),ZeroBench的"不可能"狀態(tài)不會(huì)持續(xù)太久。考慮到AI技術(shù)的快速發(fā)展速度,未來的模型很可能會(huì)在ZeroBench上取得顯著進(jìn)步。然而,這種進(jìn)步的形式和時(shí)間軸仍然充滿變數(shù)。進(jìn)步可能是漸進(jìn)式的,隨著模型規(guī)模和訓(xùn)練數(shù)據(jù)的增加而穩(wěn)步提升;也可能是躍遷式的,某個(gè)關(guān)鍵技術(shù)突破可能導(dǎo)致性能的大幅跳躍。

一個(gè)特別值得關(guān)注的技術(shù)方向是圖像分辨率的提升。目前的AI模型由于計(jì)算資源的限制,通常需要將輸入圖像壓縮到較低的分辨率進(jìn)行處理。ZeroBench中的許多題目要求識(shí)別精細(xì)的視覺細(xì)節(jié),如果AI能夠處理更高分辨率的圖像,可能會(huì)在這些任務(wù)上取得顯著改善。這就像給一個(gè)近視的學(xué)生配上眼鏡,突然間很多之前看不清的細(xì)節(jié)都變得清晰了。

另一個(gè)潛在的突破方向是視覺注意力機(jī)制的改進(jìn)。人類在處理復(fù)雜視覺場(chǎng)景時(shí)會(huì)有序地分配注意力,系統(tǒng)性地掃描和分析不同區(qū)域。如果AI能夠開發(fā)出類似的視覺注意力策略,在計(jì)數(shù)、跟蹤和空間推理等任務(wù)上的表現(xiàn)可能會(huì)有質(zhì)的提升。

從研究方法論的角度來看,ZeroBench開創(chuàng)了一種新的基準(zhǔn)設(shè)計(jì)范式。傳統(tǒng)的AI評(píng)測(cè)往往追求題目數(shù)量的龐大和覆蓋面的廣泛,而ZeroBench證明了"少而精"的設(shè)計(jì)理念同樣有效。這種輕量級(jí)的設(shè)計(jì)特別適合評(píng)測(cè)那些計(jì)算成本高昂的深度推理模型,為未來的AI評(píng)測(cè)提供了新的思路。

社區(qū)紅隊(duì)測(cè)試的成功實(shí)施也為AI評(píng)測(cè)的質(zhì)量保證提供了寶貴經(jīng)驗(yàn)。通過邀請(qǐng)外部研究者參與題目審查,ZeroBench不僅提高了自身的質(zhì)量,也展示了開放協(xié)作在科學(xué)研究中的價(jià)值。這種模式可能會(huì)被更多的研究項(xiàng)目采用,形成更加開放和協(xié)作的研究生態(tài)。

對(duì)于AI產(chǎn)業(yè)而言,ZeroBench的結(jié)果提供了重要的現(xiàn)實(shí)檢驗(yàn)。盡管AI模型在營(yíng)銷宣傳中往往被描述為具有接近人類的視覺理解能力,但ZeroBench的結(jié)果表明,在真正需要深度視覺推理的任務(wù)上,當(dāng)前的AI仍然有很長(zhǎng)的路要走。這種現(xiàn)實(shí)檢驗(yàn)有助于行業(yè)建立更加務(wù)實(shí)的期望,避免過度夸大AI的當(dāng)前能力。

從商業(yè)應(yīng)用的角度來看,ZeroBench暴露的AI視覺能力限制對(duì)許多實(shí)際應(yīng)用都有直接影響。在需要精確視覺分析的場(chǎng)景,如醫(yī)療影像診斷、工業(yè)質(zhì)量檢測(cè)、自動(dòng)駕駛等領(lǐng)域,這些基礎(chǔ)視覺能力的不足可能會(huì)帶來嚴(yán)重后果。企業(yè)在部署AI系統(tǒng)時(shí)需要充分考慮這些限制,設(shè)計(jì)適當(dāng)?shù)娜斯彶楹湾e(cuò)誤糾正機(jī)制。

教育意義同樣不容忽視。ZeroBench的結(jié)果提醒我們,AI教育不應(yīng)該只關(guān)注模型的優(yōu)勢(shì)和成功案例,也要讓學(xué)生了解AI的局限性和失敗模式。只有全面理解AI的能力邊界,才能更好地設(shè)計(jì)和應(yīng)用這些技術(shù)。

對(duì)于學(xué)術(shù)研究而言,ZeroBench為視覺AI的研究指明了新的方向。與其繼續(xù)在已經(jīng)接近飽和的傳統(tǒng)任務(wù)上進(jìn)行微調(diào),研究者們可能需要將更多精力投入到這些基礎(chǔ)視覺能力的改善上。這可能需要重新思考AI模型的架構(gòu)設(shè)計(jì)、訓(xùn)練方法和數(shù)據(jù)收集策略。

倫理和安全角度的考量也不可忽視。AI在基礎(chǔ)視覺任務(wù)上的不穩(wěn)定表現(xiàn)意味著,在安全敏感的應(yīng)用中部署這些系統(tǒng)時(shí)需要格外謹(jǐn)慎。不能僅僅因?yàn)锳I在基準(zhǔn)測(cè)試中得分很高就認(rèn)為它們已經(jīng)可以勝任所有視覺任務(wù)。

未來的研究方向可能會(huì)更加注重跨模態(tài)的能力整合。單純提升視覺處理能力可能還不夠,更重要的是如何將視覺理解與語言理解、邏輯推理和常識(shí)知識(shí)有機(jī)結(jié)合,形成更加全面和穩(wěn)定的AI系統(tǒng)。

ZeroBench還引發(fā)了關(guān)于AI評(píng)測(cè)本質(zhì)的深層思考。什么樣的任務(wù)才能真正測(cè)試AI的智能水平?如何在技術(shù)快速發(fā)展的環(huán)境中保持評(píng)測(cè)的相關(guān)性和挑戰(zhàn)性?這些問題沒有標(biāo)準(zhǔn)答案,但ZeroBench提供了一個(gè)有價(jià)值的探索方向。

說到底,ZeroBench最重要的貢獻(xiàn)可能不是證明了當(dāng)前AI的不足,而是為我們提供了一個(gè)清晰的目標(biāo)和測(cè)量工具。它就像一座燈塔,指引著AI研究的方向,提醒我們真正的人工智能還有很長(zhǎng)的路要走。在這個(gè)AI能力被頻繁夸大的時(shí)代,ZeroBench的存在顯得尤為珍貴,它幫助我們保持謙遜和清醒,專注于真正重要的技術(shù)挑戰(zhàn)。

隨著AI技術(shù)的繼續(xù)發(fā)展,ZeroBench可能會(huì)逐漸被攻克,但它所代表的嚴(yán)格評(píng)測(cè)理念和對(duì)AI真實(shí)能力的關(guān)注將會(huì)持續(xù)影響這個(gè)領(lǐng)域的發(fā)展。這項(xiàng)研究告訴我們,建設(shè)真正智能的AI系統(tǒng)不僅需要強(qiáng)大的計(jì)算能力和復(fù)雜的算法,更需要對(duì)基礎(chǔ)認(rèn)知能力的深刻理解和持續(xù)改進(jìn)。這個(gè)認(rèn)識(shí)本身,就是ZeroBench為AI研究帶來的最寶貴財(cái)富。

Q&A

Q1:ZeroBench是什么?為什么所有AI模型都得0分?

A:ZeroBench是劍橋大學(xué)研究團(tuán)隊(duì)開發(fā)的視覺推理測(cè)試,包含100道精心設(shè)計(jì)的題目,專門用來測(cè)試AI的真實(shí)視覺理解能力。所有20個(gè)頂級(jí)AI模型(包括GPT-4o、Claude、Gemini等)都得了0分,是因?yàn)檫@些題目經(jīng)過嚴(yán)格篩選,只保留那些當(dāng)前AI完全無法解答的"不可能任務(wù)",暴露了AI在基礎(chǔ)視覺推理上的嚴(yán)重不足。

Q2:ZeroBench和其他AI測(cè)試有什么不同?

A:傳統(tǒng)AI測(cè)試大多是多選題形式,AI可能通過模式匹配"蒙對(duì)"答案,而且隨著AI發(fā)展,這些測(cè)試的分?jǐn)?shù)越來越高,失去了區(qū)分度。ZeroBench要求精確的數(shù)值答案,需要多步推理,無法靠猜測(cè)通過。更重要的是,它只包含100道題,輕量化設(shè)計(jì)適合測(cè)試計(jì)算成本高昂的新一代"深度思考"AI模型。

Q3:AI在ZeroBench上失敗說明了什么問題?

A:主要暴露了AI視覺理解能力的根本缺陷,特別是在計(jì)數(shù)、空間推理、精細(xì)視覺識(shí)別等基礎(chǔ)任務(wù)上的嚴(yán)重不足。雖然AI在邏輯推理方面已有顯著進(jìn)步,但視覺理解能力發(fā)展滯后。這提醒我們不能被AI在標(biāo)準(zhǔn)測(cè)試中的高分迷惑,它們?cè)谛枰嬲曈X智能的復(fù)雜任務(wù)上還有很長(zhǎng)的路要走。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-