這項(xiàng)由瑞士洛桑聯(lián)邦理工學(xué)院(EPFL)的Maria Brbic教授和蘇黎世聯(lián)邦理工學(xué)院(ETH Zurich)的Michael Moor教授等人組成的研究團(tuán)隊(duì)于2025年6月完成,論文發(fā)表在arXiv預(yù)印本平臺(tái)(論文編號(hào):arXiv:2506.22992v1),感興趣的讀者可以通過(guò)https://marble-benchmark.github.io訪問(wèn)完整研究資料。
說(shuō)起人工智能的發(fā)展,我們總是被各種"AI超越人類"的新聞轟炸。ChatGPT能寫(xiě)詩(shī),GPT-4能看圖說(shuō)話,最新的模型甚至能理解視頻內(nèi)容。然而,當(dāng)這些看似無(wú)所不能的AI遇到真正需要空間思維和多步驟推理的復(fù)雜問(wèn)題時(shí),會(huì)發(fā)生什么呢?答案可能會(huì)讓你大吃一驚。
就像一個(gè)看似聰明的學(xué)生在遇到真正需要?jiǎng)幽X筋的數(shù)學(xué)應(yīng)用題時(shí)突然卡殼一樣,目前最先進(jìn)的多模態(tài)語(yǔ)言模型在面對(duì)復(fù)雜的空間推理任務(wù)時(shí)也表現(xiàn)得相當(dāng)糟糕。這并不是因?yàn)檫@些AI不夠先進(jìn),而是因?yàn)檎嬲闹悄芡评肀任覀兿胂蟮囊獜?fù)雜得多。
這個(gè)問(wèn)題的核心在于,現(xiàn)有的AI測(cè)試基本上都像是在考"填空題"——給AI一張圖片和一個(gè)問(wèn)題,它只需要從圖片中找到答案就行了。但真實(shí)世界的問(wèn)題往往需要像偵探破案一樣,把多個(gè)線索串聯(lián)起來(lái),制定一個(gè)詳細(xì)的行動(dòng)計(jì)劃,還要考慮各種物理限制和空間約束。這就好比你不能僅僅通過(guò)看一張廚房照片就知道如何做一道復(fù)雜的菜,你需要理解每個(gè)步驟之間的因果關(guān)系,考慮時(shí)間順序,還要預(yù)判可能出現(xiàn)的問(wèn)題。
正是基于這樣的思考,這個(gè)國(guó)際研究團(tuán)隊(duì)開(kāi)發(fā)了一個(gè)名為MARBLE(MultimodAl Reasoning Benchmark for Language modEls)的測(cè)試套件。這個(gè)名字聽(tīng)起來(lái)很學(xué)術(shù),但它的本質(zhì)就是一個(gè)"AI智力測(cè)試的地獄模式"。研究人員想要找出現(xiàn)有AI模型在復(fù)雜推理方面的真實(shí)水平,就像給學(xué)霸出一套特別難的綜合應(yīng)用題,看看他們到底有多少真本事。
MARBLE包含兩個(gè)主要的測(cè)試任務(wù),每個(gè)都像是精心設(shè)計(jì)的智力挑戰(zhàn)。第一個(gè)叫做M-Portal,靈感來(lái)自著名的解謎游戲《傳送門(mén)2》。在這個(gè)游戲中,玩家需要通過(guò)放置傳送門(mén)來(lái)解決各種空間難題,就像在房間的兩個(gè)不同位置開(kāi)了兩扇任意門(mén),可以瞬間從一個(gè)地方跳到另一個(gè)地方。但這不是簡(jiǎn)單的傳送,你還要考慮物理定律比如動(dòng)量守恒——如果你帶著很大的速度沖進(jìn)一個(gè)傳送門(mén),你會(huì)以同樣的速度從另一個(gè)傳送門(mén)飛出來(lái)。
想象一下這樣的場(chǎng)景:你站在一個(gè)復(fù)雜的房間里,房間里有按鈕、激光器、移動(dòng)的平臺(tái)、可以推動(dòng)物體的氣流裝置,還有各種機(jī)關(guān)。你的目標(biāo)是走到出口,但路徑被各種障礙物阻擋。你手中有一把"傳送門(mén)槍",可以在墻面上開(kāi)兩個(gè)相連的傳送門(mén)?,F(xiàn)在你需要制定一個(gè)詳細(xì)的計(jì)劃:先從高處跳下去沖進(jìn)傳送門(mén)獲得速度,然后利用這個(gè)速度從另一個(gè)傳送門(mén)彈射出來(lái)按下遠(yuǎn)處的按鈕,按鈕會(huì)釋放一個(gè)立方體落到另一個(gè)按鈕上激活橋梁,然后你再重新放置傳送門(mén)穿過(guò)橋梁,拿起立方體放到特定位置觸發(fā)更多機(jī)關(guān),最終到達(dá)出口。這樣的解題過(guò)程可能需要十幾步甚至幾十步,每一步都必須考慮物理限制和空間關(guān)系。
第二個(gè)測(cè)試任務(wù)M-Cube則是基于"快樂(lè)立方體"(Happy Cube)拼圖的3D空間推理挑戰(zhàn)。快樂(lè)立方體是一種經(jīng)典的機(jī)械拼圖,最初由比利時(shí)人Dirk Laureyssens在1986年發(fā)明。這個(gè)測(cè)試給AI展示6個(gè)形狀復(fù)雜的拼圖片,每個(gè)片都有凹凸不平的邊緣,就像拼圖的邊緣一樣。AI需要理解如何將這6個(gè)平面拼圖片組裝成一個(gè)完整的立方體,其中每個(gè)拼圖片都要放在立方體的一個(gè)面上,而且所有的凹凸邊緣都要完美匹配,不能有縫隙也不能重疊。
這聽(tīng)起來(lái)可能不算太復(fù)雜,但實(shí)際的難度在于組合爆炸。每個(gè)拼圖片都可以放在立方體的6個(gè)面中的任意一個(gè)面上,而且每個(gè)片還可以旋轉(zhuǎn)和翻轉(zhuǎn),總共有8種不同的朝向。這意味著總的可能組合數(shù)量是6的階乘乘以8的6次方,也就是超過(guò)1.8億種可能性。而在這個(gè)天文數(shù)字般的搜索空間中,通常只有一種或極少數(shù)幾種組合是正確的。這就像在一個(gè)巨大的迷宮中尋找唯一正確的路徑,而且每走錯(cuò)一步都意味著前功盡棄。
更令人印象深刻的是,研究團(tuán)隊(duì)還為這些測(cè)試設(shè)計(jì)了不同的難度級(jí)別。對(duì)于M-Portal,他們創(chuàng)建了兩種評(píng)估方式:一種是"計(jì)劃正確性"測(cè)試,讓AI判斷一個(gè)給定的解決方案是否正確;另一種是"填空"測(cè)試,給AI一個(gè)不完整的解決方案,讓它填補(bǔ)缺失的步驟。對(duì)于M-Cube,他們?cè)O(shè)計(jì)了簡(jiǎn)化版本CUBE-easy,將6個(gè)拼圖片減少到只需要放置2個(gè),并且不需要翻轉(zhuǎn)操作,大大降低了搜索空間的復(fù)雜性。
當(dāng)研究人員用這套測(cè)試來(lái)評(píng)估目前最先進(jìn)的12個(gè)AI模型時(shí),結(jié)果令人震驚。這些被視為人工智能領(lǐng)域頂尖代表的模型,包括GPT-4o、Claude-3.7、Gemini-2.5以及各種最新的多模態(tài)模型,在面對(duì)MARBLE測(cè)試時(shí)幾乎全軍覆沒(méi)。在最困難的測(cè)試中,所有模型的表現(xiàn)都接近隨機(jī)猜測(cè)的水平,就像蒙著眼睛答題一樣。
具體來(lái)說(shuō),在M-Portal的計(jì)劃正確性測(cè)試中,所有12個(gè)模型的F1分?jǐn)?shù)都在6%左右,基本上等同于隨機(jī)猜測(cè)。這意味著這些AI模型完全無(wú)法理解復(fù)雜的空間推理任務(wù),更別說(shuō)制定正確的解決方案了。即使在相對(duì)簡(jiǎn)單的填空測(cè)試中,只有約一半的模型能夠超過(guò)隨機(jī)基準(zhǔn)線,而且提升幅度也很有限。表現(xiàn)最好的GPT-o3模型在填空測(cè)試中也只達(dá)到了17.6%的準(zhǔn)確率,距離人類水平還相去甚遠(yuǎn)。
在M-Cube測(cè)試中,情況更加糟糕。在完整的CUBE測(cè)試中,所有12個(gè)先進(jìn)模型都獲得了0%的準(zhǔn)確率,這意味著它們連一個(gè)正確答案都沒(méi)有給出。即使在大幅簡(jiǎn)化的CUBE-easy測(cè)試中,也只有6個(gè)模型能夠超過(guò)隨機(jī)猜測(cè),其中表現(xiàn)最好的仍然是GPT-o3,達(dá)到了72%的準(zhǔn)確率。這個(gè)結(jié)果雖然看起來(lái)不錯(cuò),但要知道這是在大幅降低難度的情況下取得的。
這些結(jié)果就像是給當(dāng)前AI發(fā)展?jié)娏艘慌枥渌沂玖艘粋€(gè)重要但常被忽視的問(wèn)題:現(xiàn)有的AI模型在處理需要多步驟、多模態(tài)推理的復(fù)雜問(wèn)題時(shí)仍然力不從心。它們就像是只會(huì)背書(shū)的學(xué)生,在面對(duì)真正需要?jiǎng)?chuàng)造性思維和綜合分析能力的問(wèn)題時(shí)就露餡了。
更令人擔(dān)憂的是,研究人員發(fā)現(xiàn)這些失敗不僅僅來(lái)自推理能力的不足,還有一個(gè)更基礎(chǔ)的問(wèn)題——感知能力的缺陷。為了驗(yàn)證這一點(diǎn),他們?cè)O(shè)計(jì)了一個(gè)看似簡(jiǎn)單的感知測(cè)試:給AI展示一個(gè)5×5網(wǎng)格的拼圖片,要求它將圖像轉(zhuǎn)換為相應(yīng)的二維數(shù)組,其中0代表凹陷,1代表凸起。這就像是讓人看著一張簡(jiǎn)單的黑白棋盤(pán),然后用數(shù)字把它描述出來(lái)一樣簡(jiǎn)單。
然而,令人震驚的是,即使是這樣基礎(chǔ)的感知任務(wù),所有被測(cè)試的AI模型都表現(xiàn)得很糟糕。最好的模型Gemini-2.5-pro在單個(gè)格子的識(shí)別上也只有76%的準(zhǔn)確率,這意味著它在描述一個(gè)5×5網(wǎng)格時(shí)幾乎肯定會(huì)犯錯(cuò)。當(dāng)要求完全正確地識(shí)別整個(gè)拼圖片時(shí),所有模型的準(zhǔn)確率都是0%。這就好比讓一個(gè)人看著一張簡(jiǎn)單的圖表,但他連最基本的圖形都無(wú)法準(zhǔn)確描述,更別說(shuō)進(jìn)行復(fù)雜的分析了。
這個(gè)發(fā)現(xiàn)具有深遠(yuǎn)的意義,因?yàn)樗砻鳟?dāng)前AI模型的問(wèn)題不僅僅在于邏輯推理能力,還在于更根本的視覺(jué)理解能力。就像一個(gè)偵探如果連基本的現(xiàn)場(chǎng)觀察都做不好,就更不可能破解復(fù)雜的案件一樣,AI如果連圖像中的基礎(chǔ)信息都無(wú)法準(zhǔn)確提取,就不可能在需要視覺(jué)理解的復(fù)雜推理任務(wù)中表現(xiàn)出色。
研究團(tuán)隊(duì)還進(jìn)行了一個(gè)有趣的實(shí)驗(yàn),他們?cè)O(shè)計(jì)了一個(gè)"解決方案驗(yàn)證器"工具,可以檢查M-Cube任務(wù)的答案是否正確,并提供反饋。這就像給學(xué)生配了一個(gè)會(huì)糾錯(cuò)的老師,可以告訴學(xué)生哪里做錯(cuò)了,應(yīng)該如何改進(jìn)。研究人員讓AI模型可以反復(fù)嘗試,根據(jù)驗(yàn)證器的反饋來(lái)調(diào)整答案。
在這個(gè)迭代改進(jìn)的設(shè)置中,一些模型確實(shí)表現(xiàn)得更好了。比如GPT-o4-mini在CUBE-easy任務(wù)中,通過(guò)5輪反饋后準(zhǔn)確率從10%提升到了28%。這就像是一個(gè)學(xué)生在老師的指導(dǎo)下逐步改正錯(cuò)誤,最終找到了正確答案。然而,即使有了這樣的"作弊"條件,在更困難的完整CUBE測(cè)試中,所有模型的表現(xiàn)仍然是0%,說(shuō)明問(wèn)題的根本難度超出了當(dāng)前AI的能力范圍。
這項(xiàng)研究還揭示了另一個(gè)有趣的現(xiàn)象:推理型AI模型雖然會(huì)產(chǎn)生大量的"思考"文本(有些模型會(huì)生成上萬(wàn)個(gè)詞匯的推理過(guò)程),但這些長(zhǎng)篇大論的思考并沒(méi)有帶來(lái)顯著的性能提升。這就像是一個(gè)學(xué)生在考試時(shí)寫(xiě)了很多草稿紙,看起來(lái)很努力在思考,但最終的答案仍然是錯(cuò)的。這表明單純?cè)黾油评聿襟E的數(shù)量并不能解決根本問(wèn)題,關(guān)鍵還是在于推理的質(zhì)量和方向。
從更廣闊的視角來(lái)看,MARBLE測(cè)試的結(jié)果對(duì)整個(gè)AI領(lǐng)域具有重要的警示意義。近年來(lái),我們經(jīng)常聽(tīng)到AI在各種基準(zhǔn)測(cè)試中"超越人類"的消息,但這些成功往往局限在相對(duì)狹窄和特定的領(lǐng)域。MARBLE測(cè)試揭示了一個(gè)不太舒服的真相:當(dāng)面對(duì)需要真正智能推理的復(fù)雜、開(kāi)放性問(wèn)題時(shí),當(dāng)前的AI系統(tǒng)仍然有很長(zhǎng)的路要走。
這并不意味著當(dāng)前的AI技術(shù)毫無(wú)價(jià)值,而是提醒我們要對(duì)AI的能力有更清醒的認(rèn)識(shí)。就像早期的汽車雖然在很多方面不如馬車,但它代表了一個(gè)正確的發(fā)展方向一樣,當(dāng)前的AI模型雖然在復(fù)雜推理方面還有很大局限,但它們?yōu)槲磥?lái)的發(fā)展奠定了重要基礎(chǔ)。
研究團(tuán)隊(duì)希望MARBLE能夠成為推動(dòng)AI發(fā)展的催化劑,就像歷史上那些具有挑戰(zhàn)性的測(cè)試推動(dòng)科學(xué)進(jìn)步一樣。正如ARC(Abstraction and Reasoning Corpus)測(cè)試在抽象推理領(lǐng)域發(fā)揮的作用,MARBLE可能會(huì)激勵(lì)研究人員開(kāi)發(fā)新的方法和架構(gòu),來(lái)解決多模態(tài)空間推理的難題。
這項(xiàng)研究的意義還在于它提出了一個(gè)關(guān)鍵問(wèn)題:什么才是真正的智能?如果我們的目標(biāo)是創(chuàng)造能夠在現(xiàn)實(shí)世界中自主行動(dòng)的AI系統(tǒng),那么這些系統(tǒng)就必須具備在復(fù)雜環(huán)境中進(jìn)行空間推理和長(zhǎng)期規(guī)劃的能力。無(wú)論是自動(dòng)駕駛汽車需要在復(fù)雜路況中導(dǎo)航,還是家用機(jī)器人需要在雜亂的房間中完成任務(wù),都需要這種高級(jí)的推理能力。
從技術(shù)發(fā)展的角度來(lái)看,MARBLE測(cè)試指出了幾個(gè)需要重點(diǎn)攻克的技術(shù)方向。首先是感知能力的提升,如何讓AI更準(zhǔn)確地理解和解析視覺(jué)信息。其次是推理架構(gòu)的改進(jìn),如何讓AI能夠進(jìn)行真正的多步驟邏輯推理,而不是簡(jiǎn)單的模式匹配。最后是多模態(tài)融合能力的增強(qiáng),如何讓AI能夠有效地整合來(lái)自不同感官的信息,形成統(tǒng)一的世界理解。
對(duì)于普通人來(lái)說(shuō),這項(xiàng)研究提供了一個(gè)重要的視角來(lái)理解當(dāng)前AI技術(shù)的真實(shí)狀況。雖然AI在很多單一任務(wù)上表現(xiàn)出色,但在需要綜合智能的復(fù)雜問(wèn)題上仍然有很大局限。這意味著在可預(yù)見(jiàn)的未來(lái),人類的創(chuàng)造性思維、空間推理能力和復(fù)雜問(wèn)題解決能力仍然是不可替代的。
同時(shí),這項(xiàng)研究也為AI的未來(lái)發(fā)展指明了方向。隨著研究人員對(duì)這些挑戰(zhàn)有了更清晰的認(rèn)識(shí),我們可以期待看到更多針對(duì)性的技術(shù)突破。也許在不久的將來(lái),我們會(huì)看到能夠真正理解空間關(guān)系、進(jìn)行多步驟推理的AI系統(tǒng),那時(shí)的人工智能將更接近我們對(duì)真正智能的期待。
研究團(tuán)隊(duì)已經(jīng)將MARBLE測(cè)試公開(kāi)發(fā)布,這意味著全世界的AI研究人員都可以使用這個(gè)工具來(lái)評(píng)估和改進(jìn)他們的模型。這種開(kāi)放的研究方式將有助于加速整個(gè)領(lǐng)域的進(jìn)步,就像開(kāi)源軟件推動(dòng)了互聯(lián)網(wǎng)技術(shù)的快速發(fā)展一樣。
值得注意的是,MARBLE測(cè)試的設(shè)計(jì)理念也體現(xiàn)了對(duì)AI發(fā)展的深度思考。與其簡(jiǎn)單地提高現(xiàn)有測(cè)試的難度,研究人員選擇了關(guān)注AI能力的根本問(wèn)題——如何在復(fù)雜、多約束的環(huán)境中進(jìn)行推理和規(guī)劃。這種方法論上的創(chuàng)新可能會(huì)影響未來(lái)AI評(píng)估標(biāo)準(zhǔn)的制定。
說(shuō)到底,MARBLE測(cè)試給我們上了重要的一課:真正的智能不僅僅是在特定任務(wù)上的優(yōu)秀表現(xiàn),更是在面對(duì)未知和復(fù)雜問(wèn)題時(shí)的適應(yīng)和解決能力。當(dāng)前的AI系統(tǒng)在這方面仍然有很長(zhǎng)的路要走,但正是這些挑戰(zhàn)讓AI研究變得更加有趣和有意義。隨著研究人員不斷探索和創(chuàng)新,我們有理由相信未來(lái)的AI系統(tǒng)將能夠真正理解和應(yīng)對(duì)現(xiàn)實(shí)世界的復(fù)雜性,成為人類更好的合作伙伴。
Q&A
Q1:MARBLE測(cè)試到底是什么,為什么這么難? A:MARBLE是一個(gè)AI智力測(cè)試,包含兩個(gè)超難的空間推理任務(wù)。一個(gè)是基于《傳送門(mén)2》游戲的M-Portal,需要AI制定十幾步的復(fù)雜計(jì)劃來(lái)解決空間謎題;另一個(gè)是M-Cube,要求AI將6個(gè)復(fù)雜拼圖片組裝成立方體。這些任務(wù)難在需要真正的邏輯推理和空間思維,而不是簡(jiǎn)單的模式識(shí)別,所以連GPT-4o這樣的頂級(jí)AI都幾乎全軍覆沒(méi)。
Q2:為什么最先進(jìn)的AI模型在MARBLE上表現(xiàn)這么差? A:主要有兩個(gè)原因。首先是感知問(wèn)題,AI連基本的圖像識(shí)別都做不好,就像讓一個(gè)視力模糊的人解題一樣。其次是推理能力限制,現(xiàn)有AI更像是"記憶型學(xué)霸",擅長(zhǎng)回憶已學(xué)過(guò)的模式,但面對(duì)需要?jiǎng)?chuàng)新思維的復(fù)雜問(wèn)題就不行了。這就好比讓只會(huì)背書(shū)的學(xué)生去解綜合應(yīng)用題,自然會(huì)力不從心。
Q3:這項(xiàng)研究對(duì)AI發(fā)展有什么意義? A:這項(xiàng)研究是給AI發(fā)展的一面"照妖鏡",揭示了當(dāng)前AI的真實(shí)能力邊界。它告訴我們,雖然AI在很多單一任務(wù)上很厲害,但距離真正的通用智能還很遠(yuǎn)。這為研究人員指明了努力方向:需要開(kāi)發(fā)更好的感知系統(tǒng)、推理架構(gòu)和多模態(tài)融合技術(shù),而不是只在現(xiàn)有技術(shù)上修修補(bǔ)補(bǔ)。
好文章,需要你的鼓勵(lì)
新加坡國(guó)立大學(xué)研究團(tuán)隊(duì)開(kāi)發(fā)了SPIRAL框架,通過(guò)讓AI與自己對(duì)弈零和游戲來(lái)提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡(jiǎn)單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無(wú)需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開(kāi)發(fā)的GIGA-ToF技術(shù)通過(guò)融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問(wèn)題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺(jué)解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過(guò)對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺(jué)語(yǔ)言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無(wú)法有效利用視覺(jué)信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過(guò)動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語(yǔ)言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。