這項由瑞士洛桑聯(lián)邦理工學(xué)院(EPFL)的Maria Brbic教授和蘇黎世聯(lián)邦理工學(xué)院(ETH Zurich)的Michael Moor教授等人組成的研究團(tuán)隊于2025年6月完成,論文發(fā)表在arXiv預(yù)印本平臺(論文編號:arXiv:2506.22992v1),感興趣的讀者可以通過https://marble-benchmark.github.io訪問完整研究資料。
說起人工智能的發(fā)展,我們總是被各種"AI超越人類"的新聞轟炸。ChatGPT能寫詩,GPT-4能看圖說話,最新的模型甚至能理解視頻內(nèi)容。然而,當(dāng)這些看似無所不能的AI遇到真正需要空間思維和多步驟推理的復(fù)雜問題時,會發(fā)生什么呢?答案可能會讓你大吃一驚。
就像一個看似聰明的學(xué)生在遇到真正需要動腦筋的數(shù)學(xué)應(yīng)用題時突然卡殼一樣,目前最先進(jìn)的多模態(tài)語言模型在面對復(fù)雜的空間推理任務(wù)時也表現(xiàn)得相當(dāng)糟糕。這并不是因為這些AI不夠先進(jìn),而是因為真正的智能推理比我們想象的要復(fù)雜得多。
這個問題的核心在于,現(xiàn)有的AI測試基本上都像是在考"填空題"——給AI一張圖片和一個問題,它只需要從圖片中找到答案就行了。但真實世界的問題往往需要像偵探破案一樣,把多個線索串聯(lián)起來,制定一個詳細(xì)的行動計劃,還要考慮各種物理限制和空間約束。這就好比你不能僅僅通過看一張廚房照片就知道如何做一道復(fù)雜的菜,你需要理解每個步驟之間的因果關(guān)系,考慮時間順序,還要預(yù)判可能出現(xiàn)的問題。
正是基于這樣的思考,這個國際研究團(tuán)隊開發(fā)了一個名為MARBLE(MultimodAl Reasoning Benchmark for Language modEls)的測試套件。這個名字聽起來很學(xué)術(shù),但它的本質(zhì)就是一個"AI智力測試的地獄模式"。研究人員想要找出現(xiàn)有AI模型在復(fù)雜推理方面的真實水平,就像給學(xué)霸出一套特別難的綜合應(yīng)用題,看看他們到底有多少真本事。
MARBLE包含兩個主要的測試任務(wù),每個都像是精心設(shè)計的智力挑戰(zhàn)。第一個叫做M-Portal,靈感來自著名的解謎游戲《傳送門2》。在這個游戲中,玩家需要通過放置傳送門來解決各種空間難題,就像在房間的兩個不同位置開了兩扇任意門,可以瞬間從一個地方跳到另一個地方。但這不是簡單的傳送,你還要考慮物理定律比如動量守恒——如果你帶著很大的速度沖進(jìn)一個傳送門,你會以同樣的速度從另一個傳送門飛出來。
想象一下這樣的場景:你站在一個復(fù)雜的房間里,房間里有按鈕、激光器、移動的平臺、可以推動物體的氣流裝置,還有各種機(jī)關(guān)。你的目標(biāo)是走到出口,但路徑被各種障礙物阻擋。你手中有一把"傳送門槍",可以在墻面上開兩個相連的傳送門?,F(xiàn)在你需要制定一個詳細(xì)的計劃:先從高處跳下去沖進(jìn)傳送門獲得速度,然后利用這個速度從另一個傳送門彈射出來按下遠(yuǎn)處的按鈕,按鈕會釋放一個立方體落到另一個按鈕上激活橋梁,然后你再重新放置傳送門穿過橋梁,拿起立方體放到特定位置觸發(fā)更多機(jī)關(guān),最終到達(dá)出口。這樣的解題過程可能需要十幾步甚至幾十步,每一步都必須考慮物理限制和空間關(guān)系。
第二個測試任務(wù)M-Cube則是基于"快樂立方體"(Happy Cube)拼圖的3D空間推理挑戰(zhàn)。快樂立方體是一種經(jīng)典的機(jī)械拼圖,最初由比利時人Dirk Laureyssens在1986年發(fā)明。這個測試給AI展示6個形狀復(fù)雜的拼圖片,每個片都有凹凸不平的邊緣,就像拼圖的邊緣一樣。AI需要理解如何將這6個平面拼圖片組裝成一個完整的立方體,其中每個拼圖片都要放在立方體的一個面上,而且所有的凹凸邊緣都要完美匹配,不能有縫隙也不能重疊。
這聽起來可能不算太復(fù)雜,但實際的難度在于組合爆炸。每個拼圖片都可以放在立方體的6個面中的任意一個面上,而且每個片還可以旋轉(zhuǎn)和翻轉(zhuǎn),總共有8種不同的朝向。這意味著總的可能組合數(shù)量是6的階乘乘以8的6次方,也就是超過1.8億種可能性。而在這個天文數(shù)字般的搜索空間中,通常只有一種或極少數(shù)幾種組合是正確的。這就像在一個巨大的迷宮中尋找唯一正確的路徑,而且每走錯一步都意味著前功盡棄。
更令人印象深刻的是,研究團(tuán)隊還為這些測試設(shè)計了不同的難度級別。對于M-Portal,他們創(chuàng)建了兩種評估方式:一種是"計劃正確性"測試,讓AI判斷一個給定的解決方案是否正確;另一種是"填空"測試,給AI一個不完整的解決方案,讓它填補(bǔ)缺失的步驟。對于M-Cube,他們設(shè)計了簡化版本CUBE-easy,將6個拼圖片減少到只需要放置2個,并且不需要翻轉(zhuǎn)操作,大大降低了搜索空間的復(fù)雜性。
當(dāng)研究人員用這套測試來評估目前最先進(jìn)的12個AI模型時,結(jié)果令人震驚。這些被視為人工智能領(lǐng)域頂尖代表的模型,包括GPT-4o、Claude-3.7、Gemini-2.5以及各種最新的多模態(tài)模型,在面對MARBLE測試時幾乎全軍覆沒。在最困難的測試中,所有模型的表現(xiàn)都接近隨機(jī)猜測的水平,就像蒙著眼睛答題一樣。
具體來說,在M-Portal的計劃正確性測試中,所有12個模型的F1分?jǐn)?shù)都在6%左右,基本上等同于隨機(jī)猜測。這意味著這些AI模型完全無法理解復(fù)雜的空間推理任務(wù),更別說制定正確的解決方案了。即使在相對簡單的填空測試中,只有約一半的模型能夠超過隨機(jī)基準(zhǔn)線,而且提升幅度也很有限。表現(xiàn)最好的GPT-o3模型在填空測試中也只達(dá)到了17.6%的準(zhǔn)確率,距離人類水平還相去甚遠(yuǎn)。
在M-Cube測試中,情況更加糟糕。在完整的CUBE測試中,所有12個先進(jìn)模型都獲得了0%的準(zhǔn)確率,這意味著它們連一個正確答案都沒有給出。即使在大幅簡化的CUBE-easy測試中,也只有6個模型能夠超過隨機(jī)猜測,其中表現(xiàn)最好的仍然是GPT-o3,達(dá)到了72%的準(zhǔn)確率。這個結(jié)果雖然看起來不錯,但要知道這是在大幅降低難度的情況下取得的。
這些結(jié)果就像是給當(dāng)前AI發(fā)展?jié)娏艘慌枥渌?,揭示了一個重要但常被忽視的問題:現(xiàn)有的AI模型在處理需要多步驟、多模態(tài)推理的復(fù)雜問題時仍然力不從心。它們就像是只會背書的學(xué)生,在面對真正需要創(chuàng)造性思維和綜合分析能力的問題時就露餡了。
更令人擔(dān)憂的是,研究人員發(fā)現(xiàn)這些失敗不僅僅來自推理能力的不足,還有一個更基礎(chǔ)的問題——感知能力的缺陷。為了驗證這一點,他們設(shè)計了一個看似簡單的感知測試:給AI展示一個5×5網(wǎng)格的拼圖片,要求它將圖像轉(zhuǎn)換為相應(yīng)的二維數(shù)組,其中0代表凹陷,1代表凸起。這就像是讓人看著一張簡單的黑白棋盤,然后用數(shù)字把它描述出來一樣簡單。
然而,令人震驚的是,即使是這樣基礎(chǔ)的感知任務(wù),所有被測試的AI模型都表現(xiàn)得很糟糕。最好的模型Gemini-2.5-pro在單個格子的識別上也只有76%的準(zhǔn)確率,這意味著它在描述一個5×5網(wǎng)格時幾乎肯定會犯錯。當(dāng)要求完全正確地識別整個拼圖片時,所有模型的準(zhǔn)確率都是0%。這就好比讓一個人看著一張簡單的圖表,但他連最基本的圖形都無法準(zhǔn)確描述,更別說進(jìn)行復(fù)雜的分析了。
這個發(fā)現(xiàn)具有深遠(yuǎn)的意義,因為它表明當(dāng)前AI模型的問題不僅僅在于邏輯推理能力,還在于更根本的視覺理解能力。就像一個偵探如果連基本的現(xiàn)場觀察都做不好,就更不可能破解復(fù)雜的案件一樣,AI如果連圖像中的基礎(chǔ)信息都無法準(zhǔn)確提取,就不可能在需要視覺理解的復(fù)雜推理任務(wù)中表現(xiàn)出色。
研究團(tuán)隊還進(jìn)行了一個有趣的實驗,他們設(shè)計了一個"解決方案驗證器"工具,可以檢查M-Cube任務(wù)的答案是否正確,并提供反饋。這就像給學(xué)生配了一個會糾錯的老師,可以告訴學(xué)生哪里做錯了,應(yīng)該如何改進(jìn)。研究人員讓AI模型可以反復(fù)嘗試,根據(jù)驗證器的反饋來調(diào)整答案。
在這個迭代改進(jìn)的設(shè)置中,一些模型確實表現(xiàn)得更好了。比如GPT-o4-mini在CUBE-easy任務(wù)中,通過5輪反饋后準(zhǔn)確率從10%提升到了28%。這就像是一個學(xué)生在老師的指導(dǎo)下逐步改正錯誤,最終找到了正確答案。然而,即使有了這樣的"作弊"條件,在更困難的完整CUBE測試中,所有模型的表現(xiàn)仍然是0%,說明問題的根本難度超出了當(dāng)前AI的能力范圍。
這項研究還揭示了另一個有趣的現(xiàn)象:推理型AI模型雖然會產(chǎn)生大量的"思考"文本(有些模型會生成上萬個詞匯的推理過程),但這些長篇大論的思考并沒有帶來顯著的性能提升。這就像是一個學(xué)生在考試時寫了很多草稿紙,看起來很努力在思考,但最終的答案仍然是錯的。這表明單純增加推理步驟的數(shù)量并不能解決根本問題,關(guān)鍵還是在于推理的質(zhì)量和方向。
從更廣闊的視角來看,MARBLE測試的結(jié)果對整個AI領(lǐng)域具有重要的警示意義。近年來,我們經(jīng)常聽到AI在各種基準(zhǔn)測試中"超越人類"的消息,但這些成功往往局限在相對狹窄和特定的領(lǐng)域。MARBLE測試揭示了一個不太舒服的真相:當(dāng)面對需要真正智能推理的復(fù)雜、開放性問題時,當(dāng)前的AI系統(tǒng)仍然有很長的路要走。
這并不意味著當(dāng)前的AI技術(shù)毫無價值,而是提醒我們要對AI的能力有更清醒的認(rèn)識。就像早期的汽車雖然在很多方面不如馬車,但它代表了一個正確的發(fā)展方向一樣,當(dāng)前的AI模型雖然在復(fù)雜推理方面還有很大局限,但它們?yōu)槲磥淼陌l(fā)展奠定了重要基礎(chǔ)。
研究團(tuán)隊希望MARBLE能夠成為推動AI發(fā)展的催化劑,就像歷史上那些具有挑戰(zhàn)性的測試推動科學(xué)進(jìn)步一樣。正如ARC(Abstraction and Reasoning Corpus)測試在抽象推理領(lǐng)域發(fā)揮的作用,MARBLE可能會激勵研究人員開發(fā)新的方法和架構(gòu),來解決多模態(tài)空間推理的難題。
這項研究的意義還在于它提出了一個關(guān)鍵問題:什么才是真正的智能?如果我們的目標(biāo)是創(chuàng)造能夠在現(xiàn)實世界中自主行動的AI系統(tǒng),那么這些系統(tǒng)就必須具備在復(fù)雜環(huán)境中進(jìn)行空間推理和長期規(guī)劃的能力。無論是自動駕駛汽車需要在復(fù)雜路況中導(dǎo)航,還是家用機(jī)器人需要在雜亂的房間中完成任務(wù),都需要這種高級的推理能力。
從技術(shù)發(fā)展的角度來看,MARBLE測試指出了幾個需要重點攻克的技術(shù)方向。首先是感知能力的提升,如何讓AI更準(zhǔn)確地理解和解析視覺信息。其次是推理架構(gòu)的改進(jìn),如何讓AI能夠進(jìn)行真正的多步驟邏輯推理,而不是簡單的模式匹配。最后是多模態(tài)融合能力的增強(qiáng),如何讓AI能夠有效地整合來自不同感官的信息,形成統(tǒng)一的世界理解。
對于普通人來說,這項研究提供了一個重要的視角來理解當(dāng)前AI技術(shù)的真實狀況。雖然AI在很多單一任務(wù)上表現(xiàn)出色,但在需要綜合智能的復(fù)雜問題上仍然有很大局限。這意味著在可預(yù)見的未來,人類的創(chuàng)造性思維、空間推理能力和復(fù)雜問題解決能力仍然是不可替代的。
同時,這項研究也為AI的未來發(fā)展指明了方向。隨著研究人員對這些挑戰(zhàn)有了更清晰的認(rèn)識,我們可以期待看到更多針對性的技術(shù)突破。也許在不久的將來,我們會看到能夠真正理解空間關(guān)系、進(jìn)行多步驟推理的AI系統(tǒng),那時的人工智能將更接近我們對真正智能的期待。
研究團(tuán)隊已經(jīng)將MARBLE測試公開發(fā)布,這意味著全世界的AI研究人員都可以使用這個工具來評估和改進(jìn)他們的模型。這種開放的研究方式將有助于加速整個領(lǐng)域的進(jìn)步,就像開源軟件推動了互聯(lián)網(wǎng)技術(shù)的快速發(fā)展一樣。
值得注意的是,MARBLE測試的設(shè)計理念也體現(xiàn)了對AI發(fā)展的深度思考。與其簡單地提高現(xiàn)有測試的難度,研究人員選擇了關(guān)注AI能力的根本問題——如何在復(fù)雜、多約束的環(huán)境中進(jìn)行推理和規(guī)劃。這種方法論上的創(chuàng)新可能會影響未來AI評估標(biāo)準(zhǔn)的制定。
說到底,MARBLE測試給我們上了重要的一課:真正的智能不僅僅是在特定任務(wù)上的優(yōu)秀表現(xiàn),更是在面對未知和復(fù)雜問題時的適應(yīng)和解決能力。當(dāng)前的AI系統(tǒng)在這方面仍然有很長的路要走,但正是這些挑戰(zhàn)讓AI研究變得更加有趣和有意義。隨著研究人員不斷探索和創(chuàng)新,我們有理由相信未來的AI系統(tǒng)將能夠真正理解和應(yīng)對現(xiàn)實世界的復(fù)雜性,成為人類更好的合作伙伴。
Q&A
Q1:MARBLE測試到底是什么,為什么這么難? A:MARBLE是一個AI智力測試,包含兩個超難的空間推理任務(wù)。一個是基于《傳送門2》游戲的M-Portal,需要AI制定十幾步的復(fù)雜計劃來解決空間謎題;另一個是M-Cube,要求AI將6個復(fù)雜拼圖片組裝成立方體。這些任務(wù)難在需要真正的邏輯推理和空間思維,而不是簡單的模式識別,所以連GPT-4o這樣的頂級AI都幾乎全軍覆沒。
Q2:為什么最先進(jìn)的AI模型在MARBLE上表現(xiàn)這么差? A:主要有兩個原因。首先是感知問題,AI連基本的圖像識別都做不好,就像讓一個視力模糊的人解題一樣。其次是推理能力限制,現(xiàn)有AI更像是"記憶型學(xué)霸",擅長回憶已學(xué)過的模式,但面對需要創(chuàng)新思維的復(fù)雜問題就不行了。這就好比讓只會背書的學(xué)生去解綜合應(yīng)用題,自然會力不從心。
Q3:這項研究對AI發(fā)展有什么意義? A:這項研究是給AI發(fā)展的一面"照妖鏡",揭示了當(dāng)前AI的真實能力邊界。它告訴我們,雖然AI在很多單一任務(wù)上很厲害,但距離真正的通用智能還很遠(yuǎn)。這為研究人員指明了努力方向:需要開發(fā)更好的感知系統(tǒng)、推理架構(gòu)和多模態(tài)融合技術(shù),而不是只在現(xiàn)有技術(shù)上修修補(bǔ)補(bǔ)。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學(xué)習(xí)外觀和運(yùn)動信息,顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運(yùn)動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報,準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。