這項由加州大學(xué)圣地亞哥分校的高齊月教授和胡志庭教授領(lǐng)導(dǎo)的研究團隊發(fā)表于2025年6月的arXiv預(yù)印本論文(論文編號:arXiv:2506.21876v1),有興趣深入了解的讀者可以通過https://wm-abench.maitrix.org/訪問完整的研究成果和數(shù)據(jù)集。這個龐大的國際研究團隊匯集了來自加州大學(xué)圣地亞哥分校、約翰霍普金斯大學(xué)、康奈爾科技學(xué)院、瑞士聯(lián)邦理工學(xué)院以及密歇根大學(xué)等頂尖院校的研究人員。
當我們看著一個蘋果從桌子上滾落時,我們的大腦會瞬間明白重力的作用,預(yù)測蘋果會掉在哪里,甚至能想象出它落地時的聲音。這種對世界運作規(guī)律的直覺理解,就是科學(xué)家們所說的"世界模型"。現(xiàn)在,那些被譽為"視覺智能助手"的大型視覺語言模型,比如GPT-4o、Gemini等,似乎也具備了這樣的能力——它們能看懂圖片,回答關(guān)于世界的問題,甚至幫我們分析復(fù)雜的場景。
然而,加州大學(xué)圣地亞哥分校的研究團隊卻發(fā)現(xiàn)了一個令人意外的事實:這些看起來聰明的AI助手,在理解世界運作規(guī)律方面存在著嚴重的"認知盲區(qū)"。就像一個從未真正接觸過物理世界的人,雖然能背誦教科書上的知識,卻無法真正理解蘋果為什么會掉下來。
想象一下,你有一個朋友,他能準確識別各種物體的顏色和形狀,甚至能背出所有的物理定律,但當你讓他預(yù)測兩個球相撞后會發(fā)生什么時,他卻給出了完全錯誤的答案。這就是當前AI視覺模型面臨的尷尬處境。研究團隊通過創(chuàng)建一個名為WM-ABench的全新測試平臺,就像給這些AI模型安排了一場"世界常識大考",結(jié)果發(fā)現(xiàn)即使是最先進的模型,在很多基礎(chǔ)的物理常識測試中表現(xiàn)得就像剛學(xué)會看世界的孩子一樣迷茫。
這項研究的重要性遠遠超出了學(xué)術(shù)范圍。在我們?nèi)找嬉蕾嘇I助手幫助我們理解和預(yù)測世界的今天,了解這些系統(tǒng)的局限性就像了解一輛汽車的剎車距離一樣重要。研究團隊通過對15個最新的商業(yè)和開源視覺語言模型進行了660次不同的實驗,發(fā)現(xiàn)了一個驚人的事實:幾乎所有模型在區(qū)分運動軌跡時的準確率接近隨機猜測的水平,有些模型甚至?xí)J為藍色物體比綠色物體移動得更快——這顯然是一個非常奇怪的偏見。
這個發(fā)現(xiàn)就像發(fā)現(xiàn)一個看起來很聰明的學(xué)生,在簡單的加減法上卻頻頻出錯一樣令人困惑。更令人擔憂的是,這些模型缺乏對世界的獨立、穩(wěn)健的理解能力,它們的認知就像一張被隨意涂抹的地圖,不同的概念之間存在著奇怪的關(guān)聯(lián)和混淆。
為了徹底搞清楚這個問題,研究團隊設(shè)計了一個革命性的評估框架。他們從認知科學(xué)和比較心理學(xué)中汲取靈感,將AI對世界的理解能力分解為兩個核心階段:感知階段和預(yù)測階段。感知階段就像我們用眼睛觀察世界,收集關(guān)于空間、時間、運動、數(shù)量和視覺的信息;預(yù)測階段則像我們的大腦根據(jù)觀察到的信息來預(yù)測接下來會發(fā)生什么。
在感知階段,研究團隊測試了模型對五個基本維度的理解能力。空間感知就像測試一個人能否準確判斷兩個物體的相對位置,或者能否根據(jù)不同角度的照片想象出物體的三維形狀。時間感知則考察模型能否準確判斷事件發(fā)生的先后順序和持續(xù)時間,就像問"哪個球先開始移動?"或"哪個動作持續(xù)的時間更長?"這樣的問題。運動感知測試模型對物體移動方向、速度和軌跡的理解,這就像觀察一個滾動的球并預(yù)測它會朝哪個方向移動。數(shù)量感知評估模型的計數(shù)和比較能力,包括離散數(shù)量(比如桌上有幾個蘋果)和連續(xù)數(shù)量(比如哪個蘋果顏色更深)。視覺感知則測試模型對顏色、形狀和材質(zhì)的基本識別能力。
在預(yù)測階段,研究團隊設(shè)計了三種不同層次的挑戰(zhàn)。機械仿真測試模型對基本物理規(guī)律的理解,比如當一個球撞擊另一個球時會發(fā)生什么,或者當機械臂推動一個物體時物體會如何移動。傳遞推理考察模型進行多步預(yù)測的能力,就像預(yù)測一輛車先左轉(zhuǎn)再前進后最終會到達哪里。組合推理則測試模型處理多個同時發(fā)生事件的能力,比如當兩個球同時撞擊第三個球時會產(chǎn)生什么結(jié)果。
為了確保測試的公平性和準確性,研究團隊采用了一種巧妙的控制實驗方法。他們就像科學(xué)家研究藥物效果時使用對照組一樣,系統(tǒng)地改變環(huán)境中的各種因素,每次只改變一個變量,然后觀察模型的反應(yīng)。這種方法使得研究人員能夠準確識別是什么因素導(dǎo)致了模型的失誤,而不是簡單地說"模型表現(xiàn)不好"。
研究團隊還特別注意避免模型可能利用的"捷徑"。就像老師出題時要防止學(xué)生投機取巧一樣,他們設(shè)計了各種"陷阱選項"來確保模型真正理解了問題的本質(zhì),而不是依靠某些表面的關(guān)聯(lián)性來猜測答案。比如,他們會故意創(chuàng)建視覺上非常相似但物理原理完全不同的選項,迫使模型真正理解物理規(guī)律才能給出正確答案。
為了生成足夠多樣和復(fù)雜的測試案例,研究團隊使用了六個不同的計算機仿真環(huán)境,包括ThreeDWorld、ManiSkill、Habitat 2.0、Physion和Carla等。這些仿真環(huán)境就像不同的虛擬實驗室,每個都專門模擬不同類型的物理現(xiàn)象和環(huán)境動態(tài)。通過使用多個仿真環(huán)境,研究團隊確保了測試的多樣性和全面性,避免了因為單一環(huán)境的特殊性而產(chǎn)生偏向性結(jié)果。
整個WM-ABench基準測試包含了23個細分的評估維度和超過10萬個測試實例,覆蓋了從簡單的顏色識別到復(fù)雜的多物體碰撞預(yù)測等各個層面。這個規(guī)模就像給每個AI模型安排了一場包含數(shù)萬道題目的綜合考試,每道題都經(jīng)過精心設(shè)計,確保能夠準確測試模型的特定能力。
研究結(jié)果令人既驚訝又擔憂。在感知任務(wù)方面,雖然商業(yè)閉源模型和開源模型的表現(xiàn)差異并不像人們預(yù)期的那樣明顯,但所有模型都遠遠落后于人類的感知水平。在總共5個感知維度中,表現(xiàn)最好的Qwen2-VL模型平均準確率為67.7%,聽起來還不錯,但要知道人類在這些任務(wù)上的表現(xiàn)接近完美或者至少達到了90%以上的準確率。
更令人擔憂的是模型在空間理解方面的表現(xiàn)。即使是最先進的模型,在空間定位任務(wù)上的準確率也不到60%,這表明當前的視覺語言模型在構(gòu)建穩(wěn)健的內(nèi)在三維表征方面存在根本性困難。這就像一個人能夠準確識別桌子和椅子,但卻無法判斷椅子是在桌子的左邊還是右邊,或者無法根據(jù)側(cè)面的照片想象出物體從上面看是什么樣子。
在時間和運動理解方面,模型的表現(xiàn)更是令人失望。研究發(fā)現(xiàn),模型在處理連續(xù)幀之間的時間一致性表征方面表現(xiàn)糟糕,在時間延續(xù)性任務(wù)上的表現(xiàn)遠低于僅依賴部分幀的時間定位任務(wù)。這意味著雖然模型能夠識別單個時刻發(fā)生的事情,但卻無法理解事件在時間上的發(fā)展和變化。類似地,雖然模型在運動檢測方面表現(xiàn)相對較好,但在運動軌跡預(yù)測上的表現(xiàn)卻接近隨機水平,這表明它們?nèi)狈B續(xù)狀態(tài)變化的深層理解。
在預(yù)測任務(wù)方面,情況變得更加嚴峻。所有模型的表現(xiàn)都明顯低于人類水平,最好的Qwen2-VL模型平均準確率僅為47.5%。這個結(jié)果就像發(fā)現(xiàn)一個看起來很聰明的學(xué)生,在應(yīng)用知識解決實際問題時卻頻頻失誤。
在機械仿真測試中,研究團隊發(fā)現(xiàn)了一個特別有趣的現(xiàn)象:模型對不同類型的物理過程表現(xiàn)出截然不同的理解水平。比如,在ManiSkill環(huán)境中,Qwen2-VL在預(yù)測物體掉落結(jié)果時能達到95.3%的準確率,在預(yù)測舉起物體時能達到91.4%的準確率,但在預(yù)測推動物體時的表現(xiàn)卻接近隨機水平。更奇怪的是,同樣是預(yù)測物體掉落,當環(huán)境從ManiSkill切換到Physion時,同一個模型的準確率驟降到59.2%。這種巨大的性能差異表明,模型并沒有真正掌握物理規(guī)律的本質(zhì),而更像是記住了特定環(huán)境下的特定模式。
在傳遞推理和組合推理任務(wù)中,所有模型的表現(xiàn)都令人擔憂。即使是表現(xiàn)最好的模型,在多步導(dǎo)航任務(wù)中的準確率也只有43.8%,遠低于人類90%的準確率。在組合推理任務(wù)中,最好的模型在碰撞預(yù)測任務(wù)中只能達到40.2%的準確率,在操作任務(wù)中達到51.3%,而人類在這些任務(wù)上的表現(xiàn)分別為84%和88%。這個巨大的差距就像發(fā)現(xiàn)一個能夠解決簡單算術(shù)題的學(xué)生,在面對稍微復(fù)雜一點的應(yīng)用題時就完全束手無策。
研究團隊還對最前沿的AI模型進行了測試,包括OpenAI的o3模型和Google最新的Gemini-2.5-Pro。雖然這些前沿模型在靜態(tài)感知任務(wù)上確實表現(xiàn)出了顯著改進,在某些任務(wù)上甚至達到了人類水平,但在涉及空間、時間和組合推理的復(fù)雜任務(wù)上仍然存在明顯不足。這就像發(fā)現(xiàn)即使是最先進的AI,雖然在某些方面已經(jīng)很出色,但在真正理解世界運作規(guī)律方面仍然有很長的路要走。
更深入的分析揭示了這些模型存在的根本性問題。研究團隊發(fā)現(xiàn),當前的視覺語言模型無法形成獨立、穩(wěn)健的世界表征,它們的不同認知維度之間存在著奇怪的相互干擾。比如,物體的顏色會影響模型對物體大小的判斷,形狀會影響對運動速度的感知。這種現(xiàn)象就像一個人因為看到紅色就覺得溫度更高,或者因為看到圓形就覺得速度更快,顯然這些關(guān)聯(lián)在現(xiàn)實世界中是不合理的。
研究團隊通過系統(tǒng)地改變一個維度(比如顏色)而保持其他維度不變,測量了模型性能的變化程度,發(fā)現(xiàn)顏色和形狀是造成多重任務(wù)干擾的主要因素。在離散數(shù)量任務(wù)中,模型對顏色變化的敏感性從5%(Gemini-1.5 Pro)到17%(Qwen-2.5 VL)不等,這表明模型并沒有形成真正獨立的數(shù)量概念,而是將數(shù)量與視覺特征混淆在一起。
另一個重要發(fā)現(xiàn)是,模型的表現(xiàn)與刺激差異的大小密切相關(guān)。當要區(qū)分的對象之間差異很大時,模型表現(xiàn)相對較好,但當需要進行精細區(qū)分時,性能就會急劇下降。這種現(xiàn)象就像一個人能夠區(qū)分大象和老鼠的大小差異,但卻無法準確判斷兩只大小相近的狗誰更大一些。這種"近視"特性表明,雖然模型在某種程度上能夠?qū)⒄Z言與對應(yīng)的物理屬性關(guān)聯(lián)起來,但它們?nèi)狈M行精細、高分辨率感知的能力。
為了驗證這些發(fā)現(xiàn)的普遍性,研究團隊還將部分測試擴展到了真實世界數(shù)據(jù)。他們從現(xiàn)有的真實世界數(shù)據(jù)集中選取并重新設(shè)計了一些任務(wù),結(jié)果發(fā)現(xiàn)在真實世界數(shù)據(jù)上的表現(xiàn)模式與仿真數(shù)據(jù)上的結(jié)果高度一致。比如,模型在空間定位和運動軌跡任務(wù)上依然表現(xiàn)不佳,而在顏色和形狀識別任務(wù)上表現(xiàn)相對較好。這種一致性表明,仿真數(shù)據(jù)的使用并沒有引入明顯的偏差,研究結(jié)果具有很好的普遍適用性。
研究團隊還進行了一個特別設(shè)計的分析,試圖分離感知失誤和預(yù)測失誤對整體性能的影響。他們篩選出所有模型都能正確回答相關(guān)感知問題的實例,然后僅在這些"感知正確"的實例上評估預(yù)測性能。令人意外的是,即使在確保感知準確的情況下,模型在物理預(yù)測任務(wù)上的表現(xiàn)改進非常有限,在某些情況下甚至出現(xiàn)了性能下降。這個發(fā)現(xiàn)表明,模型的預(yù)測困難并不僅僅源于感知錯誤,而是反映了更深層次的物理知識缺陷。
人類評估結(jié)果為這些發(fā)現(xiàn)提供了重要的對照。研究團隊通過Amazon Mechanical Turk平臺招募了多名評估者,對每個任務(wù)隨機選取50個問題進行人類評估,每個問題由3名評估者獨立完成,最終通過多數(shù)投票確定結(jié)果。評估者間一致性通過Fleiss kappa系數(shù)衡量,所有任務(wù)都達到了中等以上的一致性水平(kappa > 0.4),確保了評估結(jié)果的可靠性。人類在幾乎所有任務(wù)上的表現(xiàn)都顯著優(yōu)于AI模型,特別是在需要物理直覺和常識推理的任務(wù)上,人類的優(yōu)勢更加明顯。
這項研究的意義遠遠超出了對當前AI模型局限性的揭示。它為AI發(fā)展指明了幾個重要方向。首先,未來的視覺語言模型需要更好地整合三維空間信息,而不是僅僅依賴二維圖像語義。這就像教會一個只看過平面照片的人真正理解三維世界一樣重要。其次,模型需要更強的時間和運動理解能力,這可能需要借鑒視頻中豐富的視覺動態(tài)信息。第三,模型需要更深入的因果理解能力,能夠真正掌握物理過程的本質(zhì)規(guī)律,而不是簡單地記憶表面模式。
最重要的是,這項研究強調(diào)了發(fā)展更強大的傳遞和組合推理能力的重要性。真正智能的系統(tǒng)應(yīng)該能夠像人類一樣,將已學(xué)會的基本規(guī)律組合起來處理新的、復(fù)雜的情況。這就像一個真正理解數(shù)學(xué)的人,不僅能夠解決練習(xí)過的題目,還能將基本概念組合起來解決從未見過的新問題。
對于普通用戶而言,這項研究提供了一個重要的提醒:雖然當前的AI視覺模型在很多任務(wù)上表現(xiàn)出色,但我們不應(yīng)該過度依賴它們進行需要深度物理理解或復(fù)雜推理的任務(wù)。在使用這些工具時,我們需要保持謹慎,特別是在涉及安全關(guān)鍵應(yīng)用的場景中。
同時,這項研究也為AI研究者和開發(fā)者提供了一個寶貴的資源。WM-ABench作為一個開源的評估平臺,為評估和改進視覺語言模型的世界建模能力提供了標準化的工具。這就像為汽車制造商提供了一套標準的安全測試程序,幫助他們更好地了解和改進產(chǎn)品性能。
研究團隊還特別強調(diào)了他們的評估框架的"原子性"特征。與以往的評估方法不同,WM-ABench將復(fù)雜的世界理解能力分解為一系列基礎(chǔ)的、相互正交的維度,就像化學(xué)家將復(fù)雜的化合物分解為基本元素一樣。這種方法不僅能夠更精確地診斷模型的具體缺陷,還能為targeted的改進提供明確的方向。
展望未來,這項研究為AI發(fā)展提出了一個重要課題:如何讓機器真正理解世界,而不僅僅是識別模式。這個挑戰(zhàn)需要我們重新思考AI系統(tǒng)的設(shè)計哲學(xué),從單純的模式匹配轉(zhuǎn)向真正的世界建模。這就像從教會一個人背誦物理公式轉(zhuǎn)向讓他真正理解物理規(guī)律的本質(zhì)一樣,需要更深層次的架構(gòu)創(chuàng)新和訓(xùn)練方法改進。
說到底,這項研究揭示的并不僅僅是當前AI模型的局限性,更重要的是它為我們指出了通向真正智能系統(tǒng)的路徑。正如研究團隊所說,要讓AI真正服務(wù)于復(fù)雜的現(xiàn)實世界應(yīng)用,我們還需要在深度理解、扎實的物理直覺和復(fù)雜推理能力方面取得重大突破。這不是一個簡單的技術(shù)問題,而是一個需要整個AI社區(qū)共同努力的長期挑戰(zhàn)。
對于關(guān)心AI發(fā)展的普通讀者來說,這項研究提醒我們,雖然AI技術(shù)發(fā)展迅速,但距離真正理解和模擬人類智能還有相當長的路要走。在我們驚嘆于AI在某些任務(wù)上的卓越表現(xiàn)時,也應(yīng)該保持理性,認識到這些系統(tǒng)在基礎(chǔ)認知能力方面仍然存在的根本性局限。這種認識不僅有助于我們更好地使用現(xiàn)有的AI工具,也有助于我們對AI未來發(fā)展保持realistic的期待。
Q&A
Q1:什么是"世界模型"?為什么AI需要具備這種能力? A:世界模型就像我們大腦中對現(xiàn)實世界運作規(guī)律的理解,比如知道蘋果會往下掉、球撞球會改變運動方向等。AI需要這種能力才能真正理解環(huán)境、預(yù)測未來狀態(tài),從而做出合理的決策,而不是僅僅依靠記憶和模式匹配來工作。
Q2:當前的AI視覺模型在理解世界方面有哪些主要問題? A:主要問題包括:無法準確理解3D空間關(guān)系、在預(yù)測物體運動軌跡時表現(xiàn)接近隨機水平、不同認知維度之間存在奇怪關(guān)聯(lián)(比如顏色影響對大小的判斷)、缺乏真正的物理直覺、無法進行復(fù)雜的多步推理等。
Q3:這些發(fā)現(xiàn)對普通用戶使用AI有什么影響? A:用戶應(yīng)該意識到,雖然AI在圖像識別、文本理解等方面表現(xiàn)出色,但在需要深度物理理解或復(fù)雜空間推理的任務(wù)上仍有明顯局限。在使用AI輔助決策時,特別是涉及安全關(guān)鍵應(yīng)用時,應(yīng)該保持謹慎,不要過度依賴AI的判斷。
好文章,需要你的鼓勵
新加坡國立大學(xué)研究團隊開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實驗顯示,僅訓(xùn)練AI玩簡單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟大學(xué)團隊開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實現(xiàn)37.9%的精度提升,并在真實設(shè)備上展現(xiàn)出色泛化能力,為機器人、AR和自動駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團隊通過對比實驗發(fā)現(xiàn),經(jīng)過強化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時刻"現(xiàn)象,但這些自我糾錯行為并不能實際提升推理準確率。研究揭示了AI模型存在"生成-驗證差距",即生成答案的能力強于驗證答案質(zhì)量的能力,且模型在自我驗證時無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動態(tài)稀疏性實現(xiàn)大語言模型訓(xùn)練加速1.6倍,計算成本降低2.2倍。該方法使用SVD稀疏性估計器智能選擇重要計算部分,在保持模型性能的同時顯著提升訓(xùn)練效率,已在多個任務(wù)上驗證有效性。