現代人工智能發(fā)展迅猛,尤其是以GPT-4o、Claude 3.7等為代表的多模態(tài)大語言模型(MLLMs)似乎已經能夠解決奧林匹克級別的數學問題。但2025年5月,由香港大學、密歇根大學、多倫多大學、滑鐵盧大學和俄亥俄州立大學的研究團隊在arXiv預印本平臺發(fā)布的一項研究卻揭示了一個驚人的事實:即便是最先進的AI模型,在物理推理能力上與人類專家相比仍有巨大差距。這項由Hui Shen、Taiqiang Wu等研究者領導的研究發(fā)表于arXiv:2505.15929v1,為我們展示了AI在"看懂"物理世界方面的現狀。
想象一下,當你看到一個蘋果從樹上掉下來,你自然會理解這是重力作用的結果。對人類來說,這種物理直覺是與生俱來的,我們不需要明確地思考公式就能預測物體的運動。然而,AI模型在這方面的表現如何呢?研究團隊創(chuàng)建了名為PHYX的基準測試,專門評估模型對物理場景的理解能力。
PHYX不是簡單的知識問答,而是一個包含3000個精心設計的多模態(tài)物理問題的綜合測試。這些問題涵蓋了熱力學、電磁學、力學、現代物理學、光學以及波與聲學六大核心物理領域,分布在25個細分領域中。每個問題都配有視覺場景,要求模型不僅要理解物理公式,還要將這些抽象的知識應用到具體的視覺情境中。
舉個例子,一個典型的PHYX問題可能會展示一個斜坡上的物體,并詢問在特定條件下物體將如何運動。為了正確回答,AI需要識別圖像中的關鍵元素(如斜坡角度、物體質量),應用適當的物理定律(如牛頓第二定律),進行必要的計算,并給出準確答案。這種推理過程結合了領域知識、符號推理和對現實世界約束的理解,比單純的數學計算要復雜得多。
研究團隊對16個基礎模型進行了全面評估,結果令人驚訝。即便是目前最先進的多模態(tài)模型如GPT-4o、Claude 3.7-Sonnet和GPT-o4-mini,分別只達到了32.5%、42.2%和45.8%的準確率。相比之下,人類專家的表現至少在75.6%以上,最高可達78.9%。這意味著AI與人類之間存在著至少29%的能力差距!
這種差距在不同物理領域表現不一。在波與聲學和力學領域,模型表現相對較好,這可能是因為這些問題通常包含自然圖像,需要的推理步驟相對較少。而在熱力學和現代物理學領域,模型的表現普遍較差,這些領域的問題往往需要更復雜的視覺感知和多步推理。
通過對96個錯誤案例的深入分析,研究團隊發(fā)現了當前模型的三個關鍵缺陷。首先,視覺推理錯誤(占39.6%)表明模型常常誤解視覺上下文,無法準確提取和理解實際物理場景中的信息。其次,模型過度依賴詳細的文本描述,當輸入從完整文本降為簡化文本再到最小文本時,性能顯著下降,表明它們未能有效利用視覺輸入進行推理。最后,與數學推理相比,物理推理對模型來說是更大的挑戰(zhàn),需要更好地整合抽象概念和現實世界知識。
研究者還發(fā)現,即使是沒有直接視覺輸入的大語言模型(LLMs)如DeepSeek-R1和GPT-o3-mini,在獲得圖像描述后也能取得與多模態(tài)模型相當的表現。這一發(fā)現既展示了LLMs令人印象深刻的泛化能力,也暴露了當前MLLMs在利用原始視覺信號進行物理推理方面的局限性。
值得注意的是,這項研究不僅指出了問題,還提供了解決方案。研究團隊實施了一個基于廣泛使用的工具包(如VLMEvalKit)的評估協(xié)議,支持一鍵式評估,極大地方便了未來研究者復現實驗結果。
總的來說,PHYX基準測試不僅是對當前AI模型物理推理能力的全面評估,也為未來發(fā)展物理感知AI系統(tǒng)提供了清晰的路線圖。它揭示了AI從"看到"到"理解"物理世界的漫長之路,同時也激勵研究者開發(fā)能夠真正理解物理規(guī)律而非僅依靠表面模式匹配的AI系統(tǒng)。
隨著AI技術不斷發(fā)展,或許未來的模型能夠像人類一樣自然地理解物理世界,但目前看來,這一目標仍有相當長的路要走。正如物理學家理查德·費曼所言:"物理學是最基礎和最包羅萬象的科學。"同樣,對物理世界的深入理解也可能是AI邁向真正智能的基礎和關鍵。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現AI根據復雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結合大語言模型的敘事推理能力與音頻生成技術,通過交錯式推理生成、解耦橋接機制和漸進式訓練,能夠將復雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準測試中表現優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學聯合研發(fā)的VideoJAM技術,通過讓AI同時學習外觀和運動信息,顯著解決了當前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術僅需添加兩個線性層就能大幅提升運動質量,在多項測試中超越包括Sora在內的商業(yè)模型,為AI視頻生成的實用化應用奠定了重要基礎。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質量樣本的訓練數據集和MM-AlignBench評測基準,通過創(chuàng)新的數據生成和質量管控方法,讓AI在保持技術能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預測模型,能夠在不到一分鐘內完成10天全球天氣預報,準確性超越傳統(tǒng)方法90%的指標。該模型采用圖神經網絡技術,通過學習40年歷史數據掌握天氣變化規(guī)律,在極端天氣預測方面表現卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學領域帶來了效率和精度的雙重突破。