av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 PHYX:大模型的物理推理能力測試,揭示AI在視覺物理問題上的驚人差距

PHYX:大模型的物理推理能力測試,揭示AI在視覺物理問題上的驚人差距

2025-05-29 10:26
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-29 10:26 ? 科技行者

現代人工智能發(fā)展迅猛,尤其是以GPT-4o、Claude 3.7等為代表的多模態(tài)大語言模型(MLLMs)似乎已經能夠解決奧林匹克級別的數學問題。但2025年5月,由香港大學、密歇根大學、多倫多大學、滑鐵盧大學和俄亥俄州立大學的研究團隊在arXiv預印本平臺發(fā)布的一項研究卻揭示了一個驚人的事實:即便是最先進的AI模型,在物理推理能力上與人類專家相比仍有巨大差距。這項由Hui Shen、Taiqiang Wu等研究者領導的研究發(fā)表于arXiv:2505.15929v1,為我們展示了AI在"看懂"物理世界方面的現狀。

想象一下,當你看到一個蘋果從樹上掉下來,你自然會理解這是重力作用的結果。對人類來說,這種物理直覺是與生俱來的,我們不需要明確地思考公式就能預測物體的運動。然而,AI模型在這方面的表現如何呢?研究團隊創(chuàng)建了名為PHYX的基準測試,專門評估模型對物理場景的理解能力。

PHYX不是簡單的知識問答,而是一個包含3000個精心設計的多模態(tài)物理問題的綜合測試。這些問題涵蓋了熱力學、電磁學、力學、現代物理學、光學以及波與聲學六大核心物理領域,分布在25個細分領域中。每個問題都配有視覺場景,要求模型不僅要理解物理公式,還要將這些抽象的知識應用到具體的視覺情境中。

舉個例子,一個典型的PHYX問題可能會展示一個斜坡上的物體,并詢問在特定條件下物體將如何運動。為了正確回答,AI需要識別圖像中的關鍵元素(如斜坡角度、物體質量),應用適當的物理定律(如牛頓第二定律),進行必要的計算,并給出準確答案。這種推理過程結合了領域知識、符號推理和對現實世界約束的理解,比單純的數學計算要復雜得多。

研究團隊對16個基礎模型進行了全面評估,結果令人驚訝。即便是目前最先進的多模態(tài)模型如GPT-4o、Claude 3.7-Sonnet和GPT-o4-mini,分別只達到了32.5%、42.2%和45.8%的準確率。相比之下,人類專家的表現至少在75.6%以上,最高可達78.9%。這意味著AI與人類之間存在著至少29%的能力差距!

這種差距在不同物理領域表現不一。在波與聲學和力學領域,模型表現相對較好,這可能是因為這些問題通常包含自然圖像,需要的推理步驟相對較少。而在熱力學和現代物理學領域,模型的表現普遍較差,這些領域的問題往往需要更復雜的視覺感知和多步推理。

通過對96個錯誤案例的深入分析,研究團隊發(fā)現了當前模型的三個關鍵缺陷。首先,視覺推理錯誤(占39.6%)表明模型常常誤解視覺上下文,無法準確提取和理解實際物理場景中的信息。其次,模型過度依賴詳細的文本描述,當輸入從完整文本降為簡化文本再到最小文本時,性能顯著下降,表明它們未能有效利用視覺輸入進行推理。最后,與數學推理相比,物理推理對模型來說是更大的挑戰(zhàn),需要更好地整合抽象概念和現實世界知識。

研究者還發(fā)現,即使是沒有直接視覺輸入的大語言模型(LLMs)如DeepSeek-R1和GPT-o3-mini,在獲得圖像描述后也能取得與多模態(tài)模型相當的表現。這一發(fā)現既展示了LLMs令人印象深刻的泛化能力,也暴露了當前MLLMs在利用原始視覺信號進行物理推理方面的局限性。

值得注意的是,這項研究不僅指出了問題,還提供了解決方案。研究團隊實施了一個基于廣泛使用的工具包(如VLMEvalKit)的評估協(xié)議,支持一鍵式評估,極大地方便了未來研究者復現實驗結果。

總的來說,PHYX基準測試不僅是對當前AI模型物理推理能力的全面評估,也為未來發(fā)展物理感知AI系統(tǒng)提供了清晰的路線圖。它揭示了AI從"看到"到"理解"物理世界的漫長之路,同時也激勵研究者開發(fā)能夠真正理解物理規(guī)律而非僅依靠表面模式匹配的AI系統(tǒng)。

隨著AI技術不斷發(fā)展,或許未來的模型能夠像人類一樣自然地理解物理世界,但目前看來,這一目標仍有相當長的路要走。正如物理學家理查德·費曼所言:"物理學是最基礎和最包羅萬象的科學。"同樣,對物理世界的深入理解也可能是AI邁向真正智能的基礎和關鍵。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-