av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<u id="do5te"><video id="do5te"></video></u>

微信掃一掃，關注公眾號

科技行者
算力行者

見證連接與計算的「力量」

PHYX：大模型的物理推理能力測試，揭示AI在視覺物理問題上的驚人差距

人工智能物理推理多模態(tài)大模型

PHYX：大模型的物理推理能力測試，揭示AI在視覺物理問題上的驚人差距

作者：科技行者

2025-05-29 10:26

分享至：

香港大學等機構研究者開發(fā)的PHYX基準測試評估了AI模型的物理推理能力，結果顯示即使最先進的GPT-4o等多模態(tài)模型在此類任務上的準確率僅為32.5%-45.8%，比人類專家低29%以上。PHYX包含3000個跨六大物理領域的多模態(tài)問題，要求模型整合領域知識、符號推理和現實約束理解。分析發(fā)現模型存在視覺推理錯誤、過度依賴文本描述和數學公式等關鍵缺陷，為未來開發(fā)物理感知AI系統(tǒng)提供了重要指導。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-05-29 10:26 ? 科技行者

現代人工智能發(fā)展迅猛，尤其是以GPT-4o、Claude 3.7等為代表的多模態(tài)大語言模型（MLLMs）似乎已經能夠解決奧林匹克級別的數學問題。但2025年5月，由香港大學、密歇根大學、多倫多大學、滑鐵盧大學和俄亥俄州立大學的研究團隊在arXiv預印本平臺發(fā)布的一項研究卻揭示了一個驚人的事實：即便是最先進的AI模型，在物理推理能力上與人類專家相比仍有巨大差距。這項由Hui Shen、Taiqiang Wu等研究者領導的研究發(fā)表于arXiv:2505.15929v1，為我們展示了AI在"看懂"物理世界方面的現狀。

想象一下，當你看到一個蘋果從樹上掉下來，你自然會理解這是重力作用的結果。對人類來說，這種物理直覺是與生俱來的，我們不需要明確地思考公式就能預測物體的運動。然而，AI模型在這方面的表現如何呢？研究團隊創(chuàng)建了名為PHYX的基準測試，專門評估模型對物理場景的理解能力。

PHYX不是簡單的知識問答，而是一個包含3000個精心設計的多模態(tài)物理問題的綜合測試。這些問題涵蓋了熱力學、電磁學、力學、現代物理學、光學以及波與聲學六大核心物理領域，分布在25個細分領域中。每個問題都配有視覺場景，要求模型不僅要理解物理公式，還要將這些抽象的知識應用到具體的視覺情境中。

舉個例子，一個典型的PHYX問題可能會展示一個斜坡上的物體，并詢問在特定條件下物體將如何運動。為了正確回答，AI需要識別圖像中的關鍵元素（如斜坡角度、物體質量），應用適當的物理定律（如牛頓第二定律），進行必要的計算，并給出準確答案。這種推理過程結合了領域知識、符號推理和對現實世界約束的理解，比單純的數學計算要復雜得多。

研究團隊對16個基礎模型進行了全面評估，結果令人驚訝。即便是目前最先進的多模態(tài)模型如GPT-4o、Claude 3.7-Sonnet和GPT-o4-mini，分別只達到了32.5%、42.2%和45.8%的準確率。相比之下，人類專家的表現至少在75.6%以上，最高可達78.9%。這意味著AI與人類之間存在著至少29%的能力差距！

這種差距在不同物理領域表現不一。在波與聲學和力學領域，模型表現相對較好，這可能是因為這些問題通常包含自然圖像，需要的推理步驟相對較少。而在熱力學和現代物理學領域，模型的表現普遍較差，這些領域的問題往往需要更復雜的視覺感知和多步推理。

通過對96個錯誤案例的深入分析，研究團隊發(fā)現了當前模型的三個關鍵缺陷。首先，視覺推理錯誤（占39.6%）表明模型常常誤解視覺上下文，無法準確提取和理解實際物理場景中的信息。其次，模型過度依賴詳細的文本描述，當輸入從完整文本降為簡化文本再到最小文本時，性能顯著下降，表明它們未能有效利用視覺輸入進行推理。最后，與數學推理相比，物理推理對模型來說是更大的挑戰(zhàn)，需要更好地整合抽象概念和現實世界知識。

研究者還發(fā)現，即使是沒有直接視覺輸入的大語言模型（LLMs）如DeepSeek-R1和GPT-o3-mini，在獲得圖像描述后也能取得與多模態(tài)模型相當的表現。這一發(fā)現既展示了LLMs令人印象深刻的泛化能力，也暴露了當前MLLMs在利用原始視覺信號進行物理推理方面的局限性。

值得注意的是，這項研究不僅指出了問題，還提供了解決方案。研究團隊實施了一個基于廣泛使用的工具包（如VLMEvalKit）的評估協(xié)議，支持一鍵式評估，極大地方便了未來研究者復現實驗結果。

總的來說，PHYX基準測試不僅是對當前AI模型物理推理能力的全面評估，也為未來發(fā)展物理感知AI系統(tǒng)提供了清晰的路線圖。它揭示了AI從"看到"到"理解"物理世界的漫長之路，同時也激勵研究者開發(fā)能夠真正理解物理規(guī)律而非僅依靠表面模式匹配的AI系統(tǒng)。

隨著AI技術不斷發(fā)展，或許未來的模型能夠像人類一樣自然地理解物理世界，但目前看來，這一目標仍有相當長的路要走。正如物理學家理查德·費曼所言："物理學是最基礎和最包羅萬象的科學。"同樣，對物理世界的深入理解也可能是AI邁向真正智能的基礎和關鍵。

人工智能物理推理多模態(tài)大模型

分享至

0贊

好文章，需要你的鼓勵

推薦文章

音頻生成
大語言模型
多模態(tài)AI

2025-09-10 09:47

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實驗室團隊AudioStory突破性進展

騰訊ARC實驗室推出AudioStory系統(tǒng)，首次實現AI根據復雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結合大語言模型的敘事推理能力與音頻生成技術，通過交錯式推理生成、解耦橋接機制和漸進式訓練，能夠將復雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準測試中表現優(yōu)異，為AI音頻創(chuàng)作開辟新方向。
視頻生成
深度學習
多模態(tài)學習

2025-09-09 13:57

Meta與特拉維夫大學聯手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

Meta與特拉維夫大學聯合研發(fā)的VideoJAM技術，通過讓AI同時學習外觀和運動信息，顯著解決了當前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術僅需添加兩個線性層就能大幅提升運動質量，在多項測試中超越包括Sora在內的商業(yè)模型，為AI視頻生成的實用化應用奠定了重要基礎。
多模態(tài)AI
人類價值觀對齊
數據集構建

2025-09-09 13:56

上海AI實驗室重磅發(fā)布：讓AI看圖"說人話"的神奇訓練法，解決多模態(tài)AI與人類價值觀對齊難題

上海AI實驗室發(fā)布OmniAlign-V研究，首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質量樣本的訓練數據集和MM-AlignBench評測基準，通過創(chuàng)新的數據生成和質量管控方法，讓AI在保持技術能力的同時顯著提升人性化交互水平，為AI價值觀對齊提供了可行技術路徑。
人工智能
圖神經網絡
天氣預報

2025-09-09 10:56

谷歌研究團隊發(fā)布超級預測模型：讓AI像天氣預報員一樣預測全球大氣變化

谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預測模型，能夠在不到一分鐘內完成10天全球天氣預報，準確性超越傳統(tǒng)方法90%的指標。該模型采用圖神經網絡技術，通過學習40年歷史數據掌握天氣變化規(guī)律，在極端天氣預測方面表現卓越，能耗僅為傳統(tǒng)方法的千分之一，為氣象學領域帶來了效率和精度的雙重突破。

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實驗室團隊AudioStory突破性進展

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實驗室團隊AudioStory突破性進展

2025-09-10 09:47

Meta與特拉維夫大學聯手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

Meta與特拉維夫大學聯手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

2025-09-09 13:57

上海AI實驗室重磅發(fā)布：讓AI看圖"說人話"的神奇訓練法，解決多模態(tài)AI與人類價值觀對齊難題

上海AI實驗室重磅發(fā)布：讓AI看圖"說人話"的神奇訓練法，解決多模態(tài)AI與人類價值觀對齊難題

2025-09-09 13:56

谷歌研究團隊發(fā)布超級預測模型：讓AI像天氣預報員一樣預測全球大氣變化

谷歌研究團隊發(fā)布超級預測模型：讓AI像天氣預報員一樣預測全球大氣變化

2025-09-09 10:56

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網
管理現代化
和訊IT
TechWeb
第三媒體
速途網
51CTO傳媒
投資界
科技訊
智者新時代

京ICP證15039648號京ICP備15039648號-9 京公網安備 11010802021500號

北京第二十六維信息技術有限公司（至頂網）版權所有。 | 聯絡我們

舉報電話：010-62641205　涉未成年人舉報專線：010-62641208 舉報郵箱: jubao@zhiding.cn 　網上有害信息舉報專區(qū)：https://www.12377.cn

<menuitem id="cbmtr"><ul id="cbmtr"></ul></menuitem>

<kbd id="cbmtr"><optgroup id="cbmtr"></optgroup></kbd><ruby id="cbmtr"></ruby>

<big id="cbmtr"></big>