av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 阿里巴巴推出DeepPHY:首個專門測試AI視覺模型物理推理能力的綜合評估平臺

阿里巴巴推出DeepPHY:首個專門測試AI視覺模型物理推理能力的綜合評估平臺

2025-08-12 14:18
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-08-12 14:18 ? 科技行者

這項由阿里巴巴淘寶天貓集團的徐新潤團隊聯(lián)合中科院軟件所、中科院大學、人民大學以及巴西里約PUC大學共同完成的研究發(fā)表于2025年8月,論文標題為《DeepPHY: Benchmarking Agentic VLMs on Physical Reasoning》。有興趣深入了解的讀者可以通過GitHub項目地址https://github.com/XinrunXu/DeepPHY訪問完整研究內(nèi)容。

當我們看到小孩玩積木時,他們能夠直覺地判斷哪塊積木放在哪里不會倒塌,或者預測球從斜坡滾下來會朝哪個方向。這種對物理世界的理解看似簡單,但對于人工智能來說卻是一項巨大的挑戰(zhàn)。目前最先進的視覺語言模型雖然能夠識別圖片中的物體,甚至進行復雜的視覺推理,但當需要它們像人類一樣進行物理推理并采取行動時,表現(xiàn)卻令人失望。

為了系統(tǒng)性地評估這個問題,阿里巴巴的研究團隊開發(fā)了DeepPHY這個全新的評估平臺。這就像為AI模型設(shè)計了一套"物理課考試",通過六個不同難度的物理推理環(huán)境,全面測試AI模型是否真正理解物理世界的運作規(guī)律,而不僅僅是記住一些物理知識。

研究團隊發(fā)現(xiàn)了一個有趣但令人擔憂的現(xiàn)象:即使是當前最強大的AI模型,在這些物理推理任務中的表現(xiàn)也遠遠低于人類。更關(guān)鍵的是,AI模型能夠準確描述物理現(xiàn)象,但卻無法將這種描述性知識轉(zhuǎn)化為有效的行動控制。這就像一個人能夠完美地解釋如何騎自行車的原理,但實際上車時卻摔得七葷八素。

一、DeepPHY的誕生背景:AI物理推理的困境

當我們談論AI的智能水平時,往往會想到它們在下棋、語言翻譯或圖像識別方面的卓越表現(xiàn)。然而,真正的智能不僅僅是靜態(tài)的知識理解,更重要的是能夠在動態(tài)環(huán)境中進行推理和行動。物理推理能力正是這種動態(tài)智能的核心體現(xiàn)。

目前的AI評估體系主要集中在靜態(tài)的問答任務上。比如詢問AI"如果一個球從10米高的地方掉下來會發(fā)生什么",AI能夠給出標準的物理學答案。但這種評估方式就像只考察學生的理論知識而不測試實際操作能力一樣,無法真正反映AI在實際物理環(huán)境中的表現(xiàn)。

研究團隊注意到,現(xiàn)有的一些AI評估環(huán)境雖然也涉及交互,但它們往往過于簡化了物理規(guī)律。比如一些游戲環(huán)境提供的是高層次的觀察和動作空間,繞過了低層次的物理推理需求。而GUI環(huán)境雖然需要交互,但不涉及真實世界的物理動力學。至于機器人環(huán)境,雖然需要物理交互,但通常過分簡化了物理動態(tài)過程。

這種評估體系的缺陷導致我們無法準確了解AI模型的真實能力邊界。就像只通過書面考試來評估一個人的駕駛技術(shù)一樣,缺乏實際的路況測試,我們永遠不知道這個人在真實駕駛中會遇到什么問題。

二、六個物理世界的考驗:DeepPHY的核心組成

DeepPHY評估平臺的設(shè)計理念就像為AI模型準備了六個不同類型的"物理實驗室",每個實驗室都專注于測試不同方面的物理推理能力。這種多樣化的設(shè)計確保了評估的全面性和深度。

PHYRE環(huán)境就像一個2D物理拼圖游戲。在這個環(huán)境中,AI模型需要通過放置一個紅球來觸發(fā)連鎖反應,最終讓綠球接觸到藍球或紫球。這聽起來簡單,但實際上需要模型準確預測物體間的碰撞、重力效應和穩(wěn)定性。研究團隊選擇了1000個不同難度的任務,涵蓋了各種復雜的物理場景。結(jié)果令人震驚:即使是最強大的模型GPT-o3,成功率也僅有23.1%。

I-PHYRE環(huán)境增加了時間維度的挑戰(zhàn)。這里的任務是通過在精確時間點移除灰色障礙物,讓紅球掉入深淵。這需要模型不僅理解物理規(guī)律,還要掌握精確的時間控制。有趣的是,頂級模型在這個環(huán)境中表現(xiàn)相對較好,GPT-o3達到了81.7%的成功率,說明某些AI模型在結(jié)構(gòu)化的順序推理任務中確實具備一定能力。

Kinetix環(huán)境像一個物理控制實驗室,提供了從簡單到極其復雜的各種物理控制任務。任務目標很直接:讓綠色物體接觸藍色物體,同時避免接觸紅色物體。但實現(xiàn)這個目標需要協(xié)調(diào)控制多個馬達和推進器。研究發(fā)現(xiàn),隨著任務復雜度的提升,所有模型的表現(xiàn)都急劇下降。即使在最簡單的S級任務中,最好的模型成功率也只有60%左右,而在復雜的L級任務中,成功率跌至10%以下。

Pooltool環(huán)境是一個高精度的臺球模擬器。任務是通過擊打最小號碼的球來將9號球打入袋中。這個環(huán)境特別有趣,因為一些模型表現(xiàn)出了令人誤解的"完美"成績。比如GPT-4o-mini達到了100%的成功率。但深入分析后發(fā)現(xiàn),這種"成功"完全依賴于簡單粗暴的策略:總是用最大力度直接擊打目標球。這種方法在簡單布局中有效,但完全忽略了臺球的核心技巧——球的控制和旋轉(zhuǎn)效應。

Angry Birds環(huán)境測試的是結(jié)構(gòu)力學和拋射軌跡的綜合理解。模型需要調(diào)整彈射角度和力度來摧毀所有綠色小豬。這個看似簡單的游戲?qū)嶋H上需要對重力、慣性、結(jié)構(gòu)弱點和連鎖反應有深刻理解。最好的模型Claude 3.7 Sonnet只達到了41.18%的成功率,遠低于人類玩家的64.71%。

Cut the Rope環(huán)境可能是最具挑戰(zhàn)性的,因為它需要精確的時機控制和復雜的物理直覺。模型需要通過切斷繩索、操控氣泡和氣墊等方式,讓糖果最終到達綠色小怪物Om Nom的嘴里。這個環(huán)境暴露了AI模型在感知層面的根本問題——它們甚至難以準確識別卡通風格游戲中的繩索數(shù)量,更不用說進行復雜的物理推理了。

三、評估方法的創(chuàng)新:讓AI模型公平競爭

為了確保評估的公平性和準確性,研究團隊對每個環(huán)境都進行了精心的改造。這種改造就像為不同語言背景的學生準備統(tǒng)一的考試題目一樣,需要在保持題目本質(zhì)的同時,消除不必要的障礙。

在觀察空間的處理上,研究團隊意識到當前的視覺語言模型在細節(jié)感知方面存在顯著缺陷。比如在Cut the Rope游戲中,即使是最先進的模型也無法準確計算場景中繩索的數(shù)量。為了公平評估物理推理能力而非感知能力,研究團隊為每個環(huán)境添加了詳細的視覺標注。在PHYRE中,他們在場景上疊加了5×5的網(wǎng)格;在I-PHYRE和Kinetix中,為交互元素添加了數(shù)字標簽;在Pooltool中,將3D視圖轉(zhuǎn)換為更適合AI處理的2D俯視圖。

動作空間的設(shè)計同樣經(jīng)過了深思熟慮的簡化。研究團隊發(fā)現(xiàn),當前的視覺語言模型在生成連續(xù)動作參數(shù)方面表現(xiàn)很差。因此,他們將所有環(huán)境的連續(xù)動作空間都轉(zhuǎn)換為離散的結(jié)構(gòu)化格式。比如在PHYRE中,將連續(xù)的坐標放置轉(zhuǎn)換為網(wǎng)格選擇;在Pooltool中,將復雜的力度和旋轉(zhuǎn)參數(shù)轉(zhuǎn)換為預定義的選項組合。這種處理確保了AI模型能夠?qū)W⒂谖锢硗评肀旧?,而不是被動作生成的技術(shù)細節(jié)所困擾。

研究團隊還設(shè)計了兩種不同的提示策略來測試模型的能力。視覺-語言-動作(VLA)格式讓模型直接基于環(huán)境規(guī)則、當前視覺觀察和歷史失敗記錄來輸出動作。而世界模型(WM)格式則要求模型不僅輸出動作,還要預測這個動作會產(chǎn)生的環(huán)境變化。這種對比設(shè)計旨在測試模型是否真正具備內(nèi)在的物理預測能力。

四、令人震撼的實驗結(jié)果:AI的物理推理盲點

當研究團隊公布實驗結(jié)果時,即使是最樂觀的研究者也感到震驚。這些結(jié)果就像是給AI界潑了一盆冷水,讓人們清醒地認識到當前AI技術(shù)在物理推理方面的嚴重不足。

在總體性能方面,幾乎所有的開源模型都無法超越隨機行動的基線水平。這意味著這些模型的表現(xiàn)還不如完全隨機的選擇。即使是最先進的閉源模型,表現(xiàn)也令人失望。在PHYRE環(huán)境中,表現(xiàn)最好的GPT-o3模型經(jīng)過10次嘗試后的成功率僅為23.1%??紤]到這個任務對人類來說并不困難,這個結(jié)果凸顯了AI在物理直覺方面的巨大缺陷。

更令人擔憂的是模型在學習適應方面的表現(xiàn)。在多次嘗試的任務中,大多數(shù)模型都表現(xiàn)出了學習效率低下的問題。它們無法從失敗的嘗試中有效學習,也無法建立準確的內(nèi)在世界模型來指導后續(xù)決策。這就像一個學生在數(shù)學考試中,即使告訴他前面幾道題做錯了,他也無法調(diào)整策略來正確解答后面的題目。

在Kinetix環(huán)境中,隨著任務復雜度的增加,所有模型的表現(xiàn)都出現(xiàn)了斷崖式下降。在簡單的S級任務中,一些模型還能達到50-60%的成功率,但在復雜的L級任務中,幾乎所有模型的成功率都跌至10%以下。這種急劇下降說明當前AI模型缺乏處理多組件協(xié)調(diào)控制的能力。

在比較不同提示策略時,研究團隊發(fā)現(xiàn)了一個反直覺的現(xiàn)象:要求模型預測物理結(jié)果的世界模型(WM)策略并沒有比直接輸出動作的VLA策略表現(xiàn)更好,在很多情況下甚至更差。這個發(fā)現(xiàn)揭示了一個關(guān)鍵問題:即使模型能夠生成看似正確的物理描述,這種描述性知識也無法有效轉(zhuǎn)化為精確的控制行為。

研究團隊還發(fā)現(xiàn)了一些有趣的細節(jié)。比如在Pooltool環(huán)境中,某些模型表現(xiàn)出了誤導性的"完美"表現(xiàn)。GPT-4o-mini在設(shè)定溫度為0.1時表現(xiàn)出完全確定性的行為,每次都輸出相同的動作,恰好在第8次嘗試時成功。這種成功完全依賴于環(huán)境的確定性和簡單粗暴的策略,與真正的物理推理能力無關(guān)。

五、深層問題的揭示:描述與控制的鴻溝

通過詳細分析模型的失敗模式,研究團隊發(fā)現(xiàn)了一個深層次的問題:當前AI模型的物理理解主要是描述性的,而非預測性和程序性的。這種差異就像理論駕駛和實際駕駛的區(qū)別一樣根本。

在Kinetix環(huán)境的案例研究中,研究團隊觀察到一個典型的失敗模式。某個模型能夠準確預測第一次嘗試的結(jié)果:"綠色物體將激活左側(cè)和底部推進器,向右上方移動,遠離紅色地面和右側(cè)紅色垂直障礙物,接近右上角的藍色目標。"這個預測完全正確,第一次嘗試也確實成功了。但在第二次嘗試時,模型重復了完全相同的動作,沒有考慮到物體現(xiàn)在處于不同位置和具有不同動量的事實,結(jié)果直接撞上了障礙物。

這種失敗模式揭示了一個關(guān)鍵問題:模型缺乏狀態(tài)感知的控制能力。它們能夠基于初始狀態(tài)做出合理的預測,但無法根據(jù)動態(tài)變化的狀態(tài)調(diào)整策略。這就像一個GPS導航系統(tǒng)只能在出發(fā)時規(guī)劃路線,但無法根據(jù)實時交通狀況進行調(diào)整。

在Cut the Rope環(huán)境中,問題變得更加明顯。研究團隊發(fā)現(xiàn),即使是最先進的模型也無法準確感知游戲中的基本視覺元素。當要求模型計算場景中繩索的數(shù)量時,它們經(jīng)常給出錯誤答案,即使在研究人員的提示下進行修正,準確率仍然很低。這種基礎(chǔ)感知能力的缺陷嚴重限制了后續(xù)的推理過程。

更深層的問題在于時空推理能力的不足。在需要精確時機控制的任務中,模型往往要么過早行動,要么猶豫不決。它們無法像人類那樣直覺地判斷最佳行動時機,比如在繩索擺動到最高點時切斷以獲得最大水平距離。

六、對未來AI發(fā)展的深遠啟示

DeepPHY的研究結(jié)果對AI領(lǐng)域具有深遠的啟示意義。這些發(fā)現(xiàn)不僅暴露了當前技術(shù)的局限性,也為未來的研究方向提供了重要指引。

首先,這項研究證明了評估AI物理推理能力的重要性和緊迫性。傳統(tǒng)的靜態(tài)問答評估無法反映AI在動態(tài)環(huán)境中的真實表現(xiàn)。就像評估一個醫(yī)生的能力不能僅僅通過筆試,還需要臨床實踐考核一樣,評估AI的智能水平也需要更加全面和動態(tài)的測試環(huán)境。

研究結(jié)果還揭示了當前AI訓練方法的一個根本缺陷:過分依賴描述性知識而忽視了程序性技能的培養(yǎng)?,F(xiàn)有的大語言模型雖然掌握了大量的物理學知識,但這些知識主要以文本形式存儲,無法有效轉(zhuǎn)化為實際的控制行為。這就像一個人熟讀了所有的游泳教程,但從未下過水一樣。

對于未來的AI系統(tǒng)設(shè)計,這項研究強調(diào)了集成感知、推理和控制能力的重要性。單純提升模型的語言理解能力或視覺識別能力是不夠的,真正的智能需要這些能力的有機結(jié)合。這種集成不是簡單的模塊組合,而需要在系統(tǒng)層面進行深度融合。

研究還表明,當前的AI模型在處理物理世界的不確定性和動態(tài)性方面存在根本缺陷。真實世界中的物理過程往往涉及復雜的非線性動力學,需要系統(tǒng)能夠處理意外情況和適應性調(diào)整。這要求未來的AI系統(tǒng)具備更強的魯棒性和適應性。

從技術(shù)發(fā)展的角度來看,這項研究指出了幾個關(guān)鍵的研究方向。首先是需要開發(fā)更好的物理仿真和推理能力,讓AI系統(tǒng)能夠建立準確的內(nèi)在世界模型。其次是需要改進學習算法,使模型能夠從交互經(jīng)驗中快速學習和適應。最后是需要探索新的架構(gòu)設(shè)計,更好地整合感知、推理和控制功能。

對于AI安全和可靠性來說,這項研究也具有重要意義。如果AI系統(tǒng)要在真實世界中執(zhí)行任務,特別是涉及物理交互的任務,那么準確的物理推理能力是基礎(chǔ)前提。缺乏這種能力的系統(tǒng)可能會產(chǎn)生不可預測的行為,帶來安全風險。

說到底,DeepPHY的研究讓我們重新審視了AI智能的本質(zhì)。真正的智能不僅僅是信息處理和模式識別,更重要的是能夠在復雜的物理世界中進行有效的推理和行動。當前的AI系統(tǒng)雖然在某些任務上表現(xiàn)出色,但在物理推理這個基礎(chǔ)能力上仍然遠遠落后于人類。這提醒我們,通往真正人工智能的道路還很漫長,需要更多的基礎(chǔ)研究和技術(shù)突破。

這項研究也為我們提供了一個重要的評估工具。DeepPHY不僅是一個基準測試,更是一個研究平臺,可以幫助研究者系統(tǒng)地分析和改進AI模型的物理推理能力。隨著更多研究團隊使用這個平臺,我們期待看到AI在物理推理方面的持續(xù)進步。

最終,DeepPHY的價值不僅在于揭示了當前AI的不足,更在于為未來的發(fā)展指明了方向。只有真正理解和解決這些基礎(chǔ)問題,AI才能真正走向成熟,在更廣泛的應用場景中發(fā)揮價值。對于那些關(guān)心AI發(fā)展前景的人來說,這項研究既是一個警示,也是一個機遇——它告訴我們還有多少工作要做,同時也展示了未來可能的突破方向。

Q&A

Q1:DeepPHY是什么?它主要測試AI的哪些能力?

A:DeepPHY是阿里巴巴團隊開發(fā)的首個專門評估AI視覺語言模型物理推理能力的綜合平臺。它通過六個不同的物理環(huán)境(包括PHYRE、I-PHYRE、Kinetix、Pooltool、Angry Birds和Cut the Rope)來測試AI模型是否能像人類一樣理解物理世界的運作規(guī)律,并在動態(tài)環(huán)境中做出正確的物理推理和控制決策。

Q2:目前最先進的AI模型在DeepPHY測試中表現(xiàn)如何?

A:表現(xiàn)令人失望。即使是最強大的模型如GPT-o3,在不同環(huán)境中的成功率也遠低于人類水平。比如在PHYRE環(huán)境中僅有23.1%的成功率,而在一些復雜任務中,大多數(shù)開源模型的表現(xiàn)甚至不如隨機選擇。更重要的是,研究發(fā)現(xiàn)AI模型雖然能描述物理現(xiàn)象,但無法將描述性知識轉(zhuǎn)化為有效的控制行為。

Q3:DeepPHY的研究結(jié)果對AI發(fā)展有什么重要意義?

A:這項研究揭示了當前AI技術(shù)的一個根本缺陷:缺乏真正的物理推理和動態(tài)控制能力。它表明僅僅提升語言理解或視覺識別能力是不夠的,真正的智能需要感知、推理和控制能力的深度整合。這為未來AI系統(tǒng)設(shè)計指明了方向,強調(diào)了開發(fā)更好的物理仿真能力、改進學習算法以及探索新架構(gòu)設(shè)計的重要性。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-