av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁 AI視頻能懂物理定律嗎?Google DeepMind用396個(gè)視頻測(cè)出了真相

AI視頻能懂物理定律嗎?Google DeepMind用396個(gè)視頻測(cè)出了真相

2025-09-15 14:41
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-09-15 14:41 ? 科技行者

這是一個(gè)關(guān)于人工智能的有趣故事。當(dāng)我們看到AI制作的視頻越來越逼真,甚至能夠生成電影級(jí)別的畫面時(shí),你有沒有想過一個(gè)問題:這些AI真的理解物理世界的運(yùn)作規(guī)律嗎?還是說,它們只是非常善于模仿,就像一個(gè)技藝高超的畫家,能夠畫出栩栩如生的蘋果,但并不真正理解蘋果為什么會(huì)從樹上掉下來?

Google DeepMind的研究團(tuán)隊(duì)最近就這個(gè)問題展開了一項(xiàng)深入研究。這項(xiàng)由INSAIT索菲亞大學(xué)的Saman Motamed領(lǐng)導(dǎo)、與Google DeepMind合作完成的研究于2025年2月28日發(fā)表,完整論文可通過arXiv:2501.09038獲取。研究團(tuán)隊(duì)包括來自Google DeepMind的Laura Culp、Kevin Swersky、Priyank Jaini和Robert Geirhos等學(xué)者,他們共同設(shè)計(jì)了一個(gè)名為"Physics-IQ"的全新評(píng)測(cè)體系。

研究的核心問題其實(shí)很簡(jiǎn)單:當(dāng)前那些能夠生成令人驚嘆視頻的AI模型,比如OpenAI的Sora、Runway Gen 3、Pika 1.0等,它們是否真正理解了物理世界的基本規(guī)律?還是說,它們只是憑借強(qiáng)大的計(jì)算能力和海量數(shù)據(jù),學(xué)會(huì)了如何拼接出看起來很真實(shí)的畫面?

為了回答這個(gè)問題,研究團(tuán)隊(duì)就像是要給AI學(xué)生出一份物理考試題一樣,創(chuàng)建了一個(gè)包含396個(gè)真實(shí)視頻的測(cè)試數(shù)據(jù)集。這些視頻覆蓋了五個(gè)主要的物理學(xué)領(lǐng)域:固體力學(xué)、流體動(dòng)力學(xué)、光學(xué)、熱力學(xué)和磁學(xué)。每個(gè)視頻都是精心設(shè)計(jì)的物理實(shí)驗(yàn)場(chǎng)景,比如多米諾骨牌倒塌時(shí)中間放個(gè)橡皮鴨會(huì)發(fā)生什么,或者把水壺和一張紙分別扔到枕頭上會(huì)有什么不同的反應(yīng)。

研究團(tuán)隊(duì)使用高質(zhì)量的索尼Alpha a6400相機(jī),從左、中、右三個(gè)不同角度拍攝每個(gè)場(chǎng)景,每個(gè)場(chǎng)景還要拍攝兩次以捕捉真實(shí)世界物理現(xiàn)象的自然變化。這樣做的目的是為了確保測(cè)試的嚴(yán)謹(jǐn)性,就像醫(yī)學(xué)研究中需要對(duì)照組一樣。

測(cè)試方法很巧妙。研究團(tuán)隊(duì)給AI模型展示視頻的前3秒作為"題目",然后讓它們預(yù)測(cè)接下來5秒會(huì)發(fā)生什么。這就好比給學(xué)生看一個(gè)球從桌子邊緣滾落的開始畫面,然后問它接下來會(huì)發(fā)生什么。如果AI真正理解重力、慣性這些物理規(guī)律,它應(yīng)該能準(zhǔn)確預(yù)測(cè)球會(huì)沿著拋物線軌跡落地,而不是飛向天花板或者突然停在半空中。

為了評(píng)估AI的表現(xiàn),研究團(tuán)隊(duì)設(shè)計(jì)了四套評(píng)價(jià)標(biāo)準(zhǔn)。第一個(gè)標(biāo)準(zhǔn)叫"空間IoU",簡(jiǎn)單說就是看AI預(yù)測(cè)的動(dòng)作位置是否正確,就像考察學(xué)生能否正確指出球會(huì)落在地板的哪個(gè)位置。第二個(gè)是"時(shí)空IoU",不僅要看位置對(duì)不對(duì),還要看時(shí)間對(duì)不對(duì),球應(yīng)該在什么時(shí)候落地。第三個(gè)是"加權(quán)空間IoU",考察的是動(dòng)作的強(qiáng)度是否合理,比如重物落下的沖擊應(yīng)該比輕物更大。最后一個(gè)是"均方誤差"(MSE),這是最嚴(yán)格的標(biāo)準(zhǔn),要求畫面細(xì)節(jié)都要盡可能接近真實(shí)情況。

研究團(tuán)隊(duì)測(cè)試了八個(gè)當(dāng)前最先進(jìn)的AI視頻生成模型,包括大家熟知的Sora、Runway Gen 3、Pika 1.0,還有Lumiere、Stable Video Diffusion和VideoPoet等。測(cè)試結(jié)果讓人既驚訝又不那么意外。

結(jié)果顯示,即使是表現(xiàn)最好的VideoPoet多幀版本,其物理理解能力得分也只有29.5%,而理論上的滿分是100%(這個(gè)滿分是通過比較同一場(chǎng)景的兩次真實(shí)拍攝得出的)。這意味著,當(dāng)前最強(qiáng)的AI視頻模型在理解物理規(guī)律方面還有巨大的提升空間。

更有趣的是,研究團(tuán)隊(duì)發(fā)現(xiàn)視覺真實(shí)度和物理理解能力之間幾乎沒有關(guān)聯(lián)。Sora生成的視頻在視覺上最難被人工智能助手識(shí)別出是假的(成功率只有55.6%,接近隨機(jī)猜測(cè)的50%),說明它的視覺效果確實(shí)很逼真。但在物理理解方面,Sora的得分卻只有10%,在所有測(cè)試模型中排名最后。這就像一個(gè)藝術(shù)家能夠畫出極其逼真的鳥類圖畫,但如果要求他預(yù)測(cè)鳥兒的飛行軌跡,他可能就完全不知所措了。

研究還發(fā)現(xiàn)了一些有趣的細(xì)節(jié)。能夠接收多幀輸入的AI模型(比如VideoPoet和Lumiere的多幀版本)普遍比只能接收單張圖片的模型表現(xiàn)更好,這符合我們的直覺——看到更多信息當(dāng)然能做出更準(zhǔn)確的預(yù)測(cè)。同時(shí),不同物理現(xiàn)象的難度也不一樣,所有模型在空間定位方面(即預(yù)測(cè)動(dòng)作會(huì)在哪里發(fā)生)表現(xiàn)相對(duì)較好,但在時(shí)間預(yù)測(cè)和動(dòng)作強(qiáng)度判斷方面則表現(xiàn)較差。

在具體的物理領(lǐng)域表現(xiàn)上,各個(gè)模型都有自己的"強(qiáng)項(xiàng)"和"弱項(xiàng)"。比如在固體力學(xué)方面,涉及物體碰撞、材料變形等現(xiàn)象,一些模型表現(xiàn)尚可;但在流體動(dòng)力學(xué)方面,比如液體傾倒、混合等現(xiàn)象,大部分模型就顯得力不從心了。光學(xué)現(xiàn)象(如反射、折射)、熱力學(xué)現(xiàn)象(如蒸發(fā)、傳熱)和磁學(xué)現(xiàn)象更是讓這些AI模型"頭疼不已"。

研究團(tuán)隊(duì)在論文中展示了一些成功和失敗的具體案例。成功的案例包括VideoPoet能夠正確模擬轉(zhuǎn)動(dòng)的畫筆蘸取顏料并在玻璃板上涂抹的過程,Runway Gen 3能夠準(zhǔn)確預(yù)測(cè)紅色液體倒在橡皮鴨上的效果。但失敗的例子同樣引人深思:比如AI無法正確模擬球落入塑料箱的過程,或者用刀切橘子時(shí)的物理反應(yīng)。

這項(xiàng)研究揭示了當(dāng)前AI技術(shù)的一個(gè)重要局限性:視覺逼真度并不等同于對(duì)物理世界的真正理解。這個(gè)發(fā)現(xiàn)對(duì)AI發(fā)展有著深遠(yuǎn)的意義。

從技術(shù)層面來看,這項(xiàng)研究表明當(dāng)前的AI視頻生成模型主要依賴的是模式匹配和統(tǒng)計(jì)學(xué)習(xí),而非對(duì)物理規(guī)律的深層理解。它們就像是一個(gè)記憶力超強(qiáng)的學(xué)生,能夠背出教科書上的所有內(nèi)容,但在面對(duì)全新情況時(shí)就不知道該如何應(yīng)用這些知識(shí)了。

這種局限性的根源可能在于訓(xùn)練方式。當(dāng)前的AI模型主要通過"預(yù)測(cè)下一幀"的方式學(xué)習(xí),雖然這種方法在語言模型(如GPT)中取得了巨大成功,但對(duì)于物理世界的理解可能還不夠。物理世界涉及因果關(guān)系、作用力與反作用力等復(fù)雜概念,這些可能需要更深層的推理能力,而不僅僅是模式識(shí)別。

研究團(tuán)隊(duì)還討論了一個(gè)更深層的哲學(xué)問題:僅僅通過觀察是否能夠真正理解世界?這個(gè)問題在人工智能和認(rèn)知科學(xué)領(lǐng)域一直存在爭(zhēng)議。一派觀點(diǎn)認(rèn)為,通過大量觀察和預(yù)測(cè)訓(xùn)練,AI最終能夠獲得對(duì)物理世界的深層理解,就像人類嬰兒通過觀察世界學(xué)習(xí)物理直覺一樣。另一派則認(rèn)為,真正的理解需要與環(huán)境的互動(dòng),需要能夠進(jìn)行實(shí)驗(yàn)、觀察因果關(guān)系,而不是被動(dòng)地觀看視頻。

從實(shí)際應(yīng)用的角度來看,這項(xiàng)研究的發(fā)現(xiàn)對(duì)于AI在各個(gè)領(lǐng)域的應(yīng)用都有重要啟示。比如在自動(dòng)駕駛領(lǐng)域,如果AI不能真正理解物理規(guī)律,它可能無法準(zhǔn)確預(yù)測(cè)其他車輛或行人的行為。在機(jī)器人技術(shù)方面,缺乏物理直覺的機(jī)器人可能無法勝任需要精確操作的任務(wù)。在虛擬現(xiàn)實(shí)和游戲開發(fā)中,這種局限性可能會(huì)影響用戶體驗(yàn)的真實(shí)感。

不過,研究結(jié)果并非完全悲觀。雖然當(dāng)前模型的整體表現(xiàn)不盡如人意,但在某些特定場(chǎng)景下,它們已經(jīng)能夠展現(xiàn)出一定的物理理解能力。這說明通過觀察學(xué)習(xí)物理規(guī)律是有可能的,只是當(dāng)前的技術(shù)還不夠成熟。隨著計(jì)算能力的提升、數(shù)據(jù)集的擴(kuò)大和算法的改進(jìn),未來的AI模型很可能在物理理解方面取得突破性進(jìn)展。

研究團(tuán)隊(duì)還觀察到一些有趣的現(xiàn)象。比如,一些功能更強(qiáng)大的模型(如Runway Gen 3和Sora)在生成過程中會(huì)出現(xiàn)"幻覺"現(xiàn)象,即憑空創(chuàng)造出原本不存在的物體。但有趣的是,這些幻覺往往與場(chǎng)景的上下文保持一致,比如在火柴點(diǎn)燃場(chǎng)景中突然出現(xiàn)蠟燭,這表明模型至少具備了一定的上下文理解能力。

數(shù)據(jù)集的質(zhì)量和設(shè)計(jì)也值得特別關(guān)注。與許多現(xiàn)有的物理推理測(cè)試數(shù)據(jù)集不同,Physics-IQ使用的是真實(shí)世界的視頻,而不是計(jì)算機(jī)生成的合成畫面。這避免了"真實(shí)世界-合成數(shù)據(jù)"之間的分布差異問題,使得評(píng)測(cè)結(jié)果更加可靠。每個(gè)場(chǎng)景從三個(gè)不同角度拍攝,每次拍攝兩遍,這種設(shè)計(jì)不僅保證了數(shù)據(jù)的多樣性,還能量化真實(shí)世界中物理現(xiàn)象的自然變化范圍。

研究方法的創(chuàng)新性也值得稱贊。通過設(shè)計(jì)需要深度物理理解才能解決的"分布外"場(chǎng)景(比如多米諾骨牌中間放橡皮鴨),研究團(tuán)隊(duì)確保了測(cè)試不能簡(jiǎn)單通過記憶訓(xùn)練數(shù)據(jù)來解決,而必須真正理解物理原理。這種設(shè)計(jì)思路對(duì)其他AI能力評(píng)估研究也很有借鑒意義。

評(píng)價(jià)指標(biāo)的設(shè)計(jì)同樣巧妙。四個(gè)不同的評(píng)價(jià)維度分別測(cè)試了AI對(duì)"在哪里"、"何時(shí)"、"多大程度"和"如何"等不同方面的理解,形成了一個(gè)相對(duì)完整的評(píng)估體系。雖然這些指標(biāo)都是間接測(cè)量,不能直接量化物理現(xiàn)象本身,但它們提供的綜合信息足以判斷AI的物理理解水平。

值得注意的是,研究團(tuán)隊(duì)使用多模態(tài)大語言模型(Gemini 1.5 Pro)來評(píng)估視覺真實(shí)度也是一個(gè)有趣的創(chuàng)新。通過讓AI判斷哪個(gè)是生成的視頻,研究團(tuán)隊(duì)避免了人工評(píng)估的主觀性問題,同時(shí)也展示了當(dāng)前AI技術(shù)在這方面的能力水平。

研究限制方面,團(tuán)隊(duì)也很誠實(shí)地承認(rèn)了一些不足。比如,評(píng)價(jià)指標(biāo)可能對(duì)某些類型的錯(cuò)誤(如物體幻覺、鏡頭切換等)過于嚴(yán)格,這可能影響了某些模型(特別是Sora)的得分。此外,指標(biāo)設(shè)計(jì)雖然全面,但仍然是物理理解的間接測(cè)量,無法直接評(píng)估模型對(duì)物理原理本身的掌握程度。

從更廣闊的視角來看,這項(xiàng)研究觸及了人工智能發(fā)展中的一個(gè)核心問題:如何讓機(jī)器真正理解世界,而不僅僅是模仿表面現(xiàn)象。這個(gè)問題不僅在計(jì)算機(jī)視覺和視頻生成領(lǐng)域重要,在自然語言處理、機(jī)器人學(xué)、自動(dòng)駕駛等眾多AI應(yīng)用領(lǐng)域都同樣關(guān)鍵。

研究團(tuán)隊(duì)已經(jīng)將Physics-IQ數(shù)據(jù)集和評(píng)估代碼開源,這為后續(xù)研究提供了寶貴的資源。其他研究者可以使用這個(gè)基準(zhǔn)測(cè)試來評(píng)估新的模型,推動(dòng)整個(gè)領(lǐng)域的發(fā)展。這種開放的研究態(tài)度對(duì)科學(xué)進(jìn)步非常重要。

說到底,這項(xiàng)研究給我們上了重要的一課:表面的逼真和深層的理解是兩回事。當(dāng)前的AI視頻生成技術(shù)雖然在視覺效果上已經(jīng)達(dá)到了令人印象深刻的水平,但在理解支撐這些視覺現(xiàn)象的物理規(guī)律方面還有很長(zhǎng)的路要走。這并不意味著我們應(yīng)該對(duì)AI的發(fā)展感到悲觀,恰恰相反,這個(gè)發(fā)現(xiàn)為未來的研究指明了明確的方向。

對(duì)于普通用戶來說,這意味著在使用AI生成的視頻內(nèi)容時(shí)需要保持一定的警惕性,特別是在需要物理精確性的應(yīng)用場(chǎng)景中。對(duì)于研究者來說,這項(xiàng)工作提供了一個(gè)清晰的挑戰(zhàn):如何讓AI不僅能夠生成漂亮的畫面,更能真正理解支撐這些畫面的物理世界。

未來的研究可能需要探索新的訓(xùn)練方法,比如結(jié)合物理模擬器的訓(xùn)練、引入更多交互式學(xué)習(xí)機(jī)制,或者開發(fā)能夠進(jìn)行物理推理的新架構(gòu)。也許,真正的突破將來自于跨學(xué)科的合作,融合計(jì)算機(jī)科學(xué)、物理學(xué)、認(rèn)知科學(xué)和神經(jīng)科學(xué)的最新成果。

無論如何,Physics-IQ為我們提供了一個(gè)重要的里程碑,讓我們能夠量化AI在物理理解方面的真實(shí)水平,并為未來的改進(jìn)提供了明確的目標(biāo)。正如研究團(tuán)隊(duì)所說,雖然視覺真實(shí)度不等于物理理解,但這個(gè)發(fā)現(xiàn)本身就是推動(dòng)AI向更深層智能發(fā)展的重要一步。有興趣深入了解這項(xiàng)研究的讀者可以通過arXiv:2501.09038訪問完整論文,也可以在GitHub上找到相關(guān)的代碼和數(shù)據(jù)集。

Q&A

Q1:Physics-IQ測(cè)試是什么?它如何評(píng)判AI視頻模型的物理理解能力?

A:Physics-IQ是Google DeepMind開發(fā)的AI物理理解能力測(cè)試,包含396個(gè)真實(shí)物理實(shí)驗(yàn)視頻。測(cè)試方法是給AI模型展示3秒視頻開頭,讓它預(yù)測(cè)后續(xù)5秒的物理變化。通過四個(gè)評(píng)價(jià)標(biāo)準(zhǔn)(動(dòng)作位置、時(shí)間準(zhǔn)確性、強(qiáng)度合理性和畫面細(xì)節(jié))來判斷AI是否真正理解重力、碰撞、流體等物理規(guī)律,而不只是憑記憶拼接畫面。

Q2:為什么Sora視頻看起來很真實(shí),但物理理解得分卻很低?

A:這正是研究的重要發(fā)現(xiàn):視覺逼真度與物理理解能力是兩回事。Sora在視覺效果上確實(shí)出色,連AI助手都很難識(shí)別出是假視頻,但它主要是通過模式匹配來生成畫面,而不是真正理解物理規(guī)律。就像一個(gè)畫家能畫出逼真的蘋果,但不一定懂蘋果為什么會(huì)掉下來。這種"表面功夫"在復(fù)雜物理場(chǎng)景中就暴露了局限性。

Q3:當(dāng)前AI視頻模型在哪些物理現(xiàn)象上表現(xiàn)最差?這對(duì)實(shí)際應(yīng)用有什么影響?

A:AI模型在流體動(dòng)力學(xué)、熱力學(xué)和磁學(xué)方面表現(xiàn)最差,在時(shí)間預(yù)測(cè)和動(dòng)作強(qiáng)度判斷上也很困難。比如無法正確預(yù)測(cè)液體傾倒、物體受熱變化等現(xiàn)象。這意味著在需要精確物理模擬的場(chǎng)景中(如自動(dòng)駕駛、工業(yè)仿真、機(jī)器人操作),當(dāng)前AI可能會(huì)做出錯(cuò)誤判斷,影響安全性和可靠性。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-