av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<ruby id="pkz2v"><samp id="pkz2v"><center id="pkz2v"></center></samp></ruby>

<nobr id="pkz2v"></nobr>

微信掃一掃，關(guān)注公眾號

科技行者
算力行者

見證連接與計算的「力量」

KAUST團(tuán)隊開發(fā)PHYSGYM：讓AI學(xué)會像科學(xué)家一樣發(fā)現(xiàn)物理定律

人工智能科學(xué)推理實驗平臺

KAUST團(tuán)隊開發(fā)PHYSGYM：讓AI學(xué)會像科學(xué)家一樣發(fā)現(xiàn)物理定律

作者：科技行者

2025-07-25 11:48

分享至：

KAUST研究團(tuán)隊開發(fā)了PHYSGYM測試平臺，用于評估大語言模型在物理科學(xué)發(fā)現(xiàn)中的推理能力。該平臺通過精確控制先驗知識水平，測試AI在不同信息條件下進(jìn)行實驗設(shè)計和規(guī)律發(fā)現(xiàn)的能力。研究發(fā)現(xiàn)當(dāng)前AI模型嚴(yán)重依賴先驗知識進(jìn)行模式匹配，缺乏真正的科學(xué)推理能力，為未來AI科學(xué)家的發(fā)展提供了重要洞察和標(biāo)準(zhǔn)化評估工具。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-07-25 11:48 ? 科技行者

這項由沙特阿拉伯阿卜杜拉國王科技大學(xué)（KAUST）生成式人工智能卓越中心的陳一盟等研究人員領(lǐng)導(dǎo)的研究，于2025年7月發(fā)表在預(yù)印本網(wǎng)站arXiv上，論文編號為arXiv:2507.15550v1。感興趣的讀者可以通過該編號在arXiv.org上找到完整論文。研究團(tuán)隊還包括來自瑞士人工智能實驗室和NNAISENSE公司的研究人員。

當(dāng)我們看到一個鐘擺在擺動時，物理學(xué)家的大腦會自動開始思考：擺動周期和繩子長度有什么關(guān)系？如果改變重力會怎樣？這種從現(xiàn)象到規(guī)律的思考過程，正是科學(xué)發(fā)現(xiàn)的核心。現(xiàn)在，研究人員想知道：人工智能是否也能學(xué)會這樣的科學(xué)思維？

這個問題比想象中復(fù)雜得多。目前的大語言模型雖然在很多任務(wù)上表現(xiàn)出色，但它們在科學(xué)發(fā)現(xiàn)方面的能力卻很難評估。就像考試一樣，如果你給學(xué)生提供了所有答案的線索，很難判斷他們是真正理解了原理，還是僅僅善于模式匹配。同樣，如果AI模型在解決物理問題時已經(jīng)知道了變量名稱（比如"質(zhì)量"、"重力"）和問題背景，那它可能只是在調(diào)用訓(xùn)練時見過的知識，而不是真正進(jìn)行科學(xué)推理。

為了解決這個評估難題，KAUST的研究團(tuán)隊開發(fā)了一個全新的測試平臺，叫做PHYSGYM（物理體育館）。這個平臺的巧妙之處在于，它可以精確控制給AI提供多少"線索"，從而真正測試AI的科學(xué)推理能力。

PHYSGYM的核心創(chuàng)新在于它的"先驗知識控制系統(tǒng)"。研究人員將這種控制比作給偵探不同數(shù)量的線索來破案。在最高級別（Level 1）中，AI得到完整的案件描述、所有物理量的詳細(xì)說明和規(guī)范的變量命名。這就像給偵探提供完整的案件檔案、所有證人證詞和清晰的線索標(biāo)簽。在這種情況下，AI主要需要進(jìn)行推理和模式匹配。

隨著級別的降低，研究團(tuán)隊開始逐漸"剝奪"AI的線索。在Level 2中，AI失去了問題的完整描述，只知道變量的物理含義。這就像偵探失去了案件背景資料，但還能識別每個證據(jù)的類型。到了Level 3，變量的物理含義也被隱藏，AI只能看到意義不明的描述。最嚴(yán)苛的Level 4中，甚至連變量的名稱都被匿名化為"var1"、"var2"等，AI必須完全靠實驗和觀察來發(fā)現(xiàn)規(guī)律，就像偵探在沒有任何背景信息的情況下，純憑現(xiàn)場證據(jù)破案。

這個設(shè)計理念反映了科學(xué)發(fā)現(xiàn)的本質(zhì)區(qū)別。當(dāng)我們拿到一個已知是"簡諧振子"的鐘擺問題，并且看到"長度"、"重力"這樣的變量名時，答案幾乎是顯而易見的。但如果你不知道這是什么系統(tǒng)，變量也只是神秘的數(shù)字編號，那就必須通過大量實驗來發(fā)現(xiàn)其中的規(guī)律，這才是真正的科學(xué)發(fā)現(xiàn)過程。

PHYSGYM包含了97個精心設(shè)計的物理問題，涵蓋力學(xué)、電學(xué)、光學(xué)、熱力學(xué)、現(xiàn)代物理和高級物理六個領(lǐng)域。每個問題都不是靜態(tài)的題目，而是一個可以互動的虛擬實驗環(huán)境。AI可以像真正的科學(xué)家一樣，設(shè)計實驗、收集數(shù)據(jù)、提出假設(shè)、驗證理論。

這個平臺的工作原理類似于一個復(fù)雜的實驗室管理系統(tǒng)。AI研究員可以向系統(tǒng)申請進(jìn)行特定參數(shù)設(shè)置的實驗，系統(tǒng)會返回相應(yīng)的觀測結(jié)果。同時，系統(tǒng)還設(shè)置了實驗預(yù)算限制，就像真實研究中的時間和資源約束一樣。AI必須在有限的實驗次數(shù)內(nèi)，找出隱藏在數(shù)據(jù)背后的物理定律。

評估系統(tǒng)也相當(dāng)嚴(yán)格。PHYSGYM不僅檢查AI提出的公式是否在數(shù)學(xué)上等價于正確答案，還評估這個公式與實驗數(shù)據(jù)的擬合程度。這就像科學(xué)期刊的同行評議，不僅要求理論正確，還要求與實驗證據(jù)吻合。

研究團(tuán)隊選擇了三個代表性的大語言模型進(jìn)行測試：谷歌的Gemini-2.5-flash、OpenAI的o4-mini和Anthropic的Claude-3.7-Sonnet。前兩個是具有"推理能力"的模型，而Claude則是傳統(tǒng)的對話模型。

實驗結(jié)果既在意料之中，又頗為令人意外。正如預(yù)期，隨著先驗知識的減少，所有模型的成功率都顯著下降。在擁有完整信息的Level 1中，Gemini和o4-mini的成功率分別達(dá)到66%和63%，而在最困難的Level 4中，成功率降至31%和28%。這表明當(dāng)前的AI模型確實嚴(yán)重依賴于先驗知識。

更有趣的是，研究人員發(fā)現(xiàn)了一些反直覺的現(xiàn)象。有些問題在信息較少的情況下反而被解決了，而在信息更豐富時卻失敗了。這說明有時候過多的先驗信息可能會誤導(dǎo)模型，讓它過分依賴已有知識而忽視實驗證據(jù)。

Claude模型的表現(xiàn)尤其值得關(guān)注。它的整體成功率較低，但在不同級別間的差異也較小。這暗示著它可能更多地依賴內(nèi)在偏見，而不是有效利用給定的信息進(jìn)行推理。

當(dāng)研究人員按問題復(fù)雜度分析結(jié)果時，發(fā)現(xiàn)了另一個重要規(guī)律：對于簡單問題，先驗知識的作用相對有限；但對于復(fù)雜問題（涉及10個或更多變量），模型幾乎完全依賴于完整的先驗信息。這揭示了當(dāng)前AI在處理高維復(fù)雜系統(tǒng)時的局限性。

從實驗設(shè)計的角度看，當(dāng)先驗信息減少時，所有模型都增加了實驗次數(shù)，這是一個積極的信號。這說明它們確實在嘗試通過更多的數(shù)據(jù)收集來彌補(bǔ)信息的不足。Gemini從Level 1的平均10.6次實驗增加到Level 4的20.6次，o4-mini從7.2次增加到20.1次。

然而，僅僅增加實驗次數(shù)是不夠的。研究人員發(fā)現(xiàn)，模型在實驗設(shè)計上仍有很大改進(jìn)空間。以一個相對論性反射鏡的問題為例，所有模型都只在Level 1成功解決了問題。在缺少背景信息時，它們無法設(shè)計出足夠極端的實驗條件來觀察相對論效應(yīng)，總是選擇保守的參數(shù)范圍，導(dǎo)致觀測到的都是平凡的結(jié)果。

另一個有趣的案例涉及電磁學(xué)中的管狀電場問題。在這個問題中，某些級別的表現(xiàn)竟然比信息更完整的級別更差。研究人員分析發(fā)現(xiàn)，這是因為變量命名的偏見。當(dāng)變量保持物理意義的命名時，模型傾向于構(gòu)造符合命名習(xí)慣的公式，但這些公式可能偏離正確答案。而當(dāng)變量完全匿名化時，模型反而能更客觀地基于數(shù)據(jù)進(jìn)行推理。

第三個案例展示了先驗知識如何限制創(chuàng)新。在一個旋轉(zhuǎn)速度測控裝置的問題中，擁有完整背景信息的模型反而表現(xiàn)更差。研究人員發(fā)現(xiàn)，這是因為背景信息讓模型過分拘泥于"現(xiàn)實可能"的參數(shù)范圍，而不敢嘗試可能揭示真實規(guī)律的極端條件。

這些發(fā)現(xiàn)對AI科學(xué)發(fā)現(xiàn)的未來發(fā)展具有重要意義。首先，當(dāng)前的大語言模型在真正的科學(xué)發(fā)現(xiàn)任務(wù)中仍有很大局限性，尤其是在缺乏先驗知識的情況下。其次，先驗知識并非總是有益的，有時甚至可能成為創(chuàng)新的障礙。最后，有效的實驗設(shè)計能力是科學(xué)發(fā)現(xiàn)的關(guān)鍵，而這正是當(dāng)前AI模型最需要改進(jìn)的方面。

PHYSGYM平臺的意義不僅在于暴露了當(dāng)前AI的不足，更在于為改進(jìn)AI科學(xué)家提供了一個標(biāo)準(zhǔn)化的訓(xùn)練和測試環(huán)境。就像體育訓(xùn)練需要標(biāo)準(zhǔn)化的測試來衡量運(yùn)動員的真實水平一樣，AI科學(xué)家的培養(yǎng)也需要這樣的"體育館"。

研究團(tuán)隊還計劃擴(kuò)展PHYSGYM的功能。目前的問題集雖然覆蓋了物理學(xué)的主要領(lǐng)域，但仍相對固定。未來他們希望開發(fā)自動生成新物理環(huán)境的方法，讓這個平臺能夠持續(xù)提供新的挑戰(zhàn)。同時，他們也在思考如何更好地量化問題復(fù)雜度，不僅僅依賴方程長度和變量數(shù)量這些簡單指標(biāo)。

這項研究還揭示了一個更深層的哲學(xué)問題：什么是真正的科學(xué)發(fā)現(xiàn)？是基于已有知識的邏輯推演，還是在未知領(lǐng)域的探索和假設(shè)驗證？PHYSGYM的設(shè)計暗示，真正的科學(xué)發(fā)現(xiàn)更接近后者。這也提醒我們，在開發(fā)AI科學(xué)家時，不能只關(guān)注其存儲和調(diào)用知識的能力，更要培養(yǎng)其在不確定環(huán)境中的探索和推理能力。

從技術(shù)角度看，這項研究為評估和改進(jìn)AI的科學(xué)推理能力提供了寶貴的工具。研究人員可以使用PHYSGYM來測試不同AI架構(gòu)、訓(xùn)練方法和提示策略的效果，從而推動AI科學(xué)家技術(shù)的發(fā)展。

對普通公眾而言，這項研究展示了AI發(fā)展的一個重要方向：從被動的信息處理者轉(zhuǎn)變?yōu)橹鲃拥闹R發(fā)現(xiàn)者。雖然當(dāng)前的AI在這方面還有很大局限性，但PHYSGYM這樣的研究正在為實現(xiàn)真正的AI科學(xué)家鋪平道路?；蛟S在不遠(yuǎn)的將來，我們真的能看到AI獨(dú)立發(fā)現(xiàn)新的物理定律，為人類的科學(xué)探索開辟全新的道路。

說到底，PHYSGYM不僅僅是一個測試平臺，更是對科學(xué)發(fā)現(xiàn)本質(zhì)的深刻思考。它提醒我們，真正的科學(xué)發(fā)現(xiàn)需要的不只是知識的積累，更需要在未知中探索的勇氣和智慧。當(dāng)我們的AI助手能夠像優(yōu)秀的科學(xué)家一樣，在面對完全陌生的現(xiàn)象時仍能設(shè)計巧妙的實驗、提出大膽的假設(shè)、進(jìn)行嚴(yán)謹(jǐn)?shù)尿炞C，那才是真正的人工智能科學(xué)家的誕生。這個目標(biāo)或許還需要時間來實現(xiàn)，但PHYSGYM已經(jīng)為我們指明了方向，讓我們看到了AI科學(xué)發(fā)現(xiàn)的無限可能。

Q&A

Q1：PHYSGYM是什么？它能測試AI的哪些能力？ A：PHYSGYM是由KAUST團(tuán)隊開發(fā)的AI科學(xué)推理測試平臺，包含97個物理問題的虛擬實驗環(huán)境。它能測試AI在不同信息條件下進(jìn)行科學(xué)發(fā)現(xiàn)的能力，特別是實驗設(shè)計、假設(shè)形成和規(guī)律發(fā)現(xiàn)等核心科學(xué)推理技能。

Q2：為什么減少先驗知識會讓AI表現(xiàn)變差？這說明了什么問題？ A：減少先驗知識讓AI無法依賴訓(xùn)練時見過的模式進(jìn)行匹配，必須真正進(jìn)行科學(xué)推理。結(jié)果顯示所有模型的成功率都大幅下降，說明當(dāng)前AI主要靠知識匹配而非真正的科學(xué)發(fā)現(xiàn)能力，這暴露了AI在創(chuàng)新性思維方面的局限。

Q3：PHYSGYM對未來AI科學(xué)家的發(fā)展有什么意義？ A：PHYSGYM提供了標(biāo)準(zhǔn)化的訓(xùn)練和測試環(huán)境，讓研究人員能夠系統(tǒng)評估和改進(jìn)AI的科學(xué)推理能力。它不僅暴露了當(dāng)前AI的不足，還為培養(yǎng)真正具備科學(xué)發(fā)現(xiàn)能力的AI指明了方向，推動AI從信息處理者向知識發(fā)現(xiàn)者轉(zhuǎn)變。

人工智能科學(xué)推理實驗平臺

分享至

0贊

好文章，需要你的鼓勵

推薦文章

音頻生成
大語言模型
多模態(tài)AI

2025-09-10 09:47

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實驗室團(tuán)隊AudioStory突破性進(jìn)展

騰訊ARC實驗室推出AudioStory系統(tǒng)，首次實現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù)，通過交錯式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練，能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異，為AI音頻創(chuàng)作開辟新方向。
視頻生成
深度學(xué)習(xí)
多模態(tài)學(xué)習(xí)

2025-09-09 13:57

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù)，通過讓AI同時學(xué)習(xí)外觀和運(yùn)動信息，顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運(yùn)動質(zhì)量，在多項測試中超越包括Sora在內(nèi)的商業(yè)模型，為AI視頻生成的實用化應(yīng)用奠定了重要基礎(chǔ)。
多模態(tài)AI
人類價值觀對齊
數(shù)據(jù)集構(gòu)建

2025-09-09 13:56

上海AI實驗室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價值觀對齊難題

上海AI實驗室發(fā)布OmniAlign-V研究，首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn)，通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法，讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平，為AI價值觀對齊提供了可行技術(shù)路徑。
人工智能
圖神經(jīng)網(wǎng)絡(luò)
天氣預(yù)報

2025-09-09 10:56

谷歌研究團(tuán)隊發(fā)布超級預(yù)測模型：讓AI像天氣預(yù)報員一樣預(yù)測全球大氣變化

谷歌DeepMind團(tuán)隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型，能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報，準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù)，通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律，在極端天氣預(yù)測方面表現(xiàn)卓越，能耗僅為傳統(tǒng)方法的千分之一，為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實驗室團(tuán)隊AudioStory突破性進(jìn)展

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實驗室團(tuán)隊AudioStory突破性進(jìn)展

2025-09-10 09:47

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

2025-09-09 13:57

上海AI實驗室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價值觀對齊難題

上海AI實驗室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價值觀對齊難題

2025-09-09 13:56

谷歌研究團(tuán)隊發(fā)布超級預(yù)測模型：讓AI像天氣預(yù)報員一樣預(yù)測全球大氣變化

谷歌研究團(tuán)隊發(fā)布超級預(yù)測模型：讓AI像天氣預(yù)報員一樣預(yù)測全球大氣變化

2025-09-09 10:56

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時代

京ICP證15039648號京ICP備15039648號-9 京公網(wǎng)安備 11010802021500號

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報電話：010-62641205　涉未成年人舉報專線：010-62641208 舉報郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報專區(qū)：https://www.12377.cn

<abbr id="d00j1"><rp id="d00j1"></rp></abbr>

<nav id="d00j1"><strong id="d00j1"></strong></nav>

<menuitem id="d00j1"><delect id="d00j1"></delect></menuitem>