av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 世界模型的全新架構:卡內基梅隆大學團隊提出PAN模型,讓AI擁有"大腦中的虛擬世界"

世界模型的全新架構:卡內基梅隆大學團隊提出PAN模型,讓AI擁有"大腦中的虛擬世界"

2025-07-18 09:35
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-07-18 09:35 ? 科技行者

想象一下,如果AI能夠像人類一樣在大腦中構建一個完整的虛擬世界,在這個世界里進行各種"思想實驗",預測不同行為的后果,然后選擇最佳方案——這聽起來像科幻小說,但卡內基梅隆大學的研究團隊正在將其變?yōu)楝F(xiàn)實。

這項由卡內基梅隆大學計算機科學學院的Eric Xing教授、Mingkai Deng、Jinyu Hou,以及加州大學圣地亞哥分校的Zhiting Hu教授聯(lián)合完成的研究發(fā)表于2025年7月,論文標題為《Critiques of World Models》。研究團隊不僅深入分析了當前世界模型的各種問題,更提出了一個名為PAN(Physical, Agentic, and Nested)的全新架構。有興趣深入了解的讀者可以通過arXiv:2507.05169v1訪問完整論文。

研究團隊從科幻經(jīng)典《沙丘》中獲得靈感。在這部小說中,預言者能夠在腦海中模擬所有可能的未來,從而做出最優(yōu)決策。正如小說中的預言者能夠"看見"無數(shù)種可能的未來一樣,研究團隊希望讓AI系統(tǒng)也能擁有類似的能力——在內部構建一個完整的世界模型,用來進行各種假設性思考和推理。

當前的AI系統(tǒng)面臨一個根本性問題:它們缺乏對世界的整體理解。就像一個只會背書的學生,它們可以回答很多問題,但無法真正理解事物之間的關系,更無法預測自己的行為會產生什么后果。這就是為什么現(xiàn)在的AI雖然能寫詩、能畫畫,但在需要長期規(guī)劃或復雜決策的任務上表現(xiàn)并不理想。

研究團隊發(fā)現(xiàn),這個問題的核心在于現(xiàn)有的"世界模型"存在諸多局限。世界模型就像AI系統(tǒng)的"大腦地圖",它應該幫助AI理解世界的運行規(guī)律,預測行為的后果。但現(xiàn)在大多數(shù)研究都過分專注于生成漂亮的視頻畫面,卻忽略了模型的真正目的——為智能推理服務。

一、現(xiàn)有世界模型的根本缺陷

想象你正在學習駕駛,有兩種不同的學習方式。第一種是只看駕駛教學視頻,關注畫面是否清晰、色彩是否鮮艷;第二種是真正理解交通規(guī)則、路況變化、以及不同駕駛行為可能帶來的后果。顯然,第二種方式才能培養(yǎng)出真正的駕駛技能。

然而,當前的世界模型研究大多采用了第一種方式。研究團隊深入分析了現(xiàn)有的各類世界模型系統(tǒng),發(fā)現(xiàn)它們都存在共同的問題:過分關注視覺效果,忽略了智能推理的本質需求。

以游戲世界模型為例,像Google DeepMind的Genie 2、微軟的Muse以及Decart公司的Oasis等系統(tǒng)確實能生成看起來很逼真的游戲畫面,甚至能持續(xù)1-2分鐘的連續(xù)游戲內容。但這些系統(tǒng)的問題在于它們太過專門化——Genie 2只能處理特定類型的游戲控制輸入,Oasis只適用于類似Minecraft的環(huán)境。更重要的是,它們的"記憶"很短暫,無法進行真正的長期規(guī)劃。就像一個失憶癥患者,它們只能記住最近幾分鐘發(fā)生的事情,無法制定需要幾小時甚至幾天才能完成的復雜策略。

另一類備受關注的3D場景世界模型,如World Labs的系統(tǒng),雖然能生成視覺上令人印象深刻的三維場景,但本質上只是靜態(tài)環(huán)境的展示。它們缺乏動態(tài)交互、物理因果關系,以及多智能體行為的模擬能力。這就像擁有一個精美的電影布景,看起來很真實,但里面的物體都是假的,無法進行真正的互動。

物理世界模型如Wayve的GAIA-2和NVIDIA的Cosmos在模擬低級物理控制方面表現(xiàn)出色,能夠很好地處理自動駕駛、機器人操作等任務。但它們的問題在于過度專門化,只能在特定領域發(fā)揮作用,無法處理跨領域的復雜情況。

更有趣的是,那些被廣泛關注的視頻生成模型,如OpenAI的Sora和Google DeepMind的Veo,雖然能生成視覺上令人驚嘆的視頻,但從世界模型的角度來看,它們存在根本性缺陷。這些模型只是在生成固定的視頻序列,無法根據(jù)不同的行為輸入產生相應的反應。它們缺乏對狀態(tài)、行動以及物體級別表示的明確概念,也無法進行反事實推理。用研究團隊的話說,這些系統(tǒng)更像是"視頻生成工具"而非真正的"決策系統(tǒng)組件"。

二、當前主流思路的五大誤區(qū)

研究團隊識別出了當前世界模型研究中的五個主要誤區(qū),就像診斷一個復雜疾病時需要找出所有癥狀一樣。

第一個誤區(qū)是對數(shù)據(jù)類型的錯誤認知。目前有一種觀點認為,感官數(shù)據(jù)(如視頻、音頻)比文本數(shù)據(jù)更重要,因為"一個4歲兒童處理的視覺數(shù)據(jù)有1.1×10^14字節(jié),而訓練現(xiàn)代大語言模型的所有文本數(shù)據(jù)只有0.9×10^14字節(jié)"。這種觀點看似有道理,但實際上犯了一個根本性錯誤:混淆了數(shù)據(jù)量和信息密度。

以一本厚厚的字典和一張高清照片為例。從數(shù)據(jù)量來看,高清照片可能占用更多存儲空間,但字典包含的語義信息遠比單張照片豐富。文本語言是人類經(jīng)過數(shù)千年進化形成的經(jīng)驗壓縮,它不僅包含物理現(xiàn)實,還包含心理、社會和反事實現(xiàn)象的豐富信息。正義、動機、后悔這樣的概念在語言中有豐富的表達,但在純視覺數(shù)據(jù)中卻很難直接觀察到。

更重要的是,語言提供了通向人類集體記憶的接口——包括歷史記錄、科學發(fā)現(xiàn)、工程經(jīng)驗等,這些信息幾乎不可能僅從原始感知輸入中獲得。事實證明,基于文本訓練的模型能夠編寫軟件、解決奧林匹克級別的數(shù)學問題,而僅基于視覺和運動數(shù)據(jù)訓練的模型主要適用于物理導航或操作任務。

第二個誤區(qū)涉及表示方式的選擇。有觀點認為應該避免使用離散標記(tokens),而應該用連續(xù)嵌入來表示世界狀態(tài),以便進行基于梯度的優(yōu)化。但這種觀點忽略了人類認知的一個重要特點:我們通過將原始感知分類為離散概念來應對變化和噪聲。

基于詞匯的標記不是負擔,而是優(yōu)勢。它們提供了穩(wěn)定、可組合的媒介來表示各個抽象層次的概念。這些標記構成了當今語言AI系統(tǒng)的基礎,讓大語言模型能夠模擬這個由自然語言形成的潛在空間中的內容??梢哉f,語言空間是人類通過進化和學習創(chuàng)造的,用來表示可感知和可描述宇宙的人工潛在空間。

研究團隊通過嚴格的數(shù)學證明表明,離散表示能夠保持任意精細的區(qū)分,只要我們適當?shù)財U展它們。他們提出了兩種策略:增加詞匯量大小(縱向擴展)或增加序列長度(橫向擴展)。理論分析顯示,橫向擴展(使用更長的表達)比縱向擴展(使用更大的詞匯)更有效率。這意味著使用增強的大語言模型架構能夠提供更靈活、更高效的路徑來捕獲數(shù)據(jù)中的復雜結構。

第三個誤區(qū)是對自回歸生成模型的誤解。有些研究者認為應該避免使用自回歸模型,因為它們"注定會犯錯,無法建模結果的不確定性"。但這種觀點忽略了一個關鍵事實:許多真實世界系統(tǒng)本質上就是混沌的,微小偏差會隨時間指數(shù)級增長。

在這種情況下,精確預測是不可能的,無論使用什么模型類別。然而,結構良好的自回歸模型仍能學習系統(tǒng)的有用抽象屬性,這些屬性往往具有驚人的穩(wěn)定性和可預測性。這一見解基于遍歷理論和統(tǒng)計力學的深刻洞察。

第四個誤區(qū)關于訓練目標的選擇。目前流行的JEPA(Joint Embedding Predictive Architecture)框架主張放棄概率性數(shù)據(jù)重構目標,而采用基于能量的潛在重構目標,認為這樣更易處理。但研究團隊通過嚴格的數(shù)學分析證明,這種方法容易導致表示坍塌——模型可能通過將所有觀察映射到常數(shù)向量來輕松最小化損失,從而學不到任何有用信息。

相比之下,生成重構損失通過引入解碼器并直接監(jiān)督預測的下一個觀察,將學習目標錨定在可觀察數(shù)據(jù)的結構上,從而避免了這種坍塌問題。研究團隊進一步證明,潛在重構本質上只是生成重構的一個上界受限的代理,這意味著最小化潛在損失并不能保證與智能體在世界中實際觀察到的內容保持一致。

第五個誤區(qū)涉及模型的使用方式。有觀點認為應該使用模型預測控制(MPC)而非強化學習(RL),理由是后者需要太多試驗。但MPC存在實際限制:它需要在每個推理時間步重復進行潛在軌跡模擬,導致計算開銷很大,難以在快速變化的環(huán)境中有效響應。

而RL是一種通用、靈活、可擴展的方法,不會限制決策方法或搜索范圍。特別是,可以用世界模型替代真實環(huán)境進行探索和學習。這種方法將部分計算成本轉移到訓練階段,而不是在決策時從頭開始規(guī)劃,能夠訓練出可重用的策略網(wǎng)絡,實現(xiàn)快速行動選擇。

三、PAN架構:一個全新的解決方案

基于對現(xiàn)有方法深入分析后,研究團隊提出了PAN(Physical, Agentic, and Nested)世界模型架構。這個名字很好地概括了其核心特點:物理性(Physical)、智能體特性(Agentic)和嵌套性(Nested)。

為了更好地理解PAN的設計理念,研究團隊選擇了一個極具挑戰(zhàn)性的應用場景——登山探險。這個選擇很有深意,因為登山涉及了世界模型需要處理的幾乎所有復雜性:多模態(tài)感官輸入、多層次決策、長期規(guī)劃、社交協(xié)調,以及各種不確定性。

在登山過程中,世界模型必須處理來自視覺、聽覺、溫度、運動甚至疼痛等多種感官信號。這些信號對不同任務的重要性各不相同,但它們共同構成了一個整體的現(xiàn)實體驗。比如,在做路徑規(guī)劃時,地形的宏觀特征比巖石表面的細節(jié)更重要;但在決定手腳放置位置時,表面的紋理和摩擦力又變得至關重要。

PAN的核心創(chuàng)新在于采用了混合表示和多尺度推理原則。它通過感官編碼器處理多模態(tài)輸入,同時使用離散和連續(xù)路徑來捕獲世界的互補方面。一方面,分詞器將原始信號分層映射為基于PAN詞匯的離散標記,這些標記跨越多個抽象層次,包括通過VQ-VAE風格方法學習的抽象標記,以及來自自然語言的具體詞匯。另一方面,PAN也將低級細節(jié)編碼為連續(xù)潛在嵌入,以在必要時捕獲完整的細致感知體驗。

這些標記和嵌入共同形成了世界狀態(tài)的分層估計。與傳統(tǒng)方法不同,這種表示可以包含靈活數(shù)量的標記,以緊湊地反映世界信息的深層結構:我在哪里?誰和我在一起?我有什么工具?我的情緒狀態(tài)如何?正如研究團隊在理論分析中所證明的,這種表示形式足以捕獲相關信息,即使對于像視頻這樣的連續(xù)數(shù)據(jù)也是如此。

PAN的世界模型骨干采用了增強的大語言模型和基于擴散的下一個潛在嵌入預測器的組合。這個設計是對前面提到的生成潛在預測(GLP)架構的具體實現(xiàn)。大語言模型骨干能夠對自然語言標記和學習的概念詞匯進行推理,支持跨領域的廣泛泛化。在訓練和推理過程中,模型還可以通過引入新標記或合并現(xiàn)有標記來動態(tài)擴展其詞匯,以最大化預測質量。

與此同時,基于擴散的嵌入預測器負責快速、低級別,通常是潛意識的推理,這些推理對于具身響應至關重要,但又難以用語言表達。這個模塊模擬詳細的感知體驗,比如腳點是否穩(wěn)固,或者在攀爬時身體如何調整重心。學習開關允許PAN通過自適應組合這些不同組件來分層預測下一個世界狀態(tài)。

為了監(jiān)督其預測并允許訓練好的世界模型與可能使用其輸出的外部智能體或人類進行交互,PAN使用多模態(tài)解碼器重構下一個觀察,并將其與實際觀察進行比較。關鍵是,解碼器的輸出不限于視頻,而是包括完整的感官體驗,可能包括聲音、溫度、運動、疼痛以及其他具身信號,甚至文本。

這種生成監(jiān)督將預測的世界狀態(tài)錨定在感官現(xiàn)實中,確保表示保留所有可能的信息,同時允許解碼器吸收剩余變異性。這種方法與在下一個表示預測上訓練的模型形成鮮明對比,后者純粹在潛在空間中監(jiān)督世界模型,最多只是生成目標的松散代理,并且容易出現(xiàn)表示坍塌或不可識別性問題。

四、PAN的訓練策略與實際應用

PAN的訓練采用分而治之的策略,這種方法既實用又高效。首先通過自監(jiān)督學習獨立預訓練各個模塊——比如用文本數(shù)據(jù)預訓練大語言模型,用視頻數(shù)據(jù)預訓練擴散模型。然后在后訓練階段使用多模態(tài)數(shù)據(jù)、級聯(lián)嵌入和梯度傳播來對齊或集成這些模塊。

這種策略的一個關鍵優(yōu)勢是數(shù)據(jù)效率。由于采用了多尺度和分層的世界視圖,PAN在處理高度復雜可能性時不需要依賴捕獲所有復雜性的數(shù)據(jù)。在登山任務中,當進行導航和路徑規(guī)劃推理時,世界狀態(tài)不需要包含像素級的雪或巖石表面細節(jié);而在決定攀爬時手腳放置位置時,世界狀態(tài)可以忽略地理背景。

因此,模擬高度復雜可能性的世界模型不需要依賴一次性捕獲所有復雜性的數(shù)據(jù),而是可以利用在不同層面提供信息的不同類型數(shù)據(jù)。比如,旅行書籍可以提供路徑指南和地圖閱讀信息,室內視頻可以提供攀巖和裝備使用技巧。期望存在全面覆蓋高山攀登所有方面的大型視頻語料庫是不現(xiàn)實的。許多通用能力(如社交推理、旅行規(guī)劃、寒冷天氣生存)可以從豐富的語言數(shù)據(jù)中學習。只有直接的具身技能(如腳步放置、攀巖技巧)需要視頻或本體感覺等物理數(shù)據(jù),這些可以在受控或模擬環(huán)境中獲得。

PAN的預訓練-對齊/集成策略使感官信息能夠通過大語言模型在更高層次、更豐富的背景中得到基礎,從而促進跨模態(tài)泛化。同時,嵌入在大語言模型中的抽象知識可以錨定到具體的具身體驗,提高系統(tǒng)推理的精確性和現(xiàn)實感。結果是一個像人類一樣從多樣化經(jīng)驗中獲得常識理解的世界模型。因此,它不需要為每個特定任務提供詳盡的訓練數(shù)據(jù),而是可以從許多領域獲得的概念知識中進行推理。

五、走向智能體推理的新范式

PAN不僅僅是一個技術架構,更代表了一種全新的智能體推理范式。傳統(tǒng)的AI系統(tǒng)要么依賴反應式策略(像條件反射一樣立即響應),要么依賴模型預測控制(在決策時進行昂貴的實時模擬)。PAN提出了第三種方式:預計算和緩存。

在這種新范式下,PAN智能體會預先計算并緩存各種可能的世界狀態(tài)、這些狀態(tài)中的合理行動,以及它們的模擬結果。在決策時,智能體不是僅僅依賴昂貴的實時模擬,而是咨詢這個緩存,并根據(jù)當前信念和預期獎勵選擇行動。這種模擬與行動選擇的解耦使智能體能夠更深思熟慮地、適應性地、選擇性地進行推理,避免了純反應式策略的剛性和持續(xù)前向推演的計算負擔。

這種方法更接近人類認知——我們會提前規(guī)劃,應對不確定性,在想象的未來中進行選擇。這樣的智能體可能最終接近人類智能的適應性、韌性和自主性特征。

研究團隊認為,隨著世界模型越來越多地成為推理、想象和行動的基礎,像PAN這樣具有經(jīng)驗基礎、多層抽象和實證可擴展性的框架,為開發(fā)穩(wěn)健、通用的AI提供了令人信服的基礎。

展望未來,PAN框架開啟了幾個有前途的方向:從單智能體擴展到多智能體模擬(如企業(yè)、社會的集體行為,公共健康的后果),跨時間尺度擴展(從毫秒到千年),提高跨模態(tài)的模擬保真度,以及使智能體直接通過想象經(jīng)驗進行學習。

說到底,這項研究不僅提供了一個技術解決方案,更重要的是它重新定義了我們對"智能"的理解。真正的智能不在于生成漂亮的圖像或回答孤立的問題,而在于能夠在復雜、動態(tài)的世界中進行深入的推理和規(guī)劃。PAN架構向我們展示了一條通往這種真正智能的可能路徑,雖然距離科幻小說中的場景還很遙遠,但這種基于"思想實驗"的智能范式可能真的是通向更強大AI的關鍵一步。

歸根結底,我們正站在一個轉折點上。過去幾年,AI在語言和圖像生成方面取得了驚人進展,但要實現(xiàn)真正的通用人工智能,我們需要的不僅僅是更好的內容生成器,而是能夠像人類一樣進行復雜推理和規(guī)劃的系統(tǒng)。PAN提供的不僅是一個新的技術架構,更是一種全新的思維方式——把AI系統(tǒng)從"反應器"轉變?yōu)檎嬲?思考者"。這種轉變可能最終會讓AI系統(tǒng)具備我們一直夢寐以求的那種深度智能和適應能力。

感興趣的讀者如果想深入了解這項研究的技術細節(jié)和數(shù)學證明,可以通過論文編號arXiv:2507.05169v1在相關學術數(shù)據(jù)庫中查找完整論文。

Q&A

Q1:世界模型到底是什么?它和我們常見的AI有什么不同? A:世界模型就像AI的"大腦地圖",它讓AI能夠在內部構建一個虛擬世界來進行"思想實驗"。和現(xiàn)在的AI不同,世界模型不只是回答問題或生成內容,而是能夠預測"如果我這樣做會發(fā)生什么",就像人類在行動前會在腦海中預演可能的結果一樣。

Q2:PAN模型會不會讓AI變得過于強大而難以控制? A:目前PAN還在研究階段,距離實際應用還有很長路要走。而且PAN的設計理念是讓AI更好地理解世界規(guī)律和行為后果,這實際上可能讓AI變得更可預測、更容易控制,因為它的決策過程更透明,更接近人類的推理方式。

Q3:普通人什么時候能用上基于PAN架構的AI系統(tǒng)? A:這項研究目前還處于理論框架階段,研究團隊承諾會在后續(xù)論文中提供具體實現(xiàn)細節(jié)和實驗結果??紤]到技術開發(fā)和測試的復雜性,普通消費者可能需要等待數(shù)年才能體驗到基于這種架構的AI產品。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-