就在幾個(gè)月前,斯坦福大學(xué)安全AI中心的研究團(tuán)隊(duì)發(fā)表了一項(xiàng)引人深思的研究成果。這項(xiàng)由Long Phan、Mantas Mazeika、Andy Zou和Dan Hendrycks領(lǐng)導(dǎo)的研究發(fā)表于2025年8月,論文題目為《TEXTQUESTS: HOW GOOD ARE LLMS AT TEXT-BASED VIDEO GAMES?》,有興趣深入了解的讀者可以通過arXiv:2507.23701v2訪問完整論文。
這個(gè)研究團(tuán)隊(duì)做了一件看似簡(jiǎn)單卻意義深遠(yuǎn)的事情:他們讓當(dāng)今最先進(jìn)的大語言模型去玩1980年代的經(jīng)典文字冒險(xiǎn)游戲。聽起來好像是在開玩笑,但實(shí)際上這是一個(gè)非常嚴(yán)肅的科學(xué)實(shí)驗(yàn)。研究人員選擇了25款來自著名游戲公司Infocom的經(jīng)典作品,包括大家可能聽說過的《銀河系漫游指南》和《魔域傳奇》等游戲。
為什么要讓AI玩這些老游戲呢?答案比你想象的更有趣。這些文字冒險(xiǎn)游戲就像是一個(gè)完美的實(shí)驗(yàn)室,可以測(cè)試AI在復(fù)雜環(huán)境中的推理能力。當(dāng)人類玩家玩這些游戲時(shí),需要記住大量信息,從錯(cuò)誤中學(xué)習(xí),制定長(zhǎng)期策略,并且要有極強(qiáng)的耐心——有些游戲需要數(shù)百個(gè)精確的操作和超過30小時(shí)的游戲時(shí)間才能通關(guān)。
研究團(tuán)隊(duì)想要回答一個(gè)關(guān)鍵問題:當(dāng)AI面臨需要長(zhǎng)期思考和反復(fù)嘗試的復(fù)雜任務(wù)時(shí),它們的表現(xiàn)到底如何?這個(gè)問題的答案對(duì)于理解AI的真實(shí)能力至關(guān)重要,因?yàn)楝F(xiàn)實(shí)世界中的大多數(shù)重要任務(wù)都需要這種持續(xù)的、自主的推理能力。
一、游戲世界里的AI大考驗(yàn)
要理解這項(xiàng)研究的重要性,我們首先需要了解什么是文字冒險(xiǎn)游戲?;氐?980年代,還沒有精美的3D畫面和華麗的視覺效果,玩家完全通過閱讀文字描述來了解游戲世界,然后輸入簡(jiǎn)單的文字命令來控制角色行動(dòng)。比如,游戲可能會(huì)告訴你"你站在一座古老城堡的門前,門緊緊關(guān)閉著,旁邊有一把生銹的鑰匙",然后你需要輸入"拿起鑰匙"或"用鑰匙開門"這樣的命令。
這聽起來很簡(jiǎn)單,但實(shí)際上這些游戲極其復(fù)雜。玩家需要探索龐大的虛擬世界,解決復(fù)雜的謎題,管理物品清單,記住各種線索,并且要在沒有任何視覺提示的情況下構(gòu)建整個(gè)游戲世界的心理地圖。更重要的是,玩家經(jīng)常會(huì)遇到死胡同或者做出錯(cuò)誤的決定,需要回頭重新思考策略。
研究團(tuán)隊(duì)選擇了25款這樣的經(jīng)典游戲作為測(cè)試平臺(tái)。這些游戲包括《魔域傳奇》系列、《銀河系漫游指南》、《見證人》等經(jīng)典作品。每一款游戲都有自己獨(dú)特的挑戰(zhàn):有些需要解決復(fù)雜的邏輯謎題,有些需要精確的時(shí)間管理,還有些需要玩家具備偵探般的推理能力。
為了讓測(cè)試更加公平和全面,研究團(tuán)隊(duì)設(shè)計(jì)了兩種不同的測(cè)試模式。第一種是"無提示模式",AI必須完全依靠自己的推理能力來玩游戲,就像一個(gè)完全沒有游戲經(jīng)驗(yàn)的新手玩家。第二種是"有提示模式",AI可以訪問游戲的官方提示手冊(cè)。這些提示手冊(cè)在當(dāng)年是單獨(dú)銷售的,包含了解決各種謎題的漸進(jìn)式提示,但即使有了這些提示,玩家仍然需要理解如何將提示應(yīng)用到具體的游戲情況中。
研究團(tuán)隊(duì)還引入了一個(gè)重要的功能:自動(dòng)保存機(jī)制。就像人類玩家會(huì)定期保存游戲進(jìn)度一樣,AI也可以在任何時(shí)候回到之前的游戲狀態(tài)。這個(gè)功能特別重要,因?yàn)樵谖淖置半U(xiǎn)游戲中,玩家經(jīng)常需要嘗試不同的策略,或者從錯(cuò)誤的決定中恢復(fù)過來。
為了準(zhǔn)確衡量AI的表現(xiàn),研究團(tuán)隊(duì)開發(fā)了一個(gè)新的評(píng)估標(biāo)準(zhǔn)。傳統(tǒng)的游戲評(píng)分系統(tǒng)并不能很好地反映玩家在主要任務(wù)上的真實(shí)進(jìn)展,因?yàn)檫@些分?jǐn)?shù)往往獎(jiǎng)勵(lì)探索和實(shí)驗(yàn),而不是朝向游戲結(jié)局的實(shí)際進(jìn)步。因此,研究團(tuán)隊(duì)創(chuàng)建了"游戲進(jìn)度"指標(biāo),通過標(biāo)記游戲中的關(guān)鍵檢查點(diǎn)來衡量AI是否真正朝著完成游戲的目標(biāo)前進(jìn)。
二、當(dāng)頂級(jí)AI遭遇古老智慧
當(dāng)研究團(tuán)隊(duì)讓當(dāng)今最先進(jìn)的大語言模型開始這場(chǎng)游戲大冒險(xiǎn)時(shí),結(jié)果既令人驚訝又發(fā)人深省。他們測(cè)試了包括GPT-5、Claude Opus、Grok 4、Gemini 2.5 Pro等在內(nèi)的多個(gè)頂級(jí)模型,這些都是目前被認(rèn)為最聰明的AI系統(tǒng)。
在沒有任何提示的情況下,即使是最強(qiáng)大的GPT-5也只能完成37.8%的游戲進(jìn)度,而且竟然沒有一個(gè)AI能夠完整通關(guān)任何一款游戲。這個(gè)結(jié)果相當(dāng)震撼,要知道這些AI在回答各種知識(shí)問題、編寫代碼、甚至進(jìn)行復(fù)雜推理時(shí)都表現(xiàn)得相當(dāng)出色,但面對(duì)需要長(zhǎng)期規(guī)劃和持續(xù)探索的文字冒險(xiǎn)游戲時(shí),它們的表現(xiàn)卻如此有限。
更有趣的是,當(dāng)AI獲得了游戲的官方提示手冊(cè)后,情況有了明顯改善,但仍然遠(yuǎn)未達(dá)到令人滿意的水平。GPT-5的游戲進(jìn)度提升到了71.2%,成功通關(guān)了5款游戲。Claude Opus達(dá)到了68%的進(jìn)度,通關(guān)了4款游戲。其他模型的表現(xiàn)也都有不同程度的提升,但整體來說,即使有了詳細(xì)的提示,大多數(shù)AI仍然無法掌握游戲的精髓。
這個(gè)現(xiàn)象特別值得深思。這些AI模型擁有龐大的知識(shí)庫(kù),能夠處理復(fù)雜的語言任務(wù),但當(dāng)面對(duì)需要在長(zhǎng)時(shí)間內(nèi)保持連貫思考、從試錯(cuò)中學(xué)習(xí)、構(gòu)建空間概念的任務(wù)時(shí),它們顯露出了明顯的局限性。
研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)有趣的規(guī)律:模型的規(guī)模越大,在這類任務(wù)上的表現(xiàn)越好。GPT-5比GPT-5-mini表現(xiàn)明顯更好,Gemini 2.5 Pro比Gemini 2.5 Flash表現(xiàn)更出色。這表明處理這類復(fù)雜的探索性任務(wù)確實(shí)需要更強(qiáng)大的計(jì)算能力和更復(fù)雜的推理機(jī)制。
通過分析AI在游戲中的具體表現(xiàn),研究團(tuán)隊(duì)還發(fā)現(xiàn)了一些引人注目的行為模式。隨著游戲進(jìn)行,AI需要處理的文本信息越來越多,有些情況下會(huì)超過10萬個(gè)文本單元。在這種情況下,AI開始出現(xiàn)各種問題:它們會(huì)忘記之前拾取過的物品,錯(cuò)誤地認(rèn)為自己已經(jīng)完成了某些任務(wù),或者在同一個(gè)地方反復(fù)打轉(zhuǎn)而不知道自己已經(jīng)陷入了循環(huán)。
一個(gè)典型的例子發(fā)生在《魔域傳奇》游戲中。AI需要記住自己之前把一本火柴冊(cè)放在了工作室,但在數(shù)百步的游戲進(jìn)行后,它卻錯(cuò)誤地認(rèn)為火柴冊(cè)被放在了亞特蘭蒂斯房間。這種錯(cuò)誤看似微小,但卻導(dǎo)致了游戲策略的完全偏差。另一個(gè)例子是在《許愿者》游戲中,AI需要沿著懸崖向下走,這只需要反向執(zhí)行之前向上爬的操作序列,但AI卻無法從自己的游戲歷史中準(zhǔn)確提取這個(gè)信息。
三、AI思維的深層局限性
通過深入分析AI在文字冒險(xiǎn)游戲中的表現(xiàn),研究團(tuán)隊(duì)揭示了當(dāng)前大語言模型在長(zhǎng)期推理方面的幾個(gè)關(guān)鍵局限性。這些發(fā)現(xiàn)不僅對(duì)游戲AI有重要意義,更對(duì)我們理解AI的認(rèn)知能力提供了寶貴洞察。
首先是長(zhǎng)文本理解能力的衰減問題。隨著游戲的進(jìn)行,AI需要處理的信息量呈指數(shù)級(jí)增長(zhǎng)。每一次行動(dòng)都會(huì)產(chǎn)生新的觀察結(jié)果,而這些信息都需要被保存在AI的"記憶"中。當(dāng)文本長(zhǎng)度超過一定閾值后,AI開始出現(xiàn)明顯的記憶混亂。它們會(huì)產(chǎn)生虛假記憶,比如認(rèn)為自己做過實(shí)際上沒有做的事情,或者完全忘記重要的游戲事件。
這個(gè)問題在空間推理任務(wù)中表現(xiàn)得尤為明顯。在文字冒險(xiǎn)游戲中,玩家需要在腦海中構(gòu)建一個(gè)完整的游戲世界地圖,記住各個(gè)房間之間的連接關(guān)系,物品的位置,以及各種交互的可能性。人類玩家通常會(huì)在紙上畫出地圖,或者在腦海中形成清晰的空間概念。但AI缺乏這種空間建模能力,經(jīng)常在相同的地點(diǎn)之間來回移動(dòng),或者迷失在簡(jiǎn)單的空間結(jié)構(gòu)中。
另一個(gè)有趣的發(fā)現(xiàn)是AI的"重復(fù)陷阱"現(xiàn)象。隨著上下文長(zhǎng)度的增加,AI越來越傾向于重復(fù)之前的行動(dòng),而不是嘗試新的策略。這種行為模式類似于人類在壓力或疲勞狀態(tài)下的表現(xiàn),但對(duì)于AI來說,這種重復(fù)行為往往導(dǎo)致游戲進(jìn)度的停滯。
研究團(tuán)隊(duì)還觀察到了AI在處理時(shí)間序列信息方面的困難。在文字冒險(xiǎn)游戲中,事件的發(fā)生順序往往至關(guān)重要。比如,玩家必須先獲得某個(gè)物品,然后才能解鎖特定的區(qū)域或觸發(fā)某個(gè)事件。雖然AI能夠理解單個(gè)的因果關(guān)系,但當(dāng)這些關(guān)系形成復(fù)雜的時(shí)間鏈條時(shí),AI經(jīng)常會(huì)混淆先后順序,導(dǎo)致策略執(zhí)行失敗。
特別值得注意的是AI在試錯(cuò)學(xué)習(xí)方面的表現(xiàn)。人類玩家在遇到失敗時(shí),通常會(huì)分析失敗的原因,調(diào)整策略,然后嘗試新的方法。這種學(xué)習(xí)過程是游戲進(jìn)步的關(guān)鍵。然而,AI往往缺乏這種反思能力。即使有了自動(dòng)保存功能,可以回到之前的游戲狀態(tài),AI也很少能夠有效地利用這個(gè)機(jī)制來進(jìn)行策略實(shí)驗(yàn)和優(yōu)化。
研究團(tuán)隊(duì)通過對(duì)比不同模型的表現(xiàn),發(fā)現(xiàn)了一個(gè)關(guān)鍵洞察:那些在標(biāo)準(zhǔn)語言任務(wù)上表現(xiàn)相似的模型,在這種長(zhǎng)期推理任務(wù)上的表現(xiàn)卻有顯著差異。這表明文字冒險(xiǎn)游戲測(cè)試的能力維度是傳統(tǒng)AI評(píng)估中缺失的重要組成部分。
四、效率與智慧的平衡藝術(shù)
在分析AI表現(xiàn)的過程中,研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)特別有趣的現(xiàn)象:AI的"思考成本"問題。不同的AI模型在處理相同任務(wù)時(shí),消耗的計(jì)算資源差異巨大,這直接影響了它們的實(shí)用性和可擴(kuò)展性。
一些AI模型,特別是那些具有"推理模式"的系統(tǒng),在每一步游戲中都會(huì)進(jìn)行大量的內(nèi)部思考。這就像一個(gè)棋手在每一步棋前都要深思熟慮幾分鐘一樣。雖然這種深度思考有時(shí)能夠帶來更好的決策,但在文字冒險(xiǎn)游戲的許多情況下,這種"過度思考"反而是不必要的浪費(fèi)。
比如,當(dāng)AI需要執(zhí)行一個(gè)簡(jiǎn)單的移動(dòng)命令,比如"向北走"時(shí),實(shí)際上不需要進(jìn)行復(fù)雜的推理。但一些模型卻會(huì)為這樣的簡(jiǎn)單操作消耗大量的計(jì)算資源,就像用大炮打蚊子一樣。相反,當(dāng)遇到真正復(fù)雜的謎題時(shí),這些模型卻需要更多的思考資源,但之前的浪費(fèi)已經(jīng)消耗了大量的計(jì)算預(yù)算。
研究團(tuán)隊(duì)通過分析發(fā)現(xiàn),理想的AI助手應(yīng)該具備"動(dòng)態(tài)思考"的能力,也就是根據(jù)任務(wù)的復(fù)雜程度來調(diào)整思考深度。對(duì)于簡(jiǎn)單的導(dǎo)航任務(wù),快速?zèng)Q策就足夠了;對(duì)于復(fù)雜的謎題解決,則需要更深入的推理。這種能力對(duì)于實(shí)際應(yīng)用中的AI系統(tǒng)尤為重要,因?yàn)橛?jì)算資源總是有限的。
有趣的是,研究團(tuán)隊(duì)發(fā)現(xiàn)那些在效率和效果之間找到最佳平衡點(diǎn)的模型,往往在長(zhǎng)期任務(wù)中表現(xiàn)更好。這就像馬拉松運(yùn)動(dòng)員需要合理分配體力一樣,AI也需要合理分配其計(jì)算資源,以確保在整個(gè)游戲過程中保持穩(wěn)定的表現(xiàn)水平。
這個(gè)發(fā)現(xiàn)對(duì)AI的實(shí)際應(yīng)用有重要啟示。在現(xiàn)實(shí)世界中,AI助手需要處理各種各樣的任務(wù),從簡(jiǎn)單的信息查詢到復(fù)雜的問題解決。如果AI不能根據(jù)任務(wù)復(fù)雜度動(dòng)態(tài)調(diào)整其思考深度,就很容易在簡(jiǎn)單任務(wù)上浪費(fèi)資源,而在關(guān)鍵任務(wù)上資源不足。
五、超越游戲的深層意義
雖然這項(xiàng)研究表面上是關(guān)于AI玩游戲的能力,但其深層意義遠(yuǎn)遠(yuǎn)超出了娛樂范疇。文字冒險(xiǎn)游戲?qū)嶋H上是現(xiàn)實(shí)世界復(fù)雜任務(wù)的一個(gè)絕佳模擬器,研究結(jié)果揭示了當(dāng)前AI技術(shù)在面對(duì)真實(shí)挑戰(zhàn)時(shí)可能遇到的問題。
當(dāng)我們思考AI在實(shí)際應(yīng)用中的表現(xiàn)時(shí),會(huì)發(fā)現(xiàn)許多相似的模式。比如,一個(gè)AI客服系統(tǒng)需要在長(zhǎng)時(shí)間的對(duì)話中保持上下文理解,記住客戶之前提到的問題,并且能夠從之前的交互中學(xué)習(xí)。如果AI在文字冒險(xiǎn)游戲中都無法很好地處理長(zhǎng)期上下文,那么在實(shí)際客服應(yīng)用中也很可能出現(xiàn)類似問題。
再比如,AI在科學(xué)研究中的應(yīng)用也面臨類似挑戰(zhàn)??茖W(xué)研究往往需要長(zhǎng)期的探索過程,研究者需要記住大量的實(shí)驗(yàn)結(jié)果,從失敗中學(xué)習(xí),調(diào)整研究策略,并且在復(fù)雜的知識(shí)網(wǎng)絡(luò)中導(dǎo)航。這些要求與文字冒險(xiǎn)游戲中的挑戰(zhàn)remarkably相似。
研究團(tuán)隊(duì)特別強(qiáng)調(diào)了一個(gè)重要觀點(diǎn):當(dāng)前許多AI評(píng)估都依賴于外部工具和輔助系統(tǒng)。比如,AI可以調(diào)用搜索引擎、計(jì)算器、或者其他專門的工具來完成任務(wù)。雖然這種工具使用能力很重要,但它也掩蓋了AI內(nèi)在推理能力的真實(shí)水平。文字冒險(xiǎn)游戲的測(cè)試環(huán)境迫使AI完全依靠自己的內(nèi)在能力,從而提供了對(duì)AI核心智能的更純粹的評(píng)估。
這個(gè)發(fā)現(xiàn)對(duì)AI的未來發(fā)展具有重要指導(dǎo)意義。如果我們希望構(gòu)建真正智能的AI系統(tǒng),就不能僅僅依賴外部工具的堆疊,而需要提升AI的內(nèi)在推理能力。這就像培養(yǎng)一個(gè)學(xué)生一樣,雖然可以讓他隨時(shí)查閱資料和使用計(jì)算器,但最終還是需要培養(yǎng)他獨(dú)立思考和解決問題的能力。
研究還揭示了AI在道德推理方面的表現(xiàn)。這些經(jīng)典文字冒險(xiǎn)游戲中包含各種道德選擇和倫理困境,AI需要在游戲過程中做出符合道德標(biāo)準(zhǔn)的決定。研究團(tuán)隊(duì)通過特殊的評(píng)估框架發(fā)現(xiàn),不同的AI模型在道德推理方面存在顯著差異,這對(duì)AI的安全應(yīng)用具有重要意義。
六、通向更智能AI的新路徑
基于這項(xiàng)研究的發(fā)現(xiàn),研究團(tuán)隊(duì)為AI的未來發(fā)展指出了幾個(gè)重要方向。首先是長(zhǎng)期記憶和上下文理解能力的提升。當(dāng)前的AI模型雖然能夠處理很長(zhǎng)的文本,但在真正理解和利用長(zhǎng)期上下文方面仍有很大改進(jìn)空間。
研究表明,簡(jiǎn)單地增加AI的"記憶容量"并不能解決問題,關(guān)鍵在于提升AI對(duì)信息的組織、檢索和利用能力。就像人類大腦不是簡(jiǎn)單地存儲(chǔ)所有信息,而是通過復(fù)雜的關(guān)聯(lián)網(wǎng)絡(luò)來組織和訪問記憶一樣,AI也需要發(fā)展更sophisticated的信息管理機(jī)制。
另一個(gè)重要方向是空間推理和心理建模能力。在文字冒險(xiǎn)游戲中,AI需要構(gòu)建虛擬世界的心理模型,這種能力在現(xiàn)實(shí)應(yīng)用中同樣重要。無論是機(jī)器人導(dǎo)航、城市規(guī)劃,還是復(fù)雜系統(tǒng)的管理,都需要AI具備強(qiáng)大的空間推理和模型構(gòu)建能力。
研究還強(qiáng)調(diào)了試錯(cuò)學(xué)習(xí)和策略適應(yīng)能力的重要性?,F(xiàn)實(shí)世界充滿不確定性,AI需要能夠從失敗中學(xué)習(xí),調(diào)整策略,并且在面對(duì)新情況時(shí)保持適應(yīng)性。這種能力不能僅僅通過更多的訓(xùn)練數(shù)據(jù)來獲得,而需要在AI的核心架構(gòu)中體現(xiàn)出來。
值得注意的是,研究團(tuán)隊(duì)提出了"內(nèi)在智能"與"工具增強(qiáng)智能"的區(qū)別概念。雖然讓AI調(diào)用各種外部工具很有用,但我們不應(yīng)該忽視對(duì)AI內(nèi)在推理能力的培養(yǎng)。只有當(dāng)AI具備了強(qiáng)大的內(nèi)在智能,外部工具才能發(fā)揮最大的效用。
從技術(shù)實(shí)現(xiàn)的角度來看,這項(xiàng)研究為AI評(píng)估方法學(xué)提供了新的思路。傳統(tǒng)的AI評(píng)估往往關(guān)注單次任務(wù)的表現(xiàn),但現(xiàn)實(shí)中的許多重要應(yīng)用都需要AI在長(zhǎng)期交互中保持高質(zhì)量的表現(xiàn)。文字冒險(xiǎn)游戲提供了一個(gè)標(biāo)準(zhǔn)化、可重復(fù)的長(zhǎng)期任務(wù)評(píng)估平臺(tái),這對(duì)于推動(dòng)AI技術(shù)的發(fā)展具有重要價(jià)值。
研究團(tuán)隊(duì)還開源了他們的評(píng)估平臺(tái),使其他研究者能夠在相同的標(biāo)準(zhǔn)下測(cè)試和比較不同的AI模型。這種開放性對(duì)于推動(dòng)整個(gè)AI領(lǐng)域的進(jìn)步非常重要,因?yàn)樗峁┝艘粋€(gè)公平、透明的比較基準(zhǔn)。
說到底,這項(xiàng)研究告訴我們,雖然當(dāng)前的AI技術(shù)在許多方面都表現(xiàn)出色,但在需要長(zhǎng)期推理、復(fù)雜規(guī)劃和持續(xù)學(xué)習(xí)的任務(wù)上,還有很大的改進(jìn)空間。文字冒險(xiǎn)游戲雖然看起來簡(jiǎn)單古老,但它們揭示了AI智能的一些根本局限性。
歸根結(jié)底,這個(gè)研究提醒我們,真正的智能不僅僅是回答問題或執(zhí)行單個(gè)任務(wù)的能力,更是在復(fù)雜、動(dòng)態(tài)環(huán)境中持續(xù)學(xué)習(xí)、適應(yīng)和推理的能力。當(dāng)AI能夠像人類玩家一樣沉浸在這些經(jīng)典游戲中,耐心探索、從錯(cuò)誤中學(xué)習(xí)、制定長(zhǎng)期策略時(shí),我們才能說它們真正具備了接近人類的智能水平。
對(duì)于普通人來說,這個(gè)研究的啟示是:我們?cè)谂cAI交互時(shí),需要理解它們的局限性,特別是在需要長(zhǎng)期規(guī)劃和復(fù)雜推理的場(chǎng)景中。同時(shí),這個(gè)研究也讓我們對(duì)AI的未來發(fā)展充滿期待,因?yàn)樗赋隽嗣鞔_的改進(jìn)方向和評(píng)估標(biāo)準(zhǔn)。隨著技術(shù)的不斷進(jìn)步,相信未來的AI將能夠在這些經(jīng)典游戲中展現(xiàn)出更加智能和human-like的表現(xiàn),那時(shí)的AI將真正成為我們?cè)趶?fù)雜任務(wù)中的得力助手。
Q&A
Q1:TEXTQUESTS基準(zhǔn)測(cè)試是什么?它為什么重要?
A:TEXTQUESTS是斯坦福安全AI中心開發(fā)的AI評(píng)估平臺(tái),使用25款1980年代經(jīng)典文字冒險(xiǎn)游戲來測(cè)試大語言模型的長(zhǎng)期推理能力。這些游戲需要AI進(jìn)行數(shù)百步操作、持續(xù)30多小時(shí)才能通關(guān),能夠真實(shí)評(píng)估AI在復(fù)雜探索環(huán)境中的自主推理能力,而不依賴外部工具輔助。
Q2:當(dāng)前最先進(jìn)的AI模型在文字冒險(xiǎn)游戲中表現(xiàn)如何?
A:表現(xiàn)相當(dāng)有限。即使是最強(qiáng)的GPT-5,在沒有提示的情況下也只能完成37.8%的游戲進(jìn)度,沒有任何AI能完整通關(guān)游戲。即使提供了官方提示手冊(cè),GPT-5的進(jìn)度也只提升到71.2%,僅通關(guān)5款游戲。這顯示出AI在長(zhǎng)期推理和復(fù)雜規(guī)劃方面存在明顯局限。
Q3:這項(xiàng)研究對(duì)AI未來發(fā)展有什么啟示?
A:研究揭示了AI需要在三個(gè)關(guān)鍵領(lǐng)域改進(jìn):長(zhǎng)期記憶和上下文理解能力、空間推理和心理建模能力,以及從試錯(cuò)中學(xué)習(xí)的適應(yīng)能力。研究強(qiáng)調(diào)不能僅依賴外部工具增強(qiáng),而要提升AI的內(nèi)在推理能力,這對(duì)構(gòu)建真正智能的AI系統(tǒng)至關(guān)重要。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對(duì)話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。