av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<sub id="s9afb"></sub>

<p id="s9afb"><label id="s9afb"></label></p>

<nobr id="s9afb"><strong id="s9afb"><p id="s9afb"></p></strong></nobr>

微信掃一掃，關(guān)注公眾號(hào)

科技行者
算力行者

見證連接與計(jì)算的「力量」

北京大學(xué)團(tuán)隊(duì)讓AI學(xué)會(huì)玩《我的世界》：通過視覺語言訓(xùn)練打造超強(qiáng)游戲AI

人工智能游戲AI視覺語言模型

北京大學(xué)團(tuán)隊(duì)讓AI學(xué)會(huì)玩《我的世界》：通過視覺語言訓(xùn)練打造超強(qiáng)游戲AI

作者：科技行者

2025-07-31 09:55

分享至：

北京大學(xué)團(tuán)隊(duì)開發(fā)出名為JARVIS-VLA的突破性AI系統(tǒng)，能夠像人類玩家一樣熟練操作《我的世界》游戲。該系統(tǒng)采用創(chuàng)新的三階段訓(xùn)練方法：先學(xué)習(xí)游戲世界知識(shí)，再訓(xùn)練視覺理解能力，最后學(xué)習(xí)具體操作技巧。與傳統(tǒng)AI不同，JARVIS-VLA不是簡單模仿人類行為，而是真正理解游戲規(guī)律后再執(zhí)行任務(wù)，可完成超過1000種游戲任務(wù)，在各項(xiàng)測試中顯著超越現(xiàn)有系統(tǒng)，為未來智能AI發(fā)展提供了新思路。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-07-31 09:55 ? 科技行者

這項(xiàng)由北京大學(xué)李穆遙、王子浩、何凱晨團(tuán)隊(duì)以及清華大學(xué)馬曉健研究員共同完成的突破性研究發(fā)表于2025年3月，論文題目為《JARVIS-VLA: Post-Training Large-Scale Vision Language Models to Play Visual Games with Keyboards and Mouse》。感興趣的讀者可以通過arXiv:2503.16365v1訪問完整論文，項(xiàng)目頁面為https://craftjarvis.github.io/JarvisVLA。

想象一下，如果讓一個(gè)從未接觸過《我的世界》的人突然坐在電腦前開始游戲，他們可能會(huì)手忙腳亂，不知道該如何挖掘、建造或者與游戲世界互動(dòng)。但如果這個(gè)人事先通過大量觀看游戲視頻、閱讀攻略指南，并且深入理解游戲世界的各種規(guī)則和物品屬性，那么他們上手游戲時(shí)就會(huì)表現(xiàn)得更加出色。北京大學(xué)的研究團(tuán)隊(duì)正是基于這樣的思路，開發(fā)出了一個(gè)名為JARVIS-VLA的人工智能系統(tǒng)，它不僅能夠理解《我的世界》這個(gè)復(fù)雜的開放世界游戲，還能夠熟練地執(zhí)行超過1000種不同的游戲任務(wù)。

以往的游戲AI大多采用直接模仿人類玩家行為的方式進(jìn)行訓(xùn)練，就像讓一個(gè)學(xué)生直接照搬老師的每一個(gè)動(dòng)作，而不去理解動(dòng)作背后的原理。這種方法雖然能讓AI學(xué)會(huì)一些基本操作，但在面對新情況時(shí)往往顯得力不從心。研究團(tuán)隊(duì)意識(shí)到，真正優(yōu)秀的游戲AI應(yīng)該像人類玩家一樣，首先深入理解游戲世界的知識(shí)和規(guī)律，然后再學(xué)習(xí)具體的操作技巧。

這個(gè)研究的創(chuàng)新之處在于提出了一種全新的訓(xùn)練范式，叫做"視覺語言行為后訓(xùn)練"（ActVLP）。這個(gè)方法的核心思想是讓AI在學(xué)習(xí)游戲操作之前，先通過大量的視覺和語言材料來理解游戲世界。就像一個(gè)優(yōu)秀的廚師在制作復(fù)雜菜肴之前，不僅要熟練掌握刀工和火候，更重要的是要深入了解各種食材的特性、營養(yǎng)搭配原理以及不同烹飪方法的適用場景。

一、從零開始構(gòu)建游戲AI的"大腦"

要理解JARVIS-VLA的工作原理，我們可以把它想象成一個(gè)正在學(xué)習(xí)成為《我的世界》專家的學(xué)生。這個(gè)學(xué)生的"大腦"由幾個(gè)關(guān)鍵部分組成，每個(gè)部分都有著特定的功能。

首先是視覺處理系統(tǒng)，就像人類的眼睛和視覺皮層一樣。當(dāng)游戲畫面出現(xiàn)在屏幕上時(shí)，這個(gè)系統(tǒng)能夠識(shí)別畫面中的各種元素：哪里有樹木、哪里有石頭、玩家手中拿著什么工具、背包里有什么物品等等。這個(gè)系統(tǒng)采用了先進(jìn)的視覺變換器（Vision Transformer）技術(shù)，能夠?qū)?fù)雜的游戲畫面分解成一個(gè)個(gè)小塊進(jìn)行分析，就像拼圖游戲中把整幅圖片分成許多小塊一樣，然后逐一識(shí)別每個(gè)小塊的內(nèi)容。

接下來是語言理解系統(tǒng)，相當(dāng)于學(xué)生的語言能力和知識(shí)儲(chǔ)備。這個(gè)系統(tǒng)不僅能夠理解人類給出的游戲指令，比如"制作一把鉆石劍"或"找到并擊殺一只僵尸"，還能理解游戲世界中各種物品之間的關(guān)系和制作配方。它就像一本活的游戲百科全書，儲(chǔ)存著關(guān)于《我的世界》的所有知識(shí)。

最重要的是行為決策系統(tǒng)，這是整個(gè)AI的"行動(dòng)大腦"。它需要綜合視覺信息和語言指令，然后決定應(yīng)該進(jìn)行什么樣的操作：是移動(dòng)鼠標(biāo)查看周圍環(huán)境，還是按下特定按鍵進(jìn)行挖掘，或者打開背包整理物品。這個(gè)系統(tǒng)的特殊之處在于，它能夠?qū)Q策轉(zhuǎn)換成具體的鍵盤和鼠標(biāo)操作，就像人類玩家一樣通過標(biāo)準(zhǔn)的輸入設(shè)備控制游戲。

為了讓這些系統(tǒng)協(xié)調(diào)工作，研究團(tuán)隊(duì)采用了一種巧妙的方法。他們沒有重新設(shè)計(jì)全新的AI架構(gòu)，而是在現(xiàn)有的大型視覺語言模型基礎(chǔ)上進(jìn)行改進(jìn)。這就像在一輛性能良好的汽車上安裝專業(yè)的導(dǎo)航系統(tǒng)和駕駛輔助設(shè)備，而不是從零開始制造一輛全新的車。

特別值得注意的是，JARVIS-VLA采用了非馬爾可夫架構(gòu)，這個(gè)聽起來復(fù)雜的術(shù)語實(shí)際上描述了一個(gè)很直觀的概念。在《我的世界》這樣的游戲中，玩家往往需要記住之前發(fā)生的事情才能做出正確決策。比如，如果你剛才看到遠(yuǎn)處有一個(gè)村莊，現(xiàn)在雖然暫時(shí)看不到了，但你仍然記得它的位置。JARVIS-VLA通過保存歷史畫面的方式來模擬這種記憶能力，讓AI能夠基于過去的觀察做出更明智的決策。

二、三步走的訓(xùn)練策略：讓AI循序漸進(jìn)掌握游戲技能

JARVIS-VLA的訓(xùn)練過程可以比作培養(yǎng)一個(gè)《我的世界》專家的完整教育過程。傳統(tǒng)的AI訓(xùn)練方法就像讓一個(gè)完全不懂游戲的人直接觀看高手操作視頻，然后試圖模仿每一個(gè)動(dòng)作，這種方法效果往往不理想。研究團(tuán)隊(duì)采用了一種更加科學(xué)的三階段訓(xùn)練方法，就像讓學(xué)生從理論學(xué)習(xí)開始，逐步過渡到實(shí)踐操作。

第一階段是世界知識(shí)學(xué)習(xí)階段。在這個(gè)階段，AI主要通過大量的文本資料學(xué)習(xí)《我的世界》的基礎(chǔ)知識(shí)。這些知識(shí)包括各種方塊的特性、工具的用途、怪物的行為模式、建筑的基本原理等等。這個(gè)過程就像讓學(xué)生先閱讀游戲說明書、攻略指南和百科全書，建立對游戲世界的基本認(rèn)知框架。研究團(tuán)隊(duì)收集了大約277000條知識(shí)問答對，涵蓋了從基礎(chǔ)的物品制作到復(fù)雜的建筑技巧等各個(gè)方面。

在這個(gè)階段，AI系統(tǒng)的視覺處理部分被暫時(shí)"凍結(jié)"，只有語言理解部分在學(xué)習(xí)。這樣做的好處是讓AI能夠?qū)Ｗ⒂诶斫庥螒虻膬?nèi)在邏輯和規(guī)律，而不被復(fù)雜的視覺信息干擾。就像學(xué)習(xí)開車時(shí)，教練往往會(huì)先在教室里講解交通規(guī)則和駕駛理論，然后再讓學(xué)員實(shí)際上路練習(xí)。

第二階段是視覺語言結(jié)合學(xué)習(xí)階段。在掌握了基礎(chǔ)知識(shí)后，AI開始學(xué)習(xí)如何將抽象的知識(shí)與具體的游戲畫面聯(lián)系起來。這個(gè)階段就像讓學(xué)生看著游戲截圖回答問題：這個(gè)畫面中有什么物品？玩家應(yīng)該使用什么工具？如何找到特定的資源？

研究團(tuán)隊(duì)為這個(gè)階段準(zhǔn)備了三類訓(xùn)練數(shù)據(jù)。首先是圖像描述任務(wù)，讓AI學(xué)會(huì)準(zhǔn)確描述游戲畫面中的內(nèi)容。比如，看到一個(gè)森林場景，AI需要能夠識(shí)別出"這里有橡樹、樺樹，地面上散落著一些掉落的原木，遠(yuǎn)處可以看到山脈"這樣的詳細(xì)信息。其次是視覺問答任務(wù)，訓(xùn)練AI根據(jù)畫面回答具體問題。最后是空間定位任務(wù)，這是一個(gè)特別重要的能力，讓AI能夠準(zhǔn)確指出畫面中特定物品的位置。

空間定位能力對于游戲AI來說至關(guān)重要。當(dāng)玩家說"挖掘那塊鐵礦石"時(shí)，AI必須能夠準(zhǔn)確識(shí)別鐵礦石在畫面中的位置，然后控制角色移動(dòng)到正確位置進(jìn)行挖掘。研究團(tuán)隊(duì)使用了先進(jìn)的目標(biāo)檢測技術(shù)，讓AI能夠像人類一樣用"指點(diǎn)"的方式標(biāo)記物品位置。

第三階段是行為模仿學(xué)習(xí)階段。經(jīng)過前兩個(gè)階段的準(zhǔn)備，AI已經(jīng)具備了豐富的游戲知識(shí)和良好的視覺理解能力，現(xiàn)在需要學(xué)習(xí)如何將這些能力轉(zhuǎn)化為具體的游戲操作。這個(gè)階段就像駕校學(xué)員從理論學(xué)習(xí)和模擬練習(xí)轉(zhuǎn)向?qū)嶋H道路駕駛。

在這個(gè)階段，AI通過觀察大量的人類玩家游戲錄像來學(xué)習(xí)操作技巧。但與傳統(tǒng)方法不同的是，由于AI已經(jīng)具備了深厚的游戲知識(shí)背景，它能夠更好地理解每個(gè)操作背后的意圖和原理。就像一個(gè)已經(jīng)熟悉交通規(guī)則的學(xué)員在學(xué)習(xí)駕駛時(shí)，能夠更快地理解為什么要在特定情況下采取特定操作。

研究團(tuán)隊(duì)收集了超過740萬幀的游戲數(shù)據(jù)，包括人類玩家的操作、YouTube游戲視頻，以及其他AI系統(tǒng)的游戲記錄。為了讓AI學(xué)會(huì)處理圖形用戶界面（GUI）操作，比如打開背包、使用工作臺(tái)制作物品等，他們還專門生成了640萬條專家級的操作數(shù)據(jù)。

三、海量數(shù)據(jù)支撐：構(gòu)建AI的知識(shí)庫和技能庫

JARVIS-VLA的成功很大程度上依賴于研究團(tuán)隊(duì)精心構(gòu)建的龐大數(shù)據(jù)集。這個(gè)數(shù)據(jù)集就像為AI準(zhǔn)備的一座圖書館，里面不僅有理論知識(shí)，還有大量的實(shí)踐案例和操作示范。

世界知識(shí)數(shù)據(jù)集是這座圖書館的理論書籍部分。研究團(tuán)隊(duì)從維基百科和專業(yè)的《我的世界》網(wǎng)站收集了大量資料，然后使用GPT-3.5模型生成了超過20萬條問答對。這些問答涵蓋了游戲的方方面面：從"制作面包需要什么材料"這樣的基礎(chǔ)問題，到"如何建造高效的自動(dòng)化農(nóng)場"這樣的高級話題。

為了提高訓(xùn)練效率，研究團(tuán)隊(duì)采用了一種巧妙的數(shù)據(jù)組織方式。他們將原本獨(dú)立的問答對重新組織成多輪對話的形式，就像模擬一個(gè)資深玩家在回答新手的連續(xù)提問。這種方式不僅提高了數(shù)據(jù)的利用效率，還讓AI能夠?qū)W會(huì)進(jìn)行連貫的對話交流。

視覺語言對齊數(shù)據(jù)集相當(dāng)于圖書館中的圖文并茂的教科書。研究團(tuán)隊(duì)從各種來源收集了35000張高質(zhì)量的游戲截圖，然后使用GPT-4o、Claude 3.5 Sonnet等先進(jìn)的AI模型為這些圖片生成詳細(xì)的描述和問答對。這個(gè)過程就像請多位專家為同一張圖片寫解說詞，然后綜合他們的意見得出最準(zhǔn)確的描述。

為了確保數(shù)據(jù)質(zhì)量，研究團(tuán)隊(duì)還建立了一套嚴(yán)格的驗(yàn)證流程。他們使用Llama-3.1-72B模型來檢查生成的問答對是否準(zhǔn)確、是否與圖片內(nèi)容相符。這個(gè)過程就像出版社的編輯審查流程，確保最終的教材內(nèi)容準(zhǔn)確無誤。

空間定位數(shù)據(jù)集是最具挑戰(zhàn)性的部分，相當(dāng)于為AI準(zhǔn)備的"實(shí)操手冊"。對于3D游戲環(huán)境，研究團(tuán)隊(duì)使用了一種叫做"反向軌跡重標(biāo)記"的技術(shù)。這個(gè)技術(shù)的工作原理很有趣：當(dāng)AI看到一個(gè)玩家正在與某個(gè)物品互動(dòng)時(shí)，系統(tǒng)會(huì)自動(dòng)回溯之前的游戲畫面，找出這個(gè)物品在不同時(shí)間點(diǎn)的位置，然后為這些位置打上標(biāo)記。

這就像制作一部電影的幕后花絮：雖然觀眾在最終畫面中看到演員在特定位置表演，但制作團(tuán)隊(duì)需要追溯拍攝過程，記錄演員是如何移動(dòng)到那個(gè)位置的。通過這種方法，研究團(tuán)隊(duì)為AI提供了大量的物品位置信息，讓它能夠準(zhǔn)確識(shí)別和定位游戲世界中的各種元素。

對于2D界面操作，比如在背包中整理物品或在工作臺(tái)上制作裝備，研究團(tuán)隊(duì)直接利用了《我的世界》游戲本身提供的界面信息。由于游戲中每個(gè)界面元素都有固定的位置，他們可以準(zhǔn)確地標(biāo)記出每個(gè)物品槽位的坐標(biāo)。這個(gè)過程就像為一個(gè)復(fù)雜的控制面板制作詳細(xì)的操作手冊，標(biāo)明每個(gè)按鈕和顯示器的位置和功能。

通過這些努力，研究團(tuán)隊(duì)最終構(gòu)建了一個(gè)包含超過40萬條空間定位數(shù)據(jù)的訓(xùn)練集，為AI提供了豐富的空間理解能力訓(xùn)練素材。

四、性能表現(xiàn)：在多項(xiàng)測試中展現(xiàn)超強(qiáng)能力

為了評估JARVIS-VLA的實(shí)際表現(xiàn)，研究團(tuán)隊(duì)設(shè)計(jì)了一套全面的測試體系，就像為一個(gè)游戲高手準(zhǔn)備的綜合考試。這套測試不僅檢驗(yàn)AI的游戲操作能力，還考察它的理論知識(shí)和視覺理解能力。

在實(shí)際游戲任務(wù)測試中，JARVIS-VLA展現(xiàn)出了令人印象深刻的表現(xiàn)。研究團(tuán)隊(duì)使用了MCU基準(zhǔn)測試，這是一個(gè)專門為《我的世界》AI設(shè)計(jì)的評估標(biāo)準(zhǔn)，包含四大類任務(wù)：挖掘方塊、擊殺生物、制作物品和熔煉材料。每一類任務(wù)都包含多個(gè)具體的子任務(wù)，難度從簡單到困難不等。

在挖掘任務(wù)中，JARVIS-VLA需要識(shí)別目標(biāo)方塊并使用正確的工具進(jìn)行開采。比如，挖掘鐵礦石需要使用石鎬或更好的工具，而挖掘黑曜石則必須使用鉆石鎬。AI不僅要識(shí)別這些方塊，還要知道使用什么工具，以及如何導(dǎo)航到正確位置。在這類任務(wù)中，JARVIS-VLA達(dá)到了95%的成功率，遠(yuǎn)超之前的最佳系統(tǒng)。

擊殺生物任務(wù)要求AI識(shí)別并攻擊特定的怪物或動(dòng)物。這類任務(wù)不僅考驗(yàn)AI的視覺識(shí)別能力，還需要它掌握戰(zhàn)斗技巧和移動(dòng)策略。JARVIS-VLA在這類任務(wù)中表現(xiàn)同樣出色，成功率達(dá)到了77%。特別值得注意的是，AI能夠區(qū)分不同類型的生物，并采用適當(dāng)?shù)墓舨呗浴?/p>

制作任務(wù)是最具挑戰(zhàn)性的測試之一，因?yàn)樗婕皬?fù)雜的圖形用戶界面操作。當(dāng)接到"制作鉆石劍"這樣的指令時(shí)，AI需要打開背包、找到工作臺(tái)、按照正確的配方放置材料，然后完成制作。這個(gè)過程需要精確的鼠標(biāo)控制和對界面布局的深度理解。JARVIS-VLA在制作任務(wù)中的成功率達(dá)到了70%，相比之下，傳統(tǒng)的AI系統(tǒng)在這類任務(wù)中往往表現(xiàn)很差。

熔煉任務(wù)同樣需要復(fù)雜的界面操作，AI需要使用熔爐將原材料轉(zhuǎn)化為有用的物品。JARVIS-VLA在這類任務(wù)中也表現(xiàn)出了顯著的優(yōu)勢，成功率同樣達(dá)到了70%。

更重要的是，當(dāng)研究團(tuán)隊(duì)將JARVIS-VLA與僅通過模仿學(xué)習(xí)訓(xùn)練的系統(tǒng)進(jìn)行比較時(shí)，發(fā)現(xiàn)了一個(gè)驚人的結(jié)果：JARVIS-VLA僅使用了21%的訓(xùn)練數(shù)據(jù)，但性能卻提升了15%以上。這就像一個(gè)學(xué)生通過更有效的學(xué)習(xí)方法，用更少的時(shí)間取得了更好的成績。

在理論知識(shí)測試中，JARVIS-VLA同樣表現(xiàn)出色。研究團(tuán)隊(duì)設(shè)計(jì)了47個(gè)涵蓋游戲各個(gè)方面的知識(shí)問題，從基礎(chǔ)的物品制作到復(fù)雜的游戲機(jī)制。JARVIS-VLA在這個(gè)測試中獲得了70.7%的正確率，雖然仍然落后于GPT-4o的96.6%，但已經(jīng)大幅超越了其他同類系統(tǒng)。

視覺理解測試評估AI對游戲畫面的理解能力，包括場景識(shí)別、物品檢測、界面讀取等多個(gè)方面。在這個(gè)測試中，JARVIS-VLA達(dá)到了76.7%的準(zhǔn)確率，與最先進(jìn)的GPT-4o持平。這個(gè)結(jié)果特別有意義，因?yàn)樗砻鰽I不僅能夠執(zhí)行游戲操作，還能像人類一樣理解游戲世界。

空間定位測試是最直觀的能力展示。當(dāng)要求AI指出畫面中特定物品的位置時(shí)，JARVIS-VLA能夠以88%的準(zhǔn)確率完成任務(wù)。這種能力對于游戲AI來說至關(guān)重要，因?yàn)闇?zhǔn)確的空間理解是執(zhí)行所有游戲操作的基礎(chǔ)。

五、創(chuàng)新突破：多重驗(yàn)證證實(shí)方法的有效性

為了證明他們的方法確實(shí)有效，研究團(tuán)隊(duì)進(jìn)行了一系列精心設(shè)計(jì)的對比實(shí)驗(yàn)，就像科學(xué)家在實(shí)驗(yàn)室中控制變量來驗(yàn)證假設(shè)一樣。

首先，他們驗(yàn)證了視覺語言后訓(xùn)練的必要性。研究團(tuán)隊(duì)創(chuàng)建了幾個(gè)不同版本的AI系統(tǒng)：一個(gè)是直接在原始模型基礎(chǔ)上進(jìn)行游戲訓(xùn)練的版本，另一個(gè)是先進(jìn)行大規(guī)模模仿學(xué)習(xí)然后再訓(xùn)練的版本，還有就是采用他們提出的ActVLP方法訓(xùn)練的版本。結(jié)果顯示，ActVLP方法訓(xùn)練出的AI在各項(xiàng)任務(wù)中都顯著優(yōu)于其他方法。

更有趣的是，研究團(tuán)隊(duì)還測試了不同類型的后訓(xùn)練數(shù)據(jù)對最終性能的影響。他們分別創(chuàng)建了只使用世界知識(shí)數(shù)據(jù)、只使用視覺對齊數(shù)據(jù)、只使用空間定位數(shù)據(jù)訓(xùn)練的AI版本，然后比較它們的表現(xiàn)。結(jié)果發(fā)現(xiàn)，空間定位訓(xùn)練對最終的游戲表現(xiàn)影響最大，這符合直覺，因?yàn)闇?zhǔn)確的空間理解是執(zhí)行游戲操作的基礎(chǔ)。

研究團(tuán)隊(duì)還探索了AI系統(tǒng)的規(guī)模化效應(yīng)，這是一個(gè)在AI領(lǐng)域非常重要的問題。他們發(fā)現(xiàn)，隨著后訓(xùn)練數(shù)據(jù)量的增加，AI的游戲表現(xiàn)也相應(yīng)提升。特別是當(dāng)后訓(xùn)練損失降到0.22以下時(shí)，AI才開始在實(shí)際任務(wù)中表現(xiàn)出非零的成功率。這個(gè)發(fā)現(xiàn)為未來的AI訓(xùn)練提供了重要的指導(dǎo)原則。

另一個(gè)重要發(fā)現(xiàn)是關(guān)于訓(xùn)練數(shù)據(jù)量與性能的關(guān)系。研究團(tuán)隊(duì)發(fā)現(xiàn)，增加用于后訓(xùn)練的非軌跡數(shù)據(jù)能夠直接提升下游任務(wù)的表現(xiàn)，即使下游訓(xùn)練使用的數(shù)據(jù)量保持不變。這就像一個(gè)學(xué)生通過廣泛的課外閱讀提高了理解能力，即使在相同的考試準(zhǔn)備時(shí)間內(nèi)也能取得更好的成績。

為了驗(yàn)證方法的通用性，研究團(tuán)隊(duì)還在兩個(gè)不同的基礎(chǔ)模型（Qwen2-VL和Llava-Next）上測試了他們的訓(xùn)練方法。結(jié)果顯示，無論使用哪個(gè)基礎(chǔ)模型，ActVLP方法都能帶來顯著的性能提升，這證明了這種方法的普適性。

特別值得注意的是，研究團(tuán)隊(duì)還進(jìn)行了一個(gè)被稱為"scaling experiments"的實(shí)驗(yàn)。他們系統(tǒng)性地研究了不同規(guī)模的訓(xùn)練數(shù)據(jù)對AI性能的影響。結(jié)果顯示，無論是增加下游任務(wù)的訓(xùn)練數(shù)據(jù)，還是增加后訓(xùn)練階段的數(shù)據(jù)，都能夠改善AI的最終表現(xiàn)。這個(gè)發(fā)現(xiàn)為未來構(gòu)建更強(qiáng)大的游戲AI提供了明確的路徑。

六、技術(shù)細(xì)節(jié)：讓AI像人類一樣操作游戲

JARVIS-VLA在技術(shù)實(shí)現(xiàn)上有許多巧妙的設(shè)計(jì)，這些細(xì)節(jié)雖然聽起來復(fù)雜，但實(shí)際上都有著很直觀的道理。

在動(dòng)作空間設(shè)計(jì)方面，研究團(tuán)隊(duì)面臨一個(gè)關(guān)鍵挑戰(zhàn)：如何讓AI像人類一樣使用鍵盤和鼠標(biāo)控制游戲。《我的世界》需要玩家進(jìn)行各種復(fù)雜操作，包括移動(dòng)角色、轉(zhuǎn)動(dòng)視角、點(diǎn)擊界面、按下功能鍵等等。為了解決這個(gè)問題，研究團(tuán)隊(duì)采用了一種稱為"動(dòng)作標(biāo)記化"的方法。

這個(gè)方法的核心思想是將所有可能的游戲操作轉(zhuǎn)換成特殊的"詞匯"，就像為AI創(chuàng)造了一套專門的"游戲語言"。比如，鼠標(biāo)向左移動(dòng)可能對應(yīng)一個(gè)特殊標(biāo)記，按下W鍵對應(yīng)另一個(gè)標(biāo)記，點(diǎn)擊鼠標(biāo)左鍵又是另一個(gè)標(biāo)記。通過這種方式，AI就可以像生成文本一樣生成游戲操作序列。

對于鼠標(biāo)移動(dòng)這樣的連續(xù)動(dòng)作，研究團(tuán)隊(duì)使用了一種叫做μ-law編碼的技術(shù)，將連續(xù)的移動(dòng)距離離散化為21個(gè)不同的檔位。這就像把無限可能的移動(dòng)距離簡化為21個(gè)標(biāo)準(zhǔn)選項(xiàng)，既保持了操作的精確性，又讓AI能夠處理這些信息。

在詞匯表設(shè)計(jì)上，研究團(tuán)隊(duì)采用了一個(gè)特別聰明的策略。他們沒有重新訓(xùn)練模型的詞匯表，而是將最不常用的51個(gè)詞匯重新定義為游戲操作標(biāo)記。這種方法既避免了重新訓(xùn)練的復(fù)雜性，又確保了與原始模型的兼容性。

為了處理《我的世界》這樣的部分可觀測環(huán)境，JARVIS-VLA采用了歷史信息保持機(jī)制。當(dāng)AI在游戲中移動(dòng)時(shí)，它會(huì)記住之前看到的畫面，就像人類玩家會(huì)記住剛才經(jīng)過的地形一樣。這種設(shè)計(jì)讓AI能夠做出更加明智的決策，比如在尋找資源時(shí)能夠避免重復(fù)搜索已經(jīng)探索過的區(qū)域。

在推理階段，JARVIS-VLA采用了一種叫做"action chunking"的技術(shù)。簡單來說，就是讓AI一次性預(yù)測未來幾步的操作，而不是每次只預(yù)測下一步。這種方法不僅提高了執(zhí)行效率，還讓AI的行為更加連貫和目標(biāo)導(dǎo)向。

七、實(shí)驗(yàn)環(huán)境與評估：嚴(yán)格的科學(xué)驗(yàn)證

為了確保實(shí)驗(yàn)結(jié)果的可靠性和可重復(fù)性，研究團(tuán)隊(duì)建立了一套嚴(yán)格的實(shí)驗(yàn)環(huán)境和評估體系。

實(shí)驗(yàn)環(huán)境選擇了《我的世界》1.16.5版本，這是一個(gè)功能完整且相對穩(wěn)定的游戲版本。為了保證公平性，研究團(tuán)隊(duì)隱藏了所有人類玩家無法獲得的信息，比如精確的坐標(biāo)位置、物品數(shù)量統(tǒng)計(jì)等，讓AI完全依賴視覺信息進(jìn)行游戲。

評估基準(zhǔn)使用了MCU（Minecraft Understanding）基準(zhǔn)測試，這是專門為評估《我的世界》AI設(shè)計(jì)的標(biāo)準(zhǔn)化測試集。這個(gè)基準(zhǔn)包含了四大類任務(wù)，每類任務(wù)又包含多個(gè)具體的子任務(wù)，從簡單的"用手挖掘橡樹原木"到復(fù)雜的"用鉆石鎬挖掘黑曜石超過10秒"，難度跨度很大。

為了確保結(jié)果的統(tǒng)計(jì)顯著性，研究團(tuán)隊(duì)對每個(gè)任務(wù)至少進(jìn)行了30次獨(dú)立測試。這就像進(jìn)行醫(yī)學(xué)實(shí)驗(yàn)時(shí)需要足夠大的樣本量來確保結(jié)果的可靠性一樣。他們使用成功率作為主要評估指標(biāo)，這是一個(gè)直觀且易于理解的度量標(biāo)準(zhǔn)。

在基線模型選擇上，研究團(tuán)隊(duì)包含了該領(lǐng)域的主要代表性系統(tǒng)：VPT（Video Pre-Training）是OpenAI開發(fā)的里程碑式系統(tǒng)，STEVE-1是結(jié)合了視覺語言理解的文本指令跟隨系統(tǒng)，GROOT使用視頻提示作為任務(wù)指令，MineDreamer則結(jié)合了視覺語言模型和擴(kuò)散模型。這些基線系統(tǒng)代表了當(dāng)前游戲AI的不同技術(shù)路線。

特別值得注意的是，研究團(tuán)隊(duì)還設(shè)計(jì)了專門的視覺語言理解評估，包括世界知識(shí)問答、視覺理解和空間定位三個(gè)方面。對于主觀性較強(qiáng)的問答題，他們使用GPT-4o作為評判員，這種方法已經(jīng)在學(xué)術(shù)界得到廣泛認(rèn)可。對于空間定位任務(wù)，則使用基于規(guī)則的客觀評分方法。

八、局限性與未來展望：持續(xù)改進(jìn)的空間

盡管JARVIS-VLA取得了顯著成果，但研究團(tuán)隊(duì)也誠實(shí)地指出了當(dāng)前系統(tǒng)的一些局限性，并為未來的改進(jìn)指明了方向。

首先是推理速度問題。由于JARVIS-VLA基于大型視覺語言模型構(gòu)建，系統(tǒng)的參數(shù)量很大，這導(dǎo)致推理速度相對較慢。雖然研究團(tuán)隊(duì)通過優(yōu)化已經(jīng)將推理速度提升到55幀每秒，但與人類玩家的反應(yīng)速度相比仍有差距。他們認(rèn)為未來可以通過混合專家模型（MoE）等技術(shù)來改善推理效率，目標(biāo)是達(dá)到40Hz以上的實(shí)時(shí)響應(yīng)能力。

其次是性能上限問題。雖然JARVIS-VLA在與其他AI系統(tǒng)的比較中表現(xiàn)優(yōu)異，但與頂級人類玩家相比仍有差距。經(jīng)驗(yàn)豐富的《我的世界》玩家在相同任務(wù)上的成功率通常能達(dá)到90%以上，而JARVIS-VLA目前的平均成功率還沒有達(dá)到這個(gè)水平。

從更廣闊的角度來看，這項(xiàng)研究為視覺語言行為模型的發(fā)展開辟了新的道路。傳統(tǒng)的AI訓(xùn)練往往將重點(diǎn)放在模仿學(xué)習(xí)上，而這項(xiàng)研究證明了在行為學(xué)習(xí)之前進(jìn)行深入的知識(shí)和理解訓(xùn)練的重要性。這種思路不僅適用于游戲AI，也可能為其他需要復(fù)雜決策的AI應(yīng)用提供啟發(fā)，比如機(jī)器人控制、自動(dòng)駕駛等領(lǐng)域。

研究團(tuán)隊(duì)還指出，他們的方法在處理更復(fù)雜、更開放的任務(wù)時(shí)仍有改進(jìn)空間?！段业氖澜纭冯m然是一個(gè)復(fù)雜的開放世界游戲，但相比真實(shí)世界的復(fù)雜性仍然有限。如何將這種訓(xùn)練方法擴(kuò)展到更加復(fù)雜和不確定的環(huán)境中，是一個(gè)值得繼續(xù)探索的方向。

另一個(gè)有趣的發(fā)現(xiàn)是關(guān)于AI系統(tǒng)的可解釋性。由于JARVIS-VLA具備了豐富的世界知識(shí)和視覺理解能力，它不僅能夠執(zhí)行任務(wù)，還能夠在某種程度上"解釋"自己的行為。這為開發(fā)更加透明和可信的AI系統(tǒng)提供了新的思路。

九、更廣泛的影響：從游戲到現(xiàn)實(shí)世界的應(yīng)用

雖然JARVIS-VLA是在《我的世界》這個(gè)虛擬環(huán)境中開發(fā)和測試的，但其背后的技術(shù)原理和訓(xùn)練方法具有更廣泛的應(yīng)用潛力。

在教育領(lǐng)域，這種技術(shù)可能會(huì)帶來革命性的變化。想象一下，如果我們能夠創(chuàng)造出像JARVIS-VLA一樣既理解理論知識(shí)又能進(jìn)行實(shí)際操作的教學(xué)AI，它們就能夠?yàn)閷W(xué)生提供更加個(gè)性化和交互式的學(xué)習(xí)體驗(yàn)。比如在化學(xué)教學(xué)中，AI可以先理解化學(xué)原理，然后在虛擬實(shí)驗(yàn)室中演示實(shí)驗(yàn)過程，最后指導(dǎo)學(xué)生進(jìn)行實(shí)際操作。

在機(jī)器人技術(shù)方面，JARVIS-VLA展示的多模態(tài)理解和行為生成能力為開發(fā)更智能的機(jī)器人提供了新的思路。未來的家庭服務(wù)機(jī)器人可能會(huì)采用類似的訓(xùn)練方法：首先學(xué)習(xí)大量關(guān)于家庭環(huán)境和日常任務(wù)的知識(shí)，然后學(xué)習(xí)識(shí)別和理解視覺場景，最后學(xué)習(xí)執(zhí)行具體的操作任務(wù)。

在工業(yè)自動(dòng)化領(lǐng)域，這種技術(shù)也可能發(fā)揮重要作用?，F(xiàn)代工廠中的許多任務(wù)都需要結(jié)合理論知識(shí)、視覺識(shí)別和精確操作，這正是JARVIS-VLA所擅長的能力組合。比如在質(zhì)量檢測環(huán)節(jié)，AI需要理解產(chǎn)品規(guī)范，識(shí)別視覺缺陷，然后執(zhí)行相應(yīng)的處理操作。

值得注意的是，JARVIS-VLA的開源特性為整個(gè)學(xué)術(shù)和工業(yè)界提供了寶貴的資源。研究團(tuán)隊(duì)已經(jīng)公開了代碼、模型和數(shù)據(jù)集，這意味著其他研究者可以在此基礎(chǔ)上進(jìn)行進(jìn)一步的改進(jìn)和應(yīng)用。這種開放的研究態(tài)度有助于加速整個(gè)領(lǐng)域的發(fā)展。

從技術(shù)發(fā)展的角度來看，這項(xiàng)研究也預(yù)示著AI系統(tǒng)正在向更加綜合和智能的方向發(fā)展。早期的AI往往專注于單一任務(wù)，比如下棋或圖像識(shí)別。而JARVIS-VLA展示了一種新的可能性：AI系統(tǒng)可以像人類一樣，綜合運(yùn)用知識(shí)、理解和行動(dòng)能力來解決復(fù)雜問題。

說到底，JARVIS-VLA不僅僅是一個(gè)游戲AI，它更像是一個(gè)展示未來AI發(fā)展方向的技術(shù)原型。通過在《我的世界》這個(gè)相對可控的環(huán)境中驗(yàn)證新的訓(xùn)練方法和技術(shù)路線，研究團(tuán)隊(duì)為AI技術(shù)的進(jìn)一步發(fā)展奠定了重要基礎(chǔ)。隨著計(jì)算能力的提升和訓(xùn)練方法的完善，我們有理由相信，未來會(huì)出現(xiàn)更多像JARVIS-VLA這樣能夠真正理解世界、與人類自然交互的智能系統(tǒng)。

這項(xiàng)研究的意義不僅在于技術(shù)突破本身，更在于它所代表的研究思路和方法論。通過將知識(shí)學(xué)習(xí)、視覺理解和行為執(zhí)行有機(jī)結(jié)合，研究團(tuán)隊(duì)展示了構(gòu)建更加智能和通用AI系統(tǒng)的可行路徑。對于那些希望深入了解這項(xiàng)研究技術(shù)細(xì)節(jié)的讀者，可以訪問項(xiàng)目主頁https://craftjarvis.github.io/JarvisVLA或查閱完整的學(xué)術(shù)論文來獲取更多信息。

Q&A

Q1：JARVIS-VLA能做什么？它和普通游戲AI有什么區(qū)別？ A：JARVIS-VLA是一個(gè)能夠像人類一樣玩《我的世界》的AI系統(tǒng)，可以執(zhí)行超過1000種不同任務(wù)，包括挖掘、建造、制作和戰(zhàn)斗。與普通游戲AI不同，它不是簡單模仿人類操作，而是先學(xué)習(xí)游戲世界的知識(shí)和規(guī)律，再學(xué)習(xí)如何操作，就像人類玩家那樣既懂理論又會(huì)實(shí)踐。

Q2：這個(gè)AI訓(xùn)練需要多長時(shí)間？普通人能使用嗎？ A：訓(xùn)練JARVIS-VLA需要使用32塊A800 GPU，視覺語言訓(xùn)練階段需要128個(gè)GPU小時(shí)，行為訓(xùn)練階段需要512個(gè)GPU小時(shí)。目前這主要是研究項(xiàng)目，但研究團(tuán)隊(duì)已經(jīng)開源了代碼和模型，技術(shù)愛好者可以通過項(xiàng)目頁面獲取相關(guān)資源。

Q3：這項(xiàng)技術(shù)會(huì)不會(huì)應(yīng)用到其他游戲或現(xiàn)實(shí)場景中？ A：研究團(tuán)隊(duì)展示的訓(xùn)練方法具有很強(qiáng)的通用性，理論上可以應(yīng)用到其他需要復(fù)雜決策的場景中，比如機(jī)器人控制、工業(yè)自動(dòng)化等。不過從研究原型到實(shí)際應(yīng)用還需要時(shí)間，目前主要價(jià)值在于為AI研究提供了新的技術(shù)路徑。

人工智能游戲AI視覺語言模型

分享至

0贊

好文章，需要你的鼓勵(lì)

推薦文章

音頻生成
大語言模型
多模態(tài)AI

2025-09-10 09:47

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng)，首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù)，通過交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練，能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異，為AI音頻創(chuàng)作開辟新方向。
視頻生成
深度學(xué)習(xí)
多模態(tài)學(xué)習(xí)

2025-09-09 13:57

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動(dòng)起來不再是奢望

Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù)，通過讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息，顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量，在多項(xiàng)測試中超越包括Sora在內(nèi)的商業(yè)模型，為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
多模態(tài)AI
人類價(jià)值觀對齊
數(shù)據(jù)集構(gòu)建

2025-09-09 13:56

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價(jià)值觀對齊難題

上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究，首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn)，通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法，讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平，為AI價(jià)值觀對齊提供了可行技術(shù)路徑。
人工智能
圖神經(jīng)網(wǎng)絡(luò)
天氣預(yù)報(bào)

2025-09-09 10:56

谷歌研究團(tuán)隊(duì)發(fā)布超級預(yù)測模型：讓AI像天氣預(yù)報(bào)員一樣預(yù)測全球大氣變化

谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測模型，能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào)，準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù)，通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律，在極端天氣預(yù)測方面表現(xiàn)卓越，能耗僅為傳統(tǒng)方法的千分之一，為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

2025-09-10 09:47

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動(dòng)起來不再是奢望

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動(dòng)起來不再是奢望

2025-09-09 13:57

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價(jià)值觀對齊難題

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價(jià)值觀對齊難題

2025-09-09 13:56

谷歌研究團(tuán)隊(duì)發(fā)布超級預(yù)測模型：讓AI像天氣預(yù)報(bào)員一樣預(yù)測全球大氣變化

谷歌研究團(tuán)隊(duì)發(fā)布超級預(yù)測模型：讓AI像天氣預(yù)報(bào)員一樣預(yù)測全球大氣變化

2025-09-09 10:56

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時(shí)代

京ICP證15039648號(hào) 京ICP備15039648號(hào)-9 京公網(wǎng)安備 11010802021500號(hào)

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報(bào)電話：010-62641205　涉未成年人舉報(bào)專線：010-62641208 舉報(bào)郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報(bào)專區(qū)：https://www.12377.cn

<center id="6wldt"></center>

<s id="6wldt"><li id="6wldt"></li></s>