av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁 北京大學(xué)團(tuán)隊(duì)讓AI學(xué)會(huì)玩《我的世界》:通過視覺語言訓(xùn)練打造超強(qiáng)游戲AI

北京大學(xué)團(tuán)隊(duì)讓AI學(xué)會(huì)玩《我的世界》:通過視覺語言訓(xùn)練打造超強(qiáng)游戲AI

2025-07-31 09:55
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-07-31 09:55 ? 科技行者

這項(xiàng)由北京大學(xué)李穆遙、王子浩、何凱晨團(tuán)隊(duì)以及清華大學(xué)馬曉健研究員共同完成的突破性研究發(fā)表于2025年3月,論文題目為《JARVIS-VLA: Post-Training Large-Scale Vision Language Models to Play Visual Games with Keyboards and Mouse》。感興趣的讀者可以通過arXiv:2503.16365v1訪問完整論文,項(xiàng)目頁面為https://craftjarvis.github.io/JarvisVLA。

想象一下,如果讓一個(gè)從未接觸過《我的世界》的人突然坐在電腦前開始游戲,他們可能會(huì)手忙腳亂,不知道該如何挖掘、建造或者與游戲世界互動(dòng)。但如果這個(gè)人事先通過大量觀看游戲視頻、閱讀攻略指南,并且深入理解游戲世界的各種規(guī)則和物品屬性,那么他們上手游戲時(shí)就會(huì)表現(xiàn)得更加出色。北京大學(xué)的研究團(tuán)隊(duì)正是基于這樣的思路,開發(fā)出了一個(gè)名為JARVIS-VLA的人工智能系統(tǒng),它不僅能夠理解《我的世界》這個(gè)復(fù)雜的開放世界游戲,還能夠熟練地執(zhí)行超過1000種不同的游戲任務(wù)。

以往的游戲AI大多采用直接模仿人類玩家行為的方式進(jìn)行訓(xùn)練,就像讓一個(gè)學(xué)生直接照搬老師的每一個(gè)動(dòng)作,而不去理解動(dòng)作背后的原理。這種方法雖然能讓AI學(xué)會(huì)一些基本操作,但在面對新情況時(shí)往往顯得力不從心。研究團(tuán)隊(duì)意識(shí)到,真正優(yōu)秀的游戲AI應(yīng)該像人類玩家一樣,首先深入理解游戲世界的知識(shí)和規(guī)律,然后再學(xué)習(xí)具體的操作技巧。

這個(gè)研究的創(chuàng)新之處在于提出了一種全新的訓(xùn)練范式,叫做"視覺語言行為后訓(xùn)練"(ActVLP)。這個(gè)方法的核心思想是讓AI在學(xué)習(xí)游戲操作之前,先通過大量的視覺和語言材料來理解游戲世界。就像一個(gè)優(yōu)秀的廚師在制作復(fù)雜菜肴之前,不僅要熟練掌握刀工和火候,更重要的是要深入了解各種食材的特性、營養(yǎng)搭配原理以及不同烹飪方法的適用場景。

一、從零開始構(gòu)建游戲AI的"大腦"

要理解JARVIS-VLA的工作原理,我們可以把它想象成一個(gè)正在學(xué)習(xí)成為《我的世界》專家的學(xué)生。這個(gè)學(xué)生的"大腦"由幾個(gè)關(guān)鍵部分組成,每個(gè)部分都有著特定的功能。

首先是視覺處理系統(tǒng),就像人類的眼睛和視覺皮層一樣。當(dāng)游戲畫面出現(xiàn)在屏幕上時(shí),這個(gè)系統(tǒng)能夠識(shí)別畫面中的各種元素:哪里有樹木、哪里有石頭、玩家手中拿著什么工具、背包里有什么物品等等。這個(gè)系統(tǒng)采用了先進(jìn)的視覺變換器(Vision Transformer)技術(shù),能夠?qū)?fù)雜的游戲畫面分解成一個(gè)個(gè)小塊進(jìn)行分析,就像拼圖游戲中把整幅圖片分成許多小塊一樣,然后逐一識(shí)別每個(gè)小塊的內(nèi)容。

接下來是語言理解系統(tǒng),相當(dāng)于學(xué)生的語言能力和知識(shí)儲(chǔ)備。這個(gè)系統(tǒng)不僅能夠理解人類給出的游戲指令,比如"制作一把鉆石劍"或"找到并擊殺一只僵尸",還能理解游戲世界中各種物品之間的關(guān)系和制作配方。它就像一本活的游戲百科全書,儲(chǔ)存著關(guān)于《我的世界》的所有知識(shí)。

最重要的是行為決策系統(tǒng),這是整個(gè)AI的"行動(dòng)大腦"。它需要綜合視覺信息和語言指令,然后決定應(yīng)該進(jìn)行什么樣的操作:是移動(dòng)鼠標(biāo)查看周圍環(huán)境,還是按下特定按鍵進(jìn)行挖掘,或者打開背包整理物品。這個(gè)系統(tǒng)的特殊之處在于,它能夠?qū)Q策轉(zhuǎn)換成具體的鍵盤和鼠標(biāo)操作,就像人類玩家一樣通過標(biāo)準(zhǔn)的輸入設(shè)備控制游戲。

為了讓這些系統(tǒng)協(xié)調(diào)工作,研究團(tuán)隊(duì)采用了一種巧妙的方法。他們沒有重新設(shè)計(jì)全新的AI架構(gòu),而是在現(xiàn)有的大型視覺語言模型基礎(chǔ)上進(jìn)行改進(jìn)。這就像在一輛性能良好的汽車上安裝專業(yè)的導(dǎo)航系統(tǒng)和駕駛輔助設(shè)備,而不是從零開始制造一輛全新的車。

特別值得注意的是,JARVIS-VLA采用了非馬爾可夫架構(gòu),這個(gè)聽起來復(fù)雜的術(shù)語實(shí)際上描述了一個(gè)很直觀的概念。在《我的世界》這樣的游戲中,玩家往往需要記住之前發(fā)生的事情才能做出正確決策。比如,如果你剛才看到遠(yuǎn)處有一個(gè)村莊,現(xiàn)在雖然暫時(shí)看不到了,但你仍然記得它的位置。JARVIS-VLA通過保存歷史畫面的方式來模擬這種記憶能力,讓AI能夠基于過去的觀察做出更明智的決策。

二、三步走的訓(xùn)練策略:讓AI循序漸進(jìn)掌握游戲技能

JARVIS-VLA的訓(xùn)練過程可以比作培養(yǎng)一個(gè)《我的世界》專家的完整教育過程。傳統(tǒng)的AI訓(xùn)練方法就像讓一個(gè)完全不懂游戲的人直接觀看高手操作視頻,然后試圖模仿每一個(gè)動(dòng)作,這種方法效果往往不理想。研究團(tuán)隊(duì)采用了一種更加科學(xué)的三階段訓(xùn)練方法,就像讓學(xué)生從理論學(xué)習(xí)開始,逐步過渡到實(shí)踐操作。

第一階段是世界知識(shí)學(xué)習(xí)階段。在這個(gè)階段,AI主要通過大量的文本資料學(xué)習(xí)《我的世界》的基礎(chǔ)知識(shí)。這些知識(shí)包括各種方塊的特性、工具的用途、怪物的行為模式、建筑的基本原理等等。這個(gè)過程就像讓學(xué)生先閱讀游戲說明書、攻略指南和百科全書,建立對游戲世界的基本認(rèn)知框架。研究團(tuán)隊(duì)收集了大約277000條知識(shí)問答對,涵蓋了從基礎(chǔ)的物品制作到復(fù)雜的建筑技巧等各個(gè)方面。

在這個(gè)階段,AI系統(tǒng)的視覺處理部分被暫時(shí)"凍結(jié)",只有語言理解部分在學(xué)習(xí)。這樣做的好處是讓AI能夠?qū)W⒂诶斫庥螒虻膬?nèi)在邏輯和規(guī)律,而不被復(fù)雜的視覺信息干擾。就像學(xué)習(xí)開車時(shí),教練往往會(huì)先在教室里講解交通規(guī)則和駕駛理論,然后再讓學(xué)員實(shí)際上路練習(xí)。

第二階段是視覺語言結(jié)合學(xué)習(xí)階段。在掌握了基礎(chǔ)知識(shí)后,AI開始學(xué)習(xí)如何將抽象的知識(shí)與具體的游戲畫面聯(lián)系起來。這個(gè)階段就像讓學(xué)生看著游戲截圖回答問題:這個(gè)畫面中有什么物品?玩家應(yīng)該使用什么工具?如何找到特定的資源?

研究團(tuán)隊(duì)為這個(gè)階段準(zhǔn)備了三類訓(xùn)練數(shù)據(jù)。首先是圖像描述任務(wù),讓AI學(xué)會(huì)準(zhǔn)確描述游戲畫面中的內(nèi)容。比如,看到一個(gè)森林場景,AI需要能夠識(shí)別出"這里有橡樹、樺樹,地面上散落著一些掉落的原木,遠(yuǎn)處可以看到山脈"這樣的詳細(xì)信息。其次是視覺問答任務(wù),訓(xùn)練AI根據(jù)畫面回答具體問題。最后是空間定位任務(wù),這是一個(gè)特別重要的能力,讓AI能夠準(zhǔn)確指出畫面中特定物品的位置。

空間定位能力對于游戲AI來說至關(guān)重要。當(dāng)玩家說"挖掘那塊鐵礦石"時(shí),AI必須能夠準(zhǔn)確識(shí)別鐵礦石在畫面中的位置,然后控制角色移動(dòng)到正確位置進(jìn)行挖掘。研究團(tuán)隊(duì)使用了先進(jìn)的目標(biāo)檢測技術(shù),讓AI能夠像人類一樣用"指點(diǎn)"的方式標(biāo)記物品位置。

第三階段是行為模仿學(xué)習(xí)階段。經(jīng)過前兩個(gè)階段的準(zhǔn)備,AI已經(jīng)具備了豐富的游戲知識(shí)和良好的視覺理解能力,現(xiàn)在需要學(xué)習(xí)如何將這些能力轉(zhuǎn)化為具體的游戲操作。這個(gè)階段就像駕校學(xué)員從理論學(xué)習(xí)和模擬練習(xí)轉(zhuǎn)向?qū)嶋H道路駕駛。

在這個(gè)階段,AI通過觀察大量的人類玩家游戲錄像來學(xué)習(xí)操作技巧。但與傳統(tǒng)方法不同的是,由于AI已經(jīng)具備了深厚的游戲知識(shí)背景,它能夠更好地理解每個(gè)操作背后的意圖和原理。就像一個(gè)已經(jīng)熟悉交通規(guī)則的學(xué)員在學(xué)習(xí)駕駛時(shí),能夠更快地理解為什么要在特定情況下采取特定操作。

研究團(tuán)隊(duì)收集了超過740萬幀的游戲數(shù)據(jù),包括人類玩家的操作、YouTube游戲視頻,以及其他AI系統(tǒng)的游戲記錄。為了讓AI學(xué)會(huì)處理圖形用戶界面(GUI)操作,比如打開背包、使用工作臺(tái)制作物品等,他們還專門生成了640萬條專家級的操作數(shù)據(jù)。

三、海量數(shù)據(jù)支撐:構(gòu)建AI的知識(shí)庫和技能庫

JARVIS-VLA的成功很大程度上依賴于研究團(tuán)隊(duì)精心構(gòu)建的龐大數(shù)據(jù)集。這個(gè)數(shù)據(jù)集就像為AI準(zhǔn)備的一座圖書館,里面不僅有理論知識(shí),還有大量的實(shí)踐案例和操作示范。

世界知識(shí)數(shù)據(jù)集是這座圖書館的理論書籍部分。研究團(tuán)隊(duì)從維基百科和專業(yè)的《我的世界》網(wǎng)站收集了大量資料,然后使用GPT-3.5模型生成了超過20萬條問答對。這些問答涵蓋了游戲的方方面面:從"制作面包需要什么材料"這樣的基礎(chǔ)問題,到"如何建造高效的自動(dòng)化農(nóng)場"這樣的高級話題。

為了提高訓(xùn)練效率,研究團(tuán)隊(duì)采用了一種巧妙的數(shù)據(jù)組織方式。他們將原本獨(dú)立的問答對重新組織成多輪對話的形式,就像模擬一個(gè)資深玩家在回答新手的連續(xù)提問。這種方式不僅提高了數(shù)據(jù)的利用效率,還讓AI能夠?qū)W會(huì)進(jìn)行連貫的對話交流。

視覺語言對齊數(shù)據(jù)集相當(dāng)于圖書館中的圖文并茂的教科書。研究團(tuán)隊(duì)從各種來源收集了35000張高質(zhì)量的游戲截圖,然后使用GPT-4o、Claude 3.5 Sonnet等先進(jìn)的AI模型為這些圖片生成詳細(xì)的描述和問答對。這個(gè)過程就像請多位專家為同一張圖片寫解說詞,然后綜合他們的意見得出最準(zhǔn)確的描述。

為了確保數(shù)據(jù)質(zhì)量,研究團(tuán)隊(duì)還建立了一套嚴(yán)格的驗(yàn)證流程。他們使用Llama-3.1-72B模型來檢查生成的問答對是否準(zhǔn)確、是否與圖片內(nèi)容相符。這個(gè)過程就像出版社的編輯審查流程,確保最終的教材內(nèi)容準(zhǔn)確無誤。

空間定位數(shù)據(jù)集是最具挑戰(zhàn)性的部分,相當(dāng)于為AI準(zhǔn)備的"實(shí)操手冊"。對于3D游戲環(huán)境,研究團(tuán)隊(duì)使用了一種叫做"反向軌跡重標(biāo)記"的技術(shù)。這個(gè)技術(shù)的工作原理很有趣:當(dāng)AI看到一個(gè)玩家正在與某個(gè)物品互動(dòng)時(shí),系統(tǒng)會(huì)自動(dòng)回溯之前的游戲畫面,找出這個(gè)物品在不同時(shí)間點(diǎn)的位置,然后為這些位置打上標(biāo)記。

這就像制作一部電影的幕后花絮:雖然觀眾在最終畫面中看到演員在特定位置表演,但制作團(tuán)隊(duì)需要追溯拍攝過程,記錄演員是如何移動(dòng)到那個(gè)位置的。通過這種方法,研究團(tuán)隊(duì)為AI提供了大量的物品位置信息,讓它能夠準(zhǔn)確識(shí)別和定位游戲世界中的各種元素。

對于2D界面操作,比如在背包中整理物品或在工作臺(tái)上制作裝備,研究團(tuán)隊(duì)直接利用了《我的世界》游戲本身提供的界面信息。由于游戲中每個(gè)界面元素都有固定的位置,他們可以準(zhǔn)確地標(biāo)記出每個(gè)物品槽位的坐標(biāo)。這個(gè)過程就像為一個(gè)復(fù)雜的控制面板制作詳細(xì)的操作手冊,標(biāo)明每個(gè)按鈕和顯示器的位置和功能。

通過這些努力,研究團(tuán)隊(duì)最終構(gòu)建了一個(gè)包含超過40萬條空間定位數(shù)據(jù)的訓(xùn)練集,為AI提供了豐富的空間理解能力訓(xùn)練素材。

四、性能表現(xiàn):在多項(xiàng)測試中展現(xiàn)超強(qiáng)能力

為了評估JARVIS-VLA的實(shí)際表現(xiàn),研究團(tuán)隊(duì)設(shè)計(jì)了一套全面的測試體系,就像為一個(gè)游戲高手準(zhǔn)備的綜合考試。這套測試不僅檢驗(yàn)AI的游戲操作能力,還考察它的理論知識(shí)和視覺理解能力。

在實(shí)際游戲任務(wù)測試中,JARVIS-VLA展現(xiàn)出了令人印象深刻的表現(xiàn)。研究團(tuán)隊(duì)使用了MCU基準(zhǔn)測試,這是一個(gè)專門為《我的世界》AI設(shè)計(jì)的評估標(biāo)準(zhǔn),包含四大類任務(wù):挖掘方塊、擊殺生物、制作物品和熔煉材料。每一類任務(wù)都包含多個(gè)具體的子任務(wù),難度從簡單到困難不等。

在挖掘任務(wù)中,JARVIS-VLA需要識(shí)別目標(biāo)方塊并使用正確的工具進(jìn)行開采。比如,挖掘鐵礦石需要使用石鎬或更好的工具,而挖掘黑曜石則必須使用鉆石鎬。AI不僅要識(shí)別這些方塊,還要知道使用什么工具,以及如何導(dǎo)航到正確位置。在這類任務(wù)中,JARVIS-VLA達(dá)到了95%的成功率,遠(yuǎn)超之前的最佳系統(tǒng)。

擊殺生物任務(wù)要求AI識(shí)別并攻擊特定的怪物或動(dòng)物。這類任務(wù)不僅考驗(yàn)AI的視覺識(shí)別能力,還需要它掌握戰(zhàn)斗技巧和移動(dòng)策略。JARVIS-VLA在這類任務(wù)中表現(xiàn)同樣出色,成功率達(dá)到了77%。特別值得注意的是,AI能夠區(qū)分不同類型的生物,并采用適當(dāng)?shù)墓舨呗浴?/p>

制作任務(wù)是最具挑戰(zhàn)性的測試之一,因?yàn)樗婕皬?fù)雜的圖形用戶界面操作。當(dāng)接到"制作鉆石劍"這樣的指令時(shí),AI需要打開背包、找到工作臺(tái)、按照正確的配方放置材料,然后完成制作。這個(gè)過程需要精確的鼠標(biāo)控制和對界面布局的深度理解。JARVIS-VLA在制作任務(wù)中的成功率達(dá)到了70%,相比之下,傳統(tǒng)的AI系統(tǒng)在這類任務(wù)中往往表現(xiàn)很差。

熔煉任務(wù)同樣需要復(fù)雜的界面操作,AI需要使用熔爐將原材料轉(zhuǎn)化為有用的物品。JARVIS-VLA在這類任務(wù)中也表現(xiàn)出了顯著的優(yōu)勢,成功率同樣達(dá)到了70%。

更重要的是,當(dāng)研究團(tuán)隊(duì)將JARVIS-VLA與僅通過模仿學(xué)習(xí)訓(xùn)練的系統(tǒng)進(jìn)行比較時(shí),發(fā)現(xiàn)了一個(gè)驚人的結(jié)果:JARVIS-VLA僅使用了21%的訓(xùn)練數(shù)據(jù),但性能卻提升了15%以上。這就像一個(gè)學(xué)生通過更有效的學(xué)習(xí)方法,用更少的時(shí)間取得了更好的成績。

在理論知識(shí)測試中,JARVIS-VLA同樣表現(xiàn)出色。研究團(tuán)隊(duì)設(shè)計(jì)了47個(gè)涵蓋游戲各個(gè)方面的知識(shí)問題,從基礎(chǔ)的物品制作到復(fù)雜的游戲機(jī)制。JARVIS-VLA在這個(gè)測試中獲得了70.7%的正確率,雖然仍然落后于GPT-4o的96.6%,但已經(jīng)大幅超越了其他同類系統(tǒng)。

視覺理解測試評估AI對游戲畫面的理解能力,包括場景識(shí)別、物品檢測、界面讀取等多個(gè)方面。在這個(gè)測試中,JARVIS-VLA達(dá)到了76.7%的準(zhǔn)確率,與最先進(jìn)的GPT-4o持平。這個(gè)結(jié)果特別有意義,因?yàn)樗砻鰽I不僅能夠執(zhí)行游戲操作,還能像人類一樣理解游戲世界。

空間定位測試是最直觀的能力展示。當(dāng)要求AI指出畫面中特定物品的位置時(shí),JARVIS-VLA能夠以88%的準(zhǔn)確率完成任務(wù)。這種能力對于游戲AI來說至關(guān)重要,因?yàn)闇?zhǔn)確的空間理解是執(zhí)行所有游戲操作的基礎(chǔ)。

五、創(chuàng)新突破:多重驗(yàn)證證實(shí)方法的有效性

為了證明他們的方法確實(shí)有效,研究團(tuán)隊(duì)進(jìn)行了一系列精心設(shè)計(jì)的對比實(shí)驗(yàn),就像科學(xué)家在實(shí)驗(yàn)室中控制變量來驗(yàn)證假設(shè)一樣。

首先,他們驗(yàn)證了視覺語言后訓(xùn)練的必要性。研究團(tuán)隊(duì)創(chuàng)建了幾個(gè)不同版本的AI系統(tǒng):一個(gè)是直接在原始模型基礎(chǔ)上進(jìn)行游戲訓(xùn)練的版本,另一個(gè)是先進(jìn)行大規(guī)模模仿學(xué)習(xí)然后再訓(xùn)練的版本,還有就是采用他們提出的ActVLP方法訓(xùn)練的版本。結(jié)果顯示,ActVLP方法訓(xùn)練出的AI在各項(xiàng)任務(wù)中都顯著優(yōu)于其他方法。

更有趣的是,研究團(tuán)隊(duì)還測試了不同類型的后訓(xùn)練數(shù)據(jù)對最終性能的影響。他們分別創(chuàng)建了只使用世界知識(shí)數(shù)據(jù)、只使用視覺對齊數(shù)據(jù)、只使用空間定位數(shù)據(jù)訓(xùn)練的AI版本,然后比較它們的表現(xiàn)。結(jié)果發(fā)現(xiàn),空間定位訓(xùn)練對最終的游戲表現(xiàn)影響最大,這符合直覺,因?yàn)闇?zhǔn)確的空間理解是執(zhí)行游戲操作的基礎(chǔ)。

研究團(tuán)隊(duì)還探索了AI系統(tǒng)的規(guī)模化效應(yīng),這是一個(gè)在AI領(lǐng)域非常重要的問題。他們發(fā)現(xiàn),隨著后訓(xùn)練數(shù)據(jù)量的增加,AI的游戲表現(xiàn)也相應(yīng)提升。特別是當(dāng)后訓(xùn)練損失降到0.22以下時(shí),AI才開始在實(shí)際任務(wù)中表現(xiàn)出非零的成功率。這個(gè)發(fā)現(xiàn)為未來的AI訓(xùn)練提供了重要的指導(dǎo)原則。

另一個(gè)重要發(fā)現(xiàn)是關(guān)于訓(xùn)練數(shù)據(jù)量與性能的關(guān)系。研究團(tuán)隊(duì)發(fā)現(xiàn),增加用于后訓(xùn)練的非軌跡數(shù)據(jù)能夠直接提升下游任務(wù)的表現(xiàn),即使下游訓(xùn)練使用的數(shù)據(jù)量保持不變。這就像一個(gè)學(xué)生通過廣泛的課外閱讀提高了理解能力,即使在相同的考試準(zhǔn)備時(shí)間內(nèi)也能取得更好的成績。

為了驗(yàn)證方法的通用性,研究團(tuán)隊(duì)還在兩個(gè)不同的基礎(chǔ)模型(Qwen2-VL和Llava-Next)上測試了他們的訓(xùn)練方法。結(jié)果顯示,無論使用哪個(gè)基礎(chǔ)模型,ActVLP方法都能帶來顯著的性能提升,這證明了這種方法的普適性。

特別值得注意的是,研究團(tuán)隊(duì)還進(jìn)行了一個(gè)被稱為"scaling experiments"的實(shí)驗(yàn)。他們系統(tǒng)性地研究了不同規(guī)模的訓(xùn)練數(shù)據(jù)對AI性能的影響。結(jié)果顯示,無論是增加下游任務(wù)的訓(xùn)練數(shù)據(jù),還是增加后訓(xùn)練階段的數(shù)據(jù),都能夠改善AI的最終表現(xiàn)。這個(gè)發(fā)現(xiàn)為未來構(gòu)建更強(qiáng)大的游戲AI提供了明確的路徑。

六、技術(shù)細(xì)節(jié):讓AI像人類一樣操作游戲

JARVIS-VLA在技術(shù)實(shí)現(xiàn)上有許多巧妙的設(shè)計(jì),這些細(xì)節(jié)雖然聽起來復(fù)雜,但實(shí)際上都有著很直觀的道理。

在動(dòng)作空間設(shè)計(jì)方面,研究團(tuán)隊(duì)面臨一個(gè)關(guān)鍵挑戰(zhàn):如何讓AI像人類一樣使用鍵盤和鼠標(biāo)控制游戲。《我的世界》需要玩家進(jìn)行各種復(fù)雜操作,包括移動(dòng)角色、轉(zhuǎn)動(dòng)視角、點(diǎn)擊界面、按下功能鍵等等。為了解決這個(gè)問題,研究團(tuán)隊(duì)采用了一種稱為"動(dòng)作標(biāo)記化"的方法。

這個(gè)方法的核心思想是將所有可能的游戲操作轉(zhuǎn)換成特殊的"詞匯",就像為AI創(chuàng)造了一套專門的"游戲語言"。比如,鼠標(biāo)向左移動(dòng)可能對應(yīng)一個(gè)特殊標(biāo)記,按下W鍵對應(yīng)另一個(gè)標(biāo)記,點(diǎn)擊鼠標(biāo)左鍵又是另一個(gè)標(biāo)記。通過這種方式,AI就可以像生成文本一樣生成游戲操作序列。

對于鼠標(biāo)移動(dòng)這樣的連續(xù)動(dòng)作,研究團(tuán)隊(duì)使用了一種叫做μ-law編碼的技術(shù),將連續(xù)的移動(dòng)距離離散化為21個(gè)不同的檔位。這就像把無限可能的移動(dòng)距離簡化為21個(gè)標(biāo)準(zhǔn)選項(xiàng),既保持了操作的精確性,又讓AI能夠處理這些信息。

在詞匯表設(shè)計(jì)上,研究團(tuán)隊(duì)采用了一個(gè)特別聰明的策略。他們沒有重新訓(xùn)練模型的詞匯表,而是將最不常用的51個(gè)詞匯重新定義為游戲操作標(biāo)記。這種方法既避免了重新訓(xùn)練的復(fù)雜性,又確保了與原始模型的兼容性。

為了處理《我的世界》這樣的部分可觀測環(huán)境,JARVIS-VLA采用了歷史信息保持機(jī)制。當(dāng)AI在游戲中移動(dòng)時(shí),它會(huì)記住之前看到的畫面,就像人類玩家會(huì)記住剛才經(jīng)過的地形一樣。這種設(shè)計(jì)讓AI能夠做出更加明智的決策,比如在尋找資源時(shí)能夠避免重復(fù)搜索已經(jīng)探索過的區(qū)域。

在推理階段,JARVIS-VLA采用了一種叫做"action chunking"的技術(shù)。簡單來說,就是讓AI一次性預(yù)測未來幾步的操作,而不是每次只預(yù)測下一步。這種方法不僅提高了執(zhí)行效率,還讓AI的行為更加連貫和目標(biāo)導(dǎo)向。

七、實(shí)驗(yàn)環(huán)境與評估:嚴(yán)格的科學(xué)驗(yàn)證

為了確保實(shí)驗(yàn)結(jié)果的可靠性和可重復(fù)性,研究團(tuán)隊(duì)建立了一套嚴(yán)格的實(shí)驗(yàn)環(huán)境和評估體系。

實(shí)驗(yàn)環(huán)境選擇了《我的世界》1.16.5版本,這是一個(gè)功能完整且相對穩(wěn)定的游戲版本。為了保證公平性,研究團(tuán)隊(duì)隱藏了所有人類玩家無法獲得的信息,比如精確的坐標(biāo)位置、物品數(shù)量統(tǒng)計(jì)等,讓AI完全依賴視覺信息進(jìn)行游戲。

評估基準(zhǔn)使用了MCU(Minecraft Understanding)基準(zhǔn)測試,這是專門為評估《我的世界》AI設(shè)計(jì)的標(biāo)準(zhǔn)化測試集。這個(gè)基準(zhǔn)包含了四大類任務(wù),每類任務(wù)又包含多個(gè)具體的子任務(wù),從簡單的"用手挖掘橡樹原木"到復(fù)雜的"用鉆石鎬挖掘黑曜石超過10秒",難度跨度很大。

為了確保結(jié)果的統(tǒng)計(jì)顯著性,研究團(tuán)隊(duì)對每個(gè)任務(wù)至少進(jìn)行了30次獨(dú)立測試。這就像進(jìn)行醫(yī)學(xué)實(shí)驗(yàn)時(shí)需要足夠大的樣本量來確保結(jié)果的可靠性一樣。他們使用成功率作為主要評估指標(biāo),這是一個(gè)直觀且易于理解的度量標(biāo)準(zhǔn)。

在基線模型選擇上,研究團(tuán)隊(duì)包含了該領(lǐng)域的主要代表性系統(tǒng):VPT(Video Pre-Training)是OpenAI開發(fā)的里程碑式系統(tǒng),STEVE-1是結(jié)合了視覺語言理解的文本指令跟隨系統(tǒng),GROOT使用視頻提示作為任務(wù)指令,MineDreamer則結(jié)合了視覺語言模型和擴(kuò)散模型。這些基線系統(tǒng)代表了當(dāng)前游戲AI的不同技術(shù)路線。

特別值得注意的是,研究團(tuán)隊(duì)還設(shè)計(jì)了專門的視覺語言理解評估,包括世界知識(shí)問答、視覺理解和空間定位三個(gè)方面。對于主觀性較強(qiáng)的問答題,他們使用GPT-4o作為評判員,這種方法已經(jīng)在學(xué)術(shù)界得到廣泛認(rèn)可。對于空間定位任務(wù),則使用基于規(guī)則的客觀評分方法。

八、局限性與未來展望:持續(xù)改進(jìn)的空間

盡管JARVIS-VLA取得了顯著成果,但研究團(tuán)隊(duì)也誠實(shí)地指出了當(dāng)前系統(tǒng)的一些局限性,并為未來的改進(jìn)指明了方向。

首先是推理速度問題。由于JARVIS-VLA基于大型視覺語言模型構(gòu)建,系統(tǒng)的參數(shù)量很大,這導(dǎo)致推理速度相對較慢。雖然研究團(tuán)隊(duì)通過優(yōu)化已經(jīng)將推理速度提升到55幀每秒,但與人類玩家的反應(yīng)速度相比仍有差距。他們認(rèn)為未來可以通過混合專家模型(MoE)等技術(shù)來改善推理效率,目標(biāo)是達(dá)到40Hz以上的實(shí)時(shí)響應(yīng)能力。

其次是性能上限問題。雖然JARVIS-VLA在與其他AI系統(tǒng)的比較中表現(xiàn)優(yōu)異,但與頂級人類玩家相比仍有差距。經(jīng)驗(yàn)豐富的《我的世界》玩家在相同任務(wù)上的成功率通常能達(dá)到90%以上,而JARVIS-VLA目前的平均成功率還沒有達(dá)到這個(gè)水平。

從更廣闊的角度來看,這項(xiàng)研究為視覺語言行為模型的發(fā)展開辟了新的道路。傳統(tǒng)的AI訓(xùn)練往往將重點(diǎn)放在模仿學(xué)習(xí)上,而這項(xiàng)研究證明了在行為學(xué)習(xí)之前進(jìn)行深入的知識(shí)和理解訓(xùn)練的重要性。這種思路不僅適用于游戲AI,也可能為其他需要復(fù)雜決策的AI應(yīng)用提供啟發(fā),比如機(jī)器人控制、自動(dòng)駕駛等領(lǐng)域。

研究團(tuán)隊(duì)還指出,他們的方法在處理更復(fù)雜、更開放的任務(wù)時(shí)仍有改進(jìn)空間?!段业氖澜纭冯m然是一個(gè)復(fù)雜的開放世界游戲,但相比真實(shí)世界的復(fù)雜性仍然有限。如何將這種訓(xùn)練方法擴(kuò)展到更加復(fù)雜和不確定的環(huán)境中,是一個(gè)值得繼續(xù)探索的方向。

另一個(gè)有趣的發(fā)現(xiàn)是關(guān)于AI系統(tǒng)的可解釋性。由于JARVIS-VLA具備了豐富的世界知識(shí)和視覺理解能力,它不僅能夠執(zhí)行任務(wù),還能夠在某種程度上"解釋"自己的行為。這為開發(fā)更加透明和可信的AI系統(tǒng)提供了新的思路。

九、更廣泛的影響:從游戲到現(xiàn)實(shí)世界的應(yīng)用

雖然JARVIS-VLA是在《我的世界》這個(gè)虛擬環(huán)境中開發(fā)和測試的,但其背后的技術(shù)原理和訓(xùn)練方法具有更廣泛的應(yīng)用潛力。

在教育領(lǐng)域,這種技術(shù)可能會(huì)帶來革命性的變化。想象一下,如果我們能夠創(chuàng)造出像JARVIS-VLA一樣既理解理論知識(shí)又能進(jìn)行實(shí)際操作的教學(xué)AI,它們就能夠?yàn)閷W(xué)生提供更加個(gè)性化和交互式的學(xué)習(xí)體驗(yàn)。比如在化學(xué)教學(xué)中,AI可以先理解化學(xué)原理,然后在虛擬實(shí)驗(yàn)室中演示實(shí)驗(yàn)過程,最后指導(dǎo)學(xué)生進(jìn)行實(shí)際操作。

在機(jī)器人技術(shù)方面,JARVIS-VLA展示的多模態(tài)理解和行為生成能力為開發(fā)更智能的機(jī)器人提供了新的思路。未來的家庭服務(wù)機(jī)器人可能會(huì)采用類似的訓(xùn)練方法:首先學(xué)習(xí)大量關(guān)于家庭環(huán)境和日常任務(wù)的知識(shí),然后學(xué)習(xí)識(shí)別和理解視覺場景,最后學(xué)習(xí)執(zhí)行具體的操作任務(wù)。

在工業(yè)自動(dòng)化領(lǐng)域,這種技術(shù)也可能發(fā)揮重要作用?,F(xiàn)代工廠中的許多任務(wù)都需要結(jié)合理論知識(shí)、視覺識(shí)別和精確操作,這正是JARVIS-VLA所擅長的能力組合。比如在質(zhì)量檢測環(huán)節(jié),AI需要理解產(chǎn)品規(guī)范,識(shí)別視覺缺陷,然后執(zhí)行相應(yīng)的處理操作。

值得注意的是,JARVIS-VLA的開源特性為整個(gè)學(xué)術(shù)和工業(yè)界提供了寶貴的資源。研究團(tuán)隊(duì)已經(jīng)公開了代碼、模型和數(shù)據(jù)集,這意味著其他研究者可以在此基礎(chǔ)上進(jìn)行進(jìn)一步的改進(jìn)和應(yīng)用。這種開放的研究態(tài)度有助于加速整個(gè)領(lǐng)域的發(fā)展。

從技術(shù)發(fā)展的角度來看,這項(xiàng)研究也預(yù)示著AI系統(tǒng)正在向更加綜合和智能的方向發(fā)展。早期的AI往往專注于單一任務(wù),比如下棋或圖像識(shí)別。而JARVIS-VLA展示了一種新的可能性:AI系統(tǒng)可以像人類一樣,綜合運(yùn)用知識(shí)、理解和行動(dòng)能力來解決復(fù)雜問題。

說到底,JARVIS-VLA不僅僅是一個(gè)游戲AI,它更像是一個(gè)展示未來AI發(fā)展方向的技術(shù)原型。通過在《我的世界》這個(gè)相對可控的環(huán)境中驗(yàn)證新的訓(xùn)練方法和技術(shù)路線,研究團(tuán)隊(duì)為AI技術(shù)的進(jìn)一步發(fā)展奠定了重要基礎(chǔ)。隨著計(jì)算能力的提升和訓(xùn)練方法的完善,我們有理由相信,未來會(huì)出現(xiàn)更多像JARVIS-VLA這樣能夠真正理解世界、與人類自然交互的智能系統(tǒng)。

這項(xiàng)研究的意義不僅在于技術(shù)突破本身,更在于它所代表的研究思路和方法論。通過將知識(shí)學(xué)習(xí)、視覺理解和行為執(zhí)行有機(jī)結(jié)合,研究團(tuán)隊(duì)展示了構(gòu)建更加智能和通用AI系統(tǒng)的可行路徑。對于那些希望深入了解這項(xiàng)研究技術(shù)細(xì)節(jié)的讀者,可以訪問項(xiàng)目主頁https://craftjarvis.github.io/JarvisVLA或查閱完整的學(xué)術(shù)論文來獲取更多信息。

Q&A

Q1:JARVIS-VLA能做什么?它和普通游戲AI有什么區(qū)別? A:JARVIS-VLA是一個(gè)能夠像人類一樣玩《我的世界》的AI系統(tǒng),可以執(zhí)行超過1000種不同任務(wù),包括挖掘、建造、制作和戰(zhàn)斗。與普通游戲AI不同,它不是簡單模仿人類操作,而是先學(xué)習(xí)游戲世界的知識(shí)和規(guī)律,再學(xué)習(xí)如何操作,就像人類玩家那樣既懂理論又會(huì)實(shí)踐。

Q2:這個(gè)AI訓(xùn)練需要多長時(shí)間?普通人能使用嗎? A:訓(xùn)練JARVIS-VLA需要使用32塊A800 GPU,視覺語言訓(xùn)練階段需要128個(gè)GPU小時(shí),行為訓(xùn)練階段需要512個(gè)GPU小時(shí)。目前這主要是研究項(xiàng)目,但研究團(tuán)隊(duì)已經(jīng)開源了代碼和模型,技術(shù)愛好者可以通過項(xiàng)目頁面獲取相關(guān)資源。

Q3:這項(xiàng)技術(shù)會(huì)不會(huì)應(yīng)用到其他游戲或現(xiàn)實(shí)場景中? A:研究團(tuán)隊(duì)展示的訓(xùn)練方法具有很強(qiáng)的通用性,理論上可以應(yīng)用到其他需要復(fù)雜決策的場景中,比如機(jī)器人控制、工業(yè)自動(dòng)化等。不過從研究原型到實(shí)際應(yīng)用還需要時(shí)間,目前主要價(jià)值在于為AI研究提供了新的技術(shù)路徑。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-