av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁 圖像思維:用純視覺規(guī)劃替代語言推理的全新范式

圖像思維:用純視覺規(guī)劃替代語言推理的全新范式

2025-05-21 13:36
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-21 13:36 ? 科技行者

近日,來自劍橋大學(xué)語言技術(shù)實(shí)驗(yàn)室、倫敦大學(xué)學(xué)院和谷歌的研究團(tuán)隊(duì)在預(yù)印本服務(wù)平臺(tái)arXiv上發(fā)表了一篇題為《Visual Planning: Let's Think Only with Images》的研究論文(arXiv:2505.11409v1,2025年5月16日)。這項(xiàng)研究挑戰(zhàn)了我們對(duì)人工智能推理方式的傳統(tǒng)認(rèn)知,提出了一個(gè)全新的范式——視覺規(guī)劃(Visual Planning)。

想象一下,當(dāng)你在迷宮中尋找出路時(shí),你會(huì)怎么做?大多數(shù)人不會(huì)說"我需要先向北走三步,然后向東轉(zhuǎn),再向南走兩步...",而是在腦海中直接"看到"可能的路徑,想象自己在迷宮中移動(dòng)的樣子。這種直覺性的視覺思考方式,恰恰是現(xiàn)有人工智能系統(tǒng)所缺乏的。

目前的大型語言模型(LLM)和多模態(tài)大型語言模型(MLLM)雖然能夠接收?qǐng)D像輸入,但它們的推理過程仍然依賴于純文本。當(dāng)面對(duì)需要空間推理的任務(wù)時(shí),這些模型必須先將視覺信息轉(zhuǎn)換為文字描述,然后在語言空間中進(jìn)行推理,這種轉(zhuǎn)換不僅效率低下,還會(huì)丟失大量視覺細(xì)節(jié)。

研究團(tuán)隊(duì)提出的視覺規(guī)劃范式完全顛覆了這一方法。他們的系統(tǒng)不再依賴語言作為中間媒介,而是直接在視覺領(lǐng)域中進(jìn)行思考和規(guī)劃。簡(jiǎn)單來說,這種方法就像是讓AI學(xué)會(huì)在腦海中繪制路線圖,而不是用文字描述路徑。為了實(shí)現(xiàn)這一目標(biāo),研究團(tuán)隊(duì)開發(fā)了一種名為"基于強(qiáng)化學(xué)習(xí)的視覺規(guī)劃"(VPRL,Visual Planning via Reinforcement Learning)的框架,使用名為GRPO的技術(shù)對(duì)大型視覺模型進(jìn)行訓(xùn)練,使其能夠生成表示推理步驟的圖像序列。

這項(xiàng)研究使用了三個(gè)經(jīng)典的視覺導(dǎo)航任務(wù)進(jìn)行驗(yàn)證:FROZENLAKE(冰湖),MAZE(迷宮)和MINIBEHAVIOR(迷你行為)。結(jié)果令人驚喜:與基于文本的推理方法相比,視覺規(guī)劃范式在準(zhǔn)確匹配率上平均提高了40%以上,展示了非語言推理方式的巨大潛力。

讓我們一起深入了解這項(xiàng)顛覆性研究的細(xì)節(jié),看看純視覺思維如何為人工智能開辟全新的可能性。

一、背景:為什么我們需要視覺規(guī)劃?

當(dāng)我們?nèi)祟惷鎸?duì)空間導(dǎo)航問題時(shí),比如尋找從A點(diǎn)到B點(diǎn)的路徑,我們很少會(huì)想"我需要向北走20米,然后向西轉(zhuǎn),再走15米..."。相反,我們通常會(huì)在腦海中直接"看到"一條路線,想象自己沿著這條路線移動(dòng)的畫面。這種直觀的視覺思維方式是人類解決空間問題的自然方式。

然而,現(xiàn)有的人工智能系統(tǒng),包括最先進(jìn)的多模態(tài)大語言模型(MLLM),雖然能夠接收?qǐng)D像輸入,但它們的推理過程仍然完全依賴于文本。即使是處理高度視覺化的任務(wù),這些模型也必須先將視覺信息翻譯成文字描述,然后在文本空間中進(jìn)行推理。這種模態(tài)轉(zhuǎn)換不僅增加了計(jì)算負(fù)擔(dān),還會(huì)導(dǎo)致大量視覺細(xì)節(jié)的丟失。想象一下,如果你要通過電話向朋友描述一幅復(fù)雜的地圖,無論你的描述多么詳盡,對(duì)方都很難完全準(zhǔn)確地重構(gòu)出地圖的全貌。

研究人員指出,這種語言中介的依賴性是當(dāng)前多模態(tài)AI系統(tǒng)的一個(gè)重要局限。認(rèn)知科學(xué)的雙重編碼理論(Dual Coding Theory)支持這一觀點(diǎn),該理論認(rèn)為人類認(rèn)知同時(shí)通過言語和非言語渠道運(yùn)作,每個(gè)渠道都具有獨(dú)立的表征和推理過程。簡(jiǎn)而言之,有些問題適合用語言思考,而有些問題則更適合用圖像思考。

以前的研究確實(shí)嘗試過將圖像整合到推理過程中,例如Visual Sketchpad和MVoT等方法會(huì)在文本推理的中間步驟中生成可視化輔助。然而,這些方法仍然以文本為主導(dǎo),視覺元素只是輔助信息,真正的決策仍然發(fā)生在語言空間中。

劍橋大學(xué)的研究團(tuán)隊(duì)提出了一個(gè)大膽的問題:AI是否可以完全拋開語言,只使用圖像進(jìn)行規(guī)劃和推理?這個(gè)問題引發(fā)了視覺規(guī)劃(Visual Planning)范式的誕生。

二、視覺規(guī)劃:純圖像思維的新范式

視覺規(guī)劃范式的核心理念異常簡(jiǎn)單:用圖像序列代替文本序列來表達(dá)推理過程。在傳統(tǒng)的推理方法中,模型接收一個(gè)初始狀態(tài)(可能包含圖像和文本),然后生成一系列文本推理步驟,最終得出文本形式的答案。而在視覺規(guī)劃中,模型接收一個(gè)初始圖像,然后生成一系列表示中間狀態(tài)的圖像,形成一條完整的視覺軌跡。

這種方法的優(yōu)勢(shì)在于它避免了將視覺信息轉(zhuǎn)換成文本的需要,從而保留了原始的空間關(guān)系和視覺細(xì)節(jié)。就像我們?cè)谀X海中想象穿過迷宮的路徑一樣,視覺規(guī)劃系統(tǒng)直接在視覺空間中"思考",生成每一步可能的狀態(tài)。

為了實(shí)現(xiàn)這一目標(biāo),研究團(tuán)隊(duì)使用了純視覺模型——大型視覺模型(LVM),該模型只訓(xùn)練了圖像和視頻幀,沒有接觸過任何文本數(shù)據(jù)。這種設(shè)計(jì)選擇是為了消除語言監(jiān)督可能引入的干擾,確保模型完全在視覺模態(tài)內(nèi)運(yùn)作。

從技術(shù)角度看,視覺規(guī)劃被定義為一個(gè)生成中間圖像序列T = (v?, ..., v?)的過程,其中每個(gè)v?代表一個(gè)視覺狀態(tài),它們共同構(gòu)成一條視覺規(guī)劃軌跡。給定初始圖像v?,模型會(huì)自回歸地生成這些中間狀態(tài),每一步都基于初始狀態(tài)和之前生成的狀態(tài):

v? ~ πθ(v?|v?, v?, ..., v???)

其中πθ是由參數(shù)θ定義的生成視覺模型。簡(jiǎn)單來說,模型會(huì)不斷預(yù)測(cè)"下一步會(huì)是什么樣子",直到完成整個(gè)任務(wù)。

三、VPRL:強(qiáng)化學(xué)習(xí)驅(qū)動(dòng)的視覺規(guī)劃

為了訓(xùn)練這種全新的視覺規(guī)劃系統(tǒng),研究團(tuán)隊(duì)開發(fā)了一種兩階段的強(qiáng)化學(xué)習(xí)框架,稱為"基于強(qiáng)化學(xué)習(xí)的視覺規(guī)劃"(VPRL)。

強(qiáng)化學(xué)習(xí)在提高自回歸模型的泛化能力方面已經(jīng)顯示出顯著優(yōu)勢(shì),因?yàn)樗軌騼?yōu)化序列級(jí)別的獎(jiǎng)勵(lì),而不僅僅是逐個(gè)標(biāo)記的監(jiān)督信號(hào)。想象一下,教一個(gè)孩子玩棋盤游戲時(shí),你通常不會(huì)對(duì)每一步棋都給出評(píng)價(jià),而是根據(jù)最終結(jié)果(贏、輸或平)來評(píng)判整個(gè)策略。同樣,強(qiáng)化學(xué)習(xí)能夠從整體任務(wù)成功與否中學(xué)習(xí),而不需要為每個(gè)中間步驟提供明確的標(biāo)簽。

具體來說,VPRL框架包含兩個(gè)關(guān)鍵階段:

第一階段:策略初始化。在這個(gè)階段,模型πθ通過在環(huán)境中的隨機(jī)行走獲得的軌跡進(jìn)行初始化訓(xùn)練。目的是生成有效的視覺狀態(tài)序列,并保持探索能力。對(duì)于每條軌跡(v?, ..., v?),研究團(tuán)隊(duì)提取n-1個(gè)圖像對(duì)(v≤?, v???),其中v≤?表示前綴序列(v?, ..., v?)。然后,給定一個(gè)輸入前綴,模型會(huì)接觸到一組可能的下一個(gè)狀態(tài){v???^(j)}????,這些狀態(tài)來自共享相同前綴的K條有效軌跡。為了防止過擬合到特定轉(zhuǎn)換并鼓勵(lì)隨機(jī)性,在每個(gè)訓(xùn)練步驟中,研究團(tuán)隊(duì)隨機(jī)從這組候選中抽樣一個(gè)v???^(l)作為監(jiān)督目標(biāo)。

第二階段:視覺規(guī)劃的強(qiáng)化學(xué)習(xí)。在第一階段建立的基礎(chǔ)上,模型已經(jīng)具備了有效的探索能力,這對(duì)于強(qiáng)化學(xué)習(xí)至關(guān)重要,因?yàn)樗_保了對(duì)所有可能轉(zhuǎn)換的覆蓋,并防止陷入次優(yōu)行為。第二階段利用這種能力,通過生成下一個(gè)視覺狀態(tài)來模擬潛在動(dòng)作的結(jié)果,并指導(dǎo)模型有效地進(jìn)行規(guī)劃。

具體來說,給定一個(gè)輸入前綴v≤?,行為模型πθ???會(huì)采樣一組G個(gè)候選響應(yīng){v???^(1), ..., v???^(G)}。每個(gè)響應(yīng)代表一個(gè)與計(jì)劃動(dòng)作a?^(k)相對(duì)應(yīng)的假設(shè)視覺狀態(tài)。為了解釋這些轉(zhuǎn)換,研究團(tuán)隊(duì)使用基于規(guī)則的解析函數(shù),將視覺狀態(tài)對(duì)(v?, v???^(k))映射到離散動(dòng)作。然后,使用復(fù)合獎(jiǎng)勵(lì)函數(shù)r(v?, v???^(k))對(duì)候選響應(yīng)進(jìn)行評(píng)分,該函數(shù)量化了生成的視覺狀態(tài)是否代表了朝向目標(biāo)狀態(tài)的有意義進(jìn)展。

不同于依賴學(xué)習(xí)的評(píng)論家來估計(jì)價(jià)值函數(shù)(這可能引入額外的不確定性和復(fù)雜性),GRPO通過組內(nèi)比較提供了更具計(jì)算效率和可解釋性的訓(xùn)練信號(hào)。在這種情況下,每個(gè)候選的相對(duì)優(yōu)勢(shì)A^(k)由以下公式計(jì)算:

A^(k) = (r^(k) - mean{r^(1), r^(2), ..., r^(G)}) / std{r^(1), r^(2), ..., r^(G)}

為了引導(dǎo)模型產(chǎn)生具有較高優(yōu)勢(shì)的響應(yīng),研究團(tuán)隊(duì)通過最大化以下目標(biāo)來更新策略πθ:

J(θ) = E[1/G ∑???? min(ρ^(k)A^(k), clip(ρ^(k), 1-ε, 1+ε)A^(k)) - β·DKL(πθ||πref)]

其中ρ^(k) = πθ(v???^(k)|v≤?) / πθ???(v???^(k)|v≤?)是重要性采樣比率。

獎(jiǎng)勵(lì)設(shè)計(jì)是VPRL框架的關(guān)鍵部分。與離散動(dòng)作或文本標(biāo)記不同,視覺輸出是稀疏的、高維的,不容易分解為可解釋的單元。在視覺規(guī)劃框架中,挑戰(zhàn)更加具體:生成的視覺狀態(tài)是否能夠正確反映預(yù)期的規(guī)劃動(dòng)作。

因此,獎(jiǎng)勵(lì)設(shè)計(jì)專注于朝目標(biāo)的進(jìn)展,同時(shí)驗(yàn)證帶有約束的動(dòng)作。具體來說,研究團(tuán)隊(duì)定義了一個(gè)狀態(tài)-動(dòng)作解析函數(shù)P:V×V→A∪E,其中A表示有效動(dòng)作集,E表示無效轉(zhuǎn)換集(如違反環(huán)境物理約束)。

該函數(shù)幫助從像素?cái)?shù)據(jù)中解釋模型行為到預(yù)期動(dòng)作,可以通過獨(dú)立的分割組件或基于規(guī)則的腳本實(shí)現(xiàn)。一旦有了預(yù)期動(dòng)作,為了系統(tǒng)地評(píng)估動(dòng)作效果,研究團(tuán)隊(duì)引入了進(jìn)展圖D(v)∈N,該圖估計(jì)從每個(gè)視覺狀態(tài)到達(dá)目標(biāo)所需的剩余步驟或努力。

通過將代理的當(dāng)前狀態(tài)和結(jié)果狀態(tài)與進(jìn)展圖進(jìn)行比較,A∪E被劃分為三個(gè)不相交的子集:

- A??? = {a∈A : D(v???^(k)) < D(v?)},即最優(yōu)動(dòng)作 - A???? = {a∈A : D(v???^(k)) ≥ D(v?)},即非最優(yōu)動(dòng)作 - E??? = E,即無效動(dòng)作

然后,研究團(tuán)隊(duì)提出了進(jìn)展獎(jiǎng)勵(lì)函數(shù)r(v?, v???^(k)):

α???·I[P(v?, v???^(k))∈A???] + α????·I[P(v?, v???^(k))∈A????] + α???·I[P(v?, v???^(k))∈E???]

其中α???, α????, α???是獎(jiǎng)勵(lì)系數(shù)。在實(shí)驗(yàn)中,研究團(tuán)隊(duì)設(shè)置α???=1,α????=0,α???=-5,從而獎(jiǎng)勵(lì)進(jìn)展動(dòng)作,對(duì)非進(jìn)展動(dòng)作賦予零值,并嚴(yán)厲懲罰無效轉(zhuǎn)換。

四、實(shí)驗(yàn)驗(yàn)證:視覺規(guī)劃的強(qiáng)大效果

為了驗(yàn)證視覺規(guī)劃范式的可行性,研究團(tuán)隊(duì)在三個(gè)具有代表性的導(dǎo)航任務(wù)上進(jìn)行了實(shí)驗(yàn):FROZENLAKE(冰湖)、MAZE(迷宮)和MINIBEHAVIOR(迷你行為)。

FROZENLAKE任務(wù)模擬了一個(gè)基于網(wǎng)格的冰湖,代理需要從指定位置開始,在不掉入"孔洞"的情況下安全地找到目的地。MAZE任務(wù)要求代理從起點(diǎn)(綠點(diǎn))穿過迷宮到達(dá)目的地(紅旗)。MINIBEHAVIOR則更為復(fù)雜,代理首先需要從起點(diǎn)到達(dá)打印機(jī)并拾取它,然后去到桌子并放下打印機(jī),這個(gè)任務(wù)除了基本的移動(dòng)動(dòng)作外,還包括"拾取"和"放下"兩個(gè)額外動(dòng)作。

為了進(jìn)行純視覺規(guī)劃的探索,研究團(tuán)隊(duì)選擇了僅在圖像和視頻幀上訓(xùn)練的大型視覺模型(LVM-3B),該模型沒有接觸過任何文本數(shù)據(jù)。這種設(shè)計(jì)選擇消除了語言監(jiān)督可能引入的干擾因素,實(shí)現(xiàn)了對(duì)視覺模態(tài)內(nèi)推理能力的"純凈"研究。

研究團(tuán)隊(duì)還引入了幾個(gè)系統(tǒng)變體作為基線,這些變體在監(jiān)督模態(tài)(語言vs圖像)和優(yōu)化方法(SFT vs RL)方面有所不同,允許比較基于語言和基于視覺的規(guī)劃,同時(shí)評(píng)估強(qiáng)化學(xué)習(xí)的作用:

1. 基于視覺的微調(diào)(VPFT):這是VPRL框架的簡(jiǎn)化變體,共享與第一階段相同的訓(xùn)練架構(gòu),但用最優(yōu)規(guī)劃軌跡替代隨機(jī)軌跡。

2. 文本中的監(jiān)督微調(diào)(SFT):在這個(gè)基線中,規(guī)劃被表述在語言模態(tài)中。模型不是生成動(dòng)作的視覺后果,而是生成預(yù)期動(dòng)作序列的文本描述。

此外,研究團(tuán)隊(duì)還評(píng)估了封閉源模型,包括Gemini 2.0 Flash和高級(jí)思考模型Gemini 2.5 Pro作為最先進(jìn)的多模態(tài)推理參考。

實(shí)驗(yàn)結(jié)果令人驚嘆:視覺規(guī)劃(VPFT和VPRL)在所有任務(wù)上都取得了最高分?jǐn)?shù),優(yōu)于所有基于語言推理的基線。使用相同的監(jiān)督訓(xùn)練方法通過微調(diào),VPFT在精確匹配率(EM)上超過了基于語言的SFT平均22%以上,而VPRL進(jìn)一步擴(kuò)大了這一差距。進(jìn)展率(PR)也觀察到類似的趨勢(shì)。這突出了視覺規(guī)劃范式在視覺為中心的任務(wù)中的優(yōu)勢(shì),其中基于語言的方法可能與任務(wù)結(jié)構(gòu)不太協(xié)調(diào)。

即使是大型封閉源系統(tǒng)或較小的開源MLLM等推理模型,在沒有特定任務(wù)調(diào)整的情況下也難以處理這些規(guī)劃任務(wù)。即使是高級(jí)思考模型Gemini 2.5 Pro在更復(fù)雜的MAZE和MINIBEHAVIOR任務(wù)上的EM和PR也幾乎低于50%,這凸顯了這些任務(wù)對(duì)當(dāng)前模型的挑戰(zhàn),盡管對(duì)人類來說很直觀。

兩階段強(qiáng)化學(xué)習(xí)方法(VPRL)產(chǎn)生了最高的整體性能,超過了所有系統(tǒng)變體。在第2階段之后,模型在較簡(jiǎn)單的FROZENLAKE任務(wù)上實(shí)現(xiàn)了近乎完美的規(guī)劃(91.6% EM,93.2% PR),并在MAZE和MINIBEHAVIOR任務(wù)上保持了強(qiáng)勁表現(xiàn)。這標(biāo)志著在所有任務(wù)上比監(jiān)督基線VPFT有顯著的提升,提高了超過20%。正如預(yù)期的那樣,VPRL訓(xùn)練的第1階段,它強(qiáng)制輸出格式但不教授規(guī)劃行為,產(chǎn)生了接近隨機(jī)的性能(例如,在FROZENLAKE上為11% EM)。經(jīng)過第2階段的優(yōu)化和獎(jiǎng)勵(lì)方案的完整應(yīng)用后,規(guī)劃者達(dá)到了其最佳性能。

這種增益突出了RL相對(duì)于SFT的關(guān)鍵優(yōu)勢(shì)。VPRL允許模型自由探索多樣化的動(dòng)作并從其結(jié)果中學(xué)習(xí),而VPFT則依賴于模仿并傾向于擬合訓(xùn)練分布。通過鼓勵(lì)以獎(jiǎng)勵(lì)驅(qū)動(dòng)的更新進(jìn)行利用,VPRL學(xué)會(huì)捕捉底層規(guī)則和模式,導(dǎo)致更強(qiáng)的規(guī)劃性能。

五、深入分析:視覺規(guī)劃的優(yōu)勢(shì)與挑戰(zhàn)

隨著難度的增加,視覺規(guī)劃的優(yōu)勢(shì)變得更加明顯。當(dāng)研究團(tuán)隊(duì)將FROZENLAKE環(huán)境中的網(wǎng)格大小從3×3增加到6×6時(shí),Gemini 2.5 Pro的EM分?jǐn)?shù)從98.0%急劇下降到38.8%。相比之下,視覺規(guī)劃器不僅在所有網(wǎng)格大小上保持較高的準(zhǔn)確率,還表現(xiàn)出更平坦的性能曲線。類似地,VPRL表現(xiàn)出比VPFT更強(qiáng)的穩(wěn)定性,在3×3網(wǎng)格上的EM保持在97.6%,在6×6上仍然達(dá)到82.4%,表明具有很強(qiáng)的魯棒性。

隨著模型生成的視覺規(guī)劃軌跡分析,研究團(tuán)隊(duì)觀察到一些有趣的模式。模型有時(shí)會(huì)采取偏離最短路徑的非最優(yōu)動(dòng)作,如FROZENLAKE示例中所示。無效動(dòng)作包括違反物理約束(例如,在MAZE中穿墻或在MINIBEHAVIOR中進(jìn)入桌子),或在單一步驟中執(zhí)行多個(gè)動(dòng)作。

與基于語言的推理系統(tǒng)相比,視覺規(guī)劃也顯示出一些顯著的特征。在FROZENLAKE中,Gemini 2.5 Pro在第一步就錯(cuò)誤解釋了環(huán)境大小,導(dǎo)致級(jí)聯(lián)錯(cuò)誤,最終得出錯(cuò)誤的最終答案。同樣,基于語言的SFT基線在第三步做出了無效動(dòng)作,反映了在推理過程中跟蹤狀態(tài)的困難。相比之下,視覺規(guī)劃通過直接在視覺模態(tài)中推理并在每個(gè)動(dòng)作中反映視覺狀態(tài),避免了此類失敗。VPRL展示了繞過障礙物同時(shí)仍然朝向目標(biāo)前進(jìn)的能力,而VPFT因缺乏這種靈活性而陷入困境,無法到達(dá)目的地。

研究團(tuán)隊(duì)還進(jìn)行了一個(gè)消融研究,隔離VPRL兩階段框架中第1階段的影響。第1階段的主要目的不是直接提高規(guī)劃性能,而是初始化具有強(qiáng)大探索能力和有效輸出格式的策略。為了驗(yàn)證這一點(diǎn),研究團(tuán)隊(duì)重用了原始的VPFT訓(xùn)練流程,即從最優(yōu)軌跡中學(xué)習(xí),但從第1階段檢查點(diǎn)開始作為VPFT*。令人驚訝的是,這個(gè)變體在FROZENLAKE上的最終性能低于標(biāo)準(zhǔn)VPFT。這個(gè)結(jié)果支持了研究團(tuán)隊(duì)的假設(shè),即第1階段本身并不貢獻(xiàn)規(guī)劃能力,而是提供了有利于在第2階段進(jìn)行有效強(qiáng)化學(xué)習(xí)的探索友好初始化。

六、視覺規(guī)劃的未來與影響

這項(xiàng)研究為人工智能推理開辟了一個(gè)全新方向。傳統(tǒng)上,人工智能社區(qū)一直專注于通過語言進(jìn)行推理,而這項(xiàng)工作表明,至少對(duì)于某些任務(wù)來說,在視覺域內(nèi)進(jìn)行推理可能更加自然和有效。

視覺規(guī)劃范式的成功挑戰(zhàn)了語言作為推理唯一媒介的假設(shè),并為多模態(tài)AI系統(tǒng)的發(fā)展提供了新的設(shè)計(jì)考慮。未來的工作可能會(huì)探索更復(fù)雜的任務(wù)和環(huán)境,結(jié)合語言和視覺推理的混合系統(tǒng),以及改進(jìn)視覺規(guī)劃的泛化能力。

盡管這項(xiàng)研究主要關(guān)注基于網(wǎng)格的導(dǎo)航任務(wù),但其原則可以擴(kuò)展到更廣泛的領(lǐng)域,如機(jī)器人控制、物理系統(tǒng)模擬和交互式環(huán)境中的決策。通過允許AI系統(tǒng)在與問題性質(zhì)最匹配的模態(tài)中"思考",我們可能會(huì)開發(fā)出更強(qiáng)大、更直觀的AI系統(tǒng)。

這項(xiàng)研究也引發(fā)了關(guān)于人類認(rèn)知與AI推理之間關(guān)系的思考。雙重編碼理論提出人類同時(shí)使用語言和非語言通道進(jìn)行認(rèn)知處理,而當(dāng)前的AI系統(tǒng)主要依賴語言。通過開發(fā)能夠在多種模態(tài)中推理的系統(tǒng),我們可能會(huì)創(chuàng)造出更接近人類思維方式的AI。

值得注意的是,這項(xiàng)工作還處于初步階段,研究團(tuán)隊(duì)使用的是相對(duì)簡(jiǎn)單的環(huán)境和任務(wù)。未來的研究需要解決更復(fù)雜的實(shí)際問題,以及如何將視覺規(guī)劃與語言指令和反饋結(jié)合起來。

研究團(tuán)隊(duì)也承認(rèn)了一些局限性。首先,他們專注于大型視覺模型(LVM)以消除語言作為混雜因素,這將模型大小限制在3B,并排除了最近發(fā)布的能夠生成多模態(tài)輸出的本地多模態(tài)模型。此外,顯式生成圖像在推理過程中引入了計(jì)算開銷,盡管研究團(tuán)隊(duì)指出,基于語言的推理,特別是對(duì)于思考模型,可能同樣或更加耗時(shí)。最后,本研究中狀態(tài)-動(dòng)作解析函數(shù)的實(shí)現(xiàn)較為簡(jiǎn)單,這可能限制了泛化到更廣泛的任務(wù)設(shè)置的能力。

七、總結(jié)與展望

這項(xiàng)由劍橋大學(xué)、倫敦大學(xué)學(xué)院和谷歌研究人員共同完成的研究,介紹了一種全新的視覺規(guī)劃范式,它使模型能夠完全通過視覺狀態(tài)轉(zhuǎn)換進(jìn)行操作,而無需文本中介。研究團(tuán)隊(duì)展示了純視覺表示可以導(dǎo)致更有效和直觀的規(guī)劃,特別是在空間和動(dòng)態(tài)任務(wù)中。

他們提出的兩階段強(qiáng)化學(xué)習(xí)框架VPRL,由GRPO賦能,進(jìn)一步增強(qiáng)了大型視覺模型的規(guī)劃能力。它在三個(gè)視覺導(dǎo)航任務(wù)上取得了顯著的性能提升,比基于語言的規(guī)劃性能高出40%以上,并在分布外場(chǎng)景中展示了更強(qiáng)的泛化能力。

這些發(fā)現(xiàn)突顯了視覺規(guī)劃作為基于文本方法強(qiáng)大替代品的前景。研究團(tuán)隊(duì)相信他們的工作為多模態(tài)研究開辟了一個(gè)豐富的新方向,為構(gòu)建更加直觀、靈活和強(qiáng)大的推理系統(tǒng)奠定了基礎(chǔ),這些系統(tǒng)可以應(yīng)用于各種領(lǐng)域,從機(jī)器人導(dǎo)航到復(fù)雜的空間問題解決。

如同人類思維能夠靈活地在語言和圖像之間切換一樣,未來的AI系統(tǒng)可能會(huì)學(xué)會(huì)在最適合任務(wù)的模態(tài)中進(jìn)行"思考",從而達(dá)到更加智能和自然的問題解決能力。這項(xiàng)研究向我們展示了實(shí)現(xiàn)這一愿景的第一步。

代碼已經(jīng)在GitHub上公開發(fā)布(https://github.com/yix8/VisualPlanning),有興趣的讀者可以進(jìn)一步探索這一創(chuàng)新范式。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-