av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁 ViPlan:視覺語言模型如何從圖像中理解世界并制定行動(dòng)計(jì)劃?

ViPlan:視覺語言模型如何從圖像中理解世界并制定行動(dòng)計(jì)劃?

2025-05-23 07:45
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-23 07:45 ? 科技行者

阿爾托大學(xué)和布魯諾·克斯勒基金會聯(lián)合開發(fā)的視覺規(guī)劃基準(zhǔn)測試

在人工智能快速發(fā)展的今天,讓AI系統(tǒng)能夠理解視覺信息并據(jù)此制定行動(dòng)計(jì)劃,已成為實(shí)現(xiàn)真正通用人工智能的關(guān)鍵挑戰(zhàn)之一。2025年5月,來自阿爾托大學(xué)和布魯諾·克斯勒基金會的研究團(tuán)隊(duì),包括Matteo Merler、Nicola Dainese、Minttu Alakuijala、Giovanni Bonetta、Pietro Ferrazzi、Yu Tian、Bernardo Magnini和Pekka Marttinen等研究者,在arXiv上發(fā)表了題為《ViPlan: A Benchmark for Visual Planning with Symbolic Predicates and Vision-Language Models》的研究論文。該論文介紹了一個(gè)名為ViPlan的基準(zhǔn)測試,首次系統(tǒng)性地評估視覺語言模型在視覺規(guī)劃方面的能力。有興趣深入了解的讀者可以通過arXiv:2505.13180v1訪問完整論文。

一、為什么我們需要視覺規(guī)劃能力?

想象一下,你走進(jìn)一個(gè)陌生的廚房,想要泡一杯咖啡。雖然你從未見過這個(gè)特定的廚房,但你能迅速掃視環(huán)境,找出咖啡機(jī)、咖啡豆和水杯的位置,并順利完成一系列動(dòng)作:接水、磨豆、放入咖啡粉、按下開關(guān)等。這種在未知環(huán)境中理解視覺信息并據(jù)此制定行動(dòng)計(jì)劃的能力,對我們?nèi)祟悂碚f似乎輕而易舉,但對AI系統(tǒng)而言卻是一項(xiàng)巨大挑戰(zhàn)。

近年來,大型語言模型(LLMs)在文本領(lǐng)域展現(xiàn)出了驚人的能力,包括規(guī)劃能力,但研究表明它們在可驗(yàn)證性和可靠性方面仍有局限。與此同時(shí),視覺語言模型(VLMs)通過結(jié)合視覺和語言理解能力,為AI系統(tǒng)提供了感知和理解物理世界的新途徑。但一個(gè)關(guān)鍵問題是:這些模型是否真的能像人類一樣,看到一個(gè)場景后制定出合理的行動(dòng)計(jì)劃?

ViPlan基準(zhǔn)測試正是為了回答這個(gè)問題而設(shè)計(jì)的。這項(xiàng)研究不僅評估了VLM直接生成行動(dòng)計(jì)劃的能力,還測試了它們與符號規(guī)劃器(如PDDL規(guī)劃器)結(jié)合時(shí)的表現(xiàn)。通過比較這兩種方法在不同場景下的優(yōu)缺點(diǎn),研究團(tuán)隊(duì)揭示了當(dāng)前VLM技術(shù)的能力邊界,為未來研究指明了方向。

二、視覺規(guī)劃的兩種主要方法

在理解ViPlan基準(zhǔn)測試之前,我們需要先了解視覺規(guī)劃的兩種主要方法。想象你有一個(gè)能看懂圖像的AI助手,你希望它幫你完成一些任務(wù),比如整理桌上的物品。這個(gè)AI助手可以采用兩種不同的工作方式:

第一種方式是"VLM作為規(guī)劃器"(VLM-as-planner)。在這種方法中,AI助手直接看到一張當(dāng)前環(huán)境的照片,然后立刻告訴你:"我認(rèn)為應(yīng)該先拿起紅色的杯子,然后把它放在藍(lán)色盒子旁邊..."等等。它一步一步地告訴你該做什么,就像一個(gè)看到情況后直接指導(dǎo)你行動(dòng)的朋友。每執(zhí)行完一個(gè)動(dòng)作后,它會看到新的環(huán)境照片,然后繼續(xù)給出下一步指示。如果某個(gè)動(dòng)作沒達(dá)到預(yù)期效果,它會根據(jù)新的情況調(diào)整計(jì)劃。

第二種方式是"VLM作為接地器"(VLM-as-grounder)。這種方法更復(fù)雜一些。在幕后,有一個(gè)專門負(fù)責(zé)規(guī)劃的程序(稱為符號規(guī)劃器),它擅長邏輯推理和制定計(jì)劃,但它不能直接"看到"真實(shí)世界。AI助手的工作是充當(dāng)這個(gè)規(guī)劃器的"眼睛",通過回答關(guān)于環(huán)境的是非問題幫助規(guī)劃器理解當(dāng)前情況。比如規(guī)劃器可能會問:"紅色杯子是否在桌子上?",AI助手看到圖像后回答"是"或"否"。規(guī)劃器收集了足夠的信息后,會制定一個(gè)行動(dòng)計(jì)劃,然后一步一步執(zhí)行。如果某個(gè)動(dòng)作后環(huán)境變化與預(yù)期不符,AI助手會告知規(guī)劃器,規(guī)劃器會重新評估情況并調(diào)整計(jì)劃。

這兩種方法各有優(yōu)缺點(diǎn)。第一種方法更直接,但可能缺乏邏輯嚴(yán)謹(jǐn)性;第二種方法結(jié)合了VLM的視覺能力和符號規(guī)劃器的邏輯推理能力,但復(fù)雜度更高,且需要更多的問答交互。ViPlan基準(zhǔn)測試的核心目的,就是系統(tǒng)性地比較這兩種方法在不同環(huán)境下的表現(xiàn)。

三、ViPlan基準(zhǔn)測試:虛擬世界中的挑戰(zhàn)任務(wù)

ViPlan基準(zhǔn)測試包含兩個(gè)不同的虛擬環(huán)境,每個(gè)環(huán)境都設(shè)計(jì)了一系列從簡單到復(fù)雜的任務(wù),用于評估不同視覺語言模型的規(guī)劃能力。

### ViPlan-Blocksworld:抽象理解的考驗(yàn)

第一個(gè)環(huán)境是"ViPlan-Blocksworld"(簡稱ViPlan-BW),這是經(jīng)典規(guī)劃問題"積木世界"的視覺版本。在這個(gè)環(huán)境中,有不同顏色的積木分布在幾個(gè)列中,AI系統(tǒng)的任務(wù)是將這些積木按照特定方式重新排列。例如,將紅色積木放在藍(lán)色積木上面,或者確保所有綠色積木都在同一列中。

雖然這個(gè)任務(wù)聽起來很簡單,但實(shí)際上它要求模型能夠準(zhǔn)確識別積木的顏色、位置和相互關(guān)系,并理解物理世界的一些基本規(guī)則,比如一個(gè)積木只有在它上面沒有其他積木時(shí)才能被移動(dòng)。ViPlan-BW根據(jù)任務(wù)復(fù)雜度分為簡單、中等和困難三個(gè)級別,分別涉及不同數(shù)量的積木和操作步驟。

### ViPlan-Household:貼近現(xiàn)實(shí)的家庭機(jī)器人

第二個(gè)環(huán)境是"ViPlan-Household"(簡稱ViPlan-HH),這是一個(gè)模擬家庭環(huán)境的機(jī)器人仿真系統(tǒng),基于iGibson 2.0開發(fā)。在這個(gè)環(huán)境中,一個(gè)機(jī)器人需要在家庭場景中完成各種任務(wù),比如整理抽屜、鎖門窗、打包食物、歸類圖書等。

這個(gè)環(huán)境比積木世界復(fù)雜得多,更貼近真實(shí)世界的挑戰(zhàn)。機(jī)器人需要導(dǎo)航到特定位置,識別和操作各種家居物品,并處理部分可觀測性(即無法同時(shí)看到所有物品)等問題。同樣,ViPlan-HH也按難度分為三個(gè)級別,從簡單任務(wù)(如整理5個(gè)物品)到復(fù)雜任務(wù)(如在車庫中組織11個(gè)箱子)。

這兩個(gè)環(huán)境共同構(gòu)成了一個(gè)全面的測試平臺,不僅評估模型在抽象任務(wù)上的表現(xiàn),還測試它們在接近真實(shí)世界復(fù)雜場景中的能力。

四、測試方法:如何評估VLM的規(guī)劃能力

ViPlan基準(zhǔn)測試的創(chuàng)新之處在于其評估方法。傳統(tǒng)的VLM評估通常是靜態(tài)的,即給模型一組固定的問題并測試其回答準(zhǔn)確率。但在規(guī)劃任務(wù)中,每一步的決策都會影響后續(xù)環(huán)境狀態(tài),因此需要一種動(dòng)態(tài)評估方法。

研究團(tuán)隊(duì)采用了一種稱為"任務(wù)驅(qū)動(dòng)動(dòng)態(tài)評估"的方法。在這種評估中,模型不是回答一組預(yù)設(shè)問題,而是在動(dòng)態(tài)變化的環(huán)境中持續(xù)做出決策。每一步?jīng)Q策的好壞都會影響后續(xù)任務(wù)進(jìn)展,一個(gè)看似微小的錯(cuò)誤可能會導(dǎo)致整個(gè)計(jì)劃失敗。

### 評估指標(biāo):成功率與預(yù)測準(zhǔn)確性

研究團(tuán)隊(duì)使用兩個(gè)主要指標(biāo)評估模型表現(xiàn):

成功率(Success Rate):這是最直接的指標(biāo),表示模型成功完成任務(wù)的比例。無論是"VLM作為規(guī)劃器"還是"VLM作為接地器"方法,最終目標(biāo)都是完成指定任務(wù),因此這個(gè)指標(biāo)能直接反映模型的實(shí)際效用。

預(yù)測準(zhǔn)確性(Prediction Accuracy):對于"VLM作為接地器"方法,研究團(tuán)隊(duì)還評估了模型在回答單個(gè)謂詞問題時(shí)的準(zhǔn)確率。例如,當(dāng)被問"紅色積木是否在藍(lán)色積木上面?"時(shí),模型回答正確的比例。這個(gè)指標(biāo)更接近傳統(tǒng)VQA(視覺問答)任務(wù)的評估方式。

有趣的是,研究發(fā)現(xiàn)高預(yù)測準(zhǔn)確性并不一定意味著高成功率。即使一個(gè)模型在回答單個(gè)問題時(shí)準(zhǔn)確率達(dá)97%,在完成整個(gè)任務(wù)時(shí)仍可能失敗,因?yàn)殄e(cuò)誤會累積。例如,如果每個(gè)動(dòng)作平均需要驗(yàn)證7個(gè)謂詞,即使單個(gè)謂詞預(yù)測準(zhǔn)確率為97%,一個(gè)動(dòng)作完全正確的概率也只有約80%。這種"誤差累積效應(yīng)"在之前的VLM評估中很少被考慮,是ViPlan基準(zhǔn)測試的一個(gè)重要貢獻(xiàn)。

五、參與評測的視覺語言模型

研究團(tuán)隊(duì)評估了多種不同規(guī)模的開源和閉源視覺語言模型,包括:

- 開源小型模型(7-8B參數(shù)):LLaVA-Onevision 7B、Qwen2.5-VL 7B、AyaVision 8B、InternVL3 8B、Molmo 7B和Phi-4 Multimodal(5.6B) - 開源中型模型(12-32B參數(shù)):Gemma-3(12B和27B)、AyaVision 32B、Mistral-Small-3.1 24B和DeepSeek-VL2 - 開源大型模型(72-78B參數(shù)):LLaVA-Onevision 72B、Qwen2.5-VL 72B和InternVL3 78B - 閉源商業(yè)模型:GPT-4.1和GPT-4.1 Nano

這種廣泛的模型選擇確保了評估結(jié)果具有代表性,能夠反映當(dāng)前視覺語言模型技術(shù)的真實(shí)水平。研究團(tuán)隊(duì)還測試了每個(gè)模型在有無鏈?zhǔn)剿伎迹–hain-of-Thought,CoT)提示的情況下的表現(xiàn),以評估這種常用的推理技術(shù)是否有助于提高視覺規(guī)劃能力。

六、驚人的研究發(fā)現(xiàn):哪種方法更勝一籌?

研究的結(jié)果令人驚訝,因?yàn)闆]有一種方法在所有場景下都表現(xiàn)最佳。具體來說:

在ViPlan-BW(積木世界)環(huán)境中,"VLM作為接地器"方法明顯優(yōu)于"VLM作為規(guī)劃器"。幾乎所有模型(除了Gemma-3系列外)在使用接地器方法時(shí)都取得了更好的成績。特別是InternVL3 78B和GPT-4.1這兩個(gè)大型模型,在簡單任務(wù)上的成功率接近100%,在中等和困難任務(wù)上也保持了很高的表現(xiàn)。

相比之下,在"VLM作為規(guī)劃器"方法下,即使是表現(xiàn)最好的GPT-4.1,在最簡單的任務(wù)上成功率也僅達(dá)到24%,在更復(fù)雜的任務(wù)上表現(xiàn)更差。

但在ViPlan-HH(家庭機(jī)器人)環(huán)境中,情況完全相反。"VLM作為規(guī)劃器"方法普遍優(yōu)于"VLM作為接地器"。中型和大型模型在規(guī)劃方法下表現(xiàn)良好,而幾乎所有模型在接地器方法下都表現(xiàn)不佳。

研究團(tuán)隊(duì)認(rèn)為,這種差異可能是因?yàn)閮蓚€(gè)環(huán)境的本質(zhì)不同。在抽象的積木世界中,視覺輸入對規(guī)劃至關(guān)重要,而語言理解提供的幫助有限,因此結(jié)合符號規(guī)劃器的接地器方法更有優(yōu)勢。而在家庭環(huán)境中,模型可以利用它們對現(xiàn)實(shí)世界的已有知識(即使視覺觀察不夠清晰),直接生成合理的行動(dòng)計(jì)劃,因此規(guī)劃器方法表現(xiàn)更好。

七、鏈?zhǔn)剿伎迹–hain-of-Thought)的影響

令人意外的是,研究發(fā)現(xiàn)鏈?zhǔn)剿伎迹–oT)提示在大多數(shù)模型和方法上并沒有帶來顯著改善。在ViPlan-BW環(huán)境下使用接地器方法時(shí),CoT對大多數(shù)模型幾乎沒有影響,而對小型模型(如Molmo和Qwen2.5-VL 7B)甚至有顯著負(fù)面影響,其成功率最多下降了68%。

在使用規(guī)劃器方法時(shí),CoT的影響更為負(fù)面,只有少數(shù)例外(特別是GPT-4.1在ViPlan-BW中表現(xiàn)顯著改善,但在ViPlan-HH中卻變差)。

這一發(fā)現(xiàn)支持了最近的一些研究結(jié)果,表明當(dāng)前的視覺語言模型在生成連貫的中間推理步驟方面仍然存在困難,這限制了推理技術(shù)的有效性。換句話說,雖然鏈?zhǔn)剿伎荚诩兾谋救蝿?wù)中已被證明是有效的,但在涉及視覺理解的任務(wù)中,其效果還不夠理想。

八、誤差累積:為什么單個(gè)預(yù)測準(zhǔn)確性不能保證任務(wù)成功

ViPlan研究的一個(gè)重要發(fā)現(xiàn)是誤差累積效應(yīng)。研究團(tuán)隊(duì)分析了在"VLM作為接地器"方法中,模型需要正確回答的預(yù)測數(shù)量與任務(wù)成功率之間的關(guān)系。

研究發(fā)現(xiàn),雖然大多數(shù)模型在單個(gè)預(yù)測上的準(zhǔn)確率很高(在ViPlan-BW中超過90%),但隨著需要正確預(yù)測的數(shù)量增加,成功率迅速下降。這種現(xiàn)象解釋了為什么即使一個(gè)模型在回答單個(gè)謂詞問題時(shí)表現(xiàn)出色,在完成整個(gè)任務(wù)時(shí)仍可能失敗。

這一發(fā)現(xiàn)突顯了ViPlan基準(zhǔn)測試的獨(dú)特價(jià)值:它不僅測試模型在孤立問題上的表現(xiàn),還評估它們在連續(xù)決策過程中的整體能力。這種評估方式更接近真實(shí)世界的應(yīng)用場景,提供了對模型實(shí)際效用的更準(zhǔn)確估計(jì)。

九、研究局限性與未來方向

盡管ViPlan基準(zhǔn)測試提供了寶貴的見解,研究團(tuán)隊(duì)也坦率地承認(rèn)了一些局限性。首先,在ViPlan-HH環(huán)境中,模型被給予了一些特權(quán)信息(如物品位置),這在真實(shí)世界應(yīng)用中可能不可用。其次,研究假設(shè)低級控制器(如抓取物品的機(jī)械臂)能夠完美執(zhí)行動(dòng)作,而現(xiàn)實(shí)中這些控制器可能會失敗。團(tuán)隊(duì)也進(jìn)行了一些實(shí)驗(yàn),引入了10%的行動(dòng)失敗概率,發(fā)現(xiàn)結(jié)果與主要發(fā)現(xiàn)一致。

未來研究方向包括:如何在不依賴特權(quán)信息的情況下處理部分可觀測性問題;如何將符號規(guī)劃器與VLM更緊密地集成,特別是在開放世界環(huán)境中;以及如何提升VLM的視覺推理能力,尤其是對于抽象任務(wù)。

十、結(jié)論與啟示

ViPlan基準(zhǔn)測試提供了對當(dāng)前視覺語言模型在規(guī)劃任務(wù)中能力的全面評估。研究表明,沒有一種通用方法適用于所有場景。在抽象環(huán)境中,結(jié)合符號規(guī)劃器的接地器方法表現(xiàn)更佳;而在接近現(xiàn)實(shí)世界的環(huán)境中,直接使用VLM生成計(jì)劃效果更好。

這一研究對AI系統(tǒng)的實(shí)際應(yīng)用有重要啟示。在設(shè)計(jì)涉及視覺理解和規(guī)劃的AI系統(tǒng)時(shí),開發(fā)者應(yīng)根據(jù)具體應(yīng)用場景選擇合適的方法。對于高度結(jié)構(gòu)化、抽象的任務(wù),結(jié)合符號規(guī)劃器可能更可靠;而對于貼近日常生活的任務(wù),直接利用VLM的常識知識可能更有效。

最后,研究發(fā)現(xiàn)鏈?zhǔn)剿伎嫉韧评砑夹g(shù)在視覺任務(wù)中的有限效果,表明當(dāng)前視覺語言模型在視覺推理方面仍有提升空間。隨著技術(shù)的進(jìn)步,未來的視覺語言模型可能會更擅長復(fù)雜的視覺推理和規(guī)劃,為構(gòu)建更通用、更可靠的AI系統(tǒng)鋪平道路。

ViPlan作為首個(gè)開源的視覺規(guī)劃基準(zhǔn)測試,無疑將推動(dòng)這一領(lǐng)域的研究進(jìn)展,幫助開發(fā)者評估不同模型和方法的優(yōu)缺點(diǎn),最終構(gòu)建更加智能和可靠的AI系統(tǒng)。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-