av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<u id="bujas"></u><pre id="bujas"></pre>

微信掃一掃，關(guān)注公眾號

科技行者
算力行者

見證連接與計算的「力量」

視覺賦能大腦：讓多模態(tài)大語言模型在真實空間中看見、思考與控制

人工智能視覺空間推理多模態(tài)大語言模型

視覺賦能大腦：讓多模態(tài)大語言模型在真實空間中看見、思考與控制

作者：科技行者

2025-06-06 17:29

分享至：

這項由上海人工智能實驗室等機構(gòu)聯(lián)合發(fā)布的研究提出了VeBrain框架，成功解決了多模態(tài)大語言模型在現(xiàn)實世界應(yīng)用中的關(guān)鍵挑戰(zhàn)。VeBrain通過將機器人控制重新定義為2D視覺空間中的文本任務(wù)，統(tǒng)一了多模態(tài)理解、視覺空間推理和物理控制三大能力。研究團隊還創(chuàng)建了包含60萬條高質(zhì)量指令數(shù)據(jù)的VeBrain-600k數(shù)據(jù)集，并設(shè)計了創(chuàng)新的機器人適配器將模型決策轉(zhuǎn)化為實際運動。實驗結(jié)果表明，VeBrain在13個多模態(tài)基準和5個空間智能基準上表現(xiàn)優(yōu)異，并在實際機器人應(yīng)用中展示出強大的適應(yīng)性和組合能力。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-06-06 17:29 ? 科技行者

在人工智能領(lǐng)域取得突破性進展的今天，來自上海人工智能實驗室、清華大學(xué)、中國科學(xué)技術(shù)大學(xué)等機構(gòu)的研究團隊在2025年5月發(fā)布了一項重要研究：《視覺賦能大腦：讓多模態(tài)大語言模型看見、思考并在空間中控制》(Visual Embodied Brain: Let Multimodal Large Language Models See, Think, and Control in Spaces)。這項研究提出了一個名為"視覺賦能大腦"(VeBrain)的全新框架，旨在解決當(dāng)前多模態(tài)大語言模型在現(xiàn)實世界應(yīng)用中的關(guān)鍵挑戰(zhàn)。

想象一下，如果你的智能助手不僅能理解你說的話，還能看懂周圍環(huán)境并與之互動，那會是怎樣的體驗？這正是研究團隊試圖實現(xiàn)的目標。目前的多模態(tài)大語言模型（MLLMs）已經(jīng)能夠理解圖像和文本，但它們在空間推理和物理交互方面仍有明顯短板。簡單來說，它們可以看懂照片中有什么，但卻難以理解三維空間的關(guān)系，更不用說像機器人那樣在現(xiàn)實世界中移動和操作物體了。

為什么這項研究如此重要？想象你有一個家庭機器人助手，它需要同時具備三種能力：首先，它得理解你的指令和周圍環(huán)境（就像理解"幫我拿那個紅色的杯子"）；其次，它需要具備空間感知能力（知道杯子在哪里，怎么走過去不會撞到家具）；最后，它還要有精確控制能力（知道如何伸手、如何抓取物體）?，F(xiàn)有技術(shù)要么專注于理解能力，要么專注于控制能力，很難兼顧這三方面。

研究團隊提出的VeBrain框架巧妙地解決了這個問題。他們的核心創(chuàng)新在于將機器人控制重新定義為2D視覺空間中的文本任務(wù)，這意味著他們讓大語言模型做它最擅長的事情——生成文本，然后通過一個特殊的"機器人適配器"將這些文本指令轉(zhuǎn)換為實際的運動指令。這就像是在大語言模型和機器人之間搭建了一座橋梁，讓兩者能夠順暢地溝通。

為了訓(xùn)練這個系統(tǒng)，研究團隊創(chuàng)建了一個包含60萬條高質(zhì)量指令數(shù)據(jù)的數(shù)據(jù)集（VeBrain-600k），涵蓋多模態(tài)理解、視覺空間推理和機器人控制三個關(guān)鍵能力。他們花費了數(shù)百小時收集、整理和標注數(shù)據(jù)，并采用了多模態(tài)思維鏈（CoT）技術(shù)，將不同能力混合到單一對話中，這使得模型能夠更自然地處理復(fù)雜任務(wù)。

在13個多模態(tài)基準測試和5個空間智能基準測試上的廣泛實驗表明，VeBrain的性能優(yōu)于現(xiàn)有的MLLM模型，如Qwen2.5-VL。更令人印象深刻的是，當(dāng)部署到四足機器人和機械臂上時，VeBrain展現(xiàn)出了強大的適應(yīng)性、靈活性和組合能力。例如，與Qwen2.5-VL相比，VeBrain不僅在MMVet基準測試上提高了5.6%的性能，在四足機器人任務(wù)上還實現(xiàn)了平均50%的顯著提升。

這項研究為人工智能與機器人技術(shù)的融合開辟了新的可能性，讓我們離擁有真正智能的、能夠理解并與物理世界互動的機器人助手更近了一步。

一、視覺賦能大腦：統(tǒng)一感知、推理與控制的挑戰(zhàn)

多模態(tài)大語言模型（MLLMs）近年來取得了顯著進步，它們能夠理解圖像、回答問題，甚至進行簡單的推理。但是，要將這些模型應(yīng)用到物理實體（如四足機器人或機械臂）上，面臨著一個根本性挑戰(zhàn)：如何讓一個模型同時具備多模態(tài)理解能力、視覺空間推理能力和物理交互能力？

想象一下你在教一個孩子騎自行車。首先，孩子需要看懂自行車的結(jié)構(gòu)（感知）；然后，理解如何保持平衡和轉(zhuǎn)向（推理）；最后，實際操控車把和踏板（控制）。這三種能力看似簡單，但對人工智能來說卻是截然不同的任務(wù)，很難在一個模型中同時實現(xiàn)。

現(xiàn)有的方法通常分為兩類。一類是視覺-語言-動作（VLA）模型，它們通過大規(guī)模機器人數(shù)據(jù)集訓(xùn)練，將多模態(tài)觀察映射為控制策略。這些模型雖然在控制任務(wù)上表現(xiàn)不錯，但往往犧牲了多模態(tài)理解能力。就像一個只會騎自行車但不理解交通規(guī)則的人一樣，缺乏全面的理解能力會限制其實際應(yīng)用。

另一類方法是直接構(gòu)建基于MLLM的代理來控制機器人，同時保留其多模態(tài)推理能力。然而，由于任務(wù)差距太大，它們在控制精度和泛化能力上仍遠遠無法滿足實際機器人的需求。這就像讓一個理論專家突然去參加自行車比賽，雖然他懂所有原理，但缺乏實際操作經(jīng)驗。

研究團隊發(fā)現(xiàn)，統(tǒng)一這些能力的挑戰(zhàn)主要來自于它們的內(nèi)在差異。學(xué)習(xí)機器人控制需要將多模態(tài)輸入精確映射到真實世界中的物理運動策略，這與現(xiàn)有MLLM在2D視覺空間中的跨模態(tài)對齊目標有根本不同。這種不同的目標使得MLLM難以有效平衡這些能力，導(dǎo)致知識遺忘和任務(wù)沖突。更糟糕的是，學(xué)術(shù)界仍然缺乏一個合適的數(shù)據(jù)配方來無縫整合和平衡MLLM中的這些能力。

為克服這些局限，研究團隊提出了視覺賦能大腦（VeBrain），一個統(tǒng)一感知、推理和現(xiàn)實世界控制的框架。VeBrain的核心理念是將機器人控制重新定義為2D視覺空間中的普通文本任務(wù)，從而統(tǒng)一不同能力的學(xué)習(xí)目標。具體來說，機器人控制被分解為關(guān)鍵點檢測和具身技能識別兩個任務(wù)。前者作為視覺空間錨點編碼機器人的運動信號，后者表示執(zhí)行信號的動作命令。

基于這些控制信號，研究團隊設(shè)計了一個新穎的機器人適配器，以動態(tài)且穩(wěn)健的方式將這些信號轉(zhuǎn)換為運動策略。這就像給一個語言天才配備了一個專業(yè)翻譯，能夠?qū)⑺闹噶顪蚀_翻譯成機器人能理解的動作語言。通過這些設(shè)計，VeBrain能夠在保留MLLM強大能力的同時，實現(xiàn)高效的機器人控制。

二、VeBrain架構(gòu)：思考與行動的無縫橋接

VeBrain的設(shè)計理念可以比作給大語言模型安裝了一個特殊的接口，讓它能夠與物理世界對話。這個框架主要由兩部分組成：一個負責(zé)理解、思考和決策的多模態(tài)大語言模型（MLLM），以及一個將MLLM決策轉(zhuǎn)換為可執(zhí)行策略的機器人適配器。這兩部分通過閉環(huán)連接，實現(xiàn)動態(tài)且穩(wěn)健的控制。

首先，來看MLLM架構(gòu)。VeBrain基于Qwen2.5-VL模型，包含視覺編碼器、投影器和大語言模型。想象這就像人的視覺系統(tǒng)和思維系統(tǒng)：視覺編碼器（類似眼睛）接收圖像信息，投影器（類似視神經(jīng)）將視覺信息轉(zhuǎn)換為語言模型可理解的形式，大語言模型（類似大腦）則處理這些信息并做出決策。

具體來說，當(dāng)系統(tǒng)接收到圖像和文本提示后，首先由優(yōu)化的視覺Transformer（ViT）提取視覺特征，然后通過大語言模型生成回應(yīng)。這個過程就像人看到一個場景，大腦立即開始處理視覺信息，結(jié)合已有知識和當(dāng)前目標，形成行動計劃。

不過，僅有MLLM還不足以控制實際的機器人。這就像你可以想象如何騎自行車，但如果沒有實際操控自行車的經(jīng)驗和技能，想法很難轉(zhuǎn)化為精確的動作。這正是機器人適配器的作用所在。

機器人適配器克服了幾個關(guān)鍵挑戰(zhàn)：首先，2D關(guān)鍵點難以直接應(yīng)用到真實世界的3D場景；其次，四足機器人的自我視角會隨著移動而變化，導(dǎo)致關(guān)鍵點與視覺透視不一致；第三，由于MLLM無法感知機器人狀態(tài)，當(dāng)發(fā)生意外情況時難以及時控制。為解決這些問題，機器人適配器包含了四個模塊：點追蹤器、運動控制器、技能執(zhí)行器和動態(tài)接管。

點追蹤器就像一個不斷更新地圖的導(dǎo)航系統(tǒng)。當(dāng)機器人移動時，它會實時更新關(guān)鍵點位置，確保指令始終與當(dāng)前視角匹配。運動控制器則像是一個翻譯官，將2D關(guān)鍵點轉(zhuǎn)換為3D坐標，并估算機器人的運動速度。技能執(zhí)行器相當(dāng)于一個專業(yè)教練，負責(zé)調(diào)用預(yù)訓(xùn)練好的各種動作策略，如行走、跳躍等。最后，動態(tài)接管功能像是一個安全監(jiān)督員，當(dāng)機器人適配器失敗時（例如目標點消失或子任務(wù)完成），它會將控制權(quán)交還給MLLM。

這整個系統(tǒng)形成了一個閉環(huán)：MLLM負責(zé)"看"和"想"，決定去哪里以及做什么；機器人適配器則負責(zé)"行動"，將決策轉(zhuǎn)化為精確的運動。這種設(shè)計使得VeBrain能夠在保持強大多模態(tài)理解能力的同時，實現(xiàn)對真實機器人的精確控制。

以一個簡單任務(wù)為例：假設(shè)要求機器人"把香蕉放進盒子里"。首先，MLLM會分析場景，確定香蕉和盒子的位置，然后生成一系列關(guān)鍵點和動作命令，如"移動到香蕉位置"、"抓取"、"移動到盒子位置"、"釋放"。機器人適配器隨后將這些命令轉(zhuǎn)換為實際的運動軌跡和抓取動作，同時不斷監(jiān)控執(zhí)行情況，確保任務(wù)順利完成。如果過程中出現(xiàn)意外，如香蕉掉落，系統(tǒng)會動態(tài)調(diào)整策略，重新規(guī)劃路徑或動作。

三、VeBrain-600k數(shù)據(jù)引擎：構(gòu)建思考與行動的基礎(chǔ)

要訓(xùn)練一個能夠看、想、行動的智能系統(tǒng)，需要大量高質(zhì)量的數(shù)據(jù)。就像教育一個孩子需要各種各樣的學(xué)習(xí)材料和實際經(jīng)驗，VeBrain的訓(xùn)練也需要涵蓋多種能力的多樣化數(shù)據(jù)。為此，研究團隊構(gòu)建了VeBrain-600k，一個包含60萬條指令數(shù)據(jù)的高質(zhì)量數(shù)據(jù)集。

這個數(shù)據(jù)集包含三大類數(shù)據(jù)：20萬條多模態(tài)理解數(shù)據(jù)、31.2萬條視覺空間推理數(shù)據(jù)和8.8萬條機器人控制數(shù)據(jù)。想象這就像給孩子準備了三類教材：一類教他認識世界（理解），一類教他空間思維（推理），還有一類教他實際操作技能（控制）。

在數(shù)據(jù)收集和標注方面，研究團隊付出了巨大努力。對于多模態(tài)理解數(shù)據(jù)，他們從開源數(shù)據(jù)集（如ShareGPT4V和MMInstruct）中收集了大量對話，還使用GPT4o生成數(shù)據(jù)并通過自定義流程進行標注。這部分數(shù)據(jù)教會系統(tǒng)理解圖像、視頻和文本描述，就像教孩子認識世界上的各種事物。

對于視覺空間推理數(shù)據(jù)，他們收集了來自GPT4Scene和ScanNet的數(shù)據(jù)。特別是，他們設(shè)計了兩條標注流水線：一條將圖像幀和點云快照結(jié)合起來，通過GPT-4o生成描述性對話；另一條則通過ScanNet和人類專家的標注來標記計數(shù)、物體大小和物體距離等信息。這部分數(shù)據(jù)培養(yǎng)系統(tǒng)的空間感知能力，就像教孩子理解"前后左右"、"遠近大小"等空間概念。

最具挑戰(zhàn)性的是機器人控制數(shù)據(jù)的收集。4名人類專家花費80多小時收集了四足機器人和機械臂的視頻片段和運動狀態(tài)，然后5名人類專家手動標注了這些片段中的關(guān)鍵點和動作。這就像讓專業(yè)教練示范和講解各種動作技能，然后記錄下來作為教學(xué)材料。

但僅有原始數(shù)據(jù)還不夠，還需要設(shè)計思維鏈（Chain-of-Thought，CoT）來將不同能力融入一個對話中。思維鏈就像是詳細的解題思路，不僅給出答案，還展示了到達答案的整個思考過程。對于多模態(tài)理解和視覺空間推理，CoT內(nèi)容旨在將推理能力融入這些任務(wù)中。研究團隊根據(jù)任務(wù)特性設(shè)計了不同的CoT模板，并使用Gemini-2.0和GPT-4o生成CoT內(nèi)容。

對于機器人控制，CoT過程更加復(fù)雜，它進一步整合了感知、推理和控制的內(nèi)容。首先描述視覺觀察，然后分解任務(wù)，最后做出控制決策。這就像教導(dǎo)孩子："看清楚周圍環(huán)境，想一想該怎么做，然后一步一步行動"。

為確保數(shù)據(jù)質(zhì)量，研究團隊采用了多重驗證機制。在機器人數(shù)據(jù)收集過程中，三名專家仔細審核每個視頻，確保物體在機器人視野范圍內(nèi)。對于CoT生成，他們采用了交叉模型驗證流水線，使用Gemini-2.0作為參考模型來評估GPT-4o生成的CoT數(shù)據(jù)的邏輯和物理合理性。最后，5名人類專家隨機抽查了10%的數(shù)據(jù)進行手動檢查，只有5.3%的數(shù)據(jù)被進一步排除，證明了數(shù)據(jù)生成流水線的可靠性。

通過這種精心設(shè)計的數(shù)據(jù)引擎，VeBrain-600k不僅鼓勵MLLM共同學(xué)習(xí)具身大腦的基本能力，還最大化了其處理復(fù)雜任務(wù)的能力。這就像給孩子提供全面且系統(tǒng)的教育，不僅教會他基礎(chǔ)知識，還培養(yǎng)他解決實際問題的綜合能力。

四、實驗結(jié)果：從理解到行動的全面驗證

為了全面評估VeBrain的性能，研究團隊在三個關(guān)鍵能力上進行了廣泛的實驗：多模態(tài)理解、視覺空間推理和機器人控制。這就像對一個全能型運動員進行全面體檢，測試他在各個運動項目上的表現(xiàn)。

首先，讓我們看看VeBrain的消融實驗，這有助于理解各個組件的貢獻。消融實驗就像拆解一道復(fù)雜菜肴，嘗試去掉某些配料，看看最終味道會有什么變化，從而了解每種配料的重要性。實驗表明，盡管Qwen2.5-VL在多模態(tài)理解方面表現(xiàn)出色，但在視覺空間推理和機器人控制方面卻相對薄弱，例如在"復(fù)雜查找"任務(wù)上的成功率為0%。當(dāng)研究團隊為模型配備機器人適配器后，其在兩個機器人控制任務(wù)上的成功率明顯提高。更令人印象深刻的是，在使用控制數(shù)據(jù)進行微調(diào)后，VeBrain的多模態(tài)能力得到了很好的保留，充分證明了VeBrain設(shè)計的有效性。此外，每種類型的數(shù)據(jù)都對相應(yīng)能力做出了顯著貢獻，例如視覺空間推理數(shù)據(jù)在VSI-Bench上提升了7.5%的性能。

接下來，研究團隊將VeBrain與兩種常見框架進行了比較：基于MLLM的文本控制和基于VLA的動作策略控制。結(jié)果顯示，MLLM框架在兩個任務(wù)上直接控制機器人的能力有限，主要是由于其控制能力不足；而VLA雖然在機器人控制任務(wù)上表現(xiàn)不錯，但嚴重犧牲了多模態(tài)能力，例如在MMVet上比MLLM低16.3%。相比之下，VeBrain在所有任務(wù)上實現(xiàn)了最佳平衡性能，相比其他框架平均提高了31.5%，這充分證明了現(xiàn)有框架在統(tǒng)一多模態(tài)理解、視覺空間推理和機器人控制方面的不足，也驗證了VeBrain各設(shè)計的有效性。

在多模態(tài)理解基準測試上，VeBrain與各種現(xiàn)有MLLM和VLA模型進行了比較。結(jié)果表明，現(xiàn)有VLA模型在這些多模態(tài)基準上表現(xiàn)較差，甚至有些完全喪失了多模態(tài)能力。即使是RoboBrain這樣集成了大量多模態(tài)理解數(shù)據(jù)的VLA模型，在OCR和圖表基準上也明顯落后于先進的MLLM，例如在ChartQA上低6.8%，在OCRBench上低187分。相比之下，VeBrain在13個MLLM基準上展示了全面優(yōu)勢，例如在DocVQA上比RoboBrain高6.4%。更重要的是，VeBrain在大多數(shù)基準上的表現(xiàn)優(yōu)于先進的開源和閉源MLLM，如在MMVet上提高了5.6%，并獲得了77.1的最佳標準化平均性能，表明其卓越的多模態(tài)能力?？紤]到VeBrain比閉源MLLM小得多，這些結(jié)果進一步證明了其多模態(tài)能力的強大。

在視覺空間推理方面，研究團隊首先展示了四個3D空間基準的結(jié)果。在這些任務(wù)中，模型需要強大的3D空間感知和推理能力來回答不同類型的問題。因此，大多數(shù)之前的方法采用基于3D的MLLM結(jié)構(gòu)，并在四個基準上取得了不錯的結(jié)果。相比之下，直接將2D MLLM遷移到這些任務(wù)上會導(dǎo)致較差的性能，例如Qwen2.5-VL-7B在Acc@0.25上低50.1個百分點，表明它們在3D空間理解和推理方面的不足。相比這些方法，GPT4Scene-HDM通過基于視頻的2D MLLM和對象標記器取得了更好的結(jié)果。然而，作為一個專家模型，GPT4Scene-HDM難以應(yīng)用于常見的2D多模態(tài)任務(wù)。相比之下，VeBrain作為一個通用MLLM，其性能甚至超過了GPT4Scene-HDM，例如在ScanQA val上的CIDEr得分高出5.2，充分驗證了其泛化能力。在VSI基準上的進一步診斷顯示，VeBrain在平均分數(shù)上優(yōu)于所有現(xiàn)有MLLM，例如比Qwen2.5-VL-7B高4.0%。與更大的MLLM如GPT-4o相比，VeBrain的表現(xiàn)也更好?？紤]到VSI基準的巨大挑戰(zhàn)，這些結(jié)果進一步證明了VeBrain的空間推理能力。

最后，在機器人控制方面，研究團隊比較了VLA、MLLM和VeBrain在七個四足機器人任務(wù)上的表現(xiàn)。結(jié)果顯示，現(xiàn)有的VLA和MLLM在直接完成大多數(shù)任務(wù)（如"交互"和"運輸"）時面臨困難。其中，配備了機器人適配器的Qwen2.5-VL取得了最好的結(jié)果。然而，當(dāng)適應(yīng)到更難的任務(wù)（如"復(fù)雜查找"）時，它們的成功率顯著下降，例如僅有20%的成功率。這些任務(wù)通常需要空間推理和具身控制等組合能力，而普通MLLM不擅長這些。相比之下，VeBrain統(tǒng)一了這些能力，在各種復(fù)雜四足機器人任務(wù)上取得了顯著更好的結(jié)果。例如，在長期任務(wù)"復(fù)雜運輸"上，VeBrain比所有模型表現(xiàn)好50%。VeBrain在機械臂上也展示了類似的優(yōu)勢。如表7所示，常見VLA在大多數(shù)操作任務(wù)中表現(xiàn)出有限的成功率，例如π0在"將辣椒放入盒子"任務(wù)上的成功率為30%。在長期任務(wù)中，π0的成功率進一步下降到0%。與這些方法相比，VeBrain在所有任務(wù)中都取得了最高的成功率。在最具挑戰(zhàn)性的任務(wù)中，VeBrain的表現(xiàn)比π0高出80%，進一步驗證了其在機器人控制中的有效性。

五、可視化案例：從理解到行動的完整過程

為了直觀展示VeBrain在實際任務(wù)中的表現(xiàn)，研究團隊提供了機械臂和四足機器人的可視化結(jié)果。這些案例生動地展示了VeBrain如何通過組合能力處理復(fù)雜的機器人任務(wù)。

想象有這樣一個場景：要求機器人找到一個隱藏的辣椒。對于普通人來說，這是一個簡單的任務(wù)，但對機器人來說卻很復(fù)雜，涉及到感知、推理和精確控制。VeBrain首先分析場景，發(fā)現(xiàn)桌面上沒有辣椒，但注意到有一個半開的抽屜。通過推理，VeBrain猜測辣椒可能藏在抽屜里，然后開始執(zhí)行一系列步驟：移動到抽屜前，完全打開抽屜，找到里面的辣椒，然后抓取它。這個過程不僅需要控制能力，還需要出色的感知和推理能力，能夠根據(jù)環(huán)境線索（半開的抽屜）推斷出可能的物體位置。

另一個例子是要求機器人將物品運送到指定位置。VeBrain首先確定目標盒子的位置，然后規(guī)劃路徑避開障礙物，最后將物品放入盒子中。更重要的是，VeBrain還能確定任務(wù)是否已經(jīng)完成，例如通過觀察盒子中是否已經(jīng)包含了所需數(shù)量的物品。這展示了VeBrain不僅能執(zhí)行簡單的命令，還能理解任務(wù)的整體目標，并在執(zhí)行過程中進行自我監(jiān)督。

這些可視化案例清晰地展示了VeBrain如何將多模態(tài)理解、視覺空間推理和機器人控制無縫整合，使機器人能夠應(yīng)對現(xiàn)實世界中的復(fù)雜情況。傳統(tǒng)方法通常會在這些復(fù)雜任務(wù)上失敗，因為它們要么缺乏理解能力（無法推斷辣椒在抽屜中），要么缺乏執(zhí)行精度（無法準確抓取物體）。相比之下，VeBrain憑借其統(tǒng)一框架，展現(xiàn)出了強大的組合能力和適應(yīng)性，能夠自然地融合思考和行動。

六、總結(jié)與展望：統(tǒng)一認知與控制的未來

VeBrain代表了多模態(tài)大語言模型向物理世界邁出的重要一步。通過創(chuàng)新性地將機器人控制重新定義為2D視覺空間中的文本任務(wù)，研究團隊成功地統(tǒng)一了多模態(tài)理解、視覺空間推理和機器人控制這三種基本能力，克服了現(xiàn)有方法面臨的根本性挑戰(zhàn)。

VeBrain的成功不僅在于其創(chuàng)新的框架設(shè)計，還在于VeBrain-600k數(shù)據(jù)集的精心構(gòu)建。這個包含60萬條高質(zhì)量指令數(shù)據(jù)的數(shù)據(jù)集涵蓋了具身大腦的各種能力，通過多模態(tài)思維鏈將不同能力混合到單一對話中，最大化了模型處理復(fù)雜任務(wù)的能力。

在各種基準測試中，VeBrain展示了令人印象深刻的性能。在多模態(tài)理解方面，它甚至超過了一些閉源大型模型；在視覺空間推理任務(wù)上，它表現(xiàn)出了強大的3D理解能力；在機器人控制方面，它比現(xiàn)有方法取得了顯著提升，特別是在復(fù)雜任務(wù)上。這一切都證明了VeBrain框架的有效性和可行性。

當(dāng)然，VeBrain也存在一些局限性。盡管它在簡單和中等復(fù)雜度的任務(wù)上表現(xiàn)出色，但在高度復(fù)雜的任務(wù)中仍面臨挑戰(zhàn)。此外，當(dāng)前的實現(xiàn)主要集中在四足機器人和機械臂上，未來可以擴展到更多類型的機器人平臺。另外，VeBrain目前的訓(xùn)練數(shù)據(jù)主要來自實驗室環(huán)境，在完全開放的真實世界環(huán)境中可能需要更多適應(yīng)。

展望未來，VeBrain開啟了幾個有前景的研究方向。首先，可以探索更多樣化的任務(wù)和環(huán)境，進一步測試和提升VeBrain的泛化能力。其次，可以增強機器人適配器的功能，使其能夠處理更復(fù)雜的場景和任務(wù)。最后，可以探索如何讓VeBrain從經(jīng)驗中學(xué)習(xí)和適應(yīng)，使其能夠不斷提升自身能力，就像人類通過實踐不斷提高技能一樣。

總的來說，VeBrain代表了人工智能和機器人領(lǐng)域的一個重要里程碑，它展示了如何將認知智能和控制能力有機結(jié)合，為創(chuàng)建真正智能的具身代理鋪平了道路。隨著技術(shù)的不斷發(fā)展，我們可以期待看到更多像VeBrain這樣的系統(tǒng)，它們不僅能看、能想，還能在現(xiàn)實世界中自然地行動和交互。

人工智能視覺空間推理多模態(tài)大語言模型

分享至

0贊

好文章，需要你的鼓勵

推薦文章

自對弈訓(xùn)練
推理能力提升
零和游戲?qū)W習(xí)

2025-07-02 14:26

AI玩游戲能讓推理變聰明？新加坡國立大學(xué)發(fā)現(xiàn)自對弈訓(xùn)練的神奇效果

新加坡國立大學(xué)研究團隊開發(fā)了SPIRAL框架，通過讓AI與自己對弈零和游戲來提升推理能力。實驗顯示，僅訓(xùn)練AI玩簡單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%，通用推理提升8.4%，且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中，為AI訓(xùn)練提供了新思路。
計算機視覺
圖像降噪
3D相機技術(shù)

2025-07-02 14:26

同濟大學(xué)突破性研究：讓3D相機告別"噪點困擾"的智能降噪新技術(shù)

同濟大學(xué)團隊開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息，創(chuàng)新性地解決了3D相機噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系，結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法，在合成數(shù)據(jù)集上實現(xiàn)37.9%的精度提升，并在真實設(shè)備上展現(xiàn)出色泛化能力，為機器人、AR和自動駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
人工智能
視覺語言模型
強化學(xué)習(xí)

2025-07-02 14:26

AI視覺推理模型的"頓悟時刻"真的存在嗎？伊利諾伊大學(xué)研究揭示令人意外的真相

伊利諾伊大學(xué)研究團隊通過對比實驗發(fā)現(xiàn)，經(jīng)過強化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時刻"現(xiàn)象，但這些自我糾錯行為并不能實際提升推理準確率。研究揭示了AI模型存在"生成-驗證差距"，即生成答案的能力強于驗證答案質(zhì)量的能力，且模型在自我驗證時無法有效利用視覺信息，為AI多模態(tài)推理發(fā)展提供了重要啟示。
大語言模型
稀疏性訓(xùn)練
計算效率優(yōu)化

2025-07-02 14:25

MIT團隊發(fā)明"智能減肥法"讓AI訓(xùn)練快1.6倍：只需要一半的算力就能教會大模型新技能

MIT等頂尖機構(gòu)聯(lián)合提出SparseLoRA技術(shù)，通過動態(tài)稀疏性實現(xiàn)大語言模型訓(xùn)練加速1.6倍，計算成本降低2.2倍。該方法使用SVD稀疏性估計器智能選擇重要計算部分，在保持模型性能的同時顯著提升訓(xùn)練效率，已在多個任務(wù)上驗證有效性。

AI玩游戲能讓推理變聰明？新加坡國立大學(xué)發(fā)現(xiàn)自對弈訓(xùn)練的神奇效果

AI玩游戲能讓推理變聰明？新加坡國立大學(xué)發(fā)現(xiàn)自對弈訓(xùn)練的神奇效果

2025-07-02 14:26

同濟大學(xué)突破性研究：讓3D相機告別"噪點困擾"的智能降噪新技術(shù)

同濟大學(xué)突破性研究：讓3D相機告別"噪點困擾"的智能降噪新技術(shù)

2025-07-02 14:26

AI視覺推理模型的"頓悟時刻"真的存在嗎？伊利諾伊大學(xué)研究揭示令人意外的真相

AI視覺推理模型的"頓悟時刻"真的存在嗎？伊利諾伊大學(xué)研究揭示令人意外的真相

2025-07-02 14:26

MIT團隊發(fā)明"智能減肥法"讓AI訓(xùn)練快1.6倍：只需要一半的算力就能教會大模型新技能

MIT團隊發(fā)明"智能減肥法"讓AI訓(xùn)練快1.6倍：只需要一半的算力就能教會大模型新技能

2025-07-02 14:25

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時代

京ICP證15039648號京ICP備15039648號-9 京公網(wǎng)安備 11010802021500號

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報電話：010-62641205　涉未成年人舉報專線：010-62641208 舉報郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報專區(qū)：https://www.12377.cn

<samp id="enoof"></samp>