在人工智能領(lǐng)域取得突破性進展的今天,來自上海人工智能實驗室、清華大學(xué)、中國科學(xué)技術(shù)大學(xué)等機構(gòu)的研究團隊在2025年5月發(fā)布了一項重要研究:《視覺賦能大腦:讓多模態(tài)大語言模型看見、思考并在空間中控制》(Visual Embodied Brain: Let Multimodal Large Language Models See, Think, and Control in Spaces)。這項研究提出了一個名為"視覺賦能大腦"(VeBrain)的全新框架,旨在解決當(dāng)前多模態(tài)大語言模型在現(xiàn)實世界應(yīng)用中的關(guān)鍵挑戰(zhàn)。
想象一下,如果你的智能助手不僅能理解你說的話,還能看懂周圍環(huán)境并與之互動,那會是怎樣的體驗?這正是研究團隊試圖實現(xiàn)的目標。目前的多模態(tài)大語言模型(MLLMs)已經(jīng)能夠理解圖像和文本,但它們在空間推理和物理交互方面仍有明顯短板。簡單來說,它們可以看懂照片中有什么,但卻難以理解三維空間的關(guān)系,更不用說像機器人那樣在現(xiàn)實世界中移動和操作物體了。
為什么這項研究如此重要?想象你有一個家庭機器人助手,它需要同時具備三種能力:首先,它得理解你的指令和周圍環(huán)境(就像理解"幫我拿那個紅色的杯子");其次,它需要具備空間感知能力(知道杯子在哪里,怎么走過去不會撞到家具);最后,它還要有精確控制能力(知道如何伸手、如何抓取物體)?,F(xiàn)有技術(shù)要么專注于理解能力,要么專注于控制能力,很難兼顧這三方面。
研究團隊提出的VeBrain框架巧妙地解決了這個問題。他們的核心創(chuàng)新在于將機器人控制重新定義為2D視覺空間中的文本任務(wù),這意味著他們讓大語言模型做它最擅長的事情——生成文本,然后通過一個特殊的"機器人適配器"將這些文本指令轉(zhuǎn)換為實際的運動指令。這就像是在大語言模型和機器人之間搭建了一座橋梁,讓兩者能夠順暢地溝通。
為了訓(xùn)練這個系統(tǒng),研究團隊創(chuàng)建了一個包含60萬條高質(zhì)量指令數(shù)據(jù)的數(shù)據(jù)集(VeBrain-600k),涵蓋多模態(tài)理解、視覺空間推理和機器人控制三個關(guān)鍵能力。他們花費了數(shù)百小時收集、整理和標注數(shù)據(jù),并采用了多模態(tài)思維鏈(CoT)技術(shù),將不同能力混合到單一對話中,這使得模型能夠更自然地處理復(fù)雜任務(wù)。
在13個多模態(tài)基準測試和5個空間智能基準測試上的廣泛實驗表明,VeBrain的性能優(yōu)于現(xiàn)有的MLLM模型,如Qwen2.5-VL。更令人印象深刻的是,當(dāng)部署到四足機器人和機械臂上時,VeBrain展現(xiàn)出了強大的適應(yīng)性、靈活性和組合能力。例如,與Qwen2.5-VL相比,VeBrain不僅在MMVet基準測試上提高了5.6%的性能,在四足機器人任務(wù)上還實現(xiàn)了平均50%的顯著提升。
這項研究為人工智能與機器人技術(shù)的融合開辟了新的可能性,讓我們離擁有真正智能的、能夠理解并與物理世界互動的機器人助手更近了一步。
一、視覺賦能大腦:統(tǒng)一感知、推理與控制的挑戰(zhàn)
多模態(tài)大語言模型(MLLMs)近年來取得了顯著進步,它們能夠理解圖像、回答問題,甚至進行簡單的推理。但是,要將這些模型應(yīng)用到物理實體(如四足機器人或機械臂)上,面臨著一個根本性挑戰(zhàn):如何讓一個模型同時具備多模態(tài)理解能力、視覺空間推理能力和物理交互能力?
想象一下你在教一個孩子騎自行車。首先,孩子需要看懂自行車的結(jié)構(gòu)(感知);然后,理解如何保持平衡和轉(zhuǎn)向(推理);最后,實際操控車把和踏板(控制)。這三種能力看似簡單,但對人工智能來說卻是截然不同的任務(wù),很難在一個模型中同時實現(xiàn)。
現(xiàn)有的方法通常分為兩類。一類是視覺-語言-動作(VLA)模型,它們通過大規(guī)模機器人數(shù)據(jù)集訓(xùn)練,將多模態(tài)觀察映射為控制策略。這些模型雖然在控制任務(wù)上表現(xiàn)不錯,但往往犧牲了多模態(tài)理解能力。就像一個只會騎自行車但不理解交通規(guī)則的人一樣,缺乏全面的理解能力會限制其實際應(yīng)用。
另一類方法是直接構(gòu)建基于MLLM的代理來控制機器人,同時保留其多模態(tài)推理能力。然而,由于任務(wù)差距太大,它們在控制精度和泛化能力上仍遠遠無法滿足實際機器人的需求。這就像讓一個理論專家突然去參加自行車比賽,雖然他懂所有原理,但缺乏實際操作經(jīng)驗。
研究團隊發(fā)現(xiàn),統(tǒng)一這些能力的挑戰(zhàn)主要來自于它們的內(nèi)在差異。學(xué)習(xí)機器人控制需要將多模態(tài)輸入精確映射到真實世界中的物理運動策略,這與現(xiàn)有MLLM在2D視覺空間中的跨模態(tài)對齊目標有根本不同。這種不同的目標使得MLLM難以有效平衡這些能力,導(dǎo)致知識遺忘和任務(wù)沖突。更糟糕的是,學(xué)術(shù)界仍然缺乏一個合適的數(shù)據(jù)配方來無縫整合和平衡MLLM中的這些能力。
為克服這些局限,研究團隊提出了視覺賦能大腦(VeBrain),一個統(tǒng)一感知、推理和現(xiàn)實世界控制的框架。VeBrain的核心理念是將機器人控制重新定義為2D視覺空間中的普通文本任務(wù),從而統(tǒng)一不同能力的學(xué)習(xí)目標。具體來說,機器人控制被分解為關(guān)鍵點檢測和具身技能識別兩個任務(wù)。前者作為視覺空間錨點編碼機器人的運動信號,后者表示執(zhí)行信號的動作命令。
基于這些控制信號,研究團隊設(shè)計了一個新穎的機器人適配器,以動態(tài)且穩(wěn)健的方式將這些信號轉(zhuǎn)換為運動策略。這就像給一個語言天才配備了一個專業(yè)翻譯,能夠?qū)⑺闹噶顪蚀_翻譯成機器人能理解的動作語言。通過這些設(shè)計,VeBrain能夠在保留MLLM強大能力的同時,實現(xiàn)高效的機器人控制。
二、VeBrain架構(gòu):思考與行動的無縫橋接
VeBrain的設(shè)計理念可以比作給大語言模型安裝了一個特殊的接口,讓它能夠與物理世界對話。這個框架主要由兩部分組成:一個負責(zé)理解、思考和決策的多模態(tài)大語言模型(MLLM),以及一個將MLLM決策轉(zhuǎn)換為可執(zhí)行策略的機器人適配器。這兩部分通過閉環(huán)連接,實現(xiàn)動態(tài)且穩(wěn)健的控制。
首先,來看MLLM架構(gòu)。VeBrain基于Qwen2.5-VL模型,包含視覺編碼器、投影器和大語言模型。想象這就像人的視覺系統(tǒng)和思維系統(tǒng):視覺編碼器(類似眼睛)接收圖像信息,投影器(類似視神經(jīng))將視覺信息轉(zhuǎn)換為語言模型可理解的形式,大語言模型(類似大腦)則處理這些信息并做出決策。
具體來說,當(dāng)系統(tǒng)接收到圖像和文本提示后,首先由優(yōu)化的視覺Transformer(ViT)提取視覺特征,然后通過大語言模型生成回應(yīng)。這個過程就像人看到一個場景,大腦立即開始處理視覺信息,結(jié)合已有知識和當(dāng)前目標,形成行動計劃。
不過,僅有MLLM還不足以控制實際的機器人。這就像你可以想象如何騎自行車,但如果沒有實際操控自行車的經(jīng)驗和技能,想法很難轉(zhuǎn)化為精確的動作。這正是機器人適配器的作用所在。
機器人適配器克服了幾個關(guān)鍵挑戰(zhàn):首先,2D關(guān)鍵點難以直接應(yīng)用到真實世界的3D場景;其次,四足機器人的自我視角會隨著移動而變化,導(dǎo)致關(guān)鍵點與視覺透視不一致;第三,由于MLLM無法感知機器人狀態(tài),當(dāng)發(fā)生意外情況時難以及時控制。為解決這些問題,機器人適配器包含了四個模塊:點追蹤器、運動控制器、技能執(zhí)行器和動態(tài)接管。
點追蹤器就像一個不斷更新地圖的導(dǎo)航系統(tǒng)。當(dāng)機器人移動時,它會實時更新關(guān)鍵點位置,確保指令始終與當(dāng)前視角匹配。運動控制器則像是一個翻譯官,將2D關(guān)鍵點轉(zhuǎn)換為3D坐標,并估算機器人的運動速度。技能執(zhí)行器相當(dāng)于一個專業(yè)教練,負責(zé)調(diào)用預(yù)訓(xùn)練好的各種動作策略,如行走、跳躍等。最后,動態(tài)接管功能像是一個安全監(jiān)督員,當(dāng)機器人適配器失敗時(例如目標點消失或子任務(wù)完成),它會將控制權(quán)交還給MLLM。
這整個系統(tǒng)形成了一個閉環(huán):MLLM負責(zé)"看"和"想",決定去哪里以及做什么;機器人適配器則負責(zé)"行動",將決策轉(zhuǎn)化為精確的運動。這種設(shè)計使得VeBrain能夠在保持強大多模態(tài)理解能力的同時,實現(xiàn)對真實機器人的精確控制。
以一個簡單任務(wù)為例:假設(shè)要求機器人"把香蕉放進盒子里"。首先,MLLM會分析場景,確定香蕉和盒子的位置,然后生成一系列關(guān)鍵點和動作命令,如"移動到香蕉位置"、"抓取"、"移動到盒子位置"、"釋放"。機器人適配器隨后將這些命令轉(zhuǎn)換為實際的運動軌跡和抓取動作,同時不斷監(jiān)控執(zhí)行情況,確保任務(wù)順利完成。如果過程中出現(xiàn)意外,如香蕉掉落,系統(tǒng)會動態(tài)調(diào)整策略,重新規(guī)劃路徑或動作。
三、VeBrain-600k數(shù)據(jù)引擎:構(gòu)建思考與行動的基礎(chǔ)
要訓(xùn)練一個能夠看、想、行動的智能系統(tǒng),需要大量高質(zhì)量的數(shù)據(jù)。就像教育一個孩子需要各種各樣的學(xué)習(xí)材料和實際經(jīng)驗,VeBrain的訓(xùn)練也需要涵蓋多種能力的多樣化數(shù)據(jù)。為此,研究團隊構(gòu)建了VeBrain-600k,一個包含60萬條指令數(shù)據(jù)的高質(zhì)量數(shù)據(jù)集。
這個數(shù)據(jù)集包含三大類數(shù)據(jù):20萬條多模態(tài)理解數(shù)據(jù)、31.2萬條視覺空間推理數(shù)據(jù)和8.8萬條機器人控制數(shù)據(jù)。想象這就像給孩子準備了三類教材:一類教他認識世界(理解),一類教他空間思維(推理),還有一類教他實際操作技能(控制)。
在數(shù)據(jù)收集和標注方面,研究團隊付出了巨大努力。對于多模態(tài)理解數(shù)據(jù),他們從開源數(shù)據(jù)集(如ShareGPT4V和MMInstruct)中收集了大量對話,還使用GPT4o生成數(shù)據(jù)并通過自定義流程進行標注。這部分數(shù)據(jù)教會系統(tǒng)理解圖像、視頻和文本描述,就像教孩子認識世界上的各種事物。
對于視覺空間推理數(shù)據(jù),他們收集了來自GPT4Scene和ScanNet的數(shù)據(jù)。特別是,他們設(shè)計了兩條標注流水線:一條將圖像幀和點云快照結(jié)合起來,通過GPT-4o生成描述性對話;另一條則通過ScanNet和人類專家的標注來標記計數(shù)、物體大小和物體距離等信息。這部分數(shù)據(jù)培養(yǎng)系統(tǒng)的空間感知能力,就像教孩子理解"前后左右"、"遠近大小"等空間概念。
最具挑戰(zhàn)性的是機器人控制數(shù)據(jù)的收集。4名人類專家花費80多小時收集了四足機器人和機械臂的視頻片段和運動狀態(tài),然后5名人類專家手動標注了這些片段中的關(guān)鍵點和動作。這就像讓專業(yè)教練示范和講解各種動作技能,然后記錄下來作為教學(xué)材料。
但僅有原始數(shù)據(jù)還不夠,還需要設(shè)計思維鏈(Chain-of-Thought,CoT)來將不同能力融入一個對話中。思維鏈就像是詳細的解題思路,不僅給出答案,還展示了到達答案的整個思考過程。對于多模態(tài)理解和視覺空間推理,CoT內(nèi)容旨在將推理能力融入這些任務(wù)中。研究團隊根據(jù)任務(wù)特性設(shè)計了不同的CoT模板,并使用Gemini-2.0和GPT-4o生成CoT內(nèi)容。
對于機器人控制,CoT過程更加復(fù)雜,它進一步整合了感知、推理和控制的內(nèi)容。首先描述視覺觀察,然后分解任務(wù),最后做出控制決策。這就像教導(dǎo)孩子:"看清楚周圍環(huán)境,想一想該怎么做,然后一步一步行動"。
為確保數(shù)據(jù)質(zhì)量,研究團隊采用了多重驗證機制。在機器人數(shù)據(jù)收集過程中,三名專家仔細審核每個視頻,確保物體在機器人視野范圍內(nèi)。對于CoT生成,他們采用了交叉模型驗證流水線,使用Gemini-2.0作為參考模型來評估GPT-4o生成的CoT數(shù)據(jù)的邏輯和物理合理性。最后,5名人類專家隨機抽查了10%的數(shù)據(jù)進行手動檢查,只有5.3%的數(shù)據(jù)被進一步排除,證明了數(shù)據(jù)生成流水線的可靠性。
通過這種精心設(shè)計的數(shù)據(jù)引擎,VeBrain-600k不僅鼓勵MLLM共同學(xué)習(xí)具身大腦的基本能力,還最大化了其處理復(fù)雜任務(wù)的能力。這就像給孩子提供全面且系統(tǒng)的教育,不僅教會他基礎(chǔ)知識,還培養(yǎng)他解決實際問題的綜合能力。
四、實驗結(jié)果:從理解到行動的全面驗證
為了全面評估VeBrain的性能,研究團隊在三個關(guān)鍵能力上進行了廣泛的實驗:多模態(tài)理解、視覺空間推理和機器人控制。這就像對一個全能型運動員進行全面體檢,測試他在各個運動項目上的表現(xiàn)。
首先,讓我們看看VeBrain的消融實驗,這有助于理解各個組件的貢獻。消融實驗就像拆解一道復(fù)雜菜肴,嘗試去掉某些配料,看看最終味道會有什么變化,從而了解每種配料的重要性。實驗表明,盡管Qwen2.5-VL在多模態(tài)理解方面表現(xiàn)出色,但在視覺空間推理和機器人控制方面卻相對薄弱,例如在"復(fù)雜查找"任務(wù)上的成功率為0%。當(dāng)研究團隊為模型配備機器人適配器后,其在兩個機器人控制任務(wù)上的成功率明顯提高。更令人印象深刻的是,在使用控制數(shù)據(jù)進行微調(diào)后,VeBrain的多模態(tài)能力得到了很好的保留,充分證明了VeBrain設(shè)計的有效性。此外,每種類型的數(shù)據(jù)都對相應(yīng)能力做出了顯著貢獻,例如視覺空間推理數(shù)據(jù)在VSI-Bench上提升了7.5%的性能。
接下來,研究團隊將VeBrain與兩種常見框架進行了比較:基于MLLM的文本控制和基于VLA的動作策略控制。結(jié)果顯示,MLLM框架在兩個任務(wù)上直接控制機器人的能力有限,主要是由于其控制能力不足;而VLA雖然在機器人控制任務(wù)上表現(xiàn)不錯,但嚴重犧牲了多模態(tài)能力,例如在MMVet上比MLLM低16.3%。相比之下,VeBrain在所有任務(wù)上實現(xiàn)了最佳平衡性能,相比其他框架平均提高了31.5%,這充分證明了現(xiàn)有框架在統(tǒng)一多模態(tài)理解、視覺空間推理和機器人控制方面的不足,也驗證了VeBrain各設(shè)計的有效性。
在多模態(tài)理解基準測試上,VeBrain與各種現(xiàn)有MLLM和VLA模型進行了比較。結(jié)果表明,現(xiàn)有VLA模型在這些多模態(tài)基準上表現(xiàn)較差,甚至有些完全喪失了多模態(tài)能力。即使是RoboBrain這樣集成了大量多模態(tài)理解數(shù)據(jù)的VLA模型,在OCR和圖表基準上也明顯落后于先進的MLLM,例如在ChartQA上低6.8%,在OCRBench上低187分。相比之下,VeBrain在13個MLLM基準上展示了全面優(yōu)勢,例如在DocVQA上比RoboBrain高6.4%。更重要的是,VeBrain在大多數(shù)基準上的表現(xiàn)優(yōu)于先進的開源和閉源MLLM,如在MMVet上提高了5.6%,并獲得了77.1的最佳標準化平均性能,表明其卓越的多模態(tài)能力??紤]到VeBrain比閉源MLLM小得多,這些結(jié)果進一步證明了其多模態(tài)能力的強大。
在視覺空間推理方面,研究團隊首先展示了四個3D空間基準的結(jié)果。在這些任務(wù)中,模型需要強大的3D空間感知和推理能力來回答不同類型的問題。因此,大多數(shù)之前的方法采用基于3D的MLLM結(jié)構(gòu),并在四個基準上取得了不錯的結(jié)果。相比之下,直接將2D MLLM遷移到這些任務(wù)上會導(dǎo)致較差的性能,例如Qwen2.5-VL-7B在Acc@0.25上低50.1個百分點,表明它們在3D空間理解和推理方面的不足。相比這些方法,GPT4Scene-HDM通過基于視頻的2D MLLM和對象標記器取得了更好的結(jié)果。然而,作為一個專家模型,GPT4Scene-HDM難以應(yīng)用于常見的2D多模態(tài)任務(wù)。相比之下,VeBrain作為一個通用MLLM,其性能甚至超過了GPT4Scene-HDM,例如在ScanQA val上的CIDEr得分高出5.2,充分驗證了其泛化能力。在VSI基準上的進一步診斷顯示,VeBrain在平均分數(shù)上優(yōu)于所有現(xiàn)有MLLM,例如比Qwen2.5-VL-7B高4.0%。與更大的MLLM如GPT-4o相比,VeBrain的表現(xiàn)也更好??紤]到VSI基準的巨大挑戰(zhàn),這些結(jié)果進一步證明了VeBrain的空間推理能力。
最后,在機器人控制方面,研究團隊比較了VLA、MLLM和VeBrain在七個四足機器人任務(wù)上的表現(xiàn)。結(jié)果顯示,現(xiàn)有的VLA和MLLM在直接完成大多數(shù)任務(wù)(如"交互"和"運輸")時面臨困難。其中,配備了機器人適配器的Qwen2.5-VL取得了最好的結(jié)果。然而,當(dāng)適應(yīng)到更難的任務(wù)(如"復(fù)雜查找")時,它們的成功率顯著下降,例如僅有20%的成功率。這些任務(wù)通常需要空間推理和具身控制等組合能力,而普通MLLM不擅長這些。相比之下,VeBrain統(tǒng)一了這些能力,在各種復(fù)雜四足機器人任務(wù)上取得了顯著更好的結(jié)果。例如,在長期任務(wù)"復(fù)雜運輸"上,VeBrain比所有模型表現(xiàn)好50%。VeBrain在機械臂上也展示了類似的優(yōu)勢。如表7所示,常見VLA在大多數(shù)操作任務(wù)中表現(xiàn)出有限的成功率,例如π0在"將辣椒放入盒子"任務(wù)上的成功率為30%。在長期任務(wù)中,π0的成功率進一步下降到0%。與這些方法相比,VeBrain在所有任務(wù)中都取得了最高的成功率。在最具挑戰(zhàn)性的任務(wù)中,VeBrain的表現(xiàn)比π0高出80%,進一步驗證了其在機器人控制中的有效性。
五、可視化案例:從理解到行動的完整過程
為了直觀展示VeBrain在實際任務(wù)中的表現(xiàn),研究團隊提供了機械臂和四足機器人的可視化結(jié)果。這些案例生動地展示了VeBrain如何通過組合能力處理復(fù)雜的機器人任務(wù)。
想象有這樣一個場景:要求機器人找到一個隱藏的辣椒。對于普通人來說,這是一個簡單的任務(wù),但對機器人來說卻很復(fù)雜,涉及到感知、推理和精確控制。VeBrain首先分析場景,發(fā)現(xiàn)桌面上沒有辣椒,但注意到有一個半開的抽屜。通過推理,VeBrain猜測辣椒可能藏在抽屜里,然后開始執(zhí)行一系列步驟:移動到抽屜前,完全打開抽屜,找到里面的辣椒,然后抓取它。這個過程不僅需要控制能力,還需要出色的感知和推理能力,能夠根據(jù)環(huán)境線索(半開的抽屜)推斷出可能的物體位置。
另一個例子是要求機器人將物品運送到指定位置。VeBrain首先確定目標盒子的位置,然后規(guī)劃路徑避開障礙物,最后將物品放入盒子中。更重要的是,VeBrain還能確定任務(wù)是否已經(jīng)完成,例如通過觀察盒子中是否已經(jīng)包含了所需數(shù)量的物品。這展示了VeBrain不僅能執(zhí)行簡單的命令,還能理解任務(wù)的整體目標,并在執(zhí)行過程中進行自我監(jiān)督。
這些可視化案例清晰地展示了VeBrain如何將多模態(tài)理解、視覺空間推理和機器人控制無縫整合,使機器人能夠應(yīng)對現(xiàn)實世界中的復(fù)雜情況。傳統(tǒng)方法通常會在這些復(fù)雜任務(wù)上失敗,因為它們要么缺乏理解能力(無法推斷辣椒在抽屜中),要么缺乏執(zhí)行精度(無法準確抓取物體)。相比之下,VeBrain憑借其統(tǒng)一框架,展現(xiàn)出了強大的組合能力和適應(yīng)性,能夠自然地融合思考和行動。
六、總結(jié)與展望:統(tǒng)一認知與控制的未來
VeBrain代表了多模態(tài)大語言模型向物理世界邁出的重要一步。通過創(chuàng)新性地將機器人控制重新定義為2D視覺空間中的文本任務(wù),研究團隊成功地統(tǒng)一了多模態(tài)理解、視覺空間推理和機器人控制這三種基本能力,克服了現(xiàn)有方法面臨的根本性挑戰(zhàn)。
VeBrain的成功不僅在于其創(chuàng)新的框架設(shè)計,還在于VeBrain-600k數(shù)據(jù)集的精心構(gòu)建。這個包含60萬條高質(zhì)量指令數(shù)據(jù)的數(shù)據(jù)集涵蓋了具身大腦的各種能力,通過多模態(tài)思維鏈將不同能力混合到單一對話中,最大化了模型處理復(fù)雜任務(wù)的能力。
在各種基準測試中,VeBrain展示了令人印象深刻的性能。在多模態(tài)理解方面,它甚至超過了一些閉源大型模型;在視覺空間推理任務(wù)上,它表現(xiàn)出了強大的3D理解能力;在機器人控制方面,它比現(xiàn)有方法取得了顯著提升,特別是在復(fù)雜任務(wù)上。這一切都證明了VeBrain框架的有效性和可行性。
當(dāng)然,VeBrain也存在一些局限性。盡管它在簡單和中等復(fù)雜度的任務(wù)上表現(xiàn)出色,但在高度復(fù)雜的任務(wù)中仍面臨挑戰(zhàn)。此外,當(dāng)前的實現(xiàn)主要集中在四足機器人和機械臂上,未來可以擴展到更多類型的機器人平臺。另外,VeBrain目前的訓(xùn)練數(shù)據(jù)主要來自實驗室環(huán)境,在完全開放的真實世界環(huán)境中可能需要更多適應(yīng)。
展望未來,VeBrain開啟了幾個有前景的研究方向。首先,可以探索更多樣化的任務(wù)和環(huán)境,進一步測試和提升VeBrain的泛化能力。其次,可以增強機器人適配器的功能,使其能夠處理更復(fù)雜的場景和任務(wù)。最后,可以探索如何讓VeBrain從經(jīng)驗中學(xué)習(xí)和適應(yīng),使其能夠不斷提升自身能力,就像人類通過實踐不斷提高技能一樣。
總的來說,VeBrain代表了人工智能和機器人領(lǐng)域的一個重要里程碑,它展示了如何將認知智能和控制能力有機結(jié)合,為創(chuàng)建真正智能的具身代理鋪平了道路。隨著技術(shù)的不斷發(fā)展,我們可以期待看到更多像VeBrain這樣的系統(tǒng),它們不僅能看、能想,還能在現(xiàn)實世界中自然地行動和交互。
好文章,需要你的鼓勵
新加坡國立大學(xué)研究團隊開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實驗顯示,僅訓(xùn)練AI玩簡單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟大學(xué)團隊開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實現(xiàn)37.9%的精度提升,并在真實設(shè)備上展現(xiàn)出色泛化能力,為機器人、AR和自動駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團隊通過對比實驗發(fā)現(xiàn),經(jīng)過強化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時刻"現(xiàn)象,但這些自我糾錯行為并不能實際提升推理準確率。研究揭示了AI模型存在"生成-驗證差距",即生成答案的能力強于驗證答案質(zhì)量的能力,且模型在自我驗證時無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動態(tài)稀疏性實現(xiàn)大語言模型訓(xùn)練加速1.6倍,計算成本降低2.2倍。該方法使用SVD稀疏性估計器智能選擇重要計算部分,在保持模型性能的同時顯著提升訓(xùn)練效率,已在多個任務(wù)上驗證有效性。