作者 | 金旺
欄目 | 機(jī)器人新紀(jì)元
就在上個(gè)月,由北京人形機(jī)器人創(chuàng)新中心牽頭,上海人形機(jī)器人創(chuàng)新中心、浙江人形機(jī)器人創(chuàng)新中心,以及優(yōu)必選、宇樹科技、中國信通院等共同參與制定的《人形機(jī)器人智能化分級(jí)》團(tuán)體標(biāo)準(zhǔn)正式發(fā)布。
在這個(gè)標(biāo)準(zhǔn)中,根據(jù)感知認(rèn)知、決策學(xué)習(xí)、執(zhí)行表現(xiàn)、協(xié)作交互四個(gè)能力維度,制定了類似自動(dòng)駕駛的L1-L5級(jí)評(píng)級(jí)標(biāo)準(zhǔn)。
在推動(dòng)具身智能機(jī)器人就四個(gè)維度能力升級(jí)過程中,既依賴數(shù)據(jù)、算法能力的提升,也對(duì)算力提出了更高的要求。
作為自為自動(dòng)駕駛汽車提供算力的地平線孵化而出的機(jī)器人團(tuán)隊(duì),地瓜機(jī)器人在6月11日正式對(duì)外發(fā)布了新款算控一體開發(fā)平臺(tái)RDK S100。
據(jù)地瓜機(jī)器人開發(fā)者生態(tài)副總裁胡春旭在會(huì)上介紹稱,“大小腦協(xié)同是具身智能機(jī)器人的必經(jīng)之路,基于大小腦協(xié)同異構(gòu)架構(gòu)設(shè)計(jì)的RDK S100,是行業(yè)內(nèi)首款具備百TOPS算力的算控一體化機(jī)器人開發(fā)套件。”
這時(shí),地瓜機(jī)器人剛剛完成1億美元A輪融資,志在成為機(jī)器人時(shí)代的Wintel,打造機(jī)器人時(shí)代的CUDA。
01 端到端or大小腦?
根據(jù)IFR統(tǒng)計(jì)數(shù)據(jù)顯示,2023年,中國工業(yè)機(jī)器人裝機(jī)量為27.63萬臺(tái),在全球裝機(jī)量占比高達(dá)51%,這時(shí)的中國工業(yè)機(jī)器人裝機(jī)量已經(jīng)連續(xù)多年位居全球第一。
機(jī)器人并非一個(gè)全新的產(chǎn)業(yè),在這波人形機(jī)器人爆火全球之前,人形機(jī)器人技術(shù)也已經(jīng)發(fā)展了半個(gè)多世紀(jì),非人形機(jī)器人更是在工業(yè)、倉儲(chǔ)、餐飲、酒店等多個(gè)場景落地應(yīng)用多年。
不同的是,2022年11月,ChatGPT的發(fā)布,成了機(jī)器人產(chǎn)業(yè)走向智能化、通用化的一個(gè)拐點(diǎn)。
基于“機(jī)器人行業(yè)與大模型進(jìn)入到了一個(gè)互相滲透階段”的判斷,2024年,地平線將機(jī)器人事業(yè)部拆分而出,地瓜機(jī)器人由此而來。
2024年,機(jī)器人也已經(jīng)不是一個(gè)新鮮事物,機(jī)器人運(yùn)動(dòng)控制鏈路由感知、決策和規(guī)劃、動(dòng)作控制和生成三大環(huán)節(jié)構(gòu)成已經(jīng)成為行業(yè)共識(shí),但在具身智能實(shí)現(xiàn)路徑上,卻形成了端到端和大小腦兩條不同的技術(shù)路徑。
端到端技術(shù)路徑以谷歌2023年7月對(duì)外發(fā)布的RT-2模型為代表,RT-2是一個(gè)完整的VLA(視覺-語言-動(dòng)作)模型,研究人員只需通過語音給出指令,搭載RT-2的機(jī)器人就可以自動(dòng)完成從視覺識(shí)別到動(dòng)作執(zhí)行的全過程。
不過,RT-2雖然通過把互聯(lián)網(wǎng)上的視頻作為輔助訓(xùn)練數(shù)據(jù),在一定程度上提升了模型的泛化性,但由于谷歌團(tuán)隊(duì)最初進(jìn)行數(shù)據(jù)采集的廚房里的場景相對(duì)固定,一旦在真實(shí)世界中遇到與訓(xùn)練數(shù)據(jù)有較大差異的場景,機(jī)器人就無法再精準(zhǔn)執(zhí)行任務(wù)。
用于訓(xùn)練VLA模型的數(shù)據(jù)嚴(yán)重不足,就成了當(dāng)下端到端技術(shù)路徑的瓶頸。
相較而言,地瓜機(jī)器人短期內(nèi)走的是另一條路徑,大小腦協(xié)同路徑。
胡春旭借智元機(jī)器人提出的具身智能分級(jí)標(biāo)準(zhǔn)指出,“現(xiàn)在我們正處于從G2(任務(wù)編排)跨越到G3(認(rèn)知推理和規(guī)劃)的發(fā)展階段,而大小腦協(xié)同技術(shù)將會(huì)是解決從G2跨越到G3發(fā)展階段的關(guān)鍵方法。”
之所以有如此判斷,是因?yàn)榇笮∧X技術(shù)路線的本質(zhì)是分層決策模型,其中,大腦負(fù)責(zé)理解和分解任務(wù)、制定任務(wù)執(zhí)行策略,小腦負(fù)責(zé)具體的動(dòng)作執(zhí)行并反饋結(jié)果。
這一技術(shù)路線實(shí)現(xiàn)難度更低、可解釋性更高,可控性也更好,與此同時(shí),由于對(duì)于數(shù)據(jù)量要求較小,也在一定程度上規(guī)避了當(dāng)下具身智能模型訓(xùn)練過程中數(shù)據(jù)量嚴(yán)重不足的問題。
正因如此,胡春旭指出,“我們認(rèn)為,在三年之內(nèi),基于這種技術(shù)路徑的機(jī)器人更容易在餐飲配送、酒店迎賓、無人駕駛汽車,乃至四足機(jī)器人、人形機(jī)器人數(shù)據(jù)采集環(huán)節(jié)實(shí)現(xiàn)規(guī)?;涞?/strong>。”
那么,在這一階段,機(jī)器人需要配備多少算力?又需要怎樣的專用芯片?
02 大小腦需要怎樣的計(jì)算單元?
6月11日,在深圳科創(chuàng)學(xué)院的地瓜機(jī)器人發(fā)布會(huì)現(xiàn)場,胡春旭對(duì)外展示了13個(gè)搭載地瓜機(jī)器人RDK S100套件的實(shí)際應(yīng)用案例,我們?cè)诎l(fā)布會(huì)現(xiàn)場看到了這個(gè)當(dāng)下關(guān)注度頗高的應(yīng)用案例——會(huì)跳舞的宇樹G1。
自從宇樹的人形機(jī)器人登上春晚舞臺(tái)后,人形機(jī)器人跳舞的熱度不斷飆升,然而,要實(shí)現(xiàn)人形機(jī)器人精準(zhǔn)的運(yùn)動(dòng)控制,仿真環(huán)境與現(xiàn)實(shí)世界之間的動(dòng)力學(xué)差異是所有機(jī)器人團(tuán)隊(duì)都要面對(duì)的一大難題。
地瓜機(jī)器人不僅成功在RDK S100上部署了ASAP框架,結(jié)合Delta動(dòng)作模型實(shí)現(xiàn)了宇樹G1人形機(jī)器人在真實(shí)環(huán)境中的高效全身運(yùn)動(dòng)控制,還基于地瓜機(jī)器人獨(dú)特的異構(gòu)計(jì)算架構(gòu),大幅降低了模型部署的資源占用。
據(jù)悉,這次在BPU上進(jìn)行模型推理時(shí),模型推理占用率僅為2%,相較于純CPU推理,CPU占用率降低了250%,這為機(jī)器人的視覺檢測、目標(biāo)識(shí)別、路徑導(dǎo)航和智能決策等復(fù)雜任務(wù)留出了更多算力空間。
RDK S100是地瓜機(jī)器人此次正式對(duì)外發(fā)布的算控一體化機(jī)器人開發(fā)套件,胡春旭指出,“RDK S100解決的正是最先推動(dòng)具身機(jī)器人實(shí)現(xiàn)產(chǎn)業(yè)落地的分層決策大小腦模型的算力需求。”
據(jù)胡春旭透露,“地瓜機(jī)器人是從市場需求出發(fā),基于市場需求反向推導(dǎo)出具身機(jī)器人對(duì)SoC的具體需求。”
在當(dāng)下的分層決策大小腦模型中,根據(jù)具體執(zhí)行任務(wù)不同,大腦和小腦分別對(duì)算力提出了如下需求:
大腦執(zhí)行的是視覺推理、感知計(jì)算、任務(wù)規(guī)劃,這些任務(wù)不需要很強(qiáng)的實(shí)時(shí)性,但對(duì)算力有著很高的需求,目前行業(yè)中普遍采用CPU、GPU作為大腦的計(jì)算單元;
小腦接收來自大腦的運(yùn)動(dòng)指令,并將指令轉(zhuǎn)化為實(shí)時(shí)動(dòng)作,這些任務(wù)對(duì)實(shí)時(shí)性有著很高的要求,但并不像大腦那樣對(duì)算力有著極高的需求,現(xiàn)在行業(yè)中普遍采用MCU作為小腦的計(jì)算單元。
為了為大小腦模型提供算力,目前市面上的主流方案是通過硬件分層——大小腦基于不同芯片分別提供算力,并通過外圍總線進(jìn)行連接。
作為面向具身智能場景推出的算控一體化機(jī)器人開發(fā)套件,RDK S100是在單一SoC上整合了包括用于通信和邏輯決策的CPU、用于模型推理的BPU,以及用于底層高頻控制的MCU。
在RDK S100開發(fā)套件中,地瓜機(jī)器人通過6個(gè)Cortex-A78AE核心和針對(duì)Transformer優(yōu)化的全新一代Nash架構(gòu)的BPU構(gòu)成了機(jī)器人的“大腦”,用于滿足各類復(fù)雜決策和規(guī)劃任務(wù)的計(jì)算需求,通過4個(gè)Arm Cortex R52+MCU組成的高性能“小腦”,用于進(jìn)行機(jī)器人動(dòng)作的實(shí)時(shí)響應(yīng)。
地瓜機(jī)器人團(tuán)隊(duì)認(rèn)為,這樣的異構(gòu)計(jì)算架構(gòu),是實(shí)現(xiàn)大小腦這一具身智能技術(shù)路徑的最佳方案。
這其中最為獨(dú)特是地瓜機(jī)器人由地平線授權(quán)而來的BPU。
由于CPU本身更適合做邏輯處理和任務(wù)調(diào)度,為了給機(jī)器人提供用于模型推理所需的大算力,地瓜機(jī)器人引入了BPU架構(gòu)。
具體而言,在前文提到的宇樹G1跳舞的演示案例中,人形機(jī)器人運(yùn)動(dòng)控制執(zhí)行邏輯如下:
宇樹G1的各個(gè)關(guān)節(jié)由宇樹的驅(qū)動(dòng)器來進(jìn)行控制,驅(qū)動(dòng)器之間的通信基于宇樹開放的網(wǎng)絡(luò)SDK實(shí)現(xiàn),而這些SDK中的網(wǎng)絡(luò)通信功能最終是由CPU提供算力;
此外,CPU作為中央處理器也會(huì)并行執(zhí)行網(wǎng)絡(luò)通信、實(shí)時(shí)查看模型推理結(jié)果等任務(wù);
BPU作為超級(jí)計(jì)算單元,重點(diǎn)在于完成所有模型推理工作,讓機(jī)器人各個(gè)關(guān)節(jié)在不同時(shí)刻形成特定運(yùn)動(dòng)序列,并最終經(jīng)由CPU的調(diào)度將這個(gè)運(yùn)動(dòng)序列發(fā)送到各個(gè)關(guān)節(jié)執(zhí)行動(dòng)作。
據(jù)胡春旭在會(huì)上透露,“由此實(shí)現(xiàn)的人形機(jī)器人運(yùn)動(dòng)控制,相較于完全通過CPU進(jìn)行模型推理,CPU實(shí)現(xiàn)了68%的計(jì)算資源釋放。”
03 做具身智能時(shí)代的CUDA
2025年6月,是地瓜機(jī)器人獨(dú)立運(yùn)營一周年。
在這一年里,我們能夠看到,依然不斷有新團(tuán)隊(duì)涌入具身智能這一賽道。
地瓜機(jī)器人CEO王叢在發(fā)布會(huì)上稱,地瓜機(jī)器人在這兩年看到了三個(gè)大趨勢:
第一,傳統(tǒng)機(jī)器人智能化升級(jí),包括掃地機(jī)器人、割草機(jī)器人、協(xié)作機(jī)器人等都在進(jìn)行智能化升級(jí);
第二,新機(jī)器人團(tuán)隊(duì)不斷涌現(xiàn),幾乎每1-2個(gè)月,就會(huì)在諸如陪伴機(jī)器人、網(wǎng)球機(jī)器人、水下機(jī)器人等新興領(lǐng)域有一些消費(fèi)機(jī)器人團(tuán)隊(duì)出現(xiàn);
第三,具身智能領(lǐng)域正在急劇發(fā)生著變化。
基于這三大趨勢,王叢認(rèn)為,“具身機(jī)器人賽道最終將會(huì)涌入成百上千家公司,背后需要百萬級(jí)開發(fā)者群體支撐機(jī)器人生態(tài),這就需要一家做infra(基礎(chǔ)設(shè)施)的公司和平臺(tái)支撐整個(gè)行業(yè)的發(fā)展。”
地瓜機(jī)器人的目標(biāo),正是成為這樣一家機(jī)器人軟硬件生態(tài),做機(jī)器人基礎(chǔ)設(shè)施提供商。
據(jù)悉,目前地瓜機(jī)器人已經(jīng)從硬件芯片、基于芯片聯(lián)合優(yōu)化的操作系統(tǒng),到算法倉庫、支撐機(jī)器人算法迭代的云平臺(tái)進(jìn)行了全棧技術(shù)布局。
在芯片層面,面向低功耗和高性價(jià)比場景,地瓜機(jī)器人已經(jīng)擁有5TOPS算力的RDK X3和10TOPS算力的RDK X5,面向高算力場景,地瓜機(jī)器人今天又發(fā)布了分別擁有80TOPS和128TOPS的RDK S100系列套件。
據(jù)悉,今年晚些時(shí)候,地瓜機(jī)器人還會(huì)進(jìn)一步發(fā)布面向端到端技術(shù)路徑應(yīng)用、超過300TOPS算力的RDK S系列新品。
在具身算法層面,地瓜機(jī)器人已經(jīng)與清華、浙大、上交大、深圳大學(xué)、香港大學(xué)、華中科技大學(xué)等高校建立了合作關(guān)系,面向智能導(dǎo)航、Locomotion、Manipulation、數(shù)據(jù)引擎四大領(lǐng)域進(jìn)行關(guān)鍵算法突破和布局。
在具身機(jī)器人云平臺(tái)層面,地瓜機(jī)器人在2025年打造了行業(yè)內(nèi)最大的并行化具身訓(xùn)練場,并正在打造具身智能模型訓(xùn)練工具鏈,基于此來建立機(jī)器人開發(fā)范式。
據(jù)王叢透露,“基于這樣的生態(tài)布局,地瓜機(jī)器人芯片出貨量已經(jīng)超過500萬,服務(wù)下游機(jī)器人品類超過100個(gè),并搭建起了擁有近10萬開發(fā)者的機(jī)器人開發(fā)生態(tài)圈。”
這里不得不說,地瓜機(jī)器人是幸運(yùn)的,背靠國內(nèi)AI獨(dú)角獸團(tuán)隊(duì)地平線,地瓜機(jī)器人擁有著其他機(jī)器人團(tuán)隊(duì)難以企及的雄厚資源。
而這也是地瓜機(jī)器人能夠打造百TOPS級(jí)算力的RDK S100,并能將價(jià)格打到2499元的核心原因。
不過,地瓜機(jī)器人想要打造的不僅僅是RDK系列芯片,他們有著更大的野心。
就在此次發(fā)布會(huì)上,在接受媒體采訪時(shí),談到同樣在積極布局具身機(jī)器人賽道的英偉達(dá),胡春旭指出:
“英偉達(dá)的偉大之處在于早早的構(gòu)建了CUDA,為AI時(shí)代變革提供了一個(gè)基礎(chǔ)平臺(tái),地瓜機(jī)器人現(xiàn)在在做的事很像十幾年前英偉達(dá)在AI生態(tài)中做的事。
我們也希望,未來可以構(gòu)建出類似英偉達(dá)CUDA的機(jī)器人生態(tài)。”
好文章,需要你的鼓勵(lì)
新加坡國立大學(xué)研究團(tuán)隊(duì)開發(fā)了SPIRAL框架,通過讓AI與自己對(duì)弈零和游戲來提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。
關(guān)注智造、硬件、機(jī)器人。