作者 | 金旺
欄目 | 機器人新紀元
2025年,人形機器人進入量產之年。
來自IDC的統(tǒng)計數(shù)據(jù)顯示,2024年中國人形機器人商用銷售出貨量約為2000臺,預計到2030年將會達到6萬臺。
更直觀的數(shù)據(jù)是,今年不少國內頭部人形機器人團隊陸續(xù)對外公布了拿到的量產合同或交付訂單,有團隊交付了數(shù)百臺產品,也有團隊拿到了上千臺訂單,甚至有天太機器人與多個戰(zhàn)略合作伙伴,共同簽署了全球首個具身智能人形機器人萬臺訂單。
人形機器人不僅是人工智能從虛擬世界走向物理世界、是具身智能的關鍵載體,2025年,作為人形機器人的關鍵技術,具身智能正式被寫入了政府工作報告,成為國家戰(zhàn)略性新興產業(yè)。
一方面,人工智能技術突破推動了人形機器人的快速發(fā)展;
另一方面,在人形機器人批量進入商業(yè)市場時,目前所具備的能力仍以執(zhí)行抓取、放置、分揀等基礎任務為主,在算力、算法、數(shù)據(jù),乃至整機研發(fā)上。
如何推動人形機器人持續(xù)成長、成長為未來新一代生產力,仍是一個值得整個產業(yè)思考的關鍵問題。
在9月13日的PEC 2025 AI創(chuàng)新者大會暨第二屆提示工程峰會上的年度提問環(huán)節(jié),至頂科技&科技行者主編金旺與
國地共建具身智能機器人創(chuàng)新中心學術委員會主任、首席研究員 張強
數(shù)字華夏聯(lián)合創(chuàng)始人&軟件與應用中心總經理 陳軍民
地瓜機器人技術副總裁 隋偉
跨維智能具身智能算法總監(jiān) 郭成凱
冪特科技聯(lián)合創(chuàng)始人兼CTO 王志成
進行了一場以《新物種時代:人形機器人如何“長大”?》為主題的深度對話。
在這場深度對話中,他們從硬件、算法、數(shù)據(jù)、算力全維度,一起探討了人形機器人的技術現(xiàn)狀、成長空間,以及商業(yè)化路徑。
以下為本場對話經編輯后的內容:
01 具身智能熱潮中,人形機器人的技術收斂了嗎?
問:經過這幾年的高速發(fā)展,人形機器人在硬件本體上收斂到了哪幾種主流技術方案?
陳軍民:機器人發(fā)展至少有四五十年了,這一波人形機器人浪潮興起有兩個核心因素:人工智能與具身智能。
自2022年起,運控智能、交互智能、作業(yè)智能、具身智能四條技術線齊頭并進、互相促進。
我們數(shù)字華夏定位有溫度的AI人形交互機器人,從設計、研發(fā)到商業(yè)落地全棧閉環(huán)。我們機器人具備交互智能與具身智能能力,我們把硬件收斂為“鐵三角”:
第一是關節(jié)模塊,這是機器人的核心部件,它也可以理解為是機器人的肌肉,直接決定了運動性能與整個機器人的成本;
第二是大小腦硬件,也就是有大腦的AI算力板和小腦的控制板,“大腦”感知物理世界并做出決策,“小腦”負責將其分解為每個關節(jié)電機的具體控制指令,并確保整個過程快速且穩(wěn)定,二者通過高速總線(如EtherCAT、CAN FD)進行通信;
第三是多模態(tài)融合的感知設備,例如通過雙目RGB、深度相機、激光雷達看三維世界,通過麥克風、電子皮膚實現(xiàn)聽觸同步,讓機器人像人一樣“看見”并“讀懂”現(xiàn)實。
正因為有了這些感知設備,機器人可以對現(xiàn)實的物理世界進行感知和交互,這使得硬件方面現(xiàn)在有了一定的技術收斂。
問:具身模型現(xiàn)在分為端到端和分層決策兩類,就現(xiàn)階段技術進程來看,兩類技術架構分別適合怎樣的人形機器人應用,或執(zhí)行怎么樣的任務?
郭成凱:天下大勢,合久必分,分久必合,這是一個永恒的話題。
其實從深度學習出現(xiàn),2014年人臉識別技術突破之后,大量專用的深度學習模型開始涌現(xiàn),例如人臉識別、目標檢測、語義分割、意圖識別等。
所以2017年左右達到了頂峰,大量深度學習企業(yè)做專有模型來執(zhí)行任務,但是當時大家從來沒有想過會有一個模型能一統(tǒng)天下。
在ChatGPT出現(xiàn)之后,一下突破了大家的認知,因為出現(xiàn)了Scaling Law——把所有知識喂給一個大語言模型,用更多的數(shù)據(jù)和算力去做的時候,一個模型就可以解決自然語言里的所有問題。
人形機器人這個概念在ChatGPT爆發(fā)之后,一線投資機構就開始投進來了,在2023年6月之前,人形機器人的概念已經在投資界做好了布局。
因為當時大家的預測是說到2025年,在GPT5或GPT6的時刻可能會將整個視覺壓縮到一個模型中,實現(xiàn)世界模型的突破。
這個情況下,當整個世界有一個模型就能解決所有問題時,很自然就想到了通過控制機械臂去解決物理世界的問題,所以人形機器人在2023年6月一下子就爆發(fā)了出來。
到今天,大家發(fā)現(xiàn)人形機器人比想象中要更復雜,因為它除了自然語言之外,還有機械臂本體問題、機械臂運動學和動力學的特征,以及外部環(huán)境問題,所以它的狀態(tài)空間更復雜,而且GPT5也沒能達到大家的預期。
更好用的模型是針對一個特定場景、特定任務做大量數(shù)據(jù)訓練,解決一個特定場景的問題。所以這種端到端的模型非常流行,而且解決了很多問題。
但是大家明確知道它沒有世界知識,目前這么強的多模態(tài)大模型,完全可以以指揮大腦、小腦的方式,讓小腦的原子任務通過大腦去做調度分析來實現(xiàn)整套方案。
所以現(xiàn)在分層方案、大小腦方案是真實落地過程中更實際的一個方案。
但是現(xiàn)在整個業(yè)界認為,機器人領域也有Scaling Law,最終也可能收斂到一個模型去解決所有問題,所以大家也都在往這個方向去努力。
問:在打造人形機器人通用感知系統(tǒng),現(xiàn)在有怎樣的新技術進展可以分享,這樣的通用感知系統(tǒng)為現(xiàn)在的人形機器人帶來了怎樣的關鍵能力提升?
張強:在大家對人形機器人期待的背后,其實我們也還是會不斷地去回答VC或市場的問題,你做這個東西要干什么?
最開始是給予它一定的基礎控制能力,讓大家看到一個可能性。因為我們做機器人、做AI,我覺得唯一的目的就是通用。
如果說我要做一個專用的事情,完全不需要人工智能,AI的魅力其實就在于通用。
我給你(AI)看100張貓的照片,不是要讓你在100張貓的照片里學什么,而是要讓你在看到第101張照片的時候,你知道它是貓不是狗。這其實是一個泛化和通用的能力。
只有有了這種能力,我們才能讓它真正在現(xiàn)實中去工作,機器人更是如此。
最開始我們做基礎視覺任務,分類、分割、檢測等用的都是專用模型,但很顯然人不是這樣處理空間的,到后來我們就有了做通用表征的模型,人形機器人他要面對的場景其實更復雜一些。
黃仁勛認為,未來一共會有三種形態(tài)的機器人,自動駕駛汽車、人形機器人、無人機。
自動駕駛汽車是在一個非常規(guī)則化的場景里——有道路、交通標識、有自己的規(guī)則,自動駕駛汽車的感知系統(tǒng)就建立成了符合它的感知形狀。
人形機器人要面對的是另一套感知世界,是和人非常匹配的感知世界,如何去使用一個更好的通用感知系統(tǒng),其實對于人形機器人下個階段非常關鍵。
第一個階段存在的運控型公司再往下講自己的故事的時候,一定會有各種各樣的傳感器進來,那視覺肯定是最先進來的傳感器,因為你有了這個傳感器才能讓人形機器人的控制變得更好。
問:人形機器人現(xiàn)在對仿真數(shù)據(jù)和真實數(shù)據(jù)有怎樣的需求?
王志成:冪特科技的英文名是PowerTech,我們希望通過自己的努力,使具身智能的數(shù)據(jù)呈指數(shù)級增長,使具身智能的智能冪次進化。
目前具身的數(shù)據(jù)確實非常稀缺,特別是數(shù)據(jù)多樣性的稀缺是制約具身智能破局的關鍵。以目前數(shù)采方案來看,數(shù)據(jù)量也很難實現(xiàn)指數(shù)級增長。
仿真數(shù)據(jù)的好處是可以快速地去生成具有一定隨機性的大量數(shù)據(jù),這里的關鍵點不是大量,而是隨機性,通過隨機性可以彌補一些真機無法覆蓋的場景。
但是通過仿真很難復刻整個世界,會有一定人為設計的痕跡,我覺得更多、更大量的數(shù)據(jù)需要來自于真實世界。
真實的數(shù)據(jù)有兩個優(yōu)點:
一個是,它可以快速在特定場景搭建數(shù)采通路,可以盡快在特定場景構建Demo;
另一個是,真機數(shù)據(jù)可以提供真實世界物理交互的力學信息,可以提供真實世界的觸覺反饋,這兩點是人形機器人在真實世界落地必不可少的。
問:如何低成本、獲取高質量、海量數(shù)據(jù)?
王志成:在回答這個問題之前,我們先要回答這幾個問題:
什么樣的數(shù)據(jù)采集方案可以使得我們的數(shù)據(jù)成指數(shù)級增長?
什么樣的數(shù)據(jù)獲取方案可以不用穿戴額外設備?
什么樣的數(shù)據(jù)獲取方案可以盡可能貼近真實世界的多樣性?
我覺得使用人類視頻數(shù)據(jù)是一個比較好能回答這三個問題的方案。
我們是通過3D人體姿態(tài)識別和人的動作軌跡還原,可以使得視頻數(shù)據(jù)真正通過重定向映射到人形機器人上,生成真正可以用來去做后訓練的數(shù)據(jù)。
我們也關注到特斯拉最近在做技術路線的轉型,更聚焦到人類視頻數(shù)據(jù)上,我相信他們也有類似的思考。
問:智源研究院的分級標準中指出在具備感知能力的L3到具備認知能力的L4階段過渡,參照自動駕駛發(fā)展,這一階段的人形機器人對算力提出了怎樣的需求?
隋偉:其實現(xiàn)在具身這一塊的自動化等級分級,并沒有像自動駕駛那樣形成一個非常明確的標準。
在自動駕駛領域,L2是低階輔助駕駛,L3是有限的高階輔助駕駛。L3其實是一個很重要的節(jié)點,因為從出現(xiàn)事故的責任劃規(guī)角度來看,L3就已經將事故責任從駕駛員劃歸到了主機廠。
所以從法規(guī)上來講,沒有一家企業(yè)可以宣稱它是L3,但從技術角度來講的話,其實很多這種方案廠商或主機廠商已經可以實現(xiàn)一些L3的功能,例如在高速上就完全可以實現(xiàn)L3,在城區(qū)的話,也可以實現(xiàn)有限制的L3。
現(xiàn)在自動駕駛的水平,在城市場景里可以做到80-100公里接管一次,這就是MPI指標,這個指標肯定是越高越好。我們現(xiàn)在看到城市的高階輔助駕駛一般80-100公里接管一次就已經是一個非常好的體驗。
L4的話,就是robot taxi,那就需要做到幾十萬公里接管一次,所以這個其實要求還非常高。
回到具身的話,我們看現(xiàn)在具身還并沒有這樣一個明確的標準,但現(xiàn)在這波具身主要的價值就是往通用性在走,所以從最近的技術發(fā)展來看,確實也都在往L4的路線在走,也就是VLA這個路線。
自動駕駛現(xiàn)在的算力要求是,基礎的輔助駕駛、我們說的是L2,大概需要幾TOPS到十幾TOPS就可以完成了,像高速這個場景的話,就需要幾十到100TOPS這個區(qū)間;
高階自動駕駛現(xiàn)在有兩條路線,一個是端到端的路線,大概需要500TOPS左右就能實現(xiàn)一個城區(qū)的NOA高階輔助駕駛,也就是對標L3左右;
L4現(xiàn)在還沒有看到,到幾十萬公里接管一次這種能力還在發(fā)展當中,但是確實是在往VLA這個技術路線的發(fā)展,那我們現(xiàn)在預測大概需要1000-2000TOPS左右起步。
具身和自動駕駛還會有些不一樣,具身最大的挑戰(zhàn)性在于環(huán)境的多樣性和任務的多樣性。因為自動駕駛就一個任務,就是做駕駛任務,但是具身面對的任務非常多,對于算力的要求現(xiàn)在也還沒有非常明確。
地瓜機器人是提供AI算力芯片的,我們也接觸了很多客戶,基本上普遍認為VLA模型,3B-7B的模型容量,所需的算力大概在在500到1000TOPS左右。
從目前具身現(xiàn)狀來看的話,如果是要走通用性,那算力肯定是要從大概500-1000TOPS起步。
02 現(xiàn)有技術儲備下,人形機器人有怎樣的成長空間?
問:現(xiàn)在行業(yè)中有一種觀點是,人形機器人本體性能已經很好,但是模型能力不足是現(xiàn)階段發(fā)展瓶頸,您怎么看現(xiàn)在人形機器人軟硬件發(fā)展現(xiàn)狀,以及就您了解今年模型有哪些最新技術突破提升了人形機器人的“智能”?
張強:目前國內人形機器人用到的硬件基本上還是沿著2017年mini cheetah開源路線在走,我們是將它的成本做下來、做到量產,用行星模組將人形機器人堆起來并實現(xiàn)了運動控制。
但坦率來講,美國在硬件上做得確實比我們好,不管是波士頓動力用的滾珠絲杠+力控諧波,還是說像特斯拉Optimus的硬件,這些機器人的電機電調,從關節(jié)模組、傳感器配置到 精密生產,其實是更領先于我們。
但是我們確實打了一個漂亮的仗,我們通過大膽嘗AI強化學習模型,在量產化機器上取得了非常好的效果。
模型上來看,我覺得中美現(xiàn)在在同一個階段,接下來的發(fā)展就是看硬件能不能再支撐起來下一代的模型。
我這里有兩個觀點,我覺得現(xiàn)在人形機器人的硬件也缺、軟件也缺,硬件缺乏的是——我們現(xiàn)在只是暫時性地解決了一些動力性問題,比如說我們的關節(jié)模組已經有一定的發(fā)展空間。
我最開始在做人形機器人,大概2021年時候,我們想拿AI模型去做這個事情的時候,發(fā)現(xiàn)在國內根本買不到適用的關節(jié)模組。但現(xiàn)在大家都知道這是一個非常大的蛋糕、百億級市場,這個行業(yè)得到了快速發(fā)展。
還有沒有解決的是,我們在人形機器人上,下一代要用到的很多傳感器、新型關節(jié)、新型結構還沒有探索,這個是我們在做硬件是需要繼續(xù)去做的。
我們看到機器人控制算法在一些人形機器人的前沿問題上,它是在仿真里做的。
為什么在仿真里可以實現(xiàn),在現(xiàn)實中卻用不了?
有一個問題是,機器人在現(xiàn)實中受到的噪音、各種問題還是非常大,Sim2Real的時候是有gap的。如果我的硬件可以做到非常透明、魯棒性很好,那Sim2Real的gap其實是可以被縮小的。
軟件上需要的努力是模型要更加robust,不能說在仿真環(huán)境中干凈的信號下可以,在現(xiàn)實中就無法實現(xiàn)。
如果這兩點都能做到的話,其實機器人在下一個階段會有更好的表現(xiàn),我自己預估,會很快到來,可能一兩年就會有一個突破性進展。
問:今年跨維智能先后發(fā)布了兩款人形機器人產品,W1和W1 Pro,開始走軟硬一體模式,跨維智能為什么會有這樣的技術路線轉變?
郭成凱:跨越智能從2021年成立開始就一直致力于做Physical AI的公司,我們的創(chuàng)始人賈老師作為一個頂尖科學家,一直堅信Sim2Real這個方向,而且我們是做最專業(yè)的,從開始成立一直在打造工業(yè)級Sim2Real引擎,用于工業(yè)制造領域。
很多工廠只需要給一個CAD模型,我們直接可以用合成數(shù)據(jù)訓練出一個模塊,完全在工業(yè)級達到3個9精度的檢測。
我們整個Sim2Real引擎是完全自研的,也是國內為數(shù)不多可以對標英偉達Isaac Sim和Isaac Lab的一套系統(tǒng)。所以我們的slogan是邁向通用物理世界的AI。
人形機器人是我們今年的一個新產品,是雙向奔赴的結果,因為我們一直在做Sim2Real和物理AI面向通用物理世界。
通用物理世界最大的Agent是什么?我們認為是人形機器人。
而對于機器人領域,去年我們很多研討會討論更多的是,為什么要用人形機器人,為什么不是特種機器人,四足或八足。
就機器人領域來講,今年其實這個問題大家問的少了,大家甚至認為只要你做人形機器人企業(yè)、具身智能企業(yè),如果你不是雙足的,你可能都不是這個行業(yè)的玩家。
最主要的原因是,在通用泛化領域里,只有人形機器人才能解決通用世界的問題。
前段時間波士頓動力的一個演示視頻,一個機器人從一個箱子里拿物體到另外一個箱子里的時候,本來我們訓練模型時,你可以讓它一直「拿過來-放下去」,但是不小心掉了的話,對于一個普通機器人照樣會嘗試去拿,這時候它其實夠不到了。
對于人來講,你通過遙操作方式訓練它,人退一步或前進一步,很自然就把它拿起來放回去了,然后再回來拿箱子。這種操作只有人的動作可以直接交給機器人的策略模型,而其它任何系統(tǒng)都可能面臨你要做一些特殊設置,最終無法實現(xiàn)人類級別的泛化。
所以這一塊我覺得我們跨維智能在推出自己的本體,在我們新的引擎基礎上開始往前走是一個雙向奔赴的結果,也是兩個行業(yè)雙向奔赴的一個結果。
問:我們知道現(xiàn)在有一種說法是“有多少數(shù)據(jù)、就有多少智能”,打造數(shù)據(jù)工廠這樣一條技術鏈路的難點是什么?
王志成:我非常同意您說的“有多少數(shù)據(jù),就有多少智能”。
如果說講泛化性,我覺得其實得從兩個方面去講,一個是從數(shù)據(jù),一個是從模型。
從數(shù)據(jù)層面來看,我們需要思考的問題是,按照目前數(shù)據(jù)獲取方式都是呈線性增長趨勢,如果模式不變,或者說沒有一種呈指數(shù)方式獲取數(shù)據(jù)的方法,我覺得到今年年底可能只是有些以前不能干的任務現(xiàn)在能干了,或者以前能干的任務現(xiàn)在干得更細了,不會有本質上的突破。
我們認為泛化性如果真發(fā)生本質的突破,一定是數(shù)據(jù)獲取方式上有了新的質變。
從模型層面來看,現(xiàn)在比較火的VLA是從LLM或VLM演進而來,無論是LLM還是VLM,本質上都是為language設計的,它的強項在于理解。人形機器人的核心是action,從理解到動作是有很大的鴻溝的,從特征和信息維度來看,有很大的差別。
我認為,從真正適配人形機器人泛化性來入手設計模型會更有必要,這會是一個大問題,需要整個行業(yè)一起努力。
綜上,提升人形機器人的泛化性,需要從數(shù)據(jù)和模型兩個維度去做本質突破。
問:要進入到更廣泛的應用場景中,人形機器人,或更廣泛的具身機器人對端側算力有怎樣的需求?
隋偉:其實云端算力和端上算力早在2015年,在自動駕駛領域就有爭論,那時候因為邊緣側沒有特別好的算力芯片支持,還是CNN模型,所以當時有一部分人認為應該在云端來計算,把數(shù)據(jù)直接傳到云端上去,GPU推理完將結果返回端上。
實際上在用的時候會有很多的問題,第一是數(shù)據(jù)傳輸成本,那時候的車還只有前置攝像頭,現(xiàn)在已經有十幾路攝像頭,再加上激光雷達,這些數(shù)據(jù)傳上去后,傳輸?shù)男?、帶寬是一個很大的問題。
另一個就是安全性的問題,因為它對網絡要求很高,如果車輛在路上突然遇到信號丟失的情況,這就沒有辦法做這種智能化計算了,對安全來說是一個很大的隱患。
還有就是隱私問題,數(shù)據(jù)上傳到云端后,個人隱私也是一個非常重要的點,尤其是現(xiàn)在大家隱私安全意識越來越強了。
回到具身領域來看,其實也是同樣的問題。
具身數(shù)據(jù)量比自動駕駛還要大,因為傳感器還沒有收斂,所以數(shù)據(jù)傳輸就變得非常重要。
我們認為端上有非常大的價值,端上處理模型也是未來發(fā)展趨勢,現(xiàn)在的問題在于,有些任務從成本和性能角度來講,目前還不太能做到端上,例如通用的陪聊類模型,背后LLM模型的推理需要很大的計算量。所以目前我們看到這類產品的此類功能都是放在云端進行的。
對于VLA來說,目前也有一些客戶在嘗試放到云上,但是會出現(xiàn)延遲,數(shù)據(jù)鏈路非常長,所以現(xiàn)在都在追求將這些模型放到端上。
端上的算力的話,今年我們有一個560TOPS的算力,這個算力基本上就能滿足現(xiàn)有像π0、RDT這樣的模型部署。
03 具身商用元年里,人形機器人有怎樣商業(yè)化路徑?
問:請您結合實際落地中遇到的問題談一談,基于現(xiàn)在已有的人形機器人,有怎樣的商業(yè)價值?
陳軍民:我從兩個方面來回答:
第一,行業(yè)視角:從技術演示到真正商業(yè)應用落地,是整個人形機器人行業(yè)要跨越的重要階段。
目前來看,整個機器人還集中在:接待、指引、展示、表演、陪伴??梢哉f這幾個領域都還達不到人機協(xié)同程度,更多的是提供一些情緒價值,不是“生產力”。
第二,數(shù)字華夏打法。從去年開始我們一共推出了三款人形機器人:仿人系列夏瀾、通用系列夏起、IP小人形星行俠。
通過一年多的交互機器人市場推廣,我們發(fā)現(xiàn)市場對人形機器人的需求還蠻大,但當前技術還不足以支撐規(guī)模商用。
根據(jù)市場與技術的平衡,我們今年4月份推出了一個小人形星行俠產品,全球首發(fā)的雙形態(tài)人形機器人,既可以在雙足行走,也可以在輪子上進行作業(yè)操作。
去年我們連推三款:仿人旗艦“夏瀾”(妹妹)、通用平臺“夏起”(哥哥)、IP 小尺寸“星行俠”(弟弟)。
跑了一年市場,結論只有一句:需求很旺,技術不夠。
于是我們今年4月把“星行俠”單獨拿出來做減法,做成全球首款“雙形態(tài)”小人形——雙足能走,輪式能干。
為什么是它先商用量產?
我挑三個硬指標:
1)安全——星行俠大部分是站在輪子上服務人類,有必要的時候,也可以抱它下來走一走,商用落地的安全性可以保障。
2)續(xù)航——輪式反向補電,一口氣干 8 小時,徹底告別“2 小時焦慮”;
3)成本——有手有腳的具身交互機器人才十幾萬,渠道敢囤、客戶敢用。
我們目前正在進行第二輪融資,我們這一輪融資的目的就是去規(guī)模商用這款人形機器人。
問:現(xiàn)在人形機器人在工業(yè)場景的應用有哪些成熟能力?近期會有怎樣高價值的商業(yè)落地技能?
郭成凱:2023年人形機器人爆火的另一個原因是馬斯克提出人形機器人進工廠,但是從行業(yè)發(fā)展到今天來講的話,很多人反饋,馬斯克的人形機器人進汽車工廠打工的概念其實是忽悠了大家,從真實落地角度來講,它還不具備在汽車工廠里代替工人去做裝配或各種復雜任務。
但是,大家會發(fā)現(xiàn),人形機器人有個天然優(yōu)勢,以前傳統(tǒng)工業(yè)生產過程中是以單點、單臂操作為主。因為它更能保證這種工業(yè)生產的7x24小時工作,實際上雙臂的協(xié)同或更多的協(xié)同本身就比較少。但是人形機器人的天然優(yōu)勢是,它是雙臂可以協(xié)同的,而且我們現(xiàn)在VLA的模型也好,包括LBM模型或其他各種現(xiàn)在人形機器模型都在雙臂協(xié)同上證明了它有很多很驚艷的效果。在這一點上反倒是衍生出了很多新需求,最明顯的是工業(yè)分揀。
另外一個是人形機器人上有一雙高自由度的靈巧手,這雙靈手可以處理各種不同任務,例如不同形狀、材質,甚至不同大小的包裹,流水線上有軟箱子,還有各種不同形狀的水杯。
另外還有一些因為人形機器人可以雙足行走,通過性會比較好,和人比較接近,會有這種搬箱子之類的操作,以前工業(yè)級還沒有把這種功能完全釋放出來。
另外,在一些像組裝創(chuàng)景,也會在工業(yè)生產線上有一些多模態(tài)大模型讓整個流程變得更智能。
大家現(xiàn)在還是過于高估人形機器人兩年之內的可能性,低估了它十年之后的可能性。原因就是一般技術迭代是以1.1倍速度在增長,十年之后就是十倍,但是兩三年沒什么太大區(qū)別。
但是我們明顯能感覺到的是,人形機器人的發(fā)展速度已經達到了1.3倍以上,這種發(fā)展絕對是超出大家想象的。
所以我們覺得,樂觀估計,兩年左右會出現(xiàn)人形機器人的ChatGPT時刻。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結合大語言模型的敘事推理能力與音頻生成技術,通過交錯式推理生成、解耦橋接機制和漸進式訓練,能夠將復雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學聯(lián)合研發(fā)的VideoJAM技術,通過讓AI同時學習外觀和運動信息,顯著解決了當前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術僅需添加兩個線性層就能大幅提升運動質量,在多項測試中超越包括Sora在內的商業(yè)模型,為AI視頻生成的實用化應用奠定了重要基礎。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質量樣本的訓練數(shù)據(jù)集和MM-AlignBench評測基準,通過創(chuàng)新的數(shù)據(jù)生成和質量管控方法,讓AI在保持技術能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預測模型,能夠在不到一分鐘內完成10天全球天氣預報,準確性超越傳統(tǒng)方法90%的指標。該模型采用圖神經網絡技術,通過學習40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學領域帶來了效率和精度的雙重突破。
關注智造、硬件、機器人。