av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<blockquote id="w4nqi"><p id="w4nqi"></p></blockquote>

微信掃一掃，關注公眾號

科技行者
算力行者

見證連接與計算的「力量」

具身智能2025之問：新物種時代，人形機器人如何長大？

機器人新紀元

具身智能2025之問：新物種時代，人形機器人如何長大？

作者：金旺

2025-09-15 11:09

分享至：

樂觀估計，兩年左右會出現(xiàn)人形機器人的ChatGPT時刻。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-09-15 11:09 ? 金旺

具身智能2025之問：新物種時代，人形機器人如何長大？

作者 | 金旺

欄目 | 機器人新紀元

2025年，人形機器人進入量產之年。

來自IDC的統(tǒng)計數(shù)據(jù)顯示，2024年中國人形機器人商用銷售出貨量約為2000臺，預計到2030年將會達到6萬臺。

更直觀的數(shù)據(jù)是，今年不少國內頭部人形機器人團隊陸續(xù)對外公布了拿到的量產合同或交付訂單，有團隊交付了數(shù)百臺產品，也有團隊拿到了上千臺訂單，甚至有天太機器人與多個戰(zhàn)略合作伙伴，共同簽署了全球首個具身智能人形機器人萬臺訂單。

人形機器人不僅是人工智能從虛擬世界走向物理世界、是具身智能的關鍵載體，2025年，作為人形機器人的關鍵技術，具身智能正式被寫入了政府工作報告，成為國家戰(zhàn)略性新興產業(yè)。

一方面，人工智能技術突破推動了人形機器人的快速發(fā)展；

另一方面，在人形機器人批量進入商業(yè)市場時，目前所具備的能力仍以執(zhí)行抓取、放置、分揀等基礎任務為主，在算力、算法、數(shù)據(jù)，乃至整機研發(fā)上。

如何推動人形機器人持續(xù)成長、成長為未來新一代生產力，仍是一個值得整個產業(yè)思考的關鍵問題。

在9月13日的PEC 2025 AI創(chuàng)新者大會暨第二屆提示工程峰會上的年度提問環(huán)節(jié)，至頂科技&科技行者主編金旺與

國地共建具身智能機器人創(chuàng)新中心學術委員會主任、首席研究員張強

數(shù)字華夏聯(lián)合創(chuàng)始人&軟件與應用中心總經理陳軍民

地瓜機器人技術副總裁隋偉

跨維智能具身智能算法總監(jiān) 郭成凱

冪特科技聯(lián)合創(chuàng)始人兼CTO 王志成

進行了一場以《新物種時代：人形機器人如何“長大”？》為主題的深度對話。

在這場深度對話中，他們從硬件、算法、數(shù)據(jù)、算力全維度，一起探討了人形機器人的技術現(xiàn)狀、成長空間，以及商業(yè)化路徑。

以下為本場對話經編輯后的內容：

01 具身智能熱潮中，人形機器人的技術收斂了嗎？

問：經過這幾年的高速發(fā)展，人形機器人在硬件本體上收斂到了哪幾種主流技術方案？

陳軍民：機器人發(fā)展至少有四五十年了，這一波人形機器人浪潮興起有兩個核心因素：人工智能與具身智能。

自2022年起，運控智能、交互智能、作業(yè)智能、具身智能四條技術線齊頭并進、互相促進。

具身智能2025之問：新物種時代，人形機器人如何長大？

我們數(shù)字華夏定位有溫度的AI人形交互機器人，從設計、研發(fā)到商業(yè)落地全棧閉環(huán)。我們機器人具備交互智能與具身智能能力，我們把硬件收斂為“鐵三角”：

第一是關節(jié)模塊，這是機器人的核心部件，它也可以理解為是機器人的肌肉，直接決定了運動性能與整個機器人的成本；

第二是大小腦硬件，也就是有大腦的AI算力板和小腦的控制板，“大腦”感知物理世界并做出決策，“小腦”負責將其分解為每個關節(jié)電機的具體控制指令，并確保整個過程快速且穩(wěn)定，二者通過高速總線（如EtherCAT、CAN FD）進行通信；

第三是多模態(tài)融合的感知設備，例如通過雙目RGB、深度相機、激光雷達看三維世界，通過麥克風、電子皮膚實現(xiàn)聽觸同步，讓機器人像人一樣“看見”并“讀懂”現(xiàn)實。

正因為有了這些感知設備，機器人可以對現(xiàn)實的物理世界進行感知和交互，這使得硬件方面現(xiàn)在有了一定的技術收斂。

問：具身模型現(xiàn)在分為端到端和分層決策兩類，就現(xiàn)階段技術進程來看，兩類技術架構分別適合怎樣的人形機器人應用，或執(zhí)行怎么樣的任務？

郭成凱：天下大勢，合久必分，分久必合，這是一個永恒的話題。

其實從深度學習出現(xiàn)，2014年人臉識別技術突破之后，大量專用的深度學習模型開始涌現(xiàn)，例如人臉識別、目標檢測、語義分割、意圖識別等。

所以2017年左右達到了頂峰，大量深度學習企業(yè)做專有模型來執(zhí)行任務，但是當時大家從來沒有想過會有一個模型能一統(tǒng)天下。

具身智能2025之問：新物種時代，人形機器人如何長大？

在ChatGPT出現(xiàn)之后，一下突破了大家的認知，因為出現(xiàn)了Scaling Law——把所有知識喂給一個大語言模型，用更多的數(shù)據(jù)和算力去做的時候，一個模型就可以解決自然語言里的所有問題。

人形機器人這個概念在ChatGPT爆發(fā)之后，一線投資機構就開始投進來了，在2023年6月之前，人形機器人的概念已經在投資界做好了布局。

因為當時大家的預測是說到2025年，在GPT5或GPT6的時刻可能會將整個視覺壓縮到一個模型中，實現(xiàn)世界模型的突破。

這個情況下，當整個世界有一個模型就能解決所有問題時，很自然就想到了通過控制機械臂去解決物理世界的問題，所以人形機器人在2023年6月一下子就爆發(fā)了出來。

到今天，大家發(fā)現(xiàn)人形機器人比想象中要更復雜，因為它除了自然語言之外，還有機械臂本體問題、機械臂運動學和動力學的特征，以及外部環(huán)境問題，所以它的狀態(tài)空間更復雜，而且GPT5也沒能達到大家的預期。

更好用的模型是針對一個特定場景、特定任務做大量數(shù)據(jù)訓練，解決一個特定場景的問題。所以這種端到端的模型非常流行，而且解決了很多問題。

但是大家明確知道它沒有世界知識，目前這么強的多模態(tài)大模型，完全可以以指揮大腦、小腦的方式，讓小腦的原子任務通過大腦去做調度分析來實現(xiàn)整套方案。

所以現(xiàn)在分層方案、大小腦方案是真實落地過程中更實際的一個方案。

但是現(xiàn)在整個業(yè)界認為，機器人領域也有Scaling Law，最終也可能收斂到一個模型去解決所有問題，所以大家也都在往這個方向去努力。

問：在打造人形機器人通用感知系統(tǒng)，現(xiàn)在有怎樣的新技術進展可以分享，這樣的通用感知系統(tǒng)為現(xiàn)在的人形機器人帶來了怎樣的關鍵能力提升？

張強：在大家對人形機器人期待的背后，其實我們也還是會不斷地去回答VC或市場的問題，你做這個東西要干什么？

具身智能2025之問：新物種時代，人形機器人如何長大？

最開始是給予它一定的基礎控制能力，讓大家看到一個可能性。因為我們做機器人、做AI，我覺得唯一的目的就是通用。

如果說我要做一個專用的事情，完全不需要人工智能，AI的魅力其實就在于通用。

我給你（AI）看100張貓的照片，不是要讓你在100張貓的照片里學什么，而是要讓你在看到第101張照片的時候，你知道它是貓不是狗。這其實是一個泛化和通用的能力。

只有有了這種能力，我們才能讓它真正在現(xiàn)實中去工作，機器人更是如此。

最開始我們做基礎視覺任務，分類、分割、檢測等用的都是專用模型，但很顯然人不是這樣處理空間的，到后來我們就有了做通用表征的模型，人形機器人他要面對的場景其實更復雜一些。

黃仁勛認為，未來一共會有三種形態(tài)的機器人，自動駕駛汽車、人形機器人、無人機。

自動駕駛汽車是在一個非常規(guī)則化的場景里——有道路、交通標識、有自己的規(guī)則，自動駕駛汽車的感知系統(tǒng)就建立成了符合它的感知形狀。

人形機器人要面對的是另一套感知世界，是和人非常匹配的感知世界，如何去使用一個更好的通用感知系統(tǒng)，其實對于人形機器人下個階段非常關鍵。

第一個階段存在的運控型公司再往下講自己的故事的時候，一定會有各種各樣的傳感器進來，那視覺肯定是最先進來的傳感器，因為你有了這個傳感器才能讓人形機器人的控制變得更好。

問：人形機器人現(xiàn)在對仿真數(shù)據(jù)和真實數(shù)據(jù)有怎樣的需求？

王志成：冪特科技的英文名是PowerTech，我們希望通過自己的努力，使具身智能的數(shù)據(jù)呈指數(shù)級增長，使具身智能的智能冪次進化。

具身智能2025之問：新物種時代，人形機器人如何長大？

目前具身的數(shù)據(jù)確實非常稀缺，特別是數(shù)據(jù)多樣性的稀缺是制約具身智能破局的關鍵。以目前數(shù)采方案來看，數(shù)據(jù)量也很難實現(xiàn)指數(shù)級增長。

仿真數(shù)據(jù)的好處是可以快速地去生成具有一定隨機性的大量數(shù)據(jù)，這里的關鍵點不是大量，而是隨機性，通過隨機性可以彌補一些真機無法覆蓋的場景。

但是通過仿真很難復刻整個世界，會有一定人為設計的痕跡，我覺得更多、更大量的數(shù)據(jù)需要來自于真實世界。

真實的數(shù)據(jù)有兩個優(yōu)點：

一個是，它可以快速在特定場景搭建數(shù)采通路，可以盡快在特定場景構建Demo；

另一個是，真機數(shù)據(jù)可以提供真實世界物理交互的力學信息，可以提供真實世界的觸覺反饋，這兩點是人形機器人在真實世界落地必不可少的。

問：如何低成本、獲取高質量、海量數(shù)據(jù)？

王志成：在回答這個問題之前，我們先要回答這幾個問題：

什么樣的數(shù)據(jù)采集方案可以使得我們的數(shù)據(jù)成指數(shù)級增長？

什么樣的數(shù)據(jù)獲取方案可以不用穿戴額外設備？

什么樣的數(shù)據(jù)獲取方案可以盡可能貼近真實世界的多樣性？

我覺得使用人類視頻數(shù)據(jù)是一個比較好能回答這三個問題的方案。

我們是通過3D人體姿態(tài)識別和人的動作軌跡還原，可以使得視頻數(shù)據(jù)真正通過重定向映射到人形機器人上，生成真正可以用來去做后訓練的數(shù)據(jù)。

我們也關注到特斯拉最近在做技術路線的轉型，更聚焦到人類視頻數(shù)據(jù)上，我相信他們也有類似的思考。

問：智源研究院的分級標準中指出在具備感知能力的L3到具備認知能力的L4階段過渡，參照自動駕駛發(fā)展，這一階段的人形機器人對算力提出了怎樣的需求？

隋偉：其實現(xiàn)在具身這一塊的自動化等級分級，并沒有像自動駕駛那樣形成一個非常明確的標準。

具身智能2025之問：新物種時代，人形機器人如何長大？

在自動駕駛領域，L2是低階輔助駕駛，L3是有限的高階輔助駕駛。L3其實是一個很重要的節(jié)點，因為從出現(xiàn)事故的責任劃規(guī)角度來看，L3就已經將事故責任從駕駛員劃歸到了主機廠。

所以從法規(guī)上來講，沒有一家企業(yè)可以宣稱它是L3，但從技術角度來講的話，其實很多這種方案廠商或主機廠商已經可以實現(xiàn)一些L3的功能，例如在高速上就完全可以實現(xiàn)L3，在城區(qū)的話，也可以實現(xiàn)有限制的L3。

現(xiàn)在自動駕駛的水平，在城市場景里可以做到80-100公里接管一次，這就是MPI指標，這個指標肯定是越高越好。我們現(xiàn)在看到城市的高階輔助駕駛一般80-100公里接管一次就已經是一個非常好的體驗。

L4的話，就是robot taxi，那就需要做到幾十萬公里接管一次，所以這個其實要求還非常高。

回到具身的話，我們看現(xiàn)在具身還并沒有這樣一個明確的標準，但現(xiàn)在這波具身主要的價值就是往通用性在走，所以從最近的技術發(fā)展來看，確實也都在往L4的路線在走，也就是VLA這個路線。

自動駕駛現(xiàn)在的算力要求是，基礎的輔助駕駛、我們說的是L2，大概需要幾TOPS到十幾TOPS就可以完成了，像高速這個場景的話，就需要幾十到100TOPS這個區(qū)間；

高階自動駕駛現(xiàn)在有兩條路線，一個是端到端的路線，大概需要500TOPS左右就能實現(xiàn)一個城區(qū)的NOA高階輔助駕駛，也就是對標L3左右；

L4現(xiàn)在還沒有看到，到幾十萬公里接管一次這種能力還在發(fā)展當中，但是確實是在往VLA這個技術路線的發(fā)展，那我們現(xiàn)在預測大概需要1000-2000TOPS左右起步。

具身和自動駕駛還會有些不一樣，具身最大的挑戰(zhàn)性在于環(huán)境的多樣性和任務的多樣性。因為自動駕駛就一個任務，就是做駕駛任務，但是具身面對的任務非常多，對于算力的要求現(xiàn)在也還沒有非常明確。

地瓜機器人是提供AI算力芯片的，我們也接觸了很多客戶，基本上普遍認為VLA模型，3B-7B的模型容量，所需的算力大概在在500到1000TOPS左右。

從目前具身現(xiàn)狀來看的話，如果是要走通用性，那算力肯定是要從大概500-1000TOPS起步。

02 現(xiàn)有技術儲備下，人形機器人有怎樣的成長空間？

問：現(xiàn)在行業(yè)中有一種觀點是，人形機器人本體性能已經很好，但是模型能力不足是現(xiàn)階段發(fā)展瓶頸，您怎么看現(xiàn)在人形機器人軟硬件發(fā)展現(xiàn)狀，以及就您了解今年模型有哪些最新技術突破提升了人形機器人的“智能”？

具身智能2025之問：新物種時代，人形機器人如何長大？

張強：目前國內人形機器人用到的硬件基本上還是沿著2017年mini cheetah開源路線在走，我們是將它的成本做下來、做到量產，用行星模組將人形機器人堆起來并實現(xiàn)了運動控制。

但坦率來講，美國在硬件上做得確實比我們好，不管是波士頓動力用的滾珠絲杠+力控諧波，還是說像特斯拉Optimus的硬件，這些機器人的電機電調，從關節(jié)模組、傳感器配置到精密生產，其實是更領先于我們。

但是我們確實打了一個漂亮的仗，我們通過大膽嘗AI強化學習模型，在量產化機器上取得了非常好的效果。

模型上來看，我覺得中美現(xiàn)在在同一個階段，接下來的發(fā)展就是看硬件能不能再支撐起來下一代的模型。

我這里有兩個觀點，我覺得現(xiàn)在人形機器人的硬件也缺、軟件也缺，硬件缺乏的是——我們現(xiàn)在只是暫時性地解決了一些動力性問題，比如說我們的關節(jié)模組已經有一定的發(fā)展空間。

我最開始在做人形機器人，大概2021年時候，我們想拿AI模型去做這個事情的時候，發(fā)現(xiàn)在國內根本買不到適用的關節(jié)模組。但現(xiàn)在大家都知道這是一個非常大的蛋糕、百億級市場，這個行業(yè)得到了快速發(fā)展。

還有沒有解決的是，我們在人形機器人上，下一代要用到的很多傳感器、新型關節(jié)、新型結構還沒有探索，這個是我們在做硬件是需要繼續(xù)去做的。

我們看到機器人控制算法在一些人形機器人的前沿問題上，它是在仿真里做的。

為什么在仿真里可以實現(xiàn)，在現(xiàn)實中卻用不了？

有一個問題是，機器人在現(xiàn)實中受到的噪音、各種問題還是非常大，Sim2Real的時候是有gap的。如果我的硬件可以做到非常透明、魯棒性很好，那Sim2Real的gap其實是可以被縮小的。

軟件上需要的努力是模型要更加robust，不能說在仿真環(huán)境中干凈的信號下可以，在現(xiàn)實中就無法實現(xiàn)。

如果這兩點都能做到的話，其實機器人在下一個階段會有更好的表現(xiàn)，我自己預估，會很快到來，可能一兩年就會有一個突破性進展。

問：今年跨維智能先后發(fā)布了兩款人形機器人產品，W1和W1 Pro，開始走軟硬一體模式，跨維智能為什么會有這樣的技術路線轉變？

郭成凱：跨越智能從2021年成立開始就一直致力于做Physical AI的公司，我們的創(chuàng)始人賈老師作為一個頂尖科學家，一直堅信Sim2Real這個方向，而且我們是做最專業(yè)的，從開始成立一直在打造工業(yè)級Sim2Real引擎，用于工業(yè)制造領域。

很多工廠只需要給一個CAD模型，我們直接可以用合成數(shù)據(jù)訓練出一個模塊，完全在工業(yè)級達到3個9精度的檢測。

我們整個Sim2Real引擎是完全自研的，也是國內為數(shù)不多可以對標英偉達Isaac Sim和Isaac Lab的一套系統(tǒng)。所以我們的slogan是邁向通用物理世界的AI。

人形機器人是我們今年的一個新產品，是雙向奔赴的結果，因為我們一直在做Sim2Real和物理AI面向通用物理世界。

通用物理世界最大的Agent是什么？我們認為是人形機器人。

而對于機器人領域，去年我們很多研討會討論更多的是，為什么要用人形機器人，為什么不是特種機器人，四足或八足。

就機器人領域來講，今年其實這個問題大家問的少了，大家甚至認為只要你做人形機器人企業(yè)、具身智能企業(yè)，如果你不是雙足的，你可能都不是這個行業(yè)的玩家。

最主要的原因是，在通用泛化領域里，只有人形機器人才能解決通用世界的問題。

前段時間波士頓動力的一個演示視頻，一個機器人從一個箱子里拿物體到另外一個箱子里的時候，本來我們訓練模型時，你可以讓它一直「拿過來-放下去」，但是不小心掉了的話，對于一個普通機器人照樣會嘗試去拿，這時候它其實夠不到了。

對于人來講，你通過遙操作方式訓練它，人退一步或前進一步，很自然就把它拿起來放回去了，然后再回來拿箱子。這種操作只有人的動作可以直接交給機器人的策略模型，而其它任何系統(tǒng)都可能面臨你要做一些特殊設置，最終無法實現(xiàn)人類級別的泛化。

所以這一塊我覺得我們跨維智能在推出自己的本體，在我們新的引擎基礎上開始往前走是一個雙向奔赴的結果，也是兩個行業(yè)雙向奔赴的一個結果。

問：我們知道現(xiàn)在有一種說法是“有多少數(shù)據(jù)、就有多少智能”，打造數(shù)據(jù)工廠這樣一條技術鏈路的難點是什么？

王志成：我非常同意您說的“有多少數(shù)據(jù)，就有多少智能”。

如果說講泛化性，我覺得其實得從兩個方面去講，一個是從數(shù)據(jù)，一個是從模型。

從數(shù)據(jù)層面來看，我們需要思考的問題是，按照目前數(shù)據(jù)獲取方式都是呈線性增長趨勢，如果模式不變，或者說沒有一種呈指數(shù)方式獲取數(shù)據(jù)的方法，我覺得到今年年底可能只是有些以前不能干的任務現(xiàn)在能干了，或者以前能干的任務現(xiàn)在干得更細了，不會有本質上的突破。

我們認為泛化性如果真發(fā)生本質的突破，一定是數(shù)據(jù)獲取方式上有了新的質變。

從模型層面來看，現(xiàn)在比較火的VLA是從LLM或VLM演進而來，無論是LLM還是VLM，本質上都是為language設計的，它的強項在于理解。人形機器人的核心是action，從理解到動作是有很大的鴻溝的，從特征和信息維度來看，有很大的差別。

我認為，從真正適配人形機器人泛化性來入手設計模型會更有必要，這會是一個大問題，需要整個行業(yè)一起努力。

綜上，提升人形機器人的泛化性，需要從數(shù)據(jù)和模型兩個維度去做本質突破。

問：要進入到更廣泛的應用場景中，人形機器人，或更廣泛的具身機器人對端側算力有怎樣的需求？

隋偉：其實云端算力和端上算力早在2015年，在自動駕駛領域就有爭論，那時候因為邊緣側沒有特別好的算力芯片支持，還是CNN模型，所以當時有一部分人認為應該在云端來計算，把數(shù)據(jù)直接傳到云端上去，GPU推理完將結果返回端上。

實際上在用的時候會有很多的問題，第一是數(shù)據(jù)傳輸成本，那時候的車還只有前置攝像頭，現(xiàn)在已經有十幾路攝像頭，再加上激光雷達，這些數(shù)據(jù)傳上去后，傳輸?shù)男?、帶寬是一個很大的問題。

另一個就是安全性的問題，因為它對網絡要求很高，如果車輛在路上突然遇到信號丟失的情況，這就沒有辦法做這種智能化計算了，對安全來說是一個很大的隱患。

還有就是隱私問題，數(shù)據(jù)上傳到云端后，個人隱私也是一個非常重要的點，尤其是現(xiàn)在大家隱私安全意識越來越強了。

回到具身領域來看，其實也是同樣的問題。

具身數(shù)據(jù)量比自動駕駛還要大，因為傳感器還沒有收斂，所以數(shù)據(jù)傳輸就變得非常重要。

我們認為端上有非常大的價值，端上處理模型也是未來發(fā)展趨勢，現(xiàn)在的問題在于，有些任務從成本和性能角度來講，目前還不太能做到端上，例如通用的陪聊類模型，背后LLM模型的推理需要很大的計算量。所以目前我們看到這類產品的此類功能都是放在云端進行的。

對于VLA來說，目前也有一些客戶在嘗試放到云上，但是會出現(xiàn)延遲，數(shù)據(jù)鏈路非常長，所以現(xiàn)在都在追求將這些模型放到端上。

端上的算力的話，今年我們有一個560TOPS的算力，這個算力基本上就能滿足現(xiàn)有像π0、RDT這樣的模型部署。

03 具身商用元年里，人形機器人有怎樣商業(yè)化路徑？

問：請您結合實際落地中遇到的問題談一談，基于現(xiàn)在已有的人形機器人，有怎樣的商業(yè)價值？

陳軍民：我從兩個方面來回答：

第一，行業(yè)視角：從技術演示到真正商業(yè)應用落地，是整個人形機器人行業(yè)要跨越的重要階段。

目前來看，整個機器人還集中在：接待、指引、展示、表演、陪伴?？梢哉f這幾個領域都還達不到人機協(xié)同程度，更多的是提供一些情緒價值，不是“生產力”。

具身智能2025之問：新物種時代，人形機器人如何長大？

第二，數(shù)字華夏打法。從去年開始我們一共推出了三款人形機器人：仿人系列夏瀾、通用系列夏起、IP小人形星行俠。

通過一年多的交互機器人市場推廣，我們發(fā)現(xiàn)市場對人形機器人的需求還蠻大，但當前技術還不足以支撐規(guī)模商用。

根據(jù)市場與技術的平衡，我們今年4月份推出了一個小人形星行俠產品，全球首發(fā)的雙形態(tài)人形機器人，既可以在雙足行走，也可以在輪子上進行作業(yè)操作。

去年我們連推三款：仿人旗艦“夏瀾”（妹妹）、通用平臺“夏起”（哥哥）、IP 小尺寸“星行俠”（弟弟）。

跑了一年市場，結論只有一句：需求很旺，技術不夠。

于是我們今年4月把“星行俠”單獨拿出來做減法，做成全球首款“雙形態(tài)”小人形——雙足能走，輪式能干。

為什么是它先商用量產？

我挑三個硬指標：

1）安全——星行俠大部分是站在輪子上服務人類，有必要的時候，也可以抱它下來走一走，商用落地的安全性可以保障。

2）續(xù)航——輪式反向補電，一口氣干 8 小時，徹底告別“2 小時焦慮”；

3）成本——有手有腳的具身交互機器人才十幾萬，渠道敢囤、客戶敢用。

我們目前正在進行第二輪融資，我們這一輪融資的目的就是去規(guī)模商用這款人形機器人。

問：現(xiàn)在人形機器人在工業(yè)場景的應用有哪些成熟能力？近期會有怎樣高價值的商業(yè)落地技能？

郭成凱：2023年人形機器人爆火的另一個原因是馬斯克提出人形機器人進工廠，但是從行業(yè)發(fā)展到今天來講的話，很多人反饋，馬斯克的人形機器人進汽車工廠打工的概念其實是忽悠了大家，從真實落地角度來講，它還不具備在汽車工廠里代替工人去做裝配或各種復雜任務。

但是，大家會發(fā)現(xiàn)，人形機器人有個天然優(yōu)勢，以前傳統(tǒng)工業(yè)生產過程中是以單點、單臂操作為主。因為它更能保證這種工業(yè)生產的7x24小時工作，實際上雙臂的協(xié)同或更多的協(xié)同本身就比較少。但是人形機器人的天然優(yōu)勢是，它是雙臂可以協(xié)同的，而且我們現(xiàn)在VLA的模型也好，包括LBM模型或其他各種現(xiàn)在人形機器模型都在雙臂協(xié)同上證明了它有很多很驚艷的效果。在這一點上反倒是衍生出了很多新需求，最明顯的是工業(yè)分揀。

另外一個是人形機器人上有一雙高自由度的靈巧手，這雙靈手可以處理各種不同任務，例如不同形狀、材質，甚至不同大小的包裹，流水線上有軟箱子，還有各種不同形狀的水杯。

另外還有一些因為人形機器人可以雙足行走，通過性會比較好，和人比較接近，會有這種搬箱子之類的操作，以前工業(yè)級還沒有把這種功能完全釋放出來。

另外，在一些像組裝創(chuàng)景，也會在工業(yè)生產線上有一些多模態(tài)大模型讓整個流程變得更智能。

大家現(xiàn)在還是過于高估人形機器人兩年之內的可能性，低估了它十年之后的可能性。原因就是一般技術迭代是以1.1倍速度在增長，十年之后就是十倍，但是兩三年沒什么太大區(qū)別。

但是我們明顯能感覺到的是，人形機器人的發(fā)展速度已經達到了1.3倍以上，這種發(fā)展絕對是超出大家想象的。

所以我們覺得，樂觀估計，兩年左右會出現(xiàn)人形機器人的ChatGPT時刻。

機器人新紀元

分享至

0贊

好文章，需要你的鼓勵

金旺

Wille

關注智造、硬件、機器人。

推薦文章

音頻生成
大語言模型
多模態(tài)AI

2025-09-10 09:47

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實驗室團隊AudioStory突破性進展

騰訊ARC實驗室推出AudioStory系統(tǒng)，首次實現(xiàn)AI根據(jù)復雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結合大語言模型的敘事推理能力與音頻生成技術，通過交錯式推理生成、解耦橋接機制和漸進式訓練，能夠將復雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準測試中表現(xiàn)優(yōu)異，為AI音頻創(chuàng)作開辟新方向。
視頻生成
深度學習
多模態(tài)學習

2025-09-09 13:57

Meta與特拉維夫大學聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

Meta與特拉維夫大學聯(lián)合研發(fā)的VideoJAM技術，通過讓AI同時學習外觀和運動信息，顯著解決了當前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術僅需添加兩個線性層就能大幅提升運動質量，在多項測試中超越包括Sora在內的商業(yè)模型，為AI視頻生成的實用化應用奠定了重要基礎。
多模態(tài)AI
人類價值觀對齊
數(shù)據(jù)集構建

2025-09-09 13:56

上海AI實驗室重磅發(fā)布：讓AI看圖"說人話"的神奇訓練法，解決多模態(tài)AI與人類價值觀對齊難題

上海AI實驗室發(fā)布OmniAlign-V研究，首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質量樣本的訓練數(shù)據(jù)集和MM-AlignBench評測基準，通過創(chuàng)新的數(shù)據(jù)生成和質量管控方法，讓AI在保持技術能力的同時顯著提升人性化交互水平，為AI價值觀對齊提供了可行技術路徑。
人工智能
圖神經網絡
天氣預報

2025-09-09 10:56

谷歌研究團隊發(fā)布超級預測模型：讓AI像天氣預報員一樣預測全球大氣變化

谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預測模型，能夠在不到一分鐘內完成10天全球天氣預報，準確性超越傳統(tǒng)方法90%的指標。該模型采用圖神經網絡技術，通過學習40年歷史數(shù)據(jù)掌握天氣變化規(guī)律，在極端天氣預測方面表現(xiàn)卓越，能耗僅為傳統(tǒng)方法的千分之一，為氣象學領域帶來了效率和精度的雙重突破。

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實驗室團隊AudioStory突破性進展

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實驗室團隊AudioStory突破性進展

2025-09-10 09:47

Meta與特拉維夫大學聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

Meta與特拉維夫大學聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

2025-09-09 13:57

上海AI實驗室重磅發(fā)布：讓AI看圖"說人話"的神奇訓練法，解決多模態(tài)AI與人類價值觀對齊難題

上海AI實驗室重磅發(fā)布：讓AI看圖"說人話"的神奇訓練法，解決多模態(tài)AI與人類價值觀對齊難題

2025-09-09 13:56

谷歌研究團隊發(fā)布超級預測模型：讓AI像天氣預報員一樣預測全球大氣變化

谷歌研究團隊發(fā)布超級預測模型：讓AI像天氣預報員一樣預測全球大氣變化

2025-09-09 10:56

金旺

主編

關注智造、硬件、機器人。
最近文章：
- 對話多點數(shù)智倪艷軍：倉儲物流先行，全面布局AI零售
- 對話藍點觸控劉吳月：力覺是人形機器人場景化應用的關鍵

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網
51CTO傳媒
投資界
科技訊
智者新時代

京ICP證15039648號京ICP備15039648號-9 京公網安備 11010802021500號

北京第二十六維信息技術有限公司（至頂網）版權所有。 | 聯(lián)絡我們

舉報電話：010-62641205　涉未成年人舉報專線：010-62641208 舉報郵箱: jubao@zhiding.cn 　網上有害信息舉報專區(qū)：https://www.12377.cn

<sub id="cj6p8"></sub>

<sup id="cj6p8"><rt id="cj6p8"></rt></sup>

<legend id="cj6p8"><track id="cj6p8"></track></legend>