首頁(yè)
對(duì)話創(chuàng)新
對(duì)話科技行者
機(jī)器人新紀(jì)元
AI論文解讀
聯(lián)系我們

微信掃一掃，關(guān)注公眾號(hào)

科技行者
算力行者

見(jiàn)證連接與計(jì)算的「力量」

首頁(yè)

騰訊將人形機(jī)器人寫(xiě)進(jìn)計(jì)劃里

機(jī)器人人形機(jī)器人騰訊

騰訊將人形機(jī)器人寫(xiě)進(jìn)計(jì)劃里

作者：金旺

2024-03-30 20:43

分享至：

我們可以期待一下騰訊的人形機(jī)器人了。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2024-03-30 20:43 ? 金旺

作者 | 金旺

欄目 | 機(jī)器人新紀(jì)元

2024年1月，騰訊發(fā)布《2024數(shù)字科技前沿應(yīng)用趨勢(shì)》報(bào)告，在這份報(bào)告中，“AI加速人形機(jī)器人‘手、腦’進(jìn)化”排在十大前沿應(yīng)用趨勢(shì)第三位。

于是，我們看到，3月30日，在上海舉辦的首屆中國(guó)具身智能大會(huì)上，騰訊Robotics X實(shí)驗(yàn)室成了大會(huì)四大鉆石贊助商之一，騰訊首席科學(xué)家、Robotics X實(shí)驗(yàn)室主任張正友在大會(huì)上也做了具身智能主題演講。

張正友在大會(huì)上指出，AGI的終極形態(tài)，會(huì)是一個(gè)機(jī)器人形態(tài)。

在人形機(jī)器人最熱鬧的這一年里，騰訊做了靈巧手、機(jī)械臂（相當(dāng)于人形機(jī)器人上半身的手臂控制能力），也做了各種四足機(jī)器人（相當(dāng)于人形機(jī)器人的下半身的運(yùn)動(dòng)能力）。

科技行者在騰訊關(guān)于機(jī)器人的未來(lái)規(guī)劃中，已經(jīng)看到了人形機(jī)器人的身影。

現(xiàn)在，我們可以再期待一下騰訊的人形機(jī)器人了。

01 智能，是否需要具身？

什么是具身智能？

張正友指出，所謂具身智能，是指有物理載體的智能體（也就是智能機(jī)器人）在與物理世界的交互過(guò)程中，通過(guò)感知、控制和自主學(xué)習(xí)來(lái)積累知識(shí)和技能，形成智能，并由此影響物理世界的能力。

實(shí)際上，具身智能并不是什么新鮮事物，早在1950年，人工智能之父艾倫·圖靈發(fā)表的那篇大名鼎鼎的論文《Computing Machinery and Intelligence》中，就已經(jīng)提出了這一概念。

OpenAI CEO奧特曼也曾指出，“如果我們有了通用人工智能，而在物理世界中完成一件事唯一的方法還是讓人類自己去做，那就太令人沮喪了。”

“我們會(huì)在某個(gè)時(shí)候以某種方式重返機(jī)器人領(lǐng)域。”

奧特曼最初構(gòu)建OpenAI時(shí)，就是想基于機(jī)器人來(lái)實(shí)現(xiàn)通用人工智能，只不過(guò)，命運(yùn)多舛，才有了后來(lái)的ChatGPT和Sora。

實(shí)際上，OpenAI在過(guò)去兩年里已經(jīng)相繼投資了兩家人形機(jī)器人公司，一家是1X Technologies、另一家是Figure AI。

那么，智能，到底是否需要具身呢？

這一問(wèn)題在產(chǎn)業(yè)界其實(shí)依然有兩種聲音：

一種聲音認(rèn)為，智能并不一定與物理形態(tài)有關(guān)，智能主要關(guān)乎信息處理、問(wèn)題解決和決策制定，這些都可以通過(guò)軟件或算法實(shí)現(xiàn)。

另一種聲音則認(rèn)為，身體對(duì)于智能至關(guān)重要，智能源于生物體與周圍環(huán)境之間的互動(dòng)，這需要物理形態(tài)。

張正友在大會(huì)上指出，“我相信大家都認(rèn)為智能是需要具身的，否則就不會(huì)來(lái)參加這場(chǎng)具身智能大會(huì)了。”

贊同這一觀點(diǎn)的人，當(dāng)然也包括張正友本人。

實(shí)際上，張正友在演講中也指出，AGI的終極形態(tài)，是一個(gè)機(jī)器人形態(tài)。

02 騰訊造機(jī)器人的A2G

2018年，張正友正式加入騰訊，并在這一年組建了騰訊機(jī)器人實(shí)驗(yàn)室，Robotics X實(shí)驗(yàn)室。

張正友說(shuō)，騰訊這一實(shí)驗(yàn)室成立之初定了，團(tuán)隊(duì)內(nèi)部定下了一個(gè)指導(dǎo)方針——A2G。

具體而言，是用ABCDEFG代指了幾個(gè)技術(shù)要素的英文縮寫(xiě)，翻譯過(guò)來(lái)，這幾個(gè)要素分別為：人工智能、機(jī)器人本體、精準(zhǔn)控制、發(fā)育學(xué)習(xí)、情感理解、靈巧操控、守護(hù)天使。

其中，人工智能、機(jī)器人本體、精準(zhǔn)控制為底層基礎(chǔ)能力，發(fā)育學(xué)習(xí)、情感理解、靈巧控制構(gòu)成了更上層的中間層能力。

最上層的G，具體是指通過(guò)部署在環(huán)境中的傳感器，讓環(huán)境和機(jī)器人信息共通，通過(guò)云與家人和世界互聯(lián)，讓機(jī)器人成為守護(hù)天使。

這是一個(gè)相當(dāng)宏大的愿望，一個(gè)宏大到很難說(shuō)這個(gè)實(shí)驗(yàn)室還要經(jīng)歷幾代科學(xué)家的努力，才能達(dá)成夙愿。

不過(guò)，就這樣，騰訊在這一年開(kāi)始了機(jī)器人的技術(shù)研發(fā)，各類機(jī)器人在之后幾年里也陸續(xù)面世：

2019年12月，騰訊發(fā)布了自平衡自行車；

2020年10月，騰訊發(fā)布了的四足機(jī)器人Jamaca學(xué)會(huì)了走梅花樁；

2021年2月，騰訊發(fā)布了多模態(tài)四足機(jī)器人Max；

2021年11月，騰訊發(fā)布了IDC運(yùn)維機(jī)器人；

……

到2023年，騰訊又發(fā)布了擁有靈巧手和機(jī)械臂的機(jī)器人，這款機(jī)器人還學(xué)會(huì)了調(diào)酒。

就在大家覺(jué)得機(jī)器人離走進(jìn)人類生活已經(jīng)近在咫尺時(shí)，實(shí)際上，AGI+機(jī)器人的模式創(chuàng)新才剛剛開(kāi)始。

03 再造一個(gè)新范式

也是在本次大會(huì)上，張正友重提了一個(gè)概念“SLAP范式”。

每個(gè)科學(xué)家要想自成一派，就要?jiǎng)?chuàng)造一套自己的理論。

早在2018年，Robotics X實(shí)驗(yàn)室成立后，張正友就提出了SLAP范式。

這一范式的提出，其實(shí)基于張正友對(duì)智能控制的理解。

張正友說(shuō)，“我們感興趣的機(jī)器人要能應(yīng)對(duì)不同環(huán)境，即使在不確定性很大的環(huán)境中，仍然能夠有自主調(diào)整和規(guī)劃的系統(tǒng)。”

這就要求機(jī)器人有兩類自主能力：

一類是反應(yīng)式的自主能力，另一類是有意識(shí)的自主能力。

反應(yīng)式的自主能力是說(shuō)，在遇到被人踢了一腳這樣意想不到的情況后，機(jī)器人能夠很快適應(yīng)變化，并調(diào)整自己的姿態(tài)；

有意識(shí)的自主能力則是說(shuō)，機(jī)器人要有自主規(guī)劃能力。

要實(shí)現(xiàn)這樣的具身智能，顯然已經(jīng)無(wú)法依賴傳統(tǒng)的“感知-計(jì)劃-行動(dòng)”的控制范式，于是，張正友提出了SLAP范式。

SLAP范式同樣是幾個(gè)英文單詞的所系，具體而言是，感知、行動(dòng)、學(xué)習(xí)、計(jì)劃。

這套范式與傳統(tǒng)控制范式最主要的區(qū)別在于，張正友將感知與行動(dòng)連系到了一起，并將學(xué)習(xí)滲透到了各個(gè)模塊。

“只有感知與行動(dòng)緊密相連，才能夠把反應(yīng)是怎樣實(shí)現(xiàn)的搞清楚。”

張正友提出的這一范式，其實(shí)也參考了人類大腦的思考范式，并參考人類大腦，提出了具身智能的三層系統(tǒng)：

第一層是原始控制層（Primitive Level Control），通過(guò)運(yùn)動(dòng)數(shù)據(jù)，對(duì)機(jī)器人進(jìn)行訓(xùn)練。

第二層是環(huán)境感知控制層（Environmental Level Control），通過(guò)對(duì)環(huán)境的感知，實(shí)現(xiàn)機(jī)器人在不同環(huán)境中的平穩(wěn)運(yùn)動(dòng)。

第三層是策略控制層（Strategic Level Control），通過(guò)給定相關(guān)任務(wù)，機(jī)器人進(jìn)行自行推理，然后在環(huán)境中實(shí)現(xiàn)類似人類大腦的控制決策。

實(shí)際上，騰訊的四足機(jī)器人的控制系統(tǒng)就是這樣一步一步構(gòu)建出來(lái)的。

不過(guò)，這些都是騰訊過(guò)去幾年做的工作。

現(xiàn)在，騰訊Robotics X實(shí)驗(yàn)室正在將多模態(tài)大模型融合到機(jī)器人系統(tǒng)中，增強(qiáng)機(jī)器人環(huán)境感知和視覺(jué)能力，讓他們的機(jī)器人能夠聽(tīng)懂人話，能夠和人類在語(yǔ)言和動(dòng)作上進(jìn)行簡(jiǎn)單的交互。

至于未來(lái)規(guī)劃，科技行者在現(xiàn)場(chǎng)也了解到，騰訊Robotics X實(shí)驗(yàn)室至少已經(jīng)有了兩方面考慮：

首先，騰訊將就三維感知數(shù)據(jù)和騰訊的混元大模型或開(kāi)源大模型LLAMA2-7B優(yōu)化策略控制層；

其次，騰訊也已經(jīng)將人形機(jī)器人寫(xiě)到了未來(lái)計(jì)劃中。

接下來(lái)，我們可以期待一下騰訊的人形機(jī)器人了。

機(jī)器人人形機(jī)器人騰訊

分享至

0贊

好文章，需要你的鼓勵(lì)

金旺

Wille

關(guān)注智造、硬件、機(jī)器人。

推薦文章

音頻生成
大語(yǔ)言模型
多模態(tài)AI

2025-09-10 09:47

如何讓AI像電影配樂(lè)師一樣創(chuàng)作完整的長(zhǎng)篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng)，首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語(yǔ)言模型的敘事推理能力與音頻生成技術(shù)，通過(guò)交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練，能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異，為AI音頻創(chuàng)作開(kāi)辟新方向。
視頻生成
深度學(xué)習(xí)
多模態(tài)學(xué)習(xí)

2025-09-09 13:57

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動(dòng)起來(lái)不再是奢望

Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù)，通過(guò)讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息，顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問(wèn)題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量，在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型，為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
多模態(tài)AI
人類價(jià)值觀對(duì)齊
數(shù)據(jù)集構(gòu)建

2025-09-09 13:56

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說(shuō)人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價(jià)值觀對(duì)齊難題

上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究，首次系統(tǒng)性解決多模態(tài)大語(yǔ)言模型人性化對(duì)話問(wèn)題。該研究創(chuàng)建了包含20萬(wàn)高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn)，通過(guò)創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法，讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平，為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
人工智能
圖神經(jīng)網(wǎng)絡(luò)
天氣預(yù)報(bào)

2025-09-09 10:56

谷歌研究團(tuán)隊(duì)發(fā)布超級(jí)預(yù)測(cè)模型：讓AI像天氣預(yù)報(bào)員一樣預(yù)測(cè)全球大氣變化

谷歌DeepMind團(tuán)隊(duì)開(kāi)發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型，能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào)，準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù)，通過(guò)學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律，在極端天氣預(yù)測(cè)方面表現(xiàn)卓越，能耗僅為傳統(tǒng)方法的千分之一，為氣象學(xué)領(lǐng)域帶來(lái)了效率和精度的雙重突破。