作者 | 金旺
欄目 | 機(jī)器人新紀(jì)元
2024年1月,騰訊發(fā)布《2024數(shù)字科技前沿應(yīng)用趨勢(shì)》報(bào)告,在這份報(bào)告中,“AI加速人形機(jī)器人‘手、腦’進(jìn)化”排在十大前沿應(yīng)用趨勢(shì)第三位。
于是,我們看到,3月30日,在上海舉辦的首屆中國(guó)具身智能大會(huì)上,騰訊Robotics X實(shí)驗(yàn)室成了大會(huì)四大鉆石贊助商之一,騰訊首席科學(xué)家、Robotics X實(shí)驗(yàn)室主任張正友在大會(huì)上也做了具身智能主題演講。
張正友在大會(huì)上指出,AGI的終極形態(tài),會(huì)是一個(gè)機(jī)器人形態(tài)。
在人形機(jī)器人最熱鬧的這一年里,騰訊做了靈巧手、機(jī)械臂(相當(dāng)于人形機(jī)器人上半身的手臂控制能力),也做了各種四足機(jī)器人(相當(dāng)于人形機(jī)器人的下半身的運(yùn)動(dòng)能力)。
科技行者在騰訊關(guān)于機(jī)器人的未來(lái)規(guī)劃中,已經(jīng)看到了人形機(jī)器人的身影。
現(xiàn)在,我們可以再期待一下騰訊的人形機(jī)器人了。
01 智能,是否需要具身?
什么是具身智能?
張正友指出,所謂具身智能,是指有物理載體的智能體(也就是智能機(jī)器人)在與物理世界的交互過(guò)程中,通過(guò)感知、控制和自主學(xué)習(xí)來(lái)積累知識(shí)和技能,形成智能,并由此影響物理世界的能力。
實(shí)際上,具身智能并不是什么新鮮事物,早在1950年,人工智能之父艾倫·圖靈發(fā)表的那篇大名鼎鼎的論文《Computing Machinery and Intelligence》中,就已經(jīng)提出了這一概念。
OpenAI CEO奧特曼也曾指出,“如果我們有了通用人工智能,而在物理世界中完成一件事唯一的方法還是讓人類自己去做,那就太令人沮喪了。”
“我們會(huì)在某個(gè)時(shí)候以某種方式重返機(jī)器人領(lǐng)域。”
奧特曼最初構(gòu)建OpenAI時(shí),就是想基于機(jī)器人來(lái)實(shí)現(xiàn)通用人工智能,只不過(guò),命運(yùn)多舛,才有了后來(lái)的ChatGPT和Sora。
實(shí)際上,OpenAI在過(guò)去兩年里已經(jīng)相繼投資了兩家人形機(jī)器人公司,一家是1X Technologies、另一家是Figure AI。
那么,智能,到底是否需要具身呢?
這一問(wèn)題在產(chǎn)業(yè)界其實(shí)依然有兩種聲音:
一種聲音認(rèn)為,智能并不一定與物理形態(tài)有關(guān),智能主要關(guān)乎信息處理、問(wèn)題解決和決策制定,這些都可以通過(guò)軟件或算法實(shí)現(xiàn)。
另一種聲音則認(rèn)為,身體對(duì)于智能至關(guān)重要,智能源于生物體與周圍環(huán)境之間的互動(dòng),這需要物理形態(tài)。
張正友在大會(huì)上指出,“我相信大家都認(rèn)為智能是需要具身的,否則就不會(huì)來(lái)參加這場(chǎng)具身智能大會(huì)了。”
贊同這一觀點(diǎn)的人,當(dāng)然也包括張正友本人。
實(shí)際上,張正友在演講中也指出,AGI的終極形態(tài),是一個(gè)機(jī)器人形態(tài)。
02 騰訊造機(jī)器人的A2G
2018年,張正友正式加入騰訊,并在這一年組建了騰訊機(jī)器人實(shí)驗(yàn)室,Robotics X實(shí)驗(yàn)室。
張正友說(shuō),騰訊這一實(shí)驗(yàn)室成立之初定了,團(tuán)隊(duì)內(nèi)部定下了一個(gè)指導(dǎo)方針——A2G。
具體而言,是用ABCDEFG代指了幾個(gè)技術(shù)要素的英文縮寫(xiě),翻譯過(guò)來(lái),這幾個(gè)要素分別為:人工智能、機(jī)器人本體、精準(zhǔn)控制、發(fā)育學(xué)習(xí)、情感理解、靈巧操控、守護(hù)天使。
其中,人工智能、機(jī)器人本體、精準(zhǔn)控制為底層基礎(chǔ)能力,發(fā)育學(xué)習(xí)、情感理解、靈巧控制構(gòu)成了更上層的中間層能力。
最上層的G,具體是指通過(guò)部署在環(huán)境中的傳感器,讓環(huán)境和機(jī)器人信息共通,通過(guò)云與家人和世界互聯(lián),讓機(jī)器人成為守護(hù)天使。
這是一個(gè)相當(dāng)宏大的愿望,一個(gè)宏大到很難說(shuō)這個(gè)實(shí)驗(yàn)室還要經(jīng)歷幾代科學(xué)家的努力,才能達(dá)成夙愿。
不過(guò),就這樣,騰訊在這一年開(kāi)始了機(jī)器人的技術(shù)研發(fā),各類機(jī)器人在之后幾年里也陸續(xù)面世:
2019年12月,騰訊發(fā)布了自平衡自行車;
2020年10月,騰訊發(fā)布了的四足機(jī)器人Jamaca學(xué)會(huì)了走梅花樁;
2021年2月,騰訊發(fā)布了多模態(tài)四足機(jī)器人Max;
2021年11月,騰訊發(fā)布了IDC運(yùn)維機(jī)器人;
……
到2023年,騰訊又發(fā)布了擁有靈巧手和機(jī)械臂的機(jī)器人,這款機(jī)器人還學(xué)會(huì)了調(diào)酒。
就在大家覺(jué)得機(jī)器人離走進(jìn)人類生活已經(jīng)近在咫尺時(shí),實(shí)際上,AGI+機(jī)器人的模式創(chuàng)新才剛剛開(kāi)始。
03 再造一個(gè)新范式
也是在本次大會(huì)上,張正友重提了一個(gè)概念“SLAP范式”。
每個(gè)科學(xué)家要想自成一派,就要?jiǎng)?chuàng)造一套自己的理論。
早在2018年,Robotics X實(shí)驗(yàn)室成立后,張正友就提出了SLAP范式。
這一范式的提出,其實(shí)基于張正友對(duì)智能控制的理解。
張正友說(shuō),“我們感興趣的機(jī)器人要能應(yīng)對(duì)不同環(huán)境,即使在不確定性很大的環(huán)境中,仍然能夠有自主調(diào)整和規(guī)劃的系統(tǒng)。”
這就要求機(jī)器人有兩類自主能力:
一類是反應(yīng)式的自主能力,另一類是有意識(shí)的自主能力。
反應(yīng)式的自主能力是說(shuō),在遇到被人踢了一腳這樣意想不到的情況后,機(jī)器人能夠很快適應(yīng)變化,并調(diào)整自己的姿態(tài);
有意識(shí)的自主能力則是說(shuō),機(jī)器人要有自主規(guī)劃能力。
要實(shí)現(xiàn)這樣的具身智能,顯然已經(jīng)無(wú)法依賴傳統(tǒng)的“感知-計(jì)劃-行動(dòng)”的控制范式,于是,張正友提出了SLAP范式。
SLAP范式同樣是幾個(gè)英文單詞的所系,具體而言是,感知、行動(dòng)、學(xué)習(xí)、計(jì)劃。
這套范式與傳統(tǒng)控制范式最主要的區(qū)別在于,張正友將感知與行動(dòng)連系到了一起,并將學(xué)習(xí)滲透到了各個(gè)模塊。
“只有感知與行動(dòng)緊密相連,才能夠把反應(yīng)是怎樣實(shí)現(xiàn)的搞清楚。”
張正友提出的這一范式,其實(shí)也參考了人類大腦的思考范式,并參考人類大腦,提出了具身智能的三層系統(tǒng):
第一層是原始控制層(Primitive Level Control),通過(guò)運(yùn)動(dòng)數(shù)據(jù),對(duì)機(jī)器人進(jìn)行訓(xùn)練。
第二層是環(huán)境感知控制層(Environmental Level Control),通過(guò)對(duì)環(huán)境的感知,實(shí)現(xiàn)機(jī)器人在不同環(huán)境中的平穩(wěn)運(yùn)動(dòng)。
第三層是策略控制層(Strategic Level Control),通過(guò)給定相關(guān)任務(wù),機(jī)器人進(jìn)行自行推理,然后在環(huán)境中實(shí)現(xiàn)類似人類大腦的控制決策。
實(shí)際上,騰訊的四足機(jī)器人的控制系統(tǒng)就是這樣一步一步構(gòu)建出來(lái)的。
不過(guò),這些都是騰訊過(guò)去幾年做的工作。
現(xiàn)在,騰訊Robotics X實(shí)驗(yàn)室正在將多模態(tài)大模型融合到機(jī)器人系統(tǒng)中,增強(qiáng)機(jī)器人環(huán)境感知和視覺(jué)能力,讓他們的機(jī)器人能夠聽(tīng)懂人話,能夠和人類在語(yǔ)言和動(dòng)作上進(jìn)行簡(jiǎn)單的交互。
至于未來(lái)規(guī)劃,科技行者在現(xiàn)場(chǎng)也了解到,騰訊Robotics X實(shí)驗(yàn)室至少已經(jīng)有了兩方面考慮:
首先,騰訊將就三維感知數(shù)據(jù)和騰訊的混元大模型或開(kāi)源大模型LLAMA2-7B優(yōu)化策略控制層;
其次,騰訊也已經(jīng)將人形機(jī)器人寫(xiě)到了未來(lái)計(jì)劃中。
接下來(lái),我們可以期待一下騰訊的人形機(jī)器人了。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語(yǔ)言模型的敘事推理能力與音頻生成技術(shù),通過(guò)交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開(kāi)辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過(guò)讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問(wèn)題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語(yǔ)言模型人性化對(duì)話問(wèn)題。該研究創(chuàng)建了包含20萬(wàn)高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過(guò)創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開(kāi)發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過(guò)學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來(lái)了效率和精度的雙重突破。
關(guān)注智造、硬件、機(jī)器人。