作者 | 金旺
欄目 | 機(jī)器人新紀(jì)元
來(lái)自中國(guó)機(jī)器人產(chǎn)業(yè)發(fā)展報(bào)告的數(shù)據(jù)顯示,2022年,中國(guó)服務(wù)機(jī)器人市場(chǎng)規(guī)模首次超過(guò)了工業(yè)機(jī)器人。
而之所以有這樣的發(fā)展趨勢(shì),離不開這些年人工智能技術(shù)在機(jī)器人領(lǐng)域的推廣應(yīng)用。
實(shí)際上,智能化已經(jīng)是機(jī)器人產(chǎn)業(yè)的大勢(shì)所趨,而且有了推動(dòng)機(jī)器人產(chǎn)業(yè)發(fā)展的可能,就連全球機(jī)器人領(lǐng)域明星企業(yè)波士頓動(dòng)力,也在2022年成立了人工智能研究院,在花大力氣研究機(jī)器人的認(rèn)知智能和運(yùn)動(dòng)智能。
這其中,視覺(jué)智能又是這些年在機(jī)器人領(lǐng)域應(yīng)用最廣,也是不少機(jī)器人能夠在封閉或半封閉空間實(shí)現(xiàn)“自動(dòng)駕駛”的關(guān)鍵。
2023年7月,來(lái)自GGII的統(tǒng)計(jì)數(shù)據(jù)顯示,在3D視覺(jué)傳感器這一細(xì)分領(lǐng)域,奧比中光在中國(guó)服務(wù)機(jī)器人領(lǐng)域2022年的市占率達(dá)到了71.09%。
奧比中光董事長(zhǎng)兼CEO黃源浩稱,“奧比中光2013年成立,2015年就開始為機(jī)器人產(chǎn)業(yè)提供3D視覺(jué)傳感器。”
他認(rèn)為,大模型對(duì)于整個(gè)機(jī)器人產(chǎn)業(yè)的影響堪比“核彈”。
在WRC 2023現(xiàn)場(chǎng),我們與黃源浩進(jìn)行了一次深入交流,聊了聊大模型如何影響機(jī)器人產(chǎn)業(yè)、人形機(jī)器人軟硬件如何協(xié)同發(fā)展,以及奧比中光在機(jī)器人領(lǐng)域的產(chǎn)業(yè)布局。
“核彈”大模型,變革機(jī)器人
問(wèn):大模型,尤其是視覺(jué)大模型的出現(xiàn),對(duì)機(jī)器人產(chǎn)業(yè)有怎樣的影響?
黃源浩:視覺(jué)大模型和語(yǔ)言大模型類似,都是基于谷歌在2017年提出的transformer架構(gòu)。
這讓機(jī)器視覺(jué)經(jīng)歷了一次從基于CNN的架構(gòu)到基于transformer架構(gòu)的變化,機(jī)器人由此也變得聰明了很多。
為什么這么說(shuō)?
因?yàn)榛贑NN架構(gòu)的機(jī)器視覺(jué)算法模型的學(xué)習(xí)過(guò)程需要大量的樣本數(shù)據(jù),這樣的模型和你下1萬(wàn)盤棋,它記住了怎么下棋,也就學(xué)會(huì)了下棋。
但基于transformer架構(gòu)的機(jī)器視覺(jué)算法模型,可能只需要很小的樣本,在下棋方面就有了不錯(cuò)的能力,這樣的大模型已經(jīng)接近零樣本學(xué)習(xí),甚至已經(jīng)和人腦的學(xué)習(xí)模式有點(diǎn)相似了。
這就讓機(jī)器人有了類腦的能力,能夠?qū)崿F(xiàn)端到端控制,你只需要輸入各種感知信息,輸出直接就是動(dòng)作了。
這也是為什么我會(huì)覺(jué)得大模型對(duì)于機(jī)器人產(chǎn)業(yè)而言會(huì)是一個(gè)核彈,因?yàn)樗寵C(jī)器人有了和人相似的運(yùn)動(dòng)控制模式。
問(wèn):大模型對(duì)3D視覺(jué)技術(shù)發(fā)展,會(huì)有怎樣的影響?
黃源浩:現(xiàn)在大模型在朝著多模態(tài)方向發(fā)展,而多模態(tài)的大模型,本身已經(jīng)在以圖像、3D圖像,甚至熱成像圖像作為輸入數(shù)據(jù)了,這是它需要的一個(gè)基礎(chǔ)信息。
另外就3D視覺(jué)而言,基于激光雷達(dá)和大模型兩種方式的視覺(jué)技術(shù)是相輔相成的。
基于激光雷達(dá)的視覺(jué)技術(shù)更精準(zhǔn),但遠(yuǎn)距離定位能力會(huì)有所缺失;基于大模型的視覺(jué)技術(shù)現(xiàn)在還沒(méi)那么精準(zhǔn),工作模式類似人眼,但它能夠?qū)崿F(xiàn)遠(yuǎn)距離定位。
我有一個(gè)觀點(diǎn)是,未來(lái)機(jī)器人在某些方面的性能會(huì)比人表現(xiàn)得更好,比如機(jī)器人的感知能力。
問(wèn):現(xiàn)在3D視覺(jué)在機(jī)器人的認(rèn)知智能和運(yùn)動(dòng)智能上,分別能實(shí)現(xiàn)哪些功能?
黃源浩:認(rèn)知智能其實(shí)更容易做,現(xiàn)在也已經(jīng)做得很不錯(cuò)了,現(xiàn)在基于3D圖像數(shù)據(jù)訓(xùn)練的視覺(jué)模型,進(jìn)行一些測(cè)距等工作已經(jīng)比人更精準(zhǔn),將來(lái)基于這類模型的機(jī)器人很有可能會(huì)比人更聰明。
例如人如果要將一個(gè)凳子從一個(gè)地方搬到另一個(gè)地方,用肉眼觀察通道的寬度,可能不知道是否能搬得過(guò)去,機(jī)器人看一眼就能測(cè)量出結(jié)果,這就是機(jī)器人比人厲害的地方,其中實(shí)現(xiàn)的就是認(rèn)知智能。
至于涉及到?jīng)Q策、規(guī)劃、控制等運(yùn)動(dòng)智能,目前有些企業(yè)或者機(jī)構(gòu)做的是確定性模型,基于確定性模型的機(jī)器人可能拍出來(lái)的運(yùn)動(dòng)演示視頻很好看,但在實(shí)際演示過(guò)程中,可能失敗幾百次后調(diào)了某一個(gè)參數(shù),然后再測(cè)試幾百次,又調(diào)了另外一個(gè)參數(shù),這樣往復(fù)測(cè)試才拍出一個(gè)不錯(cuò)的demo視頻。
然而,這樣實(shí)現(xiàn)的運(yùn)動(dòng)模型目前沒(méi)有泛化能力,如果換到一個(gè)新的環(huán)境,模型也就無(wú)法完全適用了,這也是為什么像波士頓動(dòng)力這樣已經(jīng)創(chuàng)立了超過(guò)30年的公司仍沒(méi)能實(shí)現(xiàn)商業(yè)化的原因。
大模型到來(lái)之后,只要把基于transformer架構(gòu)的大模型部署好,隨著數(shù)據(jù)不斷輸入,機(jī)器人就可以做各種動(dòng)作;當(dāng)成功做出一個(gè)動(dòng)作,這樣產(chǎn)生的就是一個(gè)好的樣本數(shù)據(jù),沒(méi)成功就是一個(gè)不好的樣本數(shù)據(jù)……。慢慢地,它自己就能學(xué)會(huì)如何運(yùn)動(dòng)。
大模型的參數(shù)量級(jí)非常大,普遍都在10億級(jí)乃至百億級(jí),如果純靠人,是無(wú)法實(shí)現(xiàn)這樣級(jí)別的參數(shù)調(diào)參的。因而,企業(yè)基于確定性模型研發(fā)的機(jī)器人,如果再遷移到新模式上,可能只能貢獻(xiàn)10%-20%的能力,80%-90%都要基于transformer框架重新再做模型訓(xùn)練。
今年大模型發(fā)展這么迅速,接下來(lái)你會(huì)發(fā)現(xiàn),無(wú)論是四足機(jī)器人,還是人形機(jī)器人,它的進(jìn)化速度會(huì)比原來(lái)快很多。
明年世界機(jī)器人大會(huì)上,相信我們就會(huì)看到,這些機(jī)器人已經(jīng)聰明很多了。
今年大會(huì)上的機(jī)器人還沒(méi)有很多互動(dòng)演示,估計(jì)明年至少四足機(jī)器人會(huì)出現(xiàn)比較好的互動(dòng)能力,后年人形機(jī)器人也可能會(huì)有很好的互動(dòng)能力,甚至能跑起來(lái)。
人形機(jī)器人,軟硬件發(fā)展如何協(xié)同?
問(wèn):激光雷達(dá)、3D視覺(jué)在人形機(jī)器人上,現(xiàn)在有怎樣的應(yīng)用?
黃源浩:現(xiàn)在人形機(jī)器人產(chǎn)品中,基本都有傳感器,激光雷達(dá)、避障傳感器正常也都有。
實(shí)際上,人形機(jī)器人未來(lái)必然會(huì)有多種傳感器做數(shù)據(jù)輸入,像特斯拉的多目方案會(huì)是一種輸入方式,我們這種雙目結(jié)構(gòu)光傳感器也會(huì)是一種輸入方式,激光雷達(dá)當(dāng)然也會(huì)是一種必不可少的輸入方式。
目前人形機(jī)器人的功能、性能都還不夠強(qiáng),隨著它的能力變得越來(lái)越強(qiáng),量產(chǎn)能力上來(lái)了,元器件的成本也就會(huì)隨之下降,這是一個(gè)產(chǎn)業(yè)化必然要經(jīng)歷的一個(gè)過(guò)程。
問(wèn):您如何看人形機(jī)器人未來(lái)的商用情況?
黃源浩:在我看來(lái),人形機(jī)器人現(xiàn)在就像一個(gè)小孩,它一定會(huì)長(zhǎng)大,長(zhǎng)大過(guò)程中會(huì)逐漸學(xué)會(huì)一些技能,等到它18歲、20歲的時(shí)候,可能就能夠?qū)崿F(xiàn)普及應(yīng)用了。
這么來(lái)看,其實(shí)還有20年,現(xiàn)在他才剛剛1歲,20年后人形機(jī)器人說(shuō)不定會(huì)有幾十億個(gè)。
而要說(shuō)人形機(jī)器人第一個(gè)商用場(chǎng)景,我認(rèn)為大概率會(huì)是工業(yè),像在汽車工廠里,未來(lái)人會(huì)越來(lái)越少,預(yù)計(jì)5-10年就能大規(guī)模實(shí)現(xiàn)無(wú)人化工廠了。
其它諸如家庭陪伴這樣的場(chǎng)景,我認(rèn)為可能不會(huì)那么快到來(lái),還需要一定時(shí)間。
問(wèn):人形機(jī)器人的軟硬件技術(shù)如何協(xié)同發(fā)展?
黃源浩:當(dāng)下人形機(jī)器人的智商和運(yùn)動(dòng)控制能力像是剛出生的孩子,但他的身體骨架已經(jīng)接近七八歲,所以現(xiàn)在我們處于一個(gè)硬件發(fā)展快于軟件算法發(fā)展的階段。
可能再發(fā)展幾年,硬件相對(duì)軟件,又會(huì)變成短板。
例如機(jī)器人的關(guān)節(jié),現(xiàn)在一個(gè)成年男性能夠輕松抬起30公斤、50公斤的重物,但人形機(jī)器人拿5公斤、10公斤的重物就已經(jīng)很難平衡行走了;
此外,人的關(guān)節(jié)可以用一輩子,但人形機(jī)器人的關(guān)節(jié)可能使用500次、1000次后,各項(xiàng)指標(biāo)就會(huì)下降。
所以現(xiàn)在硬件也還沒(méi)有準(zhǔn)備好。
如果將人形機(jī)器人的軟件和硬件比作它的兩條腿的話,只有人形機(jī)器人的“兩條腿”邁步走路,整個(gè)產(chǎn)業(yè)才能持續(xù)前進(jìn)。
問(wèn):所以現(xiàn)在其實(shí)是硬件已經(jīng)發(fā)展到一定階段,軟件算法需要跟上的階段,而大模型的出現(xiàn),讓人們看到了人形機(jī)器人在軟件上實(shí)現(xiàn)快速突破的可能。
黃源浩:傳統(tǒng)人工智能可能短期還追不上人形機(jī)器人硬件的發(fā)展,但是大模型的出現(xiàn)大大加速了這個(gè)過(guò)程,同時(shí),行業(yè)也在硬件上攻堅(jiān)克難,往前邁步。
機(jī)器人迎來(lái)產(chǎn)業(yè)大分工
問(wèn):今年7月你們發(fā)布了一個(gè)機(jī)器人視覺(jué)產(chǎn)業(yè)技術(shù)中臺(tái),奧比中光具體在機(jī)器人領(lǐng)域有怎樣的思考業(yè)務(wù)部署?
黃源浩:其實(shí)2016年我們就開始為機(jī)器人企業(yè)供貨3D視覺(jué)傳感器了,之前機(jī)器人出貨量相對(duì)比較少,但7年下來(lái),我們確實(shí)為機(jī)器人產(chǎn)業(yè)提供了很多視覺(jué)傳感器。
其實(shí)transformer在2017年就被谷歌提出了,只是GPT、大模型的出現(xiàn),讓大家意識(shí)到了這個(gè)框架的強(qiáng)大, transformer架構(gòu)出現(xiàn)的這幾年,我們也一直在思考,也許大模型的出現(xiàn)會(huì)讓機(jī)器人產(chǎn)業(yè),站到20年前互聯(lián)網(wǎng)行業(yè)發(fā)展初期的時(shí)間節(jié)點(diǎn)上,而它之后將會(huì)保持高速發(fā)展。
在機(jī)器人產(chǎn)業(yè)中,未來(lái)除了陪伴類機(jī)器人會(huì)是大批量出貨的產(chǎn)品外,還會(huì)有幾十億小批量、多型號(hào)、多機(jī)種的各類機(jī)器人。
現(xiàn)在機(jī)器人企業(yè)很多,未來(lái)經(jīng)過(guò)大浪淘沙后,還會(huì)有兩三千家機(jī)器人企業(yè)。
現(xiàn)在每個(gè)機(jī)器人企業(yè)都得自己做關(guān)節(jié)、傳感器、模型算法等等,這種模式的投入產(chǎn)出比顯然是不夠的。
對(duì)于機(jī)器人這個(gè)新興產(chǎn)業(yè),尤其是人形機(jī)器人,沒(méi)有自研技術(shù),就很難獲得資本市場(chǎng)青睞。
但隨著產(chǎn)業(yè)的發(fā)展,市場(chǎng)的關(guān)注點(diǎn)會(huì)逐漸從技術(shù)這個(gè)單一維度轉(zhuǎn)向更注重投入產(chǎn)出比,投入產(chǎn)出比能否至少打平,就成了一個(gè)企業(yè)未來(lái)是否能夠融到資金的關(guān)鍵。
我的觀察是,現(xiàn)在強(qiáng)調(diào)自研能力的機(jī)器人企業(yè),慢慢會(huì)轉(zhuǎn)向外采,整個(gè)產(chǎn)業(yè)會(huì)走向一個(gè)更符合現(xiàn)在商業(yè)世界規(guī)則的大分工時(shí)代。
這也是為什么我們會(huì)做一個(gè)產(chǎn)業(yè)技術(shù)中臺(tái)的原因,從技術(shù)角度看,奧比中光的綜合能力很強(qiáng),從傳感器、雷達(dá)、模型算法,到小批量多機(jī)種的機(jī)器人制造,我們都積累了很強(qiáng)的能力。
就制造角度而言,機(jī)器人行業(yè)更需要的小批量、多機(jī)種的制造,這也是奧比中光的優(yōu)勢(shì)。
我們對(duì)機(jī)器人視覺(jué)產(chǎn)業(yè)技術(shù)中臺(tái)的定位是,不做機(jī)器人(整機(jī))品牌,但是整個(gè)機(jī)器人產(chǎn)業(yè)需要的諸如視覺(jué)傳感器、激光雷達(dá)等提供通用能力的產(chǎn)品,我們會(huì)盡我們所能去提供,并邀請(qǐng)生態(tài)伙伴一起進(jìn)來(lái),推動(dòng)整個(gè)機(jī)器人產(chǎn)業(yè)發(fā)展。
問(wèn):奧比中光機(jī)器人業(yè)務(wù)目標(biāo)要實(shí)現(xiàn)怎樣的業(yè)務(wù)規(guī)模?
黃源浩:機(jī)器人產(chǎn)業(yè)每年肯定是持續(xù)上升的,也會(huì)是我們一條持續(xù)增長(zhǎng)且增長(zhǎng)很快的業(yè)務(wù)線。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語(yǔ)言模型的敘事推理能力與音頻生成技術(shù),通過(guò)交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過(guò)讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問(wèn)題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語(yǔ)言模型人性化對(duì)話問(wèn)題。該研究創(chuàng)建了包含20萬(wàn)高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過(guò)創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過(guò)學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來(lái)了效率和精度的雙重突破。
關(guān)注智造、硬件、機(jī)器人。