從早稻田大學(xué)1972年研發(fā)的WABOT,到特斯拉2022年首秀的Optimus,人類科學(xué)家對(duì)人形機(jī)器人的研發(fā)走過了半個(gè)世紀(jì)。在這半個(gè)世紀(jì)里,人形機(jī)器人的發(fā)展已經(jīng)從本田ASIMO、波士頓動(dòng)力Atlas代表的技術(shù)驗(yàn)證期,過渡到了以特斯拉Optimus為代表的商業(yè)試水期,一個(gè)新的機(jī)器人時(shí)代正在開啟。
為此,至頂科技特別策劃推出《機(jī)器人新紀(jì)元》專題報(bào)道,旨在探尋全球機(jī)器人團(tuán)隊(duì)的技術(shù)變遷和創(chuàng)新故事。
本篇為《機(jī)器人新紀(jì)元》專題報(bào)道第三篇深度文章。
作者| 金旺
欄目| 機(jī)器人新紀(jì)元
2007年,回到國(guó)內(nèi)的黃曉慶進(jìn)入中國(guó)移動(dòng),開始接手中國(guó)移動(dòng)研究院的工作。
對(duì)于他來說,這是一個(gè)新的開始,對(duì)于中國(guó)通信產(chǎn)業(yè)來說,這同樣是一個(gè)不可多得的黃金發(fā)展時(shí)期。
2008年,中國(guó)正式迎來了3G時(shí)代,讓不少人興奮的移動(dòng)互聯(lián)網(wǎng)大門在這一年緩緩打開,然而3G在網(wǎng)絡(luò)制式上存在的缺陷,讓全世界的運(yùn)營(yíng)商為之頭疼。
作為中國(guó)通信產(chǎn)業(yè)三大運(yùn)營(yíng)商之一,中國(guó)移動(dòng)有著絕對(duì)大佬的江湖地位,身為中國(guó)移動(dòng)研究院院長(zhǎng)的黃曉慶,他的團(tuán)隊(duì)又剛好是中國(guó)移動(dòng)制定標(biāo)準(zhǔn)的那群人。
在那個(gè)特殊位置、在那個(gè)關(guān)鍵時(shí)間節(jié)點(diǎn)上,黃曉慶做了一個(gè)大膽的假設(shè)——將3G和4G兩代移動(dòng)通信技術(shù)一起干。
后來,中國(guó)移動(dòng)成了全球唯一一個(gè)同時(shí)開展3G、4G網(wǎng)絡(luò)技術(shù)研究、標(biāo)準(zhǔn)制定的運(yùn)營(yíng)商,并在2014年率先實(shí)現(xiàn)了4G網(wǎng)絡(luò)的規(guī)模化商用,中國(guó)通信技術(shù)自此開始趕超世界。
也是在這時(shí),黃曉慶有了一個(gè)新的計(jì)劃,一個(gè)新的十年計(jì)劃——做一家機(jī)器人運(yùn)營(yíng)商。
01 兩個(gè)第一性原理,一個(gè)機(jī)器人公司
黃曉慶創(chuàng)立達(dá)闥機(jī)器人,是在2015年,這一年,他辭去了中國(guó)移動(dòng)研究院院長(zhǎng)一職,對(duì)于在通信行業(yè)堅(jiān)守了30多年的他來說,這次辭職創(chuàng)業(yè)被不少朋友視為是一次跨界。
不過,黃曉慶并不這么認(rèn)為,“實(shí)際上我并沒有跨界。”
在通信行業(yè)那30多年里,黃曉慶見證了通信產(chǎn)業(yè)的大繁榮,也親身參與并主導(dǎo)了諸多通信技術(shù)、重大專項(xiàng)研發(fā)和標(biāo)準(zhǔn)制定工作。
不過,黃曉慶認(rèn)為,在通信行業(yè)這些年里,他最重要的工作其實(shí)是創(chuàng)造需求,通過新需求、新應(yīng)用驅(qū)動(dòng)通信產(chǎn)業(yè)高速發(fā)展。
智能手機(jī)之后,誰會(huì)是推動(dòng)通信產(chǎn)業(yè)爆發(fā)式增長(zhǎng)的下一個(gè)需求?
這是黃曉慶2012年在中國(guó)移動(dòng)研究院思考的一個(gè)問題。
這一年,4G網(wǎng)絡(luò)趨于成熟,一些機(jī)器人團(tuán)隊(duì)開始嘗試將4G技術(shù)應(yīng)用到機(jī)器人上,在中國(guó)移動(dòng)為通信產(chǎn)業(yè)“制造需求”的黃曉慶很快注意到了這件事,深入研究后,他發(fā)現(xiàn),原來機(jī)器人真的需要互聯(lián)網(wǎng),尤其是移動(dòng)互聯(lián)網(wǎng)。
與此同時(shí),他還有了另一個(gè)發(fā)現(xiàn),大多數(shù)機(jī)器人團(tuán)隊(duì)的技術(shù)路線都是以機(jī)器人本體為基礎(chǔ),通過在本地改進(jìn)算法、增加算力來增強(qiáng)機(jī)器人能力,而這種模式,在未來很可能會(huì)行不通。
這樣的判斷,源自于黃曉慶當(dāng)時(shí)發(fā)現(xiàn)的兩個(gè)第一性原理:
第一,集成電路比神經(jīng)元耗電1億倍。
集成電路是一個(gè)電子系統(tǒng),神經(jīng)元是一個(gè)生物系統(tǒng),這兩個(gè)系統(tǒng)的功耗相差1億倍,這意味著如果你想造一個(gè)智能水平和人一樣的計(jì)算機(jī),它的功耗要比人腦功耗大1億倍,它的腦袋至少也要比人腦大1萬倍,如果用傳統(tǒng)設(shè)計(jì)方法,這樣的機(jī)器人顯然是無法造出來的。
第二,無線網(wǎng)絡(luò)比人的神經(jīng)網(wǎng)絡(luò)傳遞信息的速度要快10億倍。
神經(jīng)網(wǎng)絡(luò)傳遞信號(hào)的速度是300m/s,無線網(wǎng)絡(luò)傳遞信號(hào)的速度是光速,也就是30萬公里/s,這意味著,如果可以將機(jī)器人的大腦放到1000公里以外,信號(hào)傳輸延時(shí)可以控制在3ms以內(nèi),這樣的延時(shí)幾乎可以忽略不計(jì)。
“馬斯克曾說過,發(fā)現(xiàn)一個(gè)第一性原理就可以創(chuàng)業(yè)了,而我發(fā)現(xiàn)了兩個(gè)。”
基于這兩個(gè)第一性原理,他認(rèn)為,未來的機(jī)器人肯定是云端機(jī)器人。于是,做云端機(jī)器人的念頭開始在他的心底生根發(fā)芽,他也開始等待一個(gè)絕佳時(shí)機(jī)。
這一等,就是兩年。
2014年,中國(guó)移動(dòng)率先在全世界實(shí)現(xiàn)了4G網(wǎng)絡(luò)的規(guī)?;逃茫⒃谶@一年完成了100萬個(gè)基站的部署,4G網(wǎng)絡(luò)用戶增至1億。
基于此,黃曉慶又有了兩個(gè)新的判斷:
第一,中國(guó)會(huì)在5-6年內(nèi)部署5G網(wǎng)絡(luò),而5G網(wǎng)絡(luò)會(huì)是云端機(jī)器人構(gòu)想成立的關(guān)鍵;
第二,人工智能在十年內(nèi)會(huì)有重大突破。
這讓黃曉慶意識(shí)到,他等待的絕佳時(shí)機(jī)已經(jīng)到來。
于是,達(dá)闥機(jī)器人在2015年正式成立,也是在達(dá)闥成立的這一年,黃曉慶定下了一個(gè)十年目標(biāo)——10年內(nèi)做出家庭保姆機(jī)器人。
02 將云端大腦賣給孫正義
和大多數(shù)機(jī)器人創(chuàng)業(yè)團(tuán)隊(duì)不同,希望做機(jī)器人領(lǐng)域運(yùn)營(yíng)商的達(dá)闥,并沒有從造機(jī)器人本體入手,而是從造腦計(jì)劃開始。
達(dá)闥公司創(chuàng)立之初,黃曉慶為公司制定了兩個(gè)研究方向:
一個(gè)是云端大腦,另一個(gè)是網(wǎng)絡(luò)安全。
前者是基于5G、云計(jì)算技術(shù)的云端機(jī)器人大腦,是黃曉慶通過兩個(gè)第一性原理推導(dǎo)出的未來機(jī)器人產(chǎn)業(yè)的核心,也是基于此,達(dá)闥后來研發(fā)了海睿云端機(jī)器人操作系統(tǒng)。
后者則是實(shí)現(xiàn)達(dá)闥云端機(jī)器人運(yùn)營(yíng)商這一構(gòu)想的重要保障,達(dá)闥由此也研發(fā)了自己的移動(dòng)內(nèi)聯(lián)網(wǎng)。
然而,即便有了云端大腦和移動(dòng)內(nèi)聯(lián)網(wǎng),機(jī)器人本體依然必不可少,最快、最有效的方法是找有機(jī)器人本體的團(tuán)隊(duì)合作。
早在達(dá)闥開始造云端大腦時(shí),黃曉慶就開始在全世界找“靠譜”的機(jī)器人團(tuán)隊(duì)。
2015年,全世界有三個(gè)人形機(jī)器人明星團(tuán)隊(duì)最為閃耀,一個(gè)是波士頓動(dòng)力的Atlas、一個(gè)是本田的ASIMO,還有一個(gè)是軟銀孫正義2012年1億美元收購(gòu)的法國(guó)公司Aldebaran。
不過,這三個(gè)團(tuán)隊(duì)中,只有后者一直在花大量的資金和資源,嘗試將造出的人形機(jī)器人Pepper推向市場(chǎng)。
由于有軟銀在資金和資源上的支持,2015年,Pepper在全球拿到了5萬臺(tái)整機(jī)訂單,孫正義眼看自己的Pepper開始走向全世界,更是大手筆向富士康下了50萬臺(tái)設(shè)備的訂單,這樣一個(gè)龐大的數(shù)量已經(jīng)超過了2015年全球服務(wù)機(jī)器人市場(chǎng)的整體體量。
由于在通信技術(shù)領(lǐng)域與孫正義有過深度合作,在黃曉慶創(chuàng)業(yè)達(dá)闥時(shí),他也將自己的兩個(gè)第一性原理和云端機(jī)器人理念告訴了當(dāng)時(shí)對(duì)機(jī)器人頗為癡迷的孫正義,孫正義聽后不僅十分認(rèn)同黃曉慶云端機(jī)器人的理念,還成為了達(dá)闥的主要投資人。
隨后在軟銀正式立項(xiàng)Pepper,并計(jì)劃將Pepper機(jī)器人賣到全球時(shí),黃曉慶看到了Pepper機(jī)器人的潛力,并向?qū)O正義提議,達(dá)闥可以為Pepper造一個(gè)云端大腦。
彼時(shí),Pepper雖然在全球擁有不錯(cuò)的聲量,也拿下了不少訂單,但故障率高、智能性差也讓這一機(jī)器人備受詬病。 云端大腦,確實(shí)值得一試。 于是,達(dá)闥團(tuán)隊(duì)開始為Pepper裝上新的RCU和控制器、4G模塊,研發(fā)了云端大腦。
“如果當(dāng)時(shí)我們這次合作能順利進(jìn)行下去的話,Pepper將會(huì)是第一個(gè)擁有云端大腦的機(jī)器人,我們也會(huì)借助Pepper將云端大腦帶到全世界,”黃曉慶告訴科技行者。
然而,現(xiàn)實(shí)往往不會(huì)讓新舊技術(shù)理念交替來得這么快。
和軟銀的合作最終由于種種原因未能如愿進(jìn)行下去,但達(dá)闥最終還是將Pepper這款黃曉慶認(rèn)為“世界上最好的人形機(jī)器人”帶到了國(guó)內(nèi)。
2017年8月,在第三屆世界機(jī)器人大會(huì)上,一款名為Cloud Pepper出現(xiàn)在了達(dá)闥的展臺(tái)上,可愛的外表,外加炫酷的表演,引得現(xiàn)場(chǎng)不少觀眾圍觀。
Cloud Pepper作為達(dá)闥第一款產(chǎn)品,這一年也在國(guó)內(nèi)開啟了商業(yè)化之旅。
03 像造手機(jī)一樣造機(jī)器人
Cloud Pepper在國(guó)內(nèi)面世后,國(guó)內(nèi)服務(wù)機(jī)器人市場(chǎng)難得出現(xiàn)了一些變化。
“我們當(dāng)時(shí)賣出了不少產(chǎn)品,而且大家都很喜歡這款機(jī)器人,”回憶起當(dāng)時(shí)Cloud Pepper進(jìn)入各大線下門店時(shí)的場(chǎng)景,黃曉慶依然很是興奮。
不過,由于Pepper團(tuán)隊(duì)在技術(shù)和產(chǎn)品上長(zhǎng)期沒有迭代更新,黃曉慶不得不考慮重新找一家合作廠商,或者收購(gòu)一家機(jī)器人團(tuán)隊(duì)。
2017年,已經(jīng)在機(jī)器人領(lǐng)域闖蕩了兩年的黃曉慶已經(jīng)意識(shí)到,模塊化關(guān)節(jié)對(duì)于機(jī)器人,尤其是人形機(jī)器人極為重要,并開始在國(guó)內(nèi)外尋找潛力團(tuán)隊(duì),也就在這一年,幾經(jīng)輾轉(zhuǎn),黃曉慶遇到了前沿驅(qū)動(dòng)。
在收購(gòu)前沿驅(qū)動(dòng)時(shí),黃曉慶對(duì)于人形機(jī)器人已經(jīng)有了更深入的思考和規(guī)劃。 他認(rèn)為,達(dá)闥未來幾年需要造四臺(tái)機(jī)器人:XR1、XR2、XR3、XR4,而所有機(jī)器人都需要的一項(xiàng)關(guān)鍵技術(shù),正是智能柔性關(guān)節(jié)。
智能柔性關(guān)節(jié)和傳統(tǒng)機(jī)器人關(guān)節(jié)有什么本質(zhì)差異?
黃曉慶告訴我們,傳統(tǒng)控制器控制電機(jī)、傳感器的模式類似于上個(gè)世紀(jì)八十年代的電腦,一個(gè)主機(jī)需要控制多個(gè)外設(shè),在這樣的機(jī)器人控制系統(tǒng)中,控制器控制8個(gè)、10個(gè)關(guān)節(jié)都還OK,但一個(gè)人形機(jī)器人可能會(huì)有60多個(gè)關(guān)節(jié), 傳統(tǒng)機(jī)器人控制系統(tǒng)很難很好地控制一個(gè)這樣的復(fù)雜系統(tǒng)。
在黃曉慶的設(shè)想中,每個(gè)智能柔性關(guān)節(jié)相當(dāng)于移動(dòng)互聯(lián)網(wǎng)中的一部手機(jī),有獨(dú)立的授權(quán)和通信網(wǎng)絡(luò),有獨(dú)立的操作系統(tǒng)和執(zhí)行能力。 而這其中的關(guān)鍵,是讓所有關(guān)節(jié)都具備獨(dú)立的計(jì)算能力和通信能力。
2019年2月,在經(jīng)歷了16個(gè)月的研發(fā)后,達(dá)闥第一代搭載智能柔性關(guān)節(jié)的智能柔性服務(wù)機(jī)器人Ginger在MWC 2019上正式亮相。
這個(gè)首次采用了智能柔性關(guān)節(jié)設(shè)計(jì)理念的Ginger,正是達(dá)闥最初規(guī)劃的四類機(jī)器人中的人形輪式機(jī)器人XR1。
這一年,XR1開啟的,是達(dá)闥云端大腦產(chǎn)品化的新階段。
04 機(jī)器人的終極形態(tài)
作為達(dá)闥一款重要的機(jī)器人產(chǎn)品,Ginger看起來有點(diǎn)像最初的Cloud Pepper,實(shí)際上,這也是達(dá)闥用自己的思路,自研了一個(gè)全新的Cloud Pepper。
正是這款機(jī)器人,讓達(dá)闥在2021年迎賓機(jī)器人迎來高潮時(shí),迅速在市場(chǎng)上出貨上千臺(tái),不過,黃曉慶也坦言,Ginger不是機(jī)器人的終極形態(tài)。
在黃曉慶的構(gòu)想中,機(jī)器人肯定是通用的,這和大部分基于一個(gè)垂直場(chǎng)景進(jìn)行產(chǎn)品優(yōu)化的機(jī)器人研發(fā)理念有著不小的差異。
“優(yōu)化講的是場(chǎng)景定制,通用的結(jié)果則是量產(chǎn),是‘手機(jī)理論’,”黃曉慶這樣解釋二者的區(qū)別。
此外,黃曉慶在2017年仔細(xì)思考機(jī)器人未來形態(tài)時(shí),他發(fā)現(xiàn),我們無法用一個(gè)機(jī)器人完成當(dāng)下所有工作,但是可以用4個(gè)。
人形機(jī)器人是大多數(shù)機(jī)器人團(tuán)隊(duì)研發(fā)機(jī)器人的終極目標(biāo)形態(tài),但在2017年思考這一產(chǎn)品形態(tài)時(shí),黃曉慶發(fā)現(xiàn),足式人形機(jī)器人不僅技術(shù)難度高,而且制造成本昂貴。
實(shí)際上,人類大部分工作空間都是平整地面,人形輪式機(jī)器人不僅可行,而且比足式機(jī)器人省電30倍。
這也就有了達(dá)闥第一代人形機(jī)器人Ginger的最初構(gòu)想。
在深入了解機(jī)器人產(chǎn)業(yè)后,黃曉慶的另一個(gè)發(fā)現(xiàn)是,人形機(jī)器人抗不了重物,因而他又構(gòu)想出了“四輪車+雙臂”和“四足機(jī)器人+雙臂”的XR2、XR3機(jī)器人形態(tài)。
而就人形機(jī)器人終極形態(tài),達(dá)闥在今年WRC 2023上展示的 “小紫”正是黃曉慶構(gòu)想的XR4。
黃曉慶希望未來進(jìn)入千家萬戶的保姆機(jī)器人,正是這款名為“小紫”的人形機(jī)器人。
值得注意的是,這臺(tái)名為“小紫”的人形足式機(jī)器人,不僅采用了柔性關(guān)節(jié)設(shè)計(jì),還應(yīng)用了并聯(lián)關(guān)節(jié)設(shè)計(jì)。
并聯(lián)關(guān)節(jié)設(shè)計(jì)有什么好處呢?
由于相較人體的動(dòng)力系統(tǒng),人形機(jī)器人的電驅(qū)系統(tǒng)并不是一個(gè)理想電動(dòng)驅(qū)動(dòng)系統(tǒng),伺服電機(jī)的能量密度要比人類肌肉小10倍。
如何用伺服電機(jī)很好地驅(qū)動(dòng)機(jī)器人的大腿,就成了業(yè)界一個(gè)普遍難題。
達(dá)闥在設(shè)計(jì)“小紫”時(shí),是將四個(gè)伺服電機(jī)進(jìn)行了并聯(lián),以此提供更充足的動(dòng)能,支撐后續(xù)更強(qiáng)勁的運(yùn)動(dòng)能力。
黃曉慶認(rèn)為,雖然人形雙足XR4是機(jī)器人的終極形態(tài),但XR2或XR3這類機(jī)器人仍會(huì)長(zhǎng)期存在。 “這有點(diǎn)像現(xiàn)在的人和汽車的關(guān)系,汽車無法取代人類雙腿,但作為出行和載物的一種便捷的交通工具仍會(huì)長(zhǎng)期存在。”
實(shí)際上,達(dá)闥的XR2已經(jīng)找到了一個(gè)新場(chǎng)景——農(nóng)業(yè)采摘,黃曉慶認(rèn)為,這是一個(gè)擁有巨大潛力的機(jī)器人應(yīng)用場(chǎng)景。
而對(duì)于什么是符合機(jī)器人的應(yīng)用場(chǎng)景,黃曉慶有著一套自己的衡量標(biāo)準(zhǔn)——機(jī)器人幫人干活兒是否能夠只“收”一半的錢。
也是基于這個(gè)標(biāo)準(zhǔn),黃曉慶告訴科技行者,現(xiàn)在大家都在講人形機(jī)器人進(jìn)工廠,但實(shí)際上,工廠中的地面也都是平整的地面,因而并不需要雙足,除去汽車總裝這樣特殊的環(huán)境,輪式人形機(jī)器人就能完全勝任,工廠環(huán)境更需要的應(yīng)該是靈巧手和機(jī)器視覺。
真正的雙足人形機(jī)器人,更應(yīng)該成為的是家庭保姆。
只不過,這在2021年來看,依然有些遙遠(yuǎn),那時(shí),沒人能想到,變化很快將會(huì)發(fā)生。
05 大模型讓奇點(diǎn)到來
2022年11月30日,總部位于舊金山的OpenAI面向全球發(fā)布了ChatGPT,人工智能自此被推向了大模型時(shí)代。
對(duì)于今年人形機(jī)器人熱潮背后的真正原因,黃曉慶認(rèn)為毫無疑問是AI大模型的突破,對(duì)于人形機(jī)器人這些年產(chǎn)業(yè)化的艱難歷程,他認(rèn)為主要原因正是“人工智能不到位”。
“過去很多人做人形足式機(jī)器人,直到現(xiàn)在也沒能實(shí)現(xiàn)產(chǎn)業(yè)化,原因是人工智能沒有到位,現(xiàn)在人工智能到位了,帶來的直接結(jié)果是,我們能造出和人一樣聰明的機(jī)器人了。”
實(shí)際上,在今年上半年,硅谷的不少投資人已經(jīng)開始關(guān)注大模型應(yīng)用類的創(chuàng)業(yè)項(xiàng)目,例如用大模型解決管理問題,用大模型解決營(yíng)銷問題,甚至用大模型做人類助手,而用大模型最終來解決機(jī)器人的問題,實(shí)際上是多模態(tài)大模型。
達(dá)闥早在2020年就開始接觸深度學(xué)習(xí),到2021年,達(dá)闥的團(tuán)隊(duì)已經(jīng)在用深度學(xué)習(xí)訓(xùn)練機(jī)器人。
黃曉慶認(rèn)為,“在用深度學(xué)習(xí)訓(xùn)練機(jī)器人這方面,中國(guó)的團(tuán)隊(duì)一點(diǎn)都不落后于國(guó)外,由于一上來我們就是結(jié)合4G技術(shù)開展的研究,我們其實(shí)少走了很多彎路。”
2023年6月,達(dá)闥海睿操作系統(tǒng)更新到5.5版本,在這一版本中,達(dá)闥融入了自主研發(fā)的RobotGPT,“大模型+柔性關(guān)節(jié)控制”這兩項(xiàng)被黃曉慶視為未來機(jī)器人的重要技術(shù)支柱,成了海睿OS 5.5的獨(dú)特技能。
這也是黃曉慶眼中具身智能該有的樣子。
對(duì)于大模型在人工智能領(lǐng)域帶來的技術(shù)突破,黃曉慶還有另一個(gè)更為樂觀的看法:
“很多人沒有意識(shí)到一點(diǎn)——ChatGPT發(fā)布后,我們就已經(jīng)突破了人工智能的奇點(diǎn),不是奇點(diǎn)已近,而是奇點(diǎn)已來,奇點(diǎn)之后,機(jī)器人保姆很快就會(huì)出現(xiàn)。”
黃曉慶認(rèn)為,2023年必將會(huì)是載入史冊(cè)的一年,而他更愿意將這一年稱之為“機(jī)器人覺醒之年”。
好文章,需要你的鼓勵(lì)
新加坡國(guó)立大學(xué)研究團(tuán)隊(duì)開發(fā)了SPIRAL框架,通過讓AI與自己對(duì)弈零和游戲來提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡(jiǎn)單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語(yǔ)言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語(yǔ)言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。
關(guān)注智造、硬件、機(jī)器人。