作者| 金旺
欄目| 機(jī)器人新紀(jì)元
2024年12月3日,美國斯坦福大學(xué)教授李飛飛第一個空間智能項目終于趕在年終歲末上線。
僅憑上傳的一張圖片,就可以生成一個可交互3D線上空間,這是李飛飛World Labs團(tuán)隊帶給全球科技領(lǐng)域的第一個空間智能禮物。
在李飛飛這個項目上線不久前,位于大洋彼岸的中國上海,一家中國科技公司也完成了他們一次關(guān)鍵技術(shù)迭代,隨著這次技術(shù)迭代一同面世的,是他們內(nèi)部籌劃多年的3D激光雷達(dá)產(chǎn)品——SLAMTEC Aurora。
與市面上大多數(shù)激光雷達(dá)不同的是,這款產(chǎn)品不需要基于任何特定平臺、也沒有什么安裝要求,甚至不需要進(jìn)行二次配置,只要通電,Aurora就可以進(jìn)入工作狀態(tài)。
在拿到這款產(chǎn)品后,他們的測試團(tuán)隊先是拿著Aurora在一個多樓層的大型商場進(jìn)行了逐層建圖,后又將它帶上了汽車,開車沿著上海內(nèi)環(huán)跑了整整一圈。
陳士凱說,“當(dāng)我們開車沿著上海內(nèi)環(huán)線跑完一圈后,我們發(fā)現(xiàn),帶在車上的Aurora已經(jīng)把整個內(nèi)環(huán)線的‘高清地圖’構(gòu)建了出來。”
這是思嵐科技成立的第十二年,是陳士凱和他的團(tuán)隊進(jìn)入這一領(lǐng)域的第十六年。
在過去這十幾年里,陳士凱已經(jīng)數(shù)不清究竟做了多少款激光雷達(dá),嚴(yán)格意義上來說,思嵐科技并不是一家激光雷達(dá)公司,他們最初的定位是做空間定位導(dǎo)航。
不過,陳士凱一直覺得,空間定位導(dǎo)航這個詞太技術(shù)了,也無法很好地表達(dá)思嵐科技所做的事,直到今年,受李飛飛World Labs的啟發(fā),陳士凱找到了一個可以更精準(zhǔn)解釋他們在做的事的定位,空間感知。
和李飛飛的空間智能不同的是,陳士凱的空間感知是通過技術(shù)手段真真切切地將現(xiàn)實世界空間地圖“復(fù)刻”到虛擬世界的一條路徑。
在Aurora面世后,這條路徑成了具身智能機(jī)器人邁入現(xiàn)實世界的重要一步。
01 算力的量變和質(zhì)變
2009年,智能手機(jī)剛剛面世,移動互聯(lián)網(wǎng)僅僅掀開了扉頁,國內(nèi)硬件創(chuàng)業(yè)潮還未開啟,商業(yè)機(jī)器人依然是一件遙不可及的事情,這一年,身在當(dāng)時全球科技霸主英特爾公司的陳士凱,有了創(chuàng)業(yè)的想法。
陳士凱形容自己是一個“不安分”的人,從小就喜歡動手做一些電子小玩意,大學(xué)進(jìn)入上海交通大學(xué)后,本想在大三分專業(yè)時進(jìn)入軟硬結(jié)合的自動化專業(yè),卻又由于種種原因,選了更適合自己的計算機(jī)專業(yè)。
更重要的是,陳士凱身邊還有著一群同樣“不安分”的人,這讓他們在那個大多數(shù)人選擇進(jìn)入外企謀一份不錯的工作或借著互聯(lián)網(wǎng)熱潮創(chuàng)業(yè)做網(wǎng)游的年代,有了創(chuàng)業(yè)做更硬核的機(jī)器人的想法。
2009年的國內(nèi)市場,雖然沒有什么機(jī)器人產(chǎn)業(yè),甚至沒有很好的機(jī)器人創(chuàng)業(yè)環(huán)境,但當(dāng)時的陳士凱從PC產(chǎn)業(yè)的發(fā)展中發(fā)現(xiàn),機(jī)器人這一終端產(chǎn)品的終極形態(tài)即將到來。
這樣的判斷源于當(dāng)時他在行業(yè)中看到的一些變化。
首先是PC產(chǎn)業(yè)已經(jīng)顯現(xiàn)出了沒落的趨勢,大家開始思考下一個有意義的時代、可能改變?nèi)祟惿畹漠a(chǎn)業(yè)是什么。
智能家居是當(dāng)時很多人看好的一個未來產(chǎn)業(yè),傳奇人物、蘋果iPod 之父Tony Fadell正是在2010年創(chuàng)業(yè)做了智能家居項目Nest,這家公司幾年后被谷歌收購,并由此掀起了智能家居熱潮。
此外,科大訊飛的語音合成技術(shù)在2008年首次超過普通人說話水平,后經(jīng)上海世博會上的產(chǎn)品展示,開始嶄露頭角,人工智能技術(shù)率先在語音合成領(lǐng)域得到驗證。
對于陳士凱而言,這些都不是他想要做的,但這樣的變化讓他意識到:
“智能家居本質(zhì)上是對PC的一次應(yīng)用,或者說是計算設(shè)備的一次外延,而要讓智能家居有更高的靈活性,機(jī)器人就成了一個很好的載體;
人工智能技術(shù)未來一定會得到普及,而人工智能技術(shù)的終局,也將會是機(jī)器人。”
此外,當(dāng)時身在英特爾的陳士凱還意識到了另外一個重要趨勢,那就是整個IT產(chǎn)業(yè)中的算力正在愈發(fā)具有可移動性。
如果說從基礎(chǔ)算力到可移動算力是一次量變,那么,算力從可移動到自主移動將是一次質(zhì)變的飛躍。
于是,“不安分”的陳士凱拉著一群“不安分”的好友,開始研究如何做出一款家用機(jī)器人。
這一年還有另一個時代背景是,創(chuàng)客運動開始在全球興起,一個名為Maker faire活動席卷全球,也是在這時,互聯(lián)網(wǎng)上一個智能垃圾桶的演示視頻,讓陳士凱有了興趣。
那是一位不喜歡總是要跑到垃圾桶旁邊丟垃圾的日本極客的奇思妙想,他將自己家中的垃圾桶改造成了一個可以自主移動的智能垃圾桶,當(dāng)你隨意丟出垃圾時,它會像接球一樣接到你丟出的垃圾。
這個智能垃圾桶,本質(zhì)上已經(jīng)是一個機(jī)器人,正是這樣一個機(jī)器人讓陳士凱更加確信,自主移動是研發(fā)機(jī)器人繞不開的問題。
然而,在那個機(jī)器人蠻荒時代,行業(yè)里并沒有很好的移動機(jī)器人解決方案,即便是掃地機(jī)器人鼻祖iRobot,當(dāng)時使用的移動方案還停留在隨機(jī)碰撞方案,自主移動對于那時的機(jī)器人還是天方夜譚。
既然繞不過去,那么,陳士凱的團(tuán)隊該用什么辦法來解決這個問題呢?
02 讓機(jī)器人有激光雷達(dá)可用
2020年10月,iPhone 12正式發(fā)布,和大多數(shù)通過增加攝像頭數(shù)量來提升智能手機(jī)攝影能力的方案不同,蘋果為iPhone 12 Pro系列產(chǎn)品增加入了一顆激光雷達(dá),由此實現(xiàn)了景深測量和3D掃描建圖。
這樣的激光雷達(dá)應(yīng)用,在十年前是無法想象的。
如果回到十年前,激光雷達(dá)更多是被應(yīng)用在軍事和工業(yè)領(lǐng)域,動輒大幾萬的售價,勸退了很多想要將它應(yīng)用到消費硬件中的團(tuán)隊。
說起來,激光雷達(dá)是上世紀(jì)五六十年代出現(xiàn)的技術(shù),最早可以追溯到1960年美國休斯實驗室發(fā)明的人類歷史上第一臺激光器,關(guān)于激光雷達(dá)的理論基礎(chǔ),在2010年前后已經(jīng)相當(dāng)詳實,但真正要在消費領(lǐng)域應(yīng)用,當(dāng)時有參考價值的文獻(xiàn)寥寥無幾。
陳士凱認(rèn)為,激光雷達(dá)是機(jī)器人自主移動解決方案的關(guān)鍵。
為此,他在那段時間里翻閱了很多文獻(xiàn)資料,直到看到一篇關(guān)于簡易激光測距的論文,才找到了方向。
在這篇論文中,作者簡述了一種通過一支激光筆、一個羅技攝像頭,基于三角測距原理實現(xiàn)的激光測距,不同于復(fù)雜的ToF原理,基于這種方法進(jìn)行激光測距,硬件成本被控制到了300元左右。
陳士凱和他的團(tuán)隊在工作之余,開始嘗試將這套系統(tǒng)復(fù)制出來,等到他們將這套系統(tǒng)復(fù)制出來后發(fā)現(xiàn),測距效果遠(yuǎn)超他們的預(yù)期,于是,他們又基于這套系統(tǒng)向前邁了一步——通過將激光筆固定在電機(jī)上形成旋轉(zhuǎn)器件,由此實現(xiàn)激光掃描圖。
更重要的是,陳士凱發(fā)現(xiàn),他們后來由此設(shè)計出的激光雷達(dá),并不比當(dāng)時商用市場買來的激光雷達(dá)差多少。這讓陳士凱下定決心要研發(fā)一款可以用于消費級機(jī)器人的激光雷達(dá),以此解決機(jī)器人最關(guān)鍵的自主移動難題。
從頭自研一款激光雷達(dá),還是為了應(yīng)用到消費級機(jī)器人上,讓機(jī)器人擁有自主移動能力,這件事兒在那個年代聽起來很瘋狂,尤其是科研領(lǐng)域還沒有什么能夠拿來做參考的學(xué)術(shù)成果,這讓這件事變得難上加難。
對于已經(jīng)摸到方向的陳士凱來說,當(dāng)時擺在他們面前的是三個現(xiàn)實問題:
第一,如何將激光筆+攝像頭這個雛形方案做得足夠小,小到可以裝到小型機(jī)器人里;
第二,如何讓攝像頭滿足激光雷達(dá)掃描過程中需要的采集幀率的需求,要知道,即便是今年蘋果發(fā)布的iPhone 16,攝像幀率最高也只能到120FPS,而激光雷達(dá)所需要的幀率至少要在1000FPS以上;
第三,如何將硬件成本控制在百元級,讓它適用于消費產(chǎn)品。
當(dāng)?shù)贸鲞@樣的結(jié)論,陳士凱和他的團(tuán)隊是近乎絕望的,尤其是當(dāng)時在國內(nèi)芯片供應(yīng)鏈中,想要找到一家能夠在這樣短時間內(nèi)研發(fā)出提升10倍幀率的攝像頭幾乎是不可能的事。
山重水復(fù)疑無路,絕處往往也會有一線生機(jī),對于陳士凱而言,這一線生機(jī)由Neato帶來。
Neato是掃地機(jī)器人發(fā)展史上另一個無法忽視的團(tuán)隊,這個團(tuán)隊成立于2005年,雖然他們成立時間不如iRobot早,但是他們卻是最早將激光雷達(dá)應(yīng)用到掃地機(jī)器人的廠商。
2008年,Neato開發(fā)出了一款硬件成本在200元左右的激光雷達(dá),并在之后發(fā)表的一篇論文中闡述了一種通過消費級CMOS芯片實現(xiàn)激光測距的方法。
由于Neato作為一家商業(yè)公司,相關(guān)專利還在申請中,論文中并未過多解釋實現(xiàn)方法,但這已經(jīng)足夠證明,消費級CMOS確實可以用于激光雷達(dá)的研發(fā)。
那段時間里,陳士凱將市面上能找到的所有CMOS芯片的數(shù)據(jù)手冊拿來翻了個遍,后來是在機(jī)緣巧合之下發(fā)現(xiàn),基于非常規(guī)用法和特殊配置,可以讓CMOS芯片超性能工作,但這往往不在芯片廠商原本支持的工作范圍之內(nèi)。
突破了激光雷達(dá)的信號采集幀率問題后,陳士凱和他的團(tuán)隊一步一步找到了自己的產(chǎn)品研發(fā)節(jié)奏,并在2012年底完成了第一代激光雷達(dá)產(chǎn)品RPLIDAR A1。
RPLIDAR A1在2014年正式面世,不僅實現(xiàn)了6米半徑范圍內(nèi)2000次/秒激光測距,還將激光雷達(dá)的價格從萬元打到了2000元,兩年之后,經(jīng)過重新設(shè)計的A1更是將價格打到了900元。
激光雷達(dá)至此不再讓機(jī)器人高不可攀,A1也成了思嵐科技改寫機(jī)器人歷史的起點。
03 干掉激光雷達(dá),改寫機(jī)器人歷史
2015年,隨著產(chǎn)業(yè)鏈成熟和各種新奇的想法塵埃落定,屬于那一代人的創(chuàng)客運動接近尾聲,國內(nèi)硬件創(chuàng)業(yè)進(jìn)入集中爆發(fā)期。
中國商用機(jī)器人產(chǎn)業(yè)大門在這一年緩緩開啟,尤其是各類服務(wù)機(jī)器人在這一年開始涌入市場。
第一批涌入商用場景的服務(wù)機(jī)器人,大都遇到了一個經(jīng)典問題——在一個千平、乃至萬平的商業(yè)大場景地圖構(gòu)建過程中,通常會遇到各種環(huán)形走廊,機(jī)器人在經(jīng)過這些環(huán)形走廊時,在機(jī)器人運行界面上,構(gòu)建出的環(huán)路地圖總是無法首尾相連。
這就是機(jī)器人的閉環(huán)問題,究其原因,是因為當(dāng)時激光雷達(dá)的閉環(huán)檢測理論不夠成熟,由此也使得那些年的機(jī)器人定位導(dǎo)航系統(tǒng)備受詬病。
陳士凱告訴我們,其實這個問題解決起來并不難,大家當(dāng)時都能想到的是,用粒子濾波方案來解決這個問題。
對于這一方案,陳士凱做了一個通俗的比喻,一個人畫地圖總會有誤差,如果幾十、甚至上百人同時畫一張地圖,我們就可以以上帝視角,從其中篩選出最符合真實場景的地圖。
不過,通過粒子濾波方案雖然在一定程度上可以解決地圖的閉環(huán)問題,但也帶來了另一個問題——算力問題。
這里就不得不提到機(jī)器人另一關(guān)鍵要素,操作系統(tǒng)。
2007年,斯坦福大學(xué)人工智能實驗室里誕生了一個機(jī)器人開源操作系統(tǒng)項目,這個項目的創(chuàng)建者Willow Garage給它取了一個通俗易懂的名字Robot Operating System,這就是現(xiàn)在在全球機(jī)器人市場得到廣泛使用的ROS系統(tǒng)。
不過,陳士凱的團(tuán)隊在做技術(shù)開發(fā)時,并沒有用這個操作系統(tǒng)。
其一是因為思嵐科技團(tuán)隊前身創(chuàng)建較早,2009年的ROS系統(tǒng)還沒有完整的代碼庫,無法在市場中得到廣泛使用。
其二是陳士凱后來發(fā)現(xiàn),ROS當(dāng)時的目標(biāo)并不是做成更具商業(yè)價值的產(chǎn)品,而是一個用于做技術(shù)研究的產(chǎn)物,因而ROS不會考慮很多商業(yè)問題,例如它不會考慮內(nèi)存爆炸問題——機(jī)器人中的程序一直在跑,占用內(nèi)存不斷增長,最終就會導(dǎo)致系統(tǒng)崩潰。
因而,原生的ROS系統(tǒng)往往需要非常豪華的硬件配置,以一臺掃地機(jī)器人為例,當(dāng)年如果采用ROS系統(tǒng),至少需要一顆英特爾的高性能處理器、內(nèi)存也需要3-4G,整個算力存儲成本合下來要兩三千。
更重要的是,在創(chuàng)業(yè)之前,陳士凱在英特爾一個很特別的軟件研發(fā)部門工作,他在這個部門負(fù)責(zé)的工作是通過軟件優(yōu)化讓硬件跑出更高的性能,這就是軟硬結(jié)合的理念。
不過,后來是另一家全球科技巨頭——蘋果將這一理念做到了全球之最。
正是在英特爾這段工作經(jīng)歷,讓陳士凱認(rèn)識到,未來真正能賦予機(jī)器人靈魂、改變機(jī)器人歷史的,是軟件,而非硬件。
于是,在研發(fā)機(jī)器人、解決機(jī)器人亟需的激光雷達(dá)時,思嵐科技內(nèi)部也并行立項了一個研發(fā)機(jī)器人系統(tǒng)的項目,也就是思嵐科技的定位導(dǎo)航系統(tǒng)。
思嵐科技的定位導(dǎo)航系統(tǒng)一方面也是面向行業(yè)的一個開源系統(tǒng),另一方面是思嵐科技如今諸如激光雷達(dá)、機(jī)器人移動底盤和開發(fā)平臺軟硬結(jié)合的關(guān)鍵。
陳士凱告訴我們,“思嵐科技的機(jī)器人操作系統(tǒng)走的路子有點像蘋果的iOS,雖然由于種種原因沒能像安卓系統(tǒng)一樣成為機(jī)器人領(lǐng)域全球廣泛使用的操作系統(tǒng),但卻成了思嵐科技各產(chǎn)品線的一個核心技術(shù)壁壘。”
思嵐科技的定位導(dǎo)航系統(tǒng)自2014年隨RPLIDAR A1以模塊化方案一并發(fā)布后,如今已經(jīng)經(jīng)歷了三個大的版本,分別是:
在2016年研發(fā)完成的能夠滿足商用場景萬平建圖需求的2.0系統(tǒng),在2019年引入在線閉環(huán)和自學(xué)習(xí)方案的3.0系統(tǒng),以及在今年實現(xiàn)的以視覺為主,視覺、激光、慣導(dǎo)多傳感器融合的4.0系統(tǒng)。
搭載思嵐科技4.0版本定位導(dǎo)航系統(tǒng)的模塊化產(chǎn)品,就是前文提到的3D激光雷達(dá)產(chǎn)品——SLAMTEC Aurora,而Aurora已經(jīng)不只是一個解決方案,陳士凱稱之為“思嵐科技的一次自我革命。”
在以往面對商用場景時,大場景建圖面積被視為一個重要指標(biāo),陳士凱稱,“如果按這個邏輯,在Aurora已經(jīng)測試過的場景中,實現(xiàn)千萬平米建圖已經(jīng)完全沒有問題。”
據(jù)陳士凱介紹,“思嵐科技團(tuán)隊在將Aurora裝到汽車上并在上海內(nèi)環(huán)測試時候,上海內(nèi)環(huán)線全長是47.7公里,我們在整個測試過程中將內(nèi)環(huán)線周邊全部房屋建筑都構(gòu)建到了3D地圖中。”
在此過程中,激光雷達(dá)的建圖邏輯已經(jīng)悄然改變。
在行業(yè)中已經(jīng)摸爬滾打十幾年的陳士凱一個深刻的感受是,“行業(yè)真正需要的并不是激光雷雷達(dá),而是空間感知能力。”
基于這樣的認(rèn)知,陳士凱向我們透露,“我們未來的目標(biāo)是干掉激光雷達(dá)這個品類。”
04 什么是具身智能的當(dāng)下?
2022年11月,ChatGPT面世,人工智能進(jìn)入到一個全新的時刻。
信奉軟硬結(jié)合的陳士凱一直認(rèn)為,“一個不那么完美的硬件結(jié)合一個足夠智能的系統(tǒng),往往會帶來真正的技術(shù)變革。”
毫無疑問,ChatGPT就是這樣一個足夠智能的系統(tǒng)。
因而,在ChatGPT面世后,思嵐科技團(tuán)隊開始基于大模型做各種測試,例如讓大模型模擬一個機(jī)器人,向它輸入一個攝像頭畫面并讓它輸出一個控制指令。
當(dāng)思嵐科技團(tuán)隊通過語音指令讓大模型找出客廳中的冰箱時,大模型會先判斷這是一個客廳,然后觀察視野范圍內(nèi)有沒有冰箱,如果沒有冰箱它會轉(zhuǎn)過頭來再探索背面的空間,看是否有冰箱,這是以往的算法所無法實現(xiàn)的。
陳士凱當(dāng)時對此的分析是,“以往的機(jī)器人對你輸入的指令本質(zhì)上是進(jìn)行判斷,它并不具有歷史經(jīng)驗,但是深度學(xué)習(xí)讓機(jī)器人有了這樣的可能。”
大模型讓機(jī)器人擁有了更擬人的思考能力,實際上,如今的Aurora在導(dǎo)航建圖上,同樣擁有了擬人的邏輯。
Aurora的擬人邏輯能力,在思嵐內(nèi)部其實也經(jīng)歷過多次蛻變。
時至今日,通過激光雷達(dá)進(jìn)行導(dǎo)航建圖已被驗證,成本問題也早已不再是激光雷達(dá)進(jìn)入機(jī)器人領(lǐng)域,乃至消費市場的瓶頸,但是激光雷達(dá)有著自身的先天缺陷。
例如面對長走廊只能采集到兩條平行的直線,面對高地起伏的路面,除非價格昂貴的3D激光雷達(dá),普通激光雷達(dá)難以進(jìn)行準(zhǔn)確識別。
正因如此,早在2015年,思嵐科技內(nèi)部就成立了視覺方案研究小組,開始重新基于視覺算法研究導(dǎo)航建圖方案。
也是在這一年,思嵐科技內(nèi)部就有了一個名為Aurora的項目,當(dāng)時陳士凱基于第一性原理在考慮空間定位產(chǎn)品的終極形態(tài)時,他認(rèn)為,”未來激光雷達(dá)一定會是一個通電就能用的獨立設(shè)備。“
第一款實現(xiàn)陳士凱這一構(gòu)想的產(chǎn)品是思嵐科技2018年對外發(fā)布的Mapper,不過,這款產(chǎn)品構(gòu)建出的依然是二維地圖,無法識別出高低起伏的路面。
直到2024年年初,基于視覺、激光、慣導(dǎo)多傳感器融合思路的3D導(dǎo)航建圖產(chǎn)品Aurora正式立項。
在這代產(chǎn)品中,思嵐科技做了另一個大膽的嘗試,引入深度學(xué)習(xí)算法。
陳士凱告訴我們,“二維激光的結(jié)構(gòu)簡單,能夠提取的特征數(shù)據(jù)并不多,因而行業(yè)里基于激光的深度學(xué)習(xí)研究已經(jīng)觸碰到了行業(yè)前沿,另一方面,在引入視覺方案并以視覺方案為主導(dǎo)后,我們開始通過深度學(xué)習(xí)進(jìn)行視覺算法的研究。”
自2015年重新研究視覺方案時,思嵐科技團(tuán)隊發(fā)現(xiàn),攝像頭直接影響了視覺方案最終的表現(xiàn)。
當(dāng)時市面上已經(jīng)有不少開源視覺算法,基于開源算法跑下來的數(shù)據(jù)各種好,等到基于攝像頭進(jìn)行實際場景測試時,跑出來的數(shù)據(jù)并不理想,這顯然是攝像頭“有問題”。
“當(dāng)時市面上沒有一款攝像頭能滿足我們的需求,”回憶起攻克視覺算法在導(dǎo)航建圖方面的難題時,陳士凱如是說。
為此,思嵐科技團(tuán)隊最早在進(jìn)行視覺算法研究之前,先是從攝像頭的研發(fā)入手,直接參與到了硬件設(shè)計和調(diào)校中,將研發(fā)出符合自己需求的攝像頭交到供應(yīng)鏈廠商進(jìn)行代工、生產(chǎn)。
這既符合以技術(shù)立命的思嵐科技的調(diào)性,也符合思嵐科技軟硬結(jié)合的發(fā)展思路,最終也成了2024年10月發(fā)布的Aurora的技術(shù)壁壘。
2024年10月,思嵐科技Aurora正式發(fā)布,Aurora的發(fā)布再一次將3D導(dǎo)航建圖方案的成本從萬元級打到了千元級,這讓思嵐科技對這款產(chǎn)品有了很高的期待,期待它可以為整個行業(yè)開啟3D建圖定位的新紀(jì)元。
此外,在Aurora對外發(fā)布時,陳士凱也給了它一個新的標(biāo)簽——具身智能。
前不久,特斯拉官網(wǎng)上發(fā)布了一個新視頻,這個視頻展現(xiàn)了特斯拉的人形機(jī)器人通過內(nèi)部視覺系統(tǒng)進(jìn)行環(huán)境地圖構(gòu)建、路徑規(guī)劃,并基于此執(zhí)行最終目標(biāo)任務(wù)的能力。
陳士凱看到這段視頻后發(fā)現(xiàn),“特斯拉已經(jīng)開始考慮落地到實際場景中的一些更為現(xiàn)實的問題,地圖構(gòu)建、路徑規(guī)劃就是其中的一個關(guān)鍵問題,而特斯拉在視頻中展現(xiàn)的這套視覺系統(tǒng)其實與思嵐科技Aurora中采用的深度學(xué)習(xí)+視覺+激光雷達(dá)的方案有諸多相似之處。”
而談到具身智能,陳士凱認(rèn)為,“機(jī)械臂+輪式底盤會是這幾年在實際商業(yè)場景中更有價值的形態(tài),思嵐科技所擅長的是為這些機(jī)器人廠商提供包括運動控制、導(dǎo)航建圖在內(nèi)的空間感知方案,機(jī)器人廠商則可以將更多精力放到在工廠搬運環(huán)節(jié)更需要的靈巧手的研發(fā)上。”
據(jù)陳士凱透露,基于這樣的思路,思嵐科技已經(jīng)參與到了諸多具身智能機(jī)器人的場景落地中。
好文章,需要你的鼓勵
新加坡國立大學(xué)研究團(tuán)隊開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實驗顯示,僅訓(xùn)練AI玩簡單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實現(xiàn)37.9%的精度提升,并在真實設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊通過對比實驗發(fā)現(xiàn),經(jīng)過強化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時刻"現(xiàn)象,但這些自我糾錯行為并不能實際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗證差距",即生成答案的能力強于驗證答案質(zhì)量的能力,且模型在自我驗證時無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動態(tài)稀疏性實現(xiàn)大語言模型訓(xùn)練加速1.6倍,計算成本降低2.2倍。該方法使用SVD稀疏性估計器智能選擇重要計算部分,在保持模型性能的同時顯著提升訓(xùn)練效率,已在多個任務(wù)上驗證有效性。
關(guān)注智造、硬件、機(jī)器人。