2025年6月,國(guó)內(nèi)具身智能領(lǐng)域宇樹(shù)科技、非夕科技、銀河通用三起億級(jí)、十億級(jí)重磅融資幾乎同時(shí)官宣,具身智能熱潮繼續(xù)升溫。
那么被視為全球科技競(jìng)爭(zhēng)高地的具身智能產(chǎn)業(yè),現(xiàn)在究竟發(fā)展如何,又有哪些瓶頸?
6月24日,2025阿里云中企出海峰會(huì)·深圳站,在廣東省人工智能與機(jī)器人產(chǎn)業(yè)聯(lián)盟指導(dǎo)下,阿里云組織了一場(chǎng)以具身智能為主題的研討會(huì)。
在這場(chǎng)研討會(huì)上,十四位具身智能產(chǎn)業(yè)不同領(lǐng)域的關(guān)鍵從業(yè)者,就具身智能的數(shù)據(jù)、架構(gòu)和商業(yè)路徑三大話題進(jìn)行了一場(chǎng)激烈的研討,并在研討中給出了自己的答案。
01 數(shù)據(jù)難題:線下采集 or 仿真合成
據(jù)IDC此前預(yù)測(cè)數(shù)據(jù)顯示,2024年全球?qū)⑸?59.2ZB數(shù)據(jù),2028年將增加一倍以上,達(dá)到384.6ZB,復(fù)合增長(zhǎng)率為24.4%。
然而,數(shù)據(jù)量不足卻依舊是具身智能領(lǐng)域一大難題。
據(jù)中國(guó)信通院聯(lián)合北京人形機(jī)器人創(chuàng)新中心發(fā)布的《具身智能發(fā)展報(bào)告(2024年)》指出,缺乏數(shù)據(jù)已經(jīng)成為具身智能能力突破的重要壁壘。
這時(shí),通過(guò)機(jī)器人在真實(shí)環(huán)境中采集數(shù)據(jù)和在虛擬環(huán)境合成仿真數(shù)據(jù)就成了當(dāng)下破解具身智能數(shù)據(jù)難題的兩條主流路徑。
京津冀智能制造裝備產(chǎn)業(yè)聯(lián)盟秘書(shū)長(zhǎng)張歡喜早在2006年就進(jìn)入了工業(yè)機(jī)器人領(lǐng)域,他在研討會(huì)中指出:
“機(jī)器人產(chǎn)業(yè)早在諸如工業(yè)機(jī)器人和工業(yè)自動(dòng)化解決方案發(fā)展過(guò)程中就遇到了數(shù)據(jù)問(wèn)題,當(dāng)時(shí)工業(yè)機(jī)器人對(duì)數(shù)據(jù)要求不算高,通過(guò)并聯(lián)識(shí)別等相關(guān)技術(shù)對(duì)機(jī)器人進(jìn)行訓(xùn)練,就能有不錯(cuò)的成效。但隨著具身智能對(duì)機(jī)器人能力要求越來(lái)越高,僅僅依靠這類(lèi)傳統(tǒng)模式已經(jīng)無(wú)法適用。”
要想大幅提升具身智能機(jī)器人的能力,數(shù)據(jù)驅(qū)動(dòng)、模型驅(qū)動(dòng)就成了必然的發(fā)展方向。
正因如此,越來(lái)越多具身智能團(tuán)隊(duì)開(kāi)始在全國(guó)各地建數(shù)據(jù)采集場(chǎng),例如智元機(jī)器人在上海投建了具身智能機(jī)器人的數(shù)據(jù)采集場(chǎng),帕西尼感知科技也在天津投建了數(shù)據(jù)采集場(chǎng)。
要讓具身智能在真實(shí)物理世界中具備交互能力,在真實(shí)世界中采集高質(zhì)量數(shù)據(jù)固然重要,但由此產(chǎn)生的數(shù)據(jù)不僅成本高昂,而且數(shù)據(jù)量往往難以形成規(guī)模,通過(guò)仿真數(shù)據(jù)訓(xùn)練具身智能機(jī)器人,就成了另一條主流路徑。
跨維智能創(chuàng)始人兼CEO賈奎是這條技術(shù)路徑的絕對(duì)擁躉。賈奎在研討會(huì)上指出,“與大語(yǔ)言模型要學(xué)習(xí)的智能不同,具身智能本質(zhì)上是世界物理規(guī)律的智能,從廣義空間來(lái)看,更像是一個(gè)牛頓體系的智能。”
要想實(shí)現(xiàn)這樣的具身智能,賈奎認(rèn)為,“唯一的方式就是建立一個(gè)引擎世界,將物理世界、物理規(guī)律,以及機(jī)器人在這個(gè)世界中與物體、環(huán)境的交互方式以仿真形式建立起來(lái),這樣的引擎才是具身智能機(jī)器人最佳的訓(xùn)練場(chǎng),這與地球在過(guò)去幾十億年演化出了不同的生物一樣。”
當(dāng)然,大語(yǔ)言模型仍在具身智能產(chǎn)業(yè)中發(fā)揮著作用。
成立于2024年的流昇科技是一家致力于提高人工智能通用性的企業(yè),流昇科技CEO林澤騰在研討會(huì)上分享稱,“在觀察到中國(guó)企業(yè)出海,尤其是中國(guó)智能硬件產(chǎn)品出海時(shí),普遍會(huì)遇到語(yǔ)言難題后,如何讓中國(guó)企業(yè)的智能硬件產(chǎn)品賣(mài)到不同的國(guó)家和地區(qū),甚至讓受教育程度不高的當(dāng)?shù)厝嗣裼蒙现袊?guó)產(chǎn)品,就成了我們創(chuàng)業(yè)之初思考的問(wèn)題。”
為此,流昇科技團(tuán)隊(duì)找來(lái)了在全球廣為流傳的經(jīng)典文獻(xiàn),這些經(jīng)典文獻(xiàn)在傳播到不同國(guó)家和地區(qū)時(shí)會(huì)被翻譯為當(dāng)?shù)卣Z(yǔ)言,這樣的語(yǔ)言體系有時(shí)甚至都不是以文字形式呈現(xiàn),而是以音頻形式呈現(xiàn),流昇科技不斷將這些文獻(xiàn)收集起來(lái)。
據(jù)林澤騰透露,他們當(dāng)時(shí)一共在全球收集了4000多種語(yǔ)言的全球經(jīng)典文獻(xiàn),通過(guò)數(shù)據(jù)清洗,將能夠用來(lái)做訓(xùn)練的四分之一的數(shù)據(jù)保留,并將這些數(shù)據(jù)與300多種國(guó)際通用語(yǔ)言進(jìn)行對(duì)齊、清洗掉不合適的內(nèi)容、找人工團(tuán)隊(duì)將數(shù)據(jù)進(jìn)行補(bǔ)全,最終這些數(shù)據(jù)被用來(lái)訓(xùn)練大語(yǔ)言模型。
據(jù)悉,流昇科技由此訓(xùn)練出的一款名為“萌萌心語(yǔ)”的產(chǎn)品可以識(shí)別4017種語(yǔ)言,支持1107種語(yǔ)言的同時(shí)翻譯轉(zhuǎn)換,可用于諸如割草機(jī)器人、掃地機(jī)器人等具身智能機(jī)器人產(chǎn)品出海。
阿里云在過(guò)往具身智能爆火的這一年里,也已經(jīng)服務(wù)了不少具身智能企業(yè),尤其在數(shù)據(jù)管線服務(wù)上做了大量工作。
阿里云智能集團(tuán)公共云事業(yè)部華南大區(qū)高級(jí)解決方案架構(gòu)師武潤(rùn)鵬就指出:
“具身智能的數(shù)據(jù)管線可以分為數(shù)據(jù)采集、數(shù)據(jù)清洗和預(yù)處理、數(shù)據(jù)增廣、數(shù)據(jù)質(zhì)量控制、數(shù)據(jù)標(biāo)注、數(shù)據(jù)存儲(chǔ)與檢索、數(shù)據(jù)權(quán)限劃分等環(huán)節(jié),阿里云在這些相對(duì)共性的需求或者說(shuō)面臨的挑戰(zhàn)上面基于云上豐富的產(chǎn)品線已經(jīng)構(gòu)建了相對(duì)成熟的解決方案。
這些方案覆蓋了從存儲(chǔ)到異構(gòu)算力,從模型全生命周期的管控到數(shù)據(jù)權(quán)限的劃分,由此讓具身智能企業(yè)能夠從繁瑣的infra工作中抽身,把寶貴的時(shí)間精力放到最核心的業(yè)務(wù)研發(fā)上,來(lái)快速迭代自己的產(chǎn)品。”
02 具身架構(gòu):大小腦 or 端到端
2023年7月28日,谷歌DeepMind推出了一款新的機(jī)器人模型Robotics Transformer 2,也就是RT-2,這一視覺(jué)-語(yǔ)言-動(dòng)作大模型表現(xiàn)出了不錯(cuò)的泛化性,也成了在具身智能領(lǐng)域關(guān)注度頗高的端到端具身大模型。
端到端是當(dāng)下具身智能領(lǐng)域一條主流的技術(shù)路徑,這條技術(shù)路徑的一大特性是,將視覺(jué)、語(yǔ)言、動(dòng)作模型融合到了一個(gè)模型中,通過(guò)這一個(gè)特定模型,驅(qū)動(dòng)具身智能機(jī)器人執(zhí)行任務(wù)。
區(qū)別于端到端具身大模型的另一條主流技術(shù)路徑是,大小腦協(xié)作。
深圳市人工智能與機(jī)器人研究院研究員王凡更愿意將大小腦協(xié)作稱作分塊式路徑,王凡將這一類(lèi)智能體的模式總結(jié)為,將小腦作為工具,用大腦調(diào)用小腦的模式。
在腦科學(xué)中有一個(gè)概念叫作代償機(jī)制,具體是指大腦在受到損傷或功能障礙時(shí),可以通過(guò)重新分配或激活其他神經(jīng)通路和資源來(lái)維持或恢復(fù)被損傷的功能的現(xiàn)象。
王凡指出,“這是現(xiàn)在大小腦協(xié)作的具身智能體系中所不具備的,而如何將代償機(jī)制與分塊模式進(jìn)行結(jié)合,是我們研究院現(xiàn)在重點(diǎn)關(guān)注的一個(gè)領(lǐng)域,也是我們認(rèn)為具身智能未來(lái)很有潛力的一種模式。”
對(duì)于端到端模型的局限性,林澤騰同樣深有體會(huì)。
據(jù)林澤騰透露,流昇科技團(tuán)隊(duì)最近通過(guò)在輪式底盤(pán)上搭載兩個(gè)機(jī)械臂,在20平方米左右的家居環(huán)境中整理各種物體。
通過(guò)VLA模型,機(jī)械臂可以實(shí)現(xiàn)疊衣服的功能。不過(guò),流昇科技團(tuán)隊(duì)發(fā)現(xiàn),如果再在其中放入一個(gè)新物體,機(jī)械臂就無(wú)法保證完成任務(wù),“當(dāng)具身智能需要面對(duì)的世界越來(lái)越復(fù)雜時(shí),是否可以很好地學(xué)習(xí)新知識(shí),這是VLA模型現(xiàn)在面臨的最大瓶頸。”
不僅僅是端到端的VLA模型存在諸多瓶頸,實(shí)際上,目前具身智能仍處于發(fā)展早期階段,市場(chǎng)快速變化,技術(shù)路線還未收斂,各類(lèi)模型迭代速度也很快。
在這場(chǎng)速度的比拼過(guò)程中,擁有一個(gè)穩(wěn)定、先進(jìn)的基礎(chǔ)設(shè)施來(lái)快速保障業(yè)務(wù)發(fā)展顯得至關(guān)重要。
作為國(guó)內(nèi)最大的云和AI基礎(chǔ)設(shè)施供應(yīng)商,阿里云在這些方面有著頗多沉淀。
阿里云智能集團(tuán)資深產(chǎn)品解決方案總監(jiān)、大數(shù)據(jù)和人工智能平臺(tái)解決方案負(fù)責(zé)人魏博文在論壇上指出,“阿里云底層平臺(tái)可以處理非結(jié)構(gòu)化數(shù)據(jù),并擁有數(shù)據(jù)清洗、數(shù)據(jù)拆分、數(shù)據(jù)標(biāo)注等能力,以實(shí)現(xiàn)更高效的多模態(tài)數(shù)據(jù)處理分析,也方便了具身智能模型的訓(xùn)練和推理。”
實(shí)際上,相較于智能輔助駕駛,具身智能領(lǐng)域的數(shù)據(jù)體量并不龐大,阿里云大數(shù)據(jù)和人工智能平臺(tái)在過(guò)去幾年里已經(jīng)通過(guò)千卡、萬(wàn)卡規(guī)模算力集群承載了智能輔助駕駛的端到端大模型數(shù)據(jù)產(chǎn)線和模型訓(xùn)練,陪伴了中國(guó)智能汽車(chē)產(chǎn)業(yè)的發(fā)展,這種能力可以很好地延伸到具身智能產(chǎn)業(yè)上。
就模型而言,阿里云智能集團(tuán)飛天實(shí)驗(yàn)室科學(xué)家胡露露指出:
“當(dāng)前大模型本質(zhì)上是基于對(duì)信息的的壓縮和表達(dá),推理模型的誕生,顯著地增強(qiáng)了大模型在代碼、數(shù)學(xué)等問(wèn)題上的能力,而再將Agent能力疊加到模型上后,會(huì)顯著地增強(qiáng)模型處理長(zhǎng)鏈路復(fù)雜任務(wù)的能力。
阿里擁有全球領(lǐng)先的通義系列大模型,并逐漸將文本模型、語(yǔ)音模型,以及多模態(tài)模型逐漸開(kāi)源出來(lái),社區(qū)也有大量的基于通義大模型的具身模型誕生。這些模型將被越來(lái)越多地應(yīng)用到具身智能領(lǐng)域。”
此外,作為一個(gè)新興賽道,如何快速跑通工作流也是具身智能企業(yè)搶占市場(chǎng)先機(jī)的一個(gè)重點(diǎn)。
阿里云無(wú)影團(tuán)隊(duì)在2024年就一直關(guān)注具身智能行業(yè),并在今年年初對(duì)外發(fā)布了基于RTX 5880 ADA顯卡的專(zhuān)業(yè)工作站。
據(jù)阿里云智能集團(tuán)無(wú)影事業(yè)部產(chǎn)品解決方案總監(jiān)鄭芳友介紹稱:
“通過(guò)無(wú)影專(zhuān)業(yè)工作站,具身智能團(tuán)隊(duì)可以快速在云端構(gòu)建可視化開(kāi)發(fā)環(huán)境,在這一開(kāi)發(fā)環(huán)境下完成數(shù)據(jù)標(biāo)注、訓(xùn)練參數(shù)調(diào)整,并可以與云上訓(xùn)練集群高效互動(dòng),極大地提升了工作效率。
相較于傳統(tǒng)開(kāi)發(fā)模式,以往需要兩三天的開(kāi)發(fā)工作,基于無(wú)影專(zhuān)業(yè)工作站的全線上開(kāi)發(fā)流程,現(xiàn)在只需要2-3小時(shí)就能實(shí)現(xiàn)。”
基于全球領(lǐng)先的通義SOTA開(kāi)源模型能力、智算基礎(chǔ)設(shè)施的先進(jìn)技術(shù)和規(guī)模優(yōu)勢(shì)以及歷經(jīng)智能輔助駕駛磨練的平臺(tái)和工程能力,阿里云正在幫助具身智能企業(yè)用成本換速度、用品質(zhì)提速度、用經(jīng)驗(yàn)贏速度。
03 具身智能商業(yè)化落腳點(diǎn)
經(jīng)過(guò)具身智能團(tuán)隊(duì)在過(guò)去兩年里的紛至沓來(lái)、百家爭(zhēng)鳴,2025年被視為具身智能產(chǎn)業(yè)元年。
這一年里,越來(lái)越多具身智能機(jī)器人開(kāi)始進(jìn)入各大汽車(chē)工廠實(shí)訓(xùn)、進(jìn)入商超酒旅場(chǎng)景演練,甚至進(jìn)入到運(yùn)動(dòng)會(huì)的賽場(chǎng),開(kāi)始跑馬拉松、打格斗賽,進(jìn)行各種實(shí)操技能的比拼。
成立于2022年的逐際動(dòng)力就是一家高度重視商業(yè)化的公司。
據(jù)逐際動(dòng)力聯(lián)合創(chuàng)始人龐博透露,“我們認(rèn)為現(xiàn)在人形機(jī)器人已經(jīng)到了用量產(chǎn)向投資人、向自己交卷的時(shí)候,所以我們現(xiàn)在是兩條腿走路,一方面憑借自己的技術(shù)優(yōu)勢(shì)面向?qū)嶋H應(yīng)用落地場(chǎng)景持續(xù)探索,另一方面是在真正商用落地之前,以某種過(guò)渡產(chǎn)品形態(tài)先在特定場(chǎng)景進(jìn)行量產(chǎn)落地。”
龐博認(rèn)為,“商業(yè)價(jià)值并不是說(shuō)我們主觀覺(jué)得機(jī)器人用在哪里好,真正的商業(yè)價(jià)值是哪個(gè)行業(yè)中的哪個(gè)問(wèn)題用機(jī)器人解決是性價(jià)比最高的解決方案。”
這其中,機(jī)器人行業(yè)的一個(gè)關(guān)鍵轉(zhuǎn)變是,數(shù)據(jù)驅(qū)動(dòng)的模型正在取代傳統(tǒng)公式的模式來(lái)控制機(jī)器人運(yùn)動(dòng),這種模式正在讓機(jī)器人走得更穩(wěn)。
正因如此,逐際動(dòng)力在2024年率先推出了雙輪足式機(jī)器人,用最簡(jiǎn)單的八個(gè)關(guān)節(jié)實(shí)現(xiàn)了全地形移動(dòng)能力。
成立于2024年3月的數(shù)字華夏同樣有著自己的商業(yè)化打算。
據(jù)數(shù)字華夏聯(lián)合創(chuàng)始人陳軍民透露:
“數(shù)字華夏定位有溫度的AI人形交互機(jī)器人,聚焦人形交互機(jī)器人的設(shè)計(jì)、研發(fā)與商業(yè)落地。通過(guò)多模態(tài)智能交互技術(shù),讓機(jī)器人去服務(wù)人,讓機(jī)器人的應(yīng)用場(chǎng)景落地千行百業(yè)。
在服務(wù)人、與人類(lèi)做朋友的過(guò)程中,機(jī)器人可以獲得我們?nèi)祟?lèi)對(duì)這個(gè)事情是如何看待,如何思考,如何解讀,如何具體實(shí)現(xiàn)等,拿到海量的人類(lèi)實(shí)際工作與生活真實(shí)數(shù)據(jù),然后不斷的通過(guò)AI來(lái)模擬與訓(xùn)練,為未來(lái)通向AGI之路提供堅(jiān)實(shí)的數(shù)據(jù)驅(qū)動(dòng)。
目前面向教培、文旅、金融、制造等場(chǎng)景,數(shù)字華夏主推的是雙足+輪式雙形態(tài)機(jī)器人星行俠P01。”
據(jù)陳軍民介紹稱,基于這一形態(tài)的機(jī)器人解決了三大問(wèn)題:
第一,安全問(wèn)題,通過(guò)輪式解決了雙足運(yùn)動(dòng)不穩(wěn)定的問(wèn)題,解決了雙足機(jī)器人批量化商業(yè)落地安全問(wèn)題;
第二,續(xù)航問(wèn)題,目前市面上雙足人形機(jī)器人普遍續(xù)航在2-3小時(shí),通過(guò)輪式底盤(pán),星行俠P01相當(dāng)于又增加了8小時(shí)續(xù)航;
第三,成本問(wèn)題,數(shù)字華夏這款雙形態(tài)機(jī)器人比市面上的雙足人形機(jī)器人成本要更低。
這是數(shù)字華夏在推動(dòng)具身智能機(jī)器人量產(chǎn)落地過(guò)程中找到的商業(yè)路徑。
相較于逐際動(dòng)力、數(shù)字華夏,成立于2025年3月的星燦智能的商業(yè)化路徑又有所不同,星燦智能CEO李戰(zhàn)斌是擁有八年自動(dòng)駕駛行業(yè)資深從業(yè)者,在創(chuàng)立星燦智能后,他的目標(biāo)轉(zhuǎn)向了研發(fā)家庭服務(wù)機(jī)器人。
之所以會(huì)選擇這一場(chǎng)景,是因?yàn)槔顟?zhàn)斌認(rèn)為,“隨著國(guó)內(nèi)老齡化日益加深,家庭養(yǎng)老和康養(yǎng)會(huì)是具身智能機(jī)器人兩個(gè)關(guān)鍵應(yīng)用場(chǎng)景。”
過(guò)往的自動(dòng)駕駛從業(yè)經(jīng)驗(yàn)讓李戰(zhàn)斌認(rèn)識(shí)到自動(dòng)駕駛發(fā)展到后期引入了先驗(yàn)知識(shí),從數(shù)據(jù)驅(qū)動(dòng)轉(zhuǎn)向了“雙輪驅(qū)動(dòng)”。
到進(jìn)入具身智能機(jī)器人領(lǐng)域后,他們也在將家庭場(chǎng)景的先驗(yàn)知識(shí)落地到VLA模型的“L”中,以此推動(dòng)具身智能機(jī)器人在家庭養(yǎng)老和康養(yǎng)場(chǎng)景快速落地。
然而,在以數(shù)據(jù)驅(qū)動(dòng)的具身智能機(jī)器人落地過(guò)程中,核心是計(jì)算和推理,阿里云智能集團(tuán)公共云事業(yè)部華南大區(qū)資深解決方案架構(gòu)師姚蛟認(rèn)為,“這應(yīng)該是云邊端協(xié)同的計(jì)算推理。”
在家庭服務(wù)場(chǎng)景中,核心需要通過(guò)端側(cè)算力進(jìn)行推理,而在康養(yǎng)、酒店等集中式場(chǎng)景中,工作節(jié)拍比家庭場(chǎng)景更低、準(zhǔn)確度的要求卻更高、需要的模型尺寸也要更大,阿里云為此特別設(shè)計(jì)了邊緣推理設(shè)備,能夠同時(shí)支持上百臺(tái)機(jī)器人的推理計(jì)算。
針對(duì)那些對(duì)準(zhǔn)確度要求極高的場(chǎng)景,就需要通過(guò)云端的大算力和大模型來(lái)解決此類(lèi)場(chǎng)景的推理難題。
姚蛟指出,“具身智能機(jī)器人其實(shí)是互聯(lián)網(wǎng)世界和物理世界之間的一個(gè)橋梁,過(guò)往這兩個(gè)世界比較割裂,現(xiàn)在有了具身智能,就可以彌合二者之間的縫隙,將兩個(gè)世界完美結(jié)合起來(lái)。”
而這,也正是具身智能的意義所在。
04 開(kāi)啟具身智能的下一個(gè)十年
作為一個(gè)龐大的未來(lái)產(chǎn)業(yè),具身智能如今已經(jīng)成為全球科技競(jìng)爭(zhēng)高地,我國(guó)也在今年首次將具身智能寫(xiě)入了《政府工作報(bào)告》,全國(guó)各地對(duì)于具身智能這一未來(lái)產(chǎn)業(yè)的投資熱度也空前高漲。
廣東省更是在2025年6月6日正式成立了廣東省人工智能與機(jī)器人產(chǎn)業(yè)聯(lián)盟,這是一個(gè)由23位院士專(zhuān)家,331家人工智能、機(jī)器人創(chuàng)新主體的重要聯(lián)盟,旨在推動(dòng)產(chǎn)業(yè)鏈上下游協(xié)同、產(chǎn)學(xué)研深度融合,形成高效聯(lián)動(dòng)的創(chuàng)新生態(tài)。
實(shí)際上,作為國(guó)內(nèi)具身智能重鎮(zhèn),深圳一直以來(lái)都在真金白銀投資具身智能產(chǎn)業(yè)發(fā)展,深圳市南山區(qū)已經(jīng)形成了機(jī)器人谷,龍崗區(qū)則準(zhǔn)備三年拿出100億訂單陪伴機(jī)器人產(chǎn)業(yè)穿越周期……
作為國(guó)內(nèi)云計(jì)算與AI基礎(chǔ)設(shè)施核心供應(yīng)商,阿里云如今也在積極布局具身智能賽道。阿里云智能集團(tuán)副總裁、市場(chǎng)營(yíng)銷(xiāo)部負(fù)責(zé)人劉湘雯在論壇上指出,“阿里巴巴不但投資了逐際動(dòng)力、星動(dòng)紀(jì)元等具身智能團(tuán)隊(duì),還在通過(guò)先進(jìn)的基礎(chǔ)設(shè)施服務(wù)具身智能團(tuán)隊(duì)。”
利好的政策、雄厚的資金、集聚的產(chǎn)業(yè)帶,以及完備的云計(jì)算和AI基礎(chǔ)設(shè)施,正在為中國(guó)具身智能開(kāi)啟一個(gè)快速進(jìn)化的十年。
作為這場(chǎng)具身智能研討會(huì)的主持人,至頂科技CEO兼總編輯高飛也特別指出:
“大語(yǔ)言模型的奇跡已然發(fā)生,具身智能的‘GPT時(shí)刻’何時(shí)到來(lái),正成為產(chǎn)業(yè)關(guān)注的下一個(gè)焦點(diǎn)。
不過(guò),這一歷史性時(shí)刻的發(fā)生地,并不一定在硅谷。
因?yàn)榫呱碇悄芗纫?lsquo;會(huì)思考的大腦’,也要有‘能行動(dòng)的身體’,而中國(guó),正是全球唯一同時(shí)擁有這兩者制造能力與完整產(chǎn)業(yè)鏈的沃土。”
更難得的是,國(guó)內(nèi)家政、養(yǎng)老、商業(yè)、工業(yè)等千行百業(yè)的真實(shí)需求,也正在為技術(shù)落地注入源源不斷的現(xiàn)實(shí)動(dòng)力。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語(yǔ)言模型的敘事推理能力與音頻生成技術(shù),通過(guò)交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開(kāi)辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過(guò)讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問(wèn)題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語(yǔ)言模型人性化對(duì)話問(wèn)題。該研究創(chuàng)建了包含20萬(wàn)高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過(guò)創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開(kāi)發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過(guò)學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來(lái)了效率和精度的雙重突破。
關(guān)注智造、硬件、機(jī)器人。