2025年6月,國內(nèi)具身智能領(lǐng)域宇樹科技、非夕科技、銀河通用三起億級(jí)、十億級(jí)重磅融資幾乎同時(shí)官宣,具身智能熱潮繼續(xù)升溫。
那么被視為全球科技競(jìng)爭(zhēng)高地的具身智能產(chǎn)業(yè),現(xiàn)在究竟發(fā)展如何,又有哪些瓶頸?
6月24日,2025阿里云中企出海峰會(huì)·深圳站,在廣東省人工智能與機(jī)器人產(chǎn)業(yè)聯(lián)盟指導(dǎo)下,阿里云組織了一場(chǎng)以具身智能為主題的研討會(huì)。
在這場(chǎng)研討會(huì)上,十四位具身智能產(chǎn)業(yè)不同領(lǐng)域的關(guān)鍵從業(yè)者,就具身智能的數(shù)據(jù)、架構(gòu)和商業(yè)路徑三大話題進(jìn)行了一場(chǎng)激烈的研討,并在研討中給出了自己的答案。
01 數(shù)據(jù)難題:線下采集 or 仿真合成
據(jù)IDC此前預(yù)測(cè)數(shù)據(jù)顯示,2024年全球?qū)⑸?59.2ZB數(shù)據(jù),2028年將增加一倍以上,達(dá)到384.6ZB,復(fù)合增長率為24.4%。
然而,數(shù)據(jù)量不足卻依舊是具身智能領(lǐng)域一大難題。
據(jù)中國信通院聯(lián)合北京人形機(jī)器人創(chuàng)新中心發(fā)布的《具身智能發(fā)展報(bào)告(2024年)》指出,缺乏數(shù)據(jù)已經(jīng)成為具身智能能力突破的重要壁壘。
這時(shí),通過機(jī)器人在真實(shí)環(huán)境中采集數(shù)據(jù)和在虛擬環(huán)境合成仿真數(shù)據(jù)就成了當(dāng)下破解具身智能數(shù)據(jù)難題的兩條主流路徑。
京津冀智能制造裝備產(chǎn)業(yè)聯(lián)盟秘書長張歡喜早在2006年就進(jìn)入了工業(yè)機(jī)器人領(lǐng)域,他在研討會(huì)中指出:
“機(jī)器人產(chǎn)業(yè)早在諸如工業(yè)機(jī)器人和工業(yè)自動(dòng)化解決方案發(fā)展過程中就遇到了數(shù)據(jù)問題,當(dāng)時(shí)工業(yè)機(jī)器人對(duì)數(shù)據(jù)要求不算高,通過并聯(lián)識(shí)別等相關(guān)技術(shù)對(duì)機(jī)器人進(jìn)行訓(xùn)練,就能有不錯(cuò)的成效。但隨著具身智能對(duì)機(jī)器人能力要求越來越高,僅僅依靠這類傳統(tǒng)模式已經(jīng)無法適用。”
要想大幅提升具身智能機(jī)器人的能力,數(shù)據(jù)驅(qū)動(dòng)、模型驅(qū)動(dòng)就成了必然的發(fā)展方向。
正因如此,越來越多具身智能團(tuán)隊(duì)開始在全國各地建數(shù)據(jù)采集場(chǎng),例如智元機(jī)器人在上海投建了具身智能機(jī)器人的數(shù)據(jù)采集場(chǎng),帕西尼感知科技也在天津投建了數(shù)據(jù)采集場(chǎng)。
要讓具身智能在真實(shí)物理世界中具備交互能力,在真實(shí)世界中采集高質(zhì)量數(shù)據(jù)固然重要,但由此產(chǎn)生的數(shù)據(jù)不僅成本高昂,而且數(shù)據(jù)量往往難以形成規(guī)模,通過仿真數(shù)據(jù)訓(xùn)練具身智能機(jī)器人,就成了另一條主流路徑。
跨維智能創(chuàng)始人兼CEO賈奎是這條技術(shù)路徑的絕對(duì)擁躉。賈奎在研討會(huì)上指出,“與大語言模型要學(xué)習(xí)的智能不同,具身智能本質(zhì)上是世界物理規(guī)律的智能,從廣義空間來看,更像是一個(gè)牛頓體系的智能。”
要想實(shí)現(xiàn)這樣的具身智能,賈奎認(rèn)為,“唯一的方式就是建立一個(gè)引擎世界,將物理世界、物理規(guī)律,以及機(jī)器人在這個(gè)世界中與物體、環(huán)境的交互方式以仿真形式建立起來,這樣的引擎才是具身智能機(jī)器人最佳的訓(xùn)練場(chǎng),這與地球在過去幾十億年演化出了不同的生物一樣。”
當(dāng)然,大語言模型仍在具身智能產(chǎn)業(yè)中發(fā)揮著作用。
成立于2024年的流昇科技是一家致力于提高人工智能通用性的企業(yè),流昇科技CEO林澤騰在研討會(huì)上分享稱,“在觀察到中國企業(yè)出海,尤其是中國智能硬件產(chǎn)品出海時(shí),普遍會(huì)遇到語言難題后,如何讓中國企業(yè)的智能硬件產(chǎn)品賣到不同的國家和地區(qū),甚至讓受教育程度不高的當(dāng)?shù)厝嗣裼蒙现袊a(chǎn)品,就成了我們創(chuàng)業(yè)之初思考的問題。”
為此,流昇科技團(tuán)隊(duì)找來了在全球廣為流傳的經(jīng)典文獻(xiàn),這些經(jīng)典文獻(xiàn)在傳播到不同國家和地區(qū)時(shí)會(huì)被翻譯為當(dāng)?shù)卣Z言,這樣的語言體系有時(shí)甚至都不是以文字形式呈現(xiàn),而是以音頻形式呈現(xiàn),流昇科技不斷將這些文獻(xiàn)收集起來。
據(jù)林澤騰透露,他們當(dāng)時(shí)一共在全球收集了4000多種語言的全球經(jīng)典文獻(xiàn),通過數(shù)據(jù)清洗,將能夠用來做訓(xùn)練的四分之一的數(shù)據(jù)保留,并將這些數(shù)據(jù)與300多種國際通用語言進(jìn)行對(duì)齊、清洗掉不合適的內(nèi)容、找人工團(tuán)隊(duì)將數(shù)據(jù)進(jìn)行補(bǔ)全,最終這些數(shù)據(jù)被用來訓(xùn)練大語言模型。
據(jù)悉,流昇科技由此訓(xùn)練出的一款名為“萌萌心語”的產(chǎn)品可以識(shí)別4017種語言,支持1107種語言的同時(shí)翻譯轉(zhuǎn)換,可用于諸如割草機(jī)器人、掃地機(jī)器人等具身智能機(jī)器人產(chǎn)品出海。
阿里云在過往具身智能爆火的這一年里,也已經(jīng)服務(wù)了不少具身智能企業(yè),尤其在數(shù)據(jù)管線服務(wù)上做了大量工作。
阿里云智能集團(tuán)公共云事業(yè)部華南大區(qū)高級(jí)解決方案架構(gòu)師武潤鵬就指出:
“具身智能的數(shù)據(jù)管線可以分為數(shù)據(jù)采集、數(shù)據(jù)清洗和預(yù)處理、數(shù)據(jù)增廣、數(shù)據(jù)質(zhì)量控制、數(shù)據(jù)標(biāo)注、數(shù)據(jù)存儲(chǔ)與檢索、數(shù)據(jù)權(quán)限劃分等環(huán)節(jié),阿里云在這些相對(duì)共性的需求或者說面臨的挑戰(zhàn)上面基于云上豐富的產(chǎn)品線已經(jīng)構(gòu)建了相對(duì)成熟的解決方案。
這些方案覆蓋了從存儲(chǔ)到異構(gòu)算力,從模型全生命周期的管控到數(shù)據(jù)權(quán)限的劃分,由此讓具身智能企業(yè)能夠從繁瑣的infra工作中抽身,把寶貴的時(shí)間精力放到最核心的業(yè)務(wù)研發(fā)上,來快速迭代自己的產(chǎn)品。”
02 具身架構(gòu):大小腦 or 端到端
2023年7月28日,谷歌DeepMind推出了一款新的機(jī)器人模型Robotics Transformer 2,也就是RT-2,這一視覺-語言-動(dòng)作大模型表現(xiàn)出了不錯(cuò)的泛化性,也成了在具身智能領(lǐng)域關(guān)注度頗高的端到端具身大模型。
端到端是當(dāng)下具身智能領(lǐng)域一條主流的技術(shù)路徑,這條技術(shù)路徑的一大特性是,將視覺、語言、動(dòng)作模型融合到了一個(gè)模型中,通過這一個(gè)特定模型,驅(qū)動(dòng)具身智能機(jī)器人執(zhí)行任務(wù)。
區(qū)別于端到端具身大模型的另一條主流技術(shù)路徑是,大小腦協(xié)作。
深圳市人工智能與機(jī)器人研究院研究員王凡更愿意將大小腦協(xié)作稱作分塊式路徑,王凡將這一類智能體的模式總結(jié)為,將小腦作為工具,用大腦調(diào)用小腦的模式。
在腦科學(xué)中有一個(gè)概念叫作代償機(jī)制,具體是指大腦在受到損傷或功能障礙時(shí),可以通過重新分配或激活其他神經(jīng)通路和資源來維持或恢復(fù)被損傷的功能的現(xiàn)象。
王凡指出,“這是現(xiàn)在大小腦協(xié)作的具身智能體系中所不具備的,而如何將代償機(jī)制與分塊模式進(jìn)行結(jié)合,是我們研究院現(xiàn)在重點(diǎn)關(guān)注的一個(gè)領(lǐng)域,也是我們認(rèn)為具身智能未來很有潛力的一種模式。”
對(duì)于端到端模型的局限性,林澤騰同樣深有體會(huì)。
據(jù)林澤騰透露,流昇科技團(tuán)隊(duì)最近通過在輪式底盤上搭載兩個(gè)機(jī)械臂,在20平方米左右的家居環(huán)境中整理各種物體。
通過VLA模型,機(jī)械臂可以實(shí)現(xiàn)疊衣服的功能。不過,流昇科技團(tuán)隊(duì)發(fā)現(xiàn),如果再在其中放入一個(gè)新物體,機(jī)械臂就無法保證完成任務(wù),“當(dāng)具身智能需要面對(duì)的世界越來越復(fù)雜時(shí),是否可以很好地學(xué)習(xí)新知識(shí),這是VLA模型現(xiàn)在面臨的最大瓶頸。”
不僅僅是端到端的VLA模型存在諸多瓶頸,實(shí)際上,目前具身智能仍處于發(fā)展早期階段,市場(chǎng)快速變化,技術(shù)路線還未收斂,各類模型迭代速度也很快。
在這場(chǎng)速度的比拼過程中,擁有一個(gè)穩(wěn)定、先進(jìn)的基礎(chǔ)設(shè)施來快速保障業(yè)務(wù)發(fā)展顯得至關(guān)重要。
作為國內(nèi)最大的云和AI基礎(chǔ)設(shè)施供應(yīng)商,阿里云在這些方面有著頗多沉淀。
阿里云智能集團(tuán)資深產(chǎn)品解決方案總監(jiān)、大數(shù)據(jù)和人工智能平臺(tái)解決方案負(fù)責(zé)人魏博文在論壇上指出,“阿里云底層平臺(tái)可以處理非結(jié)構(gòu)化數(shù)據(jù),并擁有數(shù)據(jù)清洗、數(shù)據(jù)拆分、數(shù)據(jù)標(biāo)注等能力,以實(shí)現(xiàn)更高效的多模態(tài)數(shù)據(jù)處理分析,也方便了具身智能模型的訓(xùn)練和推理。”
實(shí)際上,相較于智能輔助駕駛,具身智能領(lǐng)域的數(shù)據(jù)體量并不龐大,阿里云大數(shù)據(jù)和人工智能平臺(tái)在過去幾年里已經(jīng)通過千卡、萬卡規(guī)模算力集群承載了智能輔助駕駛的端到端大模型數(shù)據(jù)產(chǎn)線和模型訓(xùn)練,陪伴了中國智能汽車產(chǎn)業(yè)的發(fā)展,這種能力可以很好地延伸到具身智能產(chǎn)業(yè)上。
就模型而言,阿里云智能集團(tuán)飛天實(shí)驗(yàn)室科學(xué)家胡露露指出:
“當(dāng)前大模型本質(zhì)上是基于對(duì)信息的的壓縮和表達(dá),推理模型的誕生,顯著地增強(qiáng)了大模型在代碼、數(shù)學(xué)等問題上的能力,而再將Agent能力疊加到模型上后,會(huì)顯著地增強(qiáng)模型處理長鏈路復(fù)雜任務(wù)的能力。
阿里擁有全球領(lǐng)先的通義系列大模型,并逐漸將文本模型、語音模型,以及多模態(tài)模型逐漸開源出來,社區(qū)也有大量的基于通義大模型的具身模型誕生。這些模型將被越來越多地應(yīng)用到具身智能領(lǐng)域。”
此外,作為一個(gè)新興賽道,如何快速跑通工作流也是具身智能企業(yè)搶占市場(chǎng)先機(jī)的一個(gè)重點(diǎn)。
阿里云無影團(tuán)隊(duì)在2024年就一直關(guān)注具身智能行業(yè),并在今年年初對(duì)外發(fā)布了基于RTX 5880 ADA顯卡的專業(yè)工作站。
據(jù)阿里云智能集團(tuán)無影事業(yè)部產(chǎn)品解決方案總監(jiān)鄭芳友介紹稱:
“通過無影專業(yè)工作站,具身智能團(tuán)隊(duì)可以快速在云端構(gòu)建可視化開發(fā)環(huán)境,在這一開發(fā)環(huán)境下完成數(shù)據(jù)標(biāo)注、訓(xùn)練參數(shù)調(diào)整,并可以與云上訓(xùn)練集群高效互動(dòng),極大地提升了工作效率。
相較于傳統(tǒng)開發(fā)模式,以往需要兩三天的開發(fā)工作,基于無影專業(yè)工作站的全線上開發(fā)流程,現(xiàn)在只需要2-3小時(shí)就能實(shí)現(xiàn)。”
基于全球領(lǐng)先的通義SOTA開源模型能力、智算基礎(chǔ)設(shè)施的先進(jìn)技術(shù)和規(guī)模優(yōu)勢(shì)以及歷經(jīng)智能輔助駕駛磨練的平臺(tái)和工程能力,阿里云正在幫助具身智能企業(yè)用成本換速度、用品質(zhì)提速度、用經(jīng)驗(yàn)贏速度。
03 具身智能商業(yè)化落腳點(diǎn)
經(jīng)過具身智能團(tuán)隊(duì)在過去兩年里的紛至沓來、百家爭(zhēng)鳴,2025年被視為具身智能產(chǎn)業(yè)元年。
這一年里,越來越多具身智能機(jī)器人開始進(jìn)入各大汽車工廠實(shí)訓(xùn)、進(jìn)入商超酒旅場(chǎng)景演練,甚至進(jìn)入到運(yùn)動(dòng)會(huì)的賽場(chǎng),開始跑馬拉松、打格斗賽,進(jìn)行各種實(shí)操技能的比拼。
成立于2022年的逐際動(dòng)力就是一家高度重視商業(yè)化的公司。
據(jù)逐際動(dòng)力聯(lián)合創(chuàng)始人龐博透露,“我們認(rèn)為現(xiàn)在人形機(jī)器人已經(jīng)到了用量產(chǎn)向投資人、向自己交卷的時(shí)候,所以我們現(xiàn)在是兩條腿走路,一方面憑借自己的技術(shù)優(yōu)勢(shì)面向?qū)嶋H應(yīng)用落地場(chǎng)景持續(xù)探索,另一方面是在真正商用落地之前,以某種過渡產(chǎn)品形態(tài)先在特定場(chǎng)景進(jìn)行量產(chǎn)落地。”
龐博認(rèn)為,“商業(yè)價(jià)值并不是說我們主觀覺得機(jī)器人用在哪里好,真正的商業(yè)價(jià)值是哪個(gè)行業(yè)中的哪個(gè)問題用機(jī)器人解決是性價(jià)比最高的解決方案。”
這其中,機(jī)器人行業(yè)的一個(gè)關(guān)鍵轉(zhuǎn)變是,數(shù)據(jù)驅(qū)動(dòng)的模型正在取代傳統(tǒng)公式的模式來控制機(jī)器人運(yùn)動(dòng),這種模式正在讓機(jī)器人走得更穩(wěn)。
正因如此,逐際動(dòng)力在2024年率先推出了雙輪足式機(jī)器人,用最簡(jiǎn)單的八個(gè)關(guān)節(jié)實(shí)現(xiàn)了全地形移動(dòng)能力。
成立于2024年3月的數(shù)字華夏同樣有著自己的商業(yè)化打算。
據(jù)數(shù)字華夏聯(lián)合創(chuàng)始人陳軍民透露:
“數(shù)字華夏定位有溫度的AI人形交互機(jī)器人,聚焦人形交互機(jī)器人的設(shè)計(jì)、研發(fā)與商業(yè)落地。通過多模態(tài)智能交互技術(shù),讓機(jī)器人去服務(wù)人,讓機(jī)器人的應(yīng)用場(chǎng)景落地千行百業(yè)。
在服務(wù)人、與人類做朋友的過程中,機(jī)器人可以獲得我們?nèi)祟悓?duì)這個(gè)事情是如何看待,如何思考,如何解讀,如何具體實(shí)現(xiàn)等,拿到海量的人類實(shí)際工作與生活真實(shí)數(shù)據(jù),然后不斷的通過AI來模擬與訓(xùn)練,為未來通向AGI之路提供堅(jiān)實(shí)的數(shù)據(jù)驅(qū)動(dòng)。
目前面向教培、文旅、金融、制造等場(chǎng)景,數(shù)字華夏主推的是雙足+輪式雙形態(tài)機(jī)器人星行俠P01。”
據(jù)陳軍民介紹稱,基于這一形態(tài)的機(jī)器人解決了三大問題:
第一,安全問題,通過輪式解決了雙足運(yùn)動(dòng)不穩(wěn)定的問題,解決了雙足機(jī)器人批量化商業(yè)落地安全問題;
第二,續(xù)航問題,目前市面上雙足人形機(jī)器人普遍續(xù)航在2-3小時(shí),通過輪式底盤,星行俠P01相當(dāng)于又增加了8小時(shí)續(xù)航;
第三,成本問題,數(shù)字華夏這款雙形態(tài)機(jī)器人比市面上的雙足人形機(jī)器人成本要更低。
這是數(shù)字華夏在推動(dòng)具身智能機(jī)器人量產(chǎn)落地過程中找到的商業(yè)路徑。
相較于逐際動(dòng)力、數(shù)字華夏,成立于2025年3月的星燦智能的商業(yè)化路徑又有所不同,星燦智能CEO李戰(zhàn)斌是擁有八年自動(dòng)駕駛行業(yè)資深從業(yè)者,在創(chuàng)立星燦智能后,他的目標(biāo)轉(zhuǎn)向了研發(fā)家庭服務(wù)機(jī)器人。
之所以會(huì)選擇這一場(chǎng)景,是因?yàn)槔顟?zhàn)斌認(rèn)為,“隨著國內(nèi)老齡化日益加深,家庭養(yǎng)老和康養(yǎng)會(huì)是具身智能機(jī)器人兩個(gè)關(guān)鍵應(yīng)用場(chǎng)景。”
過往的自動(dòng)駕駛從業(yè)經(jīng)驗(yàn)讓李戰(zhàn)斌認(rèn)識(shí)到自動(dòng)駕駛發(fā)展到后期引入了先驗(yàn)知識(shí),從數(shù)據(jù)驅(qū)動(dòng)轉(zhuǎn)向了“雙輪驅(qū)動(dòng)”。
到進(jìn)入具身智能機(jī)器人領(lǐng)域后,他們也在將家庭場(chǎng)景的先驗(yàn)知識(shí)落地到VLA模型的“L”中,以此推動(dòng)具身智能機(jī)器人在家庭養(yǎng)老和康養(yǎng)場(chǎng)景快速落地。
然而,在以數(shù)據(jù)驅(qū)動(dòng)的具身智能機(jī)器人落地過程中,核心是計(jì)算和推理,阿里云智能集團(tuán)公共云事業(yè)部華南大區(qū)資深解決方案架構(gòu)師姚蛟認(rèn)為,“這應(yīng)該是云邊端協(xié)同的計(jì)算推理。”
在家庭服務(wù)場(chǎng)景中,核心需要通過端側(cè)算力進(jìn)行推理,而在康養(yǎng)、酒店等集中式場(chǎng)景中,工作節(jié)拍比家庭場(chǎng)景更低、準(zhǔn)確度的要求卻更高、需要的模型尺寸也要更大,阿里云為此特別設(shè)計(jì)了邊緣推理設(shè)備,能夠同時(shí)支持上百臺(tái)機(jī)器人的推理計(jì)算。
針對(duì)那些對(duì)準(zhǔn)確度要求極高的場(chǎng)景,就需要通過云端的大算力和大模型來解決此類場(chǎng)景的推理難題。
姚蛟指出,“具身智能機(jī)器人其實(shí)是互聯(lián)網(wǎng)世界和物理世界之間的一個(gè)橋梁,過往這兩個(gè)世界比較割裂,現(xiàn)在有了具身智能,就可以彌合二者之間的縫隙,將兩個(gè)世界完美結(jié)合起來。”
而這,也正是具身智能的意義所在。
04 開啟具身智能的下一個(gè)十年
作為一個(gè)龐大的未來產(chǎn)業(yè),具身智能如今已經(jīng)成為全球科技競(jìng)爭(zhēng)高地,我國也在今年首次將具身智能寫入了《政府工作報(bào)告》,全國各地對(duì)于具身智能這一未來產(chǎn)業(yè)的投資熱度也空前高漲。
廣東省更是在2025年6月6日正式成立了廣東省人工智能與機(jī)器人產(chǎn)業(yè)聯(lián)盟,這是一個(gè)由23位院士專家,331家人工智能、機(jī)器人創(chuàng)新主體的重要聯(lián)盟,旨在推動(dòng)產(chǎn)業(yè)鏈上下游協(xié)同、產(chǎn)學(xué)研深度融合,形成高效聯(lián)動(dòng)的創(chuàng)新生態(tài)。
實(shí)際上,作為國內(nèi)具身智能重鎮(zhèn),深圳一直以來都在真金白銀投資具身智能產(chǎn)業(yè)發(fā)展,深圳市南山區(qū)已經(jīng)形成了機(jī)器人谷,龍崗區(qū)則準(zhǔn)備三年拿出100億訂單陪伴機(jī)器人產(chǎn)業(yè)穿越周期……
作為國內(nèi)云計(jì)算與AI基礎(chǔ)設(shè)施核心供應(yīng)商,阿里云如今也在積極布局具身智能賽道。阿里云智能集團(tuán)副總裁、市場(chǎng)營銷部負(fù)責(zé)人劉湘雯在論壇上指出,“阿里巴巴不但投資了逐際動(dòng)力、星動(dòng)紀(jì)元等具身智能團(tuán)隊(duì),還在通過先進(jìn)的基礎(chǔ)設(shè)施服務(wù)具身智能團(tuán)隊(duì)。”
利好的政策、雄厚的資金、集聚的產(chǎn)業(yè)帶,以及完備的云計(jì)算和AI基礎(chǔ)設(shè)施,正在為中國具身智能開啟一個(gè)快速進(jìn)化的十年。
作為這場(chǎng)具身智能研討會(huì)的主持人,至頂科技CEO兼總編輯高飛也特別指出:
“大語言模型的奇跡已然發(fā)生,具身智能的‘GPT時(shí)刻’何時(shí)到來,正成為產(chǎn)業(yè)關(guān)注的下一個(gè)焦點(diǎn)。
不過,這一歷史性時(shí)刻的發(fā)生地,并不一定在硅谷。
因?yàn)榫呱碇悄芗纫?lsquo;會(huì)思考的大腦’,也要有‘能行動(dòng)的身體’,而中國,正是全球唯一同時(shí)擁有這兩者制造能力與完整產(chǎn)業(yè)鏈的沃土。”
更難得的是,國內(nèi)家政、養(yǎng)老、商業(yè)、工業(yè)等千行百業(yè)的真實(shí)需求,也正在為技術(shù)落地注入源源不斷的現(xiàn)實(shí)動(dòng)力。
好文章,需要你的鼓勵(lì)
新加坡國立大學(xué)研究團(tuán)隊(duì)開發(fā)了SPIRAL框架,通過讓AI與自己對(duì)弈零和游戲來提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡(jiǎn)單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。
關(guān)注智造、硬件、機(jī)器人。