av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<em id="9r38k"></em>

<sub id="9r38k"></sub><legend id="9r38k"><track id="9r38k"></track></legend>

<var id="9r38k"></var>

微信掃一掃，關(guān)注公眾號

科技行者
算力行者

見證連接與計(jì)算的「力量」

對話自變量機(jī)器人王潛：具身模型不是語言模型的延伸，機(jī)器人ChatGPT時刻還需3-5年

機(jī)器人新紀(jì)元

對話自變量機(jī)器人王潛：具身模型不是語言模型的延伸，機(jī)器人ChatGPT時刻還需3-5年

作者：金旺

2025-08-09 10:24

分享至：

家庭是機(jī)器人最大市場，預(yù)計(jì)3-4年會出現(xiàn)早期產(chǎn)品。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-08-09 10:24 ? 金旺

作者 | 金旺

欄目 | 機(jī)器人新紀(jì)元

8月8日，2025世界機(jī)器人大會（WRC 2025）在京召開。

相較往年，今年大會已經(jīng)完全轉(zhuǎn)向了具身機(jī)器人，即便是在傳統(tǒng)工業(yè)機(jī)器人展臺上，也不乏各種形態(tài)的具身機(jī)器人，乃至人形機(jī)器人。

這樣的改變源自于三年前由大模型掀起的人工智能熱潮，也是在這波熱潮中，一家名為自變量機(jī)器人的具身智能團(tuán)隊(duì)在2023年年底成立。

這家公司成立之初就聚焦研發(fā)端到端通用具身大模型，自變量機(jī)器人創(chuàng)始人兼CEO王潛認(rèn)為，通用具身大模型是獨(dú)立于于數(shù)字世界的基礎(chǔ)模型。

“它不是大語言模型的延伸，而是平行于大語言模型的物理世界中的基礎(chǔ)模型。”

秉持著這樣的理念，自變量機(jī)器人團(tuán)隊(duì)隨后訓(xùn)練出了WALL-A模型，與此同時，2025年，他們也不再只是一家具身智能模型公司，隨著自研本體整機(jī)的面世，公司重新被定位到了軟硬一體具身智能公司。

在這次展會上，自變量機(jī)器人的量子2號具身機(jī)器人正式亮相，這成了自變量機(jī)器人邁入真實(shí)世界的一個全新載體。

更多關(guān)于具身智能的技術(shù)難題、發(fā)展瓶頸，以及自變量機(jī)器人的未來發(fā)展計(jì)劃，我們在大會上與王潛進(jìn)行了一場對話，王潛給出了他眼中的答案。

01 人形機(jī)器人的ChatGPT時刻，仍需3-5年

問：人形機(jī)器人的“ChatGPT時刻”何時到來？其中技術(shù)難點(diǎn)是什么？

王潛：預(yù)計(jì)需要3-5年時間周期，才會達(dá)到類似ChatGPT的水平。

機(jī)器人模型與語言模型不同，應(yīng)用場景復(fù)雜，會有一個比較平滑的過渡過程，它不會像自動駕駛技術(shù)發(fā)展一樣有一個突變的過程，因此也不會有因此帶來的大的商業(yè)上的波折。

要達(dá)到ChatGPT水平，關(guān)鍵首先是Scaling Law可以持續(xù)發(fā)揮作用，這也是我們已經(jīng)確定的，然后需要足夠多的數(shù)據(jù)、足夠大的具身模型，同時模型架構(gòu)和訓(xùn)練方法等方面還需要持續(xù)向前演進(jìn)。

我認(rèn)為這條路徑已經(jīng)相對清晰，與大語言模型走的是類似的路徑。

問：您認(rèn)為硬件是否仍是機(jī)器人發(fā)展的障礙？

王潛：我個人認(rèn)為，兩三年前，具身機(jī)器人或人形機(jī)器人賽道興起時，硬件就已經(jīng)不是障礙，因?yàn)槟菚r技術(shù)路線已經(jīng)相對成熟，大家能做的機(jī)器人硬件也已經(jīng)達(dá)到了相當(dāng)水準(zhǔn)，只是還需要產(chǎn)品化、商業(yè)化。

從模型來看，大家已經(jīng)做了幾十年，但除了抓取、放置，依然沒有做到讓機(jī)器人執(zhí)行更復(fù)雜的任務(wù)，這是機(jī)器人現(xiàn)在無法更像人一樣的關(guān)鍵。

問：現(xiàn)階段限制機(jī)器人產(chǎn)業(yè)化應(yīng)用的因素有哪些？

王潛：主要限制因素是機(jī)器人的“大腦”。

大家在展館中看到了大量運(yùn)動能力做得很不錯的機(jī)器人，但與此同時，他們能夠提供的“實(shí)用價值”有限，更多提供的還是“形式價值”。

這個并不是硬件問題，核心在于人工智能水平還未達(dá)到，所以本身模型能力是其中的關(guān)鍵。

當(dāng)然，就機(jī)器人整個產(chǎn)業(yè)鏈而言，包括零部件、成本等也都尚未完全成熟，但是我們已經(jīng)走在了正確的路上。

問：過去一兩年機(jī)器人領(lǐng)域的技術(shù)突破是什么？

王潛：過去一兩年，行業(yè)有兩個重要變化：

第一，行業(yè)逐漸形成了共識，我們確實(shí)需要一個完全端到端的模型；

第二，這樣的模型一定是一個基礎(chǔ)通用模型。

2023年大模型浪潮剛剛興起時，還沒什么人相信機(jī)器人端到端技術(shù)路徑，我們在那時率先走上了這條技術(shù)路線，但如今這已經(jīng)成為行業(yè)趨勢，我覺得這是整個行業(yè)統(tǒng)一思想、向一個正確方向前進(jìn)的標(biāo)志。

未來兩三年，具身機(jī)器人領(lǐng)域預(yù)計(jì)會出現(xiàn)類似語言模型的Scaling Law帶來的重大技術(shù)突破，我對此非常樂觀。

02 復(fù)雜交互不用仿真數(shù)據(jù)，數(shù)據(jù)質(zhì)量是技術(shù)難題

問：如何解決數(shù)據(jù)稀缺問題？在數(shù)據(jù)篩選和應(yīng)用方面有何策略？

王潛：我們現(xiàn)在一個大的策略是，所有涉及到復(fù)雜物理交互（如接觸豐富的手部操作）完全不使用仿真數(shù)據(jù)。

我們在這個方面探索了十幾年，基本結(jié)論是，手部復(fù)雜操作無法通過仿真數(shù)據(jù)來進(jìn)化。

不過，導(dǎo)航、走路、高級任務(wù)推理和規(guī)劃更適合用仿真數(shù)據(jù)，很多團(tuán)隊(duì)的機(jī)器人走路都是在虛擬世界中訓(xùn)練出來，然后遷移到真實(shí)世界中。

此外，手部pick and place這樣的操作用仿真數(shù)據(jù)訓(xùn)練也是完全沒問題的。

關(guān)于仿真數(shù)據(jù)我們的態(tài)度一向比較明確，當(dāng)然我們也在廣泛使用互聯(lián)網(wǎng)視頻數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練，但最核心是現(xiàn)實(shí)生活中收集到的真實(shí)數(shù)據(jù)，包括機(jī)器人和人工采集的數(shù)據(jù)。

問：數(shù)據(jù)收集的途徑有哪些？是否考慮與地方數(shù)據(jù)中心合作？

王潛：我們有集中式的數(shù)據(jù)采集場地，此外也有在現(xiàn)實(shí)環(huán)境中分散式收集數(shù)據(jù)的渠道，以及機(jī)器人實(shí)際部署后的回流數(shù)據(jù)和其他來源數(shù)據(jù)。

對于地方共建數(shù)據(jù)中心，我們持開放態(tài)度，愿意參與進(jìn)去。

值得注意的是，數(shù)據(jù)收集的質(zhì)量控制是非常困難的事情，整體采集管理和收集上來的數(shù)據(jù)是否有用，是一個有待驗(yàn)證的問題。

與之相對的是，我們自有場地采集的數(shù)據(jù)是經(jīng)過充分驗(yàn)證的，質(zhì)量更有保障。

問：如何判斷數(shù)據(jù)質(zhì)量？

王潛：這是一個非常復(fù)雜的問題，也是整個具身模型研發(fā)最核心的問題。

以語言模型為例，DeepSeek開源了模型和infra，但唯獨(dú)沒有開源數(shù)據(jù)，所以大家今天都可以復(fù)制一個DeepSeek，但是沒人能達(dá)到DeepSeek-r1的水平，其中最核心的know-how來自數(shù)據(jù)。

03 具身模型不是語言模型的延伸

問：團(tuán)隊(duì)是否有做過跨本體泛化？

王潛：我們有做過，跨本體泛化需微調(diào)，肯定可以泛化過去，通過已經(jīng)訓(xùn)練好的進(jìn)行遷移也肯定沒有從頭做預(yù)訓(xùn)練那么困難。

但是里面需要注入多少資源、做多少事情、ROI是否算得過來、商業(yè)是否能走通，是一個比較大的問題，本質(zhì)上是一個比較“重”的事情。

問：自變量的具身模型已經(jīng)能做怎樣的長序列任務(wù)？

王潛：復(fù)雜性上，我們可處理目前已知的最復(fù)雜的任務(wù)，如拉上散開衣服的拉鏈或扣扣子、然后掛起來。

長程上來講，只要模型推理能力足夠，中間不出現(xiàn)幻覺，且環(huán)境允許，理論上我們可以做任意長的任務(wù)。這是因?yàn)槲覀冊谀Ｐ椭幸肓怂季S鏈（CoT）方法。

大家之前做具身模型更多是調(diào)用一個r1這樣的模型做高級推理和規(guī)劃，當(dāng)需要執(zhí)行動作時，再調(diào)用一個安全的模型執(zhí)行動作，這理論上還是有很多情況無法處理，是走不通的。

我們具身模型輸出的內(nèi)容包含語言、視覺、動作，輸出的語言和視覺可以再輸回去，所以在一個模型里可以構(gòu)建無限長的思維鏈，這已經(jīng)屬于后訓(xùn)練，其中的一些動作可能訓(xùn)練過，但整個動作序列放到一起沒訓(xùn)練過。

這樣的任務(wù)我們依然能做，因?yàn)樗旧碛泻芎玫牧銟颖就评砟芰Α?/p>

問：現(xiàn)在機(jī)器人只能做pick and place，復(fù)雜任務(wù)、長序列任務(wù)執(zhí)行瓶頸在哪里？

王潛：瓶頸在模型訓(xùn)練本身。

類似GPT-3出現(xiàn)前，翻譯任務(wù)很困難，但通用模型出現(xiàn)后，所有這樣的任務(wù)都可以做得很好，對此我們還是非常期待。

這里特別要說明的是，我們認(rèn)為這樣的具身基礎(chǔ)模型是獨(dú)立于數(shù)字世界的基礎(chǔ)模型，它不是語言模型的延伸，是平行于大語言模型的物理世界中的基礎(chǔ)模型，因?yàn)槲锢硎澜绾蛿?shù)字世界相比有大量的物理規(guī)律、隨機(jī)性是不同的。

04 家庭是機(jī)器人最大市場，3-4年會出現(xiàn)早期產(chǎn)品

問：您覺得未來家庭對機(jī)器人有怎樣的需求？

王潛：我認(rèn)為在所有機(jī)器人應(yīng)用場景中，家庭和生活相關(guān)場景（如養(yǎng)老）的需求是最大的單一市場。

經(jīng)濟(jì)學(xué)有過測算，人類家務(wù)勞動未計(jì)入GDP，但占比高達(dá)四分之一，因此家庭機(jī)器人市場潛力巨大，甚至可能比工業(yè)場景，以及所有其他場景都要更大。

問：決定機(jī)器人從展臺走進(jìn)家庭的關(guān)鍵是什么？

王潛：關(guān)鍵在于模型能力，目前硬件已基本滿足需求，但還需要一個足夠好的“大腦”，使其有具像人一樣有操作、思考和判斷能力。

時間上來看，預(yù)計(jì)3到4年我們就能夠看到有這樣的C端早期產(chǎn)品出現(xiàn)。

問：消費(fèi)市場價格能下探到多少？

王潛：消費(fèi)者能接受、產(chǎn)業(yè)鏈能夠提供的一個價格，可能在1-2萬美元之間，也就是10萬元上下，但是現(xiàn)在大家還是做不到這一點(diǎn)，這需要產(chǎn)業(yè)鏈成本進(jìn)一步優(yōu)化。

問：公司未來是專注于本體，還是模型？

王潛：我們現(xiàn)在走的是軟硬一體的路徑，直接面向終端提供完整的產(chǎn)品或解決方案，而非單獨(dú)出售模型。

機(jī)器人相對特殊，無法形成像Windows或Android這樣的商業(yè)模式，機(jī)器人需軟硬件高度耦合，軟硬一體是最合理的商業(yè)模式。

問：有無研發(fā)雙足人形機(jī)器人計(jì)劃。

王潛：我們暫時沒有研發(fā)雙足機(jī)器人計(jì)劃，未來較長時間，尤其是在室內(nèi)場景將以輪式機(jī)器人為主。

問：有怎樣的商業(yè)化思考？

王潛：第一個很明顯的是，我們開始有硬件，硬件本身是一個很好的產(chǎn)品。

其次我們從簡單到復(fù)雜，先進(jìn)入科研市場，再逐步擴(kuò)展到復(fù)雜的、傳統(tǒng)機(jī)器人做不了的場景，再到最復(fù)雜的場景，這個過程中我們會一直持續(xù)在所有領(lǐng)域收集數(shù)據(jù)、探索市場。

機(jī)器人新紀(jì)元

分享至

0贊

好文章，需要你的鼓勵

金旺

Wille

關(guān)注智造、硬件、機(jī)器人。

推薦文章

音頻生成
大語言模型
多模態(tài)AI

2025-09-10 09:47

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng)，首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù)，通過交錯式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練，能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異，為AI音頻創(chuàng)作開辟新方向。
視頻生成
深度學(xué)習(xí)
多模態(tài)學(xué)習(xí)

2025-09-09 13:57

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù)，通過讓AI同時學(xué)習(xí)外觀和運(yùn)動信息，顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運(yùn)動質(zhì)量，在多項(xiàng)測試中超越包括Sora在內(nèi)的商業(yè)模型，為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
多模態(tài)AI
人類價值觀對齊
數(shù)據(jù)集構(gòu)建

2025-09-09 13:56

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價值觀對齊難題

上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究，首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn)，通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法，讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平，為AI價值觀對齊提供了可行技術(shù)路徑。
人工智能
圖神經(jīng)網(wǎng)絡(luò)
天氣預(yù)報

2025-09-09 10:56

谷歌研究團(tuán)隊(duì)發(fā)布超級預(yù)測模型：讓AI像天氣預(yù)報員一樣預(yù)測全球大氣變化

谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型，能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報，準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù)，通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律，在極端天氣預(yù)測方面表現(xiàn)卓越，能耗僅為傳統(tǒng)方法的千分之一，為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

2025-09-10 09:47

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

2025-09-09 13:57

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價值觀對齊難題

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價值觀對齊難題

2025-09-09 13:56

谷歌研究團(tuán)隊(duì)發(fā)布超級預(yù)測模型：讓AI像天氣預(yù)報員一樣預(yù)測全球大氣變化

谷歌研究團(tuán)隊(duì)發(fā)布超級預(yù)測模型：讓AI像天氣預(yù)報員一樣預(yù)測全球大氣變化

2025-09-09 10:56

金旺

主編

關(guān)注智造、硬件、機(jī)器人。
最近文章：
- 具身智能2025之問：新物種時代，人形機(jī)器人如何長大？
- 對話多點(diǎn)數(shù)智倪艷軍：倉儲物流先行，全面布局AI零售

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時代

京ICP證15039648號京ICP備15039648號-9 京公網(wǎng)安備 11010802021500號

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報電話：010-62641205　涉未成年人舉報專線：010-62641208 舉報郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報專區(qū)：https://www.12377.cn

<abbr id="3cvpi"><samp id="3cvpi"><source id="3cvpi"></source></samp></abbr>

<ruby id="3cvpi"><tt id="3cvpi"></tt></ruby>