這項(xiàng)由武漢大學(xué)、阿里巴巴達(dá)摩院、湖畔實(shí)驗(yàn)室、浙江大學(xué)和清華大學(xué)聯(lián)合完成的研究發(fā)表于2025年8月,論文標(biāo)題為《Towards Affordance-Aware Robotic Dexterous Grasping with Human-like Priors》。感興趣的讀者可以通過(guò)GitHub鏈接https://github.com/Maxwell-Zhao/AffordDex/獲取完整代碼和詳細(xì)信息。
機(jī)器人要學(xué)會(huì)像人類一樣靈巧地抓取物品,聽(tīng)起來(lái)簡(jiǎn)單,實(shí)際上卻是個(gè)極其復(fù)雜的挑戰(zhàn)。就好比教一個(gè)完全沒(méi)有觸覺(jué)和直覺(jué)的學(xué)生學(xué)習(xí)用筷子夾菜,不僅要讓他學(xué)會(huì)基本的夾取動(dòng)作,還要讓他知道哪些地方能碰、哪些地方不能碰,以及如何做出優(yōu)雅自然的動(dòng)作。
現(xiàn)有的機(jī)器人抓取技術(shù)雖然能夠完成基本的拿取任務(wù),但往往存在兩個(gè)關(guān)鍵問(wèn)題。一是動(dòng)作僵硬機(jī)械,看起來(lái)完全不像人類的自然動(dòng)作;二是缺乏安全意識(shí),可能會(huì)抓住刀子的刀刃部分或者觸碰其他不應(yīng)該接觸的區(qū)域。這就像是一個(gè)力大無(wú)窮但缺乏常識(shí)的巨人,雖然能舉起重物,卻不知道該如何溫柔地處理易碎品。
為了解決這些問(wèn)題,研究團(tuán)隊(duì)開(kāi)發(fā)了一個(gè)名為AffordDex的創(chuàng)新框架。這個(gè)系統(tǒng)的核心理念是讓機(jī)器人同時(shí)學(xué)會(huì)兩件事:首先是模仿人類手部動(dòng)作的自然性和流暢性,其次是理解物體的"負(fù)擔(dān)能力"概念,也就是知道哪些部位不適合接觸。
AffordDex的工作原理可以用學(xué)習(xí)彈鋼琴來(lái)比喻。第一階段,系統(tǒng)通過(guò)觀察大量人類手部運(yùn)動(dòng)數(shù)據(jù)來(lái)學(xué)習(xí)基本的"手指技法",就像鋼琴學(xué)生先要練習(xí)基本的手型和指法一樣。這個(gè)階段確保了機(jī)器人的動(dòng)作看起來(lái)自然而優(yōu)雅,避免了機(jī)械化的僵硬感。研究團(tuán)隊(duì)使用了包含約2200個(gè)人類右手操作序列的OakiInk2數(shù)據(jù)集來(lái)訓(xùn)練這個(gè)基礎(chǔ)策略。
第二階段則是學(xué)習(xí)"樂(lè)曲表達(dá)",也就是針對(duì)不同的物體學(xué)會(huì)適當(dāng)?shù)淖ト〔呗?。這里的關(guān)鍵創(chuàng)新是"負(fù)面功能感知分割"模塊,它能夠自動(dòng)識(shí)別物體上不應(yīng)該接觸的區(qū)域。比如看到一把刀時(shí),系統(tǒng)會(huì)自動(dòng)將刀刃部分標(biāo)記為"禁區(qū)",確保機(jī)器人只會(huì)抓住刀柄。這個(gè)過(guò)程就像教孩子認(rèn)識(shí)"危險(xiǎn)"標(biāo)志一樣,讓機(jī)器人具備基本的安全常識(shí)。
具體來(lái)說(shuō),這個(gè)負(fù)面功能感知模塊的工作方式頗為巧妙。研究團(tuán)隊(duì)首先使用程序化紋理技術(shù)為原本光禿禿的3D物體模型添加逼真的表面紋理,讓視覺(jué)AI模型能夠更好地理解物體。然后從六個(gè)不同角度渲染物體圖像,創(chuàng)建全方位的視覺(jué)表示。接下來(lái),系統(tǒng)會(huì)詢問(wèn)GPT-4V這樣的大型視覺(jué)語(yǔ)言模型:"這個(gè)物體的哪些部分不應(yīng)該被觸碰?"得到描述后,再使用SAM分割模型和CLIP視覺(jué)模型的組合來(lái)精確定位這些危險(xiǎn)區(qū)域。
整個(gè)訓(xùn)練過(guò)程采用了"師生傳授"的策略。首先訓(xùn)練一個(gè)"老師"策略,這個(gè)老師能夠訪問(wèn)環(huán)境的完整信息,包括物體的精確狀態(tài)和位置。一旦老師學(xué)會(huì)了如何安全有效地抓取物體,系統(tǒng)就會(huì)將這些知識(shí)傳授給"學(xué)生"策略,而學(xué)生只能依靠攝像頭提供的視覺(jué)信息來(lái)工作,這更接近真實(shí)世界的應(yīng)用場(chǎng)景。
在實(shí)際測(cè)試中,AffordDex展現(xiàn)出了令人印象深刻的性能。在包含3165個(gè)不同物體實(shí)例的UniDexGrasp數(shù)據(jù)集上,該系統(tǒng)在已見(jiàn)物體上達(dá)到了89.2%的成功率,在未見(jiàn)物體上達(dá)到了87.7%的成功率,甚至在全新類別的物體上也能達(dá)到85.2%的成功率。更重要的是,生成的抓取動(dòng)作在人類相似度評(píng)分上達(dá)到了8.6分(滿分10分),而功能適當(dāng)性評(píng)分僅為4分(越低越好,表示很少觸碰不當(dāng)區(qū)域)。
與現(xiàn)有的最先進(jìn)方法相比,AffordDex在多個(gè)關(guān)鍵指標(biāo)上都取得了顯著提升。例如,相比于UniDexGrasp++方法,新系統(tǒng)不僅保持了相近的成功率,還將人類相似度評(píng)分從5.4提升到8.6,將功能適當(dāng)性從28改善到4。這意味著機(jī)器人不僅能夠成功抓取物體,而且動(dòng)作更加自然,接觸位置更加合理。
研究團(tuán)隊(duì)還進(jìn)行了詳細(xì)的消融實(shí)驗(yàn)來(lái)驗(yàn)證各個(gè)組件的重要性。結(jié)果顯示,如果移除人類軌跡模仿組件,雖然機(jī)器人仍能完成抓取任務(wù),但動(dòng)作會(huì)變得非常機(jī)械和不自然。如果去掉負(fù)面功能感知模塊,機(jī)器人就可能做出危險(xiǎn)的抓取行為,比如抓住刀子的刀刃或者觸碰其他不合適的區(qū)域。而師生傳授框架的缺失則會(huì)導(dǎo)致視覺(jué)感知策略的性能大幅下降,因?yàn)槿狈α擞行У闹笇?dǎo)信息。
特別值得注意的是,AffordDex框架具有很強(qiáng)的通用性。研究團(tuán)隊(duì)證明了他們的核心模塊可以輕松集成到其他現(xiàn)有的機(jī)器人抓取方法中,顯著提升這些方法的表現(xiàn)。比如將人類軌跡模仿模塊和負(fù)面功能感知模塊添加到UniDexGrasp++中,就能讓原本的系統(tǒng)變得更加人性化和安全。
從技術(shù)實(shí)現(xiàn)角度來(lái)看,整個(gè)系統(tǒng)在NVIDIA RTX 4090 GPU上運(yùn)行,使用IssacGym物理仿真環(huán)境進(jìn)行訓(xùn)練。機(jī)器人手臂采用具有24個(gè)自由度的Shadow Hand,其中手腕有6個(gè)自由度,手指有18個(gè)活動(dòng)自由度。系統(tǒng)使用五個(gè)RGBD攝像頭從不同角度捕捉場(chǎng)景信息,就像給機(jī)器人安裝了多只"眼睛"來(lái)全方位觀察環(huán)境。
在獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)方面,研究團(tuán)隊(duì)精心設(shè)計(jì)了多個(gè)互補(bǔ)的獎(jiǎng)勵(lì)信號(hào)。人類軌跡模仿階段的獎(jiǎng)勵(lì)函數(shù)包括手指模仿獎(jiǎng)勵(lì)和平滑度獎(jiǎng)勵(lì),前者鼓勵(lì)機(jī)器人準(zhǔn)確跟蹤人類手部關(guān)鍵點(diǎn)的位置,后者則懲罰過(guò)度用力的動(dòng)作,促使系統(tǒng)學(xué)會(huì)節(jié)能高效的運(yùn)動(dòng)模式。功能感知學(xué)習(xí)階段的獎(jiǎng)勵(lì)函數(shù)則更加復(fù)雜,包括抓取獎(jiǎng)勵(lì)、目標(biāo)獎(jiǎng)勵(lì)、成功獎(jiǎng)勵(lì)和負(fù)面功能懲罰四個(gè)組成部分。
抓取獎(jiǎng)勵(lì)根據(jù)機(jī)器人手部與物體中心的距離給出反饋,鼓勵(lì)手部接近并保持與物體表面的接觸。目標(biāo)獎(jiǎng)勵(lì)則引導(dǎo)物體向預(yù)定目標(biāo)位置移動(dòng)。成功獎(jiǎng)勵(lì)在物體成功到達(dá)目標(biāo)區(qū)域時(shí)給予額外加分。最關(guān)鍵的負(fù)面功能懲罰會(huì)在機(jī)器人手指接近危險(xiǎn)區(qū)域時(shí)給予負(fù)分,有效防止不當(dāng)接觸行為。
系統(tǒng)的評(píng)估標(biāo)準(zhǔn)也經(jīng)過(guò)了精心設(shè)計(jì)。除了傳統(tǒng)的成功率指標(biāo)外,研究團(tuán)隊(duì)還引入了人類相似度評(píng)分和功能適當(dāng)性評(píng)分兩個(gè)創(chuàng)新指標(biāo)。人類相似度評(píng)分通過(guò)讓Gemini 2.5 Pro這樣的大型語(yǔ)言模型分析機(jī)器人抓取動(dòng)作的視頻序列來(lái)給出,評(píng)估動(dòng)作軌跡、速度平滑度和關(guān)節(jié)協(xié)調(diào)性等方面的人類相似程度。功能適當(dāng)性評(píng)分則通過(guò)計(jì)算有多少手指遠(yuǎn)離了負(fù)面功能區(qū)域來(lái)量化,分?jǐn)?shù)越低表示抓取行為越安全合理。
實(shí)驗(yàn)結(jié)果不僅在數(shù)量上令人滿意,在質(zhì)量上也展現(xiàn)了系統(tǒng)的優(yōu)越性。從生成的抓取動(dòng)作可以看出,AffordDex不僅能夠產(chǎn)生多樣化的抓取姿態(tài),還能始終識(shí)別出功能上合適的抓取位置,形成自然的手部姿態(tài)。無(wú)論是處理熟悉的物體還是全新的物體類別,系統(tǒng)都能保持這種高質(zhì)量的表現(xiàn)。
研究團(tuán)隊(duì)還測(cè)試了系統(tǒng)在不同參數(shù)設(shè)置下的表現(xiàn)。他們發(fā)現(xiàn),平滑度獎(jiǎng)勵(lì)的權(quán)重λsmooth設(shè)置為0.05時(shí)效果最佳,太小會(huì)導(dǎo)致動(dòng)作不夠平滑,太大則可能影響抓取精度。手指模仿獎(jiǎng)勵(lì)的權(quán)重λfinger在0.8時(shí)表現(xiàn)最好,這個(gè)數(shù)值在保證模仿精度和任務(wù)完成之間取得了良好平衡。負(fù)面功能懲罰的權(quán)重也需要仔細(xì)調(diào)節(jié),太強(qiáng)的懲罰可能讓機(jī)器人過(guò)于保守而不敢接近目標(biāo)物體,太弱則無(wú)法有效阻止不當(dāng)接觸。
值得強(qiáng)調(diào)的是,這項(xiàng)研究不僅在技術(shù)層面取得了突破,更在實(shí)用性方面展現(xiàn)了巨大潛力?,F(xiàn)在的機(jī)器人抓取系統(tǒng)往往需要針對(duì)特定物體進(jìn)行專門(mén)訓(xùn)練,而AffordDex提供了一個(gè)通用的解決方案,能夠處理各種不同形狀、大小和功能的物體。這種通用性對(duì)于未來(lái)的家用機(jī)器人和工業(yè)機(jī)器人都具有重要意義。
當(dāng)然,這項(xiàng)研究也有其局限性。目前系統(tǒng)依賴于從六個(gè)固定角度渲染的圖像來(lái)進(jìn)行負(fù)面功能預(yù)測(cè),這種方法可能無(wú)法捕獲幾何結(jié)構(gòu)復(fù)雜或具有深度凹陷的物體的所有功能相關(guān)部位。研究團(tuán)隊(duì)建議未來(lái)的工作可以采用基于體積的功能學(xué)習(xí)方法,使用隱式3D表示來(lái)克服視角特定遮擋的問(wèn)題。
盡管存在這些局限,AffordDex仍然代表了機(jī)器人靈巧抓取領(lǐng)域的一個(gè)重要進(jìn)步。它成功地將人類運(yùn)動(dòng)的自然性與功能感知的安全性結(jié)合在一起,為未來(lái)更加智能和人性化的機(jī)器人系統(tǒng)奠定了基礎(chǔ)。這項(xiàng)研究不僅推進(jìn)了學(xué)術(shù)界對(duì)機(jī)器人操作的理解,也為實(shí)際應(yīng)用提供了切實(shí)可行的解決方案。
說(shuō)到底,讓機(jī)器人學(xué)會(huì)像人類一樣抓取物品,不僅僅是一個(gè)技術(shù)挑戰(zhàn),更是讓機(jī)器人真正融入人類生活的關(guān)鍵一步。AffordDex通過(guò)巧妙地結(jié)合模仿學(xué)習(xí)和安全感知,展示了一條通向更加智能、自然和安全的機(jī)器人操作系統(tǒng)的道路。隨著這類技術(shù)的不斷發(fā)展和完善,我們有理由期待未來(lái)的機(jī)器人助手能夠以更加優(yōu)雅和安全的方式幫助人類處理各種日常任務(wù)。
Q&A
Q1:AffordDex是什么?它解決了機(jī)器人抓取的哪些問(wèn)題?
A:AffordDex是由武漢大學(xué)、阿里達(dá)摩院等機(jī)構(gòu)聯(lián)合開(kāi)發(fā)的機(jī)器人靈巧抓取框架。它主要解決了兩個(gè)問(wèn)題:一是讓機(jī)器人的抓取動(dòng)作更像人類,避免機(jī)械僵硬的動(dòng)作;二是讓機(jī)器人具備安全意識(shí),知道哪些部位不能觸碰,比如不會(huì)抓住刀子的刀刃部分。
Q2:AffordDex的"負(fù)面功能感知"是如何工作的?
A:這個(gè)功能就像教機(jī)器人識(shí)別"危險(xiǎn)標(biāo)志"一樣。系統(tǒng)首先給3D物體添加紋理,然后從多個(gè)角度拍照,接著詢問(wèn)GPT-4V哪些部分不應(yīng)該接觸,最后使用AI視覺(jué)模型精確定位這些危險(xiǎn)區(qū)域。這樣機(jī)器人就知道該避開(kāi)刀刃、尖銳部分等不安全區(qū)域。
Q3:這項(xiàng)技術(shù)的實(shí)際效果如何?普通人什么時(shí)候能用上?
A:在測(cè)試中,AffordDex的抓取成功率超過(guò)85%,人類相似度評(píng)分達(dá)到8.6分(滿分10分),動(dòng)作既自然又安全。不過(guò)目前還在研究階段,主要用于實(shí)驗(yàn)室環(huán)境。要真正應(yīng)用到家用機(jī)器人或工業(yè)機(jī)器人中,還需要進(jìn)一步的工程化開(kāi)發(fā)和安全驗(yàn)證。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語(yǔ)言模型的敘事推理能力與音頻生成技術(shù),通過(guò)交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開(kāi)辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過(guò)讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問(wèn)題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語(yǔ)言模型人性化對(duì)話問(wèn)題。該研究創(chuàng)建了包含20萬(wàn)高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過(guò)創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開(kāi)發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過(guò)學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來(lái)了效率和精度的雙重突破。