想象一下,如果機(jī)器人能夠像人類一樣,在執(zhí)行任務(wù)之前就能預(yù)見(jiàn)物體應(yīng)該如何移動(dòng),那會(huì)是怎樣的場(chǎng)景?這不再是科幻小說(shuō)中的情節(jié)。來(lái)自南華理工大學(xué)、騰訊機(jī)器人X實(shí)驗(yàn)室、香港科技大學(xué)以及鵬城實(shí)驗(yàn)室的研究團(tuán)隊(duì),在2025年6月發(fā)表了一項(xiàng)突破性研究成果,題為"3DFlowAction: Learning Cross-Embodiment Manipulation from 3D Flow World Model"。這項(xiàng)研究發(fā)表在機(jī)器人學(xué)領(lǐng)域的頂級(jí)會(huì)議上,研究代碼和數(shù)據(jù)將在https://github.com/Hoyyyaard/3DFlowAction/公開(kāi)發(fā)布,感興趣的讀者可以通過(guò)這個(gè)鏈接獲取完整的研究資料。
這項(xiàng)研究就像是給機(jī)器人裝上了"預(yù)知眼",讓它們能夠預(yù)測(cè)物體在三維空間中的運(yùn)動(dòng)軌跡,從而更智能地執(zhí)行各種操作任務(wù)。研究團(tuán)隊(duì)由南華理工大學(xué)的支宏巖(第一作者)、董瑜博、吳全熙和譚明奎教授,騰訊機(jī)器人X實(shí)驗(yàn)室的陳培豪和韓雷,以及香港科技大學(xué)的周思源共同完成。通過(guò)這項(xiàng)研究,機(jī)器人不再需要針對(duì)每種特定硬件進(jìn)行專門訓(xùn)練,而是能夠像人類一樣,通過(guò)理解物體應(yīng)該如何運(yùn)動(dòng)來(lái)指導(dǎo)自己的行動(dòng)。
要理解這項(xiàng)研究的重要性,我們可以想象一個(gè)簡(jiǎn)單的場(chǎng)景:當(dāng)你想要把一個(gè)杯子掛到杯架上時(shí),你的大腦會(huì)自動(dòng)預(yù)演這個(gè)過(guò)程——杯子應(yīng)該從當(dāng)前位置移動(dòng)到杯架附近,然后旋轉(zhuǎn)到合適的角度,最后精確地掛在鉤子上。整個(gè)過(guò)程中,你不需要思考具體的肌肉動(dòng)作,而是專注于物體的運(yùn)動(dòng)軌跡。研究團(tuán)隊(duì)發(fā)現(xiàn),這種思維方式不僅適用于人類,也是機(jī)器人學(xué)習(xí)操作技能的理想方式。
傳統(tǒng)的機(jī)器人訓(xùn)練就像是為每個(gè)品牌的汽車單獨(dú)培訓(xùn)司機(jī),既費(fèi)時(shí)又費(fèi)力。不同的機(jī)器人使用不同的動(dòng)作空間,比如有些用關(guān)節(jié)角度控制,有些用末端執(zhí)行器位置控制,這就導(dǎo)致為一種機(jī)器人訓(xùn)練的技能很難轉(zhuǎn)移到另一種機(jī)器人上。更糟糕的是,現(xiàn)有的機(jī)器人數(shù)據(jù)集往往場(chǎng)景簡(jiǎn)單,缺乏統(tǒng)一的表示方法,這進(jìn)一步限制了機(jī)器人學(xué)習(xí)通用操作技能的能力。
研究團(tuán)隊(duì)的解決方案非常巧妙,他們提出了一個(gè)叫做"3D流世界模型"的概念。如果把傳統(tǒng)的機(jī)器人訓(xùn)練比作教學(xué)生背誦標(biāo)準(zhǔn)答案,那么這個(gè)新方法就像是教學(xué)生理解題目的本質(zhì)。這個(gè)模型能夠預(yù)測(cè)物體在三維空間中的未來(lái)運(yùn)動(dòng)軌跡,就像一個(gè)能夠看穿時(shí)間的水晶球,告訴機(jī)器人"這個(gè)物體接下來(lái)應(yīng)該怎么移動(dòng)"。
為了構(gòu)建這個(gè)"水晶球",研究團(tuán)隊(duì)首先創(chuàng)建了一個(gè)名為ManiFlow-110k的大規(guī)模數(shù)據(jù)集。這個(gè)數(shù)據(jù)集包含了11萬(wàn)個(gè)三維光流實(shí)例,涵蓋了從人類操作視頻到各種機(jī)器人操作視頻的豐富內(nèi)容。就像收集烹飪食譜一樣,他們從BridgeV2、RT1、Libero、AgiWorld、RH20t-Human、HOI4D和DROID等多個(gè)數(shù)據(jù)源中提取了操作數(shù)據(jù),確保模型能夠?qū)W習(xí)到各種不同的物體運(yùn)動(dòng)模式。
創(chuàng)建這個(gè)數(shù)據(jù)集的過(guò)程就像是在擁擠的人群中追蹤特定的人。現(xiàn)有的檢測(cè)模型在復(fù)雜背景和相似物體的環(huán)境中往往表現(xiàn)不佳,無(wú)法準(zhǔn)確識(shí)別被操作的目標(biāo)物體。為了解決這個(gè)問(wèn)題,研究團(tuán)隊(duì)開(kāi)發(fā)了一個(gè)巧妙的"移動(dòng)物體自動(dòng)檢測(cè)管道"。這個(gè)系統(tǒng)首先使用Grounding-SAM2識(shí)別機(jī)器人夾具的位置,然后在整個(gè)視頻幀中分布大量追蹤點(diǎn),排除落在夾具區(qū)域內(nèi)的點(diǎn)。接著,系統(tǒng)使用Co-tracker3模型追蹤這些點(diǎn)的運(yùn)動(dòng),識(shí)別出那些顯著移動(dòng)的點(diǎn),最終確定被操作物體的位置。這種方法在BridgeV2數(shù)據(jù)集上達(dá)到了超過(guò)80%的檢測(cè)準(zhǔn)確率。
一旦識(shí)別出目標(biāo)物體,系統(tǒng)就會(huì)提取二維光流信息,然后使用DepthAnythingV2進(jìn)行深度預(yù)測(cè),將二維光流投影到三維空間中,得到最終的三維光流數(shù)據(jù)。這就像是從平面照片中還原出立體的運(yùn)動(dòng)軌跡,讓機(jī)器人能夠真正理解物體在空間中的完整運(yùn)動(dòng)。
接下來(lái),研究團(tuán)隊(duì)構(gòu)建了基于視頻擴(kuò)散模型的流世界模型。這個(gè)模型以AnimateDiff為基礎(chǔ),能夠根據(jù)初始RGB觀察、任務(wù)提示和初始點(diǎn)位置生成隨時(shí)間變化的三維流。與傳統(tǒng)方法不同的是,他們沒(méi)有將三維流壓縮到潛在空間中,因?yàn)樗麄儼l(fā)現(xiàn)StableDiffusion的圖像編碼器在處理深度信息時(shí)效果不佳。相反,他們直接將三維流輸入到U-Net網(wǎng)絡(luò)中,其中前兩個(gè)通道表示圖像空間中的二維坐標(biāo),第三個(gè)通道表示深度,第四個(gè)通道表示可見(jiàn)性。
這個(gè)模型的訓(xùn)練過(guò)程就像是教一個(gè)藝術(shù)家畫(huà)連環(huán)畫(huà)。研究團(tuán)隊(duì)使用CLIP編碼器處理RGB觀察和任務(wù)提示,使用正弦位置編碼處理初始點(diǎn)位置。他們遵循AnimateDiff的做法,注入運(yùn)動(dòng)模塊來(lái)建模三維流的時(shí)間動(dòng)態(tài),從零開(kāi)始訓(xùn)練運(yùn)動(dòng)模塊層,但只在穩(wěn)定擴(kuò)散模型中插入LoRA層,以保持預(yù)訓(xùn)練期間獲得的生成能力。
基于這個(gè)流世界模型,研究團(tuán)隊(duì)設(shè)計(jì)了一套完整的流引導(dǎo)動(dòng)作規(guī)劃系統(tǒng)。這個(gè)系統(tǒng)就像是一個(gè)經(jīng)驗(yàn)豐富的指揮家,能夠?qū)㈩A(yù)測(cè)的物體運(yùn)動(dòng)軌跡轉(zhuǎn)化為具體的機(jī)器人動(dòng)作。整個(gè)系統(tǒng)包含三個(gè)核心組件:閉環(huán)運(yùn)動(dòng)規(guī)劃、任務(wù)感知抓取姿態(tài)生成和基于流的動(dòng)作生成。
閉環(huán)運(yùn)動(dòng)規(guī)劃?rùn)C(jī)制解決了預(yù)測(cè)可能不準(zhǔn)確的問(wèn)題。想象你在玩投籃游戲,即使你瞄準(zhǔn)了籃筐,球也可能偏離目標(biāo)。為了提高成功率,研究團(tuán)隊(duì)開(kāi)發(fā)了一個(gè)"流引導(dǎo)渲染機(jī)制"。這個(gè)機(jī)制能夠根據(jù)預(yù)測(cè)的光流軌跡渲染出任務(wù)完成后的最終狀態(tài)圖像,然后使用GPT-4o來(lái)評(píng)估這個(gè)預(yù)測(cè)結(jié)果是否符合任務(wù)要求。如果不符合,系統(tǒng)會(huì)自動(dòng)重新生成預(yù)測(cè),直到得到滿意的結(jié)果。
具體來(lái)說(shuō),系統(tǒng)會(huì)從光流的第一個(gè)時(shí)間步獲取點(diǎn)集P1,從最后一個(gè)時(shí)間步獲取點(diǎn)集P2,然后使用奇異值分解計(jì)算這兩組點(diǎn)之間的變換矩陣T。這個(gè)變換矩陣描述了物體從初始位置到最終位置的完整變換過(guò)程。系統(tǒng)將這個(gè)變換應(yīng)用到被操作物體的初始點(diǎn)云上,得到預(yù)測(cè)的目標(biāo)狀態(tài),然后將變換后的點(diǎn)云添加到當(dāng)前三維場(chǎng)景中,重新投影為二維圖像作為預(yù)測(cè)輸出。
任務(wù)感知抓取姿態(tài)生成解決了如何選擇合適抓取方式的問(wèn)題。傳統(tǒng)的抓取生成方法往往是任務(wù)無(wú)關(guān)的,就像是閉著眼睛抓東西,可能會(huì)導(dǎo)致目標(biāo)位置不可達(dá)或任務(wù)無(wú)法完成。研究團(tuán)隊(duì)的方法更加智能,首先通過(guò)GPT-4o分析任務(wù)指令,確定應(yīng)該抓取物體的哪個(gè)部分,然后使用AnyGrasp在該部分周圍生成一系列候選抓取姿態(tài)。
為了確保選擇的抓取姿態(tài)是可行的,系統(tǒng)會(huì)將之前計(jì)算的變換矩陣T應(yīng)用到所有候選抓取姿態(tài)上,得到對(duì)應(yīng)于預(yù)測(cè)目標(biāo)物體位置的目標(biāo)夾具姿態(tài)。然后,系統(tǒng)使用機(jī)器人的逆運(yùn)動(dòng)學(xué)檢查這些目標(biāo)姿態(tài)是否可達(dá),從而選擇出既符合任務(wù)要求又在機(jī)器人能力范圍內(nèi)的抓取姿態(tài)。這就像是在選擇工具時(shí),不僅要考慮工具本身的適用性,還要確保你能夠輕松使用它。
基于流的動(dòng)作生成是整個(gè)系統(tǒng)的最后一步,它將預(yù)測(cè)的三維光流轉(zhuǎn)化為具體的機(jī)器人動(dòng)作序列。由于三維流能夠捕獲物體在每個(gè)時(shí)間步的三維空間位置,研究團(tuán)隊(duì)將操作任務(wù)表示為一系列物體姿態(tài)序列。這種表示方法使得他們能夠使用優(yōu)化程序來(lái)確定相應(yīng)的機(jī)器人動(dòng)作,這些動(dòng)作以SE(3)空間中的末端執(zhí)行器姿態(tài)序列表示。
優(yōu)化過(guò)程首先使用最遠(yuǎn)點(diǎn)采樣在物體表面選擇N個(gè)關(guān)鍵點(diǎn),并獲得對(duì)應(yīng)的三維光流。然后,系統(tǒng)最小化選定初始關(guān)鍵點(diǎn)與時(shí)間步t時(shí)預(yù)測(cè)流對(duì)應(yīng)關(guān)鍵點(diǎn)之間的三維歐氏距離,得到該時(shí)間步的末端執(zhí)行器姿態(tài)。通過(guò)這種方式,系統(tǒng)能夠生成一系列末端執(zhí)行器姿態(tài)作為最終執(zhí)行動(dòng)作。
為了驗(yàn)證這項(xiàng)研究的有效性,研究團(tuán)隊(duì)設(shè)計(jì)了四個(gè)具有挑戰(zhàn)性的基礎(chǔ)任務(wù):從茶壺向杯子倒茶、將筆插入筆筒、將杯子掛到杯架上,以及打開(kāi)頂層抽屜。這些任務(wù)都需要復(fù)雜的三維運(yùn)動(dòng)和精確的空間控制。倒茶任務(wù)要求機(jī)器人保持茶壺水平并將壺嘴對(duì)準(zhǔn)杯口。插筆任務(wù)需要將筆垂直定位并執(zhí)行復(fù)雜的旋轉(zhuǎn)動(dòng)作。掛杯子任務(wù)需要精確控制杯柄與掛鉤的相對(duì)位置。開(kāi)抽屜任務(wù)必須沿著抽屜的方向移動(dòng)以避免卡住。
實(shí)驗(yàn)結(jié)果令人印象深刻。在與現(xiàn)有世界模型的比較中,3DFlowAction在所有四個(gè)任務(wù)上都表現(xiàn)出色,總體成功率達(dá)到70%,遠(yuǎn)超其他方法的20-25%。與基于視頻的世界模型AVDC相比,3DFlowAction在所有任務(wù)上都有顯著提升。這主要是因?yàn)橐曨l模型的低分辨率和非物體中心的未來(lái)狀態(tài)生成限制了其效果。高分辨率視頻生成需要大量計(jì)算資源,而低分辨率輸出往往導(dǎo)致物體意外消失和重現(xiàn)等不一致現(xiàn)象,嚴(yán)重影響動(dòng)作策略的效果。
相比之下,3DFlowAction生成以物體為中心的三維運(yùn)動(dòng)軌跡,能夠精確描述物體運(yùn)動(dòng)和姿態(tài),最大限度地減少了無(wú)關(guān)因素對(duì)下游動(dòng)作策略的影響。與基于VLM代碼的世界模型Rekep相比,3DFlowAction也表現(xiàn)更佳。VLM模型依賴基于代碼的約束,限制了其表示復(fù)雜物體運(yùn)動(dòng)的能力,因?yàn)樗饕ㄟ^(guò)關(guān)鍵點(diǎn)之間的距離關(guān)系來(lái)描述運(yùn)動(dòng)。而3DFlowAction使用光流更有效、更自然地描述物體的未來(lái)空間位置。
在跨機(jī)器人平臺(tái)的測(cè)試中,3DFlowAction展現(xiàn)了出色的通用性。研究團(tuán)隊(duì)在Franka和XTrainer兩個(gè)不同的機(jī)器人平臺(tái)上直接部署了3DFlowAction,無(wú)需任何機(jī)器人相關(guān)的微調(diào)。結(jié)果顯示,兩個(gè)平臺(tái)的性能基本一致,分別達(dá)到67.5%和70.0%的成功率。這證明了該方法具有真正的跨機(jī)器人能力,三維光流作為不同機(jī)器人之間的統(tǒng)一動(dòng)作表示非常有效。
與模仿學(xué)習(xí)方法的比較也證實(shí)了優(yōu)化策略在良好動(dòng)作特征引導(dǎo)下的競(jìng)爭(zhēng)優(yōu)勢(shì)。為了確保公平比較,研究團(tuán)隊(duì)為兩種模仿學(xué)習(xí)方法通過(guò)遙操作收集了每個(gè)任務(wù)30個(gè)演示數(shù)據(jù)集進(jìn)行微調(diào)。結(jié)果顯示,3DFlowAction持續(xù)表現(xiàn)良好,總成功率達(dá)到70%,而PI0和Im2Flow2Act分別只有50%和27.5%。這得益于優(yōu)化策略的輸入是三維光流,它在三維空間中提供了軌跡相關(guān)指令的全面而有效的描述。
在泛化能力測(cè)試中,3DFlowAction在處理領(lǐng)域外物體和背景方面表現(xiàn)出色。與訓(xùn)練域內(nèi)任務(wù)相比,視頻世界模型AVDC在面對(duì)分布外數(shù)據(jù)時(shí)表現(xiàn)急劇下降,成功率從20%降至幾乎為零。這是因?yàn)锳VDC在模擬未來(lái)狀態(tài)時(shí)必須考慮與特定任務(wù)無(wú)關(guān)的背景元素,當(dāng)面對(duì)未見(jiàn)輸入時(shí),生成的視頻質(zhì)量惡化,難以有效指導(dǎo)機(jī)器人運(yùn)動(dòng)。模仿學(xué)習(xí)方法PI0在面對(duì)領(lǐng)域外場(chǎng)景時(shí)也出現(xiàn)一定的性能下降。而以物體為中心的3DFlowAction框架在不同的未見(jiàn)物體和背景下繼續(xù)表現(xiàn)出競(jìng)爭(zhēng)性的性能。
消融研究進(jìn)一步驗(yàn)證了系統(tǒng)各組件的重要性。閉環(huán)規(guī)劃?rùn)C(jī)制的作用非常顯著,當(dāng)禁用該功能時(shí),四個(gè)操作任務(wù)的平均成功率下降了20%,這證明了閉環(huán)規(guī)劃方法的有效性。大規(guī)模預(yù)訓(xùn)練的影響更加明顯,沒(méi)有大規(guī)模預(yù)訓(xùn)練的系統(tǒng)在四個(gè)操作任務(wù)上的平均成功率下降了40%,難以學(xué)習(xí)下游任務(wù)所需的技能,也缺乏泛化能力。這表明在大規(guī)模數(shù)據(jù)集ManiFlow-110k上預(yù)訓(xùn)練流世界模型對(duì)于學(xué)習(xí)物體運(yùn)動(dòng)的物理動(dòng)力學(xué)至關(guān)重要。
研究團(tuán)隊(duì)還測(cè)試了3DFlowAction在不同目標(biāo)物體和背景下的零樣本泛化能力。在物體泛化測(cè)試中,系統(tǒng)對(duì)從茶壺倒茶、插筆、掛杯子和開(kāi)抽屜四個(gè)任務(wù)分別達(dá)到了4/10、6/10、4/10和8/10的成功率,總體成功率為55%。在背景泛化測(cè)試中,相應(yīng)的成功率為4/10、4/10、4/10和8/10,總體成功率為50%。這些結(jié)果證明了3DFlowAction能夠有效處理領(lǐng)域外輸入的泛化問(wèn)題,這得益于其以物體為中心的動(dòng)作表示和大規(guī)模預(yù)訓(xùn)練。
值得注意的是,這項(xiàng)研究的一個(gè)重要優(yōu)勢(shì)是數(shù)據(jù)效率。對(duì)于新的復(fù)雜下游任務(wù),研究團(tuán)隊(duì)只需要在10分鐘內(nèi)收集10到30個(gè)人手演示數(shù)據(jù)點(diǎn)(具體數(shù)量取決于任務(wù)復(fù)雜性),無(wú)需機(jī)器人遙操作。這大大降低了系統(tǒng)部署的成本和復(fù)雜性,使得該技術(shù)更容易在實(shí)際應(yīng)用中推廣。
研究團(tuán)隊(duì)在論文中坦誠(chéng)地討論了當(dāng)前方法的局限性。3DFlowAction在處理柔性物體運(yùn)動(dòng)時(shí)面臨挑戰(zhàn),因?yàn)閲?yán)重的遮擋和復(fù)雜的運(yùn)動(dòng)模式使得三維光流建模變得困難。此外,物體的非剛性變形可能導(dǎo)致下游動(dòng)作策略無(wú)法輸出有效動(dòng)作。這些局限性為未來(lái)的研究指明了方向,也提醒我們這項(xiàng)技術(shù)仍有改進(jìn)空間。
從技術(shù)實(shí)現(xiàn)的角度來(lái)看,研究團(tuán)隊(duì)提供了詳細(xì)的實(shí)現(xiàn)細(xì)節(jié)。他們使用SciPy庫(kù)解決優(yōu)化問(wèn)題,遵循Rekep的做法。對(duì)于單臂機(jī)器人,決策變量包含單個(gè)末端執(zhí)行器姿態(tài),用位置和歐拉角表示。位置項(xiàng)受預(yù)定義工作空間限制約束,旋轉(zhuǎn)項(xiàng)限制在下半球,因?yàn)槟┒藞?zhí)行器通常面向下方。決策變量根據(jù)這些邊界標(biāo)準(zhǔn)化到[-1,1]范圍。在解決的第一次迭代中,初始猜測(cè)設(shè)置為當(dāng)前末端執(zhí)行器姿態(tài),系統(tǒng)采用基于采樣的全局優(yōu)化方法雙重退火,高效探索整個(gè)解空間,然后使用基于梯度的局部?jī)?yōu)化器SLSQP細(xì)化解決方案。
這項(xiàng)研究的影響遠(yuǎn)不止于技術(shù)本身。它為機(jī)器人操作任務(wù)提供了一種全新的思路,從關(guān)注具體的動(dòng)作指令轉(zhuǎn)向理解物體應(yīng)該如何運(yùn)動(dòng)。這種范式轉(zhuǎn)換不僅提高了機(jī)器人的操作能力,還為實(shí)現(xiàn)真正通用的機(jī)器人系統(tǒng)鋪平了道路。想象一下,未來(lái)的機(jī)器人可能不再需要針對(duì)每種特定任務(wù)進(jìn)行專門訓(xùn)練,而是能夠像人類一樣,通過(guò)理解任務(wù)的本質(zhì)來(lái)自動(dòng)學(xué)會(huì)執(zhí)行各種復(fù)雜操作。
研究團(tuán)隊(duì)在ManiFlow-110k數(shù)據(jù)集的構(gòu)建上也投入了大量心血。這個(gè)數(shù)據(jù)集涵蓋了多個(gè)來(lái)源的豐富操作數(shù)據(jù),包括BridgeV2占27%、DROID占13%、RT1占18%、AgiWorld占8%、Libero占4%、RH20t-Human占27%以及HOI4D占3%。這種多樣性確保了模型能夠?qū)W習(xí)到各種不同的操作模式和物體運(yùn)動(dòng)規(guī)律。
值得一提的是,研究團(tuán)隊(duì)在模型訓(xùn)練方面也做了大量?jī)?yōu)化工作。他們使用學(xué)習(xí)率為0.0001、批量大小為512、訓(xùn)練500個(gè)epochs,采用AdamW優(yōu)化器,權(quán)重衰減為0.01,epsilon為1e-8。模型在8×8 V100 GPU配置上訓(xùn)練了大約2天時(shí)間。這些技術(shù)細(xì)節(jié)對(duì)于想要復(fù)現(xiàn)或改進(jìn)該研究的其他研究者來(lái)說(shuō)非常有價(jià)值。
從更廣泛的角度來(lái)看,這項(xiàng)研究代表了機(jī)器人學(xué)習(xí)領(lǐng)域的一個(gè)重要進(jìn)展。傳統(tǒng)的機(jī)器人訓(xùn)練往往需要大量特定于硬件的數(shù)據(jù)和調(diào)優(yōu),這限制了機(jī)器人技術(shù)的快速發(fā)展和廣泛應(yīng)用。而3DFlowAction提出的跨機(jī)器人學(xué)習(xí)范式,有望打破這些壁壘,讓機(jī)器人技能能夠在不同平臺(tái)之間自由遷移。
這種技術(shù)的潛在應(yīng)用場(chǎng)景非常廣泛。在制造業(yè)中,機(jī)器人可能需要處理各種不同形狀和材質(zhì)的零件,傳統(tǒng)方法需要為每種零件單獨(dú)編程,而3DFlowAction可能讓機(jī)器人通過(guò)理解零件應(yīng)該如何移動(dòng)來(lái)自動(dòng)學(xué)會(huì)處理方法。在家庭服務(wù)機(jī)器人領(lǐng)域,這種技術(shù)可能讓機(jī)器人更好地理解如何整理房間、準(zhǔn)備食物或照顧老人。在醫(yī)療手術(shù)機(jī)器人方面,精確的三維運(yùn)動(dòng)預(yù)測(cè)能力可能提高手術(shù)的準(zhǔn)確性和安全性。
研究團(tuán)隊(duì)還在論文中展示了系統(tǒng)在實(shí)際操作中的可視化結(jié)果。通過(guò)觀察這些可視化圖像,我們可以看到3DFlowAction不僅能夠準(zhǔn)確預(yù)測(cè)物體的運(yùn)動(dòng)軌跡,還能生成平滑、自然的機(jī)器人動(dòng)作序列。這種視覺(jué)證據(jù)進(jìn)一步證實(shí)了該方法的實(shí)用性和可靠性。
這項(xiàng)研究的另一個(gè)重要貢獻(xiàn)是提出了一種評(píng)估機(jī)器人操作能力的新方法。通過(guò)使用GPT-4o來(lái)驗(yàn)證預(yù)測(cè)結(jié)果是否符合任務(wù)要求,研究團(tuán)隊(duì)創(chuàng)造了一種更加智能和靈活的評(píng)估機(jī)制。這種方法不僅能夠檢測(cè)明顯的失敗案例,還能識(shí)別細(xì)微的偏差,從而提高整個(gè)系統(tǒng)的可靠性。
值得注意的是,這項(xiàng)研究在開(kāi)源社區(qū)的貢獻(xiàn)也不容忽視。研究團(tuán)隊(duì)承諾將代碼和數(shù)據(jù)公開(kāi)發(fā)布,這將極大地促進(jìn)相關(guān)領(lǐng)域的研究發(fā)展。其他研究者可以基于這些資源進(jìn)行進(jìn)一步的改進(jìn)和擴(kuò)展,形成良性的學(xué)術(shù)生態(tài)循環(huán)。
從學(xué)術(shù)價(jià)值的角度來(lái)看,這項(xiàng)研究在多個(gè)方面都有重要貢獻(xiàn)。首先,它提出了一種新的機(jī)器人學(xué)習(xí)范式,從動(dòng)作模仿轉(zhuǎn)向運(yùn)動(dòng)理解。其次,它解決了跨機(jī)器人平臺(tái)的技能遷移問(wèn)題,這是機(jī)器人學(xué)領(lǐng)域長(zhǎng)期面臨的挑戰(zhàn)。再次,它展示了大規(guī)模預(yù)訓(xùn)練在機(jī)器人學(xué)習(xí)中的重要作用,為未來(lái)的研究提供了新的思路。
研究團(tuán)隊(duì)在實(shí)驗(yàn)設(shè)計(jì)方面也非常嚴(yán)謹(jǐn)。他們不僅與現(xiàn)有方法進(jìn)行了全面比較,還進(jìn)行了詳細(xì)的消融研究來(lái)驗(yàn)證各個(gè)組件的作用。這種嚴(yán)謹(jǐn)?shù)膶?shí)驗(yàn)方法學(xué)確保了研究結(jié)果的可信度和可重復(fù)性。同時(shí),他們選擇的四個(gè)基礎(chǔ)任務(wù)具有很好的代表性,涵蓋了不同類型的操作挑戰(zhàn),為評(píng)估系統(tǒng)性能提供了全面的測(cè)試基準(zhǔn)。
在技術(shù)創(chuàng)新方面,這項(xiàng)研究的移動(dòng)物體檢測(cè)管道也值得特別關(guān)注。這個(gè)管道能夠在復(fù)雜背景中準(zhǔn)確識(shí)別被操作的物體,解決了現(xiàn)有檢測(cè)模型在機(jī)器人操作場(chǎng)景中表現(xiàn)不佳的問(wèn)題。這種技術(shù)創(chuàng)新不僅對(duì)當(dāng)前研究有重要意義,也可能在其他需要物體追蹤的應(yīng)用場(chǎng)景中發(fā)揮作用。
展望未來(lái),這項(xiàng)研究為機(jī)器人操作技術(shù)的發(fā)展開(kāi)辟了新的道路。隨著三維感知技術(shù)的不斷進(jìn)步和計(jì)算能力的提升,我們有理由相信,基于三維流的機(jī)器人學(xué)習(xí)方法將會(huì)變得更加高效和可靠。同時(shí),隨著更多研究者的參與和貢獻(xiàn),這種方法可能會(huì)擴(kuò)展到更多類型的操作任務(wù)和應(yīng)用場(chǎng)景。
總的來(lái)說(shuō),南華理工大學(xué)等機(jī)構(gòu)的這項(xiàng)研究不僅在技術(shù)上取得了重要突破,也為整個(gè)機(jī)器人學(xué)領(lǐng)域提供了新的思考方向。它證明了通過(guò)理解物體運(yùn)動(dòng)規(guī)律來(lái)指導(dǎo)機(jī)器人行為的可行性和有效性,為實(shí)現(xiàn)更加智能和通用的機(jī)器人系統(tǒng)奠定了堅(jiān)實(shí)基礎(chǔ)。這種從模仿到理解的轉(zhuǎn)變,可能會(huì)成為機(jī)器人技術(shù)發(fā)展的一個(gè)重要里程碑。隨著這項(xiàng)技術(shù)的進(jìn)一步完善和推廣,我們可能會(huì)看到機(jī)器人在各個(gè)領(lǐng)域發(fā)揮更大的作用,真正成為人類生活和工作的得力助手。
好文章,需要你的鼓勵(lì)
新加坡國(guó)立大學(xué)研究團(tuán)隊(duì)開(kāi)發(fā)了SPIRAL框架,通過(guò)讓AI與自己對(duì)弈零和游戲來(lái)提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡(jiǎn)單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無(wú)需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開(kāi)發(fā)的GIGA-ToF技術(shù)通過(guò)融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問(wèn)題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺(jué)解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過(guò)對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺(jué)語(yǔ)言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無(wú)法有效利用視覺(jué)信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過(guò)動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語(yǔ)言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。