av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見(jiàn)證連接與計(jì)算的「力量」

首頁(yè) ScanBot:為什么康涅狄格大學(xué)研究團(tuán)隊(duì)認(rèn)為機(jī)器人不僅需要抓取物體,還應(yīng)精確掃描物體表面

ScanBot:為什么康涅狄格大學(xué)研究團(tuán)隊(duì)認(rèn)為機(jī)器人不僅需要抓取物體,還應(yīng)精確掃描物體表面

2025-05-29 12:04
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-29 12:04 ? 科技行者

在2025年5月,康涅狄格大學(xué)的研究團(tuán)隊(duì)發(fā)表了一篇名為"ScanBot: Towards Intelligent Surface Scanning in Embodied Robotic Systems"的研究論文,該研究由Zhiling Chen、Yang Zhang、Fardin Jalil Piran、Qianyu Zhou、Jiong Tang和通訊作者Farhad Imani共同完成。這項(xiàng)研究展示了機(jī)器人智能系統(tǒng)面臨的一個(gè)被忽視卻至關(guān)重要的挑戰(zhàn):機(jī)器人不僅需要能抓取和操作物體,還需要能夠進(jìn)行高精度的表面掃描。這就好比我們?nèi)祟?lèi)不僅要能用手拿起物品,還要能用眼睛細(xì)致觀察物體表面的每一個(gè)細(xì)節(jié)。

一、為什么機(jī)器人需要學(xué)會(huì)"仔細(xì)觀察":研究背景與動(dòng)機(jī)

想象一下,當(dāng)你看到一個(gè)陌生的物體時(shí),你不僅會(huì)伸手去拿它,還會(huì)仔細(xì)觀察它的表面、材質(zhì)和細(xì)節(jié)。這種觀察能力對(duì)我們來(lái)說(shuō)似乎是理所當(dāng)然的,但對(duì)機(jī)器人來(lái)說(shuō)卻是一個(gè)巨大的挑戰(zhàn)。近年來(lái),機(jī)器人領(lǐng)域取得了令人印象深刻的進(jìn)步,特別是在導(dǎo)航、抓取物體和自然語(yǔ)言交互方面。然而,研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)關(guān)鍵問(wèn)題:現(xiàn)有的機(jī)器人系統(tǒng)大多只關(guān)注粗略的任務(wù),如抓取和移動(dòng)物體,而忽略了高精度表面檢測(cè)這一重要能力。

想象一下一個(gè)簡(jiǎn)單的區(qū)別:用機(jī)械爪抓起一個(gè)物體與用激光掃描儀精確地掃描物體表面是兩種完全不同的任務(wù)。前者就像用手拿起一個(gè)蘋(píng)果,而后者則像用放大鏡仔細(xì)檢查蘋(píng)果表面是否有瑕疵或蟲(chóng)害。這兩種任務(wù)對(duì)機(jī)器人的要求截然不同。

研究團(tuán)隊(duì)指出,當(dāng)今的通用機(jī)器人可能會(huì)使用各種工具,而這些工具對(duì)運(yùn)動(dòng)控制的要求遠(yuǎn)比簡(jiǎn)單的平行夾持器嚴(yán)格。例如,噴漆噴槍必須保持±2毫米的距離和±50毫米/秒的掃描速度才能避免"橘皮效應(yīng)";TIG焊接torch必須在±0.2毫米范圍內(nèi)跟蹤焊縫;而本研究關(guān)注的激光線掃描儀的軌跡抖動(dòng)必須低于0.1毫米(即傳感器的深度分辨率)。目前沒(méi)有公開(kāi)的基準(zhǔn)測(cè)試能評(píng)估機(jī)器人模型是否能滿足這種亞毫米級(jí)、受指令條件約束的軌跡要求。

這一差距在大型工業(yè)組件的非破壞性評(píng)估中尤為明顯,例如飛機(jī)蒙皮、渦輪葉片和電池外殼。對(duì)于這些大型物體,全表面掃描的工作量會(huì)隨零部件尺寸呈二次方增長(zhǎng),并且在很少出現(xiàn)故障的區(qū)域上浪費(fèi)傳感器帶寬。例如,以0.1毫米分辨率掃描一個(gè)1米×0.5米的渦輪葉片需要約5000萬(wàn)個(gè)點(diǎn),使用1千赫茲的傳感器需要超過(guò)45分鐘,這對(duì)于在線質(zhì)量控制來(lái)說(shuō)是不可行的。工程師們希望進(jìn)行有目標(biāo)的掃描,比如"檢查前緣焊接",讓機(jī)器人將這個(gè)短語(yǔ)定位到一個(gè)網(wǎng)格區(qū)域,并即時(shí)調(diào)整距離、速度和曝光參數(shù)。

二、夾具vs掃描儀:兩種工具的不同挑戰(zhàn)

為了更清楚地說(shuō)明問(wèn)題,研究人員比較了機(jī)器人使用夾具和掃描儀時(shí)的行為差異。想象一個(gè)機(jī)器人正在執(zhí)行四個(gè)代表性步驟——無(wú)論是使用夾具還是掃描儀。

在第一步,兩種系統(tǒng)都從初始狀態(tài)開(kāi)始,識(shí)別感興趣的物體。但這里已經(jīng)出現(xiàn)了差異:對(duì)于夾具來(lái)說(shuō),目標(biāo)是一個(gè)需要抓取的立方體;而對(duì)于掃描儀,必須將物體視為需要輪廓分析的表面。

在第二步,夾具會(huì)定位立方體并基于幾何形狀識(shí)別穩(wěn)定的抓取姿勢(shì)。而掃描儀則必須解釋自然語(yǔ)言指令(例如"掃描風(fēng)扇"),根據(jù)物體外觀和環(huán)境條件調(diào)整掃描參數(shù),并將指令定位到特定區(qū)域。

第三步,夾具執(zhí)行簡(jiǎn)短的運(yùn)動(dòng)來(lái)抓取物體,而掃描儀需要精確移動(dòng)到正確對(duì)齊的起點(diǎn),保持適當(dāng)?shù)母叨群头较蛞员苊庹趽鹾蜏y(cè)量偽影。

最后,在第四步,夾具完成任務(wù),進(jìn)行離散的放置動(dòng)作,而掃描儀則執(zhí)行平滑連續(xù)的運(yùn)動(dòng)到終點(diǎn)。不同于抓取,掃描任務(wù)的成功不是由任務(wù)完成來(lái)判斷,而是由所得3D表面重建的質(zhì)量和完整性來(lái)判斷。兩者都對(duì)運(yùn)動(dòng)抖動(dòng)或錯(cuò)位極為敏感。

三、傳統(tǒng)掃描方法的局限性

研究團(tuán)隊(duì)發(fā)現(xiàn),現(xiàn)實(shí)世界中工業(yè)掃描的執(zhí)行方式也存在局限性。傳統(tǒng)的激光掃描通常以兩種方式之一進(jìn)行:要么使用固定掃描儀對(duì)通過(guò)傳送帶的物體進(jìn)行掃描,要么使用機(jī)器臂沿著整個(gè)表面遵循硬編碼的軌跡。

雖然這些方法可能適用于簡(jiǎn)單、均勻的零件,但在實(shí)際檢測(cè)場(chǎng)景中它們變得效率低下且不切實(shí)際。處理大型組件時(shí),全面的表面覆蓋變得耗時(shí)過(guò)多。更關(guān)鍵的是,缺陷通常出現(xiàn)在特定區(qū)域,如連接器、焊縫或邊緣,這使得全表面掃描變得浪費(fèi)。此外,缺陷(如微裂紋或分層)只能在經(jīng)過(guò)精細(xì)調(diào)整的條件下被檢測(cè)到,例如較慢的掃描速度或更高的曝光設(shè)置,這些條件無(wú)法均勻應(yīng)用于整個(gè)零件。

四、ScanBot數(shù)據(jù)集:讓機(jī)器人學(xué)會(huì)"細(xì)致觀察"的第一步

基于這些實(shí)際挑戰(zhàn),研究團(tuán)隊(duì)推出了ScanBot,這是首個(gè)專(zhuān)為高精度表面掃描任務(wù)設(shè)計(jì)的指令條件多模態(tài)數(shù)據(jù)集。ScanBot包含12個(gè)物體,既有現(xiàn)實(shí)世界的電子組件,也有分析結(jié)構(gòu)的3D打印形狀,每一個(gè)都注明了多個(gè)任務(wù)指令和相應(yīng)的高分辨率掃描軌跡。

這些物體包括四塊不同形態(tài)和散熱設(shè)計(jì)的顯卡、一個(gè)內(nèi)存模塊、一張WiFi卡,以及六個(gè)3D打印幾何形狀?,F(xiàn)實(shí)世界的組件具有多樣的表面特性,如啞光塑料蓋、有光澤的散熱器、暴露的焊接電路和反光金屬連接器,這些都是工業(yè)表面分析中常見(jiàn)的挑戰(zhàn)。3D打印部件則被設(shè)計(jì)成三個(gè)比較組:黑白兩個(gè)等邊三角形、兩個(gè)有不同凸起和凹陷圖案的立方體、以及兩個(gè)有相同幾何特征但不同表面顏色的圓柱體。

研究團(tuán)隊(duì)定義了六種代表性的掃描任務(wù):表面掃描(捕捉物體的完整幾何形狀)、幾何聚焦(針對(duì)特定結(jié)構(gòu)組件如風(fēng)扇或凹槽)、空間參考(掃描左側(cè)或右側(cè)等相對(duì)位置定義的區(qū)域)、功能目標(biāo)(關(guān)注端口或連接器等語(yǔ)義有意義的部分)、缺陷檢測(cè)(針對(duì)有缺陷或損壞區(qū)域的掃描)以及比較分析(比較多個(gè)區(qū)域的一致性或?qū)R)。

每個(gè)任務(wù)都配備了一個(gè)或多個(gè)自然語(yǔ)言指令,并通過(guò)相應(yīng)的運(yùn)動(dòng)軌跡執(zhí)行。每個(gè)軌跡產(chǎn)生一個(gè)多模態(tài)數(shù)據(jù)樣本,由同步傳感器流和詳細(xì)元數(shù)據(jù)組成。數(shù)據(jù)集總共包含896個(gè)掃描路徑,涵蓋了這六個(gè)類(lèi)別。

研究團(tuán)隊(duì)的硬件設(shè)置包括一個(gè)6自由度UR3協(xié)作機(jī)器人臂,配備了多傳感器負(fù)載。機(jī)器人末端執(zhí)行器上安裝了Keyence LJ-X8200 2D/3D激光位移傳感器。該型號(hào)使用405納米藍(lán)色激光,在80毫米視場(chǎng)內(nèi)每個(gè)輪廓捕獲3200個(gè)數(shù)據(jù)點(diǎn),實(shí)現(xiàn)亞毫米分辨率(Z軸重復(fù)性為1微米,X軸精度為3微米)。此外,還安裝了Intel RealSense D435i RGB-D相機(jī)和GoPro HERO8 Black相機(jī),分別提供第一人稱(chēng)和第三人稱(chēng)視角。

五、當(dāng)前智能模型的局限性:評(píng)估結(jié)果

有了這個(gè)數(shù)據(jù)集,研究團(tuán)隊(duì)評(píng)估了當(dāng)前最先進(jìn)的多模態(tài)大語(yǔ)言模型(MLLM)在指令條件表面掃描任務(wù)中的表現(xiàn)。測(cè)試對(duì)象包括GPT-4.1、OpenAI o3、Gemini 2.5 Pro和Gemini 2.5 Flash。評(píng)估涵蓋了從感知到規(guī)劃再到執(zhí)行的整個(gè)過(guò)程循環(huán):模型首先觀察來(lái)自未見(jiàn)過(guò)物體的多個(gè)傳感器數(shù)據(jù),然后解釋指令,規(guī)劃激光掃描軌跡,最后從獲取的輪廓重建表面幾何。

在選擇掃描儀參數(shù)方面,Gemini 2.5 Flash取得了最高的總體準(zhǔn)確率,為41.7%,其次是Gemini 2.5 Pro,為40.3%。GPT-4.1和OpenAI o3表現(xiàn)相似,都達(dá)到34.7%的準(zhǔn)確率。不同參數(shù)的預(yù)測(cè)準(zhǔn)確率差異明顯。采樣頻率和光強(qiáng)范圍預(yù)測(cè)相對(duì)一致,表明模型可以捕捉一般的物體大小和亮度。相比之下,Z中心和CMOS范圍特別困難,平均準(zhǔn)確率低于25%。

在定位目標(biāo)區(qū)域方面,OpenAI o3取得了最高的平均交并比(IoU)0.129,其次是GPT-4.1的0.073。Gemini 2.5 Pro和Gemini 2.5 Flash表現(xiàn)不佳,平均IoU低于0.02。結(jié)果顯示,模型在T1(全物體掃描)任務(wù)上表現(xiàn)最好,這類(lèi)指令映射到整個(gè)物體且不那么模糊。對(duì)于涉及精細(xì)特征的任務(wù)(如T2幾何聚焦、T3空間參考、T4功能目標(biāo)),性能急劇下降,IoU接近零。

在生成掃描路徑方面,無(wú)論使用什么輸入組合和模型類(lèi)型,預(yù)測(cè)的路徑點(diǎn)始終落在物體輪廓之外,讓激光掃過(guò)背景,產(chǎn)生重構(gòu)誤差最大的點(diǎn)云。這表明,即使給予額外的深度線索或外部視圖,當(dāng)前多模態(tài)大語(yǔ)言模型也缺乏將自由形式指令轉(zhuǎn)換為可行掃描軌跡所需的毫米級(jí)空間定位能力。

這些實(shí)驗(yàn)結(jié)果表明,盡管最先進(jìn)的視覺(jué)語(yǔ)言動(dòng)作(VLA)模型在抓取或?qū)Ш降却至6热蝿?wù)中表現(xiàn)良好,但在需要亞毫米精度的表面掃描任務(wù)中仍面臨重大挑戰(zhàn)。要實(shí)現(xiàn)工業(yè)級(jí)的掃描性能,未來(lái)的模型需要更好地理解精確的空間關(guān)系、物體幾何結(jié)構(gòu)和傳感器參數(shù)調(diào)整。

六、未來(lái)方向與局限性

盡管ScanBot為指令條件表面掃描提供了結(jié)構(gòu)化基準(zhǔn),但它仍有幾個(gè)局限性。首先,所有軌跡都假設(shè)是平面表面,限制了它對(duì)具有曲面或不規(guī)則幾何形狀的物體的適用性。其次,掃描過(guò)程是開(kāi)環(huán)的:一旦預(yù)測(cè)了軌跡和參數(shù),系統(tǒng)就不會(huì)根據(jù)執(zhí)行過(guò)程中的掃描質(zhì)量或反饋進(jìn)行調(diào)整。第三,框架假設(shè)一次性掃描,但在實(shí)際場(chǎng)景中,某些區(qū)域可能需要在不同角度或設(shè)置下多次掃描才能獲得足夠的覆蓋率或分辨率。

未來(lái)的工作將解決這些局限性,擴(kuò)展ScanBot以支持曲面掃描,機(jī)器人需要持續(xù)調(diào)整姿勢(shì)和方向以跟隨非平面幾何。研究團(tuán)隊(duì)還計(jì)劃啟用多通道掃描,允許對(duì)具有挑戰(zhàn)性的區(qū)域進(jìn)行重復(fù)表面覆蓋。最后,雖然本研究關(guān)注激光掃描儀,但指令引導(dǎo)連續(xù)控制的更廣泛范式適用于其他工具,如焊機(jī)、噴霧器和拋光機(jī)。研究團(tuán)隊(duì)計(jì)劃將ScanBot擴(kuò)展為多工具基準(zhǔn),進(jìn)一步探索工具條件感知和控制。

七、結(jié)語(yǔ):走向更全面的機(jī)器人智能

總的來(lái)說(shuō),ScanBot數(shù)據(jù)集和實(shí)驗(yàn)結(jié)果揭示了當(dāng)前機(jī)器人智能系統(tǒng)的一個(gè)重要盲區(qū):雖然我們的機(jī)器人越來(lái)越擅長(zhǎng)抓取和移動(dòng)物體,但它們?cè)谛枰呔?、連續(xù)操作的任務(wù)上仍然表現(xiàn)不佳。這就像是我們教會(huì)了機(jī)器人如何用手,卻還沒(méi)教會(huì)它們?nèi)绾斡醚劬褪种傅木?xì)觸感。

這項(xiàng)研究不僅針對(duì)工業(yè)應(yīng)用,還揭示了機(jī)器人智能的一個(gè)基礎(chǔ)問(wèn)題:真正的通用機(jī)器人需要能夠熟練使用各種工具,而每種工具都有其獨(dú)特的感知和控制要求。未來(lái)的機(jī)器人系統(tǒng)不僅需要掌握"抓取"這樣的離散動(dòng)作,還需要能夠執(zhí)行"掃描"、"檢測(cè)"、"觀察"這樣需要連續(xù)精確控制的任務(wù)。

ScanBot提供的基準(zhǔn)測(cè)試和數(shù)據(jù)集為這一方向的研究提供了重要的第一步,幫助研究人員開(kāi)發(fā)更全面、更精確的機(jī)器人控制系統(tǒng)。對(duì)于普通人來(lái)說(shuō),這意味著未來(lái)的機(jī)器人不僅能幫我們搬運(yùn)物品,還能幫我們進(jìn)行精細(xì)的檢查工作,從檢測(cè)家用電器的潛在問(wèn)題到輔助醫(yī)療診斷,應(yīng)用場(chǎng)景將更加廣泛。

有興趣深入了解這項(xiàng)研究的讀者可以在arXiv上查找原論文,標(biāo)題為"ScanBot: Towards Intelligent Surface Scanning in Embodied Robotic Systems",發(fā)表于2025年5月,由康涅狄格大學(xué)的研究團(tuán)隊(duì)完成。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-