在2025年5月,康涅狄格大學(xué)的研究團(tuán)隊發(fā)表了一篇名為"ScanBot: Towards Intelligent Surface Scanning in Embodied Robotic Systems"的研究論文,該研究由Zhiling Chen、Yang Zhang、Fardin Jalil Piran、Qianyu Zhou、Jiong Tang和通訊作者Farhad Imani共同完成。這項研究展示了機(jī)器人智能系統(tǒng)面臨的一個被忽視卻至關(guān)重要的挑戰(zhàn):機(jī)器人不僅需要能抓取和操作物體,還需要能夠進(jìn)行高精度的表面掃描。這就好比我們?nèi)祟惒粌H要能用手拿起物品,還要能用眼睛細(xì)致觀察物體表面的每一個細(xì)節(jié)。
一、為什么機(jī)器人需要學(xué)會"仔細(xì)觀察":研究背景與動機(jī)
想象一下,當(dāng)你看到一個陌生的物體時,你不僅會伸手去拿它,還會仔細(xì)觀察它的表面、材質(zhì)和細(xì)節(jié)。這種觀察能力對我們來說似乎是理所當(dāng)然的,但對機(jī)器人來說卻是一個巨大的挑戰(zhàn)。近年來,機(jī)器人領(lǐng)域取得了令人印象深刻的進(jìn)步,特別是在導(dǎo)航、抓取物體和自然語言交互方面。然而,研究團(tuán)隊發(fā)現(xiàn)了一個關(guān)鍵問題:現(xiàn)有的機(jī)器人系統(tǒng)大多只關(guān)注粗略的任務(wù),如抓取和移動物體,而忽略了高精度表面檢測這一重要能力。
想象一下一個簡單的區(qū)別:用機(jī)械爪抓起一個物體與用激光掃描儀精確地掃描物體表面是兩種完全不同的任務(wù)。前者就像用手拿起一個蘋果,而后者則像用放大鏡仔細(xì)檢查蘋果表面是否有瑕疵或蟲害。這兩種任務(wù)對機(jī)器人的要求截然不同。
研究團(tuán)隊指出,當(dāng)今的通用機(jī)器人可能會使用各種工具,而這些工具對運動控制的要求遠(yuǎn)比簡單的平行夾持器嚴(yán)格。例如,噴漆噴槍必須保持±2毫米的距離和±50毫米/秒的掃描速度才能避免"橘皮效應(yīng)";TIG焊接torch必須在±0.2毫米范圍內(nèi)跟蹤焊縫;而本研究關(guān)注的激光線掃描儀的軌跡抖動必須低于0.1毫米(即傳感器的深度分辨率)。目前沒有公開的基準(zhǔn)測試能評估機(jī)器人模型是否能滿足這種亞毫米級、受指令條件約束的軌跡要求。
這一差距在大型工業(yè)組件的非破壞性評估中尤為明顯,例如飛機(jī)蒙皮、渦輪葉片和電池外殼。對于這些大型物體,全表面掃描的工作量會隨零部件尺寸呈二次方增長,并且在很少出現(xiàn)故障的區(qū)域上浪費傳感器帶寬。例如,以0.1毫米分辨率掃描一個1米×0.5米的渦輪葉片需要約5000萬個點,使用1千赫茲的傳感器需要超過45分鐘,這對于在線質(zhì)量控制來說是不可行的。工程師們希望進(jìn)行有目標(biāo)的掃描,比如"檢查前緣焊接",讓機(jī)器人將這個短語定位到一個網(wǎng)格區(qū)域,并即時調(diào)整距離、速度和曝光參數(shù)。
二、夾具vs掃描儀:兩種工具的不同挑戰(zhàn)
為了更清楚地說明問題,研究人員比較了機(jī)器人使用夾具和掃描儀時的行為差異。想象一個機(jī)器人正在執(zhí)行四個代表性步驟——無論是使用夾具還是掃描儀。
在第一步,兩種系統(tǒng)都從初始狀態(tài)開始,識別感興趣的物體。但這里已經(jīng)出現(xiàn)了差異:對于夾具來說,目標(biāo)是一個需要抓取的立方體;而對于掃描儀,必須將物體視為需要輪廓分析的表面。
在第二步,夾具會定位立方體并基于幾何形狀識別穩(wěn)定的抓取姿勢。而掃描儀則必須解釋自然語言指令(例如"掃描風(fēng)扇"),根據(jù)物體外觀和環(huán)境條件調(diào)整掃描參數(shù),并將指令定位到特定區(qū)域。
第三步,夾具執(zhí)行簡短的運動來抓取物體,而掃描儀需要精確移動到正確對齊的起點,保持適當(dāng)?shù)母叨群头较蛞员苊庹趽鹾蜏y量偽影。
最后,在第四步,夾具完成任務(wù),進(jìn)行離散的放置動作,而掃描儀則執(zhí)行平滑連續(xù)的運動到終點。不同于抓取,掃描任務(wù)的成功不是由任務(wù)完成來判斷,而是由所得3D表面重建的質(zhì)量和完整性來判斷。兩者都對運動抖動或錯位極為敏感。
三、傳統(tǒng)掃描方法的局限性
研究團(tuán)隊發(fā)現(xiàn),現(xiàn)實世界中工業(yè)掃描的執(zhí)行方式也存在局限性。傳統(tǒng)的激光掃描通常以兩種方式之一進(jìn)行:要么使用固定掃描儀對通過傳送帶的物體進(jìn)行掃描,要么使用機(jī)器臂沿著整個表面遵循硬編碼的軌跡。
雖然這些方法可能適用于簡單、均勻的零件,但在實際檢測場景中它們變得效率低下且不切實際。處理大型組件時,全面的表面覆蓋變得耗時過多。更關(guān)鍵的是,缺陷通常出現(xiàn)在特定區(qū)域,如連接器、焊縫或邊緣,這使得全表面掃描變得浪費。此外,缺陷(如微裂紋或分層)只能在經(jīng)過精細(xì)調(diào)整的條件下被檢測到,例如較慢的掃描速度或更高的曝光設(shè)置,這些條件無法均勻應(yīng)用于整個零件。
四、ScanBot數(shù)據(jù)集:讓機(jī)器人學(xué)會"細(xì)致觀察"的第一步
基于這些實際挑戰(zhàn),研究團(tuán)隊推出了ScanBot,這是首個專為高精度表面掃描任務(wù)設(shè)計的指令條件多模態(tài)數(shù)據(jù)集。ScanBot包含12個物體,既有現(xiàn)實世界的電子組件,也有分析結(jié)構(gòu)的3D打印形狀,每一個都注明了多個任務(wù)指令和相應(yīng)的高分辨率掃描軌跡。
這些物體包括四塊不同形態(tài)和散熱設(shè)計的顯卡、一個內(nèi)存模塊、一張WiFi卡,以及六個3D打印幾何形狀?,F(xiàn)實世界的組件具有多樣的表面特性,如啞光塑料蓋、有光澤的散熱器、暴露的焊接電路和反光金屬連接器,這些都是工業(yè)表面分析中常見的挑戰(zhàn)。3D打印部件則被設(shè)計成三個比較組:黑白兩個等邊三角形、兩個有不同凸起和凹陷圖案的立方體、以及兩個有相同幾何特征但不同表面顏色的圓柱體。
研究團(tuán)隊定義了六種代表性的掃描任務(wù):表面掃描(捕捉物體的完整幾何形狀)、幾何聚焦(針對特定結(jié)構(gòu)組件如風(fēng)扇或凹槽)、空間參考(掃描左側(cè)或右側(cè)等相對位置定義的區(qū)域)、功能目標(biāo)(關(guān)注端口或連接器等語義有意義的部分)、缺陷檢測(針對有缺陷或損壞區(qū)域的掃描)以及比較分析(比較多個區(qū)域的一致性或?qū)R)。
每個任務(wù)都配備了一個或多個自然語言指令,并通過相應(yīng)的運動軌跡執(zhí)行。每個軌跡產(chǎn)生一個多模態(tài)數(shù)據(jù)樣本,由同步傳感器流和詳細(xì)元數(shù)據(jù)組成。數(shù)據(jù)集總共包含896個掃描路徑,涵蓋了這六個類別。
研究團(tuán)隊的硬件設(shè)置包括一個6自由度UR3協(xié)作機(jī)器人臂,配備了多傳感器負(fù)載。機(jī)器人末端執(zhí)行器上安裝了Keyence LJ-X8200 2D/3D激光位移傳感器。該型號使用405納米藍(lán)色激光,在80毫米視場內(nèi)每個輪廓捕獲3200個數(shù)據(jù)點,實現(xiàn)亞毫米分辨率(Z軸重復(fù)性為1微米,X軸精度為3微米)。此外,還安裝了Intel RealSense D435i RGB-D相機(jī)和GoPro HERO8 Black相機(jī),分別提供第一人稱和第三人稱視角。
五、當(dāng)前智能模型的局限性:評估結(jié)果
有了這個數(shù)據(jù)集,研究團(tuán)隊評估了當(dāng)前最先進(jìn)的多模態(tài)大語言模型(MLLM)在指令條件表面掃描任務(wù)中的表現(xiàn)。測試對象包括GPT-4.1、OpenAI o3、Gemini 2.5 Pro和Gemini 2.5 Flash。評估涵蓋了從感知到規(guī)劃再到執(zhí)行的整個過程循環(huán):模型首先觀察來自未見過物體的多個傳感器數(shù)據(jù),然后解釋指令,規(guī)劃激光掃描軌跡,最后從獲取的輪廓重建表面幾何。
在選擇掃描儀參數(shù)方面,Gemini 2.5 Flash取得了最高的總體準(zhǔn)確率,為41.7%,其次是Gemini 2.5 Pro,為40.3%。GPT-4.1和OpenAI o3表現(xiàn)相似,都達(dá)到34.7%的準(zhǔn)確率。不同參數(shù)的預(yù)測準(zhǔn)確率差異明顯。采樣頻率和光強(qiáng)范圍預(yù)測相對一致,表明模型可以捕捉一般的物體大小和亮度。相比之下,Z中心和CMOS范圍特別困難,平均準(zhǔn)確率低于25%。
在定位目標(biāo)區(qū)域方面,OpenAI o3取得了最高的平均交并比(IoU)0.129,其次是GPT-4.1的0.073。Gemini 2.5 Pro和Gemini 2.5 Flash表現(xiàn)不佳,平均IoU低于0.02。結(jié)果顯示,模型在T1(全物體掃描)任務(wù)上表現(xiàn)最好,這類指令映射到整個物體且不那么模糊。對于涉及精細(xì)特征的任務(wù)(如T2幾何聚焦、T3空間參考、T4功能目標(biāo)),性能急劇下降,IoU接近零。
在生成掃描路徑方面,無論使用什么輸入組合和模型類型,預(yù)測的路徑點始終落在物體輪廓之外,讓激光掃過背景,產(chǎn)生重構(gòu)誤差最大的點云。這表明,即使給予額外的深度線索或外部視圖,當(dāng)前多模態(tài)大語言模型也缺乏將自由形式指令轉(zhuǎn)換為可行掃描軌跡所需的毫米級空間定位能力。
這些實驗結(jié)果表明,盡管最先進(jìn)的視覺語言動作(VLA)模型在抓取或?qū)Ш降却至6热蝿?wù)中表現(xiàn)良好,但在需要亞毫米精度的表面掃描任務(wù)中仍面臨重大挑戰(zhàn)。要實現(xiàn)工業(yè)級的掃描性能,未來的模型需要更好地理解精確的空間關(guān)系、物體幾何結(jié)構(gòu)和傳感器參數(shù)調(diào)整。
六、未來方向與局限性
盡管ScanBot為指令條件表面掃描提供了結(jié)構(gòu)化基準(zhǔn),但它仍有幾個局限性。首先,所有軌跡都假設(shè)是平面表面,限制了它對具有曲面或不規(guī)則幾何形狀的物體的適用性。其次,掃描過程是開環(huán)的:一旦預(yù)測了軌跡和參數(shù),系統(tǒng)就不會根據(jù)執(zhí)行過程中的掃描質(zhì)量或反饋進(jìn)行調(diào)整。第三,框架假設(shè)一次性掃描,但在實際場景中,某些區(qū)域可能需要在不同角度或設(shè)置下多次掃描才能獲得足夠的覆蓋率或分辨率。
未來的工作將解決這些局限性,擴(kuò)展ScanBot以支持曲面掃描,機(jī)器人需要持續(xù)調(diào)整姿勢和方向以跟隨非平面幾何。研究團(tuán)隊還計劃啟用多通道掃描,允許對具有挑戰(zhàn)性的區(qū)域進(jìn)行重復(fù)表面覆蓋。最后,雖然本研究關(guān)注激光掃描儀,但指令引導(dǎo)連續(xù)控制的更廣泛范式適用于其他工具,如焊機(jī)、噴霧器和拋光機(jī)。研究團(tuán)隊計劃將ScanBot擴(kuò)展為多工具基準(zhǔn),進(jìn)一步探索工具條件感知和控制。
七、結(jié)語:走向更全面的機(jī)器人智能
總的來說,ScanBot數(shù)據(jù)集和實驗結(jié)果揭示了當(dāng)前機(jī)器人智能系統(tǒng)的一個重要盲區(qū):雖然我們的機(jī)器人越來越擅長抓取和移動物體,但它們在需要高精度、連續(xù)操作的任務(wù)上仍然表現(xiàn)不佳。這就像是我們教會了機(jī)器人如何用手,卻還沒教會它們?nèi)绾斡醚劬褪种傅木?xì)觸感。
這項研究不僅針對工業(yè)應(yīng)用,還揭示了機(jī)器人智能的一個基礎(chǔ)問題:真正的通用機(jī)器人需要能夠熟練使用各種工具,而每種工具都有其獨特的感知和控制要求。未來的機(jī)器人系統(tǒng)不僅需要掌握"抓取"這樣的離散動作,還需要能夠執(zhí)行"掃描"、"檢測"、"觀察"這樣需要連續(xù)精確控制的任務(wù)。
ScanBot提供的基準(zhǔn)測試和數(shù)據(jù)集為這一方向的研究提供了重要的第一步,幫助研究人員開發(fā)更全面、更精確的機(jī)器人控制系統(tǒng)。對于普通人來說,這意味著未來的機(jī)器人不僅能幫我們搬運物品,還能幫我們進(jìn)行精細(xì)的檢查工作,從檢測家用電器的潛在問題到輔助醫(yī)療診斷,應(yīng)用場景將更加廣泛。
有興趣深入了解這項研究的讀者可以在arXiv上查找原論文,標(biāo)題為"ScanBot: Towards Intelligent Surface Scanning in Embodied Robotic Systems",發(fā)表于2025年5月,由康涅狄格大學(xué)的研究團(tuán)隊完成。
好文章,需要你的鼓勵
新加坡國立大學(xué)研究團(tuán)隊開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實驗顯示,僅訓(xùn)練AI玩簡單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實現(xiàn)37.9%的精度提升,并在真實設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊通過對比實驗發(fā)現(xiàn),經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時刻"現(xiàn)象,但這些自我糾錯行為并不能實際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗證差距",即生成答案的能力強(qiáng)于驗證答案質(zhì)量的能力,且模型在自我驗證時無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動態(tài)稀疏性實現(xiàn)大語言模型訓(xùn)練加速1.6倍,計算成本降低2.2倍。該方法使用SVD稀疏性估計器智能選擇重要計算部分,在保持模型性能的同時顯著提升訓(xùn)練效率,已在多個任務(wù)上驗證有效性。