av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見(jiàn)證連接與計(jì)算的「力量」

首頁(yè) 紐約大學(xué)最新研究:機(jī)器人"想得很美,做得不行"的尷尬現(xiàn)狀被徹底揭露

紐約大學(xué)最新研究:機(jī)器人"想得很美,做得不行"的尷尬現(xiàn)狀被徹底揭露

2025-06-25 14:54
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-25 14:54 ? 科技行者

這項(xiàng)由紐約大學(xué)的Irving Fang、Juexiao Zhang、Shengbang Tong和Chen Feng等研究者完成的重要研究發(fā)表于2025年6月的arXiv預(yù)印本平臺(tái)(論文編號(hào):arXiv:2506.09930v1),有興趣深入了解的讀者可以通過(guò)https://ai4ce.github.io/INT-ACT/ 訪問(wèn)完整論文和研究代碼。

機(jī)器人技術(shù)正處在一個(gè)有趣的發(fā)展階段?,F(xiàn)在的智能機(jī)器人就像是擁有博士學(xué)位的大腦卻裝在了三歲孩子身體里的奇怪生物。它們能夠理解復(fù)雜的語(yǔ)言指令,知道該做什么,甚至能在腦海中規(guī)劃出完美的行動(dòng)方案,但一旦開(kāi)始實(shí)際操作,就變得笨手笨腳,經(jīng)常把簡(jiǎn)單的任務(wù)搞砸。

近年來(lái),研究人員開(kāi)發(fā)出了一種叫做"視覺(jué)-語(yǔ)言-動(dòng)作"(VLA)模型的機(jī)器人大腦。這種大腦的特別之處在于它結(jié)合了三種能力:能看懂周?chē)h(huán)境的"眼睛",能理解人類語(yǔ)言的"耳朵",以及能控制機(jī)器人行動(dòng)的"手腳"。理論上,這樣的組合應(yīng)該讓機(jī)器人變得非常聰明和靈活,就像一個(gè)既能聽(tīng)懂你說(shuō)話,又能看懂現(xiàn)場(chǎng)情況,還能準(zhǔn)確執(zhí)行任務(wù)的完美助手。

然而,紐約大學(xué)的研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)令人意外的問(wèn)題。他們?cè)O(shè)計(jì)了一套全面的測(cè)試系統(tǒng),叫做INT-ACT,包含了50個(gè)不同難度的任務(wù),就像給機(jī)器人設(shè)置了一個(gè)全方位的考試。這些測(cè)試涵蓋了三個(gè)主要方面:處理沒(méi)見(jiàn)過(guò)的物體、理解復(fù)雜的語(yǔ)言指令,以及在混亂環(huán)境中進(jìn)行推理。

測(cè)試結(jié)果揭示了一個(gè)有趣而尷尬的現(xiàn)象:機(jī)器人們普遍患上了"理想很豐滿,現(xiàn)實(shí)很骨感"的毛病。當(dāng)研究人員要求機(jī)器人執(zhí)行一個(gè)簡(jiǎn)單任務(wù),比如"把胡蘿卜放到盤(pán)子上"時(shí),機(jī)器人的大腦能夠正確理解這個(gè)指令,甚至能夠準(zhǔn)確識(shí)別出胡蘿卜和盤(pán)子的位置。用研究者的話說(shuō),機(jī)器人展現(xiàn)出了"良好的意圖"。但是,當(dāng)它真正開(kāi)始行動(dòng)時(shí),卻經(jīng)常在關(guān)鍵的執(zhí)行環(huán)節(jié)出現(xiàn)失誤。

這種現(xiàn)象就像是一個(gè)廚師知道如何做菜,能夠準(zhǔn)確說(shuō)出每一個(gè)步驟,甚至能指出所有食材的位置,但一旦開(kāi)始動(dòng)手,就會(huì)把鹽當(dāng)成糖,把油倒成醋。研究團(tuán)隊(duì)將這種現(xiàn)象稱為"意圖-行動(dòng)差距",這個(gè)名字非常形象地描述了機(jī)器人當(dāng)前面臨的核心問(wèn)題。

研究團(tuán)隊(duì)測(cè)試了幾種目前最先進(jìn)的機(jī)器人大腦,包括π0、SpatialVLA、Magma和Octo等模型。這些模型就像不同品牌的智能助手,各有特色,但都存在相似的問(wèn)題。當(dāng)面對(duì)標(biāo)準(zhǔn)的、訓(xùn)練時(shí)見(jiàn)過(guò)的場(chǎng)景時(shí),它們表現(xiàn)得相對(duì)不錯(cuò)。但一旦環(huán)境稍有變化,比如換了個(gè)沒(méi)見(jiàn)過(guò)的物體,或者指令稍微復(fù)雜一些,問(wèn)題就暴露無(wú)遺。

為了深入理解這個(gè)問(wèn)題,研究團(tuán)隊(duì)設(shè)計(jì)了三大類測(cè)試場(chǎng)景。第一類是"物體多樣性"測(cè)試,就像讓機(jī)器人在一個(gè)從未去過(guò)的商店里購(gòu)物。機(jī)器人需要處理那些在訓(xùn)練時(shí)從未見(jiàn)過(guò)的物體,比如用螺母代替胡蘿卜,或者用鍵盤(pán)代替盤(pán)子。第二類是"語(yǔ)言復(fù)雜性"測(cè)試,相當(dāng)于用更自然、更復(fù)雜的方式與機(jī)器人對(duì)話,而不是使用簡(jiǎn)單的命令式語(yǔ)言。第三類是"視覺(jué)-語(yǔ)言思考"測(cè)試,模擬現(xiàn)實(shí)世界中常見(jiàn)的混亂和干擾情況。

在物體多樣性測(cè)試中,研究人員發(fā)現(xiàn)了一個(gè)特別有趣的現(xiàn)象。機(jī)器人們?cè)谧R(shí)別新物體方面表現(xiàn)得相當(dāng)不錯(cuò),這得益于它們強(qiáng)大的視覺(jué)理解能力。但問(wèn)題出現(xiàn)在動(dòng)作執(zhí)行上。比如,當(dāng)要求機(jī)器人把可樂(lè)罐放到鍵盤(pán)上時(shí),即使機(jī)器人能夠正確識(shí)別可樂(lè)罐和鍵盤(pán),并且知道應(yīng)該執(zhí)行"放置"動(dòng)作,但在實(shí)際抓取和放置過(guò)程中卻經(jīng)常失敗。更奇怪的是,即使只是改變目標(biāo)物體而保持源物體不變,比如從"把胡蘿卜放到盤(pán)子上"改為"把胡蘿卜放到鍵盤(pán)上",機(jī)器人的抓取成功率也會(huì)發(fā)生顯著變化,這表明高層次的感知和規(guī)劃與低層次的動(dòng)作控制之間存在脆弱的耦合關(guān)系。

語(yǔ)言復(fù)雜性測(cè)試揭示了另一個(gè)令人擔(dān)憂的問(wèn)題。現(xiàn)在的機(jī)器人大腦雖然基于強(qiáng)大的語(yǔ)言模型,理論上應(yīng)該具備出色的語(yǔ)言理解能力,但在實(shí)際應(yīng)用中卻表現(xiàn)得相當(dāng)脆弱。當(dāng)研究人員將簡(jiǎn)單的指令"把胡蘿卜放到盤(pán)子上"改為更自然的表達(dá)"把兔子最喜歡的蔬菜放到盤(pán)子上"時(shí),大多數(shù)機(jī)器人都出現(xiàn)了明顯的性能下降。這種現(xiàn)象特別令人困惑,因?yàn)闄C(jī)器人使用的語(yǔ)言模型在純語(yǔ)言任務(wù)中能夠輕松處理這類常識(shí)推理問(wèn)題。

研究團(tuán)隊(duì)還進(jìn)行了一個(gè)有趣的對(duì)比實(shí)驗(yàn)。他們直接測(cè)試了機(jī)器人使用的基礎(chǔ)語(yǔ)言模型PaliGemma,發(fā)現(xiàn)這個(gè)模型在純視覺(jué)問(wèn)答任務(wù)中表現(xiàn)得相當(dāng)不錯(cuò),能夠正確回答"圖片中兔子最喜歡的蔬菜是什么"這樣的問(wèn)題。但一旦這個(gè)模型被整合到完整的機(jī)器人系統(tǒng)中并經(jīng)過(guò)動(dòng)作數(shù)據(jù)的訓(xùn)練后,這種語(yǔ)言理解能力就大幅下降了。這就像是一個(gè)原本能夠流利對(duì)話的人,在學(xué)會(huì)了一些體力活動(dòng)后,反而變得不會(huì)說(shuō)話了。

視覺(jué)-語(yǔ)言思考測(cè)試可能是最接近現(xiàn)實(shí)世界挑戰(zhàn)的部分。研究人員在場(chǎng)景中加入了各種干擾物體,模擬日常環(huán)境中的雜亂情況。結(jié)果發(fā)現(xiàn),當(dāng)單獨(dú)面對(duì)視覺(jué)干擾或語(yǔ)言歧義時(shí),機(jī)器人還能勉強(qiáng)應(yīng)對(duì),但當(dāng)兩種挑戰(zhàn)同時(shí)出現(xiàn)時(shí),它們就完全崩潰了。

最典型的例子是橙汁任務(wù)。當(dāng)研究人員要求機(jī)器人"把從橙子中榨出的果汁放到盤(pán)子上",同時(shí)在場(chǎng)景中放置一個(gè)真正的橙子作為干擾物時(shí),機(jī)器人們普遍出現(xiàn)了混亂。它們不再能夠正確識(shí)別橙汁盒,而是錯(cuò)誤地嘗試抓取橙子。這種現(xiàn)象表明,當(dāng)語(yǔ)言線索與視覺(jué)干擾發(fā)生沖突時(shí),機(jī)器人的推理能力會(huì)發(fā)生系統(tǒng)性的故障。

研究團(tuán)隊(duì)還發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:機(jī)器人的"錯(cuò)誤物體嘗試率"會(huì)在特定情況下急劇上升。在胡蘿卜任務(wù)中,當(dāng)指令從"把胡蘿卜放到盤(pán)子上"變?yōu)?把兔子最喜歡的蔬菜放到盤(pán)子上",同時(shí)在場(chǎng)景中添加一個(gè)玩具兔子時(shí),一些機(jī)器人開(kāi)始錯(cuò)誤地嘗試抓取兔子而不是胡蘿卜。這表明語(yǔ)言中的常識(shí)暗示與視覺(jué)線索發(fā)生沖突時(shí),機(jī)器人會(huì)做出不合理的決策。

這些發(fā)現(xiàn)對(duì)于機(jī)器人技術(shù)的發(fā)展具有重要意義。目前的VLA模型雖然在某些方面表現(xiàn)出色,但它們的泛化能力遠(yuǎn)沒(méi)有達(dá)到預(yù)期水平。研究結(jié)果表明,簡(jiǎn)單地將強(qiáng)大的視覺(jué)語(yǔ)言模型與機(jī)器人控制系統(tǒng)結(jié)合,并不能自動(dòng)獲得期望的泛化能力。反而,端到端的訓(xùn)練過(guò)程可能會(huì)損害原本強(qiáng)大的視覺(jué)語(yǔ)言理解能力。

為了驗(yàn)證這一點(diǎn),研究團(tuán)隊(duì)進(jìn)行了額外的實(shí)驗(yàn)。他們嘗試通過(guò)在訓(xùn)練過(guò)程中加入更多樣化的語(yǔ)言表達(dá)來(lái)改善機(jī)器人的語(yǔ)言理解能力,這種方法確實(shí)在某些方面有所改善,但整體效果仍然有限。這表明問(wèn)題的根源可能不在于數(shù)據(jù)的多樣性,而在于當(dāng)前的訓(xùn)練方法本身。

研究團(tuán)隊(duì)指出,當(dāng)前VLA模型面臨的核心挑戰(zhàn)是如何在保持強(qiáng)大的感知和推理能力的同時(shí),實(shí)現(xiàn)精確的動(dòng)作控制。這需要在架構(gòu)設(shè)計(jì)上進(jìn)行根本性的創(chuàng)新,而不是簡(jiǎn)單地?cái)U(kuò)大模型規(guī)?;蛟黾佑?xùn)練數(shù)據(jù)。一些可能的方向包括模塊化設(shè)計(jì),將感知、推理和控制分離成相對(duì)獨(dú)立的組件,或者開(kāi)發(fā)新的訓(xùn)練方法來(lái)避免端到端訓(xùn)練對(duì)原有能力的損害。

這項(xiàng)研究的另一個(gè)重要貢獻(xiàn)是INT-ACT測(cè)試套件的開(kāi)源發(fā)布。這個(gè)測(cè)試系統(tǒng)為研究社區(qū)提供了一個(gè)標(biāo)準(zhǔn)化的評(píng)估工具,讓不同的研究團(tuán)隊(duì)能夠在相同的標(biāo)準(zhǔn)下比較各自的成果。測(cè)試套件包含了50個(gè)精心設(shè)計(jì)的任務(wù),涵蓋了從簡(jiǎn)單的物體操作到復(fù)雜的常識(shí)推理等各個(gè)層面。

研究團(tuán)隊(duì)在設(shè)計(jì)測(cè)試時(shí)特別考慮了現(xiàn)實(shí)世界的應(yīng)用需求。他們避免了一些現(xiàn)有基準(zhǔn)測(cè)試的局限性,比如過(guò)于簡(jiǎn)化的場(chǎng)景或者不切實(shí)際的任務(wù)設(shè)定。INT-ACT的任務(wù)都是基于日常生活中常見(jiàn)的操作,但通過(guò)系統(tǒng)性的變化來(lái)測(cè)試機(jī)器人的泛化能力。

測(cè)試結(jié)果還揭示了不同VLA模型之間的有趣差異。π0模型在大多數(shù)測(cè)試中表現(xiàn)最好,特別是在從頭開(kāi)始訓(xùn)練的版本。這可能是因?yàn)閺念^訓(xùn)練避免了預(yù)訓(xùn)練模型中的一些偏置。SpatialVLA在某些空間推理任務(wù)中表現(xiàn)出色,但在語(yǔ)言變化方面較為脆弱。Magma模型由于采用了視覺(jué)語(yǔ)言共同訓(xùn)練的策略,在語(yǔ)言理解方面表現(xiàn)相對(duì)較好,但在動(dòng)作執(zhí)行上仍然存在問(wèn)題。

研究還發(fā)現(xiàn),模型的大小并不總是決定性因素。一些較小的模型在特定任務(wù)上的表現(xiàn)可能比大型模型更好,這表明架構(gòu)設(shè)計(jì)和訓(xùn)練策略可能比純粹的規(guī)模擴(kuò)展更重要。這為未來(lái)的研究提供了有價(jià)值的啟示:與其盲目追求更大的模型,不如專注于設(shè)計(jì)更合理的架構(gòu)和訓(xùn)練方法。

從技術(shù)實(shí)現(xiàn)的角度來(lái)看,這項(xiàng)研究采用了嚴(yán)格的實(shí)驗(yàn)設(shè)計(jì)。所有測(cè)試都在ManiSkill2仿真環(huán)境中進(jìn)行,這個(gè)環(huán)境被設(shè)計(jì)得盡可能接近現(xiàn)實(shí)世界的物理特性。每個(gè)任務(wù)都進(jìn)行了多次重復(fù)實(shí)驗(yàn),確保結(jié)果的可靠性。研究團(tuán)隊(duì)還引入了新的評(píng)估指標(biāo),特別是"意圖正確率",這個(gè)指標(biāo)能夠區(qū)分感知推理能力和動(dòng)作執(zhí)行能力,為分析模型的問(wèn)題提供了更細(xì)粒度的工具。

這項(xiàng)研究的局限性也值得注意。由于所有實(shí)驗(yàn)都在仿真環(huán)境中進(jìn)行,結(jié)果能否完全適用于真實(shí)世界的機(jī)器人還需要進(jìn)一步驗(yàn)證。此外,測(cè)試主要基于BridgeV2數(shù)據(jù)集和相應(yīng)的機(jī)器人配置,擴(kuò)展到更多樣的機(jī)器人平臺(tái)可能會(huì)帶來(lái)新的挑戰(zhàn)和發(fā)現(xiàn)。

盡管如此,這項(xiàng)研究為機(jī)器人技術(shù)的發(fā)展提供了重要的指導(dǎo)意義。它不僅揭示了當(dāng)前技術(shù)的局限性,更重要的是為未來(lái)的改進(jìn)指明了方向。研究結(jié)果表明,要實(shí)現(xiàn)真正通用的機(jī)器人助手,我們還需要在感知-推理-行動(dòng)的整合方面進(jìn)行更多的基礎(chǔ)性研究。

從更廣闊的視角來(lái)看,這項(xiàng)研究反映了人工智能領(lǐng)域的一個(gè)普遍現(xiàn)象:將不同的AI能力有效整合仍然是一個(gè)巨大的挑戰(zhàn)。雖然我們?cè)诟鱾€(gè)單獨(dú)領(lǐng)域都取得了令人矚目的進(jìn)展,但將這些能力組合成一個(gè)協(xié)調(diào)工作的整體系統(tǒng)仍然困難重重。這不僅是技術(shù)問(wèn)題,也是我們對(duì)智能本質(zhì)理解的反映。

研究團(tuán)隊(duì)的發(fā)現(xiàn)也為產(chǎn)業(yè)界提供了重要啟示。當(dāng)前許多公司都在積極開(kāi)發(fā)服務(wù)機(jī)器人和工業(yè)機(jī)器人,這項(xiàng)研究的結(jié)果提醒我們,僅僅擁有先進(jìn)的AI算法是不夠的,如何將這些算法有效地轉(zhuǎn)化為可靠的實(shí)際行動(dòng)能力,仍然需要大量的研究和開(kāi)發(fā)工作。

說(shuō)到底,這項(xiàng)研究用科學(xué)的方法驗(yàn)證了一個(gè)樸素的直覺(jué):知道怎么做和真正做好是兩回事。就像一個(gè)理論上的游泳高手跳進(jìn)水里可能仍然會(huì)嗆水一樣,現(xiàn)在的智能機(jī)器人雖然在紙面上看起來(lái)很完美,但在實(shí)際操作中仍然問(wèn)題重重。

這并不意味著我們應(yīng)該對(duì)機(jī)器人技術(shù)的前景感到悲觀。相反,準(zhǔn)確地識(shí)別和理解這些問(wèn)題是解決它們的第一步。正如研究團(tuán)隊(duì)所指出的,當(dāng)前的VLA模型已經(jīng)在某些方面表現(xiàn)出了令人驚喜的能力,特別是在理解復(fù)雜場(chǎng)景和語(yǔ)言指令方面。問(wèn)題的關(guān)鍵在于如何將這些能力更好地轉(zhuǎn)化為可靠的行動(dòng)。

這項(xiàng)研究也提醒我們,在評(píng)估AI系統(tǒng)時(shí)需要更加全面和細(xì)致的方法。傳統(tǒng)的評(píng)估往往關(guān)注整體性能,但這項(xiàng)研究表明,分別評(píng)估不同能力組件(如感知、推理、行動(dòng))可能更有助于理解系統(tǒng)的真實(shí)能力和局限性。這種分析方法不僅適用于機(jī)器人技術(shù),也可能對(duì)其他AI應(yīng)用領(lǐng)域產(chǎn)生啟發(fā)。

未來(lái)的機(jī)器人技術(shù)發(fā)展可能需要更多跨學(xué)科的合作。單純的計(jì)算機(jī)科學(xué)方法可能不足以解決感知-行動(dòng)整合的復(fù)雜問(wèn)題,需要結(jié)合認(rèn)知科學(xué)、神經(jīng)科學(xué)、甚至哲學(xué)的見(jiàn)解來(lái)理解智能行為的本質(zhì)。這項(xiàng)研究為這種跨學(xué)科對(duì)話提供了一個(gè)具體的出發(fā)點(diǎn)。

研究團(tuán)隊(duì)承諾將繼續(xù)改進(jìn)和擴(kuò)展INT-ACT測(cè)試套件,包括增加更多類型的任務(wù)、支持更多機(jī)器人平臺(tái),以及開(kāi)發(fā)自動(dòng)生成新測(cè)試場(chǎng)景的工具。這將為整個(gè)研究社區(qū)提供持續(xù)的支持,推動(dòng)機(jī)器人技術(shù)向更實(shí)用的方向發(fā)展。

有興趣進(jìn)一步了解這項(xiàng)研究細(xì)節(jié)或使用INT-ACT測(cè)試套件的讀者,可以訪問(wèn)項(xiàng)目主頁(yè)https://ai4ce.github.io/INT-ACT/ 獲取完整的代碼和數(shù)據(jù)。這種開(kāi)放的研究方式體現(xiàn)了現(xiàn)代科學(xué)合作的精神,也將加速整個(gè)領(lǐng)域的進(jìn)步。

Q&A

Q1:什么是"意圖-行動(dòng)差距"?這個(gè)問(wèn)題嚴(yán)重嗎? A:意圖-行動(dòng)差距是指機(jī)器人能夠正確理解任務(wù)要求并識(shí)別相關(guān)物體(有好的意圖),但在實(shí)際執(zhí)行動(dòng)作時(shí)卻經(jīng)常失敗的現(xiàn)象。這個(gè)問(wèn)題相當(dāng)嚴(yán)重,因?yàn)樗砻鳟?dāng)前的智能機(jī)器人雖然"腦子很聰明",但"手腳不聽(tīng)使喚",嚴(yán)重限制了它們?cè)诂F(xiàn)實(shí)世界中的實(shí)用性。

Q2:為什么機(jī)器人會(huì)在語(yǔ)言理解上出現(xiàn)退步? A:研究發(fā)現(xiàn),當(dāng)強(qiáng)大的語(yǔ)言模型被整合到機(jī)器人系統(tǒng)中并進(jìn)行端到端訓(xùn)練時(shí),原本優(yōu)秀的語(yǔ)言理解能力會(huì)發(fā)生退化。這就像一個(gè)原本會(huì)說(shuō)話的人在學(xué)習(xí)體力活動(dòng)后反而不會(huì)說(shuō)話了。問(wèn)題可能出在當(dāng)前的訓(xùn)練方法上,需要開(kāi)發(fā)新的架構(gòu)設(shè)計(jì)來(lái)避免這種能力損失。

Q3:INT-ACT測(cè)試套件有什么特別之處? A:INT-ACT是首個(gè)專門(mén)設(shè)計(jì)來(lái)全面評(píng)估機(jī)器人泛化能力的測(cè)試系統(tǒng),包含50個(gè)精心設(shè)計(jì)的任務(wù),涵蓋物體識(shí)別、語(yǔ)言理解和復(fù)雜推理三大類挑戰(zhàn)。與以往測(cè)試不同,它不僅評(píng)估整體性能,還能分別測(cè)量機(jī)器人的"意圖正確率"和"動(dòng)作執(zhí)行率",幫助研究者精確定位問(wèn)題所在。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-