av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 RIPT-VLA:用簡單獎勵讓機(jī)器人更聰明!德克薩斯大學(xué)Austin分校開創(chuàng)視覺-語言-動作模型的互動式后訓(xùn)練新范式

RIPT-VLA:用簡單獎勵讓機(jī)器人更聰明!德克薩斯大學(xué)Austin分校開創(chuàng)視覺-語言-動作模型的互動式后訓(xùn)練新范式

2025-05-28 20:30
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-28 20:30 ? 科技行者

近日,德克薩斯大學(xué)Austin分校的Shuhan Tan、南開大學(xué)的Kairan Dou以及德克薩斯大學(xué)Austin分校的Yue Zhao和Philipp Krahenbühl共同在arXiv上發(fā)表了一項突破性研究,論文題為《視覺-語言-動作模型的互動式后訓(xùn)練》(Interactive Post-Training for Vision-Language-Action Models),發(fā)表時間為2025年5月22日。有興趣深入了解的讀者可通過https://ariostgx.github.io/ript_vla/訪問完整論文及相關(guān)代碼。

想象一下,你正在教一個小機(jī)器人做家務(wù)。傳統(tǒng)方法就像你只能通過放錄像帶給機(jī)器人看來教它——"看,這是如何疊衣服的"。但問題是,機(jī)器人只是模仿錄像中的動作,并不真正理解它在做什么。如果衣服的位置稍有不同,或者遇到從未見過的衣服,它就會完全不知所措。

這正是當(dāng)前視覺-語言-動作(VLA)模型面臨的挑戰(zhàn)。這些模型能夠看圖像(視覺),理解指令(語言),然后執(zhí)行動作,比如拿起物體或開抽屜。目前,這些模型主要通過兩個階段訓(xùn)練:先在大量通用數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練,然后通過專門的示范數(shù)據(jù)進(jìn)行監(jiān)督微調(diào)。這就像先教機(jī)器人基本動作,然后通過示范教它特定任務(wù)。

然而,這種方法有兩個明顯的弱點:首先,機(jī)器人只是被動地學(xué)習(xí)模仿,從未體驗過自己行動的后果;其次,它嚴(yán)重依賴大量高質(zhì)量的人類示范數(shù)據(jù),而這些數(shù)據(jù)既昂貴又耗時。

德克薩斯大學(xué)Austin分校的研究團(tuán)隊提出了一個全新的解決方案:RIPT-VLA,即視覺-語言-動作模型的強(qiáng)化互動式后訓(xùn)練。這是一個簡單卻強(qiáng)大的訓(xùn)練范式,為傳統(tǒng)的兩階段訓(xùn)練增添了第三階段——讓模型通過與環(huán)境互動并只接收簡單的成功/失敗二元反饋來學(xué)習(xí)和改進(jìn)。

想象一下,現(xiàn)在你不只是給機(jī)器人看錄像,而是讓它自己嘗試疊衣服,然后只告訴它"做得好"或"再試一次"。奇妙的是,僅憑這么簡單的反饋,機(jī)器人能夠迅速提升自己的能力,甚至掌握只看過一次的任務(wù)!

研究團(tuán)隊的方法基于動態(tài)采樣和"留一出"(leave-one-out)優(yōu)勢估計,這聽起來很復(fù)雜,但實際上非常巧妙。想象你讓機(jī)器人多次嘗試同一個任務(wù),然后對比哪些嘗試成功了,哪些失敗了。通過這種比較,機(jī)器人能夠了解到哪些行為是好的,哪些需要改進(jìn),即使你只是簡單地告訴它成功還是失敗。

RIPT-VLA的幾個顯著特點令人印象深刻。首先,它適用于各種VLA模型,無論大小。研究團(tuán)隊在輕量級的QueST模型上實現(xiàn)了21.2%的性能提升,更令人驚訝的是,他們將已經(jīng)表現(xiàn)優(yōu)異的7B參數(shù)大模型OpenVLA-OFT的成功率提升到了前所未有的97.5%。

其次,RIPT-VLA極其高效且數(shù)據(jù)節(jié)約。在最極端的案例中,研究團(tuán)隊只用了一個示范樣本,就將一個幾乎不可用的模型(成功率僅4%)在短短15次迭代后提升到了97%的成功率!這就像一個學(xué)生只看了一次解題過程,通過不斷嘗試和簡單的對錯反饋,就能從幾乎完全不會到接近完美掌握。

此外,通過RIPT-VLA學(xué)習(xí)的策略展現(xiàn)出出色的泛化能力。它不僅能應(yīng)用于不同任務(wù),還能適應(yīng)不同場景,并且對初始狀態(tài)的變化具有強(qiáng)大的魯棒性。這意味著機(jī)器人不僅學(xué)會了特定任務(wù),還學(xué)會了適應(yīng)變化和應(yīng)對新情況的能力。

一、模型原理:從被動模仿到主動學(xué)習(xí)

傳統(tǒng)的視覺-語言-動作(VLA)模型訓(xùn)練就像是教孩子騎自行車,但只能給他看視頻,從不讓他實際坐上自行車感受平衡。這種方法有明顯局限:孩子可能能模仿視頻中的動作,但一旦實際騎車時遇到與視頻不同的情況,就會手足無措。

RIPT-VLA引入了第三個訓(xùn)練階段,讓模型像人類學(xué)習(xí)那樣,通過實際嘗試和反饋來完善自己的技能。具體來說,這個過程分為兩個核心步驟:收集嘗試數(shù)據(jù)和優(yōu)化策略。

在收集嘗試數(shù)據(jù)階段,模型會在特定任務(wù)環(huán)境中多次嘗試執(zhí)行任務(wù),就像學(xué)習(xí)烹飪的人嘗試多次做同一道菜。每次嘗試后,環(huán)境會給出一個簡單的二元反饋:成功或失敗。比如,"成功打開抽屜"或"未能成功放置杯子"。重要的是,模型會記錄每次嘗試的整個過程及其結(jié)果。

在優(yōu)化策略階段,模型會分析這些嘗試記錄,找出什么樣的行為更可能導(dǎo)致成功,什么樣的行為應(yīng)該避免。這類似于廚師回顧之前做菜的經(jīng)驗,反思"上次我加了太多鹽導(dǎo)致菜太咸,這次我應(yīng)該減少鹽的用量"。

研究團(tuán)隊創(chuàng)新性地采用了"動態(tài)采樣留一出近端策略優(yōu)化"方法。這個名字聽起來復(fù)雜,但概念其實很簡單。想象你和朋友一起學(xué)習(xí)打籃球投籃。你們每人嘗試5次投籃,然后比較誰的表現(xiàn)更好。如果你投中了3次,而平均大家只投中2次,這意味著你的技術(shù)比平均水平好。相反,如果你只投中1次,而平均大家投中2次,這意味著你的技術(shù)需要改進(jìn)。

同樣,RIPT-VLA會讓模型針對同一任務(wù)多次嘗試,然后比較每次嘗試的表現(xiàn)與整體平均水平的差異。表現(xiàn)高于平均的嘗試會被鼓勵,表現(xiàn)低于平均的則會被抑制。隨著訓(xùn)練進(jìn)行,一些任務(wù)可能變得太容易(所有嘗試都成功)或太難(所有嘗試都失?。?,這些情況下比較就沒有意義了。因此,研究團(tuán)隊引入了動態(tài)拒絕策略,跳過這些沒有學(xué)習(xí)價值的情況,專注于模型能夠從中學(xué)習(xí)的任務(wù)。

通過這種方式,RIPT-VLA不需要復(fù)雜的獎勵函數(shù)或價值評估模型,就能有效地指導(dǎo)模型學(xué)習(xí),這大大簡化了訓(xùn)練過程,同時提高了效率和穩(wěn)定性。

二、實驗結(jié)果:從平庸到卓越的躍遷

研究團(tuán)隊在多個標(biāo)準(zhǔn)基準(zhǔn)測試上驗證了RIPT-VLA的效果,結(jié)果令人矚目。他們主要使用了兩個廣泛認(rèn)可的測試平臺:LIBERO和MetaWorld,這兩個平臺包含了從簡單到復(fù)雜的各種機(jī)器人操作任務(wù),如打開抽屜、放置物體、操作爐灶等。

在標(biāo)準(zhǔn)多任務(wù)測試中,RIPT-VLA展現(xiàn)出全面的性能提升。以輕量級模型QueST為例,應(yīng)用RIPT-VLA后,其在LIBERO的四個測試套件上的平均成功率提高了10.9個百分點。尤其在長期任務(wù)上,提升幅度高達(dá)18.7%,這類任務(wù)通常需要模型執(zhí)行多步驟操作并維持長期一致性,對模型能力要求極高。

更令人印象深刻的是,即使對于已經(jīng)表現(xiàn)極佳的大型模型OpenVLA-OFT(基礎(chǔ)成功率96.7%),RIPT-VLA仍能將其進(jìn)一步提升至97.5%,將失敗率從3.3%降低到2.5%。這證明了RIPT-VLA不僅能顯著改善表現(xiàn)一般的模型,還能進(jìn)一步優(yōu)化已經(jīng)接近完美的模型。

在處理大規(guī)模多任務(wù)場景時,RIPT-VLA同樣表現(xiàn)出色。在包含90個不同任務(wù)的LIBERO-90測試中,應(yīng)用RIPT-VLA的QueST模型達(dá)到了94.3%的成功率,比基線提高了5.7個百分點;在包含45個任務(wù)的MetaWorld ML45測試中也實現(xiàn)了92.2%的成功率,設(shè)立了新的行業(yè)標(biāo)準(zhǔn)。

最令人驚嘆的是RIPT-VLA在少樣本學(xué)習(xí)場景下的表現(xiàn)。在只有5個示范樣本的情況下,RIPT-VLA將QueST在LIBERO-LONG上的成功率從50.2%提升到71.4%,在MetaWorld ML45上從63.6%提升到76.0%。當(dāng)樣本進(jìn)一步減少到僅1個示范時,RIPT-VLA仍能保持顯著優(yōu)勢,在某些任務(wù)上將成功率從接近0提升到超過20%。

三、跨場景與跨目標(biāo)泛化:真正的智能體現(xiàn)

RIPT-VLA最令人興奮的能力或許是其出色的泛化能力,這正是區(qū)分真正智能系統(tǒng)和簡單模仿系統(tǒng)的關(guān)鍵特征。研究團(tuán)隊設(shè)計了兩組特別的實驗來測試這一能力:跨場景泛化和跨目標(biāo)泛化。

跨場景泛化測試模型是否能將在一個環(huán)境學(xué)到的技能應(yīng)用到視覺上完全不同的新環(huán)境。想象一下,你學(xué)會了在家里的廚房操作烤箱,然后去朋友家時發(fā)現(xiàn)他們的廚房布局、烤箱樣式都完全不同,你能否迅速適應(yīng)并正確操作?這就是跨場景泛化的挑戰(zhàn)。

在這些測試中,研究團(tuán)隊首先在場景A中預(yù)訓(xùn)練模型,然后在場景B中進(jìn)行1-5個示范的監(jiān)督微調(diào),最后應(yīng)用RIPT-VLA。結(jié)果顯示,傳統(tǒng)的監(jiān)督微調(diào)方法在單樣本(1-shot)情況下幾乎完全失效,平均成功率僅約5%,在某些情況下甚至低至2%。相比之下,RIPT-VLA表現(xiàn)驚人,將成功率提升至接近100%,在某個任務(wù)上甚至從3.5%飆升至97.2%,提升了93.7個百分點!

跨目標(biāo)泛化則測試模型是否能將基本操作技能重新組合,以完成新的目標(biāo)。例如,模型學(xué)會了"將杯子放在右側(cè)盤子上",能否迅速適應(yīng)"將杯子放在左側(cè)盤子上"這一新目標(biāo)?這種泛化要求模型真正理解"右"和"左"這樣的概念,而不是簡單記憶動作序列。

在這些測試中,傳統(tǒng)監(jiān)督微調(diào)方法在3個示范樣本的情況下幾乎完全失敗,平均成功率僅0.7%。而RIPT-VLA將其提升至59.7%,在最好的案例中甚至從接近0%提升到84.7%。隨著示范樣本增加到10個,RIPT-VLA的平均成功率達(dá)到79.7%,而傳統(tǒng)方法僅為29.4%。

這些結(jié)果證明,RIPT-VLA不僅能讓模型更好地執(zhí)行已經(jīng)學(xué)過的任務(wù),還能激活模型在預(yù)訓(xùn)練階段獲得但未被充分利用的隱藏能力,讓模型在面對新環(huán)境和新目標(biāo)時表現(xiàn)出更接近人類的適應(yīng)性和靈活性。

四、方法穩(wěn)健性與實用性分析

任何機(jī)器學(xué)習(xí)方法的實用價值不僅取決于其理論性能,還受到訓(xùn)練穩(wěn)定性、計算效率和對環(huán)境變化的魯棒性等因素影響。研究團(tuán)隊進(jìn)行了一系列額外實驗來驗證RIPT-VLA在這些方面的表現(xiàn)。

首先,團(tuán)隊研究了動態(tài)采樣策略的影響。當(dāng)移除這一組件后,RIPT-VLA的平均性能下降了3.3個百分點。就像烹飪時,如果你不知道哪些食材已經(jīng)充足,哪些還需要添加,可能會反復(fù)添加已經(jīng)足夠的材料而忽略真正缺少的部分。動態(tài)采樣確保模型關(guān)注那些能提供有意義學(xué)習(xí)信號的任務(wù),避免在已經(jīng)掌握的任務(wù)上浪費時間,或被永遠(yuǎn)無法解決的任務(wù)所困擾。

其次,團(tuán)隊探究了上下文數(shù)據(jù)集大小的影響。在跨場景任務(wù)中,增加用于交互的初始狀態(tài)數(shù)量顯著提升了性能,這與直覺相符:接觸更多不同的起始情況有助于模型建立更強(qiáng)的泛化能力。重要的是,擴(kuò)展上下文數(shù)據(jù)集不需要額外的人類標(biāo)注,只需收集更多初始觀察狀態(tài),這使得該方法在實際應(yīng)用中更具可擴(kuò)展性。

最后,團(tuán)隊測試了RIPT-VLA對初始狀態(tài)變化的魯棒性。在現(xiàn)實世界中,即使是相同的任務(wù)設(shè)置也會有細(xì)微差異,比如物體位置的輕微偏移。研究發(fā)現(xiàn),即使將LIBERO-LONG中物體初始位置的標(biāo)準(zhǔn)差(約2.5厘米)放大到原來的7倍(17.5厘米),RIPT-VLA仍能保持對傳統(tǒng)方法的顯著優(yōu)勢。這表明該方法在面對現(xiàn)實世界的不確定性時具有強(qiáng)大的適應(yīng)能力。

這些分析結(jié)果共同證明,RIPT-VLA不僅在理想條件下表現(xiàn)出色,在面對各種現(xiàn)實挑戰(zhàn)時同樣穩(wěn)健可靠,為將這一方法應(yīng)用于實際機(jī)器人系統(tǒng)奠定了堅實基礎(chǔ)。

五、結(jié)論與未來展望

回顧整個研究,RIPT-VLA代表了視覺-語言-動作模型訓(xùn)練的一個重要突破。它通過引入第三階段的強(qiáng)化互動式后訓(xùn)練,彌補(bǔ)了傳統(tǒng)兩階段訓(xùn)練方法的關(guān)鍵缺陷。

歸根結(jié)底,RIPT-VLA的核心貢獻(xiàn)在于它實現(xiàn)了從被動模仿到主動學(xué)習(xí)的轉(zhuǎn)變。就像人類學(xué)習(xí)任何技能一樣,真正的掌握不僅來自觀察他人,還來自親身實踐和從錯誤中學(xué)習(xí)。通過讓模型與環(huán)境互動并從簡單的成功/失敗反饋中學(xué)習(xí),RIPT-VLA使模型能夠更好地理解其行動的后果,從而做出更明智的決策。

這種方法帶來的實際好處令人印象深刻:大幅提升性能、顯著減少對專家示范數(shù)據(jù)的需求、增強(qiáng)對新任務(wù)和環(huán)境的適應(yīng)能力。特別是在數(shù)據(jù)稀缺的情況下,RIPT-VLA展現(xiàn)出的效果尤為突出,這對于將機(jī)器人技術(shù)推廣到新領(lǐng)域和應(yīng)用場景具有重要意義。

展望未來,研究團(tuán)隊指出,將RIPT-VLA與推理和規(guī)劃能力結(jié)合可能是一個有前途的研究方向。想象一下,如果機(jī)器人不僅能從互動中學(xué)習(xí)基本技能,還能規(guī)劃復(fù)雜任務(wù)并推理不同行動的可能結(jié)果,這將為更加智能和自主的機(jī)器人系統(tǒng)鋪平道路。

對于普通人來說,這項研究的意義在于,它預(yù)示著更易用、更智能的機(jī)器人助手即將到來。未來的機(jī)器人可能只需幾個簡單示范和一些基本反饋,就能快速學(xué)會新任務(wù),適應(yīng)新環(huán)境,為我們的日常生活和工作提供更有效的幫助。

這項研究再次證明,有時最強(qiáng)大的學(xué)習(xí)不需要復(fù)雜的反饋系統(tǒng),而只需要簡單的"是"和"否",配合豐富的互動經(jīng)驗。正如孩子通過不斷嘗試和獲取簡單反饋學(xué)會走路、騎車一樣,先進(jìn)的AI系統(tǒng)也能通過類似的過程掌握復(fù)雜技能。

如果你對這項研究感興趣,可以通過https://ariostgx.github.io/ript_vla/訪問完整論文及相關(guān)代碼,深入了解RIPT-VLA的技術(shù)細(xì)節(jié)和實現(xiàn)方法。

分享至
1贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-