近日,德克薩斯大學(xué)Austin分校的Shuhan Tan、南開(kāi)大學(xué)的Kairan Dou以及德克薩斯大學(xué)Austin分校的Yue Zhao和Philipp Krahenbühl共同在arXiv上發(fā)表了一項(xiàng)突破性研究,論文題為《視覺(jué)-語(yǔ)言-動(dòng)作模型的互動(dòng)式后訓(xùn)練》(Interactive Post-Training for Vision-Language-Action Models),發(fā)表時(shí)間為2025年5月22日。有興趣深入了解的讀者可通過(guò)https://ariostgx.github.io/ript_vla/訪問(wèn)完整論文及相關(guān)代碼。
想象一下,你正在教一個(gè)小機(jī)器人做家務(wù)。傳統(tǒng)方法就像你只能通過(guò)放錄像帶給機(jī)器人看來(lái)教它——"看,這是如何疊衣服的"。但問(wèn)題是,機(jī)器人只是模仿錄像中的動(dòng)作,并不真正理解它在做什么。如果衣服的位置稍有不同,或者遇到從未見(jiàn)過(guò)的衣服,它就會(huì)完全不知所措。
這正是當(dāng)前視覺(jué)-語(yǔ)言-動(dòng)作(VLA)模型面臨的挑戰(zhàn)。這些模型能夠看圖像(視覺(jué)),理解指令(語(yǔ)言),然后執(zhí)行動(dòng)作,比如拿起物體或開(kāi)抽屜。目前,這些模型主要通過(guò)兩個(gè)階段訓(xùn)練:先在大量通用數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練,然后通過(guò)專門的示范數(shù)據(jù)進(jìn)行監(jiān)督微調(diào)。這就像先教機(jī)器人基本動(dòng)作,然后通過(guò)示范教它特定任務(wù)。
然而,這種方法有兩個(gè)明顯的弱點(diǎn):首先,機(jī)器人只是被動(dòng)地學(xué)習(xí)模仿,從未體驗(yàn)過(guò)自己行動(dòng)的后果;其次,它嚴(yán)重依賴大量高質(zhì)量的人類示范數(shù)據(jù),而這些數(shù)據(jù)既昂貴又耗時(shí)。
德克薩斯大學(xué)Austin分校的研究團(tuán)隊(duì)提出了一個(gè)全新的解決方案:RIPT-VLA,即視覺(jué)-語(yǔ)言-動(dòng)作模型的強(qiáng)化互動(dòng)式后訓(xùn)練。這是一個(gè)簡(jiǎn)單卻強(qiáng)大的訓(xùn)練范式,為傳統(tǒng)的兩階段訓(xùn)練增添了第三階段——讓模型通過(guò)與環(huán)境互動(dòng)并只接收簡(jiǎn)單的成功/失敗二元反饋來(lái)學(xué)習(xí)和改進(jìn)。
想象一下,現(xiàn)在你不只是給機(jī)器人看錄像,而是讓它自己嘗試疊衣服,然后只告訴它"做得好"或"再試一次"。奇妙的是,僅憑這么簡(jiǎn)單的反饋,機(jī)器人能夠迅速提升自己的能力,甚至掌握只看過(guò)一次的任務(wù)!
研究團(tuán)隊(duì)的方法基于動(dòng)態(tài)采樣和"留一出"(leave-one-out)優(yōu)勢(shì)估計(jì),這聽(tīng)起來(lái)很復(fù)雜,但實(shí)際上非常巧妙。想象你讓機(jī)器人多次嘗試同一個(gè)任務(wù),然后對(duì)比哪些嘗試成功了,哪些失敗了。通過(guò)這種比較,機(jī)器人能夠了解到哪些行為是好的,哪些需要改進(jìn),即使你只是簡(jiǎn)單地告訴它成功還是失敗。
RIPT-VLA的幾個(gè)顯著特點(diǎn)令人印象深刻。首先,它適用于各種VLA模型,無(wú)論大小。研究團(tuán)隊(duì)在輕量級(jí)的QueST模型上實(shí)現(xiàn)了21.2%的性能提升,更令人驚訝的是,他們將已經(jīng)表現(xiàn)優(yōu)異的7B參數(shù)大模型OpenVLA-OFT的成功率提升到了前所未有的97.5%。
其次,RIPT-VLA極其高效且數(shù)據(jù)節(jié)約。在最極端的案例中,研究團(tuán)隊(duì)只用了一個(gè)示范樣本,就將一個(gè)幾乎不可用的模型(成功率僅4%)在短短15次迭代后提升到了97%的成功率!這就像一個(gè)學(xué)生只看了一次解題過(guò)程,通過(guò)不斷嘗試和簡(jiǎn)單的對(duì)錯(cuò)反饋,就能從幾乎完全不會(huì)到接近完美掌握。
此外,通過(guò)RIPT-VLA學(xué)習(xí)的策略展現(xiàn)出出色的泛化能力。它不僅能應(yīng)用于不同任務(wù),還能適應(yīng)不同場(chǎng)景,并且對(duì)初始狀態(tài)的變化具有強(qiáng)大的魯棒性。這意味著機(jī)器人不僅學(xué)會(huì)了特定任務(wù),還學(xué)會(huì)了適應(yīng)變化和應(yīng)對(duì)新情況的能力。
一、模型原理:從被動(dòng)模仿到主動(dòng)學(xué)習(xí)
傳統(tǒng)的視覺(jué)-語(yǔ)言-動(dòng)作(VLA)模型訓(xùn)練就像是教孩子騎自行車,但只能給他看視頻,從不讓他實(shí)際坐上自行車感受平衡。這種方法有明顯局限:孩子可能能模仿視頻中的動(dòng)作,但一旦實(shí)際騎車時(shí)遇到與視頻不同的情況,就會(huì)手足無(wú)措。
RIPT-VLA引入了第三個(gè)訓(xùn)練階段,讓模型像人類學(xué)習(xí)那樣,通過(guò)實(shí)際嘗試和反饋來(lái)完善自己的技能。具體來(lái)說(shuō),這個(gè)過(guò)程分為兩個(gè)核心步驟:收集嘗試數(shù)據(jù)和優(yōu)化策略。
在收集嘗試數(shù)據(jù)階段,模型會(huì)在特定任務(wù)環(huán)境中多次嘗試執(zhí)行任務(wù),就像學(xué)習(xí)烹飪的人嘗試多次做同一道菜。每次嘗試后,環(huán)境會(huì)給出一個(gè)簡(jiǎn)單的二元反饋:成功或失敗。比如,"成功打開(kāi)抽屜"或"未能成功放置杯子"。重要的是,模型會(huì)記錄每次嘗試的整個(gè)過(guò)程及其結(jié)果。
在優(yōu)化策略階段,模型會(huì)分析這些嘗試記錄,找出什么樣的行為更可能導(dǎo)致成功,什么樣的行為應(yīng)該避免。這類似于廚師回顧之前做菜的經(jīng)驗(yàn),反思"上次我加了太多鹽導(dǎo)致菜太咸,這次我應(yīng)該減少鹽的用量"。
研究團(tuán)隊(duì)創(chuàng)新性地采用了"動(dòng)態(tài)采樣留一出近端策略優(yōu)化"方法。這個(gè)名字聽(tīng)起來(lái)復(fù)雜,但概念其實(shí)很簡(jiǎn)單。想象你和朋友一起學(xué)習(xí)打籃球投籃。你們每人嘗試5次投籃,然后比較誰(shuí)的表現(xiàn)更好。如果你投中了3次,而平均大家只投中2次,這意味著你的技術(shù)比平均水平好。相反,如果你只投中1次,而平均大家投中2次,這意味著你的技術(shù)需要改進(jìn)。
同樣,RIPT-VLA會(huì)讓模型針對(duì)同一任務(wù)多次嘗試,然后比較每次嘗試的表現(xiàn)與整體平均水平的差異。表現(xiàn)高于平均的嘗試會(huì)被鼓勵(lì),表現(xiàn)低于平均的則會(huì)被抑制。隨著訓(xùn)練進(jìn)行,一些任務(wù)可能變得太容易(所有嘗試都成功)或太難(所有嘗試都失敗),這些情況下比較就沒(méi)有意義了。因此,研究團(tuán)隊(duì)引入了動(dòng)態(tài)拒絕策略,跳過(guò)這些沒(méi)有學(xué)習(xí)價(jià)值的情況,專注于模型能夠從中學(xué)習(xí)的任務(wù)。
通過(guò)這種方式,RIPT-VLA不需要復(fù)雜的獎(jiǎng)勵(lì)函數(shù)或價(jià)值評(píng)估模型,就能有效地指導(dǎo)模型學(xué)習(xí),這大大簡(jiǎn)化了訓(xùn)練過(guò)程,同時(shí)提高了效率和穩(wěn)定性。
二、實(shí)驗(yàn)結(jié)果:從平庸到卓越的躍遷
研究團(tuán)隊(duì)在多個(gè)標(biāo)準(zhǔn)基準(zhǔn)測(cè)試上驗(yàn)證了RIPT-VLA的效果,結(jié)果令人矚目。他們主要使用了兩個(gè)廣泛認(rèn)可的測(cè)試平臺(tái):LIBERO和MetaWorld,這兩個(gè)平臺(tái)包含了從簡(jiǎn)單到復(fù)雜的各種機(jī)器人操作任務(wù),如打開(kāi)抽屜、放置物體、操作爐灶等。
在標(biāo)準(zhǔn)多任務(wù)測(cè)試中,RIPT-VLA展現(xiàn)出全面的性能提升。以輕量級(jí)模型QueST為例,應(yīng)用RIPT-VLA后,其在LIBERO的四個(gè)測(cè)試套件上的平均成功率提高了10.9個(gè)百分點(diǎn)。尤其在長(zhǎng)期任務(wù)上,提升幅度高達(dá)18.7%,這類任務(wù)通常需要模型執(zhí)行多步驟操作并維持長(zhǎng)期一致性,對(duì)模型能力要求極高。
更令人印象深刻的是,即使對(duì)于已經(jīng)表現(xiàn)極佳的大型模型OpenVLA-OFT(基礎(chǔ)成功率96.7%),RIPT-VLA仍能將其進(jìn)一步提升至97.5%,將失敗率從3.3%降低到2.5%。這證明了RIPT-VLA不僅能顯著改善表現(xiàn)一般的模型,還能進(jìn)一步優(yōu)化已經(jīng)接近完美的模型。
在處理大規(guī)模多任務(wù)場(chǎng)景時(shí),RIPT-VLA同樣表現(xiàn)出色。在包含90個(gè)不同任務(wù)的LIBERO-90測(cè)試中,應(yīng)用RIPT-VLA的QueST模型達(dá)到了94.3%的成功率,比基線提高了5.7個(gè)百分點(diǎn);在包含45個(gè)任務(wù)的MetaWorld ML45測(cè)試中也實(shí)現(xiàn)了92.2%的成功率,設(shè)立了新的行業(yè)標(biāo)準(zhǔn)。
最令人驚嘆的是RIPT-VLA在少樣本學(xué)習(xí)場(chǎng)景下的表現(xiàn)。在只有5個(gè)示范樣本的情況下,RIPT-VLA將QueST在LIBERO-LONG上的成功率從50.2%提升到71.4%,在MetaWorld ML45上從63.6%提升到76.0%。當(dāng)樣本進(jìn)一步減少到僅1個(gè)示范時(shí),RIPT-VLA仍能保持顯著優(yōu)勢(shì),在某些任務(wù)上將成功率從接近0提升到超過(guò)20%。
三、跨場(chǎng)景與跨目標(biāo)泛化:真正的智能體現(xiàn)
RIPT-VLA最令人興奮的能力或許是其出色的泛化能力,這正是區(qū)分真正智能系統(tǒng)和簡(jiǎn)單模仿系統(tǒng)的關(guān)鍵特征。研究團(tuán)隊(duì)設(shè)計(jì)了兩組特別的實(shí)驗(yàn)來(lái)測(cè)試這一能力:跨場(chǎng)景泛化和跨目標(biāo)泛化。
跨場(chǎng)景泛化測(cè)試模型是否能將在一個(gè)環(huán)境學(xué)到的技能應(yīng)用到視覺(jué)上完全不同的新環(huán)境。想象一下,你學(xué)會(huì)了在家里的廚房操作烤箱,然后去朋友家時(shí)發(fā)現(xiàn)他們的廚房布局、烤箱樣式都完全不同,你能否迅速適應(yīng)并正確操作?這就是跨場(chǎng)景泛化的挑戰(zhàn)。
在這些測(cè)試中,研究團(tuán)隊(duì)首先在場(chǎng)景A中預(yù)訓(xùn)練模型,然后在場(chǎng)景B中進(jìn)行1-5個(gè)示范的監(jiān)督微調(diào),最后應(yīng)用RIPT-VLA。結(jié)果顯示,傳統(tǒng)的監(jiān)督微調(diào)方法在單樣本(1-shot)情況下幾乎完全失效,平均成功率僅約5%,在某些情況下甚至低至2%。相比之下,RIPT-VLA表現(xiàn)驚人,將成功率提升至接近100%,在某個(gè)任務(wù)上甚至從3.5%飆升至97.2%,提升了93.7個(gè)百分點(diǎn)!
跨目標(biāo)泛化則測(cè)試模型是否能將基本操作技能重新組合,以完成新的目標(biāo)。例如,模型學(xué)會(huì)了"將杯子放在右側(cè)盤(pán)子上",能否迅速適應(yīng)"將杯子放在左側(cè)盤(pán)子上"這一新目標(biāo)?這種泛化要求模型真正理解"右"和"左"這樣的概念,而不是簡(jiǎn)單記憶動(dòng)作序列。
在這些測(cè)試中,傳統(tǒng)監(jiān)督微調(diào)方法在3個(gè)示范樣本的情況下幾乎完全失敗,平均成功率僅0.7%。而RIPT-VLA將其提升至59.7%,在最好的案例中甚至從接近0%提升到84.7%。隨著示范樣本增加到10個(gè),RIPT-VLA的平均成功率達(dá)到79.7%,而傳統(tǒng)方法僅為29.4%。
這些結(jié)果證明,RIPT-VLA不僅能讓模型更好地執(zhí)行已經(jīng)學(xué)過(guò)的任務(wù),還能激活模型在預(yù)訓(xùn)練階段獲得但未被充分利用的隱藏能力,讓模型在面對(duì)新環(huán)境和新目標(biāo)時(shí)表現(xiàn)出更接近人類的適應(yīng)性和靈活性。
四、方法穩(wěn)健性與實(shí)用性分析
任何機(jī)器學(xué)習(xí)方法的實(shí)用價(jià)值不僅取決于其理論性能,還受到訓(xùn)練穩(wěn)定性、計(jì)算效率和對(duì)環(huán)境變化的魯棒性等因素影響。研究團(tuán)隊(duì)進(jìn)行了一系列額外實(shí)驗(yàn)來(lái)驗(yàn)證RIPT-VLA在這些方面的表現(xiàn)。
首先,團(tuán)隊(duì)研究了動(dòng)態(tài)采樣策略的影響。當(dāng)移除這一組件后,RIPT-VLA的平均性能下降了3.3個(gè)百分點(diǎn)。就像烹飪時(shí),如果你不知道哪些食材已經(jīng)充足,哪些還需要添加,可能會(huì)反復(fù)添加已經(jīng)足夠的材料而忽略真正缺少的部分。動(dòng)態(tài)采樣確保模型關(guān)注那些能提供有意義學(xué)習(xí)信號(hào)的任務(wù),避免在已經(jīng)掌握的任務(wù)上浪費(fèi)時(shí)間,或被永遠(yuǎn)無(wú)法解決的任務(wù)所困擾。
其次,團(tuán)隊(duì)探究了上下文數(shù)據(jù)集大小的影響。在跨場(chǎng)景任務(wù)中,增加用于交互的初始狀態(tài)數(shù)量顯著提升了性能,這與直覺(jué)相符:接觸更多不同的起始情況有助于模型建立更強(qiáng)的泛化能力。重要的是,擴(kuò)展上下文數(shù)據(jù)集不需要額外的人類標(biāo)注,只需收集更多初始觀察狀態(tài),這使得該方法在實(shí)際應(yīng)用中更具可擴(kuò)展性。
最后,團(tuán)隊(duì)測(cè)試了RIPT-VLA對(duì)初始狀態(tài)變化的魯棒性。在現(xiàn)實(shí)世界中,即使是相同的任務(wù)設(shè)置也會(huì)有細(xì)微差異,比如物體位置的輕微偏移。研究發(fā)現(xiàn),即使將LIBERO-LONG中物體初始位置的標(biāo)準(zhǔn)差(約2.5厘米)放大到原來(lái)的7倍(17.5厘米),RIPT-VLA仍能保持對(duì)傳統(tǒng)方法的顯著優(yōu)勢(shì)。這表明該方法在面對(duì)現(xiàn)實(shí)世界的不確定性時(shí)具有強(qiáng)大的適應(yīng)能力。
這些分析結(jié)果共同證明,RIPT-VLA不僅在理想條件下表現(xiàn)出色,在面對(duì)各種現(xiàn)實(shí)挑戰(zhàn)時(shí)同樣穩(wěn)健可靠,為將這一方法應(yīng)用于實(shí)際機(jī)器人系統(tǒng)奠定了堅(jiān)實(shí)基礎(chǔ)。
五、結(jié)論與未來(lái)展望
回顧整個(gè)研究,RIPT-VLA代表了視覺(jué)-語(yǔ)言-動(dòng)作模型訓(xùn)練的一個(gè)重要突破。它通過(guò)引入第三階段的強(qiáng)化互動(dòng)式后訓(xùn)練,彌補(bǔ)了傳統(tǒng)兩階段訓(xùn)練方法的關(guān)鍵缺陷。
歸根結(jié)底,RIPT-VLA的核心貢獻(xiàn)在于它實(shí)現(xiàn)了從被動(dòng)模仿到主動(dòng)學(xué)習(xí)的轉(zhuǎn)變。就像人類學(xué)習(xí)任何技能一樣,真正的掌握不僅來(lái)自觀察他人,還來(lái)自親身實(shí)踐和從錯(cuò)誤中學(xué)習(xí)。通過(guò)讓模型與環(huán)境互動(dòng)并從簡(jiǎn)單的成功/失敗反饋中學(xué)習(xí),RIPT-VLA使模型能夠更好地理解其行動(dòng)的后果,從而做出更明智的決策。
這種方法帶來(lái)的實(shí)際好處令人印象深刻:大幅提升性能、顯著減少對(duì)專家示范數(shù)據(jù)的需求、增強(qiáng)對(duì)新任務(wù)和環(huán)境的適應(yīng)能力。特別是在數(shù)據(jù)稀缺的情況下,RIPT-VLA展現(xiàn)出的效果尤為突出,這對(duì)于將機(jī)器人技術(shù)推廣到新領(lǐng)域和應(yīng)用場(chǎng)景具有重要意義。
展望未來(lái),研究團(tuán)隊(duì)指出,將RIPT-VLA與推理和規(guī)劃能力結(jié)合可能是一個(gè)有前途的研究方向。想象一下,如果機(jī)器人不僅能從互動(dòng)中學(xué)習(xí)基本技能,還能規(guī)劃復(fù)雜任務(wù)并推理不同行動(dòng)的可能結(jié)果,這將為更加智能和自主的機(jī)器人系統(tǒng)鋪平道路。
對(duì)于普通人來(lái)說(shuō),這項(xiàng)研究的意義在于,它預(yù)示著更易用、更智能的機(jī)器人助手即將到來(lái)。未來(lái)的機(jī)器人可能只需幾個(gè)簡(jiǎn)單示范和一些基本反饋,就能快速學(xué)會(huì)新任務(wù),適應(yīng)新環(huán)境,為我們的日常生活和工作提供更有效的幫助。
這項(xiàng)研究再次證明,有時(shí)最強(qiáng)大的學(xué)習(xí)不需要復(fù)雜的反饋系統(tǒng),而只需要簡(jiǎn)單的"是"和"否",配合豐富的互動(dòng)經(jīng)驗(yàn)。正如孩子通過(guò)不斷嘗試和獲取簡(jiǎn)單反饋學(xué)會(huì)走路、騎車一樣,先進(jìn)的AI系統(tǒng)也能通過(guò)類似的過(guò)程掌握復(fù)雜技能。
如果你對(duì)這項(xiàng)研究感興趣,可以通過(guò)https://ariostgx.github.io/ript_vla/訪問(wèn)完整論文及相關(guān)代碼,深入了解RIPT-VLA的技術(shù)細(xì)節(jié)和實(shí)現(xiàn)方法。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語(yǔ)言模型的敘事推理能力與音頻生成技術(shù),通過(guò)交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開(kāi)辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過(guò)讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問(wèn)題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語(yǔ)言模型人性化對(duì)話問(wèn)題。該研究創(chuàng)建了包含20萬(wàn)高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過(guò)創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開(kāi)發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過(guò)學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來(lái)了效率和精度的雙重突破。