這項(xiàng)由上海交通大學(xué)人工智能學(xué)院的楊彥泰、王宇豪等研究團(tuán)隊(duì)完成的工作,發(fā)表于2025年6月的arXiv預(yù)印本平臺(tái)。該研究的完整論文可以通過(guò)arXiv:2506.10100v1獲取,題目為"EfficientVLA: Training-Free Acceleration and Compression for Vision-Language-Action Models"。對(duì)這個(gè)技術(shù)突破感興趣的讀者,可以訪問(wèn)https://arxiv.org/abs/2506.10100了解詳細(xì)內(nèi)容。
想象一下,你有一個(gè)非常聰明的機(jī)器人助手,它能看懂你的手勢(shì),聽(tīng)懂你的話,還能準(zhǔn)確執(zhí)行各種復(fù)雜任務(wù)。但問(wèn)題是,這個(gè)機(jī)器人每次思考都要花很長(zhǎng)時(shí)間,就像一臺(tái)運(yùn)行緩慢的老電腦。這正是當(dāng)前最先進(jìn)的視覺(jué)-語(yǔ)言-動(dòng)作(VLA)機(jī)器人模型面臨的困境。
現(xiàn)在的機(jī)器人大腦實(shí)際上是由三個(gè)重要部分組成的復(fù)雜系統(tǒng)。第一部分是"眼睛"——視覺(jué)模塊,負(fù)責(zé)理解看到的畫面;第二部分是"大腦"——語(yǔ)言模塊,用來(lái)理解指令和進(jìn)行推理;第三部分是"手腳"——動(dòng)作模塊,決定具體該怎么行動(dòng)。這三個(gè)部分協(xié)同工作,讓機(jī)器人能夠像人一樣理解環(huán)境、分析情況、執(zhí)行任務(wù)。
然而,這種復(fù)雜的設(shè)計(jì)帶來(lái)了一個(gè)嚴(yán)重問(wèn)題:運(yùn)算量太大,速度太慢。就好比一個(gè)超級(jí)聰明但行動(dòng)遲緩的人,雖然能力很強(qiáng),但在實(shí)際應(yīng)用中卻因?yàn)榉磻?yīng)太慢而不實(shí)用。上海交大的研究團(tuán)隊(duì)意識(shí)到,如果不解決這個(gè)速度問(wèn)題,再聰明的機(jī)器人也只能停留在實(shí)驗(yàn)室里,無(wú)法走入真實(shí)世界。
經(jīng)過(guò)深入分析,研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:這些機(jī)器人大腦在運(yùn)行時(shí)存在大量的"冗余計(jì)算",就像一個(gè)人在解決簡(jiǎn)單問(wèn)題時(shí)動(dòng)用了過(guò)多的腦力。具體來(lái)說(shuō),語(yǔ)言模塊中很多層次的處理實(shí)際上在做重復(fù)工作;視覺(jué)模塊處理了太多不重要的圖像信息;動(dòng)作模塊在生成動(dòng)作序列時(shí)反復(fù)計(jì)算相似的內(nèi)容。
基于這些發(fā)現(xiàn),研究團(tuán)隊(duì)開(kāi)發(fā)了EfficientVLA框架,這是一個(gè)不需要重新訓(xùn)練就能大幅提升機(jī)器人運(yùn)行速度的解決方案。他們采用了三管齊下的策略來(lái)解決不同模塊的效率問(wèn)題。
一、簡(jiǎn)化大腦結(jié)構(gòu):讓機(jī)器人思考更直接
機(jī)器人的語(yǔ)言模塊就像人的大腦皮層,由很多層神經(jīng)網(wǎng)絡(luò)組成。每一層都會(huì)對(duì)輸入的信息進(jìn)行處理和轉(zhuǎn)換。但研究團(tuán)隊(duì)發(fā)現(xiàn),在很多情況下,某些層次的處理幾乎沒(méi)有改變信息內(nèi)容,就像一個(gè)人在思考時(shí)繞了很多不必要的彎。
為了識(shí)別這些"無(wú)用功",研究團(tuán)隊(duì)開(kāi)發(fā)了一個(gè)巧妙的評(píng)估方法。他們比較每一層處理前后的信息相似程度,如果某一層的輸入和輸出幾乎一樣,就說(shuō)明這一層沒(méi)有做什么有意義的工作。通過(guò)這種方式,他們能夠精確地找出那些可以安全移除的冗余層次。
這個(gè)過(guò)程就像精簡(jiǎn)一個(gè)冗長(zhǎng)的工作流程。原本需要經(jīng)過(guò)32個(gè)步驟的思考過(guò)程,經(jīng)過(guò)優(yōu)化后只需要22個(gè)步驟就能達(dá)到同樣的效果,不僅速度更快,準(zhǔn)確性還略有提升。在實(shí)際測(cè)試中,這種簡(jiǎn)化使得語(yǔ)言模塊的參數(shù)減少了41%,計(jì)算量減少了78%,但機(jī)器人的任務(wù)執(zhí)行能力幾乎沒(méi)有下降。
二、優(yōu)化視覺(jué)處理:只看重要的東西
機(jī)器人的視覺(jué)系統(tǒng)通常會(huì)把看到的圖像分解成很多小塊來(lái)處理,每個(gè)小塊被稱為一個(gè)"視覺(jué)令牌"。這就像人在看一幅畫時(shí),會(huì)注意到畫中的每一個(gè)細(xì)節(jié)。但問(wèn)題是,并不是所有細(xì)節(jié)都對(duì)完成任務(wù)有幫助。
研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)聰明的視覺(jué)令牌篩選策略。這個(gè)策略分為兩個(gè)階段:首先找出與任務(wù)最相關(guān)的關(guān)鍵視覺(jué)信息,然后在剩余信息中選擇那些能提供額外有用信息的內(nèi)容。
這個(gè)過(guò)程類似于一個(gè)經(jīng)驗(yàn)豐富的攝影師在拍照時(shí)的選擇過(guò)程。攝影師會(huì)首先鎖定主要拍攝對(duì)象(任務(wù)相關(guān)的關(guān)鍵信息),然后選擇一些背景元素來(lái)豐富畫面(多樣性信息),最終構(gòu)成一張既突出主題又信息豐富的照片。
通過(guò)這種方法,原本需要處理256個(gè)視覺(jué)令牌的系統(tǒng),現(xiàn)在只需要處理56個(gè)就能達(dá)到相似的效果。這相當(dāng)于將視覺(jué)處理的工作量減少了78%,大大提升了處理速度。
三、動(dòng)作生成加速:重復(fù)利用中間結(jié)果
機(jī)器人的動(dòng)作模塊使用了一種叫做"擴(kuò)散模型"的技術(shù)來(lái)生成精確的動(dòng)作序列。這種技術(shù)的工作原理有點(diǎn)像雕刻師創(chuàng)作雕塑:從一塊粗糙的材料開(kāi)始,通過(guò)多次精細(xì)的調(diào)整,最終雕琢出精美的作品。
但研究團(tuán)隊(duì)發(fā)現(xiàn),在這個(gè)"雕琢"過(guò)程中,相鄰步驟之間的中間結(jié)果往往非常相似。這就像雕刻師在連續(xù)的幾次雕琢中使用了幾乎相同的技法和力度。既然如此,為什么不重復(fù)利用之前的計(jì)算結(jié)果呢?
基于這個(gè)想法,他們開(kāi)發(fā)了一個(gè)緩存機(jī)制。系統(tǒng)會(huì)在某些關(guān)鍵時(shí)刻進(jìn)行完整計(jì)算,然后在接下來(lái)的幾個(gè)步驟中直接重用這些計(jì)算結(jié)果。這種方法將動(dòng)作生成的計(jì)算量減少了80%,同時(shí)保持了動(dòng)作的精確性。
這三種優(yōu)化策略協(xié)同工作,就像給一輛汽車同時(shí)升級(jí)了發(fā)動(dòng)機(jī)、減輕了重量、優(yōu)化了傳動(dòng)系統(tǒng)。每個(gè)改進(jìn)都有獨(dú)立的效果,但組合在一起時(shí)產(chǎn)生了更大的整體提升。
為了驗(yàn)證EfficientVLA的效果,研究團(tuán)隊(duì)在SIMPLER仿真環(huán)境中進(jìn)行了全面測(cè)試。這個(gè)環(huán)境專門設(shè)計(jì)用來(lái)評(píng)估機(jī)器人的操作能力,包含了四種典型的機(jī)器人任務(wù):抓取可樂(lè)罐、移動(dòng)物體到指定位置、開(kāi)關(guān)抽屜、以及復(fù)雜的多步驟操作任務(wù)。
測(cè)試結(jié)果令人印象深刻。在最優(yōu)配置下,EfficientVLA實(shí)現(xiàn)了1.93倍的速度提升,將計(jì)算量降低到原來(lái)的28.9%,而任務(wù)成功率僅下降了0.6%。這意味著機(jī)器人的運(yùn)行速度幾乎翻了一倍,但執(zhí)行任務(wù)的能力幾乎沒(méi)有受到影響。
更有趣的是,在某些任務(wù)中,優(yōu)化后的模型表現(xiàn)甚至比原始模型更好。比如在抓取可樂(lè)罐的任務(wù)中,成功率從91.3%提升到了94.0%。這個(gè)現(xiàn)象表明,原始模型中確實(shí)存在很多冗余信息,去除這些冗余不僅提高了效率,還改善了性能。
研究團(tuán)隊(duì)還進(jìn)行了詳細(xì)的消融實(shí)驗(yàn),分別測(cè)試了每個(gè)優(yōu)化策略的獨(dú)立效果。結(jié)果顯示,僅僅進(jìn)行視覺(jué)令牌優(yōu)化只能帶來(lái)1.25倍的速度提升,而僅僅進(jìn)行動(dòng)作緩存優(yōu)化帶來(lái)1.23倍提升。但當(dāng)三種策略結(jié)合使用時(shí),速度提升達(dá)到了1.93倍,證明了綜合優(yōu)化方案的優(yōu)越性。
這項(xiàng)研究的意義遠(yuǎn)超技術(shù)本身。當(dāng)前,大多數(shù)先進(jìn)的機(jī)器人模型都因?yàn)橛?jì)算需求過(guò)高而無(wú)法在實(shí)際環(huán)境中部署。就像一輛超級(jí)跑車只能在專業(yè)賽道上行駛,而無(wú)法在普通道路上使用一樣。EfficientVLA的出現(xiàn)改變了這種狀況,它讓高性能的機(jī)器人模型能夠在資源有限的實(shí)際設(shè)備上運(yùn)行。
這種突破對(duì)于機(jī)器人技術(shù)的普及具有重要意義?,F(xiàn)在,研究人員和工程師可以在普通的硬件設(shè)備上部署先進(jìn)的機(jī)器人模型,大大降低了技術(shù)應(yīng)用的門檻。這不僅有助于學(xué)術(shù)研究的推進(jìn),也為機(jī)器人技術(shù)在工業(yè)、服務(wù)業(yè)、家庭等領(lǐng)域的廣泛應(yīng)用鋪平了道路。
EfficientVLA框架的另一個(gè)重要優(yōu)勢(shì)是它的"即插即用"特性。由于不需要重新訓(xùn)練模型,研究人員可以直接將這套優(yōu)化方案應(yīng)用到現(xiàn)有的機(jī)器人系統(tǒng)上。這就像為汽車安裝一個(gè)提升燃油效率的裝置,不需要更換整個(gè)發(fā)動(dòng)機(jī),就能顯著改善性能。
當(dāng)然,這項(xiàng)研究也有一些局限性。由于目前開(kāi)源的擴(kuò)散式VLA模型還比較少,研究團(tuán)隊(duì)主要在CogACT模型上進(jìn)行了驗(yàn)證。隨著更多模型的開(kāi)源,他們計(jì)劃在更廣泛的模型和任務(wù)上驗(yàn)證EfficientVLA的效果。
此外,動(dòng)作模塊中使用的固定緩存間隔策略雖然有效,但在某些情況下可能不是最優(yōu)的。未來(lái)的研究可能會(huì)探索更智能的自適應(yīng)緩存策略,根據(jù)具體任務(wù)的需求動(dòng)態(tài)調(diào)整緩存策略。
從技術(shù)發(fā)展的角度來(lái)看,EfficientVLA代表了一種新的優(yōu)化思路。傳統(tǒng)的模型優(yōu)化往往需要重新設(shè)計(jì)模型架構(gòu)或重新訓(xùn)練,這不僅耗時(shí)耗力,還可能影響模型的原有能力。而EfficientVLA采用的無(wú)訓(xùn)練優(yōu)化方法,既保持了模型的原有能力,又大幅提升了運(yùn)行效率。
這種方法的成功也啟發(fā)了對(duì)其他AI系統(tǒng)的優(yōu)化思考。隨著AI模型變得越來(lái)越復(fù)雜,計(jì)算效率問(wèn)題將變得越來(lái)越重要。EfficientVLA提供的系統(tǒng)性優(yōu)化框架,可能會(huì)被應(yīng)用到其他類型的多模態(tài)AI系統(tǒng)中。
說(shuō)到底,EfficientVLA解決的是AI技術(shù)從實(shí)驗(yàn)室走向現(xiàn)實(shí)世界的關(guān)鍵瓶頸問(wèn)題。當(dāng)我們談?wù)揂I的未來(lái)時(shí),往往關(guān)注的是模型能力的提升,但實(shí)際上,讓AI系統(tǒng)高效運(yùn)行同樣重要。畢竟,一個(gè)無(wú)法在實(shí)際環(huán)境中部署的AI系統(tǒng),無(wú)論多么智能,都只能是"紙上談兵"。
這項(xiàng)研究為機(jī)器人技術(shù)的實(shí)用化開(kāi)辟了新的道路。我們可以期待,在不久的將來(lái),更多智能的機(jī)器人助手將能夠以可接受的成本和合理的響應(yīng)速度,在我們的工作和生活中發(fā)揮重要作用。無(wú)論是工廠中的智能制造設(shè)備,還是家庭中的服務(wù)機(jī)器人,都將受益于這種效率的提升。
對(duì)于普通人來(lái)說(shuō),這意味著我們距離擁有真正實(shí)用的智能機(jī)器人助手又近了一步。這些機(jī)器人不僅要足夠聰明,還要足夠快速和經(jīng)濟(jì)實(shí)用。EfficientVLA正是朝著這個(gè)目標(biāo)邁出的重要一步。
有興趣深入了解這項(xiàng)研究技術(shù)細(xì)節(jié)的讀者,可以通過(guò)訪問(wèn)arXiv:2506.10100v1獲取完整的研究論文,其中包含了詳細(xì)的算法描述、實(shí)驗(yàn)設(shè)置和結(jié)果分析。
Q&A
Q1:EfficientVLA是什么?它能做什么? A:EfficientVLA是上海交大開(kāi)發(fā)的機(jī)器人大腦加速框架,它能讓視覺(jué)-語(yǔ)言-動(dòng)作機(jī)器人的運(yùn)行速度提升93%,同時(shí)將計(jì)算量減少到原來(lái)的28.9%,但任務(wù)執(zhí)行能力幾乎不受影響。它的核心價(jià)值是讓高性能機(jī)器人模型能在普通硬件上快速運(yùn)行。
Q2:EfficientVLA會(huì)不會(huì)影響機(jī)器人的智能水平? A:不會(huì),甚至在某些任務(wù)上表現(xiàn)更好。研究顯示優(yōu)化后的機(jī)器人在抓取任務(wù)中成功率從91.3%提升到94.0%。這是因?yàn)镋fficientVLA去除的是冗余計(jì)算,保留了所有關(guān)鍵能力,有時(shí)去除干擾信息后表現(xiàn)反而更好。
Q3:普通人什么時(shí)候能用上這種技術(shù)優(yōu)化的機(jī)器人? A:這項(xiàng)技術(shù)具有"即插即用"特性,可以直接應(yīng)用到現(xiàn)有機(jī)器人系統(tǒng)上,無(wú)需重新訓(xùn)練。隨著技術(shù)推廣,預(yù)計(jì)在幾年內(nèi)就能看到運(yùn)行更快、成本更低的智能機(jī)器人在工廠、服務(wù)業(yè)和家庭中普及應(yīng)用。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語(yǔ)言模型的敘事推理能力與音頻生成技術(shù),通過(guò)交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開(kāi)辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過(guò)讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問(wèn)題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語(yǔ)言模型人性化對(duì)話問(wèn)題。該研究創(chuàng)建了包含20萬(wàn)高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過(guò)創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開(kāi)發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過(guò)學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來(lái)了效率和精度的雙重突破。