av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見(jiàn)證連接與計(jì)算的「力量」

首頁(yè) 中科院團(tuán)隊(duì)打造史上首個(gè)1比特機(jī)器人"保姆":只用29.8%內(nèi)存就能干活,讓家用機(jī)器人成為可能!

中科院團(tuán)隊(duì)打造史上首個(gè)1比特機(jī)器人"保姆":只用29.8%內(nèi)存就能干活,讓家用機(jī)器人成為可能!

2025-06-12 08:10
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-12 08:10 ? 科技行者

機(jī)器人能像人一樣理解語(yǔ)言、看懂環(huán)境并執(zhí)行復(fù)雜任務(wù),這聽(tīng)起來(lái)像科幻電影的情節(jié),但現(xiàn)在正逐漸成為現(xiàn)實(shí)。不過(guò),目前的智能機(jī)器人有一個(gè)巨大的"胃口"——它們需要消耗大量的計(jì)算資源和內(nèi)存才能運(yùn)行,這就像需要一臺(tái)超級(jí)計(jì)算機(jī)才能驅(qū)動(dòng)一個(gè)機(jī)器人管家。想象一下,如果你想在家里放一個(gè)能幫你整理房間、準(zhǔn)備食物的機(jī)器人助手,但它需要占用整個(gè)車(chē)庫(kù)來(lái)放置服務(wù)器設(shè)備,這顯然不現(xiàn)實(shí)。

中國(guó)科學(xué)院計(jì)算技術(shù)研究所AI安全重點(diǎn)實(shí)驗(yàn)室的王洪宇、熊楚炎、王瑞平和陳熙林等研究人員在2025年6月發(fā)表了一項(xiàng)突破性研究,這篇題為"BitVLA: 1-bit Vision-Language-Action Models for Robotics Manipulation"的論文已發(fā)布在arXiv預(yù)印本平臺(tái)(論文編號(hào):arXiv:2506.07530v1),有興趣深入了解的讀者可以通過(guò)https://github.com/ustcwhy/BitVLA獲取完整的代碼和模型權(quán)重。

這項(xiàng)研究就像是給機(jī)器人大腦做了一次"減肥手術(shù)"。研究團(tuán)隊(duì)開(kāi)發(fā)出了世界上第一個(gè)1比特視覺(jué)-語(yǔ)言-動(dòng)作模型BitVLA,這個(gè)模型能夠讓機(jī)器人在使用極少計(jì)算資源的情況下,依然能夠看懂環(huán)境、理解人類(lèi)指令并執(zhí)行復(fù)雜的操作任務(wù)。就好比原來(lái)需要一整個(gè)圖書(shū)館才能存儲(chǔ)的知識(shí),現(xiàn)在被壓縮到了一本口袋書(shū)里,但該懂的東西一樣都不少。

傳統(tǒng)的智能機(jī)器人模型就像是一個(gè)博學(xué)但"臃腫"的教授,它們雖然能力強(qiáng)大,但需要巨大的"辦公室"(內(nèi)存空間)才能工作。BitVLA則像是一個(gè)精明能干的助手,雖然"體型"小巧,但辦事效率毫不遜色。在機(jī)器人操作任務(wù)的標(biāo)準(zhǔn)測(cè)試中,BitVLA的表現(xiàn)與目前最先進(jìn)的模型OpenVLA-OFT相當(dāng),但它只需要29.8%的內(nèi)存空間。這意味著原本需要高端服務(wù)器才能運(yùn)行的機(jī)器人系統(tǒng),現(xiàn)在可能在一臺(tái)普通的筆記本電腦上就能運(yùn)行。

一、機(jī)器人大腦的"瘦身"革命

要理解這項(xiàng)研究的重要性,我們先來(lái)看看現(xiàn)在機(jī)器人面臨的"肥胖"問(wèn)題?,F(xiàn)代智能機(jī)器人需要同時(shí)處理三種復(fù)雜任務(wù):看懂周?chē)h(huán)境(視覺(jué)),理解人類(lèi)的語(yǔ)言指令(語(yǔ)言),然后做出相應(yīng)的動(dòng)作(行動(dòng))。這就像要求一個(gè)人同時(shí)當(dāng)攝影師、翻譯和演員,每項(xiàng)工作都需要大量的"腦力"。

傳統(tǒng)的機(jī)器人模型使用高精度的數(shù)字來(lái)表示所有信息,就像用高清攝像頭記錄每一個(gè)細(xì)節(jié)。雖然這樣很精確,但也產(chǎn)生了海量的數(shù)據(jù)。想象一下,如果你要記住一本書(shū)的內(nèi)容,傳統(tǒng)方法就像把書(shū)的每一頁(yè)都用高清相機(jī)拍下來(lái),包括紙張的紋理、墨水的光澤等所有細(xì)節(jié)。這樣雖然完整,但存儲(chǔ)空間需求巨大。

BitVLA采用了一種全新的"簡(jiǎn)化策略"。它將模型中的每個(gè)參數(shù)都限制在三個(gè)值中選擇:-1、0、1。這就像把復(fù)雜的色彩世界簡(jiǎn)化為黑、白、灰三色,雖然看起來(lái)簡(jiǎn)單,但關(guān)鍵信息依然保留。研究團(tuán)隊(duì)發(fā)現(xiàn),這種看似"粗糙"的表示方法,實(shí)際上能夠保留模型的核心能力,同時(shí)大幅減少計(jì)算和存儲(chǔ)需求。

這種方法的巧妙之處在于,雖然每個(gè)單獨(dú)的"決策點(diǎn)"變得簡(jiǎn)單了,但當(dāng)成千上萬(wàn)個(gè)這樣的簡(jiǎn)單決策組合起來(lái)時(shí),仍然能夠處理復(fù)雜的任務(wù)。就像用簡(jiǎn)單的黑白點(diǎn)組成復(fù)雜的報(bào)紙照片一樣——單個(gè)點(diǎn)很簡(jiǎn)單,但整體效果依然清晰可辨。

二、三階段訓(xùn)練:從笨拙學(xué)徒到熟練工匠

BitVLA的訓(xùn)練過(guò)程就像培養(yǎng)一個(gè)全能助手,需要經(jīng)過(guò)三個(gè)循序漸進(jìn)的階段。這個(gè)過(guò)程類(lèi)似于培訓(xùn)一個(gè)新員工:首先學(xué)會(huì)基本技能,然后掌握復(fù)雜任務(wù),最后進(jìn)行專(zhuān)項(xiàng)優(yōu)化。

第一階段是"視覺(jué)對(duì)齊訓(xùn)練",就像教一個(gè)人認(rèn)識(shí)物品和學(xué)會(huì)描述它們之間的關(guān)系。在這個(gè)階段,研究團(tuán)隊(duì)使用1比特的語(yǔ)言模型作為"大腦",配合全精度的視覺(jué)編碼器作為"眼睛"。系統(tǒng)學(xué)習(xí)如何將看到的圖像轉(zhuǎn)換為語(yǔ)言模型能夠理解的信息。這就像教一個(gè)盲人通過(guò)觸摸來(lái)理解物體,然后用語(yǔ)言準(zhǔn)確描述出來(lái)。

第二階段是"指令微調(diào)",這時(shí)系統(tǒng)開(kāi)始學(xué)習(xí)理解復(fù)雜的語(yǔ)言指令并給出合適的回應(yīng)。研究團(tuán)隊(duì)使用了包含1000萬(wàn)個(gè)樣本的數(shù)據(jù)集,讓模型學(xué)習(xí)各種視覺(jué)-語(yǔ)言任務(wù)。這個(gè)過(guò)程就像讓助手閱讀大量的工作手冊(cè),學(xué)習(xí)如何應(yīng)對(duì)各種情況。在這個(gè)階段,視覺(jué)編碼器被凍結(jié)(不再更新),而語(yǔ)言模型和連接器繼續(xù)學(xué)習(xí)。

第三階段是最關(guān)鍵的"蒸餾感知訓(xùn)練",這是研究團(tuán)隊(duì)的一項(xiàng)創(chuàng)新。他們將全精度的視覺(jué)編碼器作為"老師",指導(dǎo)1.58比特的視覺(jué)編碼器學(xué)習(xí)。這就像一個(gè)經(jīng)驗(yàn)豐富的師傅手把手教導(dǎo)學(xué)徒,確保學(xué)徒在使用更簡(jiǎn)單工具的同時(shí),依然能達(dá)到相似的工作質(zhì)量。

在這個(gè)過(guò)程中,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)巧妙的損失函數(shù),它包含兩個(gè)部分:語(yǔ)言建模損失和表示對(duì)齊損失。語(yǔ)言建模損失確保模型能夠準(zhǔn)確理解和生成語(yǔ)言,而表示對(duì)齊損失則確保簡(jiǎn)化后的視覺(jué)編碼器與原始版本產(chǎn)生相似的內(nèi)部表示。這就像既要求學(xué)徒做出的成品質(zhì)量好,又要求他的思考過(guò)程與師傅相似。

三、化繁為簡(jiǎn)的技術(shù)魔法:量化與蒸餾

BitVLA的核心技術(shù)創(chuàng)新在于如何將復(fù)雜的數(shù)值壓縮到極簡(jiǎn)的1比特表示,同時(shí)保持模型的智能水平。這個(gè)過(guò)程就像把一副精美的油畫(huà)轉(zhuǎn)換成簡(jiǎn)潔的線(xiàn)條畫(huà),既要保持原作的神韻,又要大幅簡(jiǎn)化表現(xiàn)形式。

量化過(guò)程使用了一種叫做"absmean量化器"的技術(shù)來(lái)處理權(quán)重,以及"per-token absmax量化器"來(lái)處理激活值。這聽(tīng)起來(lái)很復(fù)雜,但實(shí)際上就像調(diào)整照片的對(duì)比度和亮度。對(duì)于權(quán)重,系統(tǒng)計(jì)算所有數(shù)值的平均絕對(duì)值作為縮放因子,然后將每個(gè)權(quán)重除以這個(gè)因子并四舍五入到最近的整數(shù)(-1、0、1)。對(duì)于激活值,系統(tǒng)使用最大絕對(duì)值作為參考,將數(shù)值映射到-128到127的范圍內(nèi)。

這個(gè)過(guò)程面臨的主要挑戰(zhàn)是量化操作本身是不可微分的,也就是說(shuō)傳統(tǒng)的學(xué)習(xí)算法無(wú)法直接應(yīng)用。研究團(tuán)隊(duì)采用了"直通估計(jì)器"技術(shù)來(lái)解決這個(gè)問(wèn)題。這就像在陡峭的山坡上修建一條平緩的小路,讓信息能夠順利地從模型的輸出端反向傳播到輸入端,使得學(xué)習(xí)過(guò)程能夠正常進(jìn)行。

蒸餾感知訓(xùn)練是另一個(gè)關(guān)鍵創(chuàng)新。在這個(gè)過(guò)程中,全精度的視覺(jué)編碼器繼續(xù)作為"老師"存在,而1.58比特的編碼器則是"學(xué)生"。老師和學(xué)生同時(shí)處理相同的輸入,然后比較它們?cè)诿恳粚拥膬?nèi)部表示。如果學(xué)生的表示與老師相差太大,系統(tǒng)就會(huì)調(diào)整學(xué)生的參數(shù),讓它更接近老師的思考方式。

這種方法的妙處在于,它不僅關(guān)注最終的輸出結(jié)果,還關(guān)注思考過(guò)程本身。就像不僅要求學(xué)生考試得高分,還要求他的解題思路與老師相似。這樣訓(xùn)練出來(lái)的學(xué)生模型,雖然使用的是簡(jiǎn)化的表示方法,但思考方式依然保持了原始模型的精髓。

四、機(jī)器人任務(wù)中的實(shí)戰(zhàn)表現(xiàn)

為了驗(yàn)證BitVLA的實(shí)際能力,研究團(tuán)隊(duì)在LIBERO仿真環(huán)境中進(jìn)行了全面測(cè)試。LIBERO就像是機(jī)器人的"駕照考試場(chǎng)",它設(shè)計(jì)了四種不同類(lèi)型的挑戰(zhàn)來(lái)全面評(píng)估機(jī)器人的智能水平。

第一類(lèi)挑戰(zhàn)是"空間泛化",測(cè)試機(jī)器人是否能在物品擺放位置發(fā)生變化時(shí)依然完成任務(wù)。這就像要求一個(gè)人在廚房重新布局后依然能熟練地做飯。比如,平時(shí)黑碗放在盤(pán)子旁邊,現(xiàn)在放在了爐子上,機(jī)器人是否還能準(zhǔn)確地把碗放到盤(pán)子里。在這項(xiàng)測(cè)試中,BitVLA取得了97.4%的成功率,甚至超過(guò)了一些使用更多資源的模型。

第二類(lèi)挑戰(zhàn)是"物體泛化",考驗(yàn)機(jī)器人處理從未見(jiàn)過(guò)的物品的能力。想象一下,如果機(jī)器人只見(jiàn)過(guò)蘋(píng)果,現(xiàn)在突然出現(xiàn)了橙子,它是否還能理解"把水果放進(jìn)籃子"這個(gè)指令。BitVLA在這項(xiàng)測(cè)試中表現(xiàn)出色,成功率達(dá)到99.6%,展現(xiàn)了強(qiáng)大的舉一反三能力。

第三類(lèi)挑戰(zhàn)是"目標(biāo)泛化",測(cè)試機(jī)器人理解多樣化語(yǔ)言指令的能力。人類(lèi)說(shuō)話(huà)的方式千變?nèi)f化,"把碗放在盤(pán)子上"、"將碗置于盤(pán)子之上"、"讓碗與盤(pán)子組合",雖然表達(dá)不同,但意思相同。BitVLA需要理解這些語(yǔ)言的細(xì)微差別,并做出正確的行動(dòng)。

第四類(lèi)也是最具挑戰(zhàn)性的是"長(zhǎng)期推理",要求機(jī)器人完成需要多個(gè)步驟的復(fù)雜任務(wù)。比如"先打開(kāi)抽屜,然后把碗放進(jìn)去,最后關(guān)上抽屜"。這不僅需要理解每個(gè)單獨(dú)的動(dòng)作,還要理解它們之間的邏輯關(guān)系和執(zhí)行順序。雖然在這個(gè)最難的測(cè)試中,BitVLA的表現(xiàn)(87.6%)略遜于經(jīng)過(guò)大規(guī)模機(jī)器人數(shù)據(jù)預(yù)訓(xùn)練的OpenVLA-OFT模型(94.5%),但考慮到BitVLA使用的資源只有后者的不到三分之一,這個(gè)結(jié)果已經(jīng)相當(dāng)令人印象深刻。

研究團(tuán)隊(duì)還將BitVLA與其他先進(jìn)模型進(jìn)行了詳細(xì)比較。結(jié)果顯示,BitVLA不僅在性能上與主流模型相當(dāng),在資源使用效率上更是遙遙領(lǐng)先。它只需要1.4GB的內(nèi)存就能運(yùn)行,而對(duì)比模型通常需要4-15GB的內(nèi)存。這意味著B(niǎo)itVLA可以在普通的消費(fèi)級(jí)GPU上運(yùn)行,比如NVIDIA GeForce RTX 3050 Ti Laptop(4GB顯存),這為家用機(jī)器人的普及打開(kāi)了大門(mén)。

五、意外收獲:視覺(jué)問(wèn)答能力依然強(qiáng)勁

除了機(jī)器人操作任務(wù),研究團(tuán)隊(duì)還測(cè)試了BitVLA在傳統(tǒng)視覺(jué)問(wèn)答任務(wù)上的表現(xiàn)。這就像檢驗(yàn)一個(gè)專(zhuān)門(mén)培訓(xùn)的廚師是否還保持著基本的烹飪技能。結(jié)果顯示,即使經(jīng)過(guò)了大幅簡(jiǎn)化,BitVLA在五個(gè)主流視覺(jué)問(wèn)答基準(zhǔn)測(cè)試中的平均表現(xiàn)只比全精度版本下降了1.5%。

這個(gè)結(jié)果特別有意義,因?yàn)樗砻鰾itVLA的"瘦身"過(guò)程并沒(méi)有損害模型的通用智能。就像一個(gè)運(yùn)動(dòng)員通過(guò)科學(xué)訓(xùn)練減重后,不僅在專(zhuān)項(xiàng)運(yùn)動(dòng)中表現(xiàn)更好,在其他運(yùn)動(dòng)項(xiàng)目中也依然保持著良好的競(jìng)技狀態(tài)。這種全面的能力保持,使得BitVLA不僅僅是一個(gè)專(zhuān)用的機(jī)器人模型,更是一個(gè)多才多藝的智能助手。

在MMMU、SeedBench、SeedBench-2-Plus、MMStar和AI2D等測(cè)試中,BitVLA都展現(xiàn)了穩(wěn)定的性能。這些測(cè)試涵蓋了從基礎(chǔ)物體識(shí)別到復(fù)雜場(chǎng)景理解的各個(gè)方面,就像對(duì)一個(gè)學(xué)生進(jìn)行語(yǔ)文、數(shù)學(xué)、科學(xué)等多科目的綜合考試。

六、深度解析:失敗案例中的學(xué)習(xí)機(jī)會(huì)

為了更好地理解BitVLA的能力邊界,研究團(tuán)隊(duì)細(xì)致分析了模型的失敗案例。他們發(fā)現(xiàn)失敗主要集中在三個(gè)方面,這些分析為未來(lái)的改進(jìn)指明了方向。

第一類(lèi)失敗是"空間定位偏差",這就像一個(gè)近視的人試圖穿針引線(xiàn)時(shí)出現(xiàn)的問(wèn)題。機(jī)器人能夠識(shí)別物體和理解任務(wù),但在精確操作時(shí)會(huì)出現(xiàn)位置偏差。比如在抓取重心不穩(wěn)的酒瓶時(shí),稍微的位置誤差就可能導(dǎo)致酒瓶?jī)A倒。或者在將物品放置到目標(biāo)位置時(shí),可能會(huì)因?yàn)槲恢貌粔蚓_而導(dǎo)致任務(wù)失敗。這類(lèi)問(wèn)題反映了簡(jiǎn)化的視覺(jué)編碼器在處理精細(xì)空間關(guān)系時(shí)的局限性。

第二類(lèi)失敗是"目標(biāo)誤解",這相當(dāng)于在嘈雜環(huán)境中聽(tīng)錯(cuò)了指令。有時(shí)機(jī)器人會(huì)在執(zhí)行任務(wù)過(guò)程中突然轉(zhuǎn)向操作其他物體,就好像在做飯時(shí)突然開(kāi)始洗衣服。研究團(tuán)隊(duì)分析認(rèn)為,這主要是因?yàn)樵谀承┣闆r下,視覺(jué)和本體感受信息在模型推理過(guò)程中占據(jù)了主導(dǎo)地位,掩蓋了語(yǔ)言指令的影響。

第三類(lèi)失敗是"軌跡規(guī)劃失敗",這類(lèi)似于在擁擠的商場(chǎng)中走路時(shí)撞到障礙物。機(jī)器人在移動(dòng)過(guò)程中可能會(huì)與環(huán)境發(fā)生碰撞,比如在將碗放入抽屜時(shí)撞到抽屜的下沿。這類(lèi)失敗提示我們,BitVLA在空間推理和動(dòng)作規(guī)劃方面還有改進(jìn)空間,需要更好地預(yù)測(cè)動(dòng)作的后果和環(huán)境的約束。

通過(guò)對(duì)失敗案例的分析,研究團(tuán)隊(duì)發(fā)現(xiàn)最常見(jiàn)的問(wèn)題是空間定位精度不足。這并不意外,因?yàn)長(zhǎng)IBERO測(cè)試環(huán)境對(duì)精度要求很高,比如要求物體必須準(zhǔn)確放置在盤(pán)子的中心位置。在很多失敗案例中,機(jī)器人實(shí)際上成功地將物體放在了盤(pán)子上,但因?yàn)槲恢蒙晕⑵x中心而被判定為失敗。這種嚴(yán)格的評(píng)判標(biāo)準(zhǔn)雖然具有挑戰(zhàn)性,但也揭示了精細(xì)操作領(lǐng)域仍然是機(jī)器人技術(shù)需要突破的難點(diǎn)。

七、技術(shù)細(xì)節(jié)的巧思:ablation研究的啟示

研究團(tuán)隊(duì)還進(jìn)行了細(xì)致的ablation研究,這就像拆解一臺(tái)精密機(jī)器來(lái)理解每個(gè)零件的作用。他們發(fā)現(xiàn)了幾個(gè)關(guān)鍵的設(shè)計(jì)選擇對(duì)模型性能的重要影響。

首先是表示對(duì)齊損失的重要性。當(dāng)研究團(tuán)隊(duì)移除這個(gè)組件時(shí),模型在視覺(jué)問(wèn)答任務(wù)上的平均準(zhǔn)確率從51.5%下降到42.4%,降幅達(dá)到9.1%。這證明了"師傅指導(dǎo)學(xué)徒"這個(gè)策略的關(guān)鍵作用。沒(méi)有這種指導(dǎo),簡(jiǎn)化后的模型就像沒(méi)有經(jīng)驗(yàn)傳承的新手,雖然能夠工作,但效率和準(zhǔn)確性都會(huì)大打折扣。

其次是訓(xùn)練數(shù)據(jù)量的影響。使用10B(100億)tokens進(jìn)行蒸餾感知訓(xùn)練比使用5B tokens的效果更好,在視覺(jué)問(wèn)答任務(wù)上提升了0.7%,在機(jī)器人任務(wù)上提升了1.2%。這說(shuō)明充分的訓(xùn)練對(duì)于知識(shí)蒸餾過(guò)程的重要性,就像學(xué)徒需要足夠的練習(xí)時(shí)間才能掌握師傅的技藝。

這些發(fā)現(xiàn)不僅驗(yàn)證了設(shè)計(jì)選擇的合理性,也為未來(lái)的研究提供了指導(dǎo)。比如,如果計(jì)算資源有限,研究者可以?xún)?yōu)先保證表示對(duì)齊損失的實(shí)現(xiàn),而在訓(xùn)練數(shù)據(jù)量上做一些妥協(xié)。

八、與傳統(tǒng)量化方法的較量:后訓(xùn)練量化的比較

為了更好地展示BitVLA的優(yōu)勢(shì),研究團(tuán)隊(duì)將其與傳統(tǒng)的后訓(xùn)練量化方法進(jìn)行了比較。后訓(xùn)練量化就像給已經(jīng)成型的產(chǎn)品進(jìn)行"壓縮包裝",而B(niǎo)itVLA的方法則是從設(shè)計(jì)階段就考慮"小型化"的需求。

當(dāng)使用8位(INT8)后訓(xùn)練量化時(shí),OpenVLA模型的內(nèi)存使用量從15.1GB降低到7.4GB,但性能也有輕微下降。當(dāng)使用4位(INT4)量化時(shí),內(nèi)存進(jìn)一步降低到4.4GB,但性能下降更加明顯,平均成功率從76.5%下降到72.7%。相比之下,BitVLA在只使用1.4GB內(nèi)存的情況下,依然保持了94.8%的平均成功率。

這種差異的根本原因在于訓(xùn)練方式的不同。后訓(xùn)練量化是在模型訓(xùn)練完成后強(qiáng)行壓縮,就像試圖將一個(gè)大箱子硬塞進(jìn)小空間,必然會(huì)造成一些損壞。而B(niǎo)itVLA從一開(kāi)始就被設(shè)計(jì)為在低精度環(huán)境中工作,就像專(zhuān)門(mén)為小空間設(shè)計(jì)的精巧家具,每個(gè)部分都經(jīng)過(guò)優(yōu)化,既節(jié)省空間又保持功能性。

九、計(jì)算效率的革命性提升

BitVLA帶來(lái)的不僅僅是內(nèi)存使用量的減少,更是整個(gè)計(jì)算范式的革命。傳統(tǒng)的浮點(diǎn)運(yùn)算需要復(fù)雜的硬件支持和大量的能耗,而1比特運(yùn)算可以用最簡(jiǎn)單的邏輯門(mén)來(lái)實(shí)現(xiàn),這就像從復(fù)雜的蒸汽機(jī)轉(zhuǎn)向簡(jiǎn)潔的電動(dòng)機(jī)。

在實(shí)際部署中,這種差異的影響是巨大的。傳統(tǒng)的VLA模型需要高端的GPU或者專(zhuān)門(mén)的AI加速器才能運(yùn)行,這些設(shè)備不僅昂貴,還需要大量的電力和冷卻系統(tǒng)。而B(niǎo)itVLA可以在普通的CPU上高效運(yùn)行,甚至可以部署在嵌入式設(shè)備上。這意味著機(jī)器人可以擺脫對(duì)云端計(jì)算的依賴(lài),實(shí)現(xiàn)真正的本地智能。

研究團(tuán)隊(duì)使用的BitNet b1.58 2B4T作為語(yǔ)言模型骨干,配合SigLIP-L作為視覺(jué)編碼器。SigLIP-L被選擇用于處理224×224分辨率的圖像,這個(gè)選擇在保持性能的同時(shí)優(yōu)化了計(jì)算效率。連接器使用了兩層MLP(多層感知器),雖然保持全精度,但由于其相對(duì)較小的規(guī)模,對(duì)整體模型大小的影響微乎其微。

十、訓(xùn)練策略的精巧設(shè)計(jì)

BitVLA的訓(xùn)練過(guò)程展現(xiàn)了研究團(tuán)隊(duì)在策略設(shè)計(jì)上的深思熟慮。整個(gè)訓(xùn)練過(guò)程歷時(shí)14天,使用了8塊NVIDIA A100 GPU(每塊80GB顯存),這個(gè)配置雖然強(qiáng)大,但相比訓(xùn)練同等能力的傳統(tǒng)模型,已經(jīng)大幅節(jié)省了資源。

在訓(xùn)練的第一階段,研究團(tuán)隊(duì)使用LLaVA 1.5-558k數(shù)據(jù)集進(jìn)行視覺(jué)對(duì)齊訓(xùn)練,這個(gè)階段只有連接器參數(shù)是可訓(xùn)練的,其他部分都被凍結(jié)。這就像先讓新員工熟悉公司的基本流程,而不是一開(kāi)始就讓他承擔(dān)所有工作。

第二階段使用了從MammoTH-VL數(shù)據(jù)集中選取的1000萬(wàn)樣本進(jìn)行指令微調(diào)。在這個(gè)階段,視覺(jué)編碼器被凍結(jié),而語(yǔ)言模型和連接器繼續(xù)學(xué)習(xí)。研究團(tuán)隊(duì)特別采用了動(dòng)態(tài)權(quán)重衰減策略,從0.1逐漸降低到0,這種策略有助于模型在訓(xùn)練后期更好地收斂。

第三階段的蒸餾感知訓(xùn)練是最具創(chuàng)新性的部分。研究團(tuán)隊(duì)使用了500萬(wàn)樣本,訓(xùn)練數(shù)據(jù)包含多達(dá)100億個(gè)tokens。在這個(gè)階段,只有視覺(jué)編碼器是可訓(xùn)練的,蒸餾損失的權(quán)重系數(shù)設(shè)置為0.1,這個(gè)數(shù)值是通過(guò)大量實(shí)驗(yàn)確定的最優(yōu)平衡點(diǎn)。

十一、實(shí)驗(yàn)設(shè)計(jì)的嚴(yán)謹(jǐn)性與全面性

研究團(tuán)隊(duì)在實(shí)驗(yàn)設(shè)計(jì)上展現(xiàn)了嚴(yán)謹(jǐn)?shù)目茖W(xué)態(tài)度。他們不僅測(cè)試了BitVLA在機(jī)器人任務(wù)上的表現(xiàn),還驗(yàn)證了其在通用視覺(jué)語(yǔ)言任務(wù)上的能力保持,確保模型的簡(jiǎn)化沒(méi)有損害其通用性。

在機(jī)器人任務(wù)評(píng)估中,研究團(tuán)隊(duì)使用了與OpenVLA-OFT相同的訓(xùn)練數(shù)據(jù)集,確保了比較的公平性。他們處理了來(lái)自腕部攝像頭和外部攝像頭的同步多視角視覺(jué)輸入,同時(shí)編碼了末端執(zhí)行器位置等本體感受信號(hào)。這些物理狀態(tài)測(cè)量通過(guò)基于MLP的投影器轉(zhuǎn)換為單個(gè)token,然后附加到圖像tokens上。

為了優(yōu)化實(shí)時(shí)控制效率,研究團(tuán)隊(duì)采用了動(dòng)作分塊技術(shù),將分塊大小設(shè)置為K=8。這意味著模型一次生成8個(gè)連續(xù)的動(dòng)作步驟,然后在重新規(guī)劃之前執(zhí)行完整的分塊。這種方法顯著提高了控制的流暢性和效率,避免了逐步驟生成帶來(lái)的延遲問(wèn)題。

在超參數(shù)選擇上,研究團(tuán)隊(duì)進(jìn)行了細(xì)致的網(wǎng)格搜索。對(duì)于LIBERO-Spatial、LIBERO-Object和LIBERO-Goal任務(wù),他們從{5e-5, 1e-4, 3e-4}中選擇最佳學(xué)習(xí)率。對(duì)于最具挑戰(zhàn)性的LIBERO-Long任務(wù),所有模型都使用視覺(jué)編碼器學(xué)習(xí)率8e-5和語(yǔ)言模型學(xué)習(xí)率4e-4的組合。

十二、未來(lái)展望:邊緣計(jì)算時(shí)代的智能機(jī)器人

BitVLA的成功不僅僅是一個(gè)技術(shù)突破,更是為未來(lái)智能機(jī)器人的普及奠定了基礎(chǔ)。想象一下,在不久的將來(lái),每個(gè)家庭都可能擁有一個(gè)智能機(jī)器人助手,它不需要連接到云端服務(wù)器,就能理解你的指令并幫助你完成各種家務(wù)。

這種本地化的智能處理帶來(lái)了多重優(yōu)勢(shì)。首先是隱私保護(hù),所有的視覺(jué)和語(yǔ)音數(shù)據(jù)都在本地處理,不需要上傳到遠(yuǎn)程服務(wù)器。其次是響應(yīng)速度,沒(méi)有網(wǎng)絡(luò)延遲的困擾,機(jī)器人可以實(shí)時(shí)響應(yīng)環(huán)境變化。最后是可靠性,即使在網(wǎng)絡(luò)中斷的情況下,機(jī)器人依然能夠正常工作。

研究團(tuán)隊(duì)已經(jīng)開(kāi)源了BitVLA的完整代碼和模型權(quán)重,這為全球的研究者和開(kāi)發(fā)者提供了寶貴的資源。開(kāi)源策略的采用將加速相關(guān)技術(shù)的發(fā)展和應(yīng)用,就像當(dāng)年Linux操作系統(tǒng)的開(kāi)源推動(dòng)了整個(gè)軟件行業(yè)的繁榮。

當(dāng)然,BitVLA也還有改進(jìn)的空間。研究團(tuán)隊(duì)在論文中坦誠(chéng)地指出了模型在精細(xì)操作和長(zhǎng)期推理方面的局限性。這些挑戰(zhàn)為未來(lái)的研究指明了方向,包括改進(jìn)空間推理能力、增強(qiáng)軌跡規(guī)劃算法、優(yōu)化多步驟任務(wù)的執(zhí)行策略等。

從更廣闊的視角來(lái)看,BitVLA代表了人工智能發(fā)展的一個(gè)重要趨勢(shì):從追求模型規(guī)模的無(wú)限擴(kuò)大轉(zhuǎn)向追求效率和實(shí)用性的平衡。這種轉(zhuǎn)變不僅符合環(huán)保和可持續(xù)發(fā)展的理念,也更接近實(shí)際應(yīng)用的需求。畢竟,最好的技術(shù)不一定是最復(fù)雜的技術(shù),而是最適合解決實(shí)際問(wèn)題的技術(shù)。

說(shuō)到底,BitVLA就像是為智能機(jī)器人世界打開(kāi)了一扇新的大門(mén)。它證明了即使在嚴(yán)格的資源約束下,我們依然可以實(shí)現(xiàn)強(qiáng)大的智能功能。這不僅讓研究者看到了在邊緣設(shè)備上部署復(fù)雜AI模型的可能性,也讓普通人看到了智能機(jī)器人走進(jìn)千家萬(wàn)戶(hù)的希望。雖然我們距離科幻電影中的全能機(jī)器人助手還有一段距離,但BitVLA讓我們離這個(gè)目標(biāo)又近了一大步。未來(lái)的某一天,當(dāng)你回到家中,一個(gè)小巧而智能的機(jī)器人助手正在整理房間,理解你的每一個(gè)指令,這樣的場(chǎng)景可能比我們想象的更早到來(lái)。如果讀者對(duì)這項(xiàng)突破性研究的技術(shù)細(xì)節(jié)感興趣,可以訪問(wèn)研究團(tuán)隊(duì)提供的GitHub鏈接獲取完整的實(shí)現(xiàn)代碼和預(yù)訓(xùn)練模型。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-