這項(xiàng)由香港大學(xué)OpenDriveLab實(shí)驗(yàn)室的卜慶雯、楊彥廷等研究人員領(lǐng)導(dǎo)的突破性研究發(fā)表于2025年5月,論文代碼已在GitHub開源(https://github.com/OpenDriveLab/UniVLA)。有興趣深入了解的讀者可以通過arXiv:2505.06111v2訪問完整論文。
當(dāng)你看到一個(gè)孩子學(xué)會(huì)用筷子吃飯后,很快就能學(xué)會(huì)用叉子、勺子甚至用手抓食物時(shí),你是否想過這種"舉一反三"的能力對(duì)機(jī)器人來說有多么困難?現(xiàn)在,香港大學(xué)的研究團(tuán)隊(duì)找到了讓機(jī)器人也具備這種能力的方法。
目前的機(jī)器人就像只會(huì)背誦一本菜譜的廚師,只能在特定廚房用特定工具做特定的菜。一旦換了環(huán)境或工具,就完全不知所措。這是因?yàn)楝F(xiàn)有的機(jī)器人訓(xùn)練方法嚴(yán)重依賴于標(biāo)注好的動(dòng)作數(shù)據(jù),就像必須有人在旁邊手把手教每一個(gè)動(dòng)作細(xì)節(jié)。更糟糕的是,不同品牌、不同型號(hào)的機(jī)器人就像說著不同"方言"的人,彼此之間無法共享學(xué)到的技能。
研究團(tuán)隊(duì)提出的UniVLA框架就像為機(jī)器人世界創(chuàng)造了一種"通用語言"。這種語言不是基于具體的機(jī)械動(dòng)作,而是基于任務(wù)的本質(zhì)意圖。就好比當(dāng)人類說"拿起那個(gè)杯子"時(shí),不管你用左手還是右手,不管杯子在桌子的哪個(gè)位置,你都能理解并完成這個(gè)動(dòng)作的核心目標(biāo)。
一、破解機(jī)器人學(xué)習(xí)的"巴別塔"難題
傳統(tǒng)的機(jī)器人訓(xùn)練方式面臨著一個(gè)根本問題:動(dòng)作標(biāo)注的稀缺性。每個(gè)機(jī)器人的動(dòng)作都需要人工仔細(xì)標(biāo)注,這就像要為每種語言重新編寫整本字典一樣費(fèi)時(shí)費(fèi)力。更關(guān)鍵的是,網(wǎng)絡(luò)上雖然有海量的視頻資源——從專業(yè)的機(jī)器人演示到日常的人類活動(dòng)錄像,但這些寶貴的學(xué)習(xí)材料卻無法被現(xiàn)有方法有效利用,因?yàn)樗鼈內(nèi)狈_的動(dòng)作標(biāo)注。
UniVLA的核心創(chuàng)新在于提出了"任務(wù)中心潛在動(dòng)作"的概念。這就像是在混亂的廚房噪音中專門聽取烹飪的核心步驟,而忽略鍋碗瓢盆的碰撞聲。研究團(tuán)隊(duì)發(fā)現(xiàn),在任何視頻中都存在兩類信息:與任務(wù)相關(guān)的核心動(dòng)作(比如抓取、放置、轉(zhuǎn)動(dòng))和與任務(wù)無關(guān)的環(huán)境噪音(比如背景中其他人的移動(dòng)、光線變化、攝像頭抖動(dòng))。
為了實(shí)現(xiàn)這種分離,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)兩階段的訓(xùn)練過程。在第一階段,系統(tǒng)學(xué)習(xí)識(shí)別與任務(wù)無關(guān)的環(huán)境變化,這些變化雖然在視頻中很明顯,但對(duì)完成任務(wù)本身并不重要。第二階段則專注于提取真正的任務(wù)核心動(dòng)作。這種方法的巧妙之處在于,通過語言指令的引導(dǎo),系統(tǒng)能夠自動(dòng)區(qū)分哪些視覺變化是完成任務(wù)必需的,哪些只是環(huán)境噪音。
二、從視頻中"看懂"動(dòng)作的本質(zhì)
UniVLA使用了一種被稱為VQ-VAE的技術(shù)來將連續(xù)的動(dòng)作壓縮成離散的"動(dòng)作詞匯"。這就像是將復(fù)雜的音樂旋律轉(zhuǎn)換成簡(jiǎn)單的音符記號(hào),既保留了核心信息,又大大簡(jiǎn)化了處理復(fù)雜度。這些"動(dòng)作詞匯"就像是機(jī)器人世界的通用語言,不同的機(jī)器人雖然"口音"(硬件設(shè)計(jì))不同,但都能理解這些基本的"詞匯"含義。
研究團(tuán)隊(duì)還采用了DINOv2特征作為視覺表示的基礎(chǔ)。DINOv2是一種能夠理解圖像中物體和空間關(guān)系的視覺模型,它就像是給機(jī)器人裝上了一雙能夠理解世界結(jié)構(gòu)的"眼睛"。與傳統(tǒng)的像素級(jí)預(yù)測(cè)不同,DINOv2關(guān)注的是物體的語義信息和空間關(guān)系,這讓系統(tǒng)能夠更好地理解"拿起紅色的杯子"這樣的指令,而不是簡(jiǎn)單地模仿像素的變化。
這種方法的另一個(gè)重要優(yōu)勢(shì)是它的數(shù)據(jù)效率。傳統(tǒng)方法需要大量的標(biāo)注數(shù)據(jù)才能訓(xùn)練出可用的模型,而UniVLA可以從未標(biāo)注的網(wǎng)絡(luò)視頻中學(xué)習(xí)。研究顯示,即使只使用Bridge-V2數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,UniVLA的表現(xiàn)也超過了使用更大規(guī)模Open X-Embodiment數(shù)據(jù)集訓(xùn)練的其他方法。這就像是一個(gè)學(xué)生通過看電影學(xué)會(huì)了外語,而其他學(xué)生還在啃厚重的語法書。
三、讓機(jī)器人學(xué)會(huì)"舉一反三"
UniVLA的訓(xùn)練過程分為三個(gè)關(guān)鍵階段,每個(gè)階段都有其獨(dú)特的作用。首先是任務(wù)中心潛在動(dòng)作學(xué)習(xí)階段,這個(gè)過程就像教會(huì)系統(tǒng)區(qū)分"有用的動(dòng)作"和"無用的背景噪音"。系統(tǒng)學(xué)會(huì)從大量視頻中提取出真正與任務(wù)完成相關(guān)的動(dòng)作模式,而忽略那些雖然在視頻中很明顯但與任務(wù)無關(guān)的變化。
第二階段是下一個(gè)潛在動(dòng)作預(yù)測(cè)訓(xùn)練,這就像是訓(xùn)練一個(gè)能夠"預(yù)測(cè)下一步該做什么"的智能助手。系統(tǒng)基于Prismatic-7B視覺語言模型,學(xué)會(huì)根據(jù)當(dāng)前的觀察和任務(wù)指令,預(yù)測(cè)下一步應(yīng)該執(zhí)行的潛在動(dòng)作。這個(gè)過程讓機(jī)器人具備了跨領(lǐng)域的規(guī)劃能力,能夠在統(tǒng)一的潛在空間中進(jìn)行思考和決策。
第三階段是潛在動(dòng)作解碼,這是將通用的"動(dòng)作意圖"轉(zhuǎn)換為具體機(jī)器人可執(zhí)行動(dòng)作的過程。這就像是一個(gè)翻譯器,將通用的任務(wù)指令翻譯成特定機(jī)器人能夠理解的"方言"。每個(gè)機(jī)器人只需要訓(xùn)練一個(gè)小型的解碼器(僅包含1.26萬個(gè)參數(shù)),就能將通用的潛在動(dòng)作轉(zhuǎn)換為自己的具體控制信號(hào)。
四、驚人的實(shí)驗(yàn)表現(xiàn)與真實(shí)世界驗(yàn)證
在LIBERO基準(zhǔn)測(cè)試中,UniVLA展現(xiàn)出了令人印象深刻的性能提升。這個(gè)基準(zhǔn)包含四個(gè)不同的任務(wù)套件,每個(gè)都測(cè)試機(jī)器人的不同能力。在空間推理任務(wù)中,UniVLA的成功率達(dá)到96.5%,相比OpenVLA的84.7%有顯著提升。在物體泛化任務(wù)中,成功率從88.4%提升到96.8%。最令人印象深刻的是在長(zhǎng)期任務(wù)規(guī)劃中,UniVLA將成功率從53.7%大幅提升到92.0%,這意味著機(jī)器人在處理需要多個(gè)步驟的復(fù)雜任務(wù)時(shí)表現(xiàn)更加可靠。
導(dǎo)航任務(wù)的測(cè)試進(jìn)一步證明了UniVLA的跨領(lǐng)域泛化能力。在Room2Room導(dǎo)航基準(zhǔn)中,UniVLA達(dá)到了47.1%的成功率,相比OpenVLA的17.5%實(shí)現(xiàn)了近三倍的提升。更重要的是,這種提升是在只使用單幀RGB圖像輸入的情況下實(shí)現(xiàn)的,而其他一些方法需要使用歷史觀察序列或深度信息。
真實(shí)世界的機(jī)器人實(shí)驗(yàn)可能是最具說服力的驗(yàn)證。研究團(tuán)隊(duì)設(shè)計(jì)了四個(gè)不同的任務(wù)來測(cè)試機(jī)器人的各種能力。在"存放螺絲刀"任務(wù)中,機(jī)器人需要展現(xiàn)空間感知能力,將螺絲刀放入柜子并關(guān)門,UniVLA達(dá)到了93.3%的成功率。在"清理砧板"任務(wù)中,機(jī)器人需要使用掃帚將物品掃入畚箕,這測(cè)試了工具使用和非握持操作能力,成功率達(dá)到100%。"疊毛巾"任務(wù)測(cè)試了對(duì)可變形物體的操作能力,而"漢諾塔堆疊"任務(wù)則考驗(yàn)語義理解和多步驟規(guī)劃能力,UniVLA分別達(dá)到了46.7%和86.7%的成功率。
五、數(shù)據(jù)規(guī)模效應(yīng)與泛化能力的深度分析
UniVLA展現(xiàn)出了優(yōu)秀的數(shù)據(jù)擴(kuò)展性,這意味著隨著訓(xùn)練數(shù)據(jù)的增加,系統(tǒng)性能持續(xù)改善。研究團(tuán)隊(duì)發(fā)現(xiàn),即使是人類視頻這樣看似與機(jī)器人操作相距甚遠(yuǎn)的數(shù)據(jù),也能為系統(tǒng)帶來性能提升。從僅使用Bridge-V2數(shù)據(jù)集到加入Open X-Embodiment數(shù)據(jù),再到最終包含人類活動(dòng)視頻,系統(tǒng)的平均性能穩(wěn)步提升。在真實(shí)世界實(shí)驗(yàn)中,數(shù)據(jù)規(guī)模的擴(kuò)大帶來了持續(xù)的性能改善,這表明UniVLA能夠有效地從多樣化的數(shù)據(jù)源中提取有用信息。
更令人印象深刻的是系統(tǒng)的數(shù)據(jù)效率。在LIBERO-Goal和LIBERO-Long基準(zhǔn)測(cè)試中,僅使用10%的訓(xùn)練數(shù)據(jù),UniVLA就能達(dá)到86.3%和71.4%的成功率,這不僅超過了使用完整數(shù)據(jù)集訓(xùn)練的OpenVLA,也為實(shí)際應(yīng)用中的快速部署提供了可能性。這種數(shù)據(jù)效率來源于潛在動(dòng)作空間的緊湊性和信息密度,相比傳統(tǒng)的2567維動(dòng)作空間,UniVLA使用的16維潛在空間大大降低了學(xué)習(xí)復(fù)雜度。
泛化能力測(cè)試顯示了UniVLA在面對(duì)新環(huán)境時(shí)的魯棒性。在光照變化測(cè)試中,研究團(tuán)隊(duì)調(diào)暗環(huán)境光線并施加強(qiáng)定向照明,UniVLA仍能保持66.7%的成功率。在視覺干擾測(cè)試中,當(dāng)工作臺(tái)面添加了碗、筆記本和膠帶等額外物品時(shí),系統(tǒng)成功率為53.3%。最具挑戰(zhàn)性的是新物體測(cè)試,將操作對(duì)象從螺絲刀替換為未見過的馬克筆,UniVLA達(dá)到了86.7%的成功率,這表明系統(tǒng)真正學(xué)會(huì)了任務(wù)的本質(zhì)而非簡(jiǎn)單的模式記憶。
六、技術(shù)創(chuàng)新的深層機(jī)制解析
UniVLA的核心技術(shù)創(chuàng)新體現(xiàn)在其任務(wù)中心動(dòng)作分解機(jī)制上。傳統(tǒng)的潛在動(dòng)作學(xué)習(xí)方法往往將所有視覺變化都編碼到動(dòng)作表示中,這導(dǎo)致學(xué)到的表示包含了大量與任務(wù)無關(guān)的噪音。UniVLA通過引入語言條件,巧妙地將動(dòng)作表示分解為任務(wù)相關(guān)和任務(wù)無關(guān)兩個(gè)部分。在第一階段訓(xùn)練中,系統(tǒng)在語言指導(dǎo)下學(xué)習(xí)編碼與任務(wù)無關(guān)的環(huán)境變化,第二階段則專門學(xué)習(xí)任務(wù)核心動(dòng)作。
這種分解的效果通過定量分析得到了驗(yàn)證。使用任務(wù)中心潛在動(dòng)作訓(xùn)練的策略在LIBERO基準(zhǔn)上平均達(dá)到88.7%的成功率,而使用傳統(tǒng)方法學(xué)到的任務(wù)無關(guān)動(dòng)作訓(xùn)練的策略僅達(dá)到56.5%。特別是在長(zhǎng)期任務(wù)LIBERO-Long中,差異更加明顯:任務(wù)中心方法達(dá)到79.4%成功率,而任務(wù)無關(guān)方法幾乎完全失敗,僅達(dá)到0.2%。
動(dòng)作解碼器的設(shè)計(jì)也體現(xiàn)了系統(tǒng)的優(yōu)雅性。相比傳統(tǒng)的自回歸動(dòng)作生成方式,UniVLA采用基于注意力機(jī)制的并行解碼,這不僅提高了推理效率,還改善了動(dòng)作序列的一致性。解碼器使用視覺嵌入作為查詢來提取潛在動(dòng)作信息,這種設(shè)計(jì)減少了多模態(tài)分布的歧義性,在LIBERO-Long任務(wù)中帶來了42.1%的性能提升。
歷史動(dòng)作整合機(jī)制進(jìn)一步增強(qiáng)了系統(tǒng)的序列決策能力。受到大語言模型中思維鏈推理的啟發(fā),UniVLA將歷史潛在動(dòng)作作為輸入提示,建立了機(jī)器人策略的反饋循環(huán)。這種設(shè)計(jì)在長(zhǎng)期任務(wù)中特別有效,在LIBERO-Long中帶來3.9%的提升,在導(dǎo)航任務(wù)中提升更是達(dá)到16.5%。
七、與現(xiàn)有方法的系統(tǒng)性比較
UniVLA與現(xiàn)有方法的比較揭示了其獨(dú)特優(yōu)勢(shì)。相比OpenVLA等直接在原始動(dòng)作空間中操作的方法,UniVLA通過潛在空間規(guī)劃大大降低了計(jì)算復(fù)雜度。OpenVLA需要21500個(gè)A100 GPU小時(shí)進(jìn)行預(yù)訓(xùn)練,而UniVLA僅需960個(gè)GPU小時(shí)就能達(dá)到更好性能,這相當(dāng)于用二十分之一的計(jì)算資源獲得了更好的結(jié)果。
與LAPA等其他潛在動(dòng)作方法相比,UniVLA的任務(wù)中心設(shè)計(jì)帶來了顯著優(yōu)勢(shì)。在所有LIBERO任務(wù)中,UniVLA都明顯超過了LAPA的表現(xiàn),平均提升達(dá)到29.5%。這種提升主要來源于更好的動(dòng)作表示質(zhì)量,任務(wù)中心的設(shè)計(jì)讓學(xué)到的潛在動(dòng)作更加聚焦于任務(wù)核心,減少了環(huán)境噪音的干擾。
在導(dǎo)航任務(wù)中,UniVLA與專門的導(dǎo)航模型NaVid達(dá)到了相當(dāng)?shù)男阅芩?,這尤其令人印象深刻,因?yàn)镹aVid使用了完整的歷史觀察序列,而UniVLA僅使用當(dāng)前觀察和歷史潛在動(dòng)作。這表明潛在動(dòng)作空間的緊湊表示能夠有效捕獲序列決策所需的關(guān)鍵信息。
實(shí)時(shí)性能分析顯示,UniVLA在NVIDIA RTX 4090 GPU上能夠達(dá)到10Hz的閉環(huán)推理頻率,通過預(yù)測(cè)動(dòng)作塊(chunk size為12)實(shí)現(xiàn)了平滑控制。相比之下,OpenVLA由于推理延遲問題在實(shí)際部署中表現(xiàn)不佳,單步動(dòng)作預(yù)測(cè)需要0.18秒,動(dòng)作塊預(yù)測(cè)需要0.68秒,這種延遲在實(shí)際機(jī)器人控制中是不可接受的。
八、潛在動(dòng)作空間的可視化分析
通過可視化分析,研究團(tuán)隊(duì)驗(yàn)證了潛在動(dòng)作空間確實(shí)學(xué)到了語義一致的動(dòng)作表示。來自不同數(shù)據(jù)源和不同機(jī)器人的圖像對(duì),如果被分配了相同的潛在動(dòng)作標(biāo)簽,確實(shí)展現(xiàn)出了語義上的一致性。比如,標(biāo)記為"抓取物品"的潛在動(dòng)作在Bridge數(shù)據(jù)集、RT-1數(shù)據(jù)集、LIBERO環(huán)境甚至人類視頻中都對(duì)應(yīng)著本質(zhì)相同的抓取動(dòng)作,盡管具體的執(zhí)行細(xì)節(jié)可能不同。
注意力熱圖分析進(jìn)一步揭示了任務(wù)中心潛在動(dòng)作的工作機(jī)制。熱圖顯示,學(xué)到的潛在動(dòng)作主要關(guān)注任務(wù)關(guān)鍵區(qū)域:機(jī)器人的末端執(zhí)行器和被操作的目標(biāo)物體,而忽略無關(guān)的背景區(qū)域。這種空間注意力模式證明了潛在動(dòng)作確實(shí)編碼了任務(wù)中心的空間先驗(yàn)知識(shí),專注于完成任務(wù)所必需的實(shí)體。
跨域遷移能力的可視化展示了UniVLA的一個(gè)重要特性:即使?jié)撛趧?dòng)作模型從未見過LIBERO數(shù)據(jù)集,它也能準(zhǔn)確地為該領(lǐng)域的圖像分配合適的動(dòng)作標(biāo)簽。這種零樣本泛化能力來源于潛在動(dòng)作空間的語義豐富性,它學(xué)會(huì)了動(dòng)作的本質(zhì)特征而非表面的視覺模式。
九、計(jì)算效率與實(shí)際部署考量
UniVLA在計(jì)算效率方面的優(yōu)勢(shì)為實(shí)際部署提供了重要保障。相比傳統(tǒng)方法需要大量標(biāo)注數(shù)據(jù)和長(zhǎng)時(shí)間訓(xùn)練,UniVLA能夠快速適應(yīng)新的機(jī)器人平臺(tái)。僅需訓(xùn)練包含1.26萬參數(shù)的小型解碼器,就能將預(yù)訓(xùn)練的通用策略適配到具體機(jī)器人上。這種輕量級(jí)適配方案大大降低了部署成本和時(shí)間。
LoRA(低秩適應(yīng))技術(shù)的使用進(jìn)一步提高了訓(xùn)練效率。在下游任務(wù)適配中,只有約123萬個(gè)參數(shù)需要更新,這相比完整模型的70億參數(shù)是微不足道的。這種參數(shù)高效的微調(diào)方法讓UniVLA能夠在保持高性能的同時(shí),快速適應(yīng)新的任務(wù)和環(huán)境。
動(dòng)作塊預(yù)測(cè)機(jī)制也體現(xiàn)了系統(tǒng)的實(shí)用性考量。由于潛在動(dòng)作設(shè)計(jì)為表示約一秒鐘的動(dòng)作序列,它們可以自然地解碼為動(dòng)作塊,塊大小可以根據(jù)具體機(jī)器人的控制頻率靈活調(diào)整。這種設(shè)計(jì)既提高了控制的平滑性,又減少了推理頻率要求,使得實(shí)時(shí)控制成為可能。
內(nèi)存使用和存儲(chǔ)需求的優(yōu)化也值得關(guān)注。潛在動(dòng)作的離散化表示大大減少了存儲(chǔ)需求,16個(gè)潛在動(dòng)作令牌相比原始的高維動(dòng)作序列占用更少的存儲(chǔ)空間。這對(duì)于需要存儲(chǔ)大量演示數(shù)據(jù)的實(shí)際應(yīng)用來說是一個(gè)重要優(yōu)勢(shì)。
十、面向未來的擴(kuò)展性與局限性
盡管UniVLA取得了顯著進(jìn)展,但研究團(tuán)隊(duì)也誠(chéng)實(shí)地指出了當(dāng)前方法的局限性。潛在動(dòng)作的固定粒度和預(yù)定義碼本大小可能不是所有任務(wù)或機(jī)器人的最優(yōu)選擇。探索自適應(yīng)機(jī)制來根據(jù)環(huán)境條件動(dòng)態(tài)調(diào)整這些參數(shù),將是未來研究的一個(gè)重要方向。
當(dāng)前的評(píng)估主要集中在單臂操作任務(wù)上,而潛在動(dòng)作令牌表示的動(dòng)作粒度在框架內(nèi)相對(duì)固定。將框架擴(kuò)展到雙臂人形系統(tǒng)或靈巧手操作可能需要更復(fù)雜和細(xì)粒度的動(dòng)作空間建模。這為未來的研究提供了明確的發(fā)展方向。
語言標(biāo)注的粒度要求也是一個(gè)需要考慮的因素。任務(wù)相關(guān)的潛在動(dòng)作設(shè)計(jì)主要編碼對(duì)任務(wù)完成關(guān)鍵的自主體運(yùn)動(dòng),而排除非自主體動(dòng)態(tài)。雖然這種設(shè)計(jì)在大多數(shù)情況下是有效的,但對(duì)于某些需要與環(huán)境動(dòng)態(tài)密切交互的任務(wù),可能需要更靈活的表示方法。
與世界模型的集成為UniVLA開辟了新的可能性。潛在動(dòng)作模型的解碼器本質(zhì)上是一個(gè)世界模型,能夠根據(jù)潛在動(dòng)作預(yù)測(cè)未來觀察。這為強(qiáng)化學(xué)習(xí)中的參考對(duì)齊和通過規(guī)劃樹進(jìn)行測(cè)試時(shí)擴(kuò)展開辟了道路,其中視覺語言模型或啟發(fā)式函數(shù)可以作為獎(jiǎng)勵(lì)模型。
上下文學(xué)習(xí)能力對(duì)于提高視覺語言動(dòng)作模型的性能上限至關(guān)重要??紤]到潛在動(dòng)作模型能夠提取連接人類和機(jī)器人操作的可遷移運(yùn)動(dòng)表示,將人類演示視頻編碼為緊湊潛在動(dòng)作嵌入序列作為上下文樣本的方法值得探索。這種方法可能實(shí)現(xiàn)零樣本技能獲取,無需額外的微調(diào)。
說到底,UniVLA為機(jī)器人學(xué)習(xí)領(lǐng)域帶來了一種全新的思路。它不再執(zhí)著于讓每個(gè)機(jī)器人從零開始學(xué)習(xí),而是建立了一個(gè)通用的"技能理解"框架,讓不同的機(jī)器人都能共享和遷移已學(xué)到的能力。這就像是為機(jī)器人世界建立了一個(gè)通用的"技能圖書館",每個(gè)新的機(jī)器人都可以從中借閱和學(xué)習(xí)。
更重要的是,這項(xiàng)研究展示了如何有效利用網(wǎng)絡(luò)上豐富的視頻資源來訓(xùn)練機(jī)器人。不再需要昂貴的人工標(biāo)注過程,也不再受限于特定機(jī)器人平臺(tái)的數(shù)據(jù)稀缺問題。隨著視頻數(shù)據(jù)的不斷增長(zhǎng)和計(jì)算能力的提升,我們有理由相信,未來的機(jī)器人將能夠更快、更便宜地學(xué)會(huì)復(fù)雜的技能,最終走進(jìn)千家萬戶,成為真正有用的智能助手。
當(dāng)然,從實(shí)驗(yàn)室到實(shí)際應(yīng)用還有很長(zhǎng)的路要走,但UniVLA已經(jīng)為我們展示了一個(gè)充滿希望的方向。也許在不久的將來,當(dāng)你的家用機(jī)器人輕松地從網(wǎng)絡(luò)視頻中學(xué)會(huì)新技能時(shí),你會(huì)想起今天這項(xiàng)來自香港大學(xué)的開創(chuàng)性研究。如果你對(duì)這項(xiàng)研究的技術(shù)細(xì)節(jié)感興趣,可以訪問他們的GitHub代碼庫或查閱完整論文來深入了解。
Q&A
Q1:UniVLA是什么?它能做什么? A:UniVLA是由香港大學(xué)開發(fā)的通用機(jī)器人學(xué)習(xí)框架,它的核心能力是讓不同類型的機(jī)器人都能共享和遷移技能。通過創(chuàng)建"任務(wù)中心潛在動(dòng)作"這種通用語言,任何機(jī)器人都能從網(wǎng)絡(luò)視頻中學(xué)習(xí),而不需要昂貴的人工標(biāo)注數(shù)據(jù)。
Q2:UniVLA會(huì)不會(huì)取代現(xiàn)有的機(jī)器人訓(xùn)練方法? A:不會(huì)完全取代,但會(huì)大大改變機(jī)器人訓(xùn)練方式。UniVLA主要解決的是跨機(jī)器人技能遷移和數(shù)據(jù)稀缺問題,它能讓機(jī)器人訓(xùn)練變得更高效、更經(jīng)濟(jì),但仍需要與現(xiàn)有方法結(jié)合使用,特別是在具體任務(wù)的精細(xì)調(diào)優(yōu)方面。
Q3:普通人能使用UniVLA技術(shù)嗎?有什么要求? A:目前UniVLA主要面向研究人員和機(jī)器人開發(fā)者,代碼已在GitHub開源。普通消費(fèi)者還無法直接使用,但這項(xiàng)技術(shù)為未來家用機(jī)器人的普及奠定了基礎(chǔ),有望讓機(jī)器人更快學(xué)會(huì)家務(wù)技能并降低成本。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對(duì)話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。