這項(xiàng)由艾倫人工智能研究院和華盛頓大學(xué)聯(lián)合完成的突破性研究發(fā)表于2025年8月,團(tuán)隊(duì)由Jason Lee、Jiafei Duan、Haoquan Fang等研究者領(lǐng)導(dǎo)。有興趣深入了解的讀者可以通過(guò)arXiv:2508.07917訪問(wèn)完整論文。研究團(tuán)隊(duì)開(kāi)發(fā)出了名為MolmoAct的機(jī)器人控制模型,這是首個(gè)能夠在空間中進(jìn)行推理的開(kāi)源機(jī)器人行動(dòng)模型。
以往的機(jī)器人就像一個(gè)只會(huì)照搬菜譜的廚師——看到食材(圖像)和菜單(指令)后,直接按照固定程序開(kāi)始切菜炒菜,完全不考慮鍋的大小、火候的調(diào)節(jié),或者食材的實(shí)際狀態(tài)。這種"死記硬背"的方式讓機(jī)器人在面對(duì)新環(huán)境時(shí)經(jīng)常手忙腳亂,就像讓習(xí)慣了電磁爐的廚師突然去使用燃?xì)庠钜粯印?/p>
然而,MolmoAct就像培養(yǎng)了一位真正會(huì)思考的廚師。當(dāng)它看到一個(gè)新廚房時(shí),會(huì)先觀察環(huán)境的空間布局(深度感知),然后在腦中規(guī)劃整個(gè)烹飪路線(視覺(jué)軌跡規(guī)劃),最后才開(kāi)始精確地執(zhí)行每一個(gè)動(dòng)作。這種"先想后做"的方式讓機(jī)器人不僅能夠完成任務(wù),還能解釋自己為什么這樣做,甚至允許人類在執(zhí)行過(guò)程中進(jìn)行調(diào)整。
更令人興奮的是,研究團(tuán)隊(duì)還公開(kāi)了包含超過(guò)1萬(wàn)個(gè)高質(zhì)量機(jī)器人操作軌跡的數(shù)據(jù)集,涵蓋了從家庭清潔到餐具整理的各種日常任務(wù)。在標(biāo)準(zhǔn)測(cè)試中,MolmoAct在多個(gè)評(píng)估基準(zhǔn)上都表現(xiàn)出色,特別是在需要長(zhǎng)期規(guī)劃的復(fù)雜任務(wù)中,它的成功率比現(xiàn)有最好的模型提高了6.3%。在真實(shí)世界的測(cè)試中,無(wú)論是單臂還是雙臂機(jī)器人操作,MolmoAct都顯著超越了當(dāng)前最先進(jìn)的系統(tǒng)。
一、機(jī)器人學(xué)會(huì)了"三步思考法"
傳統(tǒng)的機(jī)器人控制就像讓一個(gè)人蒙著眼睛按照別人的口令做手工——雖然能勉強(qiáng)完成任務(wù),但效果往往差強(qiáng)人意,遇到意外情況就完全束手無(wú)策。MolmoAct徹底改變了這種局面,它教會(huì)機(jī)器人用一套"三步思考法"來(lái)處理任務(wù)。
第一步是"看懂空間"。當(dāng)人類要拿起桌上的水杯時(shí),我們會(huì)自動(dòng)判斷水杯的位置、距離和周圍障礙物的布局。但對(duì)機(jī)器人來(lái)說(shuō),攝像頭拍攝的圖像只是一張平面照片,它需要額外的能力來(lái)理解物體在三維空間中的真實(shí)位置關(guān)系。MolmoAct通過(guò)深度感知令牌(Depth Perception Tokens)解決了這個(gè)問(wèn)題。研究團(tuán)隊(duì)訓(xùn)練了一個(gè)專門的深度估計(jì)器,能夠?qū)⑵胀ǖ牟噬珗D像轉(zhuǎn)換成包含距離信息的"立體地圖"。這就像給機(jī)器人安裝了一雙能夠準(zhǔn)確判斷距離的眼睛,讓它知道哪些物體靠得近,哪些離得遠(yuǎn),以及如何在三維空間中安全地移動(dòng)。
第二步是"規(guī)劃路徑"。有了空間理解能力后,機(jī)器人需要在腦中繪制一條從當(dāng)前位置到目標(biāo)位置的最佳路線。這就像我們?cè)趽頂D的超市里拿東西時(shí),會(huì)下意識(shí)地規(guī)劃一條避開(kāi)其他顧客和貨架的路徑。MolmoAct使用視覺(jué)推理軌跡令牌(Visual Reasoning Trace Tokens)來(lái)實(shí)現(xiàn)這種規(guī)劃能力。它會(huì)在圖像上生成一條虛擬的軌跡線,顯示機(jī)器人的末端執(zhí)行器(比如機(jī)械手)應(yīng)該如何移動(dòng)。這條軌跡線不是抽象的數(shù)學(xué)公式,而是可以直接在攝像頭畫面上看到的可視化路徑,就像GPS導(dǎo)航在地圖上顯示的行車路線一樣直觀明了。
第三步才是"精確執(zhí)行"。有了空間理解和路徑規(guī)劃作為基礎(chǔ),機(jī)器人最終生成具體的控制指令。這些指令告訴機(jī)器人的關(guān)節(jié)和執(zhí)行器如何精確地移動(dòng),以沿著預(yù)定軌跡完成任務(wù)。整個(gè)過(guò)程就像一個(gè)經(jīng)驗(yàn)豐富的外科醫(yī)生進(jìn)行手術(shù)——先仔細(xì)觀察患者的解剖結(jié)構(gòu),然后在心中規(guī)劃手術(shù)路徑,最后才開(kāi)始精確的操作。
這種三步思考法的最大優(yōu)勢(shì)是它的可解釋性。傳統(tǒng)的機(jī)器人系統(tǒng)就像一個(gè)黑盒子,我們只能看到輸入(圖像和指令)和輸出(機(jī)器人動(dòng)作),卻無(wú)法知道它為什么要這樣做。而MolmoAct的每一個(gè)思考步驟都是透明的——我們可以看到它對(duì)空間的理解(通過(guò)深度圖),可以看到它規(guī)劃的路徑(通過(guò)軌跡線),最后才看到它的具體動(dòng)作。這種透明度不僅有助于調(diào)試和改進(jìn)系統(tǒng),還讓人類操作員能夠更好地理解和信任機(jī)器人的決策。
更重要的是,這種分步驟的思考方式讓機(jī)器人能夠處理更復(fù)雜的任務(wù)。當(dāng)面對(duì)一個(gè)需要多個(gè)步驟才能完成的復(fù)雜任務(wù)時(shí),傳統(tǒng)機(jī)器人往往會(huì)在中途"迷路",因?yàn)樗鼈儫o(wú)法維持對(duì)整體目標(biāo)的理解。而MolmoAct可以在每個(gè)步驟中重新評(píng)估空間狀況,調(diào)整路徑規(guī)劃,確保始終朝著正確的方向前進(jìn)。這就像一個(gè)善于導(dǎo)航的司機(jī),即使遇到臨時(shí)的道路施工,也能夠快速找到替代路線,而不會(huì)完全迷失方向。
二、讓機(jī)器人擁有"立體視覺(jué)"的深度感知系統(tǒng)
當(dāng)我們伸手去拿桌上的咖啡杯時(shí),大腦會(huì)自動(dòng)計(jì)算出杯子距離我們有多遠(yuǎn),需要伸出手臂多長(zhǎng)的距離,以及如何避開(kāi)旁邊的鍵盤和筆記本。這種對(duì)三維空間的直覺(jué)理解對(duì)人類來(lái)說(shuō)是如此自然,以至于我們很少意識(shí)到這其實(shí)是一個(gè)相當(dāng)復(fù)雜的計(jì)算過(guò)程。然而對(duì)機(jī)器人來(lái)說(shuō),這卻是一個(gè)巨大的挑戰(zhàn)。
普通的攝像頭就像一個(gè)只會(huì)畫素描的藝術(shù)家,它只能捕捉到物體的輪廓、顏色和紋理,卻無(wú)法直接告訴我們物體在三維空間中的確切位置。這就好比讓一個(gè)從未見(jiàn)過(guò)真實(shí)世界的人僅通過(guò)看照片來(lái)指導(dǎo)別人搬家——他們可能知道沙發(fā)是棕色的,茶幾是圓形的,但卻無(wú)法準(zhǔn)確判斷沙發(fā)和茶幾之間的距離,或者門口是否足夠?qū)挸ㄗ屔嘲l(fā)通過(guò)。
為了解決這個(gè)問(wèn)題,MolmoAct的研究團(tuán)隊(duì)開(kāi)發(fā)了一套精巧的深度感知系統(tǒng)。這個(gè)系統(tǒng)的核心是一個(gè)叫做VQVAE的深度編碼器,它的工作原理有點(diǎn)像那些能夠通過(guò)觸摸就能"看見(jiàn)"物體形狀的盲人藝術(shù)家。系統(tǒng)首先使用一個(gè)名為DepthAnything V2的專業(yè)深度估計(jì)工具,對(duì)1000萬(wàn)張機(jī)器人操作的圖像進(jìn)行分析,為每張圖像生成對(duì)應(yīng)的深度圖。這些深度圖就像地形圖一樣,用不同的灰度值表示不同的距離——越亮的區(qū)域表示物體離攝像頭越近,越暗的區(qū)域表示物體越遠(yuǎn)。
接下來(lái),系統(tǒng)需要將這些連續(xù)變化的深度信息轉(zhuǎn)換成機(jī)器人能夠理解的"數(shù)字語(yǔ)言"。研究團(tuán)隊(duì)使用了一種叫做向量量化的技術(shù),簡(jiǎn)單來(lái)說(shuō)就是將無(wú)限多種可能的深度值歸納成128個(gè)標(biāo)準(zhǔn)的"深度類別"。這就像把一幅有著無(wú)數(shù)色彩層次的油畫轉(zhuǎn)換成只使用128種顏色的馬賽克畫——雖然細(xì)節(jié)有所簡(jiǎn)化,但主要的空間關(guān)系依然清晰可見(jiàn)。
這種轉(zhuǎn)換的妙處在于,每個(gè)深度類別都對(duì)應(yīng)一個(gè)特定的"深度令牌",比如<DEPTH_1>表示最近的物體,<DEPTH_128>表示最遠(yuǎn)的物體。當(dāng)機(jī)器人看到一個(gè)場(chǎng)景時(shí),系統(tǒng)會(huì)自動(dòng)生成一串這樣的令牌序列,比如"<DEPTH_START> <DEPTH_15> <DEPTH_23> <DEPTH_8> ... <DEPTH_END>"。這串看似抽象的符號(hào)其實(shí)編碼了整個(gè)場(chǎng)景的三維結(jié)構(gòu)信息,就像用摩爾斯電碼傳輸復(fù)雜信息一樣。
為了確保這種編碼的準(zhǔn)確性,研究團(tuán)隊(duì)在訓(xùn)練過(guò)程中讓系統(tǒng)反復(fù)練習(xí)"重建"深度圖。就像讓一個(gè)學(xué)生看著一幅畫臨摹,然后根據(jù)臨摹的結(jié)果反推原畫的樣子。通過(guò)這種反復(fù)練習(xí),系統(tǒng)逐漸學(xué)會(huì)了如何用最少的令牌準(zhǔn)確地表達(dá)最復(fù)雜的空間信息。經(jīng)過(guò)20個(gè)訓(xùn)練周期后,系統(tǒng)已經(jīng)能夠僅用100個(gè)深度令牌就準(zhǔn)確地描述一個(gè)完整場(chǎng)景的三維結(jié)構(gòu)。
這種深度感知系統(tǒng)的實(shí)際效果令人印象深刻。在實(shí)際測(cè)試中,配備了深度感知能力的MolmoAct在需要精確空間判斷的任務(wù)上表現(xiàn)顯著改善。比如在"把盤子放進(jìn)洗碗機(jī)"的任務(wù)中,傳統(tǒng)的機(jī)器人可能會(huì)因?yàn)闊o(wú)法準(zhǔn)確判斷洗碗機(jī)內(nèi)部的空間深度而將盤子放在錯(cuò)誤的位置,或者與洗碗機(jī)的架子發(fā)生碰撞。而MolmoAct能夠準(zhǔn)確地理解洗碗機(jī)內(nèi)部的三維結(jié)構(gòu),將盤子精確地放置在合適的位置上。
更重要的是,這種深度感知能力是可以"遷移"的。一旦系統(tǒng)在廚房環(huán)境中學(xué)會(huì)了空間理解,它就能夠?qū)⑦@種能力應(yīng)用到其他環(huán)境中,比如客廳、臥室或辦公室。這就像一個(gè)人學(xué)會(huì)了在黑暗中通過(guò)觸覺(jué)導(dǎo)航后,無(wú)論走到哪個(gè)房間都能運(yùn)用這種技能一樣。
三、會(huì)畫"行動(dòng)路線圖"的視覺(jué)推理系統(tǒng)
如果說(shuō)深度感知讓機(jī)器人有了"立體眼睛",那么視覺(jué)推理系統(tǒng)就是給機(jī)器人安裝了一個(gè)"GPS導(dǎo)航大腦"。當(dāng)我們要從家里的沙發(fā)走到廚房拿水時(shí),大腦會(huì)自動(dòng)規(guī)劃一條最優(yōu)路線——繞過(guò)茶幾,避開(kāi)地上的拖鞋,穿過(guò)客廳和餐廳,最后到達(dá)廚房的冰箱。這個(gè)過(guò)程對(duì)人類來(lái)說(shuō)輕而易舉,但讓機(jī)器人學(xué)會(huì)這種空間推理卻需要巧妙的設(shè)計(jì)。
MolmoAct的視覺(jué)推理系統(tǒng)采用了一種極其直觀的方法——直接在攝像頭畫面上畫出機(jī)器人應(yīng)該遵循的移動(dòng)軌跡。這就像在手機(jī)地圖上顯示導(dǎo)航路線一樣,用一條清晰的線條告訴機(jī)器人"從這里走到那里"。但與簡(jiǎn)單的直線不同,這條軌跡線充分考慮了現(xiàn)實(shí)世界的復(fù)雜性——它會(huì)繞過(guò)障礙物,選擇最安全的路徑,并且確保機(jī)器人的機(jī)械臂在整個(gè)移動(dòng)過(guò)程中都處于合理的工作姿態(tài)。
這個(gè)系統(tǒng)的工作原理相當(dāng)巧妙。研究團(tuán)隊(duì)沒(méi)有讓機(jī)器人從零開(kāi)始學(xué)習(xí)如何規(guī)劃路徑,而是采用了"師傅帶徒弟"的方式。他們使用了一個(gè)名為Molmo的視覺(jué)語(yǔ)言模型作為"導(dǎo)師",這個(gè)模型已經(jīng)在大量的2D指向任務(wù)上接受過(guò)訓(xùn)練,具備了出色的視覺(jué)理解和空間定位能力。
具體的訓(xùn)練過(guò)程是這樣的:對(duì)于機(jī)器人操作數(shù)據(jù)集中的每一個(gè)動(dòng)作序列,系統(tǒng)會(huì)逐幀分析機(jī)器人末端執(zhí)行器(比如機(jī)械手)在圖像中的位置。就像追蹤一個(gè)在紙上移動(dòng)的鉛筆尖一樣,系統(tǒng)記錄下這個(gè)執(zhí)行器從任務(wù)開(kāi)始到結(jié)束的完整軌跡。然后,它會(huì)用Molmo模型來(lái)驗(yàn)證和優(yōu)化這些軌跡點(diǎn)的準(zhǔn)確性。比如,當(dāng)系統(tǒng)需要定位機(jī)械手的位置時(shí),會(huì)向Molmo提出類似"指出機(jī)器人夾爪的位置"這樣的問(wèn)題,Molmo會(huì)返回一個(gè)精確的2D坐標(biāo)。
軌跡的表示方式也經(jīng)過(guò)了精心設(shè)計(jì)。每條軌跡由1到5個(gè)關(guān)鍵點(diǎn)組成,這些點(diǎn)在圖像平面上形成一條折線路徑。第一個(gè)點(diǎn)總是當(dāng)前機(jī)械手的位置,最后一個(gè)點(diǎn)是任務(wù)完成時(shí)機(jī)械手應(yīng)該到達(dá)的目標(biāo)位置,中間的點(diǎn)則是經(jīng)過(guò)精心選擇的關(guān)鍵路徑節(jié)點(diǎn)。這種設(shè)計(jì)既保持了路徑規(guī)劃的精確性,又避免了過(guò)度復(fù)雜化——就像高速公路上的路標(biāo),不需要標(biāo)記每一米的位置,只需要標(biāo)出重要的路口和轉(zhuǎn)彎點(diǎn)。
為了確保軌跡的準(zhǔn)確性和實(shí)用性,系統(tǒng)在生成軌跡時(shí)會(huì)考慮多個(gè)因素。首先是安全性——軌跡必須避開(kāi)已知的障礙物和危險(xiǎn)區(qū)域。其次是效率性——在保證安全的前提下,軌跡應(yīng)該盡可能短和平滑。最后是可執(zhí)行性——軌跡上的每個(gè)點(diǎn)都必須是機(jī)器人實(shí)際能夠到達(dá)的位置,考慮到機(jī)械臂的關(guān)節(jié)限制和工作空間。
這種視覺(jué)軌跡規(guī)劃的一個(gè)重要優(yōu)勢(shì)是它的"可編輯性"。與傳統(tǒng)的數(shù)學(xué)路徑規(guī)劃不同,這些可視化的軌跡線可以像編輯畫圖軟件中的線條一樣進(jìn)行修改。如果人類操作員發(fā)現(xiàn)機(jī)器人規(guī)劃的路徑存在問(wèn)題,可以直接在屏幕上拖拽和調(diào)整軌跡點(diǎn),系統(tǒng)會(huì)自動(dòng)根據(jù)修改后的軌跡重新生成控制指令。這種交互方式極大地降低了人機(jī)協(xié)作的門檻,即使沒(méi)有機(jī)器人專業(yè)背景的用戶也能夠直觀地指導(dǎo)機(jī)器人的行為。
在實(shí)際應(yīng)用中,這種視覺(jué)推理系統(tǒng)展現(xiàn)出了令人印象深刻的適應(yīng)性。比如在"整理餐桌"的任務(wù)中,系統(tǒng)能夠自動(dòng)規(guī)劃一條合理的路徑,讓機(jī)器人依次拿起盤子、杯子和餐具,而不會(huì)因?yàn)槁窂經(jīng)_突導(dǎo)致物品相撞。更令人驚喜的是,當(dāng)環(huán)境發(fā)生變化時(shí)——比如有人在機(jī)器人工作時(shí)移動(dòng)了某個(gè)物品——系統(tǒng)能夠在下一個(gè)時(shí)間步重新規(guī)劃軌跡,動(dòng)態(tài)地適應(yīng)新的情況。
四、從"笨拙模仿"到"智能創(chuàng)造"的訓(xùn)練過(guò)程
機(jī)器人學(xué)習(xí)就像教一個(gè)從未見(jiàn)過(guò)廚房的人做菜。傳統(tǒng)的方法是讓他們死記硬背菜譜——看到西紅柿就切片,看到雞蛋就打散,完全不理解為什么要這樣做。這種方法的問(wèn)題是,一旦遇到菜譜上沒(méi)有的情況,比如西紅柿特別大或者雞蛋有點(diǎn)小,這個(gè)人就完全不知所措了。MolmoAct采用了一種全新的教學(xué)方法,不僅教機(jī)器人"怎么做",更重要的是教它"為什么這樣做"。
整個(gè)訓(xùn)練過(guò)程分為三個(gè)階段,就像培養(yǎng)一名專業(yè)廚師的完整教育體系。第一階段是"基礎(chǔ)理論學(xué)習(xí)",相當(dāng)于讓學(xué)生在烹飪學(xué)校學(xué)習(xí)食材特性、營(yíng)養(yǎng)搭配和基本刀工。在這個(gè)階段,MolmoAct需要掌握大量的基礎(chǔ)知識(shí),包括如何理解圖像、如何解析語(yǔ)言指令、如何進(jìn)行空間推理等等。研究團(tuán)隊(duì)使用了一個(gè)包含2630萬(wàn)個(gè)樣本的大型數(shù)據(jù)集來(lái)訓(xùn)練模型,這個(gè)數(shù)據(jù)集就像一本包含了成千上萬(wàn)道菜譜的烹飪百科全書。
數(shù)據(jù)集的構(gòu)成經(jīng)過(guò)了精心設(shè)計(jì)。其中40%是行動(dòng)推理數(shù)據(jù),這些數(shù)據(jù)教會(huì)機(jī)器人如何將觀察、規(guī)劃和執(zhí)行三個(gè)步驟有機(jī)地結(jié)合起來(lái)。另外38.7%是軌跡條件化數(shù)據(jù),專門訓(xùn)練機(jī)器人如何根據(jù)給定的路徑進(jìn)行精確操作。還有21.5%是多模態(tài)網(wǎng)絡(luò)數(shù)據(jù),幫助機(jī)器人建立對(duì)世界的常識(shí)性理解。剩余的小部分是專門的輔助數(shù)據(jù),用于強(qiáng)化深度感知和軌跡規(guī)劃等特定能力。
訓(xùn)練過(guò)程采用了一種叫做"師生互教"的策略。系統(tǒng)不是簡(jiǎn)單地模仿人類演示,而是學(xué)會(huì)了如何進(jìn)行自我反思和改進(jìn)。比如,當(dāng)系統(tǒng)嘗試完成"把杯子放到架子上"這個(gè)任務(wù)時(shí),它首先會(huì)生成一個(gè)深度感知序列,分析杯子和架子的空間關(guān)系。然后生成一條從杯子當(dāng)前位置到架子的軌跡線。最后才生成具體的機(jī)械臂控制指令。在這個(gè)過(guò)程中,每一步的輸出都會(huì)成為下一步的輸入,形成一個(gè)完整的推理鏈條。
第二階段是"專業(yè)技能精修",相當(dāng)于讓廚師到真正的餐廳里實(shí)習(xí),學(xué)習(xí)如何處理各種實(shí)際情況。在這個(gè)階段,研究團(tuán)隊(duì)使用了他們精心收集的MolmoAct數(shù)據(jù)集,這個(gè)數(shù)據(jù)集包含了超過(guò)1萬(wàn)個(gè)高質(zhì)量的機(jī)器人操作軌跡,涵蓋了93種不同的家庭任務(wù)。這些數(shù)據(jù)不是在實(shí)驗(yàn)室的理想條件下收集的,而是在真實(shí)的家庭和辦公環(huán)境中,由專業(yè)操作員通過(guò)遠(yuǎn)程遙控機(jī)器人完成的。
這個(gè)數(shù)據(jù)集的收集過(guò)程本身就是一個(gè)工程奇跡。研究團(tuán)隊(duì)花了兩個(gè)月時(shí)間,動(dòng)用了5名全職操作員,在不同的房間和環(huán)境中收集數(shù)據(jù)。他們將一臺(tái)弗蘭卡機(jī)械臂安裝在一個(gè)移動(dòng)平臺(tái)上,讓它能夠在客廳、廚房、臥室和浴室之間自由移動(dòng)。每個(gè)任務(wù)都被精心分解成多個(gè)子任務(wù),比如"清理餐具"被分解成"把碗放進(jìn)洗碗機(jī)"、"把叉子放進(jìn)水槽"、"蓋上鍋蓋"等等。
數(shù)據(jù)集中的任務(wù)覆蓋了日常生活的方方面面。從簡(jiǎn)單的物品搬運(yùn),到復(fù)雜的多步驟操作,從單手任務(wù)到雙手協(xié)調(diào),從剛性物體到柔性材料的處理。每個(gè)軌跡平均包含112個(gè)時(shí)間步,記錄了機(jī)器人從接收指令到完成任務(wù)的完整過(guò)程。更重要的是,每個(gè)軌跡都包含了完整的推理信息——深度感知令牌、視覺(jué)軌跡和動(dòng)作指令,讓機(jī)器人能夠?qū)W習(xí)到完整的"思考-規(guī)劃-執(zhí)行"過(guò)程。
第三階段是"實(shí)戰(zhàn)適應(yīng)",相當(dāng)于讓廚師根據(jù)不同餐廳的特色菜單和客戶需求進(jìn)行個(gè)性化調(diào)整。在這個(gè)階段,MolmoAct會(huì)根據(jù)具體的應(yīng)用場(chǎng)景進(jìn)行微調(diào)。比如,如果要在一個(gè)新的廚房環(huán)境中工作,系統(tǒng)只需要30到50個(gè)演示樣本就能快速適應(yīng)新環(huán)境的特點(diǎn)。這種快速適應(yīng)能力是通過(guò)一種叫做LoRA(低秩適應(yīng))的技術(shù)實(shí)現(xiàn)的,它允許在不改變核心知識(shí)的前提下,調(diào)整模型對(duì)特定環(huán)境和任務(wù)的理解。
整個(gè)訓(xùn)練過(guò)程的一個(gè)關(guān)鍵創(chuàng)新是動(dòng)作分塊技術(shù)。傳統(tǒng)的機(jī)器人訓(xùn)練通常是一步一步地學(xué)習(xí),就像讓人一個(gè)字一個(gè)字地學(xué)習(xí)寫作。而MolmoAct采用了"句子級(jí)"的學(xué)習(xí)方法,一次性學(xué)習(xí)8個(gè)連續(xù)的動(dòng)作步驟。這種方法讓機(jī)器人能夠更好地理解動(dòng)作之間的關(guān)聯(lián)性和連續(xù)性,避免了"走一步看一步"導(dǎo)致的不連貫問(wèn)題。
五、讓機(jī)器人成為"可調(diào)教"的智能助手
傳統(tǒng)的機(jī)器人就像一臺(tái)只能按照固定程序運(yùn)行的洗衣機(jī)——一旦程序啟動(dòng),你只能等它完成,中途無(wú)法進(jìn)行任何調(diào)整。但MolmoAct徹底改變了這種局面,它讓機(jī)器人變成了一個(gè)可以隨時(shí)"調(diào)教"和指導(dǎo)的智能助手,就像與一位善解人意的搭檔進(jìn)行協(xié)作一樣。
這種"可調(diào)教性"的核心在于MolmoAct獨(dú)特的視覺(jué)軌跡接口。與傳統(tǒng)的語(yǔ)言指令不同,用戶可以直接在機(jī)器人的攝像頭畫面上繪制軌跡線,告訴機(jī)器人應(yīng)該如何移動(dòng)。這就像用手指在地圖上畫出行車路線一樣直觀簡(jiǎn)單。當(dāng)用戶看到機(jī)器人正準(zhǔn)備拿起桌上的紅色杯子,但自己實(shí)際需要的是藍(lán)色杯子時(shí),只需要在屏幕上畫出一條從機(jī)械手當(dāng)前位置到藍(lán)色杯子的軌跡線,機(jī)器人就會(huì)立即調(diào)整自己的行為,轉(zhuǎn)向正確的目標(biāo)。
這種交互方式的優(yōu)勢(shì)遠(yuǎn)不止方便這么簡(jiǎn)單。語(yǔ)言指令往往存在歧義性問(wèn)題——當(dāng)你說(shuō)"拿那個(gè)杯子"時(shí),機(jī)器人可能無(wú)法確定你指的是哪個(gè)杯子,特別是當(dāng)桌上有多個(gè)相似杯子的時(shí)候。而視覺(jué)軌跡是完全明確的,它精確地指出了起點(diǎn)、路徑和終點(diǎn),不存在任何解釋上的模糊性。這就像用激光筆指示目標(biāo)比用語(yǔ)言描述位置要準(zhǔn)確得多。
研究團(tuán)隊(duì)通過(guò)巧妙的訓(xùn)練策略讓MolmoAct學(xué)會(huì)了理解和執(zhí)行這些視覺(jué)指令。在訓(xùn)練過(guò)程中,系統(tǒng)學(xué)習(xí)了如何將手繪軌跡與相應(yīng)的機(jī)器人動(dòng)作序列進(jìn)行匹配。這個(gè)過(guò)程就像教一個(gè)司機(jī)根據(jù)乘客在地圖上畫的路線來(lái)駕駛汽車。起初,司機(jī)可能無(wú)法準(zhǔn)確理解手繪路線的含義,但經(jīng)過(guò)大量練習(xí)后,就能夠流暢地將任意手繪路線轉(zhuǎn)換成具體的駕駛動(dòng)作。
實(shí)驗(yàn)結(jié)果證明了這種視覺(jué)調(diào)教方式的有效性。在"拿起碗"的任務(wù)測(cè)試中,當(dāng)機(jī)器人最初選擇了錯(cuò)誤的目標(biāo)時(shí),通過(guò)視覺(jué)軌跡調(diào)教能夠達(dá)到75%的成功糾正率。相比之下,使用語(yǔ)言指令進(jìn)行糾正的成功率只有42%,兩者相差33個(gè)百分點(diǎn)。這種差異的原因很容易理解——視覺(jué)軌跡消除了語(yǔ)言的歧義性,讓機(jī)器人能夠準(zhǔn)確理解人類的真實(shí)意圖。
更令人印象深刻的是,這種調(diào)教不僅適用于簡(jiǎn)單的軌跡修正,還能處理復(fù)雜的多步驟任務(wù)調(diào)整。比如在"整理桌面"的任務(wù)中,如果用戶發(fā)現(xiàn)機(jī)器人的整理順序不符合自己的習(xí)慣,可以通過(guò)繪制新的軌跡來(lái)重新安排任務(wù)的執(zhí)行順序。機(jī)器人會(huì)立即理解這些修改,并相應(yīng)地調(diào)整自己的行為策略。
這種人機(jī)協(xié)作模式在實(shí)際應(yīng)用中展現(xiàn)出了巨大的潛力。在家庭環(huán)境中,不同的用戶可能對(duì)同一個(gè)任務(wù)有不同的偏好。比如,有些人喜歡把盤子按大小排列,有些人喜歡按顏色分類。傳統(tǒng)的機(jī)器人需要為每種偏好編程不同的行為模式,而MolmoAct可以通過(guò)實(shí)時(shí)的視覺(jué)調(diào)教來(lái)適應(yīng)個(gè)人偏好,就像一個(gè)經(jīng)驗(yàn)豐富的家政服務(wù)員能夠根據(jù)主人的習(xí)慣調(diào)整工作方式一樣。
研究團(tuán)隊(duì)還發(fā)現(xiàn),這種視覺(jué)調(diào)教方式特別適合處理動(dòng)態(tài)環(huán)境中的突發(fā)情況。當(dāng)環(huán)境中出現(xiàn)預(yù)期外的變化時(shí)——比如有人在機(jī)器人工作時(shí)移動(dòng)了某個(gè)物品——用戶可以快速繪制新的軌跡來(lái)幫助機(jī)器人適應(yīng)變化,而不需要停止任務(wù)重新規(guī)劃整個(gè)流程。這種靈活性使得MolmoAct在真實(shí)世界的復(fù)雜環(huán)境中表現(xiàn)得更加穩(wěn)定和可靠。
六、在真實(shí)世界中的卓越表現(xiàn)
當(dāng)機(jī)器人從實(shí)驗(yàn)室走向真實(shí)世界時(shí),往往會(huì)遇到"水土不服"的問(wèn)題——在實(shí)驗(yàn)室里表現(xiàn)完美的系統(tǒng),到了真實(shí)環(huán)境中卻頻頻出錯(cuò)。這就像一個(gè)只在駕校練習(xí)的新手司機(jī)突然要在繁忙的城市道路上開(kāi)車一樣。但MolmoAct在各種真實(shí)世界測(cè)試中都展現(xiàn)出了令人印象深刻的適應(yīng)能力和優(yōu)越性能。
在SimplerEnv基準(zhǔn)測(cè)試中,MolmoAct展現(xiàn)了強(qiáng)大的零樣本學(xué)習(xí)能力。零樣本學(xué)習(xí)聽(tīng)起來(lái)很抽象,其實(shí)就是指機(jī)器人在沒(méi)有針對(duì)特定任務(wù)進(jìn)行專門訓(xùn)練的情況下,僅憑已有知識(shí)完成新任務(wù)的能力。這就像讓一個(gè)會(huì)做中餐的廚師去做法式料理——雖然具體菜式不同,但基本的烹飪技巧和對(duì)食材的理解是可以遷移的。在視覺(jué)匹配任務(wù)上,MolmoAct達(dá)到了70.5%的準(zhǔn)確率,超越了包括GR00T N1、π0等在內(nèi)的多個(gè)知名系統(tǒng)。更重要的是,這個(gè)成績(jī)是在沒(méi)有任何針對(duì)性訓(xùn)練的情況下取得的,充分說(shuō)明了系統(tǒng)的泛化能力。
LIBERO仿真環(huán)境的測(cè)試更是證明了MolmoAct在復(fù)雜任務(wù)上的優(yōu)勢(shì)。LIBERO是一個(gè)專門設(shè)計(jì)用來(lái)測(cè)試機(jī)器人學(xué)習(xí)能力的標(biāo)準(zhǔn)化平臺(tái),它包含了四個(gè)不同的測(cè)試維度:空間推理、物體變化、目標(biāo)抽象和長(zhǎng)期規(guī)劃。這四個(gè)維度分別考驗(yàn)機(jī)器人的不同能力——就像考試中的數(shù)學(xué)、語(yǔ)文、英語(yǔ)和科學(xué)科目一樣。MolmoAct在所有四個(gè)維度上都表現(xiàn)出色,總體平均成功率達(dá)到86.6%,在所有對(duì)比系統(tǒng)中排名第一。
特別值得注意的是MolmoAct在長(zhǎng)期規(guī)劃任務(wù)上的表現(xiàn)。長(zhǎng)期規(guī)劃任務(wù)需要機(jī)器人完成一系列相互關(guān)聯(lián)的步驟,每個(gè)步驟的成功都依賴于前面步驟的正確執(zhí)行。這就像做一道復(fù)雜的菜,需要先準(zhǔn)備食材,再調(diào)制醬料,然后按正確的順序烹飪,最后擺盤裝飾。在這類任務(wù)上,MolmoAct比第二名的ThinkAct系統(tǒng)高出6.3個(gè)百分點(diǎn),這個(gè)差距看似不大,但在機(jī)器人領(lǐng)域已經(jīng)是相當(dāng)顯著的改進(jìn)了。
真實(shí)世界的測(cè)試更加嚴(yán)苛,因?yàn)樗婕暗秸嬲奈锢斫换ズ筒豢深A(yù)測(cè)的環(huán)境變化。研究團(tuán)隊(duì)設(shè)計(jì)了六個(gè)不同的真實(shí)世界任務(wù),分別在單臂和雙臂機(jī)器人上進(jìn)行測(cè)試。單臂任務(wù)包括"把碗放進(jìn)水槽"、"擦拭桌面"和"收拾餐具"。雙臂任務(wù)則更加復(fù)雜,包括"擺放餐具"、"搬運(yùn)箱子"和"折疊毛巾"。
在單臂任務(wù)中,MolmoAct的平均任務(wù)完成度比π0-FAST系統(tǒng)高出10個(gè)百分點(diǎn)。這個(gè)改進(jìn)可能聽(tīng)起來(lái)不太起眼,但在實(shí)際應(yīng)用中意味著巨大的差別。比如在"擦拭桌面"任務(wù)中,π0-FAST可能只能清潔70%的桌面區(qū)域,而MolmoAct能夠清潔80%的區(qū)域。對(duì)于用戶來(lái)說(shuō),這就是"基本能用"和"真正實(shí)用"之間的差別。
雙臂任務(wù)的測(cè)試結(jié)果更加令人震撼。MolmoAct比π0-FAST高出22.7個(gè)百分點(diǎn),這已經(jīng)不是漸進(jìn)式改進(jìn),而是質(zhì)的飛躍。雙臂協(xié)調(diào)是機(jī)器人領(lǐng)域的一個(gè)技術(shù)難點(diǎn),因?yàn)樗枰_地協(xié)調(diào)兩只機(jī)械臂的動(dòng)作,確保它們既不會(huì)相互碰撞,又能高效地完成任務(wù)。在"折疊毛巾"這樣的任務(wù)中,傳統(tǒng)系統(tǒng)往往會(huì)出現(xiàn)兩只手動(dòng)作不協(xié)調(diào)的問(wèn)題,導(dǎo)致毛巾被扯壞或折疊效果很差。而MolmoAct的空間推理能力讓它能夠準(zhǔn)確地規(guī)劃兩只手的協(xié)作軌跡,實(shí)現(xiàn)流暢自然的雙手協(xié)調(diào)動(dòng)作。
為了測(cè)試系統(tǒng)的魯棒性,研究團(tuán)隊(duì)還進(jìn)行了分布外泛化測(cè)試。這種測(cè)試故意改變環(huán)境條件,看機(jī)器人是否還能正常工作。測(cè)試包括四個(gè)維度:語(yǔ)言變化(用不同的說(shuō)法表達(dá)相同的指令)、空間變化(改變物體的位置)、干擾物測(cè)試(在環(huán)境中放置額外的物品)和新物體測(cè)試(使用訓(xùn)練中沒(méi)見(jiàn)過(guò)的物品)。在所有這些"刁難"條件下,MolmoAct都表現(xiàn)出了良好的適應(yīng)性,平均性能只比標(biāo)準(zhǔn)條件下降低了很小的幅度。
最令人印象深刻的是人類評(píng)估的結(jié)果。研究團(tuán)隊(duì)邀請(qǐng)了100名評(píng)估者,讓他們觀看不同系統(tǒng)執(zhí)行開(kāi)放式指令的視頻,然后投票選出表現(xiàn)最好的系統(tǒng)。在這種完全主觀的評(píng)估中,MolmoAct獲得了最高的Elo評(píng)分,這表明它的行為模式最符合人類的直覺(jué)和期望。這種人類認(rèn)可度的提升可能比任何客觀指標(biāo)都更重要,因?yàn)樗苯雨P(guān)系到用戶是否愿意接受和使用這種技術(shù)。
七、開(kāi)放共享的科研理念帶來(lái)的廣泛影響
在當(dāng)今人工智能快速發(fā)展的時(shí)代,很多突破性技術(shù)都被大公司嚴(yán)密保護(hù),就像古代工匠把獨(dú)門秘籍傳給親傳弟子一樣。但MolmoAct的研究團(tuán)隊(duì)選擇了一條完全不同的道路——他們決定將所有研究成果完全開(kāi)放給全世界的研究者和開(kāi)發(fā)者。這種做法就像把一本珍貴的武功秘籍公開(kāi)發(fā)布,讓所有有志之士都能學(xué)習(xí)和改進(jìn)。
這種開(kāi)放策略的影響是深遠(yuǎn)的。首先,它大大降低了機(jī)器人研究的門檻。以前,想要開(kāi)發(fā)高性能的機(jī)器人系統(tǒng)需要巨大的資金投入和多年的技術(shù)積累。現(xiàn)在,全世界的研究機(jī)構(gòu)、初創(chuàng)公司甚至個(gè)人開(kāi)發(fā)者都可以基于MolmoAct的開(kāi)源代碼和數(shù)據(jù)集來(lái)開(kāi)發(fā)自己的機(jī)器人應(yīng)用。這就像從需要完全自主研發(fā)汽車引擎,變成可以使用成熟的開(kāi)源引擎來(lái)組裝汽車一樣。
研究團(tuán)隊(duì)公開(kāi)的資源極其豐富和全面。他們不僅發(fā)布了完整的模型權(quán)重文件,讓其他研究者可以直接使用訓(xùn)練好的系統(tǒng),還公開(kāi)了所有的訓(xùn)練代碼,讓人們能夠理解系統(tǒng)是如何工作的,甚至可以根據(jù)自己的需要進(jìn)行修改和改進(jìn)。更難能可貴的是,他們還共享了包含超過(guò)1萬(wàn)個(gè)高質(zhì)量軌跡的數(shù)據(jù)集,這些數(shù)據(jù)是其他研究團(tuán)隊(duì)需要花費(fèi)數(shù)月時(shí)間和大量資源才能收集到的寶貴資料。
這種開(kāi)放性已經(jīng)開(kāi)始產(chǎn)生連鎖反應(yīng)。全世界的研究機(jī)構(gòu)開(kāi)始基于MolmoAct開(kāi)發(fā)各種衍生應(yīng)用。有的團(tuán)隊(duì)專注于提高系統(tǒng)在特定環(huán)境下的性能,比如醫(yī)療手術(shù)或工業(yè)裝配。有的團(tuán)隊(duì)則在探索如何將MolmoAct的技術(shù)應(yīng)用到其他類型的機(jī)器人上,比如無(wú)人機(jī)或自動(dòng)駕駛汽車。還有的團(tuán)隊(duì)在研究如何進(jìn)一步提高系統(tǒng)的安全性和可靠性。
從技術(shù)發(fā)展的角度看,MolmoAct的開(kāi)源策略加速了整個(gè)機(jī)器人領(lǐng)域的進(jìn)步。在封閉的研發(fā)環(huán)境中,每個(gè)團(tuán)隊(duì)都要從零開(kāi)始解決相同的基礎(chǔ)問(wèn)題,造成大量的重復(fù)勞動(dòng)。而有了開(kāi)源的基礎(chǔ)平臺(tái),研究者可以站在巨人的肩膀上,專注于解決更高層次的問(wèn)題。這就像有了統(tǒng)一的操作系統(tǒng)后,軟件開(kāi)發(fā)者可以專注于開(kāi)發(fā)應(yīng)用程序,而不需要每次都重新編寫底層的硬件驅(qū)動(dòng)程序。
教育領(lǐng)域也受益匪淺。世界各地的大學(xué)都可以使用MolmoAct作為教學(xué)工具,讓學(xué)生親手體驗(yàn)最先進(jìn)的機(jī)器人技術(shù)。這不僅提高了教學(xué)質(zhì)量,也培養(yǎng)了更多具備實(shí)際技能的機(jī)器人工程師。許多原本因?yàn)槿狈Y源而無(wú)法開(kāi)展機(jī)器人研究的院校,現(xiàn)在也能夠讓學(xué)生接觸到前沿技術(shù)。
對(duì)于產(chǎn)業(yè)界來(lái)說(shuō),MolmoAct的開(kāi)源為機(jī)器人技術(shù)的商業(yè)化應(yīng)用開(kāi)辟了新的可能性。小型創(chuàng)業(yè)公司可以基于這個(gè)開(kāi)源平臺(tái)快速開(kāi)發(fā)出具有競(jìng)爭(zhēng)力的產(chǎn)品,而不需要投入數(shù)年時(shí)間進(jìn)行基礎(chǔ)技術(shù)研發(fā)。這種降低創(chuàng)業(yè)門檻的效應(yīng)有助于催生更多創(chuàng)新應(yīng)用,推動(dòng)整個(gè)機(jī)器人產(chǎn)業(yè)的繁榮發(fā)展。
更深層次的影響在于,MolmoAct證明了開(kāi)源模式在人工智能領(lǐng)域的可行性和優(yōu)勢(shì)。與閉源的商業(yè)模型相比,MolmoAct在多個(gè)基準(zhǔn)測(cè)試中都取得了更好的性能,這打破了"只有大公司才能做出最好的AI系統(tǒng)"的偏見(jiàn)。它向世界展示了學(xué)術(shù)界和開(kāi)源社區(qū)的創(chuàng)新潛力,鼓勵(lì)更多的研究團(tuán)隊(duì)采用開(kāi)放合作的方式推進(jìn)技術(shù)發(fā)展。
從社會(huì)影響的角度看,MolmoAct的開(kāi)源策略有助于確保機(jī)器人技術(shù)的發(fā)展更加公平和包容。如果先進(jìn)的機(jī)器人技術(shù)只掌握在少數(shù)大公司手中,可能會(huì)加劇技術(shù)鴻溝,讓一些地區(qū)或群體無(wú)法享受到技術(shù)進(jìn)步的紅利。而開(kāi)源的方式讓全世界的研究者和開(kāi)發(fā)者都能平等地獲得這些技術(shù),有助于實(shí)現(xiàn)更均衡的技術(shù)發(fā)展。
研究團(tuán)隊(duì)的這種開(kāi)放理念也體現(xiàn)了科學(xué)研究的本質(zhì)精神——追求真理和造福人類,而不是追求商業(yè)利益的最大化。他們相信,只有通過(guò)開(kāi)放合作,才能真正釋放人工智能技術(shù)的潛力,為解決人類面臨的各種挑戰(zhàn)做出貢獻(xiàn)。這種理念正在影響越來(lái)越多的研究團(tuán)隊(duì),推動(dòng)整個(gè)人工智能領(lǐng)域朝著更加開(kāi)放、透明和協(xié)作的方向發(fā)展。
歸根結(jié)底,MolmoAct不僅僅是一個(gè)技術(shù)產(chǎn)品,它更是一種理念的體現(xiàn)——相信開(kāi)放合作能夠帶來(lái)更大的創(chuàng)新和進(jìn)步。這種理念正在重塑機(jī)器人和人工智能領(lǐng)域的發(fā)展模式,為構(gòu)建一個(gè)更加智能、便利和公平的未來(lái)奠定基礎(chǔ)。通過(guò)將最先進(jìn)的技術(shù)無(wú)償分享給全世界,MolmoAct的研究團(tuán)隊(duì)展現(xiàn)了科學(xué)家的崇高品格,也為其他研究者樹(shù)立了值得學(xué)習(xí)的榜樣。
Q&A
Q1:MolmoAct和傳統(tǒng)機(jī)器人控制系統(tǒng)有什么根本區(qū)別?
A:傳統(tǒng)機(jī)器人就像只會(huì)照搬菜譜的廚師,看到指令后直接執(zhí)行動(dòng)作,而MolmoAct會(huì)先"看懂"三維空間結(jié)構(gòu),然后"規(guī)劃"移動(dòng)路徑,最后才"執(zhí)行"動(dòng)作。這種三步思考法讓機(jī)器人能夠處理復(fù)雜情況,還能解釋自己為什么這樣做。
Q2:MolmoAct的視覺(jué)軌跡調(diào)教功能有什么實(shí)際用處?
A:用戶可以直接在機(jī)器人攝像頭畫面上畫線條,告訴機(jī)器人應(yīng)該怎么移動(dòng),就像在地圖上畫導(dǎo)航路線一樣。這比語(yǔ)言指令更精確,成功率高達(dá)75%,比語(yǔ)言調(diào)教高出33%。當(dāng)機(jī)器人選錯(cuò)目標(biāo)或路徑不合理時(shí),用戶可以立即糾正。
Q3:普通研究機(jī)構(gòu)或公司能免費(fèi)使用MolmoAct技術(shù)嗎?
A:完全可以。研究團(tuán)隊(duì)將所有內(nèi)容完全開(kāi)源,包括模型權(quán)重、訓(xùn)練代碼和超過(guò)1萬(wàn)個(gè)高質(zhì)量機(jī)器人操作數(shù)據(jù)集。任何人都可以通過(guò)GitHub或相關(guān)平臺(tái)免費(fèi)下載使用,這大大降低了機(jī)器人研發(fā)的門檻和成本。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語(yǔ)言模型的敘事推理能力與音頻生成技術(shù),通過(guò)交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開(kāi)辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過(guò)讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問(wèn)題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語(yǔ)言模型人性化對(duì)話問(wèn)題。該研究創(chuàng)建了包含20萬(wàn)高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過(guò)創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開(kāi)發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過(guò)學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來(lái)了效率和精度的雙重突破。