這項來自加州大學圣地亞哥分校和加拿大西蒙弗雷澤大學的聯合研究于2025年6月發(fā)表在計算機視覺與機器人學頂級期刊arXiv上,由陳梓軒、季馬澤宇等研究人員共同完成。完整的研究論文可以通過論文編號arXiv:2506.14770v1獲取,同時研究團隊還建立了項目網站gmt-humanoid.github.io供公眾了解更多詳情。
一、從科幻夢想到現實挑戰(zhàn)
在科幻電影中,我們經??吹綑C器人能夠像人類一樣自如地行走、跳躍、甚至翩翩起舞。然而現實中,讓機器人學會哪怕是最基本的人類動作都是一項極其復雜的挑戰(zhàn)。機器人不是天生就會走路的,就像嬰兒需要學習如何邁出第一步一樣,機器人也需要通過復雜的訓練才能掌握各種動作技能。
傳統(tǒng)的方法就像為每種動作專門雇傭一個教練一樣——想學走路就找走路教練,想學跳舞就找舞蹈教練,想學踢球就找足球教練。這種"專人專項"的方式雖然能讓機器人在特定動作上表現出色,但問題是機器人需要為每個新動作重新學習,就像一個只會做一道菜的廚師,想要擴展菜譜就必須從頭開始學習。
更讓人頭疼的是,人類的動作實在太復雜了。我們的身體有23個關節(jié),每個關節(jié)都可以獨立運動,這就像同時控制23個不同的樂器來演奏一首交響樂一樣困難。而且不同于電腦游戲中的虛擬角色,真實的機器人還要面對重力、摩擦力、硬件限制等各種物理世界的約束。
研究團隊意識到,如果能開發(fā)出一個"全能教練"——一個既能教走路,又能教跳舞,還能教各種復雜動作的通用系統(tǒng),那將徹底改變機器人的能力邊界。這就是GMT(General Motion Tracking,通用動作跟蹤)系統(tǒng)誕生的背景。
二、構建機器人的"動作字典"
GMT系統(tǒng)的工作原理可以比作給機器人建立一個巨大的"動作字典"。這個字典不是用文字寫成的,而是用數以萬計的真實人類動作數據編寫的。研究團隊從兩個主要的人類動作數據庫中收集了素材:AMASS數據庫和LAFAN1數據庫,最終篩選出8925個高質量的動作片段,總共包含33.12小時的動作數據。
這些數據就像一個超級豐富的動作百科全書,涵蓋了從最基本的走路、跑步,到復雜的舞蹈、武術、體操等各種人類動作。但是,直接把這些動作"喂給"機器人并不能讓它立即學會,就像把一本烹飪書放在廚房里不會自動變出美食一樣。
關鍵的創(chuàng)新在于GMT系統(tǒng)解決了傳統(tǒng)方法中的幾個關鍵問題。首先是"偏食"問題。在收集到的動作數據中,簡單的走路和站立動作占據了大部分時間,而真正有挑戰(zhàn)性的動作如踢腿、跳躍等卻很少。這就像一個練習冊里90%都是簡單的加法題,只有10%是復雜的應用題。如果按照傳統(tǒng)方式訓練,機器人會變成一個"偏科生"——走路很熟練,但遇到復雜動作就手足無措。
為了解決這個問題,研究團隊開發(fā)了一套"自適應采樣"策略。這個策略的核心思想是讓機器人把更多時間花在練習困難動作上,而不是反復練習已經掌握的簡單動作。具體來說,系統(tǒng)會持續(xù)監(jiān)控機器人在每種動作上的表現,如果某個動作還沒有完全掌握,系統(tǒng)就會增加這個動作的練習頻率。這就像一個智能的健身教練,會根據你的薄弱環(huán)節(jié)調整訓練計劃。
另一個巧妙的設計是"隨機切片"機制。許多人類動作數據是長時間的連續(xù)記錄,比如一段10分鐘的視頻可能包含走路、停下來喝水、繼續(xù)走路、然后坐下休息等多個不同的動作片段。傳統(tǒng)方法會把這個10分鐘的視頻當作一個整體來訓練,但GMT系統(tǒng)會智能地將其切成多個10秒鐘的小片段,每個片段重點訓練一種特定的動作模式。這樣做的好處是讓機器人能夠更專注地學習每種動作的精髓,而不是被復雜的動作轉換搞得暈頭轉向。
三、"專家團隊"的智慧結合
GMT系統(tǒng)的第二個核心創(chuàng)新是采用了"專家混合"的架構,這個概念可以用一個專業(yè)樂團來類比。在一個交響樂團中,小提琴手專門負責小提琴部分,大提琴手專門負責大提琴部分,打擊樂手專門負責打擊樂器,但是整個樂團需要一個指揮來協調所有人的演奏,最終呈現出和諧的音樂。
在GMT系統(tǒng)中,研究團隊設計了多個"專家網絡",每個專家都特別擅長某一類動作。比如,有的專家特別善于處理下肢動作如走路和跑步,有的專家專門處理上肢動作如揮手和伸展,還有的專家專長于處理全身協調的復雜動作如舞蹈和武術。同時,系統(tǒng)還有一個"指揮網絡",它的作用是觀察當前需要執(zhí)行的動作,然后決定應該主要聽從哪個專家的建議。
這種設計的妙處在于,當機器人需要執(zhí)行一個新的動作時,系統(tǒng)不需要從零開始學習,而是可以組合不同專家的知識。就像一個會做川菜的廚師和一個會做粵菜的廚師合作,他們可以融合彼此的技巧創(chuàng)造出新的菜品。如果機器人需要學習一個包含走路和揮手的組合動作,負責腿部動作的專家和負責手臂動作的專家就可以同時發(fā)揮作用,在指揮網絡的協調下完成這個復雜的動作。
更重要的是,這種專家系統(tǒng)還能自主學習和進化。當系統(tǒng)遇到一個全新的動作時,指揮網絡會觀察這個動作的特點,然后自動決定哪些專家應該參與,以及每個專家應該承擔多大的責任。隨著訓練的進行,專家們會變得越來越熟練,指揮網絡的協調能力也會越來越強。
四、從"特權信息"到"現實約束"
在現實世界中訓練機器人面臨一個根本性的挑戰(zhàn):機器人無法像電腦游戲中的角色那樣獲得完整的"上帝視角"信息。在虛擬世界中,我們可以精確知道角色的每一個部位在空間中的準確位置、速度和方向,但真實的機器人只能依靠有限的傳感器來感知自己的狀態(tài)。
這就像讓一個人在完全黑暗的房間里學習舞蹈一樣困難。人可以感覺到自己的手腳位置,但看不到整體的動作效果,也無法準確判斷自己在房間中的精確位置。為了解決這個問題,GMT系統(tǒng)采用了一種巧妙的"師生制"訓練方法。
首先,研究團隊在擁有完整信息的虛擬環(huán)境中訓練一個"老師機器人"。這個老師擁有所有的"特權信息"——它知道自己身體每個部位的精確位置、速度、與地面的接觸情況,甚至知道自己的重心在哪里。憑借這些完整的信息,老師機器人可以學會各種復雜的動作。
然后,研究團隊再訓練一個"學生機器人",這個學生只能獲得真實機器人能夠感知到的有限信息——關節(jié)角度、身體傾斜程度、以及過去一段時間的動作歷史。學生機器人的任務是通過觀察老師機器人的動作決策,學會在信息不完整的情況下做出正確的動作選擇。
這個過程就像學習開車一樣。剛開始時,你需要一個經驗豐富的教練坐在副駕駛座上,告訴你什么時候該轉彎、什么時候該剎車。隨著練習的增加,你逐漸學會了通過觀察路況、感受車速等有限的信息來做出正確的駕駛決策,最終可以獨立駕駛。
為了讓這個學習過程更加高效,研究團隊還在學生機器人的訓練中加入了"動作預見"能力。不同于只看當前需要執(zhí)行的動作,學生機器人還會觀察接下來2秒鐘內的動作序列。這就像一個有經驗的舞者不僅知道當前這一拍要做什么動作,還知道接下來幾拍的動作安排,從而能夠更好地協調整體表現。
五、現實世界的嚴格考驗
理論上的成功和實際應用之間往往存在巨大的鴻溝,就像在紙上畫出完美的建筑設計圖和真正建造出穩(wěn)固的房屋是兩回事。為了驗證GMT系統(tǒng)的實際效果,研究團隊進行了全面的測試,包括計算機仿真環(huán)境中的詳細評估和真實機器人上的實際部署。
在仿真環(huán)境的測試中,GMT系統(tǒng)展現出了令人印象深刻的性能。研究團隊使用了多個標準的評估指標來衡量機器人動作的準確性,包括關鍵身體部位的位置誤差、關節(jié)角度的偏差、移動速度的準確性等。結果顯示,GMT系統(tǒng)在所有這些指標上都顯著優(yōu)于現有的方法。
特別值得注意的是,GMT系統(tǒng)在處理困難動作時的表現尤為突出。研究團隊專門分析了那些最具挑戰(zhàn)性的動作——比如高踢腿、快速轉身、復雜的舞蹈組合等,發(fā)現GMT系統(tǒng)在這些動作上的改進幅度遠大于在簡單動作上的改進。這證明了自適應采樣策略和專家混合架構的有效性。
更重要的測試來自真實的機器人平臺。研究團隊選擇了Unitree G1機器人進行實際部署,這是一個高1.32米、擁有23個關節(jié)的中型人形機器人。從實驗室的完美環(huán)境到真實世界的復雜條件,機器人需要面對地面的細微不平、空氣阻力、硬件的微小誤差等各種挑戰(zhàn)。
實際測試的結果令人振奮。GMT系統(tǒng)成功地讓機器人掌握了包括伸展運動、踢球、舞蹈、高踢腿、武術動作在內的各種技能。更令人驚訝的是,機器人不僅能夠執(zhí)行這些動作,還能保持良好的穩(wěn)定性和流暢性。視頻記錄顯示,機器人的動作看起來自然而協調,很難察覺到明顯的僵硬或不協調之處。
六、細節(jié)中的智慧
GMT系統(tǒng)的成功不僅在于其整體架構的創(chuàng)新,更在于無數個看似微小但實際關鍵的技術細節(jié)。這些細節(jié)就像制作精美手表時的每一個小齒輪,雖然單獨看起來不起眼,但組合在一起就能創(chuàng)造出精密的杰作。
在動作表示方面,研究團隊做出了一個重要的改進。傳統(tǒng)方法通常使用全局坐標系來描述身體各部位的位置,但GMT系統(tǒng)改用相對于機器人朝向的局部坐標系。這個改變看似簡單,實際上解決了一個關鍵問題:機器人在不同方向執(zhí)行相同動作時的一致性。
舉個例子,當人向前踢腿時,無論是面向北方、南方、東方還是西方,踢腿的相對動作都是一樣的——抬起腿,向前伸展,然后收回。但如果使用全局坐標系,面向不同方向的踢腿動作會被認為是完全不同的動作,這會大大增加學習的復雜性。通過使用局部坐標系,GMT系統(tǒng)能夠更好地理解動作的本質,而不被方向變化所迷惑。
在數據預處理方面,研究團隊實施了一套嚴格的篩選流程。原始的人類動作數據庫包含了大量對機器人來說不可行的動作,比如躺在地上翻滾、做后空翻等。這些動作不僅超出了當前機器人的硬件能力,還可能在訓練過程中產生誤導性的學習信號。
篩選過程分為兩個階段。第一階段使用基于規(guī)則的方法,自動過濾掉明顯不可行的動作,比如身體傾斜角度過大、移動速度超出機器人能力范圍、或者包含復雜地面接觸的動作。第二階段則更加智能:研究團隊先用篩選后的數據訓練一個初步的系統(tǒng),然后根據這個系統(tǒng)的表現來進一步篩選數據。如果某個動作反復導致訓練失敗,就會被從數據集中移除。
這種兩階段篩選方法的好處是既保證了數據的質量,又避免了過度保守的篩選。通過讓機器人"嘗試"那些邊界情況的動作,研究團隊能夠更準確地判斷哪些動作是真正可行的,哪些是超出能力范圍的。
七、突破性的實驗結果
為了全面評估GMT系統(tǒng)的性能,研究團隊設計了一系列嚴格的對比實驗。這些實驗就像奧運會的各項比賽一樣,從不同的角度測試系統(tǒng)的能力,確保評估的全面性和公正性。
在與現有先進系統(tǒng)的對比中,GMT展現出了全面的優(yōu)勢。研究團隊選擇了ExBody2作為主要的對比基準,這是目前該領域最先進的系統(tǒng)之一。實驗結果顯示,GMT在幾乎所有的評估指標上都超越了ExBody2,特別是在關鍵身體部位的定位精度和整體動作的流暢性方面。
更有意義的是GMT系統(tǒng)在困難動作上的表現。研究團隊專門分析了表現最差的5%、10%、20%和50%的動作,發(fā)現GMT系統(tǒng)的改進在困難動作上更加明顯。這個發(fā)現特別重要,因為它證明了GMT不僅僅是在整體平均水平上有所提升,更是在那些真正具有挑戰(zhàn)性的任務上實現了突破。
為了驗證各個組件的貢獻,研究團隊還進行了詳細的消融實驗。他們分別移除了自適應采樣策略和專家混合架構,然后測試系統(tǒng)的性能變化。結果清楚地顯示,這兩個核心創(chuàng)新都對最終性能有顯著貢獻,而且它們的效果是互補的——同時使用兩種技術的效果遠好于單獨使用其中任何一種。
在動作輸入設計的實驗中,研究團隊發(fā)現了一個有趣的現象。僅僅增加未來動作序列的長度并不總是有益的——當預見窗口過長時,系統(tǒng)的表現反而會下降。但是,如果在提供未來動作序列的同時還保留當前幀的詳細信息,系統(tǒng)的表現就會顯著提升。這個發(fā)現揭示了一個重要的原理:機器人既需要長期的規(guī)劃視野,也需要對當前狀態(tài)的精確感知。
八、拓展應用的無限可能
GMT系統(tǒng)的能力不僅限于復現現有的人類動作,它還展現出了令人興奮的泛化能力。為了測試這種能力,研究團隊進行了一個有趣的實驗:他們使用文本描述讓AI生成全新的動作序列,然后測試GMT系統(tǒng)是否能夠執(zhí)行這些從未見過的動作。
這個實驗使用了MDM(Motion Diffusion Model)系統(tǒng),這是一個能夠根據文字描述生成人類動作的AI模型。研究團隊輸入了各種描述,比如"一個人邊走路邊鞠躬"、"一個人蹲下后起身伸展手臂"、"一個人坐著倒水的動作"等,然后讓MDM生成相應的動作序列。
令人驚喜的是,GMT系統(tǒng)能夠成功執(zhí)行大部分這些AI生成的動作,即使這些動作組合在訓練數據中從未出現過。這證明了GMT系統(tǒng)不僅僅是在"背誦"學過的動作,而是真正理解了動作的基本原理,能夠將不同的動作元素靈活組合。
這種泛化能力為GMT系統(tǒng)開辟了廣闊的應用前景。在服務機器人領域,GMT可以讓機器人學會各種日常服務動作,從簡單的遞送物品到復雜的家務操作。在娛樂產業(yè)中,GMT可以讓機器人成為出色的表演者,能夠根據音樂節(jié)拍即興創(chuàng)作舞蹈動作。在教育領域,GMT可以讓機器人成為體育教練或舞蹈老師,示范各種運動技巧。
更重要的是,GMT系統(tǒng)為構建真正通用的人形機器人邁出了關鍵一步。傳統(tǒng)的機器人通常只能在特定任務上表現出色,但GMT展示了單一系統(tǒng)掌握多種技能的可能性。這種能力是實現科幻電影中那種萬能機器人助手的重要基礎。
九、技術實現的精妙細節(jié)
GMT系統(tǒng)的訓練過程是一個需要巨大計算資源和精心設計的復雜工程。整個訓練在配備RTX4090顯卡的高性能計算機上進行,使用了4096個并行的虛擬環(huán)境來加速學習過程。這就像同時運行4096個不同的機器人訓練場,每個場地都在獨立地進行訓練,然后將所有的學習經驗匯總起來。
訓練分為兩個階段,總計需要約4天的連續(xù)計算時間。第一階段訓練"老師"網絡大約需要3天,第二階段訓練"學生"網絡需要額外1天。雖然這個時間看起來很長,但考慮到系統(tǒng)最終掌握的技能廣度和復雜性,這個投入是非常值得的。
在控制頻率的設計上,研究團隊選擇了一個平衡精度和穩(wěn)定性的方案。物理仿真以500Hz的頻率運行,這意味著每秒鐘計算500次物理狀態(tài)的更新,確保了物理過程的精確模擬。而控制指令的更新頻率設置為50Hz,即每秒鐘50次控制決策,這個頻率既能保證控制的及時性,又不會因為過于頻繁的調整而導致系統(tǒng)不穩(wěn)定。
為了確保訓練的穩(wěn)定性和可靠性,研究團隊還實現了多重驗證機制。訓練得到的策略首先在Isaac Gym仿真環(huán)境中進行驗證,然后轉移到MuJoCo物理引擎中進行二次驗證,最后才部署到真實的機器人上。這種多層驗證的方法大大降低了系統(tǒng)在真實環(huán)境中失敗的風險。
獎勵函數的設計也體現了研究團隊的深厚功力。系統(tǒng)使用了多個相互補充的獎勵信號,包括關節(jié)位置的準確性、關節(jié)速度的平滑性、身體姿態(tài)的穩(wěn)定性、足部與地面接觸的合理性等。這些獎勵信號就像一個經驗豐富的教練從多個角度評估學生的表現,確保機器人不僅能夠完成動作,還能做得自然、穩(wěn)定、高效。
十、面向未來的思考與局限
盡管GMT系統(tǒng)取得了令人矚目的成果,但研究團隊也誠實地承認了當前版本的局限性。這種科學的態(tài)度不僅體現了研究的嚴謹性,也為未來的改進指明了方向。
當前系統(tǒng)最主要的限制是無法處理復雜的接觸交互動作。比如,機器人還無法學會從跌倒狀態(tài)重新站起,或者在地面上翻滾等需要大面積身體接觸的動作。這主要是因為這類動作的物理仿真極其復雜,需要精確模擬身體各部分與地面的摩擦、壓力等相互作用,而目前的仿真技術還難以達到足夠的精度。
另一個重要限制是系統(tǒng)目前只能在平坦地面上工作。現實世界中的地形往往是不規(guī)則的——有臺階、斜坡、碎石等各種挑戰(zhàn)。雖然GMT系統(tǒng)已經展現出了在平地上的卓越能力,但要讓機器人在復雜地形中自如行動,還需要加入地形感知和適應性規(guī)劃的能力。
從更廣闊的視角來看,GMT系統(tǒng)代表了機器人學習領域的一個重要里程碑。它證明了通過巧妙的算法設計和充分的數據利用,我們可以讓機器人掌握遠比以往更復雜、更多樣的技能。但同時,它也提醒我們,通往真正通用的人形機器人的路還很長。
研究團隊已經開始著手解決這些局限性。他們正在開發(fā)新的物理仿真方法來更好地處理復雜接觸,也在研究如何將地形感知整合到控制系統(tǒng)中。更令人期待的是,他們還在探索如何讓機器人不僅能夠模仿人類動作,還能根據具體任務需求創(chuàng)造性地組合和調整動作。
說到底,GMT系統(tǒng)的真正價值不僅在于它當前能夠實現的功能,更在于它為整個領域開辟的新思路。它展示了如何通過智能的數據處理、巧妙的網絡架構和精心的訓練策略來解決復雜的機器人控制問題。這些方法論上的貢獻將為未來的研究提供重要的指導。
歸根結底,GMT系統(tǒng)讓我們看到了一個令人興奮的未來:機器人不再是只能執(zhí)行固定程序的機械裝置,而可能成為真正靈活、多才多藝的智能伙伴。雖然這個未來還需要更多的技術突破才能完全實現,但GMT系統(tǒng)無疑是朝著這個目標邁出的堅實一步。對于我們普通人來說,這意味著在不久的將來,我們可能真的會看到能夠自如行走、優(yōu)雅舞蹈、靈活操作的人形機器人走進我們的日常生活。
這項研究的完整技術細節(jié)和更多演示視頻可以通過訪問項目網站gmt-humanoid.github.io獲得,有興趣深入了解的讀者也可以通過arXiv:2506.14770v1獲取原始論文。
Q&A
Q1:GMT系統(tǒng)是什么?它能讓機器人做什么? A:GMT是一個通用動作跟蹤系統(tǒng),能讓人形機器人學會各種人類動作。它可以讓機器人掌握走路、跑步、踢球、舞蹈、武術等多種技能,最重要的是用一個統(tǒng)一的系統(tǒng)就能處理所有這些動作,不需要為每種動作單獨開發(fā)控制器。
Q2:GMT會不會讓機器人完全替代人類的體力工作? A:目前還不會完全替代。GMT雖然讓機器人能夠執(zhí)行復雜動作,但仍有很多局限,比如無法處理跌倒后起身、無法在復雜地形中工作等。不過它確實為機器人在服務、娛樂、教育等領域的應用開辟了新可能。
Q3:普通人什么時候能體驗到GMT技術的機器人? A:GMT目前還處于研究階段,主要在實驗室環(huán)境中測試。要真正商業(yè)化并走進普通家庭,還需要解決成本、安全性、可靠性等諸多問題。不過這項技術的突破為未來5-10年內出現更智能的服務機器人奠定了重要基礎。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現AI根據復雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結合大語言模型的敘事推理能力與音頻生成技術,通過交錯式推理生成、解耦橋接機制和漸進式訓練,能夠將復雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準測試中表現優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學聯合研發(fā)的VideoJAM技術,通過讓AI同時學習外觀和運動信息,顯著解決了當前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術僅需添加兩個線性層就能大幅提升運動質量,在多項測試中超越包括Sora在內的商業(yè)模型,為AI視頻生成的實用化應用奠定了重要基礎。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質量樣本的訓練數據集和MM-AlignBench評測基準,通過創(chuàng)新的數據生成和質量管控方法,讓AI在保持技術能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預測模型,能夠在不到一分鐘內完成10天全球天氣預報,準確性超越傳統(tǒng)方法90%的指標。該模型采用圖神經網絡技術,通過學習40年歷史數據掌握天氣變化規(guī)律,在極端天氣預測方面表現卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學領域帶來了效率和精度的雙重突破。