這項(xiàng)由Meta FAIR(原Facebook AI Research)的Scott Fujimoto、Pierluca D'Oro、Amy Zhang、Yuandong Tian和Michael Rabbat等研究者共同完成的研究,于2025年1月發(fā)表在頂級人工智能會議ICLR 2025上。有興趣深入了解技術(shù)細(xì)節(jié)的讀者可以通過論文鏈接https://github.com/facebookresearch/MRQ獲取完整代碼和論文。
強(qiáng)化學(xué)習(xí)就像訓(xùn)練一個運(yùn)動員學(xué)會各種技能一樣。傳統(tǒng)的做法就像培養(yǎng)專項(xiàng)運(yùn)動員——游泳選手只練游泳,籃球選手只練籃球,每個人都有自己專門的訓(xùn)練方法和技巧。但是Meta的研究團(tuán)隊(duì)想要做一件更有野心的事情:能否訓(xùn)練出一個"全能運(yùn)動員",用同一套訓(xùn)練方法就能掌握游泳、籃球、體操等各種不同的運(yùn)動項(xiàng)目?
這個想法聽起來很美好,但實(shí)際操作起來困難重重。就像現(xiàn)實(shí)中的運(yùn)動員一樣,不同的運(yùn)動項(xiàng)目需要完全不同的技能和訓(xùn)練方式。在人工智能的世界里,讓計(jì)算機(jī)玩Atari游戲和控制機(jī)器人走路,就像讓一個人既會游泳又會打籃球一樣,看似相關(guān)但實(shí)際上需要完全不同的"肌肉記憶"和思維方式。
傳統(tǒng)的強(qiáng)化學(xué)習(xí)算法就像專業(yè)教練,每種運(yùn)動都有自己獨(dú)特的訓(xùn)練秘籍。訓(xùn)練游戲AI的方法和訓(xùn)練機(jī)器人控制的方法往往截然不同,不僅訓(xùn)練參數(shù)要重新調(diào)整,連基礎(chǔ)的學(xué)習(xí)策略都要完全改變。這就像籃球教練無法直接用訓(xùn)練籃球的方法去教游泳一樣。
Meta的研究團(tuán)隊(duì)注意到,近年來一些基于模型的方法(就像給運(yùn)動員先建立一個完整的運(yùn)動理論體系)確實(shí)展現(xiàn)了不錯的通用性,比如DreamerV3和TD-MPC2這些算法能夠在多種任務(wù)上都表現(xiàn)不錯。但是這些方法就像配備了一整支專業(yè)團(tuán)隊(duì)的訓(xùn)練營,不僅需要大量的計(jì)算資源,訓(xùn)練速度也比較慢,就像每次訓(xùn)練都要先建立一個完整的運(yùn)動理論模型,然后再進(jìn)行實(shí)際訓(xùn)練。
研究團(tuán)隊(duì)提出了一個更巧妙的想法:能否保留這些模型方法的優(yōu)點(diǎn)(理解運(yùn)動規(guī)律的能力),但去掉它們的缺點(diǎn)(復(fù)雜度高、速度慢)?他們的核心洞察是,也許真正重要的不是建立完整的運(yùn)動模型,而是學(xué)會如何從運(yùn)動中提取關(guān)鍵特征。就像一個優(yōu)秀的教練不一定要成為運(yùn)動理論專家,但一定要能夠識別出什么樣的訓(xùn)練最有效。
基于這個想法,他們開發(fā)出了MR.Q算法(Model-based Representations for Q-learning,基于模型表示的Q學(xué)習(xí))。這個算法的巧妙之處在于,它借鑒了基于模型方法的學(xué)習(xí)方式,但實(shí)際執(zhí)行時卻采用了更簡單高效的無模型方法。就像一個教練雖然深入研究過運(yùn)動科學(xué)理論,但在實(shí)際指導(dǎo)時卻能夠用最直接有效的方式進(jìn)行訓(xùn)練。
為了驗(yàn)證這個想法的有效性,研究團(tuán)隊(duì)進(jìn)行了一項(xiàng)相當(dāng)全面的測試。他們選擇了四個完全不同類型的測試平臺,包含了118個不同的任務(wù)環(huán)境。這就像讓同一個運(yùn)動員參加奧運(yùn)會的多個不同項(xiàng)目比賽一樣具有挑戰(zhàn)性。
第一個測試平臺是經(jīng)典的體能控制任務(wù),比如讓虛擬角色學(xué)會跑步、跳躍等基本運(yùn)動技能。第二個是更復(fù)雜的機(jī)器人控制任務(wù),包括操控機(jī)械臂、四足機(jī)器人行走等精細(xì)操作。第三個測試特別有趣,它要求AI不僅要學(xué)會控制,還要學(xué)會從視覺信息中理解環(huán)境,就像運(yùn)動員需要邊看邊做動作一樣。最后一個測試平臺是經(jīng)典的Atari游戲,這些游戲需要完全不同的策略思維和反應(yīng)速度。
實(shí)驗(yàn)結(jié)果相當(dāng)令人驚喜。MR.Q算法在這個"四項(xiàng)全能"的比賽中展現(xiàn)出了優(yōu)秀的綜合實(shí)力。雖然在某些單項(xiàng)上它可能不是絕對冠軍,但它是唯一一個在所有項(xiàng)目上都能保持高水平表現(xiàn)的"選手"。更重要的是,它做到這一切只用了一套訓(xùn)練參數(shù)設(shè)置,就像一個教練用同一套訓(xùn)練方法成功指導(dǎo)了完全不同的運(yùn)動項(xiàng)目。
從效率角度來看,MR.Q的優(yōu)勢更加明顯。與那些需要大量計(jì)算資源的競爭對手相比,MR.Q就像一個輕裝上陣的運(yùn)動員,不僅訓(xùn)練速度快了幾倍,所需要的"裝備"(模型參數(shù))也大大減少。在實(shí)際應(yīng)用時,MR.Q的運(yùn)行速度比某些競爭對手快了上百倍,這對于實(shí)際部署來說意義重大。
為了深入理解MR.Q為什么能夠成功,研究團(tuán)隊(duì)還進(jìn)行了詳細(xì)的"解剖分析"。他們發(fā)現(xiàn),算法成功的關(guān)鍵在于一個核心理念:不是要完全理解每種運(yùn)動的所有細(xì)節(jié),而是要學(xué)會識別不同運(yùn)動中的共同規(guī)律。就像一個優(yōu)秀的全能教練,他們不需要成為每個項(xiàng)目的絕對專家,但需要具備提取和應(yīng)用通用訓(xùn)練原理的能力。
具體來說,MR.Q的工作原理可以用一個有趣的比喻來理解。傳統(tǒng)的專項(xiàng)算法就像專門的翻譯官,每種語言都需要不同的專家。而MR.Q更像一個語言學(xué)家,它首先學(xué)會識別不同語言背后的共同語法結(jié)構(gòu),然后用這種通用的理解能力去掌握各種具體的語言。在技術(shù)層面,它通過學(xué)習(xí)一種特殊的"內(nèi)部表示"方法,將不同類型的任務(wù)轉(zhuǎn)換成統(tǒng)一的格式,然后用相同的學(xué)習(xí)策略進(jìn)行處理。
這種方法的理論基礎(chǔ)相當(dāng)優(yōu)雅。研究團(tuán)隊(duì)證明了,如果能夠準(zhǔn)確學(xué)習(xí)環(huán)境的獎勵和狀態(tài)轉(zhuǎn)換規(guī)律,那么基于模型的方法和無模型的方法在理想情況下會收斂到相同的解。這就像證明了雖然游泳教練和跑步教練的訓(xùn)練方法看起來不同,但如果都掌握了運(yùn)動的基本規(guī)律,最終都能培養(yǎng)出優(yōu)秀的運(yùn)動員。
基于這個理論洞察,MR.Q采用了一種混合策略。它在學(xué)習(xí)階段借鑒模型方法的思路,學(xué)習(xí)如何預(yù)測環(huán)境的反應(yīng)和獎勵,但在實(shí)際行動時卻采用更直接的無模型方法。這就像運(yùn)動員在訓(xùn)練時深入分析動作的每個細(xì)節(jié)和科學(xué)原理,但在比賽時卻能夠憑借直覺和肌肉記憶流暢地執(zhí)行動作。
為了處理不同任務(wù)環(huán)境的巨大差異,MR.Q設(shè)計(jì)了一套巧妙的"標(biāo)準(zhǔn)化"流程。不管輸入是圖像、傳感器數(shù)據(jù)還是其他形式的信息,算法都會先將這些信息轉(zhuǎn)換成統(tǒng)一的內(nèi)部表示格式。這就像一個多語種翻譯系統(tǒng),先將各種語言轉(zhuǎn)換成通用的中間語言,然后再進(jìn)行處理。這種設(shè)計(jì)使得算法能夠用完全相同的核心邏輯處理截然不同的任務(wù)類型。
算法的另一個巧妙設(shè)計(jì)是它的"多步預(yù)測"機(jī)制。與只關(guān)注當(dāng)前動作效果的傳統(tǒng)方法不同,MR.Q會嘗試預(yù)測未來幾步的發(fā)展趨勢。這就像優(yōu)秀的棋手不僅考慮當(dāng)前這步棋的得失,還會思考未來幾步的可能發(fā)展。這種前瞻性思維幫助算法在復(fù)雜環(huán)境中做出更好的決策。
在獎勵處理方面,MR.Q也展現(xiàn)了獨(dú)特的智慧。不同的任務(wù)環(huán)境往往有完全不同的獎勵機(jī)制——有些任務(wù)的獎勵很稠密頻繁,有些任務(wù)的獎勵卻極其稀少珍貴。為了統(tǒng)一處理這種差異,MR.Q采用了一種"分類表示"的方法,將數(shù)值型的獎勵轉(zhuǎn)換成類別型的表示。這就像將不同貨幣的價(jià)值統(tǒng)一換算成通用的價(jià)值單位,讓算法能夠公平地比較和學(xué)習(xí)不同任務(wù)中的獎勵信號。
研究團(tuán)隊(duì)對算法的各個組件都進(jìn)行了細(xì)致的對比實(shí)驗(yàn),結(jié)果顯示每個設(shè)計(jì)選擇都有其必要性。當(dāng)他們嘗試簡化算法,比如去掉模型學(xué)習(xí)部分直接用傳統(tǒng)方法時,性能會明顯下降。當(dāng)他們嘗試用線性模型替代非線性模型時,效果也大打折扣。這些實(shí)驗(yàn)就像汽車拆解測試一樣,證明了算法每個部件的重要性。
特別有趣的是,研究團(tuán)隊(duì)發(fā)現(xiàn)增加模型容量(讓算法變得更復(fù)雜)并不一定能帶來性能提升。這個發(fā)現(xiàn)頗有啟發(fā)意義——有時候聰明的設(shè)計(jì)比簡單的規(guī)模擴(kuò)張更重要。這就像訓(xùn)練運(yùn)動員時,完美的技術(shù)動作往往比純粹的力量訓(xùn)練更能帶來突破。
從實(shí)際應(yīng)用的角度來看,MR.Q的成功具有重要意義。在人工智能的工業(yè)應(yīng)用中,往往需要算法能夠適應(yīng)多種不同的場景和任務(wù)。傳統(tǒng)的做法是為每種應(yīng)用專門開發(fā)算法,這不僅成本高昂,而且維護(hù)困難。MR.Q這樣的通用算法為解決這個問題提供了新的思路。
當(dāng)然,研究團(tuán)隊(duì)也很坦誠地承認(rèn)了當(dāng)前工作的局限性。MR.Q雖然在測試的任務(wù)上表現(xiàn)優(yōu)秀,但這些任務(wù)主要還是傳統(tǒng)的強(qiáng)化學(xué)習(xí)基準(zhǔn)測試。在更復(fù)雜的現(xiàn)實(shí)世界應(yīng)用中,比如需要探索未知環(huán)境的任務(wù),或者需要長期記憶的任務(wù),MR.Q可能還需要進(jìn)一步的改進(jìn)。
研究還揭示了一個有趣的現(xiàn)象:不同基準(zhǔn)測試之間的性能往往無法直接遷移。一個在某種游戲上表現(xiàn)卓越的算法,換到機(jī)器人控制任務(wù)上可能就表現(xiàn)平平。這提醒我們,在評價(jià)算法性能時,單一基準(zhǔn)測試的結(jié)果可能會產(chǎn)生誤導(dǎo)。只有在多種不同類型的任務(wù)上都表現(xiàn)良好的算法,才能真正被稱為"通用"算法。
從更宏觀的角度來看,這項(xiàng)研究代表了人工智能發(fā)展的一個重要方向。與追求在單一任務(wù)上的極致性能不同,通用人工智能更關(guān)注如何用統(tǒng)一的方法解決多樣化的問題。MR.Q在這個方向上邁出了堅(jiān)實(shí)的一步,它證明了在保持算法簡潔高效的同時實(shí)現(xiàn)廣泛適用性是可能的。
研究團(tuán)隊(duì)在論文中也展望了未來的發(fā)展方向。他們認(rèn)為,下一步的挑戰(zhàn)將是如何讓算法適應(yīng)更加多樣化和復(fù)雜的任務(wù)環(huán)境,特別是那些需要長期規(guī)劃、多目標(biāo)優(yōu)化或者人機(jī)協(xié)作的場景。他們也希望這項(xiàng)工作能夠啟發(fā)更多研究者思考如何構(gòu)建真正通用的人工智能系統(tǒng)。
這項(xiàng)研究的技術(shù)貢獻(xiàn)不僅在于提出了一個性能優(yōu)秀的算法,更在于它所展現(xiàn)的設(shè)計(jì)理念:通過巧妙的架構(gòu)設(shè)計(jì)和理論洞察,可以實(shí)現(xiàn)簡潔性和通用性的完美平衡。這對于整個人工智能領(lǐng)域的發(fā)展具有重要的啟發(fā)意義。
說到底,MR.Q的成功告訴我們,有時候最好的解決方案不是最復(fù)雜的,而是最巧妙的。就像優(yōu)秀的運(yùn)動員往往不是肌肉最發(fā)達(dá)的,而是技巧最精湛、協(xié)調(diào)性最好的。在人工智能的世界里,聰明的算法設(shè)計(jì)同樣比簡單的規(guī)模擴(kuò)張更有價(jià)值。這項(xiàng)研究為我們展示了一種新的可能性:也許真正的通用人工智能不需要變得無比復(fù)雜,而是需要變得更加智慧。
Q&A
Q1:MR.Q算法是什么?它有什么特別之處?
A:MR.Q是Meta開發(fā)的一種通用強(qiáng)化學(xué)習(xí)算法,它的特別之處在于能用同一套參數(shù)設(shè)置處理完全不同類型的任務(wù),就像訓(xùn)練一個全能運(yùn)動員一樣。與傳統(tǒng)需要針對不同任務(wù)專門調(diào)整的算法不同,MR.Q在游戲、機(jī)器人控制、視覺任務(wù)等118個不同環(huán)境中都能保持優(yōu)秀性能。
Q2:MR.Q比其他算法快多少?效率優(yōu)勢在哪里?
A:MR.Q的訓(xùn)練速度比競爭對手快2-3倍,執(zhí)行速度更是快了上百倍。它使用的模型參數(shù)也比對手少很多,比如在Atari游戲中只用了4.4M參數(shù),而DreamerV3需要187.3M參數(shù)。這讓MR.Q既高效又實(shí)用,更適合實(shí)際部署應(yīng)用。
Q3:MR.Q的核心技術(shù)原理是什么?
A:MR.Q的核心思想是結(jié)合兩種方法的優(yōu)點(diǎn):在學(xué)習(xí)階段借鑒模型方法預(yù)測環(huán)境反應(yīng)和獎勵規(guī)律,但在實(shí)際執(zhí)行時采用更直接的無模型方法。它通過統(tǒng)一的內(nèi)部表示將不同類型任務(wù)轉(zhuǎn)換成相同格式處理,就像多語言翻譯系統(tǒng)先轉(zhuǎn)換成通用中間語言再處理一樣。
好文章,需要你的鼓勵
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學(xué)習(xí)外觀和運(yùn)動信息,顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運(yùn)動質(zhì)量,在多項(xiàng)測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價(jià)值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。