這項由清華大學(xué)軟件學(xué)院Jialong Wu、Shaofeng Yin、Ningya Feng和Mingsheng Long教授共同完成的研究,于2025年5月20日在arXiv(arXiv:2505.13934v1)上發(fā)表。感興趣的讀者可以通過清華大學(xué)機器學(xué)習(xí)研究團隊(THUML)的項目網(wǎng)站https://thuml.github.io/RLVR-World獲取更多信息。
為什么這項研究如此重要?
想象一下,如果你的智能助手不僅能回答問題,還能預(yù)測你的行為會產(chǎn)生什么結(jié)果。比如,在你點擊網(wǎng)頁上的某個按鈕前,它能先告訴你"點擊這里會打開一個訂單頁面";或者在機器人執(zhí)行任務(wù)前,它能準(zhǔn)確預(yù)測機器人的動作會導(dǎo)致什么變化。這正是"世界模型"的核心功能——預(yù)測在特定行動后,環(huán)境將如何變化。
世界模型就像是智能系統(tǒng)的"想象力",讓它能夠在實際行動前先在"腦海中"模擬可能的結(jié)果。這種能力對于自動駕駛汽車、網(wǎng)絡(luò)瀏覽助手、機器人等智能系統(tǒng)至關(guān)重要。當(dāng)一個自動駕駛系統(tǒng)能夠預(yù)測不同行駛路徑的后果時,它才能做出安全的決策;當(dāng)一個網(wǎng)絡(luò)助手能預(yù)測點擊不同按鈕的結(jié)果時,它才能有效地幫助用戶導(dǎo)航網(wǎng)頁。
然而,訓(xùn)練世界模型面臨著一個根本性的挑戰(zhàn):傳統(tǒng)訓(xùn)練方法與實際應(yīng)用目標(biāo)存在脫節(jié)。大多數(shù)世界模型使用"最大似然估計"(MLE)等方法訓(xùn)練,這些方法擅長讓模型學(xué)習(xí)數(shù)據(jù)的整體分布,但并不直接優(yōu)化用戶真正關(guān)心的指標(biāo),比如預(yù)測的準(zhǔn)確性或視覺質(zhì)量。
清華大學(xué)的研究團隊針對這一問題提出了一個名為"RLVR-World"的創(chuàng)新框架。這個框架使用"可驗證獎勵的強化學(xué)習(xí)"(RLVR)技術(shù),直接優(yōu)化世界模型在實際應(yīng)用中最關(guān)心的指標(biāo)。簡單來說,這就像是從"學(xué)習(xí)所有可能的情況"轉(zhuǎn)變?yōu)?專注學(xué)習(xí)最重要的情況",使模型的訓(xùn)練目標(biāo)與實際應(yīng)用需求直接對齊。
世界模型的基本概念:理解環(huán)境變化的"超級預(yù)測器"
在深入了解RLVR-World之前,我們需要先理解什么是世界模型。想象你在玩一個電子游戲,每次按下控制器上的按鈕,游戲中的角色就會做出相應(yīng)的動作,環(huán)境也會隨之變化。世界模型就像是一個超級預(yù)測器,它觀察當(dāng)前的游戲畫面和你即將按下的按鈕,然后預(yù)測下一個畫面會是什么樣子。
在技術(shù)術(shù)語中,世界模型試圖學(xué)習(xí)狀態(tài)轉(zhuǎn)移函數(shù)p(s'|s,a),其中s是當(dāng)前狀態(tài),a是行動,s'是下一個狀態(tài)。這個函數(shù)描述了在當(dāng)前狀態(tài)下采取某個行動后,環(huán)境會如何變化。
傳統(tǒng)上,世界模型通常使用最大似然估計(MLE)等方法訓(xùn)練。這就像是讓模型不斷預(yù)測"按下這個按鈕后,游戲畫面最可能是什么樣子",然后通過比較預(yù)測和實際結(jié)果來調(diào)整模型。這種方法在理論上很合理,但實際上存在問題。
例如,在視頻預(yù)測任務(wù)中,使用像均方誤差這樣的傳統(tǒng)損失函數(shù)往往會導(dǎo)致模型生成模糊的圖像,因為模型在嘗試平均所有可能的結(jié)果。在語言模型中,這種訓(xùn)練方式可能導(dǎo)致重復(fù)或幻覺等問題。簡單來說,傳統(tǒng)方法讓模型學(xué)會了"猜測平均情況",而不是"準(zhǔn)確預(yù)測具體情況"。
RLVR-World:直接優(yōu)化用戶關(guān)心的指標(biāo)
清華大學(xué)研究團隊提出的RLVR-World框架采用了一種完全不同的訓(xùn)練思路。不再專注于讓模型學(xué)習(xí)數(shù)據(jù)的整體分布,而是直接優(yōu)化用戶真正關(guān)心的指標(biāo),如預(yù)測的準(zhǔn)確性或視覺質(zhì)量。
這種方法的關(guān)鍵在于使用"可驗證獎勵的強化學(xué)習(xí)"(RLVR)。強化學(xué)習(xí)是一種讓模型通過"嘗試和反饋"來學(xué)習(xí)的方法,就像訓(xùn)練寵物一樣——當(dāng)寵物做對事情時給予獎勵,做錯時給予糾正。在RLVR-World中,模型得到的"獎勵"直接基于預(yù)測的質(zhì)量指標(biāo),比如文本預(yù)測的準(zhǔn)確率或視頻預(yù)測的視覺質(zhì)量。
具體來說,RLVR-World的工作流程如下:
首先,研究團隊將不同類型的世界模型(如處理文本、視頻等)統(tǒng)一到一個通用的序列建??蚣苤?。無論是文本狀態(tài)、視頻畫面還是機器人的傳感器數(shù)據(jù),都被轉(zhuǎn)換為一系列的"令牌"(tokens)。
然后,模型使用傳統(tǒng)方法(如MLE)進(jìn)行初步訓(xùn)練,學(xué)習(xí)基本的預(yù)測能力。這就像是先教會一個學(xué)生基礎(chǔ)知識,為更高級的學(xué)習(xí)打下基礎(chǔ)。
最后,模型通過RLVR進(jìn)行"微調(diào)"(fine-tuning),直接優(yōu)化用戶關(guān)心的指標(biāo)。模型生成多個可能的預(yù)測,然后根據(jù)這些預(yù)測的質(zhì)量獲得"獎勵",并據(jù)此調(diào)整自己的參數(shù)。這就像是讓學(xué)生不僅掌握知識,還能針對特定考試類型進(jìn)行專門訓(xùn)練。
這種方法的優(yōu)勢在于,它能夠讓模型的訓(xùn)練目標(biāo)與實際應(yīng)用需求直接對齊。例如,如果用戶關(guān)心的是視頻預(yù)測的視覺質(zhì)量,模型就會專門優(yōu)化這一指標(biāo),而不是盲目地追求統(tǒng)計上的"平均正確"。
RLVR-World在文本世界模型上的應(yīng)用
研究團隊首先在語言世界模型上測試了RLVR-World框架,特別是在兩個任務(wù)上:文字游戲狀態(tài)預(yù)測和網(wǎng)頁導(dǎo)航。
在文字游戲狀態(tài)預(yù)測任務(wù)中,模型需要根據(jù)游戲當(dāng)前狀態(tài)和玩家行動預(yù)測游戲的下一個狀態(tài)。例如,如果當(dāng)前游戲中有一個臟盤子,玩家的行動是"清洗盤子",模型需要預(yù)測下一個狀態(tài)中盤子會變干凈。
研究團隊使用DeepSeek-R1-Distill-Qwen-1.5B作為基礎(chǔ)模型,并進(jìn)行了監(jiān)督微調(diào)(SFT)和RLVR微調(diào)。結(jié)果顯示,與僅使用SFT的模型相比,使用RLVR微調(diào)的模型在不變案例(玩家行動不改變游戲狀態(tài))上準(zhǔn)確率提高了34.7%,在變化案例(玩家行動改變游戲狀態(tài))上準(zhǔn)確率提高了8.9%。使用任務(wù)特定獎勵函數(shù)時,性能提升更顯著,不變案例準(zhǔn)確率提高44.8%,變化案例準(zhǔn)確率提高9.6%。這使得這個相對小型的1.5B參數(shù)模型在總體性能上能夠接近GPT-4,盡管在處理復(fù)雜變化案例時仍有差距。
在網(wǎng)頁導(dǎo)航任務(wù)中,模型需要預(yù)測用戶在網(wǎng)頁上執(zhí)行某個操作(如點擊按鈕)后,網(wǎng)頁狀態(tài)的變化。研究團隊同樣使用DeepSeek-R1-Distill-Qwen-1.5B作為基礎(chǔ)模型,并進(jìn)行了SFT和RLVR微調(diào)。結(jié)果顯示,RLVR微調(diào)使模型的精確率提高了48.5%,F(xiàn)1分?jǐn)?shù)提高了30.3%。
更重要的是,這些增強的語言世界模型在實際應(yīng)用中表現(xiàn)出明顯優(yōu)勢。研究團隊構(gòu)建了一個使用模型預(yù)測控制(MPC)的網(wǎng)頁代理,該代理使用世界模型來預(yù)測不同行動的結(jié)果,并選擇最佳行動。使用RLVR微調(diào)的世界模型使網(wǎng)頁代理的成功率提高了18.4%。
這些結(jié)果證明,RLVR不僅在數(shù)學(xué)和編碼等推理任務(wù)上有效,在世界建模這類涉及狀態(tài)轉(zhuǎn)換預(yù)測的任務(wù)上同樣有效。簡單來說,RLVR讓語言模型更好地理解"如果做A,會發(fā)生B"這類因果關(guān)系。
RLVR-World在視頻世界模型上的應(yīng)用
除了文本世界模型,研究團隊還在視頻世界模型上測試了RLVR-World框架,這是一個更具挑戰(zhàn)性的領(lǐng)域。
在機器人操作軌跡預(yù)測任務(wù)中,模型需要根據(jù)當(dāng)前觀察和未來行動預(yù)測機器人操作的視覺結(jié)果。研究團隊使用RT-1數(shù)據(jù)集,該數(shù)據(jù)集包含機器人在桌面環(huán)境中執(zhí)行各種任務(wù)的視頻記錄。
他們測試了兩種預(yù)測設(shè)置:單步預(yù)測(預(yù)測下一幀)和多步預(yù)測(預(yù)測未來七幀)。在這兩種設(shè)置下,RLVR微調(diào)都顯著提高了模型性能。在單步預(yù)測中,平均平方誤差(MSE)降低了14.3%,感知質(zhì)量指標(biāo)LPIPS提高了6.0%。在多步預(yù)測中,MSE降低了26.1%,LPIPS提高了9.2%。
特別值得注意的是,RLVR還有效解決了視頻預(yù)測中的重復(fù)問題。在多步預(yù)測中,基礎(chǔ)模型傾向于簡單地重復(fù)前一幀,導(dǎo)致48.6%的重復(fù)率。而使用RLVR微調(diào)后,重復(fù)率大幅降低至9.9%。這表明RLVR能夠鼓勵模型產(chǎn)生更多樣化、更準(zhǔn)確的預(yù)測。
另一個引人注目的發(fā)現(xiàn)是,RLVR微調(diào)只需要幾百個梯度步驟就能實現(xiàn)顯著改進(jìn),而傳統(tǒng)的MLE訓(xùn)練需要數(shù)十萬步。這表明RLVR提供了一種非常高效的訓(xùn)練方法,特別適合微調(diào)預(yù)訓(xùn)練模型。
此外,研究團隊還發(fā)現(xiàn),使用不同視覺指標(biāo)(如MAE、MSE、PSNR、SSIM、LPIPS)作為獎勵函數(shù)微調(diào)的模型,在各自的指標(biāo)上表現(xiàn)最好。這進(jìn)一步證明了RLVR能夠直接優(yōu)化用戶關(guān)心的特定指標(biāo)。
實際應(yīng)用:從模型到現(xiàn)實世界
強化后的視頻世界模型不僅在預(yù)測任務(wù)上表現(xiàn)優(yōu)異,在實際應(yīng)用中也展現(xiàn)出價值。研究團隊使用這些模型進(jìn)行了"Real2Sim策略評估",即在模擬環(huán)境中評估機器人策略的有效性。
在這項任務(wù)中,模型需要模擬機器人執(zhí)行特定任務(wù)(如打開抽屜)的結(jié)果。研究顯示,與手工設(shè)計的SIMPLER模擬器相比,視頻世界模型在真實世界和模擬結(jié)果之間產(chǎn)生的差異更小,表明它們能夠更準(zhǔn)確地模擬現(xiàn)實世界。而使用RLVR微調(diào)的世界模型進(jìn)一步提高了模擬的準(zhǔn)確性。
這一發(fā)現(xiàn)具有重要的實際意義。在機器人學(xué)習(xí)中,真實世界的試驗往往成本高昂且耗時。如果能夠在準(zhǔn)確的模擬環(huán)境中評估和改進(jìn)機器人策略,將大大加速機器人學(xué)習(xí)過程,降低成本。
研究的局限性與未來方向
盡管RLVR-World展示了令人印象深刻的成果,但研究團隊也坦率地指出了幾個仍需解決的挑戰(zhàn):
首先,如何設(shè)計更好的任務(wù)對齊獎勵函數(shù)仍是一個開放問題。雖然傳統(tǒng)的視覺指標(biāo)(如MSE、LPIPS)比MLE更符合世界建模任務(wù),但它們?nèi)晕赐耆蹲接脩舻钠谕|(zhì)量。未來的研究可能需要納入物理規(guī)則和時間一致性等約束,設(shè)計更復(fù)雜的獎勵函數(shù)。
其次,盡管RLVR帶來了顯著改進(jìn),但訓(xùn)練通常在幾百步內(nèi)就趨于收斂,難以持續(xù)提升。了解模型、數(shù)據(jù)和算法中的瓶頸,可能是突破這一限制的關(guān)鍵。
第三,模型在分布外(OOD)數(shù)據(jù)上的泛化能力仍需探索。特別是在序列決策中,模型對分布外行動的反事實推理能力非常重要。
這些挑戰(zhàn)為未來研究提供了明確的方向,也表明RLVR-World框架雖有突破,但仍有很大的發(fā)展空間。
總結(jié):強化學(xué)習(xí)開啟世界模型的新時代
歸根結(jié)底,清華大學(xué)研究團隊提出的RLVR-World框架代表了世界模型訓(xùn)練的一個重要范式轉(zhuǎn)變。不再局限于傳統(tǒng)的最大似然估計等方法,而是直接優(yōu)化用戶真正關(guān)心的指標(biāo),讓模型的訓(xùn)練目標(biāo)與實際應(yīng)用需求直接對齊。
這一框架在語言和視頻世界模型上都取得了顯著成功,在文本游戲狀態(tài)預(yù)測、網(wǎng)頁導(dǎo)航和機器人操作軌跡預(yù)測等任務(wù)上均實現(xiàn)了大幅度的性能提升。特別是,它能夠有效解決傳統(tǒng)方法中的重復(fù)和模糊等問題,生成更準(zhǔn)確、更清晰的預(yù)測。
更重要的是,RLVR-World提供了一種高效的訓(xùn)練方法,只需幾百個梯度步驟就能顯著改進(jìn)預(yù)訓(xùn)練模型的性能。這對于實際應(yīng)用特別有價值,因為它允許研究者和開發(fā)者快速適應(yīng)特定任務(wù)的需求。
隨著人工智能技術(shù)向更復(fù)雜的實際應(yīng)用發(fā)展,準(zhǔn)確預(yù)測環(huán)境變化的能力變得越來越重要。RLVR-World為構(gòu)建更強大、更實用的世界模型提供了一條有前途的路徑,有望推動自動駕駛、機器人控制、網(wǎng)頁導(dǎo)航等領(lǐng)域的進(jìn)步。
正如研究團隊所指出的,RLVR不僅適用于世界模型,還可能成為生成模型更廣泛的后訓(xùn)練范式。它為提升生成模型的實用性提供了一種通用的方法,有望在更多領(lǐng)域產(chǎn)生影響。
對于想深入了解這項研究的讀者,可以訪問項目網(wǎng)站https://thuml.github.io/RLVR-World獲取更多信息,或查閱完整論文了解技術(shù)細(xì)節(jié)。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學(xué)習(xí)外觀和運動信息,顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報,準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。