這項(xiàng)由清華大學(xué)軟件學(xué)院Jialong Wu、Shaofeng Yin、Ningya Feng和Mingsheng Long教授共同完成的研究,于2025年5月20日在arXiv(arXiv:2505.13934v1)上發(fā)表。感興趣的讀者可以通過清華大學(xué)機(jī)器學(xué)習(xí)研究團(tuán)隊(duì)(THUML)的項(xiàng)目網(wǎng)站https://thuml.github.io/RLVR-World獲取更多信息。
為什么這項(xiàng)研究如此重要?
想象一下,如果你的智能助手不僅能回答問題,還能預(yù)測你的行為會(huì)產(chǎn)生什么結(jié)果。比如,在你點(diǎn)擊網(wǎng)頁上的某個(gè)按鈕前,它能先告訴你"點(diǎn)擊這里會(huì)打開一個(gè)訂單頁面";或者在機(jī)器人執(zhí)行任務(wù)前,它能準(zhǔn)確預(yù)測機(jī)器人的動(dòng)作會(huì)導(dǎo)致什么變化。這正是"世界模型"的核心功能——預(yù)測在特定行動(dòng)后,環(huán)境將如何變化。
世界模型就像是智能系統(tǒng)的"想象力",讓它能夠在實(shí)際行動(dòng)前先在"腦海中"模擬可能的結(jié)果。這種能力對(duì)于自動(dòng)駕駛汽車、網(wǎng)絡(luò)瀏覽助手、機(jī)器人等智能系統(tǒng)至關(guān)重要。當(dāng)一個(gè)自動(dòng)駕駛系統(tǒng)能夠預(yù)測不同行駛路徑的后果時(shí),它才能做出安全的決策;當(dāng)一個(gè)網(wǎng)絡(luò)助手能預(yù)測點(diǎn)擊不同按鈕的結(jié)果時(shí),它才能有效地幫助用戶導(dǎo)航網(wǎng)頁。
然而,訓(xùn)練世界模型面臨著一個(gè)根本性的挑戰(zhàn):傳統(tǒng)訓(xùn)練方法與實(shí)際應(yīng)用目標(biāo)存在脫節(jié)。大多數(shù)世界模型使用"最大似然估計(jì)"(MLE)等方法訓(xùn)練,這些方法擅長讓模型學(xué)習(xí)數(shù)據(jù)的整體分布,但并不直接優(yōu)化用戶真正關(guān)心的指標(biāo),比如預(yù)測的準(zhǔn)確性或視覺質(zhì)量。
清華大學(xué)的研究團(tuán)隊(duì)針對(duì)這一問題提出了一個(gè)名為"RLVR-World"的創(chuàng)新框架。這個(gè)框架使用"可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)"(RLVR)技術(shù),直接優(yōu)化世界模型在實(shí)際應(yīng)用中最關(guān)心的指標(biāo)。簡單來說,這就像是從"學(xué)習(xí)所有可能的情況"轉(zhuǎn)變?yōu)?專注學(xué)習(xí)最重要的情況",使模型的訓(xùn)練目標(biāo)與實(shí)際應(yīng)用需求直接對(duì)齊。
世界模型的基本概念:理解環(huán)境變化的"超級(jí)預(yù)測器"
在深入了解RLVR-World之前,我們需要先理解什么是世界模型。想象你在玩一個(gè)電子游戲,每次按下控制器上的按鈕,游戲中的角色就會(huì)做出相應(yīng)的動(dòng)作,環(huán)境也會(huì)隨之變化。世界模型就像是一個(gè)超級(jí)預(yù)測器,它觀察當(dāng)前的游戲畫面和你即將按下的按鈕,然后預(yù)測下一個(gè)畫面會(huì)是什么樣子。
在技術(shù)術(shù)語中,世界模型試圖學(xué)習(xí)狀態(tài)轉(zhuǎn)移函數(shù)p(s'|s,a),其中s是當(dāng)前狀態(tài),a是行動(dòng),s'是下一個(gè)狀態(tài)。這個(gè)函數(shù)描述了在當(dāng)前狀態(tài)下采取某個(gè)行動(dòng)后,環(huán)境會(huì)如何變化。
傳統(tǒng)上,世界模型通常使用最大似然估計(jì)(MLE)等方法訓(xùn)練。這就像是讓模型不斷預(yù)測"按下這個(gè)按鈕后,游戲畫面最可能是什么樣子",然后通過比較預(yù)測和實(shí)際結(jié)果來調(diào)整模型。這種方法在理論上很合理,但實(shí)際上存在問題。
例如,在視頻預(yù)測任務(wù)中,使用像均方誤差這樣的傳統(tǒng)損失函數(shù)往往會(huì)導(dǎo)致模型生成模糊的圖像,因?yàn)槟P驮趪L試平均所有可能的結(jié)果。在語言模型中,這種訓(xùn)練方式可能導(dǎo)致重復(fù)或幻覺等問題。簡單來說,傳統(tǒng)方法讓模型學(xué)會(huì)了"猜測平均情況",而不是"準(zhǔn)確預(yù)測具體情況"。
RLVR-World:直接優(yōu)化用戶關(guān)心的指標(biāo)
清華大學(xué)研究團(tuán)隊(duì)提出的RLVR-World框架采用了一種完全不同的訓(xùn)練思路。不再專注于讓模型學(xué)習(xí)數(shù)據(jù)的整體分布,而是直接優(yōu)化用戶真正關(guān)心的指標(biāo),如預(yù)測的準(zhǔn)確性或視覺質(zhì)量。
這種方法的關(guān)鍵在于使用"可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)"(RLVR)。強(qiáng)化學(xué)習(xí)是一種讓模型通過"嘗試和反饋"來學(xué)習(xí)的方法,就像訓(xùn)練寵物一樣——當(dāng)寵物做對(duì)事情時(shí)給予獎(jiǎng)勵(lì),做錯(cuò)時(shí)給予糾正。在RLVR-World中,模型得到的"獎(jiǎng)勵(lì)"直接基于預(yù)測的質(zhì)量指標(biāo),比如文本預(yù)測的準(zhǔn)確率或視頻預(yù)測的視覺質(zhì)量。
具體來說,RLVR-World的工作流程如下:
首先,研究團(tuán)隊(duì)將不同類型的世界模型(如處理文本、視頻等)統(tǒng)一到一個(gè)通用的序列建??蚣苤?。無論是文本狀態(tài)、視頻畫面還是機(jī)器人的傳感器數(shù)據(jù),都被轉(zhuǎn)換為一系列的"令牌"(tokens)。
然后,模型使用傳統(tǒng)方法(如MLE)進(jìn)行初步訓(xùn)練,學(xué)習(xí)基本的預(yù)測能力。這就像是先教會(huì)一個(gè)學(xué)生基礎(chǔ)知識(shí),為更高級(jí)的學(xué)習(xí)打下基礎(chǔ)。
最后,模型通過RLVR進(jìn)行"微調(diào)"(fine-tuning),直接優(yōu)化用戶關(guān)心的指標(biāo)。模型生成多個(gè)可能的預(yù)測,然后根據(jù)這些預(yù)測的質(zhì)量獲得"獎(jiǎng)勵(lì)",并據(jù)此調(diào)整自己的參數(shù)。這就像是讓學(xué)生不僅掌握知識(shí),還能針對(duì)特定考試類型進(jìn)行專門訓(xùn)練。
這種方法的優(yōu)勢在于,它能夠讓模型的訓(xùn)練目標(biāo)與實(shí)際應(yīng)用需求直接對(duì)齊。例如,如果用戶關(guān)心的是視頻預(yù)測的視覺質(zhì)量,模型就會(huì)專門優(yōu)化這一指標(biāo),而不是盲目地追求統(tǒng)計(jì)上的"平均正確"。
RLVR-World在文本世界模型上的應(yīng)用
研究團(tuán)隊(duì)首先在語言世界模型上測試了RLVR-World框架,特別是在兩個(gè)任務(wù)上:文字游戲狀態(tài)預(yù)測和網(wǎng)頁導(dǎo)航。
在文字游戲狀態(tài)預(yù)測任務(wù)中,模型需要根據(jù)游戲當(dāng)前狀態(tài)和玩家行動(dòng)預(yù)測游戲的下一個(gè)狀態(tài)。例如,如果當(dāng)前游戲中有一個(gè)臟盤子,玩家的行動(dòng)是"清洗盤子",模型需要預(yù)測下一個(gè)狀態(tài)中盤子會(huì)變干凈。
研究團(tuán)隊(duì)使用DeepSeek-R1-Distill-Qwen-1.5B作為基礎(chǔ)模型,并進(jìn)行了監(jiān)督微調(diào)(SFT)和RLVR微調(diào)。結(jié)果顯示,與僅使用SFT的模型相比,使用RLVR微調(diào)的模型在不變案例(玩家行動(dòng)不改變游戲狀態(tài))上準(zhǔn)確率提高了34.7%,在變化案例(玩家行動(dòng)改變游戲狀態(tài))上準(zhǔn)確率提高了8.9%。使用任務(wù)特定獎(jiǎng)勵(lì)函數(shù)時(shí),性能提升更顯著,不變案例準(zhǔn)確率提高44.8%,變化案例準(zhǔn)確率提高9.6%。這使得這個(gè)相對(duì)小型的1.5B參數(shù)模型在總體性能上能夠接近GPT-4,盡管在處理復(fù)雜變化案例時(shí)仍有差距。
在網(wǎng)頁導(dǎo)航任務(wù)中,模型需要預(yù)測用戶在網(wǎng)頁上執(zhí)行某個(gè)操作(如點(diǎn)擊按鈕)后,網(wǎng)頁狀態(tài)的變化。研究團(tuán)隊(duì)同樣使用DeepSeek-R1-Distill-Qwen-1.5B作為基礎(chǔ)模型,并進(jìn)行了SFT和RLVR微調(diào)。結(jié)果顯示,RLVR微調(diào)使模型的精確率提高了48.5%,F(xiàn)1分?jǐn)?shù)提高了30.3%。
更重要的是,這些增強(qiáng)的語言世界模型在實(shí)際應(yīng)用中表現(xiàn)出明顯優(yōu)勢。研究團(tuán)隊(duì)構(gòu)建了一個(gè)使用模型預(yù)測控制(MPC)的網(wǎng)頁代理,該代理使用世界模型來預(yù)測不同行動(dòng)的結(jié)果,并選擇最佳行動(dòng)。使用RLVR微調(diào)的世界模型使網(wǎng)頁代理的成功率提高了18.4%。
這些結(jié)果證明,RLVR不僅在數(shù)學(xué)和編碼等推理任務(wù)上有效,在世界建模這類涉及狀態(tài)轉(zhuǎn)換預(yù)測的任務(wù)上同樣有效。簡單來說,RLVR讓語言模型更好地理解"如果做A,會(huì)發(fā)生B"這類因果關(guān)系。
RLVR-World在視頻世界模型上的應(yīng)用
除了文本世界模型,研究團(tuán)隊(duì)還在視頻世界模型上測試了RLVR-World框架,這是一個(gè)更具挑戰(zhàn)性的領(lǐng)域。
在機(jī)器人操作軌跡預(yù)測任務(wù)中,模型需要根據(jù)當(dāng)前觀察和未來行動(dòng)預(yù)測機(jī)器人操作的視覺結(jié)果。研究團(tuán)隊(duì)使用RT-1數(shù)據(jù)集,該數(shù)據(jù)集包含機(jī)器人在桌面環(huán)境中執(zhí)行各種任務(wù)的視頻記錄。
他們測試了兩種預(yù)測設(shè)置:單步預(yù)測(預(yù)測下一幀)和多步預(yù)測(預(yù)測未來七幀)。在這兩種設(shè)置下,RLVR微調(diào)都顯著提高了模型性能。在單步預(yù)測中,平均平方誤差(MSE)降低了14.3%,感知質(zhì)量指標(biāo)LPIPS提高了6.0%。在多步預(yù)測中,MSE降低了26.1%,LPIPS提高了9.2%。
特別值得注意的是,RLVR還有效解決了視頻預(yù)測中的重復(fù)問題。在多步預(yù)測中,基礎(chǔ)模型傾向于簡單地重復(fù)前一幀,導(dǎo)致48.6%的重復(fù)率。而使用RLVR微調(diào)后,重復(fù)率大幅降低至9.9%。這表明RLVR能夠鼓勵(lì)模型產(chǎn)生更多樣化、更準(zhǔn)確的預(yù)測。
另一個(gè)引人注目的發(fā)現(xiàn)是,RLVR微調(diào)只需要幾百個(gè)梯度步驟就能實(shí)現(xiàn)顯著改進(jìn),而傳統(tǒng)的MLE訓(xùn)練需要數(shù)十萬步。這表明RLVR提供了一種非常高效的訓(xùn)練方法,特別適合微調(diào)預(yù)訓(xùn)練模型。
此外,研究團(tuán)隊(duì)還發(fā)現(xiàn),使用不同視覺指標(biāo)(如MAE、MSE、PSNR、SSIM、LPIPS)作為獎(jiǎng)勵(lì)函數(shù)微調(diào)的模型,在各自的指標(biāo)上表現(xiàn)最好。這進(jìn)一步證明了RLVR能夠直接優(yōu)化用戶關(guān)心的特定指標(biāo)。
實(shí)際應(yīng)用:從模型到現(xiàn)實(shí)世界
強(qiáng)化后的視頻世界模型不僅在預(yù)測任務(wù)上表現(xiàn)優(yōu)異,在實(shí)際應(yīng)用中也展現(xiàn)出價(jià)值。研究團(tuán)隊(duì)使用這些模型進(jìn)行了"Real2Sim策略評(píng)估",即在模擬環(huán)境中評(píng)估機(jī)器人策略的有效性。
在這項(xiàng)任務(wù)中,模型需要模擬機(jī)器人執(zhí)行特定任務(wù)(如打開抽屜)的結(jié)果。研究顯示,與手工設(shè)計(jì)的SIMPLER模擬器相比,視頻世界模型在真實(shí)世界和模擬結(jié)果之間產(chǎn)生的差異更小,表明它們能夠更準(zhǔn)確地模擬現(xiàn)實(shí)世界。而使用RLVR微調(diào)的世界模型進(jìn)一步提高了模擬的準(zhǔn)確性。
這一發(fā)現(xiàn)具有重要的實(shí)際意義。在機(jī)器人學(xué)習(xí)中,真實(shí)世界的試驗(yàn)往往成本高昂且耗時(shí)。如果能夠在準(zhǔn)確的模擬環(huán)境中評(píng)估和改進(jìn)機(jī)器人策略,將大大加速機(jī)器人學(xué)習(xí)過程,降低成本。
研究的局限性與未來方向
盡管RLVR-World展示了令人印象深刻的成果,但研究團(tuán)隊(duì)也坦率地指出了幾個(gè)仍需解決的挑戰(zhàn):
首先,如何設(shè)計(jì)更好的任務(wù)對(duì)齊獎(jiǎng)勵(lì)函數(shù)仍是一個(gè)開放問題。雖然傳統(tǒng)的視覺指標(biāo)(如MSE、LPIPS)比MLE更符合世界建模任務(wù),但它們?nèi)晕赐耆蹲接脩舻钠谕|(zhì)量。未來的研究可能需要納入物理規(guī)則和時(shí)間一致性等約束,設(shè)計(jì)更復(fù)雜的獎(jiǎng)勵(lì)函數(shù)。
其次,盡管RLVR帶來了顯著改進(jìn),但訓(xùn)練通常在幾百步內(nèi)就趨于收斂,難以持續(xù)提升。了解模型、數(shù)據(jù)和算法中的瓶頸,可能是突破這一限制的關(guān)鍵。
第三,模型在分布外(OOD)數(shù)據(jù)上的泛化能力仍需探索。特別是在序列決策中,模型對(duì)分布外行動(dòng)的反事實(shí)推理能力非常重要。
這些挑戰(zhàn)為未來研究提供了明確的方向,也表明RLVR-World框架雖有突破,但仍有很大的發(fā)展空間。
總結(jié):強(qiáng)化學(xué)習(xí)開啟世界模型的新時(shí)代
歸根結(jié)底,清華大學(xué)研究團(tuán)隊(duì)提出的RLVR-World框架代表了世界模型訓(xùn)練的一個(gè)重要范式轉(zhuǎn)變。不再局限于傳統(tǒng)的最大似然估計(jì)等方法,而是直接優(yōu)化用戶真正關(guān)心的指標(biāo),讓模型的訓(xùn)練目標(biāo)與實(shí)際應(yīng)用需求直接對(duì)齊。
這一框架在語言和視頻世界模型上都取得了顯著成功,在文本游戲狀態(tài)預(yù)測、網(wǎng)頁導(dǎo)航和機(jī)器人操作軌跡預(yù)測等任務(wù)上均實(shí)現(xiàn)了大幅度的性能提升。特別是,它能夠有效解決傳統(tǒng)方法中的重復(fù)和模糊等問題,生成更準(zhǔn)確、更清晰的預(yù)測。
更重要的是,RLVR-World提供了一種高效的訓(xùn)練方法,只需幾百個(gè)梯度步驟就能顯著改進(jìn)預(yù)訓(xùn)練模型的性能。這對(duì)于實(shí)際應(yīng)用特別有價(jià)值,因?yàn)樗试S研究者和開發(fā)者快速適應(yīng)特定任務(wù)的需求。
隨著人工智能技術(shù)向更復(fù)雜的實(shí)際應(yīng)用發(fā)展,準(zhǔn)確預(yù)測環(huán)境變化的能力變得越來越重要。RLVR-World為構(gòu)建更強(qiáng)大、更實(shí)用的世界模型提供了一條有前途的路徑,有望推動(dòng)自動(dòng)駕駛、機(jī)器人控制、網(wǎng)頁導(dǎo)航等領(lǐng)域的進(jìn)步。
正如研究團(tuán)隊(duì)所指出的,RLVR不僅適用于世界模型,還可能成為生成模型更廣泛的后訓(xùn)練范式。它為提升生成模型的實(shí)用性提供了一種通用的方法,有望在更多領(lǐng)域產(chǎn)生影響。
對(duì)于想深入了解這項(xiàng)研究的讀者,可以訪問項(xiàng)目網(wǎng)站https://thuml.github.io/RLVR-World獲取更多信息,或查閱完整論文了解技術(shù)細(xì)節(jié)。
好文章,需要你的鼓勵(lì)
新加坡國立大學(xué)研究團(tuán)隊(duì)開發(fā)了SPIRAL框架,通過讓AI與自己對(duì)弈零和游戲來提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。