av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<del id="68afa"><ul id="68afa"></ul></del>

微信掃一掃，關(guān)注公眾號

科技行者
算力行者

見證連接與計算的「力量」

RLVR-World：用強化學(xué)習(xí)訓(xùn)練世界模型，突破視覺和語言邊界的突破性研究

世界模型強化學(xué)習(xí)預(yù)測優(yōu)化

RLVR-World：用強化學(xué)習(xí)訓(xùn)練世界模型，突破視覺和語言邊界的突破性研究

作者：科技行者

2025-05-27 11:07

分享至：

清華大學(xué)研究團隊提出RLVR-World框架，通過可驗證獎勵的強化學(xué)習(xí)直接優(yōu)化世界模型的預(yù)測質(zhì)量，而非傳統(tǒng)的最大似然估計。這一方法在文本游戲狀態(tài)預(yù)測和網(wǎng)頁導(dǎo)航中顯著提升了準(zhǔn)確率，在機器人視頻預(yù)測中改善了視覺質(zhì)量并減少重復(fù)問題。RLVR微調(diào)僅需幾百個梯度步驟即可取得顯著成效，遠(yuǎn)比傳統(tǒng)訓(xùn)練高效。研究證明該框架可作為生成模型的通用后訓(xùn)練范式，為自動駕駛、機器人控制等應(yīng)用提供更準(zhǔn)確的環(huán)境預(yù)測能力。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-05-27 11:07 ? 科技行者

這項由清華大學(xué)軟件學(xué)院Jialong Wu、Shaofeng Yin、Ningya Feng和Mingsheng Long教授共同完成的研究，于2025年5月20日在arXiv（arXiv:2505.13934v1）上發(fā)表。感興趣的讀者可以通過清華大學(xué)機器學(xué)習(xí)研究團隊（THUML）的項目網(wǎng)站https://thuml.github.io/RLVR-World獲取更多信息。

為什么這項研究如此重要？

想象一下，如果你的智能助手不僅能回答問題，還能預(yù)測你的行為會產(chǎn)生什么結(jié)果。比如，在你點擊網(wǎng)頁上的某個按鈕前，它能先告訴你"點擊這里會打開一個訂單頁面"；或者在機器人執(zhí)行任務(wù)前，它能準(zhǔn)確預(yù)測機器人的動作會導(dǎo)致什么變化。這正是"世界模型"的核心功能——預(yù)測在特定行動后，環(huán)境將如何變化。

世界模型就像是智能系統(tǒng)的"想象力"，讓它能夠在實際行動前先在"腦海中"模擬可能的結(jié)果。這種能力對于自動駕駛汽車、網(wǎng)絡(luò)瀏覽助手、機器人等智能系統(tǒng)至關(guān)重要。當(dāng)一個自動駕駛系統(tǒng)能夠預(yù)測不同行駛路徑的后果時，它才能做出安全的決策；當(dāng)一個網(wǎng)絡(luò)助手能預(yù)測點擊不同按鈕的結(jié)果時，它才能有效地幫助用戶導(dǎo)航網(wǎng)頁。

然而，訓(xùn)練世界模型面臨著一個根本性的挑戰(zhàn)：傳統(tǒng)訓(xùn)練方法與實際應(yīng)用目標(biāo)存在脫節(jié)。大多數(shù)世界模型使用"最大似然估計"(MLE)等方法訓(xùn)練，這些方法擅長讓模型學(xué)習(xí)數(shù)據(jù)的整體分布，但并不直接優(yōu)化用戶真正關(guān)心的指標(biāo)，比如預(yù)測的準(zhǔn)確性或視覺質(zhì)量。

清華大學(xué)的研究團隊針對這一問題提出了一個名為"RLVR-World"的創(chuàng)新框架。這個框架使用"可驗證獎勵的強化學(xué)習(xí)"(RLVR)技術(shù)，直接優(yōu)化世界模型在實際應(yīng)用中最關(guān)心的指標(biāo)。簡單來說，這就像是從"學(xué)習(xí)所有可能的情況"轉(zhuǎn)變?yōu)?專注學(xué)習(xí)最重要的情況"，使模型的訓(xùn)練目標(biāo)與實際應(yīng)用需求直接對齊。

世界模型的基本概念：理解環(huán)境變化的"超級預(yù)測器"

在深入了解RLVR-World之前，我們需要先理解什么是世界模型。想象你在玩一個電子游戲，每次按下控制器上的按鈕，游戲中的角色就會做出相應(yīng)的動作，環(huán)境也會隨之變化。世界模型就像是一個超級預(yù)測器，它觀察當(dāng)前的游戲畫面和你即將按下的按鈕，然后預(yù)測下一個畫面會是什么樣子。

在技術(shù)術(shù)語中，世界模型試圖學(xué)習(xí)狀態(tài)轉(zhuǎn)移函數(shù)p(s'|s,a)，其中s是當(dāng)前狀態(tài)，a是行動，s'是下一個狀態(tài)。這個函數(shù)描述了在當(dāng)前狀態(tài)下采取某個行動后，環(huán)境會如何變化。

傳統(tǒng)上，世界模型通常使用最大似然估計(MLE)等方法訓(xùn)練。這就像是讓模型不斷預(yù)測"按下這個按鈕后，游戲畫面最可能是什么樣子"，然后通過比較預(yù)測和實際結(jié)果來調(diào)整模型。這種方法在理論上很合理，但實際上存在問題。

例如，在視頻預(yù)測任務(wù)中，使用像均方誤差這樣的傳統(tǒng)損失函數(shù)往往會導(dǎo)致模型生成模糊的圖像，因為模型在嘗試平均所有可能的結(jié)果。在語言模型中，這種訓(xùn)練方式可能導(dǎo)致重復(fù)或幻覺等問題。簡單來說，傳統(tǒng)方法讓模型學(xué)會了"猜測平均情況"，而不是"準(zhǔn)確預(yù)測具體情況"。

RLVR-World：直接優(yōu)化用戶關(guān)心的指標(biāo)

清華大學(xué)研究團隊提出的RLVR-World框架采用了一種完全不同的訓(xùn)練思路。不再專注于讓模型學(xué)習(xí)數(shù)據(jù)的整體分布，而是直接優(yōu)化用戶真正關(guān)心的指標(biāo)，如預(yù)測的準(zhǔn)確性或視覺質(zhì)量。

這種方法的關(guān)鍵在于使用"可驗證獎勵的強化學(xué)習(xí)"(RLVR)。強化學(xué)習(xí)是一種讓模型通過"嘗試和反饋"來學(xué)習(xí)的方法，就像訓(xùn)練寵物一樣——當(dāng)寵物做對事情時給予獎勵，做錯時給予糾正。在RLVR-World中，模型得到的"獎勵"直接基于預(yù)測的質(zhì)量指標(biāo)，比如文本預(yù)測的準(zhǔn)確率或視頻預(yù)測的視覺質(zhì)量。

具體來說，RLVR-World的工作流程如下：

首先，研究團隊將不同類型的世界模型（如處理文本、視頻等）統(tǒng)一到一個通用的序列建?？蚣苤?。無論是文本狀態(tài)、視頻畫面還是機器人的傳感器數(shù)據(jù)，都被轉(zhuǎn)換為一系列的"令牌"（tokens）。

然后，模型使用傳統(tǒng)方法（如MLE）進(jìn)行初步訓(xùn)練，學(xué)習(xí)基本的預(yù)測能力。這就像是先教會一個學(xué)生基礎(chǔ)知識，為更高級的學(xué)習(xí)打下基礎(chǔ)。

最后，模型通過RLVR進(jìn)行"微調(diào)"（fine-tuning），直接優(yōu)化用戶關(guān)心的指標(biāo)。模型生成多個可能的預(yù)測，然后根據(jù)這些預(yù)測的質(zhì)量獲得"獎勵"，并據(jù)此調(diào)整自己的參數(shù)。這就像是讓學(xué)生不僅掌握知識，還能針對特定考試類型進(jìn)行專門訓(xùn)練。

這種方法的優(yōu)勢在于，它能夠讓模型的訓(xùn)練目標(biāo)與實際應(yīng)用需求直接對齊。例如，如果用戶關(guān)心的是視頻預(yù)測的視覺質(zhì)量，模型就會專門優(yōu)化這一指標(biāo)，而不是盲目地追求統(tǒng)計上的"平均正確"。

RLVR-World在文本世界模型上的應(yīng)用

研究團隊首先在語言世界模型上測試了RLVR-World框架，特別是在兩個任務(wù)上：文字游戲狀態(tài)預(yù)測和網(wǎng)頁導(dǎo)航。

在文字游戲狀態(tài)預(yù)測任務(wù)中，模型需要根據(jù)游戲當(dāng)前狀態(tài)和玩家行動預(yù)測游戲的下一個狀態(tài)。例如，如果當(dāng)前游戲中有一個臟盤子，玩家的行動是"清洗盤子"，模型需要預(yù)測下一個狀態(tài)中盤子會變干凈。

研究團隊使用DeepSeek-R1-Distill-Qwen-1.5B作為基礎(chǔ)模型，并進(jìn)行了監(jiān)督微調(diào)(SFT)和RLVR微調(diào)。結(jié)果顯示，與僅使用SFT的模型相比，使用RLVR微調(diào)的模型在不變案例（玩家行動不改變游戲狀態(tài)）上準(zhǔn)確率提高了34.7%，在變化案例（玩家行動改變游戲狀態(tài)）上準(zhǔn)確率提高了8.9%。使用任務(wù)特定獎勵函數(shù)時，性能提升更顯著，不變案例準(zhǔn)確率提高44.8%，變化案例準(zhǔn)確率提高9.6%。這使得這個相對小型的1.5B參數(shù)模型在總體性能上能夠接近GPT-4，盡管在處理復(fù)雜變化案例時仍有差距。

在網(wǎng)頁導(dǎo)航任務(wù)中，模型需要預(yù)測用戶在網(wǎng)頁上執(zhí)行某個操作（如點擊按鈕）后，網(wǎng)頁狀態(tài)的變化。研究團隊同樣使用DeepSeek-R1-Distill-Qwen-1.5B作為基礎(chǔ)模型，并進(jìn)行了SFT和RLVR微調(diào)。結(jié)果顯示，RLVR微調(diào)使模型的精確率提高了48.5%，F(xiàn)1分?jǐn)?shù)提高了30.3%。

更重要的是，這些增強的語言世界模型在實際應(yīng)用中表現(xiàn)出明顯優(yōu)勢。研究團隊構(gòu)建了一個使用模型預(yù)測控制（MPC）的網(wǎng)頁代理，該代理使用世界模型來預(yù)測不同行動的結(jié)果，并選擇最佳行動。使用RLVR微調(diào)的世界模型使網(wǎng)頁代理的成功率提高了18.4%。

這些結(jié)果證明，RLVR不僅在數(shù)學(xué)和編碼等推理任務(wù)上有效，在世界建模這類涉及狀態(tài)轉(zhuǎn)換預(yù)測的任務(wù)上同樣有效。簡單來說，RLVR讓語言模型更好地理解"如果做A，會發(fā)生B"這類因果關(guān)系。

RLVR-World在視頻世界模型上的應(yīng)用

除了文本世界模型，研究團隊還在視頻世界模型上測試了RLVR-World框架，這是一個更具挑戰(zhàn)性的領(lǐng)域。

在機器人操作軌跡預(yù)測任務(wù)中，模型需要根據(jù)當(dāng)前觀察和未來行動預(yù)測機器人操作的視覺結(jié)果。研究團隊使用RT-1數(shù)據(jù)集，該數(shù)據(jù)集包含機器人在桌面環(huán)境中執(zhí)行各種任務(wù)的視頻記錄。

他們測試了兩種預(yù)測設(shè)置：單步預(yù)測（預(yù)測下一幀）和多步預(yù)測（預(yù)測未來七幀）。在這兩種設(shè)置下，RLVR微調(diào)都顯著提高了模型性能。在單步預(yù)測中，平均平方誤差(MSE)降低了14.3%，感知質(zhì)量指標(biāo)LPIPS提高了6.0%。在多步預(yù)測中，MSE降低了26.1%，LPIPS提高了9.2%。

特別值得注意的是，RLVR還有效解決了視頻預(yù)測中的重復(fù)問題。在多步預(yù)測中，基礎(chǔ)模型傾向于簡單地重復(fù)前一幀，導(dǎo)致48.6%的重復(fù)率。而使用RLVR微調(diào)后，重復(fù)率大幅降低至9.9%。這表明RLVR能夠鼓勵模型產(chǎn)生更多樣化、更準(zhǔn)確的預(yù)測。

另一個引人注目的發(fā)現(xiàn)是，RLVR微調(diào)只需要幾百個梯度步驟就能實現(xiàn)顯著改進(jìn)，而傳統(tǒng)的MLE訓(xùn)練需要數(shù)十萬步。這表明RLVR提供了一種非常高效的訓(xùn)練方法，特別適合微調(diào)預(yù)訓(xùn)練模型。

此外，研究團隊還發(fā)現(xiàn)，使用不同視覺指標(biāo)（如MAE、MSE、PSNR、SSIM、LPIPS）作為獎勵函數(shù)微調(diào)的模型，在各自的指標(biāo)上表現(xiàn)最好。這進(jìn)一步證明了RLVR能夠直接優(yōu)化用戶關(guān)心的特定指標(biāo)。

實際應(yīng)用：從模型到現(xiàn)實世界

強化后的視頻世界模型不僅在預(yù)測任務(wù)上表現(xiàn)優(yōu)異，在實際應(yīng)用中也展現(xiàn)出價值。研究團隊使用這些模型進(jìn)行了"Real2Sim策略評估"，即在模擬環(huán)境中評估機器人策略的有效性。

在這項任務(wù)中，模型需要模擬機器人執(zhí)行特定任務(wù)（如打開抽屜）的結(jié)果。研究顯示，與手工設(shè)計的SIMPLER模擬器相比，視頻世界模型在真實世界和模擬結(jié)果之間產(chǎn)生的差異更小，表明它們能夠更準(zhǔn)確地模擬現(xiàn)實世界。而使用RLVR微調(diào)的世界模型進(jìn)一步提高了模擬的準(zhǔn)確性。

這一發(fā)現(xiàn)具有重要的實際意義。在機器人學(xué)習(xí)中，真實世界的試驗往往成本高昂且耗時。如果能夠在準(zhǔn)確的模擬環(huán)境中評估和改進(jìn)機器人策略，將大大加速機器人學(xué)習(xí)過程，降低成本。

研究的局限性與未來方向

盡管RLVR-World展示了令人印象深刻的成果，但研究團隊也坦率地指出了幾個仍需解決的挑戰(zhàn)：

首先，如何設(shè)計更好的任務(wù)對齊獎勵函數(shù)仍是一個開放問題。雖然傳統(tǒng)的視覺指標(biāo)（如MSE、LPIPS）比MLE更符合世界建模任務(wù)，但它們?nèi)晕赐耆蹲接脩舻钠谕|(zhì)量。未來的研究可能需要納入物理規(guī)則和時間一致性等約束，設(shè)計更復(fù)雜的獎勵函數(shù)。

其次，盡管RLVR帶來了顯著改進(jìn)，但訓(xùn)練通常在幾百步內(nèi)就趨于收斂，難以持續(xù)提升。了解模型、數(shù)據(jù)和算法中的瓶頸，可能是突破這一限制的關(guān)鍵。

第三，模型在分布外(OOD)數(shù)據(jù)上的泛化能力仍需探索。特別是在序列決策中，模型對分布外行動的反事實推理能力非常重要。

這些挑戰(zhàn)為未來研究提供了明確的方向，也表明RLVR-World框架雖有突破，但仍有很大的發(fā)展空間。

總結(jié)：強化學(xué)習(xí)開啟世界模型的新時代

歸根結(jié)底，清華大學(xué)研究團隊提出的RLVR-World框架代表了世界模型訓(xùn)練的一個重要范式轉(zhuǎn)變。不再局限于傳統(tǒng)的最大似然估計等方法，而是直接優(yōu)化用戶真正關(guān)心的指標(biāo)，讓模型的訓(xùn)練目標(biāo)與實際應(yīng)用需求直接對齊。

這一框架在語言和視頻世界模型上都取得了顯著成功，在文本游戲狀態(tài)預(yù)測、網(wǎng)頁導(dǎo)航和機器人操作軌跡預(yù)測等任務(wù)上均實現(xiàn)了大幅度的性能提升。特別是，它能夠有效解決傳統(tǒng)方法中的重復(fù)和模糊等問題，生成更準(zhǔn)確、更清晰的預(yù)測。

更重要的是，RLVR-World提供了一種高效的訓(xùn)練方法，只需幾百個梯度步驟就能顯著改進(jìn)預(yù)訓(xùn)練模型的性能。這對于實際應(yīng)用特別有價值，因為它允許研究者和開發(fā)者快速適應(yīng)特定任務(wù)的需求。

隨著人工智能技術(shù)向更復(fù)雜的實際應(yīng)用發(fā)展，準(zhǔn)確預(yù)測環(huán)境變化的能力變得越來越重要。RLVR-World為構(gòu)建更強大、更實用的世界模型提供了一條有前途的路徑，有望推動自動駕駛、機器人控制、網(wǎng)頁導(dǎo)航等領(lǐng)域的進(jìn)步。

正如研究團隊所指出的，RLVR不僅適用于世界模型，還可能成為生成模型更廣泛的后訓(xùn)練范式。它為提升生成模型的實用性提供了一種通用的方法，有望在更多領(lǐng)域產(chǎn)生影響。

對于想深入了解這項研究的讀者，可以訪問項目網(wǎng)站https://thuml.github.io/RLVR-World獲取更多信息，或查閱完整論文了解技術(shù)細(xì)節(jié)。

世界模型強化學(xué)習(xí)預(yù)測優(yōu)化

分享至

0贊

好文章，需要你的鼓勵

推薦文章

音頻生成
大語言模型
多模態(tài)AI

2025-09-10 09:47

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實驗室團隊AudioStory突破性進(jìn)展

騰訊ARC實驗室推出AudioStory系統(tǒng)，首次實現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù)，通過交錯式推理生成、解耦橋接機制和漸進(jìn)式訓(xùn)練，能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異，為AI音頻創(chuàng)作開辟新方向。
視頻生成
深度學(xué)習(xí)
多模態(tài)學(xué)習(xí)

2025-09-09 13:57

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù)，通過讓AI同時學(xué)習(xí)外觀和運動信息，顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運動質(zhì)量，在多項測試中超越包括Sora在內(nèi)的商業(yè)模型，為AI視頻生成的實用化應(yīng)用奠定了重要基礎(chǔ)。
多模態(tài)AI
人類價值觀對齊
數(shù)據(jù)集構(gòu)建

2025-09-09 13:56

上海AI實驗室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價值觀對齊難題

上海AI實驗室發(fā)布OmniAlign-V研究，首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn)，通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法，讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平，為AI價值觀對齊提供了可行技術(shù)路徑。
人工智能
圖神經(jīng)網(wǎng)絡(luò)
天氣預(yù)報

2025-09-09 10:56

谷歌研究團隊發(fā)布超級預(yù)測模型：讓AI像天氣預(yù)報員一樣預(yù)測全球大氣變化

谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型，能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報，準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù)，通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律，在極端天氣預(yù)測方面表現(xiàn)卓越，能耗僅為傳統(tǒng)方法的千分之一，為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實驗室團隊AudioStory突破性進(jìn)展

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實驗室團隊AudioStory突破性進(jìn)展

2025-09-10 09:47

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

2025-09-09 13:57

上海AI實驗室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價值觀對齊難題

上海AI實驗室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價值觀對齊難題

2025-09-09 13:56

谷歌研究團隊發(fā)布超級預(yù)測模型：讓AI像天氣預(yù)報員一樣預(yù)測全球大氣變化

谷歌研究團隊發(fā)布超級預(yù)測模型：讓AI像天氣預(yù)報員一樣預(yù)測全球大氣變化

2025-09-09 10:56

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時代

京ICP證15039648號京ICP備15039648號-9 京公網(wǎng)安備 11010802021500號

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報電話：010-62641205　涉未成年人舉報專線：010-62641208 舉報郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報專區(qū)：https://www.12377.cn

<del id="4kwgy"><b id="4kwgy"></b></del>

<bdo id="4kwgy"><legend id="4kwgy"></legend></bdo>

<menuitem id="4kwgy"><ul id="4kwgy"><tr id="4kwgy"></tr></ul></menuitem>
<samp id="4kwgy"></samp>