av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<menuitem id="y0wrp"></menuitem>

<nav id="y0wrp"></nav>

<ruby id="y0wrp"></ruby>

<u id="y0wrp"></u>

<blockquote id="y0wrp"><samp id="y0wrp"><ins id="y0wrp"></ins></samp></blockquote>

<code id="y0wrp"><wbr id="y0wrp"></wbr></code>

<ul id="y0wrp"><thead id="y0wrp"></thead></ul>

<tt id="y0wrp"></tt>

微信掃一掃，關注公眾號

科技行者
算力行者

見證連接與計算的「力量」

NOVER：語言模型的無驗證器強化學習激勵訓練

人工智能強化學習語言模型推理

NOVER：語言模型的無驗證器強化學習激勵訓練

作者：科技行者

2025-05-29 08:25

分享至：

NOVER是一種創(chuàng)新的無驗證器強化學習框架，解決了傳統(tǒng)激勵訓練依賴外部驗證器的限制。由倫敦國王學院研究團隊開發(fā)，它通過計算"推理困惑度"作為獎勵代理，使語言模型能在任何文本任務中自主發(fā)展推理能力。實驗表明，NOVER在一般推理、創(chuàng)意寫作、社會智能和多語言能力等多種任務上均優(yōu)于基線方法，甚至使3B模型接近從671B模型蒸餾版本的性能。此外，其靈活性還支持"反向激勵訓練"等創(chuàng)新應用，為語言模型訓練開辟了新方向。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-05-29 08:25 ? 科技行者

創(chuàng)新無需驗證，讓AI自主學習思考

最近，一支來自英國倫敦國王學院和阿蘭圖靈研究所的研究團隊發(fā)表了一項突破性的研究成果。這項由Wei Liu、Siya Qi、Xinyu Wang、Chen Qian、Yali Du和Yulan He領導的研究，題為《NOVER: 通過無驗證器強化學習實現(xiàn)語言模型的激勵訓練》，于2025年5月21日發(fā)表在arXiv預印本平臺（arXiv:2505.16022v1）。這項研究為大型語言模型（LLM）的訓練提供了一種全新的范式，使模型能夠在沒有外部驗證器的情況下自主發(fā)展推理能力。

一、研究背景：為什么我們需要無驗證器的激勵訓練？

想象一下，你正在教一個孩子解決數(shù)學問題。傳統(tǒng)的方法是讓孩子直接給出答案，然后你檢查答案是否正確。但更好的教學方式是鼓勵孩子展示解題過程，這樣即使答案錯了，你也能看出問題出在哪里并給予指導。

在人工智能領域，近期出現(xiàn)了一種稱為"激勵訓練"（incentive training）的方法，它就像這種更好的教學方式。以DeepSeek R1-Zero為代表的研究表明，只需要根據(jù)最終答案的正確性來計算獎勵，就能鼓勵AI模型自發(fā)地生成中間推理步驟，這大大提升了模型的推理能力。

然而，這種方法存在一個關鍵限制：它依賴外部驗證器來判斷模型輸出的正確性。就像需要一位精通各科目的老師來判斷學生答案是否正確。這種驗證器在數(shù)學和編程等領域容易實現(xiàn)，因為有明確的對錯標準，但在社會行為分析、創(chuàng)意寫作等需要上下文理解和主觀判斷的領域就難以構建了。

雖然可以訓練專門的獎勵模型（reward models）作為驗證器，但這需要大量高質量的標注數(shù)據(jù)，成本高昂且應用有限。這就像需要先培訓一批專業(yè)老師才能評判學生的表現(xiàn)，非常不經(jīng)濟。

二、NOVER方法：無需驗證器的激勵學習新范式

研究團隊提出的NOVER（NO-VERifier Reinforcement Learning，無驗證器強化學習）方法巧妙地解決了這一難題。簡單來說，NOVER不再依賴外部驗證器，而是利用模型自身能力和已有的監(jiān)督數(shù)據(jù)來構建獎勵信號。

想象一下，現(xiàn)在不需要專業(yè)老師來評判學生的解題過程，而是給學生一本有標準答案的習題集。學生可以自己比較自己的答案與標準答案，從而判斷自己的解題思路是否正確。這正是NOVER的核心思想。

具體來說，NOVER的工作原理是這樣的：

首先，研究人員利用模型自身作為"代理模型"（proxy model）。當模型生成一段推理過程后，系統(tǒng)會計算：基于這段推理過程，生成正確答案的困難程度（即"推理困惑度"，reasoning perplexity）。如果一段推理過程能夠自然地引導出正確答案，那么它的推理困惑度就會較低；反之則較高。

這就像衡量一條道路通往目的地的直接程度：如果道路平坦直接，那么到達目的地就容易；如果道路崎嶇曲折，那么到達目的地就困難。推理困惑度越低，說明推理過程越好。

此外，為了防止模型生成冗長但低效的推理過程，研究人員還設計了"效率獎勵"（efficiency reward），鼓勵模型生成簡潔有效的推理。就像在解題中，我們不僅希望答案正確，還希望解題步驟簡潔明了。

NOVER的另一個重要設計是"策略-代理同步"（policy-proxy synchronization）機制。由于策略模型（生成答案的模型）和代理模型（評估推理質量的模型）本質上是同一個模型，隨著訓練的進行，兩者需要定期同步，以確保評估標準與生成能力保持一致。這就像學生在學習過程中不斷更新自己的評判標準，以適應自己不斷提高的能力。

三、實驗設置：如何驗證NOVER的有效性？

為了驗證NOVER的有效性，研究人員在多種類型的任務上進行了廣泛的實驗。這些任務涵蓋了四個主要領域：

一是一般推理任務，包括自然推理（Natural Reasoning）、通用思維（General Thought）和網(wǎng)頁指令（WebInstruct）等數(shù)據(jù)集，這些任務要求模型生成基于事實的答案，往往涉及多步推理和論證。

二是創(chuàng)意寫作任務，使用SS-GEN數(shù)據(jù)集，這要求模型生成連貫、有社會主題的故事。

三是社會智能任務，使用EmoBench和ToMBench數(shù)據(jù)集，測試模型在情感識別、社會行為預測和心智理論推理方面的能力。

四是多語言能力任務，使用OPUS圖書語料庫，包含16種語言和64種語言對的翻譯任務。

研究團隊使用了Qwen 2.5模型的3B和7B版本作為基礎模型，并與多種基線方法進行了比較：原始模型輸出、思維鏈（CoT）提示、監(jiān)督微調（SFT）以及作為參考的大型推理模型DeepSeek R1 671B蒸餾版本。

在訓練過程中，研究人員使用了LoRA適配器進行高效微調，最大生成長度根據(jù)任務設置為512至2048個token不等。訓練步數(shù)最多5000步，但會在驗證獎勵（特別是標簽格式獎勵）不再提高時提前停止。

四、實驗結果：NOVER的表現(xiàn)如何？

實驗結果令人印象深刻。在所有類型的任務上，NOVER都一致地優(yōu)于所有基線方法。

最引人注目的是，NOVER使3B模型在General Thoughts數(shù)據(jù)集上達到了近60%的準確率，接近從671B教師模型蒸餾而來的R1-Distill-Qwen-7B模型的性能。這就像一個小學生經(jīng)過特殊訓練后，能夠解決接近大學生水平的問題。

在情感和社會智能等預訓練數(shù)據(jù)較少的領域，NOVER的改進尤為明顯。例如，在EmoBench和OPUS等數(shù)據(jù)集上，直接的思維鏈提示可能會降低準確率，而NOVER則能有效提升模型性能。

研究人員的手動檢查發(fā)現(xiàn)，基礎模型雖然能夠生成結構良好、流暢的思維鏈，但這些推理過程容易出現(xiàn)幻覺（hallucination）——模型看似自信地進行推理，但實際上包含錯誤或不相關的信息。相比之下，NOVER能有效糾正這種幻覺推理過程。

另一個有趣的發(fā)現(xiàn)是，監(jiān)督微調（SFT）有時甚至不如基礎模型，因為它鼓勵模型直接將問題映射到答案，而不經(jīng)過明確的推理過程。相反，思維鏈、NOVER甚至基礎模型都能生成有助于回答問題的中間推理步驟。

五、深入分析：NOVER在何時何地最有效？

研究人員對NOVER在一般推理領域的表現(xiàn)進行了細致分析，發(fā)現(xiàn)了幾個有趣的模式：

在問題格式方面，多項選擇題的準確率始終高于開放式問答。這主要是因為候選選項的存在有效減少了強化學習優(yōu)化過程中的搜索空間，降低了任務難度。

在問題類型方面，模型在具有明確解決方向的問題（如"查找"、"確定"和"分類"）上表現(xiàn)更好，因為相應的推理鏈更容易在訓練中被采樣和強化。相比之下，對于要求更靈活、對推理過程約束較少的問題（如"分析"），模型的表現(xiàn)相對較弱。

從長度的角度看，對于問題、參考答案和生成答案，較短的輸入或輸出通常會導致更高的準確率。而對于模型生成的推理過程，準確率在60到240個token的范圍內保持相對穩(wěn)定。這表明NOVER有效地激勵模型根據(jù)每個問題的難度自適應地生成適當長度的推理過程。

研究人員還在FANToM（一個心智理論數(shù)據(jù)集）上進行了假設前提任務的實驗，發(fā)現(xiàn)NOVER在處理反直覺任務時可能不如SFT。這類任務涉及識別問題中的假設前提（如詢問一個角色對某個他們不知道的話題的看法）。SFT能夠從訓練數(shù)據(jù)中記憶這種拒絕模式，而NOVER依賴預訓練模型首先生成正確答案，然后再強化。如果基礎模型難以識別假設前提，NOVER就會受到限制。

六、NOVER如何解決"代理詛咒"問題？

NOVER使用推理困惑度作為理想獎勵的代理，這在強化學習中是常見做法。然而，這引入了"代理詛咒"（curse of proxy）問題：不精確的獎勵可能導致獎勵駭?。╮eward hacking），即模型利用代理的缺陷而非真正提高性能。

研究人員對NOVER進行了消融實驗，跟蹤模型訓練狀態(tài)。他們發(fā)現(xiàn)，只使用標簽格式獎勵和推理獎勵會導致兩種失敗模式：推理爆炸（生成過長、混亂且格式錯誤的輸出）和推理崩潰（模型停止思考，只生成最少的推理標記）。這兩種失敗都源于代理與不斷演化的策略之間的不一致，導致獎勵駭取。

加入策略-代理同步可以大大緩解這一問題，盡管偶爾仍會出現(xiàn)爆炸。引入效率獎勵和條件獎勵組合可以實現(xiàn)部分自我恢復，因為無效的完成會得到零獎勵，鼓勵重新采樣。然而，恢復是重復的，這導致訓練效率低下。

完整的NOVER集成實現(xiàn)了穩(wěn)定的訓練：模型保持"清醒"，只在能夠改善結果時才優(yōu)化推理長度。同步進一步減少了代理偏差，支持穩(wěn)健的優(yōu)化。研究人員驗證了NOVER可以穩(wěn)定訓練超過200,000步而不出現(xiàn)推理爆炸或崩潰，同時保持高群組多樣性。

七、無驗證器與模型驗證器的比較

為了評估NOVER在難以驗證的推理任務上的表現(xiàn)，研究人員將其與替代驗證器設計進行了比較：大語言模型作為評判者（LLM-as-a-judge）和一個微調的驗證器模型。實驗在WebInstruct上進行，該數(shù)據(jù)集包含一個官方的通用驗證器模型（GV）。

結果顯示，基于模型的驗證器非常不穩(wěn)定。使用寬松的提示會鼓勵獎勵駭取，模型生成模糊但表面上有效的輸出以獲得積極獎勵（例如，給出粗略的想法而非精確答案）。相反，嚴格的提示會產(chǎn)生稀疏獎勵和不穩(wěn)定的訓練，導致3B模型訓練失敗。

專用驗證器也被證明不可靠，經(jīng)常被策略模型誤導。例如，策略模型可能只勾勒出初始步驟并提示驗證器完成計算，導致驗證器放棄判斷而轉而解決任務，然后分配不應得的積極獎勵。

相比之下，NOVER不依賴這些不穩(wěn)定的驗證機制，表現(xiàn)出更穩(wěn)定、更有效的訓練過程。

八、NOVER如何塑造推理模式？

研究人員還調查了NOVER訓練過程中推理模式的演變。他們提取了模型在不同訓練步驟（包括訓練前的思維鏈提示輸出）生成的推理標記，并使用Gemini-2.0-flash將這些推理痕跡分類為幾種預定義的推理模式。

分析發(fā)現(xiàn)，在訓練前，模型主要使用思維鏈提示典型的任務分解。隨著訓練的進行，在效率獎勵的影響下，模型學會了在能夠直接提供中間結論時跳過冗余的推理步驟，導致直接推理模式的比例顯著增加。同時，其他推理類型（如因果關系、枚舉、反思和假設）開始出現(xiàn)并逐漸穩(wěn)定，反映了既有效又高效的推理的發(fā)展。

九、NOVER的創(chuàng)新應用：反向激勵訓練

研究團隊還探索了NOVER在創(chuàng)意設置中的靈活性，使用SS-GEN創(chuàng)意寫作數(shù)據(jù)集進行了有趣的實驗。與傳統(tǒng)設置不同，這個實驗采用了新的格式，模型在標簽內生成故事，然后在標簽內進行自我評估。

關鍵的是，訓練數(shù)據(jù)省略了地面真實故事，只提供了基于量規(guī)的敘事標準。研究人員通過將這些量規(guī)作為自我評估的指導方針，而故事成為要激勵的中間過程，調整了NOVER，稱為NOVER_RUBRIC。這種方法顛倒了標準范式，實現(xiàn)了"過程即結果"的策略。

實證結果顯示，Qwen2.5-7B的準確率從50.79%（標準NOVER）提高到64.37%。為進一步驗證收益，研究人員抽樣了100個例子，讓人類注釋者表達對每個量規(guī)的每個故事的偏好。結果一致地支持量規(guī)訓練的變體，突顯了NOVER在經(jīng)典推理任務之外的創(chuàng)意應用的靈活性。

十、結論與展望

NOVER代表了語言模型訓練的一個重要突破，它解決了激勵訓練對外部驗證器的依賴問題，將這種強大的訓練范式擴展到了更廣泛的文本到文本任務。

從本質上講，NOVER教會了模型"如何釣魚"，而不僅僅是"給它一條魚"。通過使用模型自身能力和已有的監(jiān)督數(shù)據(jù)構建獎勵信號，NOVER實現(xiàn)了自我提升，無需昂貴的驗證器訓練或復雜的規(guī)則設計。

實驗結果表明，NOVER在各種任務上都優(yōu)于基線方法，甚至使較小的模型接近從大型模型蒸餾的版本的表現(xiàn)。特別是在情感理解、社會智能和多語言能力等預訓練數(shù)據(jù)較少的領域，NOVER的改進尤為明顯。

此外，NOVER的靈活性也使其能夠應用于創(chuàng)意寫作等非傳統(tǒng)推理任務，通過反向激勵訓練實現(xiàn)更好的性能。

當然，NOVER也有其限制。研究表明，激勵訓練要求基礎模型具備一定的微調能力，如部分思維鏈推理和指令遵循能力。此外，一般推理任務的自由形式格式要求比結構化答案任務（如數(shù)學或編程）更強的基礎模型能力。

盡管如此，隨著預訓練模型通過多階段預訓練不斷加入大量思維鏈和指令數(shù)據(jù)，NOVER未來有望適用于更多模型和更廣泛的任務。

這項研究不僅提供了一種新的訓練范式，也為語言模型的推理能力提升開辟了新的方向。隨著技術的不斷發(fā)展，我們有理由期待語言模型在未來能夠具備更強大、更通用的推理能力，為各種領域帶來更多價值。

人工智能強化學習語言模型推理

分享至

0贊

好文章，需要你的鼓勵

推薦文章

音頻生成
大語言模型
多模態(tài)AI

2025-09-10 09:47

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實驗室團隊AudioStory突破性進展

騰訊ARC實驗室推出AudioStory系統(tǒng)，首次實現(xiàn)AI根據(jù)復雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結合大語言模型的敘事推理能力與音頻生成技術，通過交錯式推理生成、解耦橋接機制和漸進式訓練，能夠將復雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準測試中表現(xiàn)優(yōu)異，為AI音頻創(chuàng)作開辟新方向。
視頻生成
深度學習
多模態(tài)學習

2025-09-09 13:57

Meta與特拉維夫大學聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

Meta與特拉維夫大學聯(lián)合研發(fā)的VideoJAM技術，通過讓AI同時學習外觀和運動信息，顯著解決了當前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術僅需添加兩個線性層就能大幅提升運動質量，在多項測試中超越包括Sora在內的商業(yè)模型，為AI視頻生成的實用化應用奠定了重要基礎。
多模態(tài)AI
人類價值觀對齊
數(shù)據(jù)集構建

2025-09-09 13:56

上海AI實驗室重磅發(fā)布：讓AI看圖"說人話"的神奇訓練法，解決多模態(tài)AI與人類價值觀對齊難題

上海AI實驗室發(fā)布OmniAlign-V研究，首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質量樣本的訓練數(shù)據(jù)集和MM-AlignBench評測基準，通過創(chuàng)新的數(shù)據(jù)生成和質量管控方法，讓AI在保持技術能力的同時顯著提升人性化交互水平，為AI價值觀對齊提供了可行技術路徑。
人工智能
圖神經(jīng)網(wǎng)絡
天氣預報

2025-09-09 10:56

谷歌研究團隊發(fā)布超級預測模型：讓AI像天氣預報員一樣預測全球大氣變化

谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預測模型，能夠在不到一分鐘內完成10天全球天氣預報，準確性超越傳統(tǒng)方法90%的指標。該模型采用圖神經(jīng)網(wǎng)絡技術，通過學習40年歷史數(shù)據(jù)掌握天氣變化規(guī)律，在極端天氣預測方面表現(xiàn)卓越，能耗僅為傳統(tǒng)方法的千分之一，為氣象學領域帶來了效率和精度的雙重突破。

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實驗室團隊AudioStory突破性進展

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實驗室團隊AudioStory突破性進展

2025-09-10 09:47

Meta與特拉維夫大學聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

Meta與特拉維夫大學聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

2025-09-09 13:57

上海AI實驗室重磅發(fā)布：讓AI看圖"說人話"的神奇訓練法，解決多模態(tài)AI與人類價值觀對齊難題

上海AI實驗室重磅發(fā)布：讓AI看圖"說人話"的神奇訓練法，解決多模態(tài)AI與人類價值觀對齊難題

2025-09-09 13:56

谷歌研究團隊發(fā)布超級預測模型：讓AI像天氣預報員一樣預測全球大氣變化

谷歌研究團隊發(fā)布超級預測模型：讓AI像天氣預報員一樣預測全球大氣變化

2025-09-09 10:56

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時代

京ICP證15039648號京ICP備15039648號-9 京公網(wǎng)安備 11010802021500號

北京第二十六維信息技術有限公司（至頂網(wǎng)）版權所有。 | 聯(lián)絡我們

舉報電話：010-62641205　涉未成年人舉報專線：010-62641208 舉報郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報專區(qū)：https://www.12377.cn