av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 NOVER:語言模型的無驗證器強化學習激勵訓練

NOVER:語言模型的無驗證器強化學習激勵訓練

2025-05-29 08:25
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-29 08:25 ? 科技行者

創(chuàng)新無需驗證,讓AI自主學習思考

最近,一支來自英國倫敦國王學院和阿蘭圖靈研究所的研究團隊發(fā)表了一項突破性的研究成果。這項由Wei Liu、Siya Qi、Xinyu Wang、Chen Qian、Yali Du和Yulan He領導的研究,題為《NOVER: 通過無驗證器強化學習實現(xiàn)語言模型的激勵訓練》,于2025年5月21日發(fā)表在arXiv預印本平臺(arXiv:2505.16022v1)。這項研究為大型語言模型(LLM)的訓練提供了一種全新的范式,使模型能夠在沒有外部驗證器的情況下自主發(fā)展推理能力。

一、研究背景:為什么我們需要無驗證器的激勵訓練?

想象一下,你正在教一個孩子解決數(shù)學問題。傳統(tǒng)的方法是讓孩子直接給出答案,然后你檢查答案是否正確。但更好的教學方式是鼓勵孩子展示解題過程,這樣即使答案錯了,你也能看出問題出在哪里并給予指導。

在人工智能領域,近期出現(xiàn)了一種稱為"激勵訓練"(incentive training)的方法,它就像這種更好的教學方式。以DeepSeek R1-Zero為代表的研究表明,只需要根據(jù)最終答案的正確性來計算獎勵,就能鼓勵AI模型自發(fā)地生成中間推理步驟,這大大提升了模型的推理能力。

然而,這種方法存在一個關鍵限制:它依賴外部驗證器來判斷模型輸出的正確性。就像需要一位精通各科目的老師來判斷學生答案是否正確。這種驗證器在數(shù)學和編程等領域容易實現(xiàn),因為有明確的對錯標準,但在社會行為分析、創(chuàng)意寫作等需要上下文理解和主觀判斷的領域就難以構建了。

雖然可以訓練專門的獎勵模型(reward models)作為驗證器,但這需要大量高質量的標注數(shù)據(jù),成本高昂且應用有限。這就像需要先培訓一批專業(yè)老師才能評判學生的表現(xiàn),非常不經(jīng)濟。

二、NOVER方法:無需驗證器的激勵學習新范式

研究團隊提出的NOVER(NO-VERifier Reinforcement Learning,無驗證器強化學習)方法巧妙地解決了這一難題。簡單來說,NOVER不再依賴外部驗證器,而是利用模型自身能力和已有的監(jiān)督數(shù)據(jù)來構建獎勵信號。

想象一下,現(xiàn)在不需要專業(yè)老師來評判學生的解題過程,而是給學生一本有標準答案的習題集。學生可以自己比較自己的答案與標準答案,從而判斷自己的解題思路是否正確。這正是NOVER的核心思想。

具體來說,NOVER的工作原理是這樣的:

首先,研究人員利用模型自身作為"代理模型"(proxy model)。當模型生成一段推理過程后,系統(tǒng)會計算:基于這段推理過程,生成正確答案的困難程度(即"推理困惑度",reasoning perplexity)。如果一段推理過程能夠自然地引導出正確答案,那么它的推理困惑度就會較低;反之則較高。

這就像衡量一條道路通往目的地的直接程度:如果道路平坦直接,那么到達目的地就容易;如果道路崎嶇曲折,那么到達目的地就困難。推理困惑度越低,說明推理過程越好。

此外,為了防止模型生成冗長但低效的推理過程,研究人員還設計了"效率獎勵"(efficiency reward),鼓勵模型生成簡潔有效的推理。就像在解題中,我們不僅希望答案正確,還希望解題步驟簡潔明了。

NOVER的另一個重要設計是"策略-代理同步"(policy-proxy synchronization)機制。由于策略模型(生成答案的模型)和代理模型(評估推理質量的模型)本質上是同一個模型,隨著訓練的進行,兩者需要定期同步,以確保評估標準與生成能力保持一致。這就像學生在學習過程中不斷更新自己的評判標準,以適應自己不斷提高的能力。

三、實驗設置:如何驗證NOVER的有效性?

為了驗證NOVER的有效性,研究人員在多種類型的任務上進行了廣泛的實驗。這些任務涵蓋了四個主要領域:

一是一般推理任務,包括自然推理(Natural Reasoning)、通用思維(General Thought)和網(wǎng)頁指令(WebInstruct)等數(shù)據(jù)集,這些任務要求模型生成基于事實的答案,往往涉及多步推理和論證。

二是創(chuàng)意寫作任務,使用SS-GEN數(shù)據(jù)集,這要求模型生成連貫、有社會主題的故事。

三是社會智能任務,使用EmoBench和ToMBench數(shù)據(jù)集,測試模型在情感識別、社會行為預測和心智理論推理方面的能力。

四是多語言能力任務,使用OPUS圖書語料庫,包含16種語言和64種語言對的翻譯任務。

研究團隊使用了Qwen 2.5模型的3B和7B版本作為基礎模型,并與多種基線方法進行了比較:原始模型輸出、思維鏈(CoT)提示、監(jiān)督微調(SFT)以及作為參考的大型推理模型DeepSeek R1 671B蒸餾版本。

在訓練過程中,研究人員使用了LoRA適配器進行高效微調,最大生成長度根據(jù)任務設置為512至2048個token不等。訓練步數(shù)最多5000步,但會在驗證獎勵(特別是標簽格式獎勵)不再提高時提前停止。

四、實驗結果:NOVER的表現(xiàn)如何?

實驗結果令人印象深刻。在所有類型的任務上,NOVER都一致地優(yōu)于所有基線方法。

最引人注目的是,NOVER使3B模型在General Thoughts數(shù)據(jù)集上達到了近60%的準確率,接近從671B教師模型蒸餾而來的R1-Distill-Qwen-7B模型的性能。這就像一個小學生經(jīng)過特殊訓練后,能夠解決接近大學生水平的問題。

在情感和社會智能等預訓練數(shù)據(jù)較少的領域,NOVER的改進尤為明顯。例如,在EmoBench和OPUS等數(shù)據(jù)集上,直接的思維鏈提示可能會降低準確率,而NOVER則能有效提升模型性能。

研究人員的手動檢查發(fā)現(xiàn),基礎模型雖然能夠生成結構良好、流暢的思維鏈,但這些推理過程容易出現(xiàn)幻覺(hallucination)——模型看似自信地進行推理,但實際上包含錯誤或不相關的信息。相比之下,NOVER能有效糾正這種幻覺推理過程。

另一個有趣的發(fā)現(xiàn)是,監(jiān)督微調(SFT)有時甚至不如基礎模型,因為它鼓勵模型直接將問題映射到答案,而不經(jīng)過明確的推理過程。相反,思維鏈、NOVER甚至基礎模型都能生成有助于回答問題的中間推理步驟。

五、深入分析:NOVER在何時何地最有效?

研究人員對NOVER在一般推理領域的表現(xiàn)進行了細致分析,發(fā)現(xiàn)了幾個有趣的模式:

在問題格式方面,多項選擇題的準確率始終高于開放式問答。這主要是因為候選選項的存在有效減少了強化學習優(yōu)化過程中的搜索空間,降低了任務難度。

在問題類型方面,模型在具有明確解決方向的問題(如"查找"、"確定"和"分類")上表現(xiàn)更好,因為相應的推理鏈更容易在訓練中被采樣和強化。相比之下,對于要求更靈活、對推理過程約束較少的問題(如"分析"),模型的表現(xiàn)相對較弱。

從長度的角度看,對于問題、參考答案和生成答案,較短的輸入或輸出通常會導致更高的準確率。而對于模型生成的推理過程,準確率在60到240個token的范圍內保持相對穩(wěn)定。這表明NOVER有效地激勵模型根據(jù)每個問題的難度自適應地生成適當長度的推理過程。

研究人員還在FANToM(一個心智理論數(shù)據(jù)集)上進行了假設前提任務的實驗,發(fā)現(xiàn)NOVER在處理反直覺任務時可能不如SFT。這類任務涉及識別問題中的假設前提(如詢問一個角色對某個他們不知道的話題的看法)。SFT能夠從訓練數(shù)據(jù)中記憶這種拒絕模式,而NOVER依賴預訓練模型首先生成正確答案,然后再強化。如果基礎模型難以識別假設前提,NOVER就會受到限制。

六、NOVER如何解決"代理詛咒"問題?

NOVER使用推理困惑度作為理想獎勵的代理,這在強化學習中是常見做法。然而,這引入了"代理詛咒"(curse of proxy)問題:不精確的獎勵可能導致獎勵駭?。╮eward hacking),即模型利用代理的缺陷而非真正提高性能。

研究人員對NOVER進行了消融實驗,跟蹤模型訓練狀態(tài)。他們發(fā)現(xiàn),只使用標簽格式獎勵和推理獎勵會導致兩種失敗模式:推理爆炸(生成過長、混亂且格式錯誤的輸出)和推理崩潰(模型停止思考,只生成最少的推理標記)。這兩種失敗都源于代理與不斷演化的策略之間的不一致,導致獎勵駭取。

加入策略-代理同步可以大大緩解這一問題,盡管偶爾仍會出現(xiàn)爆炸。引入效率獎勵和條件獎勵組合可以實現(xiàn)部分自我恢復,因為無效的完成會得到零獎勵,鼓勵重新采樣。然而,恢復是重復的,這導致訓練效率低下。

完整的NOVER集成實現(xiàn)了穩(wěn)定的訓練:模型保持"清醒",只在能夠改善結果時才優(yōu)化推理長度。同步進一步減少了代理偏差,支持穩(wěn)健的優(yōu)化。研究人員驗證了NOVER可以穩(wěn)定訓練超過200,000步而不出現(xiàn)推理爆炸或崩潰,同時保持高群組多樣性。

七、無驗證器與模型驗證器的比較

為了評估NOVER在難以驗證的推理任務上的表現(xiàn),研究人員將其與替代驗證器設計進行了比較:大語言模型作為評判者(LLM-as-a-judge)和一個微調的驗證器模型。實驗在WebInstruct上進行,該數(shù)據(jù)集包含一個官方的通用驗證器模型(GV)。

結果顯示,基于模型的驗證器非常不穩(wěn)定。使用寬松的提示會鼓勵獎勵駭取,模型生成模糊但表面上有效的輸出以獲得積極獎勵(例如,給出粗略的想法而非精確答案)。相反,嚴格的提示會產(chǎn)生稀疏獎勵和不穩(wěn)定的訓練,導致3B模型訓練失敗。

專用驗證器也被證明不可靠,經(jīng)常被策略模型誤導。例如,策略模型可能只勾勒出初始步驟并提示驗證器完成計算,導致驗證器放棄判斷而轉而解決任務,然后分配不應得的積極獎勵。

相比之下,NOVER不依賴這些不穩(wěn)定的驗證機制,表現(xiàn)出更穩(wěn)定、更有效的訓練過程。

八、NOVER如何塑造推理模式?

研究人員還調查了NOVER訓練過程中推理模式的演變。他們提取了模型在不同訓練步驟(包括訓練前的思維鏈提示輸出)生成的推理標記,并使用Gemini-2.0-flash將這些推理痕跡分類為幾種預定義的推理模式。

分析發(fā)現(xiàn),在訓練前,模型主要使用思維鏈提示典型的任務分解。隨著訓練的進行,在效率獎勵的影響下,模型學會了在能夠直接提供中間結論時跳過冗余的推理步驟,導致直接推理模式的比例顯著增加。同時,其他推理類型(如因果關系、枚舉、反思和假設)開始出現(xiàn)并逐漸穩(wěn)定,反映了既有效又高效的推理的發(fā)展。

九、NOVER的創(chuàng)新應用:反向激勵訓練

研究團隊還探索了NOVER在創(chuàng)意設置中的靈活性,使用SS-GEN創(chuàng)意寫作數(shù)據(jù)集進行了有趣的實驗。與傳統(tǒng)設置不同,這個實驗采用了新的格式,模型在標簽內生成故事,然后在標簽內進行自我評估。

關鍵的是,訓練數(shù)據(jù)省略了地面真實故事,只提供了基于量規(guī)的敘事標準。研究人員通過將這些量規(guī)作為自我評估的指導方針,而故事成為要激勵的中間過程,調整了NOVER,稱為NOVER_RUBRIC。這種方法顛倒了標準范式,實現(xiàn)了"過程即結果"的策略。

實證結果顯示,Qwen2.5-7B的準確率從50.79%(標準NOVER)提高到64.37%。為進一步驗證收益,研究人員抽樣了100個例子,讓人類注釋者表達對每個量規(guī)的每個故事的偏好。結果一致地支持量規(guī)訓練的變體,突顯了NOVER在經(jīng)典推理任務之外的創(chuàng)意應用的靈活性。

十、結論與展望

NOVER代表了語言模型訓練的一個重要突破,它解決了激勵訓練對外部驗證器的依賴問題,將這種強大的訓練范式擴展到了更廣泛的文本到文本任務。

從本質上講,NOVER教會了模型"如何釣魚",而不僅僅是"給它一條魚"。通過使用模型自身能力和已有的監(jiān)督數(shù)據(jù)構建獎勵信號,NOVER實現(xiàn)了自我提升,無需昂貴的驗證器訓練或復雜的規(guī)則設計。

實驗結果表明,NOVER在各種任務上都優(yōu)于基線方法,甚至使較小的模型接近從大型模型蒸餾的版本的表現(xiàn)。特別是在情感理解、社會智能和多語言能力等預訓練數(shù)據(jù)較少的領域,NOVER的改進尤為明顯。

此外,NOVER的靈活性也使其能夠應用于創(chuàng)意寫作等非傳統(tǒng)推理任務,通過反向激勵訓練實現(xiàn)更好的性能。

當然,NOVER也有其限制。研究表明,激勵訓練要求基礎模型具備一定的微調能力,如部分思維鏈推理和指令遵循能力。此外,一般推理任務的自由形式格式要求比結構化答案任務(如數(shù)學或編程)更強的基礎模型能力。

盡管如此,隨著預訓練模型通過多階段預訓練不斷加入大量思維鏈和指令數(shù)據(jù),NOVER未來有望適用于更多模型和更廣泛的任務。

這項研究不僅提供了一種新的訓練范式,也為語言模型的推理能力提升開辟了新的方向。隨著技術的不斷發(fā)展,我們有理由期待語言模型在未來能夠具備更強大、更通用的推理能力,為各種領域帶來更多價值。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-