創(chuàng)新無(wú)需驗(yàn)證,讓AI自主學(xué)習(xí)思考
最近,一支來(lái)自英國(guó)倫敦國(guó)王學(xué)院和阿蘭圖靈研究所的研究團(tuán)隊(duì)發(fā)表了一項(xiàng)突破性的研究成果。這項(xiàng)由Wei Liu、Siya Qi、Xinyu Wang、Chen Qian、Yali Du和Yulan He領(lǐng)導(dǎo)的研究,題為《NOVER: 通過(guò)無(wú)驗(yàn)證器強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)語(yǔ)言模型的激勵(lì)訓(xùn)練》,于2025年5月21日發(fā)表在arXiv預(yù)印本平臺(tái)(arXiv:2505.16022v1)。這項(xiàng)研究為大型語(yǔ)言模型(LLM)的訓(xùn)練提供了一種全新的范式,使模型能夠在沒(méi)有外部驗(yàn)證器的情況下自主發(fā)展推理能力。
一、研究背景:為什么我們需要無(wú)驗(yàn)證器的激勵(lì)訓(xùn)練?
想象一下,你正在教一個(gè)孩子解決數(shù)學(xué)問(wèn)題。傳統(tǒng)的方法是讓孩子直接給出答案,然后你檢查答案是否正確。但更好的教學(xué)方式是鼓勵(lì)孩子展示解題過(guò)程,這樣即使答案錯(cuò)了,你也能看出問(wèn)題出在哪里并給予指導(dǎo)。
在人工智能領(lǐng)域,近期出現(xiàn)了一種稱為"激勵(lì)訓(xùn)練"(incentive training)的方法,它就像這種更好的教學(xué)方式。以DeepSeek R1-Zero為代表的研究表明,只需要根據(jù)最終答案的正確性來(lái)計(jì)算獎(jiǎng)勵(lì),就能鼓勵(lì)A(yù)I模型自發(fā)地生成中間推理步驟,這大大提升了模型的推理能力。
然而,這種方法存在一個(gè)關(guān)鍵限制:它依賴外部驗(yàn)證器來(lái)判斷模型輸出的正確性。就像需要一位精通各科目的老師來(lái)判斷學(xué)生答案是否正確。這種驗(yàn)證器在數(shù)學(xué)和編程等領(lǐng)域容易實(shí)現(xiàn),因?yàn)橛忻鞔_的對(duì)錯(cuò)標(biāo)準(zhǔn),但在社會(huì)行為分析、創(chuàng)意寫(xiě)作等需要上下文理解和主觀判斷的領(lǐng)域就難以構(gòu)建了。
雖然可以訓(xùn)練專門(mén)的獎(jiǎng)勵(lì)模型(reward models)作為驗(yàn)證器,但這需要大量高質(zhì)量的標(biāo)注數(shù)據(jù),成本高昂且應(yīng)用有限。這就像需要先培訓(xùn)一批專業(yè)老師才能評(píng)判學(xué)生的表現(xiàn),非常不經(jīng)濟(jì)。
二、NOVER方法:無(wú)需驗(yàn)證器的激勵(lì)學(xué)習(xí)新范式
研究團(tuán)隊(duì)提出的NOVER(NO-VERifier Reinforcement Learning,無(wú)驗(yàn)證器強(qiáng)化學(xué)習(xí))方法巧妙地解決了這一難題。簡(jiǎn)單來(lái)說(shuō),NOVER不再依賴外部驗(yàn)證器,而是利用模型自身能力和已有的監(jiān)督數(shù)據(jù)來(lái)構(gòu)建獎(jiǎng)勵(lì)信號(hào)。
想象一下,現(xiàn)在不需要專業(yè)老師來(lái)評(píng)判學(xué)生的解題過(guò)程,而是給學(xué)生一本有標(biāo)準(zhǔn)答案的習(xí)題集。學(xué)生可以自己比較自己的答案與標(biāo)準(zhǔn)答案,從而判斷自己的解題思路是否正確。這正是NOVER的核心思想。
具體來(lái)說(shuō),NOVER的工作原理是這樣的:
首先,研究人員利用模型自身作為"代理模型"(proxy model)。當(dāng)模型生成一段推理過(guò)程后,系統(tǒng)會(huì)計(jì)算:基于這段推理過(guò)程,生成正確答案的困難程度(即"推理困惑度",reasoning perplexity)。如果一段推理過(guò)程能夠自然地引導(dǎo)出正確答案,那么它的推理困惑度就會(huì)較低;反之則較高。
這就像衡量一條道路通往目的地的直接程度:如果道路平坦直接,那么到達(dá)目的地就容易;如果道路崎嶇曲折,那么到達(dá)目的地就困難。推理困惑度越低,說(shuō)明推理過(guò)程越好。
此外,為了防止模型生成冗長(zhǎng)但低效的推理過(guò)程,研究人員還設(shè)計(jì)了"效率獎(jiǎng)勵(lì)"(efficiency reward),鼓勵(lì)模型生成簡(jiǎn)潔有效的推理。就像在解題中,我們不僅希望答案正確,還希望解題步驟簡(jiǎn)潔明了。
NOVER的另一個(gè)重要設(shè)計(jì)是"策略-代理同步"(policy-proxy synchronization)機(jī)制。由于策略模型(生成答案的模型)和代理模型(評(píng)估推理質(zhì)量的模型)本質(zhì)上是同一個(gè)模型,隨著訓(xùn)練的進(jìn)行,兩者需要定期同步,以確保評(píng)估標(biāo)準(zhǔn)與生成能力保持一致。這就像學(xué)生在學(xué)習(xí)過(guò)程中不斷更新自己的評(píng)判標(biāo)準(zhǔn),以適應(yīng)自己不斷提高的能力。
三、實(shí)驗(yàn)設(shè)置:如何驗(yàn)證NOVER的有效性?
為了驗(yàn)證NOVER的有效性,研究人員在多種類型的任務(wù)上進(jìn)行了廣泛的實(shí)驗(yàn)。這些任務(wù)涵蓋了四個(gè)主要領(lǐng)域:
一是一般推理任務(wù),包括自然推理(Natural Reasoning)、通用思維(General Thought)和網(wǎng)頁(yè)指令(WebInstruct)等數(shù)據(jù)集,這些任務(wù)要求模型生成基于事實(shí)的答案,往往涉及多步推理和論證。
二是創(chuàng)意寫(xiě)作任務(wù),使用SS-GEN數(shù)據(jù)集,這要求模型生成連貫、有社會(huì)主題的故事。
三是社會(huì)智能任務(wù),使用EmoBench和ToMBench數(shù)據(jù)集,測(cè)試模型在情感識(shí)別、社會(huì)行為預(yù)測(cè)和心智理論推理方面的能力。
四是多語(yǔ)言能力任務(wù),使用OPUS圖書(shū)語(yǔ)料庫(kù),包含16種語(yǔ)言和64種語(yǔ)言對(duì)的翻譯任務(wù)。
研究團(tuán)隊(duì)使用了Qwen 2.5模型的3B和7B版本作為基礎(chǔ)模型,并與多種基線方法進(jìn)行了比較:原始模型輸出、思維鏈(CoT)提示、監(jiān)督微調(diào)(SFT)以及作為參考的大型推理模型DeepSeek R1 671B蒸餾版本。
在訓(xùn)練過(guò)程中,研究人員使用了LoRA適配器進(jìn)行高效微調(diào),最大生成長(zhǎng)度根據(jù)任務(wù)設(shè)置為512至2048個(gè)token不等。訓(xùn)練步數(shù)最多5000步,但會(huì)在驗(yàn)證獎(jiǎng)勵(lì)(特別是標(biāo)簽格式獎(jiǎng)勵(lì))不再提高時(shí)提前停止。
四、實(shí)驗(yàn)結(jié)果:NOVER的表現(xiàn)如何?
實(shí)驗(yàn)結(jié)果令人印象深刻。在所有類型的任務(wù)上,NOVER都一致地優(yōu)于所有基線方法。
最引人注目的是,NOVER使3B模型在General Thoughts數(shù)據(jù)集上達(dá)到了近60%的準(zhǔn)確率,接近從671B教師模型蒸餾而來(lái)的R1-Distill-Qwen-7B模型的性能。這就像一個(gè)小學(xué)生經(jīng)過(guò)特殊訓(xùn)練后,能夠解決接近大學(xué)生水平的問(wèn)題。
在情感和社會(huì)智能等預(yù)訓(xùn)練數(shù)據(jù)較少的領(lǐng)域,NOVER的改進(jìn)尤為明顯。例如,在EmoBench和OPUS等數(shù)據(jù)集上,直接的思維鏈提示可能會(huì)降低準(zhǔn)確率,而NOVER則能有效提升模型性能。
研究人員的手動(dòng)檢查發(fā)現(xiàn),基礎(chǔ)模型雖然能夠生成結(jié)構(gòu)良好、流暢的思維鏈,但這些推理過(guò)程容易出現(xiàn)幻覺(jué)(hallucination)——模型看似自信地進(jìn)行推理,但實(shí)際上包含錯(cuò)誤或不相關(guān)的信息。相比之下,NOVER能有效糾正這種幻覺(jué)推理過(guò)程。
另一個(gè)有趣的發(fā)現(xiàn)是,監(jiān)督微調(diào)(SFT)有時(shí)甚至不如基礎(chǔ)模型,因?yàn)樗膭?lì)模型直接將問(wèn)題映射到答案,而不經(jīng)過(guò)明確的推理過(guò)程。相反,思維鏈、NOVER甚至基礎(chǔ)模型都能生成有助于回答問(wèn)題的中間推理步驟。
五、深入分析:NOVER在何時(shí)何地最有效?
研究人員對(duì)NOVER在一般推理領(lǐng)域的表現(xiàn)進(jìn)行了細(xì)致分析,發(fā)現(xiàn)了幾個(gè)有趣的模式:
在問(wèn)題格式方面,多項(xiàng)選擇題的準(zhǔn)確率始終高于開(kāi)放式問(wèn)答。這主要是因?yàn)楹蜻x選項(xiàng)的存在有效減少了強(qiáng)化學(xué)習(xí)優(yōu)化過(guò)程中的搜索空間,降低了任務(wù)難度。
在問(wèn)題類型方面,模型在具有明確解決方向的問(wèn)題(如"查找"、"確定"和"分類")上表現(xiàn)更好,因?yàn)橄鄳?yīng)的推理鏈更容易在訓(xùn)練中被采樣和強(qiáng)化。相比之下,對(duì)于要求更靈活、對(duì)推理過(guò)程約束較少的問(wèn)題(如"分析"),模型的表現(xiàn)相對(duì)較弱。
從長(zhǎng)度的角度看,對(duì)于問(wèn)題、參考答案和生成答案,較短的輸入或輸出通常會(huì)導(dǎo)致更高的準(zhǔn)確率。而對(duì)于模型生成的推理過(guò)程,準(zhǔn)確率在60到240個(gè)token的范圍內(nèi)保持相對(duì)穩(wěn)定。這表明NOVER有效地激勵(lì)模型根據(jù)每個(gè)問(wèn)題的難度自適應(yīng)地生成適當(dāng)長(zhǎng)度的推理過(guò)程。
研究人員還在FANToM(一個(gè)心智理論數(shù)據(jù)集)上進(jìn)行了假設(shè)前提任務(wù)的實(shí)驗(yàn),發(fā)現(xiàn)NOVER在處理反直覺(jué)任務(wù)時(shí)可能不如SFT。這類任務(wù)涉及識(shí)別問(wèn)題中的假設(shè)前提(如詢問(wèn)一個(gè)角色對(duì)某個(gè)他們不知道的話題的看法)。SFT能夠從訓(xùn)練數(shù)據(jù)中記憶這種拒絕模式,而NOVER依賴預(yù)訓(xùn)練模型首先生成正確答案,然后再?gòu)?qiáng)化。如果基礎(chǔ)模型難以識(shí)別假設(shè)前提,NOVER就會(huì)受到限制。
六、NOVER如何解決"代理詛咒"問(wèn)題?
NOVER使用推理困惑度作為理想獎(jiǎng)勵(lì)的代理,這在強(qiáng)化學(xué)習(xí)中是常見(jiàn)做法。然而,這引入了"代理詛咒"(curse of proxy)問(wèn)題:不精確的獎(jiǎng)勵(lì)可能導(dǎo)致獎(jiǎng)勵(lì)駭?。╮eward hacking),即模型利用代理的缺陷而非真正提高性能。
研究人員對(duì)NOVER進(jìn)行了消融實(shí)驗(yàn),跟蹤模型訓(xùn)練狀態(tài)。他們發(fā)現(xiàn),只使用標(biāo)簽格式獎(jiǎng)勵(lì)和推理獎(jiǎng)勵(lì)會(huì)導(dǎo)致兩種失敗模式:推理爆炸(生成過(guò)長(zhǎng)、混亂且格式錯(cuò)誤的輸出)和推理崩潰(模型停止思考,只生成最少的推理標(biāo)記)。這兩種失敗都源于代理與不斷演化的策略之間的不一致,導(dǎo)致獎(jiǎng)勵(lì)駭取。
加入策略-代理同步可以大大緩解這一問(wèn)題,盡管偶爾仍會(huì)出現(xiàn)爆炸。引入效率獎(jiǎng)勵(lì)和條件獎(jiǎng)勵(lì)組合可以實(shí)現(xiàn)部分自我恢復(fù),因?yàn)闊o(wú)效的完成會(huì)得到零獎(jiǎng)勵(lì),鼓勵(lì)重新采樣。然而,恢復(fù)是重復(fù)的,這導(dǎo)致訓(xùn)練效率低下。
完整的NOVER集成實(shí)現(xiàn)了穩(wěn)定的訓(xùn)練:模型保持"清醒",只在能夠改善結(jié)果時(shí)才優(yōu)化推理長(zhǎng)度。同步進(jìn)一步減少了代理偏差,支持穩(wěn)健的優(yōu)化。研究人員驗(yàn)證了NOVER可以穩(wěn)定訓(xùn)練超過(guò)200,000步而不出現(xiàn)推理爆炸或崩潰,同時(shí)保持高群組多樣性。
七、無(wú)驗(yàn)證器與模型驗(yàn)證器的比較
為了評(píng)估NOVER在難以驗(yàn)證的推理任務(wù)上的表現(xiàn),研究人員將其與替代驗(yàn)證器設(shè)計(jì)進(jìn)行了比較:大語(yǔ)言模型作為評(píng)判者(LLM-as-a-judge)和一個(gè)微調(diào)的驗(yàn)證器模型。實(shí)驗(yàn)在WebInstruct上進(jìn)行,該數(shù)據(jù)集包含一個(gè)官方的通用驗(yàn)證器模型(GV)。
結(jié)果顯示,基于模型的驗(yàn)證器非常不穩(wěn)定。使用寬松的提示會(huì)鼓勵(lì)獎(jiǎng)勵(lì)駭取,模型生成模糊但表面上有效的輸出以獲得積極獎(jiǎng)勵(lì)(例如,給出粗略的想法而非精確答案)。相反,嚴(yán)格的提示會(huì)產(chǎn)生稀疏獎(jiǎng)勵(lì)和不穩(wěn)定的訓(xùn)練,導(dǎo)致3B模型訓(xùn)練失敗。
專用驗(yàn)證器也被證明不可靠,經(jīng)常被策略模型誤導(dǎo)。例如,策略模型可能只勾勒出初始步驟并提示驗(yàn)證器完成計(jì)算,導(dǎo)致驗(yàn)證器放棄判斷而轉(zhuǎn)而解決任務(wù),然后分配不應(yīng)得的積極獎(jiǎng)勵(lì)。
相比之下,NOVER不依賴這些不穩(wěn)定的驗(yàn)證機(jī)制,表現(xiàn)出更穩(wěn)定、更有效的訓(xùn)練過(guò)程。
八、NOVER如何塑造推理模式?
研究人員還調(diào)查了NOVER訓(xùn)練過(guò)程中推理模式的演變。他們提取了模型在不同訓(xùn)練步驟(包括訓(xùn)練前的思維鏈提示輸出)生成的推理標(biāo)記,并使用Gemini-2.0-flash將這些推理痕跡分類為幾種預(yù)定義的推理模式。
分析發(fā)現(xiàn),在訓(xùn)練前,模型主要使用思維鏈提示典型的任務(wù)分解。隨著訓(xùn)練的進(jìn)行,在效率獎(jiǎng)勵(lì)的影響下,模型學(xué)會(huì)了在能夠直接提供中間結(jié)論時(shí)跳過(guò)冗余的推理步驟,導(dǎo)致直接推理模式的比例顯著增加。同時(shí),其他推理類型(如因果關(guān)系、枚舉、反思和假設(shè))開(kāi)始出現(xiàn)并逐漸穩(wěn)定,反映了既有效又高效的推理的發(fā)展。
九、NOVER的創(chuàng)新應(yīng)用:反向激勵(lì)訓(xùn)練
研究團(tuán)隊(duì)還探索了NOVER在創(chuàng)意設(shè)置中的靈活性,使用SS-GEN創(chuàng)意寫(xiě)作數(shù)據(jù)集進(jìn)行了有趣的實(shí)驗(yàn)。與傳統(tǒng)設(shè)置不同,這個(gè)實(shí)驗(yàn)采用了新的格式,模型在標(biāo)簽內(nèi)生成故事,然后在標(biāo)簽內(nèi)進(jìn)行自我評(píng)估。
關(guān)鍵的是,訓(xùn)練數(shù)據(jù)省略了地面真實(shí)故事,只提供了基于量規(guī)的敘事標(biāo)準(zhǔn)。研究人員通過(guò)將這些量規(guī)作為自我評(píng)估的指導(dǎo)方針,而故事成為要激勵(lì)的中間過(guò)程,調(diào)整了NOVER,稱為NOVER_RUBRIC。這種方法顛倒了標(biāo)準(zhǔn)范式,實(shí)現(xiàn)了"過(guò)程即結(jié)果"的策略。
實(shí)證結(jié)果顯示,Qwen2.5-7B的準(zhǔn)確率從50.79%(標(biāo)準(zhǔn)NOVER)提高到64.37%。為進(jìn)一步驗(yàn)證收益,研究人員抽樣了100個(gè)例子,讓人類注釋者表達(dá)對(duì)每個(gè)量規(guī)的每個(gè)故事的偏好。結(jié)果一致地支持量規(guī)訓(xùn)練的變體,突顯了NOVER在經(jīng)典推理任務(wù)之外的創(chuàng)意應(yīng)用的靈活性。
十、結(jié)論與展望
NOVER代表了語(yǔ)言模型訓(xùn)練的一個(gè)重要突破,它解決了激勵(lì)訓(xùn)練對(duì)外部驗(yàn)證器的依賴問(wèn)題,將這種強(qiáng)大的訓(xùn)練范式擴(kuò)展到了更廣泛的文本到文本任務(wù)。
從本質(zhì)上講,NOVER教會(huì)了模型"如何釣魚(yú)",而不僅僅是"給它一條魚(yú)"。通過(guò)使用模型自身能力和已有的監(jiān)督數(shù)據(jù)構(gòu)建獎(jiǎng)勵(lì)信號(hào),NOVER實(shí)現(xiàn)了自我提升,無(wú)需昂貴的驗(yàn)證器訓(xùn)練或復(fù)雜的規(guī)則設(shè)計(jì)。
實(shí)驗(yàn)結(jié)果表明,NOVER在各種任務(wù)上都優(yōu)于基線方法,甚至使較小的模型接近從大型模型蒸餾的版本的表現(xiàn)。特別是在情感理解、社會(huì)智能和多語(yǔ)言能力等預(yù)訓(xùn)練數(shù)據(jù)較少的領(lǐng)域,NOVER的改進(jìn)尤為明顯。
此外,NOVER的靈活性也使其能夠應(yīng)用于創(chuàng)意寫(xiě)作等非傳統(tǒng)推理任務(wù),通過(guò)反向激勵(lì)訓(xùn)練實(shí)現(xiàn)更好的性能。
當(dāng)然,NOVER也有其限制。研究表明,激勵(lì)訓(xùn)練要求基礎(chǔ)模型具備一定的微調(diào)能力,如部分思維鏈推理和指令遵循能力。此外,一般推理任務(wù)的自由形式格式要求比結(jié)構(gòu)化答案任務(wù)(如數(shù)學(xué)或編程)更強(qiáng)的基礎(chǔ)模型能力。
盡管如此,隨著預(yù)訓(xùn)練模型通過(guò)多階段預(yù)訓(xùn)練不斷加入大量思維鏈和指令數(shù)據(jù),NOVER未來(lái)有望適用于更多模型和更廣泛的任務(wù)。
這項(xiàng)研究不僅提供了一種新的訓(xùn)練范式,也為語(yǔ)言模型的推理能力提升開(kāi)辟了新的方向。隨著技術(shù)的不斷發(fā)展,我們有理由期待語(yǔ)言模型在未來(lái)能夠具備更強(qiáng)大、更通用的推理能力,為各種領(lǐng)域帶來(lái)更多價(jià)值。
好文章,需要你的鼓勵(lì)
新加坡國(guó)立大學(xué)研究團(tuán)隊(duì)開(kāi)發(fā)了SPIRAL框架,通過(guò)讓AI與自己對(duì)弈零和游戲來(lái)提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡(jiǎn)單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無(wú)需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開(kāi)發(fā)的GIGA-ToF技術(shù)通過(guò)融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問(wèn)題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺(jué)解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過(guò)對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺(jué)語(yǔ)言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無(wú)法有效利用視覺(jué)信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過(guò)動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語(yǔ)言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。