在人工智能的發(fā)展歷程中,我們常常關(guān)注模型最終是否能解決問題,卻很少思考模型是如何一步步學(xué)會思考的。2025年5月,來自騰訊大語言模型部門和中國人民大學(xué)的研究團隊聯(lián)合發(fā)表了一篇引人深思的研究論文《爬山過程銘刻的智慧遠超登頂:關(guān)于學(xué)習(xí)推理中的噪聲獎勵》(The Climb Carves Wisdom Deeper Than the Summit: On the Noisy Rewards in Learning to Reason)。這篇發(fā)表于arXiv(arXiv:2505.22653v1)的論文由人民大學(xué)的呂昂和閻瑞,以及騰訊的謝若冰、孫興武和康展輝共同完成。他們的研究帶來了一個令人驚訝的發(fā)現(xiàn):在訓(xùn)練AI模型學(xué)習(xí)推理的過程中,"爬山的過程"比"到達山頂"更為重要,即使是在充滿噪聲和錯誤的環(huán)境中,模型也能找到通往正確答案的路徑。
想象一下,如果你正在教一個孩子解數(shù)學(xué)題,傳統(tǒng)觀念認為你必須始終給他們準確的反饋——告訴他們答案對還是錯。但這項研究發(fā)現(xiàn),即使你偶爾給出錯誤的反饋(比如告訴他們錯誤的答案是對的),只要孩子自己的思考過程是有條理的,他仍然能夠逐漸掌握解題能力!這簡直顛覆了我們對學(xué)習(xí)過程的理解。
研究團隊專注于探索大語言模型(LLMs)在通過強化學(xué)習(xí)(RL)進行后期訓(xùn)練時,如何應(yīng)對獎勵信號中存在的噪聲。與以往那些專注于可以準確驗證答案(如數(shù)學(xué)問題)的研究不同,他們更關(guān)注現(xiàn)實世界中普遍存在的"噪聲獎勵"情況,即當我們無法100%確定某個答案是對是錯時,AI模型如何仍能學(xué)會正確推理。
研究中最令人驚訝的發(fā)現(xiàn)是:即使在高達40%的反饋被人為"顛倒"的情況下(即將正確答案標記為錯誤,或?qū)㈠e誤答案標記為正確),Qwen-2.5-7B模型仍然能夠從最初僅5%的數(shù)學(xué)題準確率提升到驚人的72%!相比之下,使用完全準確反饋訓(xùn)練的模型只比它高出約4個百分點,達到了75.85%的準確率。這就像一個學(xué)生即使收到了大量錯誤的考試評分,依然能夠自我糾正并掌握知識!
更令人驚訝的是,研究人員發(fā)現(xiàn),僅僅獎勵模型在推理過程中使用的關(guān)鍵詞組(如"首先,我需要..."),而完全不考慮最終答案的正確性,模型也能達到超過70%的準確率!這一發(fā)現(xiàn)證明了模型在預(yù)訓(xùn)練階段已經(jīng)學(xué)到了大量知識,強化學(xué)習(xí)的作用主要是幫助它探索有效的推理模式,而不是教它新知識。
這就像是教一個已經(jīng)掌握了各種烹飪技巧的廚師做一道特定的菜——你不需要教他原料的性質(zhì)或基本烹飪方法,只需要引導(dǎo)他按照正確的步驟思考即可。
研究團隊將這種只關(guān)注推理過程而非結(jié)果的獎勵方式稱為"推理模式獎勵"(Reasoning Pattern Reward,簡稱RPR)。在開放式問答任務(wù)中,他們發(fā)現(xiàn)RPR不僅能提高模型表現(xiàn),還能校準那些不夠準確的獎勵模型,減少潛在的錯誤懲罰,并增強模型在開放性任務(wù)上的表現(xiàn),甚至讓較小規(guī)模的模型(如Qwen-2.5-3B)也能展示出強大的推理能力。
接下來,讓我們深入了解這項研究的詳細內(nèi)容和令人驚嘆的發(fā)現(xiàn)。
一、研究背景:AI推理中的噪聲獎勵難題
在我們?nèi)粘I钪校瑢W(xué)習(xí)過程往往伴隨著不完美的反饋。想象一下,當你學(xué)習(xí)一門新語言時,有時你可能會收到錯誤的糾正,或者當你學(xué)習(xí)烹飪時,可能會遵循一個有些許錯誤的食譜。盡管如此,人類仍然能夠從這些不完美的學(xué)習(xí)經(jīng)歷中進步。那么,人工智能是否也具備類似的能力呢?
傳統(tǒng)觀念認為,訓(xùn)練AI模型需要極其精確的反饋信號。特別是在訓(xùn)練大語言模型進行推理任務(wù)時,研究人員通常關(guān)注那些可以被準確驗證的任務(wù),如數(shù)學(xué)問題求解。例如,2+2=4可以被明確判定為正確,而2+2=5則是錯誤的。這種清晰的判斷為模型提供了無噪聲的學(xué)習(xí)環(huán)境。
然而,現(xiàn)實世界中的許多任務(wù)并非如此清晰。比如當我們評估一個AI助手回答開放性問題的質(zhì)量,或者判斷其回應(yīng)是否符合人類偏好時,很難有一個絕對正確的標準。在這些情況下,我們通常依賴于另一個神經(jīng)網(wǎng)絡(luò)模型(稱為獎勵模型)來評估回應(yīng)的質(zhì)量。但這些獎勵模型本身并不完美,它們的判斷可能包含錯誤,有時甚至?xí)o出與實際情況相反的評價。
騰訊和人民大學(xué)的研究團隊正是聚焦于這一現(xiàn)實挑戰(zhàn):當獎勵信號中存在噪聲時,大語言模型是否仍然能夠?qū)W會推理?這種情況可能出現(xiàn)在獎勵模型不夠準確的場景中,也可能出現(xiàn)在規(guī)則型評估函數(shù)存在缺陷的情況下。
研究團隊選擇了Qwen-2.5-7B作為主要實驗對象,這是一個已經(jīng)在預(yù)訓(xùn)練階段展示出強大推理潛力的模型。他們的研究問題非常直接:如果我們在訓(xùn)練過程中故意引入噪聲(例如,隨機將一些正確答案標記為錯誤,或?qū)㈠e誤答案標記為正確),模型的學(xué)習(xí)效果會受到多大影響?
二、實驗設(shè)計:如何在數(shù)學(xué)問題中引入"噪聲獎勵"
為了系統(tǒng)地研究噪聲獎勵對大語言模型學(xué)習(xí)推理能力的影響,研究團隊設(shè)計了一系列精巧的實驗。他們首先選擇了數(shù)學(xué)問題作為切入點,因為這類問題通常有明確的正確答案,便于研究者控制反饋的準確性。
研究使用了包含57,000個高質(zhì)量數(shù)學(xué)問題的數(shù)據(jù)集進行訓(xùn)練,并選擇了三個具有挑戰(zhàn)性的測試集來評估模型性能:MATH-500、GPQA和AIME 2024。這些測試集代表了不同難度和類型的數(shù)學(xué)問題,能夠全面檢驗?zāi)P偷耐评砟芰Α?/p>
在第一個實驗中,研究團隊采用了一種簡單而巧妙的方法來引入噪聲:他們以不同的概率(從0%到50%,步長為10%)隨機"翻轉(zhuǎn)"獎勵信號。具體來說,對于某些問題,如果模型給出了正確答案,研究者會告訴它"這是錯的";如果模型給出了錯誤答案,研究者則會告訴它"這是對的"。這種翻轉(zhuǎn)是按問題進行的,也就是說,如果一個問題的獎勵被翻轉(zhuǎn),那么該問題下所有輸出的獎勵都會被翻轉(zhuǎn)。
想象一下,這就像是一個老師在批改學(xué)生的作業(yè)時,隨機地將一些正確答案標記為錯誤,將一些錯誤答案標記為正確。按照常理,這種做法應(yīng)該會嚴重干擾學(xué)生的學(xué)習(xí)過程。然而,研究結(jié)果卻出人意料。
在MATH-500測試集上,即使40%的獎勵信號被翻轉(zhuǎn)(一個相當高的噪聲水平),Qwen-2.5-7B模型仍然能夠從初始的5%準確率提高到令人印象深刻的72.02%!相比之下,使用完全準確獎勵訓(xùn)練的模型達到了75.85%的準確率。僅僅4個百分點的差距,在如此高的噪聲水平下,這一結(jié)果實在令人驚訝。
只有當噪聲水平達到50%時(相當于完全隨機的反饋),模型的訓(xùn)練才會徹底崩潰。這一現(xiàn)象表明,大語言模型對獎勵噪聲具有驚人的魯棒性。研究者將這種現(xiàn)象歸因于模型在預(yù)訓(xùn)練階段已經(jīng)學(xué)到的知識和推理能力。即使被錯誤地獎勵,包含錯誤答案的輸出仍然可能展示有價值的邏輯推理過程,而這些推理模式本身就具有學(xué)習(xí)價值。
三、驚人發(fā)現(xiàn):推理過程比最終答案更重要
基于第一個實驗的啟發(fā),研究團隊提出了一個大膽的假設(shè):也許在強化學(xué)習(xí)訓(xùn)練中,推理過程本身比最終答案更為重要。為了驗證這一假設(shè),他們設(shè)計了第二個實驗,引入了一種全新的獎勵機制——"推理模式獎勵"(Reasoning Pattern Reward,簡稱RPR)。
在這個實驗中,研究者不再關(guān)注模型給出的最終答案是否正確,而是專注于模型在推理過程中使用的表達方式。他們識別了約40個表示有效推理的關(guān)鍵詞組,如"首先,我需要..."、"讓我先..."、"我們知道..."等。每當模型的輸出中出現(xiàn)這些關(guān)鍵詞組,就會獲得一定的獎勵,而不管最終答案是否正確。
這就像是在教一個孩子解題時,不是根據(jù)最終答案給予表揚,而是當孩子展示出清晰的思考過程時就給予鼓勵。例如,當孩子說"首先,我需要理解問題要求..."、"讓我先算出這部分..."時,無論最終答案是否正確,都會得到正面反饋。
實驗結(jié)果再次令人驚訝:僅使用RPR訓(xùn)練的Qwen-2.5-7B模型在MATH-500測試集上達到了70.21%的準確率!這一結(jié)果與使用嚴格答案驗證的模型(75.85%)相差無幾,而且遠高于模型的初始準確率(5%)。
這一發(fā)現(xiàn)提供了強有力的證據(jù),表明大語言模型在預(yù)訓(xùn)練階段已經(jīng)學(xué)會了推理,只是需要通過適當?shù)奶崾緛砑せ钸@些能力。強化學(xué)習(xí)的作用不是教會模型新知識,而是幫助它探索能夠?qū)е抡_答案的有效推理模式。
研究者發(fā)現(xiàn),隨著RPR訓(xùn)練的進行,模型最初表現(xiàn)出強大的推理能力,但隨后性能會有所下降。分析輸出內(nèi)容后,他們發(fā)現(xiàn)這種下降是由于"過度思考"造成的——模型開始生成過長的推理鏈,甚至在找到正確答案后仍繼續(xù)推理,導(dǎo)致最終答案無法被提取出來。
四、從數(shù)學(xué)到開放性任務(wù):噪聲獎勵的普遍性
在確立了大語言模型對數(shù)學(xué)問題中噪聲獎勵的魯棒性后,研究團隊將目光轉(zhuǎn)向更具挑戰(zhàn)性的開放性自然語言處理任務(wù)。與數(shù)學(xué)問題不同,這類任務(wù)通常沒有明確的正確答案,需要依賴獎勵模型來評估回應(yīng)的質(zhì)量。
研究團隊使用了NVIDIA HelpSteer3數(shù)據(jù)集,這是一個包含40,500個多領(lǐng)域開放性問題的數(shù)據(jù)集,這些問題需要AI提供有幫助的回答。他們首先訓(xùn)練了不同準確度的獎勵模型(從65%到85%的準確率),然后使用這些獎勵模型來訓(xùn)練Qwen-2.5-7B模型。
實驗結(jié)果顯示,使用準確率為85%和75%的獎勵模型訓(xùn)練的Qwen-2.5-7B模型表現(xiàn)相似,只有約4%的性能差距。這表明,即使在開放性任務(wù)中,大語言模型也對獎勵噪聲展現(xiàn)出一定程度的魯棒性。
然而,當獎勵模型的準確率降至65%時,模型的表現(xiàn)顯著下降。研究者分析,這可能是因為低準確率獎勵模型不僅錯誤率高,而且輸出的獎勵分數(shù)方差較小,缺乏明確的信號來指導(dǎo)模型學(xué)習(xí)。
基于對推理模式重要性的認識,研究團隊提出了一種簡單而有效的方法來校準噪聲獎勵模型:將RPR與獎勵模型結(jié)合使用。具體來說,當獎勵模型給出低分時,他們會計算模型思考過程(標簽內(nèi)的文本)中的RPR分數(shù),并將其添加到獎勵模型的輸出中。
這種校準方法取得了顯著成效:校準后的65%準確率獎勵模型訓(xùn)練出的Qwen-2.5-7B模型,性能僅比使用85%準確率獎勵模型訓(xùn)練的模型低8%,遠好于未校準前的25%差距。更令人驚喜的是,即使是準確率為85%的獎勵模型,經(jīng)過RPR校準后也能獲得進一步性能提升。
此外,研究者還發(fā)現(xiàn),RPR校準不僅能提高大型模型的性能,還能使較小的模型(如Qwen-2.5-3B)在復(fù)雜任務(wù)上展示出強大的推理能力,而這在使用原始獎勵模型時是無法實現(xiàn)的。
五、研究啟示:預(yù)訓(xùn)練奠定基礎(chǔ),強化學(xué)習(xí)引導(dǎo)探索
這項研究為我們理解大語言模型如何學(xué)習(xí)推理提供了全新視角,也為未來的研究和應(yīng)用提供了寶貴的啟示。
首先,研究結(jié)果強調(diào)了預(yù)訓(xùn)練階段的重要性。大語言模型在預(yù)訓(xùn)練過程中已經(jīng)學(xué)到了豐富的知識和基本的推理能力,這使得它們能夠在后續(xù)訓(xùn)練中展現(xiàn)出對噪聲獎勵的魯棒性。對于具有強大預(yù)訓(xùn)練基礎(chǔ)的模型(如Qwen系列),即使在高噪聲環(huán)境下也能有效學(xué)習(xí);而對于預(yù)訓(xùn)練基礎(chǔ)較弱的模型(如研究中的Llama-3.1-8B),即使在無噪聲環(huán)境下表現(xiàn)也相對較差。
其次,研究揭示了強化學(xué)習(xí)在后期訓(xùn)練中的真正作用:不是教會模型新知識,而是幫助模型探索有效的推理模式,從而更好地利用預(yù)訓(xùn)練階段已經(jīng)學(xué)到的知識。這就像是教導(dǎo)一個已經(jīng)掌握各種技能的學(xué)生如何在特定情境下組織思路和應(yīng)用這些技能。
第三,研究提出的RPR方法為處理實際應(yīng)用中不可避免的獎勵噪聲提供了一種簡單而有效的解決方案。通過關(guān)注推理過程而不僅僅是最終結(jié)果,我們可以更好地引導(dǎo)模型發(fā)展強大的推理能力,即使在獎勵不夠準確的情況下也是如此。
最后,這項研究也啟示我們,在評估和改進大語言模型時,不應(yīng)僅關(guān)注最終的任務(wù)性能,還應(yīng)關(guān)注模型如何推理和解決問題的過程。正如論文標題所暗示的:"爬山過程銘刻的智慧遠超登頂"——模型在探索解決方案的過程中學(xué)到的東西,往往比簡單地獲得正確答案更為重要和深刻。
六、總結(jié)與未來展望
這項由騰訊大語言模型部門和中國人民大學(xué)聯(lián)合完成的研究,為我們理解大語言模型的學(xué)習(xí)過程提供了新的視角。研究表明,具有強大推理潛力的大語言模型對獎勵噪聲具有驚人的魯棒性,即使在40%的獎勵被錯誤翻轉(zhuǎn)的情況下,模型仍能有效學(xué)習(xí)并提高性能。
更令人驚訝的是,僅通過獎勵推理過程中的關(guān)鍵表達模式,而不驗證最終答案的正確性,模型也能達到與嚴格驗證訓(xùn)練相當?shù)男阅?。這一發(fā)現(xiàn)直接證明了模型在預(yù)訓(xùn)練階段已經(jīng)學(xué)會了推理,強化學(xué)習(xí)主要是幫助它探索能夠?qū)е抡_答案的輸出模式。
研究還提出了一種簡單而有效的方法——推理模式獎勵(RPR)校準,用于改善帶有噪聲的獎勵模型。這種方法不僅能提高模型在開放性任務(wù)上的表現(xiàn),還能使較小規(guī)模的模型展示出強大的推理能力。
展望未來,研究團隊的發(fā)現(xiàn)提示我們應(yīng)該更加重視預(yù)訓(xùn)練階段模型基礎(chǔ)能力的培養(yǎng),同時改進后期訓(xùn)練技術(shù)。在現(xiàn)實應(yīng)用中,我們不可能總是提供完美無噪聲的獎勵信號,因此理解和利用模型對噪聲的魯棒性將是至關(guān)重要的。
正如研究標題所暗示的,在人工智能的學(xué)習(xí)過程中,"爬山的過程"往往比"到達山頂"更加重要——模型在探索解決方案的旅程中獲得的智慧,遠比簡單地找到正確答案更為深刻和有價值。
這項研究的代碼和腳本已在GitHub上公開(https://github.com/trestad/Noisy-Rewards-in-Learning-to-Reason),有興趣的讀者可以進一步探索。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機制和漸進式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學(xué)習(xí)外觀和運動信息,顯著解決了當前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準,通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報,準確性超越傳統(tǒng)方法90%的指標。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。