在大型語言模型(LLM)技術(shù)飛速發(fā)展的當下,來自新加坡科技設計大學和Lambda Labs的研究團隊在2025年5月26日發(fā)布了一項創(chuàng)新研究,論文名為《Error Typing for Smarter Rewards: Improving Process Reward Models with Error-Aware Hierarchical Supervision》(通過錯誤類型化實現(xiàn)更智能的獎勵:利用錯誤感知的層次化監(jiān)督改進過程獎勵模型)。這篇發(fā)表在arXiv預印本平臺上的研究(arXiv:2505.19706v1),由Tej Deep Pala、Panshul Sharma、Amir Zadeh、Chuan Li和Soujanya Poria共同完成,帶來了一種全新的方式來改進大語言模型的數(shù)學推理能力。
一、研究背景:為什么我們需要更好的數(shù)學推理監(jiān)督?
想象一下,你請一位朋友幫你解一道復雜的數(shù)學題。這位朋友開始一步步推導,但在中間某個環(huán)節(jié)出錯了。如果你只看最終答案并說"錯了,重做",這對朋友的幫助不大。相反,如果你能指出"你在第三步計算除法時算錯了"或"你在第四步與問題條件不符",這樣的反饋就能幫助朋友更準確地修正錯誤。
這正是目前大語言模型在數(shù)學推理中面臨的挑戰(zhàn)。盡管現(xiàn)代LLM在許多自然語言任務上表現(xiàn)出色,但它們在解決需要多步推理的數(shù)學問題時仍容易出現(xiàn)"幻覺"和邏輯錯誤。特別是在像數(shù)學這樣需要嚴格、一絲不茍的推理領(lǐng)域,一個微小的計算錯誤或邏輯失誤就可能導致整個解題過程偏離正確軌道。
傳統(tǒng)上,研究人員使用"結(jié)果獎勵模型"(Outcome Reward Models)來評估LLM的數(shù)學解題能力,這類模型只檢查最終答案是否正確。這就像只告訴你朋友"答案錯了",而不指出具體哪一步出了問題。近年來,"過程獎勵模型"(Process Reward Models,簡稱PRMs)應運而生,它們能夠?qū)忸}過程中的每一步進行評分,從而更精細地指導模型生成連貫可靠的解題路徑。
然而,現(xiàn)有的PRMs在識別細微錯誤類型方面仍然存在局限。它們往往將錯誤檢測(這一步有沒有錯)和路徑優(yōu)化(這一步對解決問題有多大幫助)混為一談,導致每種信號都未被充分利用。
二、PathFinder-PRM:把"偵探"和"指導員"的工作分開
研究團隊提出的PathFinder-PRM就像是將一個經(jīng)驗豐富的數(shù)學老師的工作分成了兩個清晰的步驟:首先像偵探一樣找出錯誤的類型,然后再像指導員一樣給出整體評價。
傳統(tǒng)的PRMs工作方式是這樣的:給定一個數(shù)學問題和學生的解題步驟,它們會直接給每一步分配一個獎勵分數(shù)。這個分數(shù)隱含地反映了該步驟是否存在錯誤以及它對解決問題的貢獻如何。
PathFinder-PRM則采取了層次化的方法,將獎勵分配分解為兩個連續(xù)的子任務:
首先,它會分析每一步可能存在的兩類錯誤: 1. 數(shù)學錯誤:包括算術(shù)或代數(shù)運算錯誤、公式應用不當、或無效的推理。 2. 一致性錯誤:與問題、先前步驟或已建立的約束存在邏輯不一致。
接著,在第二步中,它會利用這些錯誤信息來估計步驟的整體獎勵分數(shù)。
想象一個具體例子:一個學生在解決"王小姐每小時賺12美元做保姆。昨天,她只做了50分鐘的保姆工作。她賺了多少錢?"這道題時,寫下了以下步驟:
- 第1步:王小姐每分鐘賺12/60 = 0.2美元。(正確步驟) - 第2步:讓我們先計算王小姐每分鐘賺多少錢。(冗余步驟,因為第1步已經(jīng)計算過了) - 第3步:王小姐每分鐘賺12/60 = 0.4美元。(計算錯誤) - 第4步:王小姐賺了12/50 = 0.24美元每分鐘。(與問題不一致,混淆了時間單位)
傳統(tǒng)的PRMs會直接給每一步分配一個分數(shù),比如第1步0.85分,第2步0.63分,第3步0.46分,第4步0.35分,但不會明確指出錯誤的類型。
相比之下,PathFinder-PRM會先進行錯誤分類: - 第1步:數(shù)學√,一致性√ → 獎勵分數(shù)0.95 - 第2步:數(shù)學√,一致性√ → 獎勵分數(shù)0.37(盡管沒有錯誤,但步驟冗余) - 第3步:數(shù)學×,一致性√ → 獎勵分數(shù)0 - 第4步:數(shù)學√,一致性× → 獎勵分數(shù)0
這種方法不僅能更準確地指出錯誤所在,還能提供更豐富的監(jiān)督信號,幫助模型更好地理解和改進推理過程。
三、構(gòu)建更豐富的數(shù)據(jù)集:多維度的錯誤標注
為了訓練PathFinder-PRM,研究團隊構(gòu)建了一個包含約40萬個數(shù)學推理軌跡樣本的新數(shù)據(jù)集,每個樣本都有三維度的步級標簽:(1)數(shù)學推理準確性,(2)與先前步驟和數(shù)學領(lǐng)域的一致性,以及(3)步驟正確性。
這個數(shù)據(jù)集的構(gòu)建利用了兩個現(xiàn)有數(shù)據(jù)集: 1. PRM800K:包含人類專家標注的步級正確性標簽 2. RLHFlow Mistral數(shù)據(jù):通過蒙特卡洛估計生成的步級標簽
對于PRM800K中原始標簽為1(正確且最優(yōu))的步驟,研究團隊將其映射為三維類別得分向量(1, 1, 1)。對于標簽為0(正確但次優(yōu))的步驟,則映射為(1, 1, 0)。這反映了團隊對人類標簽的理解:標簽{0, 1}表示無錯誤推理,而標簽0特指非最優(yōu)流程步驟。
對于錯誤步驟(標簽為-1),原始正確性標簽不足以確定三個評估類別的分數(shù)。因此,團隊使用DeepSeek-R1-Distill-Qwen-32B模型為這些步驟生成二元類別標簽。為保持數(shù)據(jù)質(zhì)量,他們過濾掉了與-1人類標注標簽不一致的類別分數(shù)向量樣本。
同樣,由于RLHFlow Mistral數(shù)據(jù)集缺乏金標準步級正確性標簽,研究團隊使用了相同的模型為隨機選擇的過程步驟子集分配二元類別標簽,并實施了一致性過濾機制,刪除了與現(xiàn)有蒙特卡洛估計標簽邏輯不兼容的分數(shù)分配。
最終,PathFinder-PRM數(shù)據(jù)集包含了約40萬個推理軌跡樣本,其中約34.5萬來自PRM800K,另外5.5萬來自RLHFlow Mistral數(shù)據(jù)。研究團隊訓練了兩個模型變體:完整的PathFinder-PRM-7B和僅在PRM800K子集上訓練的PathFinder-PRM-7B-PRM800k。
四、模型訓練與設計:利用數(shù)學特長構(gòu)建更好的評估者
先前的研究表明,模型的數(shù)學推理能力與其作為過程獎勵模型的表現(xiàn)密切相關(guān)?;谶@一發(fā)現(xiàn),研究團隊選擇了Qwen2.5-Math-7B-Instruct作為初始模型,這個模型在多個數(shù)學基準測試上已經(jīng)取得了最先進的結(jié)果。
與最近的PRMs不同,后者會將語言建模頭替換為標量值頭,PathFinder-PRM保留了原始的語言模型架構(gòu),并擴展了標記器,增加了兩個特殊標記<+>和<->,分別表示正面和負面步驟標簽。
訓練目標分為兩部分,模擬推理過程中的兩次前向傳遞: 1. 錯誤檢測目標:模型需要預測"數(shù)學:<+>/<->"和"一致性:<+>/<->" 2. 獎勵估計目標:在預測的錯誤標簽之后,模型需要預測"正確性:<+>/<->"
對于每個樣本,模型只計算這些標簽標記上的交叉熵損失。
五、實驗結(jié)果:細致的錯誤分類帶來全面性能提升
研究團隊在多個評估基準上測試了PathFinder-PRM的性能,包括ProcessBench、PRMBench以及一系列數(shù)學推理基準測試。
在PRMBench上,PathFinder-PRM-7B取得了67.7的最高總體PRM得分,超過了先前最佳的Qwen2.5-Math-PRM-7B(65.5分)和ReasonEval-7B(60.0分)。即使是僅在PRM800K數(shù)據(jù)子集上訓練的PathFinder-PRM-7B-PRM800K變體也達到了65.0的競爭性得分。值得注意的是,PathFinder-PRM-7B的表現(xiàn)超過了幾乎所有LLM-as-Judge模型,包括GPT-4o、QwQ-Preview-32B和Gemini-2.0-flash-exp。
在ProcessBench上,當僅在PRM800K上訓練時,PathFinder-PRM-7B-PRM800K獲得了65.2的平均F1分數(shù),比之前最好的模型(Qwen2.5-Math-7B-PRM800K,58.5分)高出6.7分,并在所有類別中都超過了其他僅基于PRM800K的基準:GSM8K(+5.9)、MATH(+8.7)、Olympiad Bench(+8.0)和OmniMath(+12.3)。
利用更大的混合人工+自動標注數(shù)據(jù)集進一步提升了性能。PathFinder-PRM-7B達到了69.5的平均F1分數(shù),創(chuàng)下了混合數(shù)據(jù)模型中的新記錄,并縮小了與頂級自動標注模型(Qwen2.5-Math-PRM-7B,73.5分)的差距至僅4分。
更重要的是,研究團隊評估了PathFinder-PRM在引導解決方案搜索中的實用性。使用Qwen2.5-Instruct-7B作為生成器,并使用PRMs對采樣步驟進行排名,結(jié)果表明PathFinder-PRM-7B產(chǎn)生了最高的平均prm@8得分(48.25),超過了Qwen2.5-Math-PRM-7B(46.8)。這一優(yōu)勢在各個任務中都得到了保持,包括具有挑戰(zhàn)性的子集,如AIME24和College MATH,表明該模型與地面真實解決方案質(zhì)量有更好的歸納偏差和一致性。
特別值得注意的是,盡管Qwen2.5-Math-PRM-7B是在約150萬個自動標注上訓練的,但PathFinder-PRM-7B僅使用約40萬個樣本(約為前者的1/3),卻在關(guān)鍵基準測試和獎勵引導搜索中達到或超過了其性能。在ProcessBench上,PathFinder-PRM-7B的表現(xiàn)與Qwen2.5-Math-PRM-7B相當(平均F1分數(shù)69.5比73.5),在PRMBench上表現(xiàn)更佳(67.7比65.5),并在獎勵引導貪婪搜索中產(chǎn)生更高的pass@8(48.3比46.8)。這表明層次化、錯誤感知的訓練產(chǎn)生了更高效、更穩(wěn)健的PRMs,使用更少的樣本實現(xiàn)了更優(yōu)的過程監(jiān)督。
六、深入理解:為什么分解錯誤類型和任務能夠提升性能?
為了驗證研究的核心假設,即錯誤檢測和值估計是互補但不同的目標,團隊進行了消融實驗,修改了方法的部分內(nèi)容:
1. 移除單獨的子任務預測:遵循現(xiàn)有PRM方法,團隊訓練模型只使用步驟正確性標簽共同學習錯誤檢測和正確路徑引導。
2. 移除單獨的錯誤類別:在這種方法中,模型仍然進行層次化預測,但在第一步中,它將錯誤類別組合起來,預測步驟中是否存在錯誤,而不是區(qū)分錯誤類型。
實驗結(jié)果證實了分離錯誤類別的益處:在ProcessBench上,明確區(qū)分數(shù)學和一致性錯誤帶來了明顯的整體提升——PathFinder-PRM-7B的得分為69.5平均F1,而沒有單獨錯誤類別的版本僅為67.0。在PRMBench上也觀察到類似的性能下降。
更關(guān)鍵的是,獎勵引導搜索突顯了錯誤類型分類的實際影響:在對八個候選解決方案進行排名時,PathFinder-PRM-7B實現(xiàn)了48.3的prm@8,而沒有單獨錯誤類別的PathFinder-PRM僅為45.4(+2.9分)。這種在實際問題解決性能上的躍升表明,細粒度的錯誤信號不僅改進了診斷指標,還能直接轉(zhuǎn)化為選擇更高質(zhì)量解決路徑的能力。
PathFinder-PRM也從錯誤感知的層次化監(jiān)督中受益:在ProcessBench、PRMBench和獎勵引導搜索中,PathFinder-PRM始終優(yōu)于沒有單獨子任務預測的PathFinder-PRM,凸顯了分解反饋預測為離散推理組件的價值。
七、結(jié)論與未來發(fā)展
這項研究表明,通過將錯誤檢測與步驟優(yōu)化性指導分離,并進一步區(qū)分不同類型的錯誤,可以顯著提升大語言模型在數(shù)學推理中的表現(xiàn)。PathFinder-PRM的設計類似于優(yōu)秀數(shù)學教師的工作方式:先指出錯誤的具體類型,然后再給予整體評價和改進建議。
從更廣泛的角度看,這一研究成果對于提升LLM的推理能力具有重要意義。隨著像DeepSeek-R1和OpenAI的GPT-o系列等顯式推理中心LLM的興起,這類過程監(jiān)督技術(shù)將變得越來越關(guān)鍵——它們不僅能驗證最終答案,還能在每一步引導和糾正推理過程,確保整個過程的邏輯連貫性和事實準確性。
PathFinder-PRM展示的方法不僅提高了錯誤檢測的細粒度能力,還顯著改善了端到端、獎勵引導的數(shù)學推理,同時具有更高的數(shù)據(jù)效率。這一成果為未來構(gòu)建更強大、更可靠的推理系統(tǒng)提供了寶貴思路。
對于普通用戶來說,這意味著未來的AI助手在幫助解決數(shù)學問題時,將能夠提供更準確、更具教育意義的指導——不僅告訴你答案是否正確,還能指出具體哪一步出了問題,以及問題的具體類型,就像一位耐心的數(shù)學家教一樣。
研究團隊認為,這種錯誤感知的層次化獎勵生成方法是構(gòu)建更強健、更可解釋的過程獎勵模型的一個有前途的方向,并期待隨著擴展到更大架構(gòu)時取得更多進展。
好文章,需要你的鼓勵
新加坡國立大學研究團隊開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實驗顯示,僅訓練AI玩簡單撲克游戲就能讓其數(shù)學推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學題目作為訓練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學解題中,為AI訓練提供了新思路。
同濟大學團隊開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學習和數(shù)學優(yōu)化方法,在合成數(shù)據(jù)集上實現(xiàn)37.9%的精度提升,并在真實設備上展現(xiàn)出色泛化能力,為機器人、AR和自動駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學研究團隊通過對比實驗發(fā)現(xiàn),經(jīng)過強化學習訓練的視覺語言模型雖然表現(xiàn)出"頓悟時刻"現(xiàn)象,但這些自我糾錯行為并不能實際提升推理準確率。研究揭示了AI模型存在"生成-驗證差距",即生成答案的能力強于驗證答案質(zhì)量的能力,且模型在自我驗證時無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動態(tài)稀疏性實現(xiàn)大語言模型訓練加速1.6倍,計算成本降低2.2倍。該方法使用SVD稀疏性估計器智能選擇重要計算部分,在保持模型性能的同時顯著提升訓練效率,已在多個任務上驗證有效性。