在大型語(yǔ)言模型(LLM)技術(shù)飛速發(fā)展的當(dāng)下,來自新加坡科技設(shè)計(jì)大學(xué)和Lambda Labs的研究團(tuán)隊(duì)在2025年5月26日發(fā)布了一項(xiàng)創(chuàng)新研究,論文名為《Error Typing for Smarter Rewards: Improving Process Reward Models with Error-Aware Hierarchical Supervision》(通過錯(cuò)誤類型化實(shí)現(xiàn)更智能的獎(jiǎng)勵(lì):利用錯(cuò)誤感知的層次化監(jiān)督改進(jìn)過程獎(jiǎng)勵(lì)模型)。這篇發(fā)表在arXiv預(yù)印本平臺(tái)上的研究(arXiv:2505.19706v1),由Tej Deep Pala、Panshul Sharma、Amir Zadeh、Chuan Li和Soujanya Poria共同完成,帶來了一種全新的方式來改進(jìn)大語(yǔ)言模型的數(shù)學(xué)推理能力。
一、研究背景:為什么我們需要更好的數(shù)學(xué)推理監(jiān)督?
想象一下,你請(qǐng)一位朋友幫你解一道復(fù)雜的數(shù)學(xué)題。這位朋友開始一步步推導(dǎo),但在中間某個(gè)環(huán)節(jié)出錯(cuò)了。如果你只看最終答案并說"錯(cuò)了,重做",這對(duì)朋友的幫助不大。相反,如果你能指出"你在第三步計(jì)算除法時(shí)算錯(cuò)了"或"你在第四步與問題條件不符",這樣的反饋就能幫助朋友更準(zhǔn)確地修正錯(cuò)誤。
這正是目前大語(yǔ)言模型在數(shù)學(xué)推理中面臨的挑戰(zhàn)。盡管現(xiàn)代LLM在許多自然語(yǔ)言任務(wù)上表現(xiàn)出色,但它們?cè)诮鉀Q需要多步推理的數(shù)學(xué)問題時(shí)仍容易出現(xiàn)"幻覺"和邏輯錯(cuò)誤。特別是在像數(shù)學(xué)這樣需要嚴(yán)格、一絲不茍的推理領(lǐng)域,一個(gè)微小的計(jì)算錯(cuò)誤或邏輯失誤就可能導(dǎo)致整個(gè)解題過程偏離正確軌道。
傳統(tǒng)上,研究人員使用"結(jié)果獎(jiǎng)勵(lì)模型"(Outcome Reward Models)來評(píng)估LLM的數(shù)學(xué)解題能力,這類模型只檢查最終答案是否正確。這就像只告訴你朋友"答案錯(cuò)了",而不指出具體哪一步出了問題。近年來,"過程獎(jiǎng)勵(lì)模型"(Process Reward Models,簡(jiǎn)稱PRMs)應(yīng)運(yùn)而生,它們能夠?qū)忸}過程中的每一步進(jìn)行評(píng)分,從而更精細(xì)地指導(dǎo)模型生成連貫可靠的解題路徑。
然而,現(xiàn)有的PRMs在識(shí)別細(xì)微錯(cuò)誤類型方面仍然存在局限。它們往往將錯(cuò)誤檢測(cè)(這一步有沒有錯(cuò))和路徑優(yōu)化(這一步對(duì)解決問題有多大幫助)混為一談,導(dǎo)致每種信號(hào)都未被充分利用。
二、PathFinder-PRM:把"偵探"和"指導(dǎo)員"的工作分開
研究團(tuán)隊(duì)提出的PathFinder-PRM就像是將一個(gè)經(jīng)驗(yàn)豐富的數(shù)學(xué)老師的工作分成了兩個(gè)清晰的步驟:首先像偵探一樣找出錯(cuò)誤的類型,然后再像指導(dǎo)員一樣給出整體評(píng)價(jià)。
傳統(tǒng)的PRMs工作方式是這樣的:給定一個(gè)數(shù)學(xué)問題和學(xué)生的解題步驟,它們會(huì)直接給每一步分配一個(gè)獎(jiǎng)勵(lì)分?jǐn)?shù)。這個(gè)分?jǐn)?shù)隱含地反映了該步驟是否存在錯(cuò)誤以及它對(duì)解決問題的貢獻(xiàn)如何。
PathFinder-PRM則采取了層次化的方法,將獎(jiǎng)勵(lì)分配分解為兩個(gè)連續(xù)的子任務(wù):
首先,它會(huì)分析每一步可能存在的兩類錯(cuò)誤: 1. 數(shù)學(xué)錯(cuò)誤:包括算術(shù)或代數(shù)運(yùn)算錯(cuò)誤、公式應(yīng)用不當(dāng)、或無(wú)效的推理。 2. 一致性錯(cuò)誤:與問題、先前步驟或已建立的約束存在邏輯不一致。
接著,在第二步中,它會(huì)利用這些錯(cuò)誤信息來估計(jì)步驟的整體獎(jiǎng)勵(lì)分?jǐn)?shù)。
想象一個(gè)具體例子:一個(gè)學(xué)生在解決"王小姐每小時(shí)賺12美元做保姆。昨天,她只做了50分鐘的保姆工作。她賺了多少錢?"這道題時(shí),寫下了以下步驟:
- 第1步:王小姐每分鐘賺12/60 = 0.2美元。(正確步驟) - 第2步:讓我們先計(jì)算王小姐每分鐘賺多少錢。(冗余步驟,因?yàn)榈?步已經(jīng)計(jì)算過了) - 第3步:王小姐每分鐘賺12/60 = 0.4美元。(計(jì)算錯(cuò)誤) - 第4步:王小姐賺了12/50 = 0.24美元每分鐘。(與問題不一致,混淆了時(shí)間單位)
傳統(tǒng)的PRMs會(huì)直接給每一步分配一個(gè)分?jǐn)?shù),比如第1步0.85分,第2步0.63分,第3步0.46分,第4步0.35分,但不會(huì)明確指出錯(cuò)誤的類型。
相比之下,PathFinder-PRM會(huì)先進(jìn)行錯(cuò)誤分類: - 第1步:數(shù)學(xué)√,一致性√ → 獎(jiǎng)勵(lì)分?jǐn)?shù)0.95 - 第2步:數(shù)學(xué)√,一致性√ → 獎(jiǎng)勵(lì)分?jǐn)?shù)0.37(盡管沒有錯(cuò)誤,但步驟冗余) - 第3步:數(shù)學(xué)×,一致性√ → 獎(jiǎng)勵(lì)分?jǐn)?shù)0 - 第4步:數(shù)學(xué)√,一致性× → 獎(jiǎng)勵(lì)分?jǐn)?shù)0
這種方法不僅能更準(zhǔn)確地指出錯(cuò)誤所在,還能提供更豐富的監(jiān)督信號(hào),幫助模型更好地理解和改進(jìn)推理過程。
三、構(gòu)建更豐富的數(shù)據(jù)集:多維度的錯(cuò)誤標(biāo)注
為了訓(xùn)練PathFinder-PRM,研究團(tuán)隊(duì)構(gòu)建了一個(gè)包含約40萬(wàn)個(gè)數(shù)學(xué)推理軌跡樣本的新數(shù)據(jù)集,每個(gè)樣本都有三維度的步級(jí)標(biāo)簽:(1)數(shù)學(xué)推理準(zhǔn)確性,(2)與先前步驟和數(shù)學(xué)領(lǐng)域的一致性,以及(3)步驟正確性。
這個(gè)數(shù)據(jù)集的構(gòu)建利用了兩個(gè)現(xiàn)有數(shù)據(jù)集: 1. PRM800K:包含人類專家標(biāo)注的步級(jí)正確性標(biāo)簽 2. RLHFlow Mistral數(shù)據(jù):通過蒙特卡洛估計(jì)生成的步級(jí)標(biāo)簽
對(duì)于PRM800K中原始標(biāo)簽為1(正確且最優(yōu))的步驟,研究團(tuán)隊(duì)將其映射為三維類別得分向量(1, 1, 1)。對(duì)于標(biāo)簽為0(正確但次優(yōu))的步驟,則映射為(1, 1, 0)。這反映了團(tuán)隊(duì)對(duì)人類標(biāo)簽的理解:標(biāo)簽{0, 1}表示無(wú)錯(cuò)誤推理,而標(biāo)簽0特指非最優(yōu)流程步驟。
對(duì)于錯(cuò)誤步驟(標(biāo)簽為-1),原始正確性標(biāo)簽不足以確定三個(gè)評(píng)估類別的分?jǐn)?shù)。因此,團(tuán)隊(duì)使用DeepSeek-R1-Distill-Qwen-32B模型為這些步驟生成二元類別標(biāo)簽。為保持?jǐn)?shù)據(jù)質(zhì)量,他們過濾掉了與-1人類標(biāo)注標(biāo)簽不一致的類別分?jǐn)?shù)向量樣本。
同樣,由于RLHFlow Mistral數(shù)據(jù)集缺乏金標(biāo)準(zhǔn)步級(jí)正確性標(biāo)簽,研究團(tuán)隊(duì)使用了相同的模型為隨機(jī)選擇的過程步驟子集分配二元類別標(biāo)簽,并實(shí)施了一致性過濾機(jī)制,刪除了與現(xiàn)有蒙特卡洛估計(jì)標(biāo)簽邏輯不兼容的分?jǐn)?shù)分配。
最終,PathFinder-PRM數(shù)據(jù)集包含了約40萬(wàn)個(gè)推理軌跡樣本,其中約34.5萬(wàn)來自PRM800K,另外5.5萬(wàn)來自RLHFlow Mistral數(shù)據(jù)。研究團(tuán)隊(duì)訓(xùn)練了兩個(gè)模型變體:完整的PathFinder-PRM-7B和僅在PRM800K子集上訓(xùn)練的PathFinder-PRM-7B-PRM800k。
四、模型訓(xùn)練與設(shè)計(jì):利用數(shù)學(xué)特長(zhǎng)構(gòu)建更好的評(píng)估者
先前的研究表明,模型的數(shù)學(xué)推理能力與其作為過程獎(jiǎng)勵(lì)模型的表現(xiàn)密切相關(guān)。基于這一發(fā)現(xiàn),研究團(tuán)隊(duì)選擇了Qwen2.5-Math-7B-Instruct作為初始模型,這個(gè)模型在多個(gè)數(shù)學(xué)基準(zhǔn)測(cè)試上已經(jīng)取得了最先進(jìn)的結(jié)果。
與最近的PRMs不同,后者會(huì)將語(yǔ)言建模頭替換為標(biāo)量值頭,PathFinder-PRM保留了原始的語(yǔ)言模型架構(gòu),并擴(kuò)展了標(biāo)記器,增加了兩個(gè)特殊標(biāo)記<+>和<->,分別表示正面和負(fù)面步驟標(biāo)簽。
訓(xùn)練目標(biāo)分為兩部分,模擬推理過程中的兩次前向傳遞: 1. 錯(cuò)誤檢測(cè)目標(biāo):模型需要預(yù)測(cè)"數(shù)學(xué):<+>/<->"和"一致性:<+>/<->" 2. 獎(jiǎng)勵(lì)估計(jì)目標(biāo):在預(yù)測(cè)的錯(cuò)誤標(biāo)簽之后,模型需要預(yù)測(cè)"正確性:<+>/<->"
對(duì)于每個(gè)樣本,模型只計(jì)算這些標(biāo)簽標(biāo)記上的交叉熵?fù)p失。
五、實(shí)驗(yàn)結(jié)果:細(xì)致的錯(cuò)誤分類帶來全面性能提升
研究團(tuán)隊(duì)在多個(gè)評(píng)估基準(zhǔn)上測(cè)試了PathFinder-PRM的性能,包括ProcessBench、PRMBench以及一系列數(shù)學(xué)推理基準(zhǔn)測(cè)試。
在PRMBench上,PathFinder-PRM-7B取得了67.7的最高總體PRM得分,超過了先前最佳的Qwen2.5-Math-PRM-7B(65.5分)和ReasonEval-7B(60.0分)。即使是僅在PRM800K數(shù)據(jù)子集上訓(xùn)練的PathFinder-PRM-7B-PRM800K變體也達(dá)到了65.0的競(jìng)爭(zhēng)性得分。值得注意的是,PathFinder-PRM-7B的表現(xiàn)超過了幾乎所有LLM-as-Judge模型,包括GPT-4o、QwQ-Preview-32B和Gemini-2.0-flash-exp。
在ProcessBench上,當(dāng)僅在PRM800K上訓(xùn)練時(shí),PathFinder-PRM-7B-PRM800K獲得了65.2的平均F1分?jǐn)?shù),比之前最好的模型(Qwen2.5-Math-7B-PRM800K,58.5分)高出6.7分,并在所有類別中都超過了其他僅基于PRM800K的基準(zhǔn):GSM8K(+5.9)、MATH(+8.7)、Olympiad Bench(+8.0)和OmniMath(+12.3)。
利用更大的混合人工+自動(dòng)標(biāo)注數(shù)據(jù)集進(jìn)一步提升了性能。PathFinder-PRM-7B達(dá)到了69.5的平均F1分?jǐn)?shù),創(chuàng)下了混合數(shù)據(jù)模型中的新記錄,并縮小了與頂級(jí)自動(dòng)標(biāo)注模型(Qwen2.5-Math-PRM-7B,73.5分)的差距至僅4分。
更重要的是,研究團(tuán)隊(duì)評(píng)估了PathFinder-PRM在引導(dǎo)解決方案搜索中的實(shí)用性。使用Qwen2.5-Instruct-7B作為生成器,并使用PRMs對(duì)采樣步驟進(jìn)行排名,結(jié)果表明PathFinder-PRM-7B產(chǎn)生了最高的平均prm@8得分(48.25),超過了Qwen2.5-Math-PRM-7B(46.8)。這一優(yōu)勢(shì)在各個(gè)任務(wù)中都得到了保持,包括具有挑戰(zhàn)性的子集,如AIME24和College MATH,表明該模型與地面真實(shí)解決方案質(zhì)量有更好的歸納偏差和一致性。
特別值得注意的是,盡管Qwen2.5-Math-PRM-7B是在約150萬(wàn)個(gè)自動(dòng)標(biāo)注上訓(xùn)練的,但PathFinder-PRM-7B僅使用約40萬(wàn)個(gè)樣本(約為前者的1/3),卻在關(guān)鍵基準(zhǔn)測(cè)試和獎(jiǎng)勵(lì)引導(dǎo)搜索中達(dá)到或超過了其性能。在ProcessBench上,PathFinder-PRM-7B的表現(xiàn)與Qwen2.5-Math-PRM-7B相當(dāng)(平均F1分?jǐn)?shù)69.5比73.5),在PRMBench上表現(xiàn)更佳(67.7比65.5),并在獎(jiǎng)勵(lì)引導(dǎo)貪婪搜索中產(chǎn)生更高的pass@8(48.3比46.8)。這表明層次化、錯(cuò)誤感知的訓(xùn)練產(chǎn)生了更高效、更穩(wěn)健的PRMs,使用更少的樣本實(shí)現(xiàn)了更優(yōu)的過程監(jiān)督。
六、深入理解:為什么分解錯(cuò)誤類型和任務(wù)能夠提升性能?
為了驗(yàn)證研究的核心假設(shè),即錯(cuò)誤檢測(cè)和值估計(jì)是互補(bǔ)但不同的目標(biāo),團(tuán)隊(duì)進(jìn)行了消融實(shí)驗(yàn),修改了方法的部分內(nèi)容:
1. 移除單獨(dú)的子任務(wù)預(yù)測(cè):遵循現(xiàn)有PRM方法,團(tuán)隊(duì)訓(xùn)練模型只使用步驟正確性標(biāo)簽共同學(xué)習(xí)錯(cuò)誤檢測(cè)和正確路徑引導(dǎo)。
2. 移除單獨(dú)的錯(cuò)誤類別:在這種方法中,模型仍然進(jìn)行層次化預(yù)測(cè),但在第一步中,它將錯(cuò)誤類別組合起來,預(yù)測(cè)步驟中是否存在錯(cuò)誤,而不是區(qū)分錯(cuò)誤類型。
實(shí)驗(yàn)結(jié)果證實(shí)了分離錯(cuò)誤類別的益處:在ProcessBench上,明確區(qū)分?jǐn)?shù)學(xué)和一致性錯(cuò)誤帶來了明顯的整體提升——PathFinder-PRM-7B的得分為69.5平均F1,而沒有單獨(dú)錯(cuò)誤類別的版本僅為67.0。在PRMBench上也觀察到類似的性能下降。
更關(guān)鍵的是,獎(jiǎng)勵(lì)引導(dǎo)搜索突顯了錯(cuò)誤類型分類的實(shí)際影響:在對(duì)八個(gè)候選解決方案進(jìn)行排名時(shí),PathFinder-PRM-7B實(shí)現(xiàn)了48.3的prm@8,而沒有單獨(dú)錯(cuò)誤類別的PathFinder-PRM僅為45.4(+2.9分)。這種在實(shí)際問題解決性能上的躍升表明,細(xì)粒度的錯(cuò)誤信號(hào)不僅改進(jìn)了診斷指標(biāo),還能直接轉(zhuǎn)化為選擇更高質(zhì)量解決路徑的能力。
PathFinder-PRM也從錯(cuò)誤感知的層次化監(jiān)督中受益:在ProcessBench、PRMBench和獎(jiǎng)勵(lì)引導(dǎo)搜索中,PathFinder-PRM始終優(yōu)于沒有單獨(dú)子任務(wù)預(yù)測(cè)的PathFinder-PRM,凸顯了分解反饋預(yù)測(cè)為離散推理組件的價(jià)值。
七、結(jié)論與未來發(fā)展
這項(xiàng)研究表明,通過將錯(cuò)誤檢測(cè)與步驟優(yōu)化性指導(dǎo)分離,并進(jìn)一步區(qū)分不同類型的錯(cuò)誤,可以顯著提升大語(yǔ)言模型在數(shù)學(xué)推理中的表現(xiàn)。PathFinder-PRM的設(shè)計(jì)類似于優(yōu)秀數(shù)學(xué)教師的工作方式:先指出錯(cuò)誤的具體類型,然后再給予整體評(píng)價(jià)和改進(jìn)建議。
從更廣泛的角度看,這一研究成果對(duì)于提升LLM的推理能力具有重要意義。隨著像DeepSeek-R1和OpenAI的GPT-o系列等顯式推理中心LLM的興起,這類過程監(jiān)督技術(shù)將變得越來越關(guān)鍵——它們不僅能驗(yàn)證最終答案,還能在每一步引導(dǎo)和糾正推理過程,確保整個(gè)過程的邏輯連貫性和事實(shí)準(zhǔn)確性。
PathFinder-PRM展示的方法不僅提高了錯(cuò)誤檢測(cè)的細(xì)粒度能力,還顯著改善了端到端、獎(jiǎng)勵(lì)引導(dǎo)的數(shù)學(xué)推理,同時(shí)具有更高的數(shù)據(jù)效率。這一成果為未來構(gòu)建更強(qiáng)大、更可靠的推理系統(tǒng)提供了寶貴思路。
對(duì)于普通用戶來說,這意味著未來的AI助手在幫助解決數(shù)學(xué)問題時(shí),將能夠提供更準(zhǔn)確、更具教育意義的指導(dǎo)——不僅告訴你答案是否正確,還能指出具體哪一步出了問題,以及問題的具體類型,就像一位耐心的數(shù)學(xué)家教一樣。
研究團(tuán)隊(duì)認(rèn)為,這種錯(cuò)誤感知的層次化獎(jiǎng)勵(lì)生成方法是構(gòu)建更強(qiáng)健、更可解釋的過程獎(jiǎng)勵(lì)模型的一個(gè)有前途的方向,并期待隨著擴(kuò)展到更大架構(gòu)時(shí)取得更多進(jìn)展。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語(yǔ)言模型的敘事推理能力與音頻生成技術(shù),通過交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語(yǔ)言模型人性化對(duì)話問題。該研究創(chuàng)建了包含20萬(wàn)高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。