這項由快手科技Klear團隊完成的研究發(fā)表于2025年8月,詳細介紹了他們開發(fā)的Klear-Reasoner模型及其背后的創(chuàng)新技術(shù)。感興趣的讀者可以通過GitHub項目頁面(https://github.com/suu990901/KlearReasoner)了解更多技術(shù)細節(jié),完整論文也已在arXiv平臺發(fā)布。
當我們解決復(fù)雜數(shù)學題或編程問題時,總是需要一步步仔細思考,不斷嘗試不同方法,有時甚至要推翻之前的想法重新開始?,F(xiàn)在,人工智能也學會了這種深度思考的能力。快手科技的研究團隊開發(fā)出一個名為Klear-Reasoner的AI模型,它不僅能像人類一樣進行長時間的邏輯推理,還在數(shù)學和編程領(lǐng)域取得了令人矚目的成績。
這個模型就像一個非常聰明的學生,在美國數(shù)學邀請賽(AIME)2024年的考試中獲得了90.5分的高分,在2025年的考試中也達到了83.2分。要知道,這可是連很多數(shù)學專業(yè)的大學生都覺得困難的考試。在編程能力測試LiveCodeBench上,它也表現(xiàn)出色,分別在V5和V6版本中取得了66.0%和58.1%的成績。
更重要的是,這項研究不像很多其他工作那樣遮遮掩掩,而是詳細公開了整個訓練過程的每一個步驟。研究團隊發(fā)現(xiàn),訓練這樣的推理模型就像培養(yǎng)一個優(yōu)秀的學生一樣,需要精心設(shè)計的學習材料和恰當?shù)闹笇Х椒āK麄兲貏e強調(diào),與其給模型提供大量普通質(zhì)量的學習材料,不如專注于少量但高質(zhì)量的內(nèi)容。這就好比讓學生做十道精選的好題,比做一百道平庸的練習題更有效果。
在技術(shù)創(chuàng)新方面,研究團隊提出了一種叫做"梯度保持剪切策略優(yōu)化"(GPPO)的新方法。傳統(tǒng)的AI訓練方法在處理某些學習信號時,會簡單粗暴地忽略掉一些看似不重要的信息,就像老師批改作業(yè)時只看對錯而不關(guān)注學生的思考過程。而GPPO方法更像一位耐心的導師,即使學生的答案不完全正確,也會從中提取有價值的思考線索,幫助模型更好地學習和改進。
一、從模仿到思考:AI學習方式的根本轉(zhuǎn)變
傳統(tǒng)的AI模型訓練就像教孩子背誦標準答案,給它看大量的問題和對應(yīng)的正確答案,讓它通過模式識別來學會解題。然而,這種方法在面對需要深度思考的復(fù)雜問題時就顯得力不從心了。就好比一個只會背誦乘法口訣表的學生,當遇到需要多步驟推理的應(yīng)用題時就會束手無策。
OpenAI的O1系列模型和DeepSeek的R1模型的成功,讓研究者們意識到了長鏈式思考的重要性。這些模型不是簡單地輸出答案,而是會展示完整的思考過程,就像學生在草稿紙上一步步推導數(shù)學公式一樣。但問題是,這些商業(yè)模型的訓練細節(jié)往往不對外公開,就像名廚不愿意分享獨門秘方一樣,這讓其他研究者很難復(fù)現(xiàn)或改進這些技術(shù)。
快手團隊決定打破這種局面。他們以Qwen3-8B作為基礎(chǔ)模型,就像選擇了一個聰明但還需要進一步培養(yǎng)的學生,然后通過精心設(shè)計的訓練方法,讓它學會了深度推理的能力。整個過程分為兩個主要階段:首先是長鏈式思考的監(jiān)督學習,然后是強化學習的進一步優(yōu)化。
在監(jiān)督學習階段,研究團隊收集了150萬個高質(zhì)量的數(shù)學和編程問題,每個問題都配有詳細的解題思路。這些材料主要來源于OpenThoughts、NuminaMath、AceReason-Nemotron等知名數(shù)據(jù)集,就像為學生精選了最好的教科書和練習冊。更重要的是,他們使用DeepSeek-R1-0528這樣的頂級模型作為"老師",為每個問題生成詳細的解答過程,確保學習材料的質(zhì)量。
二、質(zhì)量勝過數(shù)量:精選學習材料的智慧
在教育領(lǐng)域有一個普遍認知:與其讓學生刷大量題目,不如精選少數(shù)高質(zhì)量的典型題目進行深入思考。快手團隊的研究證實了這一點在AI訓練中同樣適用。他們通過大量實驗發(fā)現(xiàn),使用少量高質(zhì)量的數(shù)據(jù)源訓練出的模型,性能遠超使用大量不同質(zhì)量數(shù)據(jù)源訓練的模型。
這個發(fā)現(xiàn)顛覆了很多人的直覺。通常我們會認為,數(shù)據(jù)越多樣化越好,就像讓學生接觸各種不同類型的題目能提高適應(yīng)能力。然而實驗結(jié)果顯示,當研究團隊只使用最高質(zhì)量的一到兩個數(shù)據(jù)源時,模型表現(xiàn)最佳。隨著加入更多數(shù)據(jù)源,性能反而開始下降。這就好比一個學生如果同時使用太多不同風格的教科書,反而可能被不一致的解題思路搞糊涂。
更令人意外的是關(guān)于錯誤答案的發(fā)現(xiàn)。一般來說,我們會認為應(yīng)該只讓模型學習正確的解題過程,就像老師只會給學生展示標準答案一樣。但研究團隊發(fā)現(xiàn),這個原則需要根據(jù)題目難度來靈活應(yīng)用。對于簡單題目,確實應(yīng)該只學習正確答案,因為錯誤的解法會干擾模型對基礎(chǔ)概念的理解。但對于困難題目,適當包含一些錯誤的嘗試過程反而有助于模型學習,因為這些"錯誤"展示了不同的思考路徑,幫助模型更好地理解問題的復(fù)雜性和解決方案的邊界。
研究團隊還對比了不同"老師"模型的效果。他們發(fā)現(xiàn),使用更強大的模型作為老師,就像請更有經(jīng)驗的專家來指導學生,確實能帶來更好的學習效果。DeepSeek-R1-0528作為老師時,學生模型的表現(xiàn)明顯優(yōu)于使用QwQ-32B或DeepSeek-R1-0120作為老師的情況。這說明在知識傳遞過程中,老師的水平直接影響學生的學習質(zhì)量。
三、突破傳統(tǒng)限制:梯度保持剪切策略的創(chuàng)新
在強化學習階段,研究團隊面臨一個關(guān)鍵挑戰(zhàn)。傳統(tǒng)的訓練方法在處理學習信號時存在一個根本問題:當模型的行為變化太大時,為了保持訓練穩(wěn)定,系統(tǒng)會簡單地丟棄一些看似異常的學習信號。這就像一個過度保守的教練,只要運動員嘗試稍微冒險的動作就立即制止,結(jié)果限制了運動員的潛能發(fā)揮。
具體來說,傳統(tǒng)的PPO(近端策略優(yōu)化)方法使用一種叫做"剪切"的機制來控制模型更新的幅度。當某些學習信號超出預(yù)設(shè)范圍時,系統(tǒng)就會將其完全忽略。這種做法雖然確保了訓練過程的穩(wěn)定性,但也帶來了兩個嚴重問題。
第一個問題是高熵令牌的剪切。在推理過程中,有些關(guān)鍵決策點對應(yīng)的令牌具有較高的不確定性,這些往往代表了模型的探索性行為。傳統(tǒng)剪切機制會無差別地丟棄這些信號,就像一個謹慎的老師不允許學生嘗試任何創(chuàng)新解法,只要求他們按照標準流程作答。這樣雖然避免了出錯,但也扼殺了創(chuàng)新思維的培養(yǎng)。
第二個問題是負樣本收斂延遲。當模型產(chǎn)生不夠好的結(jié)果時,如果這些結(jié)果與之前的行為差異太大,傳統(tǒng)方法會忽略這些負面反饋,導致模型無法及時從錯誤中學習。這就像學生犯錯后,老師因為錯誤太離譜而選擇忽視,結(jié)果學生不知道自己哪里做錯了,繼續(xù)重復(fù)同樣的錯誤。
為了解決這些問題,研究團隊提出了梯度保持剪切策略優(yōu)化(GPPO)方法。這種方法的核心思想是:即使某些學習信號看起來異常,也不應(yīng)該完全丟棄,而是要以一種溫和的方式將其納入學習過程。就像一位經(jīng)驗豐富的導師,面對學生的異想天開或嚴重錯誤時,不是簡單地否定,而是從中提取有價值的信息來指導后續(xù)學習。
GPPO的工作原理可以這樣理解:當模型的某個行為變化超出正常范圍時,傳統(tǒng)方法會說"這個信號我不要了",而GPPO會說"這個信號我要,但我會調(diào)整它的強度,讓它以合適的方式影響學習過程"。這樣既保持了訓練的穩(wěn)定性,又充分利用了所有可用的學習信息。
四、因材施教:針對數(shù)學和編程的專門優(yōu)化
在實際訓練過程中,研究團隊發(fā)現(xiàn)數(shù)學推理和編程解題雖然都需要邏輯思考,但它們的特點和難點卻很不相同,需要采用不同的訓練策略。
對于數(shù)學問題,團隊采用了二元獎勵機制,就像考試一樣非常明確:答對了就給正分,答錯了就給負分。但他們特別強調(diào)解題過程必須包含在特定的思考標簽內(nèi),這就好比要求學生不僅要給出答案,還要展示完整的解題步驟。這種要求確保模型不是在瞎猜答案,而是真正學會了推理過程。
編程問題的情況更加復(fù)雜。傳統(tǒng)的編程訓練通常也采用二元評價:代碼要么能通過所有測試用例,要么就是失敗。但這種方法存在一個嚴重問題:很多代碼可能只是在某些邊界情況下出錯,其主要邏輯都是正確的。如果簡單地將這些部分正確的代碼標記為失敗,就浪費了其中包含的有價值學習信息。
為了解決這個問題,研究團隊引入了"軟獎勵"機制。如果一段代碼通過了16個測試用例中的4個,它就會獲得0.25(4/16)的獎勵分數(shù),而不是簡單的零分。這就像給學生的作業(yè)打分時,不是只看最終答案對錯,而是根據(jù)解題過程的正確程度給出相應(yīng)分數(shù)。這種方法讓模型能夠從部分正確的嘗試中學習,逐步提高代碼質(zhì)量。
在數(shù)據(jù)篩選方面,團隊也采用了不同策略。對于編程數(shù)據(jù),他們會過濾掉那些測試用例明顯有問題的題目,因為錯誤的測試用例會給模型傳遞混亂的學習信號。對于數(shù)學數(shù)據(jù),他們更注重內(nèi)容的正確性和邏輯清晰度。
五、協(xié)同作用:監(jiān)督學習與強化學習的完美結(jié)合
在強化學習過程中,研究團隊還發(fā)現(xiàn)了一個重要技巧:將監(jiān)督學習的損失函數(shù)與強化學習的損失函數(shù)結(jié)合使用,效果比單純使用強化學習更好。這就好比在訓練運動員時,既要讓他們在實戰(zhàn)中積累經(jīng)驗,也要定期回到基礎(chǔ)訓練上鞏固基本功。
具體做法是,在每次強化學習更新時,如果當前批次中包含正確的解答,就同時計算這些正確解答的監(jiān)督學習損失,并將其與強化學習損失加權(quán)結(jié)合。研究團隊通過實驗發(fā)現(xiàn),當監(jiān)督學習損失的權(quán)重設(shè)為0.1時效果最佳。這個比例既能發(fā)揮強化學習的探索優(yōu)勢,又能利用監(jiān)督學習的穩(wěn)定指導作用。
這種結(jié)合的好處是多方面的。首先,它提高了正面示例的利用效率,讓模型能夠更充分地學習正確的解題模式。其次,監(jiān)督學習部分起到了"錨點"的作用,防止模型在強化學習過程中偏離正確方向。最后,這種方法有助于緩解"獎勵黑客"現(xiàn)象,即模型找到一些技巧性方法來獲得高獎勵,但實際上并沒有真正學會解題。
六、實驗驗證:全面而深入的性能分析
為了驗證GPPO方法的有效性,研究團隊進行了詳盡的對比實驗。他們將GPPO與傳統(tǒng)的剪切方法以及最近提出的CISPO方法進行了比較。實驗結(jié)果顯示,GPPO不僅在最終性能上更優(yōu)秀,訓練過程也更加穩(wěn)定。
在AIME2024數(shù)學競賽測試中,GPPO方法訓練的模型達到了82%左右的準確率,而傳統(tǒng)剪切方法只能達到76%。在編程能力測試LiveCodeBench V5上,GPPO的優(yōu)勢同樣明顯,達到了58%的通過率,比傳統(tǒng)方法高出約4個百分點。更重要的是,GPPO在整個訓練過程中保持了更穩(wěn)定的梯度范數(shù),說明其訓練過程更加可控和可靠。
研究團隊還測試了不同超參數(shù)設(shè)置的影響。他們發(fā)現(xiàn),將監(jiān)督學習損失的權(quán)重α設(shè)為0.1時效果最佳。當α為0(即不使用監(jiān)督學習損失)時,模型性能明顯下降。但α過大(如0.2)時,性能也會下降,因為過強的監(jiān)督信號會抑制模型的探索能力。
在編程領(lǐng)域的軟獎勵實驗中,結(jié)果同樣令人鼓舞。使用軟獎勵機制的模型在LiveCodeBench V5上達到了61.0%的成績,而使用傳統(tǒng)硬獎勵機制的模型只能達到59.2%。雖然差距看起來不大,但在高難度編程競賽中,每1%的提升都代表著顯著的進步。
七、數(shù)據(jù)質(zhì)量的深度探索:意外發(fā)現(xiàn)與重要啟示
在數(shù)據(jù)質(zhì)量研究方面,團隊的發(fā)現(xiàn)顛覆了許多傳統(tǒng)認知。他們使用OpenR1-Math-220k數(shù)據(jù)集進行了細致的分析,將數(shù)據(jù)按難度分為簡單和困難兩類,然后分別測試使用純正確數(shù)據(jù)和混合數(shù)據(jù)(包含正確和錯誤解答)的訓練效果。
結(jié)果顯示了一個有趣的現(xiàn)象:對于簡單問題,使用純正確數(shù)據(jù)訓練的效果確實更好,這符合我們的直覺。比如在AIME 2024的簡單題目上,純正確數(shù)據(jù)訓練的模型準確率為45.00%,而混合數(shù)據(jù)訓練的只有40.22%。這就像教小學生加法時,應(yīng)該只給標準的計算步驟,而不要混入錯誤的方法。
但對于困難問題,情況完全相反?;旌蠑?shù)據(jù)訓練的模型在困難題目上的表現(xiàn)反而更好。在AIME 2024的困難題目上,混合數(shù)據(jù)訓練的模型達到了47.29%的準確率,而純正確數(shù)據(jù)訓練的只有45.63%。這個現(xiàn)象的原理類似于免疫系統(tǒng)的工作方式:適當接觸一些"病毒"(錯誤解法)反而能增強免疫力(辨別能力)。
這一發(fā)現(xiàn)對AI訓練具有重要指導意義。它說明我們不應(yīng)該一刀切地追求數(shù)據(jù)的"純潔性",而應(yīng)該根據(jù)任務(wù)難度來決定數(shù)據(jù)篩選策略。對于復(fù)雜推理任務(wù),適當包含一些錯誤示例可能反而有助于模型學習,因為這些錯誤展示了常見的思維誤區(qū)和陷阱,幫助模型建立更強的判斷能力。
八、架構(gòu)優(yōu)化與訓練細節(jié):精工細作的技術(shù)實現(xiàn)
在具體的技術(shù)實現(xiàn)上,研究團隊展現(xiàn)了精工細作的態(tài)度。他們采用了多階段訓練策略,首先進行數(shù)學推理的強化學習,然后進行編程能力的強化學習。這種分階段的方法就像培養(yǎng)一個全才學生,先專攻數(shù)學打好邏輯基礎(chǔ),再學習編程掌握實際應(yīng)用能力。
在數(shù)學強化學習階段,他們使用了較小的批次大?。?6)和較高的學習率(1e-6),這樣的設(shè)置有助于模型快速適應(yīng)數(shù)學推理的特點。而在編程強化學習階段,他們調(diào)整為更大的批次大?。?2)和更低的學習率(5e-7),這種調(diào)整反映了編程任務(wù)需要更穩(wěn)定和細致的學習過程。
整個訓練過程都在32K的上下文長度下進行,這個長度足以容納復(fù)雜問題的完整推理過程。值得注意的是,即使在推理時使用64K的上下文長度,模型依然表現(xiàn)出色,說明訓練的泛化能力很強。
在數(shù)據(jù)預(yù)處理方面,團隊采用了嚴格的去重和過濾策略。他們使用9-gram重疊檢測來避免訓練數(shù)據(jù)與測試集的污染,確保評估結(jié)果的可靠性。這種嚴格的數(shù)據(jù)處理方式體現(xiàn)了科學研究的嚴謹態(tài)度。
九、性能突破與橫向?qū)Ρ龋赫旧闲袠I(yè)前沿
Klear-Reasoner的最終性能表現(xiàn)令人印象深刻。在32K推理預(yù)算下,它就已經(jīng)達到了與其他使用64K或96K推理預(yù)算的頂級模型相當?shù)男阅芩?。具體來說,在AIME2024上達到83.2%,AIME2025上達到75.6%,LiveCodeBench V5上達到61.6%,LiveCodeBench V6上達到53.1%。
當將推理預(yù)算擴展到64K時,Klear-Reasoner的性能進一步提升到了新的高度:AIME2024上90.5%,AIME2025上83.2%,HMMT2025上70.8%,LiveCodeBench V5上66.0%,LiveCodeBench V6上58.1%。這些成績不僅在同規(guī)模模型中位居前列,甚至可以與一些更大規(guī)模的商業(yè)模型相媲美。
與同行的對比更是突出了這項研究的價值。OpenReasoning-Nemotron-7B雖然使用了500萬個長鏈式思考樣本進行訓練,但Klear-Reasoner僅用150萬樣本就取得了更好的效果。這再次證明了"質(zhì)量勝過數(shù)量"的原則,也展示了精心設(shè)計的訓練方法的重要性。
更值得關(guān)注的是,Klear-Reasoner展現(xiàn)出的強化學習效果超越了單純依靠大量數(shù)據(jù)的監(jiān)督學習方法。這說明在AI推理能力的提升上,訓練方法的創(chuàng)新比簡單增加數(shù)據(jù)量更加重要。
十、技術(shù)創(chuàng)新的理論意義與實踐價值
GPPO方法的提出不僅僅是一個技術(shù)改進,更代表了對強化學習理論的深入思考。傳統(tǒng)的剪切機制雖然保證了訓練穩(wěn)定性,但其"一刀切"的做法忽略了學習信號的復(fù)雜性和多樣性。GPPO通過保留所有梯度信息但控制其影響強度,實現(xiàn)了穩(wěn)定性和信息利用率的平衡。
從理論角度看,GPPO體現(xiàn)了"pessimistic update"(悲觀更新)的設(shè)計思想。當遇到可能過于樂觀的更新時,它會保持謹慎;而對于負面反饋,它會積極吸收。這種不對稱的處理方式符合學習的基本規(guī)律:對好消息保持理性,對壞消息積極反思。
從實踐角度看,GPPO為其他研究者提供了一個可行的改進方向。由于其實現(xiàn)相對簡單,理論基礎(chǔ)扎實,很容易在其他強化學習項目中應(yīng)用。這種技術(shù)的開源分享精神也值得稱贊,有助于整個AI研究社區(qū)的進步。
在更廣泛的意義上,這項研究展示了如何通過精心設(shè)計的方法論來突破技術(shù)瓶頸。面對AI推理能力提升的挑戰(zhàn),研究團隊沒有簡單地依賴更大的模型或更多的數(shù)據(jù),而是深入分析問題本質(zhì),提出了針對性的解決方案。這種研究思路對整個AI領(lǐng)域都有重要的啟發(fā)意義。
說到底,Klear-Reasoner的成功不是偶然的。它體現(xiàn)了科學研究中理論創(chuàng)新與工程實踐的完美結(jié)合,展示了開放合作與嚴謹求證的研究態(tài)度,更重要的是證明了通過深入思考和精心設(shè)計,我們能夠讓AI在復(fù)雜推理任務(wù)上達到前所未有的高度。
這項研究的意義遠超其技術(shù)本身。它告訴我們,在AI發(fā)展的道路上,創(chuàng)新思維比簡單的資源堆砌更為重要。通過開源分享的方式,快手團隊不僅推動了自身技術(shù)的發(fā)展,也為整個AI研究社區(qū)貢獻了寶貴的知識財富。對于那些希望深入了解AI推理技術(shù)的讀者,可以通過項目的GitHub頁面獲取更多技術(shù)細節(jié),這種開放的研究態(tài)度值得我們每個人學習和支持。
Q&A
Q1:Klear-Reasoner相比其他AI推理模型有什么獨特優(yōu)勢?
A:Klear-Reasoner的最大優(yōu)勢是完全公開了訓練細節(jié),并提出了GPPO這種創(chuàng)新的訓練方法。它能在32K推理預(yù)算下達到其他模型需要64K才能達到的性能,在AIME數(shù)學競賽中獲得90.5%的高分。更重要的是,它證明了通過精選高質(zhì)量數(shù)據(jù)和優(yōu)化訓練方法,小規(guī)模模型也能達到頂級性能。
Q2:GPPO梯度保持剪切策略優(yōu)化方法解決了什么問題?
A:GPPO解決了傳統(tǒng)強化學習訓練中的兩個關(guān)鍵問題:一是高熵令牌被過度剪切導致探索能力受限,二是負面樣本的學習信號被丟棄導致收斂緩慢。它不像傳統(tǒng)方法那樣簡單丟棄異常信號,而是以溫和的方式保留所有學習信息,既保證訓練穩(wěn)定又充分利用了所有反饋。
Q3:為什么說質(zhì)量勝過數(shù)量在AI訓練中很重要?
A:研究發(fā)現(xiàn)使用少量頂級數(shù)據(jù)源訓練的效果遠超大量混合數(shù)據(jù)源。就像學生用一兩本優(yōu)秀教材深度學習比草草瀏覽十本普通教材效果更好。對于困難問題,適當包含錯誤示例反而有助于學習,因為這些"錯誤"展示了不同思維路徑,幫助模型建立更強的判斷能力。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機制和漸進式訓練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學習外觀和運動信息,顯著解決了當前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓練數(shù)據(jù)集和MM-AlignBench評測基準,通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報,準確性超越傳統(tǒng)方法90%的指標。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學習40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學領(lǐng)域帶來了效率和精度的雙重突破。