這項由快手科技Klear團(tuán)隊的張鴻志、傅佳、張靖遠(yuǎn)、傅凱、王琦、張富征和周國睿等研究人員合作完成的研究發(fā)表于2025年7月,論文標(biāo)題為"RLEP: Reinforcement Learning with Experience Replay for LLM Reasoning"。有興趣深入了解的讀者可以通過https://github.com/Kwai-Klear/RLEP 訪問完整代碼、數(shù)據(jù)集和模型檢查點(diǎn)。
當(dāng)你第一次嘗試爬一座陡峭的山峰時,你可能會選擇幾條不同的路線進(jìn)行探索,最終找到一條能夠到達(dá)某個高度的路徑,但由于體力耗盡只能止步于此。第二次攀登時,聰明的做法是什么?你會沿著之前成功的路線快速到達(dá)上次的最高點(diǎn),然后繼續(xù)向更高的峰頂前進(jìn)。這正是快手團(tuán)隊在人工智能領(lǐng)域的一個巧妙發(fā)現(xiàn)——讓AI系統(tǒng)像經(jīng)驗豐富的登山者一樣,通過重復(fù)成功的經(jīng)驗來實現(xiàn)更高效的學(xué)習(xí)。
在人工智能快速發(fā)展的今天,讓計算機(jī)像人類一樣進(jìn)行復(fù)雜推理已經(jīng)成為一個重要突破口。OpenAI的o1模型、DeepSeek的R1模型以及阿里的Qwen3模型都在這個方向上取得了顯著進(jìn)展,它們能夠解決復(fù)雜的數(shù)學(xué)問題、進(jìn)行邏輯推理,甚至處理需要多步思考的復(fù)雜任務(wù)。這些模型的成功很大程度上依賴于強(qiáng)化學(xué)習(xí)技術(shù),這是一種讓AI通過試錯來學(xué)習(xí)的方法,就像教孩子學(xué)習(xí)一樣——做對了給獎勵,做錯了給懲罰。
然而,當(dāng)前的強(qiáng)化學(xué)習(xí)訓(xùn)練過程就像一個耗費(fèi)巨大體力的馬拉松比賽。AI系統(tǒng)需要不斷地探索、嘗試、犯錯、修正,這個過程不僅消耗大量的計算資源,而且訓(xùn)練往往不夠穩(wěn)定。更讓人頭疼的是,隨著訓(xùn)練的進(jìn)行,AI系統(tǒng)可能會逐漸偏離它最初學(xué)到的知識,就像一個學(xué)生在學(xué)習(xí)新知識時忘記了之前掌握的基礎(chǔ)內(nèi)容。
快手團(tuán)隊提出的RLEP(Reinforcement Learning with Experience Replay)解決方案就像是給AI系統(tǒng)配備了一個"成功經(jīng)驗回放器"。這個方法分為兩個階段:首先是經(jīng)驗收集階段,就像登山者在第一次攀登時仔細(xì)記錄每一條成功的路徑;然后是經(jīng)驗重放訓(xùn)練階段,在后續(xù)的訓(xùn)練中,AI系統(tǒng)會將這些成功的經(jīng)驗與新的探索相結(jié)合,既能快速到達(dá)之前的高度,又能繼續(xù)向更高的目標(biāo)前進(jìn)。
這種方法的核心思想非常直觀:如果你已經(jīng)知道某種解決問題的方法是有效的,為什么要完全拋棄它,而是重新從零開始探索呢?通過重復(fù)播放那些已經(jīng)驗證過的成功案例,AI系統(tǒng)可以更加穩(wěn)定地學(xué)習(xí),避免在無效的探索上浪費(fèi)時間和資源。
研究團(tuán)隊使用Qwen2.5-Math-7B模型進(jìn)行了大量實驗,結(jié)果令人印象深刻。在AIME-2024數(shù)學(xué)競賽題目上,準(zhǔn)確率從38.2%提升到39.9%;在AIME-2025題目上,從19.8%提升到22.3%;在AMC-2023題目上,從77.0%大幅提升到82.2%。更重要的是,RLEP不僅提高了最終性能,還大大加快了訓(xùn)練速度,讓AI系統(tǒng)能夠用更少的訓(xùn)練步驟達(dá)到傳統(tǒng)方法的峰值性能。
一、強(qiáng)化學(xué)習(xí)的挑戰(zhàn):像走鋼絲一樣的平衡藝術(shù)
要理解RLEP的創(chuàng)新之處,我們首先需要了解傳統(tǒng)強(qiáng)化學(xué)習(xí)在訓(xùn)練大型語言模型時面臨的挑戰(zhàn)。這就像是一個需要同時juggling多個球的雜技演員,必須在三個關(guān)鍵方面保持完美平衡。
第一個挑戰(zhàn)是學(xué)習(xí)能力。AI系統(tǒng)必須能夠從每次探索中吸收有用的知識,就像一個學(xué)生需要從每次練習(xí)中學(xué)到新的解題技巧。如果學(xué)習(xí)能力不足,即使進(jìn)行了大量的探索,系統(tǒng)也無法真正改善自己的表現(xiàn)。這就好比一個人反復(fù)練習(xí)鋼琴,但如果不能從每次練習(xí)中總結(jié)經(jīng)驗,技能就不會有實質(zhì)性提升。
第二個挑戰(zhàn)是保持穩(wěn)定性。在強(qiáng)化學(xué)習(xí)過程中,AI系統(tǒng)會不斷調(diào)整自己的參數(shù),就像調(diào)音師調(diào)整鋼琴的音準(zhǔn)。但如果調(diào)整過于激進(jìn),系統(tǒng)可能會偏離原本的良好狀態(tài),甚至出現(xiàn)"災(zāi)難性遺忘"現(xiàn)象——在學(xué)習(xí)新技能的同時丟失了之前掌握的能力。這就像一個原本會多種語言的人,在學(xué)習(xí)新語言時反而忘記了母語的一些詞匯。
第三個挑戰(zhàn)是探索能力。AI系統(tǒng)需要能夠發(fā)現(xiàn)新的、有價值的解決方案,而不是總是重復(fù)相同的模式。這就像一個探險家需要在已知的安全區(qū)域和未知的新領(lǐng)域之間找到平衡。如果過于保守,就會錯過更好的解決方案;如果過于激進(jìn),又可能陷入完全無效的探索。
為了應(yīng)對這些挑戰(zhàn),研究界已經(jīng)開發(fā)了一些技術(shù)手段。比如DAPO和DrGRPO方法引入了"token-mean"目標(biāo)函數(shù),這種方法在處理長序列時能夠更好地保持學(xué)習(xí)信號的強(qiáng)度。另一個重要技術(shù)是"clip-higher",它對正向和負(fù)向的學(xué)習(xí)信號采用不同的處理策略,防止AI系統(tǒng)在學(xué)習(xí)過程中失去探索新解決方案的能力。還有高熵token更新策略,它能夠在提高效率的同時保持訓(xùn)練的穩(wěn)定性。
然而,即使采用了這些先進(jìn)技術(shù),強(qiáng)化學(xué)習(xí)訓(xùn)練仍然是一個"能量密集型"的過程。AI系統(tǒng)需要從當(dāng)前狀態(tài)出發(fā),在獎勵信號的指導(dǎo)下探索可能的推理路徑,然后將學(xué)到的知識整合到自身的參數(shù)中。隨著訓(xùn)練的進(jìn)行,系統(tǒng)可能會遇到訓(xùn)練不穩(wěn)定和權(quán)重漂移的問題,導(dǎo)致性能達(dá)到一個平臺期,甚至出現(xiàn)倒退。這就像一個運(yùn)動員在高強(qiáng)度訓(xùn)練后可能會出現(xiàn)疲勞和狀態(tài)下滑一樣。
二、登山者的智慧:經(jīng)驗重放的核心理念
RLEP的靈感來源于一個簡單而深刻的觀察:成功的經(jīng)驗應(yīng)該被珍視和重復(fù)利用。就像一個經(jīng)驗豐富的登山向?qū)⒊晒Φ穆肪€記錄下來,供后續(xù)的攀登者參考一樣,AI系統(tǒng)也應(yīng)該能夠從之前的成功經(jīng)驗中學(xué)習(xí)。
這種經(jīng)驗重放的概念在強(qiáng)化學(xué)習(xí)領(lǐng)域并不陌生。早在1992年,研究人員就提出了經(jīng)驗重放的基本框架,后來這個概念被成功應(yīng)用到深度強(qiáng)化學(xué)習(xí)中,特別是在DeepQ-Networks(DQN)中發(fā)揮了關(guān)鍵作用。優(yōu)先經(jīng)驗重放(PER)更是進(jìn)一步提升了采樣效率,讓AI系統(tǒng)能夠更聰明地選擇哪些經(jīng)驗值得重復(fù)學(xué)習(xí)。
在大型語言模型的強(qiáng)化學(xué)習(xí)訓(xùn)練中,經(jīng)驗重放技術(shù)也開始受到關(guān)注?,F(xiàn)有的一些方法主要關(guān)注如何處理"困難樣本"——那些當(dāng)前模型還無法正確解決的問題。比如EFRAME方法會對這些困難案例進(jìn)行額外的嘗試,只保留那些被判定為有價值的軌跡。Rollout-Rescue機(jī)制采用了更直接的策略:當(dāng)訓(xùn)練遇到失敗時,它會隨機(jī)用之前緩存的正確答案替換錯誤的響應(yīng)。LUFFY方法則利用強(qiáng)大的離線指導(dǎo)(如DeepSeek R1)來處理那些缺乏正確在線回答的提示。
RLEP的創(chuàng)新之處在于它采用了一種更加全面和系統(tǒng)的方法。與那些只關(guān)注困難樣本的方法不同,RLEP會收集來自已收斂策略的軌跡,這些軌跡本身就具有內(nèi)在的穩(wěn)定性。然后,它會從頭開始重新訓(xùn)練,在新的探索和這些穩(wěn)定的軌跡之間找到平衡。重放能夠加速收斂并平滑學(xué)習(xí)過程,而新的探索則保護(hù)了系統(tǒng)的探索能力。
更重要的是,RLEP將經(jīng)驗重放應(yīng)用到所有提示上,而不是僅僅限制在困難案例上。這種做法將重放的好處擴(kuò)展到了整個訓(xùn)練分布,讓每個樣本都能從成功經(jīng)驗中受益。這就像一個優(yōu)秀的教練不僅會幫助學(xué)生克服困難,還會讓他們反復(fù)練習(xí)已經(jīng)掌握的技能,以達(dá)到更高的熟練度。
三、RLEP的工作原理:兩階段訓(xùn)練策略
RLEP的工作流程就像一個精心設(shè)計的兩幕劇。第一幕是經(jīng)驗收集階段,第二幕是重放訓(xùn)練階段,兩個階段相互配合,共同實現(xiàn)更高效的學(xué)習(xí)。
在經(jīng)驗收集階段,研究團(tuán)隊首先使用傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法訓(xùn)練一個基礎(chǔ)模型。這個過程就像讓一個新手登山者獨(dú)自探索山峰,雖然過程艱難,但最終能夠找到一些可行的路徑。具體來說,這個基礎(chǔ)模型會對每個數(shù)學(xué)問題生成多個候選答案,然后通過驗證系統(tǒng)檢查這些答案的正確性。所有能夠得到正確答案的推理軌跡都會被仔細(xì)記錄下來,形成一個"經(jīng)驗池"。
這個經(jīng)驗池就像一個珍貴的寶庫,里面存儲著各種成功的解題路徑。對于每個問題,系統(tǒng)都會維護(hù)一個專門的經(jīng)驗池,確保有足夠的成功案例可供后續(xù)學(xué)習(xí)。研究團(tuán)隊要求每個問題至少要有兩個驗證過的正確推理路徑,這樣可以保證經(jīng)驗的多樣性和可靠性。
在重放訓(xùn)練階段,真正的魔法開始發(fā)生。每當(dāng)系統(tǒng)需要進(jìn)行一次訓(xùn)練更新時,它會采用一種混合策略:一部分樣本來自當(dāng)前模型的新探索,另一部分樣本來自經(jīng)驗池中的成功案例。這就像一個登山者在攀登過程中,既會嘗試新的路線,也會沿著之前成功的路徑前進(jìn)。
具體的訓(xùn)練過程是這樣的:系統(tǒng)首先讓當(dāng)前模型生成一組新的候選答案,比如16個新的推理軌跡。然后,它會從經(jīng)驗池中隨機(jī)抽取一些成功的軌跡,比如2個,將它們與新生成的軌跡合并,形成一個包含18個軌跡的擴(kuò)展組。接下來,系統(tǒng)會在這個混合組上計算優(yōu)勢函數(shù)和策略梯度,進(jìn)行參數(shù)更新。
這種混合策略的巧妙之處在于它能夠同時利用兩種不同類型的信息。來自經(jīng)驗池的成功軌跡為系統(tǒng)提供了穩(wěn)定的學(xué)習(xí)信號,幫助它快速恢復(fù)到之前的最佳狀態(tài)。而新生成的軌跡則確保系統(tǒng)不會停滯不前,仍然保持探索新解決方案的能力。
為了確保這種混合策略的有效性,研究團(tuán)隊采用了改進(jìn)的GRPO(Group Relative Policy Optimization)算法。這個算法的核心思想是通過群體比較來計算每個軌跡的優(yōu)勢。簡單來說,如果一個軌跡的獎勵高于群體平均值,它就會被強(qiáng)化;如果低于平均值,就會被抑制。
更進(jìn)一步,研究團(tuán)隊還采用了兩個重要的技術(shù)改進(jìn)。第一個是"token-mean"策略,它不是簡單地對整個序列進(jìn)行平均,而是對每個token的對數(shù)概率比率進(jìn)行平均。這種方法能夠防止長的錯誤序列被過度懲罰,同時保持長的正確序列的學(xué)習(xí)信號。第二個是"clip-higher"策略,它對正向和負(fù)向的優(yōu)勢采用不同的裁剪界限,這種不對稱的處理能夠減輕強(qiáng)化學(xué)習(xí)過程中的熵坍塌問題。
四、實驗設(shè)計:構(gòu)建強(qiáng)大的基準(zhǔn)系統(tǒng)
為了驗證RLEP的有效性,研究團(tuán)隊首先需要構(gòu)建一個強(qiáng)大的基準(zhǔn)系統(tǒng)。這就像在測試新的跑車性能之前,你需要先確保測試跑道和對比車輛都是頂級水準(zhǔn)的。
研究團(tuán)隊選擇了Qwen2.5-Math-7B作為基礎(chǔ)模型,這是一個專門為數(shù)學(xué)推理任務(wù)優(yōu)化的大型語言模型。他們從DAPO方法的推薦參數(shù)設(shè)置開始,然后進(jìn)行了一系列精心的調(diào)整,最終在AIME-2024、AIME-2025和其他數(shù)據(jù)集上獲得了穩(wěn)定的性能提升。
在訓(xùn)練策略方面,研究團(tuán)隊采用了token-mean、clip-higher和過長獎勵塑形等策略,同時保持了Verl框架中的大部分默認(rèn)設(shè)置??紤]到推理生成是整個訓(xùn)練過程中最耗時的部分,他們有意省略了動態(tài)采樣加速方案,而是專注于調(diào)整其他關(guān)鍵參數(shù)來構(gòu)建更強(qiáng)的基準(zhǔn)。
一個關(guān)鍵的發(fā)現(xiàn)是關(guān)于mini-batch大小的重要性。原始配置使用512個樣本進(jìn)行推理,然后進(jìn)行16次actor更新,每次使用32個樣本的mini-batch。雖然這種設(shè)置收斂很快,但研究團(tuán)隊觀察到在訓(xùn)練后期,BoN(Best of N)和Maj@N(Majority at N)準(zhǔn)確率都會出現(xiàn)下降。通過將mini-batch大小增加到64,即每次推理后進(jìn)行8次更新,訓(xùn)練穩(wěn)定性得到了顯著改善。
這個看似簡單的調(diào)整實際上反映了強(qiáng)化學(xué)習(xí)中的一個重要原理。在標(biāo)準(zhǔn)的監(jiān)督微調(diào)中,批量大小通常只有適度的影響。但在強(qiáng)化學(xué)習(xí)中,每次推理后都會進(jìn)行幾次策略更新步驟,批量大小直接影響受到優(yōu)勢裁剪操作影響的樣本比例。這種耦合關(guān)系使得批量大小在強(qiáng)化學(xué)習(xí)中變得更加重要。
實驗結(jié)果顯示了幾個有趣的模式。DAPO方法與動態(tài)采樣確實能夠獲得更高的準(zhǔn)確率,證明了動態(tài)采樣的積極作用。在比較不同PPO訓(xùn)練mini-batch大小時,32樣本的mini-batch在開始時學(xué)習(xí)更快,但64樣本的mini-batch最終收斂到更高的準(zhǔn)確率,并且具有更平滑的Maj@32曲線。DAPO-nodyn-bs64甚至在整體準(zhǔn)確率上略微超過了DAPO,消除了移除動態(tài)采樣的影響。
從實際運(yùn)行時間來看,每個DAPO更新在步驟230之前大約需要220秒,而DAPO-nodyn-bs64只需要大約160秒。在步驟230之后,DAPO的單步時間攀升到大約360秒,因為需要額外的推理來填充批次。綜合考慮速度和準(zhǔn)確率,研究團(tuán)隊選擇了DAPO-nodyn-bs64配置作為后續(xù)RLEP實驗的基礎(chǔ)。
實驗還揭示了強(qiáng)化學(xué)習(xí)訓(xùn)練的一個普遍模式:模型準(zhǔn)確率在訓(xùn)練開始時快速攀升,但隨著不穩(wěn)定性的累積和策略偏離初始權(quán)重,整體準(zhǔn)確率最終會達(dá)到平臺期,甚至可能下降。這種現(xiàn)象再次證明了強(qiáng)化學(xué)習(xí)訓(xùn)練確實是一個"能量密集型"的過程。
五、突破性成果:數(shù)字背后的真實意義
RLEP的實驗結(jié)果不僅在數(shù)字上令人印象深刻,更重要的是它們揭示了一種全新的訓(xùn)練范式的潛力。這些結(jié)果就像一面鏡子,反映出經(jīng)驗重放在AI推理訓(xùn)練中的深層價值。
研究團(tuán)隊從DAPO-nodyn-bs64基準(zhǔn)開始,訓(xùn)練了400個PPO步驟,mini-batch大小為64,以構(gòu)建經(jīng)驗池。對于每個問題,策略會采樣64個候選答案,使用溫度0.7和top-p 0.95的設(shè)置。只有經(jīng)過獎勵模型驗證為正確的答案才會被保留,研究團(tuán)隊要求每個問題至少要有兩個這樣的有效推理路徑。
在RLEP階段,每個問題會接收16個新的在線推理加上2個重放的答案,所有其他超參數(shù)都與基準(zhǔn)保持一致。值得注意的是,每步運(yùn)行時間相對于DAPO-nodyn-bs64基準(zhǔn)增加不到5秒,使得整體訓(xùn)練時間基本保持不變。這意味著RLEP不僅提高了性能,還保持了訓(xùn)練效率。
實驗結(jié)果顯示了兩個關(guān)鍵優(yōu)勢。首先是快速的早期收益。通過重放經(jīng)驗,準(zhǔn)確率在訓(xùn)練開始時就急劇上升。在AIME-2024數(shù)據(jù)集上,RLEP在第135步就達(dá)到了基準(zhǔn)的峰值性能,而基準(zhǔn)需要380步才能達(dá)到。在AIME-2025上,它在僅僅50步后就超過了基準(zhǔn)的最佳得分。重放的軌跡引導(dǎo)模型遠(yuǎn)離無效的早期探索和困難的推理路徑,就像一個經(jīng)驗豐富的向?qū)ьI(lǐng)登山者避開危險的路線。
更重要的是更高的最終性能。RLEP不僅僅是加速收斂,它還能達(dá)到更高的最終水平。在AIME-2024上,最佳準(zhǔn)確率從38.2%提升到39.9%,在AIME-2025上從19.8%提升到22.3%。在未見過的AMC-2023數(shù)據(jù)集上進(jìn)行離線評估時,準(zhǔn)確率從77.0%上升到82.2%。這些結(jié)果表明,利用先前的經(jīng)驗使RLEP能夠收斂到更優(yōu)的解決方案。
這些數(shù)字背后的深層含義是什么?它們表明AI系統(tǒng)可以像人類專家一樣,通過積累和重復(fù)使用成功經(jīng)驗來實現(xiàn)持續(xù)改進(jìn)。人類數(shù)學(xué)家在解決復(fù)雜問題時,往往會回憶起類似問題的解決方案,然后在此基礎(chǔ)上進(jìn)行創(chuàng)新。RLEP實現(xiàn)了類似的機(jī)制,讓AI系統(tǒng)能夠站在"前人的肩膀上"繼續(xù)前進(jìn)。
研究團(tuán)隊還進(jìn)行了一個有趣的對比實驗:他們測試了是否在重放緩沖區(qū)中補(bǔ)充失敗的答案能夠幫助策略避免糟糕的解決方案。結(jié)果顯示,重放成功和不成功的軌跡相比僅重放正向案例沒有可測量的改善。這個發(fā)現(xiàn)很有啟發(fā)性:錯誤模式在不同模型和訓(xùn)練階段之間變化很大,錯誤空間過于寬泛,對這些異質(zhì)錯誤的不似然更新對當(dāng)前策略提供的幫助很少。
六、技術(shù)創(chuàng)新:算法層面的突破
RLEP的成功不僅僅在于其直觀的思路,更在于其在算法層面的精心設(shè)計。研究團(tuán)隊需要解決一個關(guān)鍵問題:如何將來自不同時間和不同策略的軌跡有效地結(jié)合在一起進(jìn)行訓(xùn)練?
這個問題的復(fù)雜性在于,重放的軌跡是由之前的策略生成的,而新的軌跡是由當(dāng)前策略生成的。這兩種軌跡在概率分布上可能存在顯著差異,直接混合可能導(dǎo)致訓(xùn)練不穩(wěn)定。研究團(tuán)隊的解決方案是擴(kuò)展GRPO算法,使其能夠處理這種異質(zhì)性。
在傳統(tǒng)的GRPO算法中,系統(tǒng)會對一組同質(zhì)的軌跡計算群體優(yōu)勢,然后使用這些優(yōu)勢來更新策略。在RLEP中,研究團(tuán)隊將這個過程擴(kuò)展到混合組,其中包括新生成的軌跡和重放的成功軌跡。關(guān)鍵的創(chuàng)新在于,他們在整個混合組上計算優(yōu)勢函數(shù),這樣重放的成功軌跡和新的推理共享一個共同的基線。
具體來說,如果有G個新軌跡和M個重放軌跡,總共G' = G + M個軌跡,那么優(yōu)勢函數(shù)的計算公式變?yōu)椋?/p>
A_{i,t} = (r_{i,t} - mean{r_{1,t}, ..., r_{G',t}}) / std{r_{1,t}, ..., r_{G',t}}
這種設(shè)計確保了重放的軌跡不會簡單地因為它們的高獎勵而總是被強(qiáng)化,而是相對于當(dāng)前混合組的整體表現(xiàn)來評估。這種相對評估機(jī)制是RLEP能夠穩(wěn)定工作的關(guān)鍵因素。
另一個重要的技術(shù)細(xì)節(jié)是importance ratio的計算。對于重放的軌跡,系統(tǒng)需要計算當(dāng)前策略相對于原始策略的重要性比率。這個比率反映了當(dāng)前策略對這些軌跡的偏好程度。如果當(dāng)前策略對某個重放軌跡的偏好遠(yuǎn)高于原始策略,這個軌跡就會得到更強(qiáng)的強(qiáng)化信號。
研究團(tuán)隊還保留了token-mean和clip-higher等先進(jìn)技術(shù)。Token-mean策略確保了長序列的學(xué)習(xí)信號不會被稀釋,這對于數(shù)學(xué)推理任務(wù)尤其重要,因為這些任務(wù)通常需要多步推理。Clip-higher策略則確保了正向軌跡能夠得到充分的強(qiáng)化,同時防止負(fù)向軌跡被過度懲罰。
這些技術(shù)創(chuàng)新的結(jié)合使得RLEP能夠在保持訓(xùn)練穩(wěn)定性的同時,有效地利用歷史經(jīng)驗。這就像一個精密的機(jī)械裝置,每個部件都經(jīng)過精心設(shè)計,相互配合以實現(xiàn)最佳性能。
七、實際影響與應(yīng)用前景
RLEP的影響遠(yuǎn)遠(yuǎn)超出了學(xué)術(shù)研究的范圍,它為AI推理能力的提升開辟了一條全新的道路。這種影響可以從多個層面來理解。
從訓(xùn)練效率的角度來看,RLEP顯著減少了達(dá)到目標(biāo)性能所需的訓(xùn)練時間和計算資源。在一個計算成本日益昂貴的時代,這種效率提升具有重要的經(jīng)濟(jì)意義。企業(yè)和研究機(jī)構(gòu)可以用更少的資源訓(xùn)練出更強(qiáng)大的AI系統(tǒng),這將加速AI技術(shù)的普及和應(yīng)用。
從模型性能的角度來看,RLEP不僅加速了收斂,還提高了最終性能的上限。這意味著AI系統(tǒng)可以在數(shù)學(xué)推理、邏輯分析、問題解決等任務(wù)上達(dá)到更高的水平。這種改進(jìn)對于教育、科研、工程設(shè)計等領(lǐng)域都有直接的應(yīng)用價值。
從方法論的角度來看,RLEP展示了一種新的訓(xùn)練范式,它將經(jīng)驗積累與持續(xù)學(xué)習(xí)結(jié)合起來。這種范式可能會影響未來AI系統(tǒng)的設(shè)計思路,推動研究者們開發(fā)更多基于經(jīng)驗重放的學(xué)習(xí)方法。
研究團(tuán)隊在論文中提到了幾個未來的研究方向,這些方向顯示了RLEP的進(jìn)一步發(fā)展?jié)摿?。首先是設(shè)計更智能的經(jīng)驗選擇方案,利用離線啟發(fā)式方法和基于模型的獎勵來識別最有信息量的推理路徑進(jìn)行重放。這就像一個圖書管理員不僅要收集書籍,還要知道哪些書籍最值得讀者反復(fù)閱讀。
其次是將RLEP擴(kuò)展到單一數(shù)據(jù)集之外的設(shè)置,在更大的語料庫上進(jìn)行訓(xùn)練,并評估其在不同領(lǐng)域的有效性。這種擴(kuò)展可能會帶來更廣泛的應(yīng)用,讓AI系統(tǒng)能夠在多個領(lǐng)域同時受益于經(jīng)驗重放的優(yōu)勢。
從更長遠(yuǎn)的角度來看,RLEP可能會催生新的AI訓(xùn)練基礎(chǔ)設(shè)施和工具。專門的經(jīng)驗管理系統(tǒng)、優(yōu)化的重放算法、智能的經(jīng)驗選擇策略等都可能成為未來AI開發(fā)的標(biāo)準(zhǔn)組件。這就像現(xiàn)代軟件開發(fā)中的版本控制系統(tǒng)一樣,經(jīng)驗重放可能會成為AI訓(xùn)練中不可或缺的一部分。
說到底,RLEP的真正價值在于它改變了我們對AI學(xué)習(xí)過程的理解。它告訴我們,AI系統(tǒng)不必每次都從零開始學(xué)習(xí),而是可以像人類一樣,通過積累和重復(fù)使用成功經(jīng)驗來不斷改進(jìn)。這種觀點(diǎn)可能會深刻影響未來AI系統(tǒng)的設(shè)計和開發(fā),推動我們向更高效、更智能的AI系統(tǒng)邁進(jìn)。
快手團(tuán)隊的這項工作不僅解決了一個具體的技術(shù)問題,更開啟了一個新的研究領(lǐng)域。隨著更多研究者加入這個領(lǐng)域,我們可能會看到更多基于經(jīng)驗重放的創(chuàng)新方法,這些方法將共同推動AI推理能力的發(fā)展。對于普通用戶來說,這意味著未來的AI助手、教育工具、研究平臺等都可能變得更加智能和高效,能夠更好地幫助人們解決復(fù)雜問題。
有興趣深入了解這項研究的讀者可以訪問快手團(tuán)隊公開的代碼倉庫,那里提供了完整的實現(xiàn)細(xì)節(jié)、數(shù)據(jù)集和模型檢查點(diǎn),這種開放的態(tài)度也體現(xiàn)了研究團(tuán)隊對推動整個領(lǐng)域發(fā)展的承諾。
Q&A
Q1:RLEP是什么?它和傳統(tǒng)的強(qiáng)化學(xué)習(xí)有什么區(qū)別? A:RLEP是一種新的AI訓(xùn)練方法,全稱是"帶經(jīng)驗重放的強(qiáng)化學(xué)習(xí)"。與傳統(tǒng)強(qiáng)化學(xué)習(xí)每次從零開始探索不同,RLEP會先收集成功的解題經(jīng)驗,然后在后續(xù)訓(xùn)練中重復(fù)使用這些經(jīng)驗。就像登山者會重復(fù)使用成功的路線一樣,這種方法讓AI訓(xùn)練更高效、更穩(wěn)定。
Q2:RLEP在實際應(yīng)用中效果如何?訓(xùn)練時間會增加嗎? A:實驗顯示RLEP在數(shù)學(xué)推理任務(wù)上表現(xiàn)出色,準(zhǔn)確率提升了1.7-5.2個百分點(diǎn),訓(xùn)練速度也大幅加快。比如在AIME-2024數(shù)據(jù)集上,RLEP用135步就達(dá)到了傳統(tǒng)方法需要380步才能達(dá)到的性能。更重要的是,每步訓(xùn)練時間幾乎沒有增加,整體訓(xùn)練效率顯著提升。
Q3:RLEP技術(shù)難不難復(fù)現(xiàn)?普通研究者能使用嗎? A:快手團(tuán)隊已經(jīng)將RLEP的完整代碼、數(shù)據(jù)集和模型檢查點(diǎn)公開在GitHub上,任何研究者都可以免費(fèi)使用。該方法基于成熟的強(qiáng)化學(xué)習(xí)框架,技術(shù)門檻相對較低。研究團(tuán)隊還提供了詳細(xì)的實現(xiàn)細(xì)節(jié),使得其他研究者可以輕松復(fù)現(xiàn)和改進(jìn)這項工作。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學(xué)習(xí)外觀和運(yùn)動信息,顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運(yùn)動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報,準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。