這項(xiàng)由深圳大學(xué)、騰訊、香港科技大學(xué)(廣州)等機(jī)構(gòu)聯(lián)合開展的研究發(fā)表于2025年6月的機(jī)器學(xué)習(xí)國際會(huì)議(ICML),論文題為"ReDit: Reward Dithering for Improved LLM Policy Optimization"。有興趣深入了解的讀者可以通過arXiv:2506.18631v1訪問完整論文。
當(dāng)我們烹飪一道菜時(shí),調(diào)料的作用至關(guān)重要。太少了味道寡淡,太多了又會(huì)掩蓋食材本味。在人工智能大模型的訓(xùn)練過程中,也存在著類似的"調(diào)味"問題。研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)有趣現(xiàn)象:那些看似"完美"的獎(jiǎng)勵(lì)系統(tǒng),實(shí)際上可能成為AI學(xué)習(xí)路上的絆腳石。
想象你在教一個(gè)孩子學(xué)習(xí)數(shù)學(xué)。傳統(tǒng)的做法是:做對(duì)了給1分,做錯(cuò)了給0分。這看起來很公平很準(zhǔn)確,但問題在于——這種"非黑即白"的評(píng)分方式會(huì)讓學(xué)習(xí)過程變得異常艱難。孩子要么興奮地獲得滿分,要么沮喪地得到零分,很少有中間狀態(tài)。這就像在玩一個(gè)只有"大成功"和"大失敗"的游戲,缺乏漸進(jìn)式的引導(dǎo)。
研究團(tuán)隊(duì)觀察到,目前最先進(jìn)的AI模型訓(xùn)練方法,比如DeepSeek-R1采用的GRPO(組相對(duì)策略優(yōu)化)算法,雖然使用了"完美"的規(guī)則獎(jiǎng)勵(lì)系統(tǒng),但卻經(jīng)常陷入學(xué)習(xí)困境。這些系統(tǒng)在訓(xùn)練過程中會(huì)出現(xiàn)兩種極端情況:要么梯度消失(學(xué)習(xí)停滯),要么梯度爆炸(學(xué)習(xí)混亂)。這就像一輛汽車要么熄火要么失控,很難平穩(wěn)行駛。
為了解決這個(gè)問題,研究團(tuán)隊(duì)提出了一種名為ReDit(獎(jiǎng)勵(lì)抖動(dòng))的巧妙方法。這個(gè)方法的核心思想非常簡單:在原本精確的獎(jiǎng)勵(lì)信號(hào)中加入一點(diǎn)點(diǎn)隨機(jī)"噪音"。聽起來可能有些反直覺——為什么要故意在準(zhǔn)確的信號(hào)中添加"錯(cuò)誤"呢?
其實(shí)這個(gè)原理類似于我們?nèi)粘I钪械暮芏喱F(xiàn)象。比如在學(xué)習(xí)外語時(shí),如果老師總是用標(biāo)準(zhǔn)普通話糾正你的發(fā)音,你可能學(xué)會(huì)得很慢;但如果老師偶爾用稍微不同的語調(diào)或語速說同一個(gè)詞,你反而能更快掌握這個(gè)詞的各種變化。這種"不完美"的輸入實(shí)際上增加了學(xué)習(xí)的多樣性,讓大腦能夠更好地理解和掌握知識(shí)的本質(zhì)。
ReDit方法的工作機(jī)制可以用調(diào)試收音機(jī)來類比。當(dāng)你調(diào)臺(tái)時(shí),如果信號(hào)過于清晰單一,有時(shí)反而容易錯(cuò)過目標(biāo)頻道;但如果信號(hào)中帶有一點(diǎn)點(diǎn)背景噪音,你的耳朵反而能更敏銳地捕捉到目標(biāo)聲音的特征。同樣地,在AI訓(xùn)練中添加適量的獎(jiǎng)勵(lì)噪音,能夠讓模型更好地理解什么是真正重要的學(xué)習(xí)方向。
**一、傳統(tǒng)訓(xùn)練方法的困境**
要理解ReDit的價(jià)值,我們首先需要了解傳統(tǒng)訓(xùn)練方法面臨的挑戰(zhàn)。研究團(tuán)隊(duì)通過大量實(shí)驗(yàn)發(fā)現(xiàn),使用離散獎(jiǎng)勵(lì)信號(hào)(比如正確得1分,錯(cuò)誤得0分)的訓(xùn)練過程就像是在走鋼絲繩——看似精確,但實(shí)際上充滿風(fēng)險(xiǎn)。
在GSM8K數(shù)學(xué)問題數(shù)據(jù)集上的實(shí)驗(yàn)顯示,傳統(tǒng)GRPO方法在訓(xùn)練過程中會(huì)頻繁出現(xiàn)梯度異常。梯度可以理解為AI學(xué)習(xí)的"方向感"——告訴模型下一步應(yīng)該往哪個(gè)方向調(diào)整。當(dāng)梯度消失時(shí),就像指南針失靈,AI不知道該往哪里走;當(dāng)梯度爆炸時(shí),就像指南針瘋狂轉(zhuǎn)動(dòng),AI會(huì)迷失方向。
這種現(xiàn)象在數(shù)學(xué)訓(xùn)練中特別明顯。當(dāng)AI嘗試解決數(shù)學(xué)問題時(shí),在訓(xùn)練早期,它很難生成完全正確的答案,因此大多數(shù)訓(xùn)練樣本都得到0分。這就像一個(gè)初學(xué)者在學(xué)習(xí)鋼琴,如果只有"演奏完美"才能得分,那么在相當(dāng)長的時(shí)間里,這個(gè)學(xué)習(xí)者都會(huì)處于"零獎(jiǎng)勵(lì)"狀態(tài),學(xué)習(xí)動(dòng)力自然會(huì)減弱。
更糟糕的是,當(dāng)AI偶爾答對(duì)一道題時(shí),突然從0分跳到1分的巨大獎(jiǎng)勵(lì)差異會(huì)造成"學(xué)習(xí)震蕩"。這就像一個(gè)人突然中了彩票,興奮過度反而影響了正常的工作和生活節(jié)奏。在神經(jīng)網(wǎng)絡(luò)中,這種獎(jiǎng)勵(lì)的劇烈變化會(huì)導(dǎo)致參數(shù)更新過于激烈,破壞之前學(xué)到的有用知識(shí)。
研究團(tuán)隊(duì)通過可視化分析發(fā)現(xiàn),這種訓(xùn)練不穩(wěn)定性直接反映在模型的性能表現(xiàn)上。在MATH數(shù)據(jù)集的測(cè)試中,傳統(tǒng)方法的準(zhǔn)確率會(huì)在訓(xùn)練過程中上下波動(dòng),有時(shí)甚至出現(xiàn)"越訓(xùn)練越差"的情況。這種現(xiàn)象在達(dá)到49.46%的峰值準(zhǔn)確率后,性能又下降到47%左右,就像爬山時(shí)好不容易登上一個(gè)高峰,卻又滑落下來。
**二、ReDit方法的設(shè)計(jì)原理**
面對(duì)這些挑戰(zhàn),研究團(tuán)隊(duì)從一個(gè)全新角度思考問題:與其追求完美的獎(jiǎng)勵(lì)信號(hào),不如讓獎(jiǎng)勵(lì)信號(hào)變得更加"人性化"和"漸進(jìn)式"。這就是ReDit方法的核心理念。
ReDit的實(shí)現(xiàn)方式簡單得令人驚訝。研究團(tuán)隊(duì)在每個(gè)原始獎(jiǎng)勵(lì)值上添加一個(gè)隨機(jī)數(shù)。這個(gè)隨機(jī)數(shù)是零均值的,意味著從長期看,添加的正數(shù)和負(fù)數(shù)會(huì)相互抵消,不會(huì)改變獎(jiǎng)勵(lì)的總體期望值。這就像在菜品中加入適量的胡椒粉——既不會(huì)改變菜的基本味道,卻能增加口感的層次。
具體來說,如果原始獎(jiǎng)勵(lì)是1分(表示答案正確),ReDit可能會(huì)將其隨機(jī)調(diào)整為0.95分或1.05分;如果原始獎(jiǎng)勵(lì)是0分(表示答案錯(cuò)誤),可能會(huì)調(diào)整為-0.03分或0.02分。這種微小的隨機(jī)變化看似不起眼,卻能產(chǎn)生顯著的訓(xùn)練改善效果。
這種方法的理論基礎(chǔ)源于獎(jiǎng)勵(lì)方差與學(xué)習(xí)效率的關(guān)系。研究團(tuán)隊(duì)基于最新的理論研究發(fā)現(xiàn),適當(dāng)增加獎(jiǎng)勵(lì)方差可以顯著提高策略優(yōu)化的收斂速度。這就像學(xué)習(xí)游泳時(shí),在平靜的泳池里可能學(xué)得很慢,但在有輕微波浪的水中,學(xué)習(xí)者反而能更快掌握平衡和游泳技巧。
ReDit支持兩種不同的噪音分布:高斯分布(正態(tài)分布)和均勻分布。高斯分布就像自然界中常見的隨機(jī)現(xiàn)象,大部分噪音接近零,偶爾會(huì)有較大的偏差;均勻分布則像擲骰子,在指定范圍內(nèi)每個(gè)值出現(xiàn)的概率相等。實(shí)驗(yàn)表明,高斯分布通常能帶來更穩(wěn)定的訓(xùn)練效果。
**三、實(shí)驗(yàn)驗(yàn)證與效果分析**
為了驗(yàn)證ReDit的有效性,研究團(tuán)隊(duì)進(jìn)行了大規(guī)模的對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)覆蓋了三個(gè)重要的數(shù)據(jù)集:GSM8K(小學(xué)數(shù)學(xué)問題)、MATH(高中數(shù)學(xué)競(jìng)賽題)和Geometry3K(幾何問題),以及六種不同的大語言模型。
在GSM8K數(shù)據(jù)集上,ReDit的效果最為顯著。使用Qwen2.5-7B模型時(shí),傳統(tǒng)GRPO方法需要9000步訓(xùn)練才能達(dá)到89.07%的準(zhǔn)確率,而使用ReDit的方法僅需1000步就達(dá)到了89.16%的準(zhǔn)確率,并最終在9000步后達(dá)到90.76%的準(zhǔn)確率。這相當(dāng)于將學(xué)習(xí)速度提升了約10倍,同時(shí)最終性能還提升了1.69個(gè)百分點(diǎn)。
這種改善效果就像是為學(xué)生找到了最適合的學(xué)習(xí)節(jié)奏。原本需要花費(fèi)大量時(shí)間反復(fù)練習(xí)才能掌握的知識(shí)點(diǎn),現(xiàn)在可以更快速、更穩(wěn)定地學(xué)會(huì)。更重要的是,這種快速學(xué)習(xí)并沒有以犧牲最終質(zhì)量為代價(jià),反而取得了更好的最終成績。
在更具挑戰(zhàn)性的MATH數(shù)據(jù)集上,ReDit的優(yōu)勢(shì)同樣明顯。傳統(tǒng)方法的最高準(zhǔn)確率為48.01%,而ReDit將其提升到52.55%,改善了4.54個(gè)百分點(diǎn)??紤]到MATH數(shù)據(jù)集包含的都是高中數(shù)學(xué)競(jìng)賽水平的題目,這種改善意味著AI在處理復(fù)雜數(shù)學(xué)推理方面的能力有了實(shí)質(zhì)性提升。
研究團(tuán)隊(duì)還測(cè)試了ReDit在不同模型上的通用性。無論是參數(shù)量較小的Llama-3.2-3B模型,還是較大的Llama-3.1-8B模型,都顯示出了一致的改善效果。這說明ReDit不是只適用于特定模型的"偏方",而是一種具有廣泛適用性的通用改進(jìn)方法。
**四、方法的技術(shù)細(xì)節(jié)**
從技術(shù)實(shí)現(xiàn)角度看,ReDit的應(yīng)用過程如同為原有的訓(xùn)練流程加裝了一個(gè)"智能調(diào)節(jié)器"。在傳統(tǒng)的GRPO訓(xùn)練中,系統(tǒng)會(huì)為每個(gè)訓(xùn)練樣本計(jì)算一個(gè)確定的獎(jiǎng)勵(lì)值,然后直接用于更新模型參數(shù)。而在ReDit框架下,系統(tǒng)會(huì)在計(jì)算出原始獎(jiǎng)勵(lì)后,立即為其添加一個(gè)隨機(jī)擾動(dòng)。
這個(gè)擾動(dòng)的大小需要仔細(xì)調(diào)節(jié)。研究團(tuán)隊(duì)發(fā)現(xiàn),擾動(dòng)太?。ū热鐦?biāo)準(zhǔn)差為0.01)效果不明顯,就像調(diào)料放得太少?zèng)]有效果;擾動(dòng)太大(比如標(biāo)準(zhǔn)差為0.5)則會(huì)掩蓋原始信號(hào),就像調(diào)料放得太多掩蓋了食材本味。通過大量實(shí)驗(yàn),他們發(fā)現(xiàn)標(biāo)準(zhǔn)差在0.05左右通常能取得最佳效果。
ReDit還支持動(dòng)態(tài)調(diào)整策略。比如"余弦反向"調(diào)度策略,在訓(xùn)練初期使用較大的擾動(dòng)來鼓勵(lì)探索,在訓(xùn)練后期逐漸減小擾動(dòng)以確保收斂。這就像學(xué)習(xí)駕駛時(shí),教練在初學(xué)階段會(huì)讓學(xué)員在空曠場(chǎng)地練習(xí)(允許較大偏差),而在考試前則要求精確操作。
為了驗(yàn)證ReDit確實(shí)解決了梯度不穩(wěn)定問題,研究團(tuán)隊(duì)繪制了詳細(xì)的訓(xùn)練動(dòng)態(tài)圖。在這些圖中,可以清楚看到傳統(tǒng)方法的梯度范數(shù)會(huì)出現(xiàn)劇烈波動(dòng),有時(shí)接近零(梯度消失),有時(shí)超過5(梯度爆炸)。而使用ReDit后,梯度范數(shù)變得相對(duì)穩(wěn)定,大部分時(shí)候保持在合理范圍內(nèi)。
**五、理論基礎(chǔ)與深層機(jī)制**
ReDit方法的成功不是偶然的,而是有著深厚的理論基礎(chǔ)。研究團(tuán)隊(duì)從三個(gè)方面證明了該方法的理論合理性。
首先,他們證明了ReDit產(chǎn)生的梯度估計(jì)是無偏的。這意味著雖然添加了隨機(jī)噪音,但從長期平均來看,學(xué)習(xí)方向仍然指向正確的目標(biāo)。這就像在有輕微顛簸的路上開車,雖然每一刻的方向都有小幅偏差,但總體路線仍然通向目的地。
其次,噪音的引入增加了梯度估計(jì)的方差,這種額外的隨機(jī)性實(shí)際上有助于避免訓(xùn)練陷入局部最優(yōu)解。在機(jī)器學(xué)習(xí)中,局部最優(yōu)就像登山時(shí)遇到的小山頭——看起來已經(jīng)到了頂峰,實(shí)際上還有更高的山峰在遠(yuǎn)方。適當(dāng)?shù)碾S機(jī)性能夠幫助學(xué)習(xí)過程"跳出"這些小山頭,尋找到真正的高峰。
第三,理論分析表明,ReDit能夠顯著改善收斂時(shí)間的上界和下界。簡單說,就是它既能讓最好情況變得更好,也能讓最壞情況變得不那么糟糕。這種"進(jìn)可攻,退可守"的特性使得ReDit成為一種既實(shí)用又可靠的改進(jìn)方法。
研究團(tuán)隊(duì)還發(fā)現(xiàn),ReDit的效果與傳統(tǒng)的梯度裁剪或動(dòng)態(tài)采樣等方法相比有明顯優(yōu)勢(shì)。梯度裁剪就像給汽車裝了限速器,雖然能防止"超速",但也限制了在合適時(shí)候的"加速"能力。而ReDit更像是為汽車配備了更智能的懸掛系統(tǒng),既能保持穩(wěn)定,又不會(huì)過度限制性能。
**六、適用范圍與限制**
值得注意的是,ReDit主要針對(duì)使用離散獎(jiǎng)勵(lì)信號(hào)的訓(xùn)練場(chǎng)景。研究團(tuán)隊(duì)專門驗(yàn)證了這一點(diǎn):當(dāng)他們將ReDit應(yīng)用于已經(jīng)連續(xù)的獎(jiǎng)勵(lì)信號(hào)(比如預(yù)訓(xùn)練的獎(jiǎng)勵(lì)模型輸出)時(shí),改善效果并不明顯。這就像給已經(jīng)調(diào)味良好的菜品再加調(diào)料,不僅沒有提升,反而可能破壞原有的平衡。
這個(gè)發(fā)現(xiàn)其實(shí)進(jìn)一步證實(shí)了ReDit的設(shè)計(jì)理念:它不是萬能的性能提升器,而是專門針對(duì)離散獎(jiǎng)勵(lì)信號(hào)問題的"特效藥"。在人工智能領(lǐng)域,這種針對(duì)性強(qiáng)的解決方案往往比泛化性強(qiáng)但效果平平的方法更有價(jià)值。
ReDit的另一個(gè)特點(diǎn)是參數(shù)調(diào)節(jié)的重要性。研究團(tuán)隊(duì)發(fā)現(xiàn),不同的數(shù)據(jù)集和模型可能需要不同的最優(yōu)噪音強(qiáng)度。這就像不同的菜品需要不同的調(diào)料比例一樣。目前,這種調(diào)節(jié)還需要通過實(shí)驗(yàn)來確定,研究團(tuán)隊(duì)建議在正式訓(xùn)練前先在小規(guī)模數(shù)據(jù)上測(cè)試不同的參數(shù)設(shè)置。
從計(jì)算開銷角度看,ReDit幾乎不增加額外的計(jì)算成本。添加隨機(jī)噪音的操作非常簡單,相比于整個(gè)神經(jīng)網(wǎng)絡(luò)的前向和后向傳播計(jì)算,這部分開銷可以忽略不計(jì)。這使得ReDit成為一種"高性價(jià)比"的改進(jìn)方法——投入極小,收益顯著。
**七、未來發(fā)展方向**
研究團(tuán)隊(duì)在論文中也坦誠地指出了當(dāng)前方法的局限性和未來改進(jìn)方向。目前ReDit的參數(shù)調(diào)節(jié)主要依賴經(jīng)驗(yàn)和實(shí)驗(yàn),缺乏自動(dòng)化的參數(shù)選擇機(jī)制。就像一個(gè)經(jīng)驗(yàn)豐富的廚師知道該放多少鹽,但很難把這種"感覺"傳授給新手。
未來的研究方向可能包括開發(fā)自適應(yīng)的噪音調(diào)節(jié)策略,讓系統(tǒng)能夠根據(jù)訓(xùn)練進(jìn)展自動(dòng)調(diào)整噪音強(qiáng)度。另一個(gè)有趣的方向是探索不同類型的噪音分布,比如根據(jù)具體任務(wù)特點(diǎn)設(shè)計(jì)的定制化噪音模式。
研究團(tuán)隊(duì)還提到,ReDit的理念可能適用于其他使用離散信號(hào)的機(jī)器學(xué)習(xí)場(chǎng)景,不僅限于大語言模型的訓(xùn)練。這為ReDit技術(shù)的進(jìn)一步推廣和應(yīng)用提供了廣闊的空間。
說到底,ReDit這項(xiàng)研究揭示了一個(gè)深刻的道理:在追求完美的道路上,有時(shí)候適度的"不完美"反而能帶來更好的結(jié)果。這不僅在人工智能訓(xùn)練中如此,在我們的日常生活和學(xué)習(xí)中也是如此。適當(dāng)?shù)奶魬?zhàn)和變化,雖然可能帶來短期的不確定性,但往往能促進(jìn)長期的成長和進(jìn)步。
對(duì)于關(guān)注AI技術(shù)發(fā)展的讀者來說,ReDit代表了一種新的思路:不是通過復(fù)雜的算法創(chuàng)新,而是通過深入理解現(xiàn)有方法的本質(zhì)問題,用簡潔優(yōu)雅的方式實(shí)現(xiàn)顯著改進(jìn)。這種"四兩撥千斤"的研究風(fēng)格,在當(dāng)前AI技術(shù)快速發(fā)展的時(shí)代顯得格外珍貴。這項(xiàng)研究不僅為當(dāng)前的大模型訓(xùn)練提供了實(shí)用的改進(jìn)方法,更為未來的AI研究提供了新的思考角度。
Q&A
Q1:ReDit是什么?它是如何工作的? A:ReDit是一種改進(jìn)AI訓(xùn)練的方法,通過在原本精確的獎(jiǎng)勵(lì)信號(hào)中添加少量隨機(jī)"噪音"來解決訓(xùn)練不穩(wěn)定問題。就像在菜品中適量加胡椒粉一樣,這種微小的隨機(jī)變化不會(huì)改變獎(jiǎng)勵(lì)的基本含義,卻能讓AI學(xué)習(xí)過程更加穩(wěn)定高效。
Q2:ReDit會(huì)不會(huì)讓AI學(xué)習(xí)效果變差? A:不會(huì)。雖然添加了"噪音",但ReDit實(shí)際上顯著提升了學(xué)習(xí)效果。實(shí)驗(yàn)顯示,使用ReDit的AI模型學(xué)習(xí)速度提升約10倍,最終性能也比傳統(tǒng)方法更好。這是因?yàn)檫m當(dāng)?shù)碾S機(jī)性幫助AI避免了學(xué)習(xí)過程中的"卡死"狀態(tài)。
Q3:普通人能使用ReDit技術(shù)嗎? A:目前ReDit主要面向AI研究者和開發(fā)者,需要一定的技術(shù)背景才能應(yīng)用。不過,隨著這項(xiàng)技術(shù)的成熟,未來可能會(huì)集成到更多AI訓(xùn)練平臺(tái)中,讓更多人受益于這種改進(jìn)的訓(xùn)練方法。
好文章,需要你的鼓勵(lì)
新加坡國立大學(xué)研究團(tuán)隊(duì)開發(fā)了SPIRAL框架,通過讓AI與自己對(duì)弈零和游戲來提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。