av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁 大模型訓(xùn)練的隱性殺手:為什么越訓(xùn)練越"笨"?INFLY TECH團(tuán)隊(duì)破解多樣性崩塌之謎

大模型訓(xùn)練的隱性殺手:為什么越訓(xùn)練越"笨"?INFLY TECH團(tuán)隊(duì)破解多樣性崩塌之謎

2025-09-12 16:46
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-09-12 16:46 ? 科技行者

這項(xiàng)由INFLY TECH、復(fù)旦大學(xué)和格里菲斯大學(xué)聯(lián)合完成的突破性研究,發(fā)表于2025年9月,揭示了大語言模型強(qiáng)化學(xué)習(xí)訓(xùn)練中一個(gè)令人困惑的現(xiàn)象。有興趣深入了解的讀者可以通過GitHub項(xiàng)目(https://github.com/seamoke/DPH-RL)訪問完整代碼和論文。

近年來,人工智能在數(shù)學(xué)解題和代碼生成等需要精確答案的任務(wù)上表現(xiàn)越來越出色。然而,研究人員發(fā)現(xiàn)了一個(gè)令人費(fèi)解的現(xiàn)象:當(dāng)他們用強(qiáng)化學(xué)習(xí)方法來訓(xùn)練這些AI模型時(shí),雖然模型在單次回答問題時(shí)變得更準(zhǔn)確了,但當(dāng)允許它們多次嘗試回答同一問題時(shí),整體成功率竟然下降了。這就像一個(gè)學(xué)生經(jīng)過訓(xùn)練后,雖然第一次答題的準(zhǔn)確率提高了,但當(dāng)老師給他多次機(jī)會(huì)重答時(shí),他反而表現(xiàn)更差了。

這個(gè)奇怪的現(xiàn)象背后隱藏著什么秘密?研究團(tuán)隊(duì)通過深入分析發(fā)現(xiàn),問題出在訓(xùn)練方法的一個(gè)細(xì)節(jié)上——散度項(xiàng)的選擇。散度是衡量兩個(gè)概率分布差異的數(shù)學(xué)工具,在AI訓(xùn)練中用來控制新模型不要偏離原始模型太遠(yuǎn)。就像給一個(gè)學(xué)習(xí)者劃定學(xué)習(xí)邊界,既要讓他進(jìn)步,又不能讓他完全忘記之前學(xué)過的知識(shí)。

傳統(tǒng)方法使用的是"反向KL散度",這種方法有一個(gè)特點(diǎn):它傾向于讓模型專注于少數(shù)幾個(gè)高概率的答案,就像一個(gè)學(xué)生只專攻幾種類型的題目,雖然在這些題目上表現(xiàn)很好,但喪失了解決其他類型問題的能力。這種現(xiàn)象被稱為"模式尋求",會(huì)導(dǎo)致模型的輸出變得單一化,失去了解決問題的多樣性。

更糟糕的是,這種訓(xùn)練方式還會(huì)引發(fā)"災(zāi)難性遺忘"現(xiàn)象。研究數(shù)據(jù)顯示,經(jīng)過傳統(tǒng)強(qiáng)化學(xué)習(xí)訓(xùn)練的模型,對(duì)于之前能夠正確解決的問題,成功率下降到只有85%左右。這就像一個(gè)學(xué)生在專攻某些題型后,反而忘記了以前會(huì)做的其他題目。

面對(duì)這個(gè)困擾整個(gè)領(lǐng)域的難題,研究團(tuán)隊(duì)提出了一個(gè)創(chuàng)新的解決方案:多樣性保持混合強(qiáng)化學(xué)習(xí)框架(DPH-RL)。這個(gè)方法的核心思想是改變散度項(xiàng)的選擇,從"反向KL散度"轉(zhuǎn)向"正向KL散度"和"JS散度"等具有"質(zhì)量覆蓋"特性的散度方法。

正向KL散度的工作原理與反向KL散度完全相反。如果說反向KL散度是讓學(xué)生專攻少數(shù)題型,那么正向KL散度就是鼓勵(lì)學(xué)生保持對(duì)各種題型的掌握能力。它會(huì)懲罰模型忽視原始策略中任何有意義的解決方案,從而保持解決問題的多樣性。從實(shí)際操作角度看,正向KL散度相當(dāng)于創(chuàng)建了一個(gè)"復(fù)習(xí)機(jī)制",強(qiáng)制模型持續(xù)回顧和鞏固原有的知識(shí)基礎(chǔ)。

為了驗(yàn)證這個(gè)理論,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)巧妙的實(shí)驗(yàn)。他們構(gòu)建了一個(gè)能夠輸出五種不同解題風(fēng)格的基礎(chǔ)模型,然后分別用傳統(tǒng)方法和新方法進(jìn)行訓(xùn)練。結(jié)果非常明顯:傳統(tǒng)方法訓(xùn)練后的模型幾乎只會(huì)輸出一種解題風(fēng)格,而使用正向KL散度訓(xùn)練的模型在60%的情況下仍能生成三種以上的不同風(fēng)格解答。

DPH-RL框架的實(shí)現(xiàn)分為兩個(gè)階段。在預(yù)采樣階段,系統(tǒng)會(huì)對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行智能分類。對(duì)于基礎(chǔ)模型已經(jīng)能夠穩(wěn)定正確回答的問題,這些被歸類為"完美數(shù)據(jù)集",每個(gè)樣本會(huì)保存一個(gè)正確答案及其對(duì)應(yīng)的概率值。對(duì)于仍需改進(jìn)的困難問題,則被歸類為"探索數(shù)據(jù)集",這些問題將成為強(qiáng)化學(xué)習(xí)的重點(diǎn)訓(xùn)練對(duì)象。

在在線訓(xùn)練階段,系統(tǒng)會(huì)同時(shí)使用兩種不同的訓(xùn)練策略。對(duì)于探索數(shù)據(jù)集中的樣本,模型被給予最大的自由度進(jìn)行探索,不受任何散度約束的限制,這樣能夠讓模型在困難問題上有更大的突破空間。而對(duì)于完美數(shù)據(jù)集中的樣本,系統(tǒng)會(huì)應(yīng)用正向KL散度或JS散度約束,確保模型不會(huì)遺忘已經(jīng)掌握的知識(shí)。

研究團(tuán)隊(duì)通過大規(guī)模實(shí)驗(yàn)驗(yàn)證了DPH-RL的效果。他們在數(shù)學(xué)推理和SQL查詢生成兩個(gè)任務(wù)上,使用了從7B到32B參數(shù)規(guī)模的不同模型進(jìn)行測試。實(shí)驗(yàn)結(jié)果令人印象深刻:DPH-RL不僅解決了多樣性崩塌問題,還在單次準(zhǔn)確率和多次嘗試成功率兩個(gè)指標(biāo)上都實(shí)現(xiàn)了提升。

在SQL任務(wù)的測試中,以Llama-3.1-8B模型為例,傳統(tǒng)GRPO方法的Pass@8得分比基礎(chǔ)模型下降了2.6個(gè)百分點(diǎn),而DPH-JS方法則提升了1.7個(gè)百分點(diǎn)。更重要的是,當(dāng)測試跨領(lǐng)域泛化能力時(shí),傳統(tǒng)方法的性能急劇下降,而DPH-RL方法能夠很好地保持性能穩(wěn)定性。

數(shù)學(xué)推理任務(wù)的結(jié)果同樣令人鼓舞。在AIME24數(shù)學(xué)競賽題目上,傳統(tǒng)GRPO方法的Pass@64得分從基礎(chǔ)模型的40.0%下降到33.3%,而DPH-JS方法不僅維持了40.0%的得分,在其他數(shù)學(xué)數(shù)據(jù)集上還實(shí)現(xiàn)了穩(wěn)步提升。

研究團(tuán)隊(duì)還發(fā)現(xiàn)了一個(gè)重要現(xiàn)象:不同模型架構(gòu)對(duì)強(qiáng)化學(xué)習(xí)訓(xùn)練的響應(yīng)存在顯著差異。Llama系列模型在數(shù)學(xué)推理任務(wù)上的強(qiáng)化學(xué)習(xí)效果相對(duì)有限,平均提升只有0.93個(gè)百分點(diǎn),同時(shí)Pass@k得分還下降了3.26個(gè)百分點(diǎn)。相比之下,Qwen系列模型對(duì)強(qiáng)化學(xué)習(xí)訓(xùn)練的響應(yīng)要好得多,能夠同時(shí)在準(zhǔn)確率和多樣性指標(biāo)上實(shí)現(xiàn)約20%的提升。這個(gè)發(fā)現(xiàn)為不同模型的訓(xùn)練策略選擇提供了重要參考。

為了深入理解DPH-RL的工作機(jī)制,研究團(tuán)隊(duì)進(jìn)行了詳細(xì)的保持率和探索率分析。他們將基礎(chǔ)模型的輸出分為正確樣本和錯(cuò)誤樣本兩類,然后觀察強(qiáng)化學(xué)習(xí)訓(xùn)練后模型對(duì)這兩類樣本的處理能力。結(jié)果顯示,傳統(tǒng)GRPO和DAPO方法在兩個(gè)數(shù)據(jù)集上的保持率都有所下降,這解釋了為什么會(huì)出現(xiàn)災(zāi)難性遺忘現(xiàn)象。而使用KL散度約束的方法主要通過提高保持率來維持更高的Pass@k得分。

DPH-RL框架的另一個(gè)重要優(yōu)勢是計(jì)算效率。傳統(tǒng)的散度計(jì)算方法需要在訓(xùn)練過程中維持一個(gè)在線參考模型,這會(huì)顯著增加計(jì)算開銷。而DPH-RL采用生成函數(shù)形式計(jì)算f-散度,只需要從初始策略進(jìn)行采樣,無需在線參考模型,從而大大提高了訓(xùn)練效率。

研究團(tuán)隊(duì)還對(duì)不同f-散度的效果進(jìn)行了系統(tǒng)比較。除了正向KL散度和JS散度外,他們還測試了α-散度族中的不同選擇。實(shí)驗(yàn)發(fā)現(xiàn),α-散度在正向KL和反向KL之間提供了一個(gè)平衡點(diǎn),隨著α值的增加,理論上越接近正向KL的能力,實(shí)驗(yàn)中也表現(xiàn)出更高的Pass@k得分。這為研究者提供了更多的方法選擇空間。

值得注意的是,DPH-RL的成功不僅在于技術(shù)創(chuàng)新,更在于它從根本上改變了對(duì)散度項(xiàng)作用的認(rèn)識(shí)。傳統(tǒng)觀點(diǎn)將散度項(xiàng)僅視為策略約束工具,而DPH-RL將其重新定位為主動(dòng)的多樣性保持機(jī)制。這種認(rèn)識(shí)上的轉(zhuǎn)變可能會(huì)啟發(fā)更多相關(guān)研究。

研究團(tuán)隊(duì)還提供了理論支撐,證明了DPH-RL具有增強(qiáng)的單調(diào)改進(jìn)保證。在滿足一定假設(shè)條件下,每次策略更新的改進(jìn)下界比傳統(tǒng)TRPO分析中的對(duì)應(yīng)結(jié)果更強(qiáng)。這為方法的理論可靠性提供了數(shù)學(xué)保證。

從實(shí)際應(yīng)用角度看,DPH-RL的意義遠(yuǎn)不止解決技術(shù)問題。它為構(gòu)建更加通用和多樣化的推理模型提供了新路徑。在當(dāng)前大模型應(yīng)用日益廣泛的背景下,保持模型的多樣性和泛化能力變得越來越重要。DPH-RL的成功表明,通過精心設(shè)計(jì)的訓(xùn)練方法,我們可以在提升模型性能的同時(shí)避免能力退化。

此外,這項(xiàng)研究也為強(qiáng)化學(xué)習(xí)在大模型訓(xùn)練中的應(yīng)用提供了重要啟示。它證明了傳統(tǒng)強(qiáng)化學(xué)習(xí)方法在應(yīng)用于大規(guī)模語言模型時(shí)需要特殊考慮,單純移植經(jīng)典算法可能會(huì)帶來意想不到的問題。這提醒研究者在設(shè)計(jì)新的訓(xùn)練方法時(shí),需要充分考慮大模型的特殊性質(zhì)。

說到底,這項(xiàng)研究揭示了一個(gè)重要事實(shí):在AI訓(xùn)練中,有時(shí)候細(xì)節(jié)決定成敗。一個(gè)看似技術(shù)性的選擇——使用哪種散度函數(shù)——竟然會(huì)對(duì)模型的整體表現(xiàn)產(chǎn)生如此深遠(yuǎn)的影響。這不僅解決了困擾研究界的實(shí)際問題,也為未來的AI系統(tǒng)設(shè)計(jì)提供了寶貴經(jīng)驗(yàn)。對(duì)于普通人而言,這意味著未來的AI助手將能更好地保持解決問題的多樣性,不會(huì)因?yàn)樵谀硞€(gè)領(lǐng)域的專門訓(xùn)練而忘記其他能力。

Q&A

Q1:什么是多樣性崩塌現(xiàn)象?為什么會(huì)發(fā)生?

A:多樣性崩塌是指AI模型在強(qiáng)化學(xué)習(xí)訓(xùn)練后,雖然單次回答準(zhǔn)確率提高,但多次嘗試的整體成功率反而下降的現(xiàn)象。這是因?yàn)閭鹘y(tǒng)訓(xùn)練方法使用的反向KL散度具有"模式尋求"特性,讓模型過度專注于少數(shù)高概率答案,失去了解決問題的多樣性,就像學(xué)生只專攻幾種題型而忘記其他解題方法。

Q2:DPH-RL框架是如何解決多樣性崩塌問題的?

A:DPH-RL通過改變散度項(xiàng)的選擇來解決問題。它使用具有"質(zhì)量覆蓋"特性的正向KL散度和JS散度,這些方法會(huì)懲罰模型忽視原始策略中的任何解決方案,強(qiáng)制保持解決問題的多樣性。同時(shí),它創(chuàng)建了一個(gè)"復(fù)習(xí)機(jī)制",讓模型持續(xù)回顧和鞏固原有知識(shí),避免災(zāi)難性遺忘。

Q3:DPH-RL在實(shí)際應(yīng)用中效果如何?有什么優(yōu)勢?

A:實(shí)驗(yàn)結(jié)果顯示,DPH-RL不僅解決了多樣性崩塌問題,還同時(shí)提升了單次準(zhǔn)確率和多次嘗試成功率。在SQL任務(wù)中,傳統(tǒng)方法的Pass@8得分下降2.6個(gè)百分點(diǎn),而DPH-JS方法提升了1.7個(gè)百分點(diǎn)。此外,DPH-RL在跨領(lǐng)域任務(wù)上表現(xiàn)更穩(wěn)定,計(jì)算效率也更高,因?yàn)闊o需維持在線參考模型。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-