av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見(jiàn)證連接與計(jì)算的「力量」

首頁(yè) 數(shù)學(xué)推理的新突破:NVIDIA與清華大學(xué)聯(lián)手打造的"負(fù)例感知微調(diào)"如何彌合監(jiān)督學(xué)習(xí)與強(qiáng)化學(xué)習(xí)的鴻溝

數(shù)學(xué)推理的新突破:NVIDIA與清華大學(xué)聯(lián)手打造的"負(fù)例感知微調(diào)"如何彌合監(jiān)督學(xué)習(xí)與強(qiáng)化學(xué)習(xí)的鴻溝

2025-05-30 14:41
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-30 14:41 ? 科技行者

如今,大語(yǔ)言模型(LLM)在數(shù)學(xué)推理能力上的突飛猛進(jìn),主要得益于學(xué)習(xí)范式的根本轉(zhuǎn)變——從模仿學(xué)習(xí)轉(zhuǎn)向自我提升。這項(xiàng)由清華大學(xué)和NVIDIA研究團(tuán)隊(duì)共同完成的研究發(fā)表于2025年5月的arXiv預(yù)印本平臺(tái),論文題為《Bridging Supervised Learning and Reinforcement Learning in Math Reasoning》(在數(shù)學(xué)推理中彌合監(jiān)督學(xué)習(xí)與強(qiáng)化學(xué)習(xí)),研究鏈接為https://research.nvidia.com/labs/dir/Negative-aware-Fine-Tuning。

近年來(lái),大語(yǔ)言模型不再依賴人類標(biāo)注者或更強(qiáng)大模型提供的標(biāo)準(zhǔn)答案,而是通過(guò)一個(gè)簡(jiǎn)單的二元驗(yàn)證器(判斷答案正確與否的工具)來(lái)評(píng)判自身生成答案的正確性,從而實(shí)現(xiàn)自主學(xué)習(xí)。這種方法不僅省去了昂貴的數(shù)據(jù)標(biāo)注成本,還消除了外部教師設(shè)置的能力上限,為通用智能開(kāi)辟了一條充滿希望的道路。

強(qiáng)化學(xué)習(xí)(RL)自然成為這種驗(yàn)證驅(qū)動(dòng)訓(xùn)練的理想選擇。像PPO(近端策略優(yōu)化)和GRPO(分組規(guī)范化策略優(yōu)化)這樣的算法專門設(shè)計(jì)用來(lái)最大化獎(jiǎng)勵(lì)信號(hào),而這種獎(jiǎng)勵(lì)信號(hào)可以方便地采用二元驗(yàn)證器的結(jié)果形式。相比之下,監(jiān)督學(xué)習(xí)(SL)在這種自我提升學(xué)習(xí)中很少被考慮。普遍觀點(diǎn)認(rèn)為,SL本質(zhì)上是通過(guò)記憶正面訓(xùn)練數(shù)據(jù)來(lái)模仿外部教師,使其不適合從負(fù)面錯(cuò)誤中進(jìn)行自我反思學(xué)習(xí)。

這項(xiàng)研究挑戰(zhàn)了"自我提升僅限于強(qiáng)化學(xué)習(xí)"的流行觀念,研究團(tuán)隊(duì)證明了類似的自我提升也可以在監(jiān)督學(xué)習(xí)范式內(nèi)實(shí)現(xiàn)。研究以一個(gè)簡(jiǎn)單的SL基線開(kāi)始:拒絕采樣微調(diào)(RFT)。在每次迭代中,模型為問(wèn)題生成答案,驗(yàn)證器幫助拒絕所有錯(cuò)誤答案,剩下的正確答案被編譯成數(shù)據(jù)集,以監(jiān)督方式微調(diào)模型本身。雖然RFT被多項(xiàng)研究證明有效,但它阻止了從負(fù)面反饋中學(xué)習(xí)任何東西。模型被鼓勵(lì)強(qiáng)化它已經(jīng)表現(xiàn)良好的內(nèi)容,而非反思自己的錯(cuò)誤——研究團(tuán)隊(duì)認(rèn)為,這種反思能力對(duì)實(shí)現(xiàn)通用智能至關(guān)重要。

為了克服這一局限,研究團(tuán)隊(duì)提出了"負(fù)例感知微調(diào)"(NFT)——一種使模型能夠從負(fù)面生成中學(xué)習(xí)的在線學(xué)習(xí)算法。就像RFT一樣,NFT通過(guò)監(jiān)督方式在正確答案上微調(diào)模型。關(guān)鍵的不同是,NFT不會(huì)丟棄錯(cuò)誤答案,而是構(gòu)建一個(gè)隱式負(fù)面策略來(lái)對(duì)它們建模。這個(gè)隱式策略與我們?cè)谡鏀?shù)據(jù)上優(yōu)化的正面模型使用相同的參數(shù),從而實(shí)現(xiàn)對(duì)所有模型生成內(nèi)容的直接策略優(yōu)化。NFT內(nèi)存開(kāi)銷極小,因?yàn)檎麄€(gè)訓(xùn)練過(guò)程中只需維護(hù)一個(gè)模型。

為了理解NFT與強(qiáng)化學(xué)習(xí)方法之間的聯(lián)系,研究團(tuán)隊(duì)進(jìn)行了深入比較,特別是與GRPO算法的對(duì)比。令人驚訝的是,他們發(fā)現(xiàn)兩種方法在嚴(yán)格的同策略訓(xùn)練中實(shí)際上是等價(jià)的,盡管它們?cè)醋酝耆煌睦碚摽蚣堋V档米⒁獾氖?,GRPO特有的"優(yōu)勢(shì)歸一化"特性已經(jīng)隱含在NFT的損失函數(shù)中。它們的主要區(qū)別在于離策略設(shè)置中,當(dāng)學(xué)習(xí)的策略偏離舊策略時(shí),對(duì)模型梯度采取不同的裁剪策略。這些觀察表明,在二元反饋學(xué)習(xí)系統(tǒng)中,監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)之間存在強(qiáng)烈的聯(lián)系。

研究團(tuán)隊(duì)在7B和32B的Qwen模型上評(píng)估了NFT,報(bào)告了兩個(gè)關(guān)鍵發(fā)現(xiàn):第一,監(jiān)督學(xué)習(xí)單獨(dú)就能顯著增強(qiáng)LLM的數(shù)學(xué)推理能力,無(wú)需外部教師。NFT能夠匹配甚至超過(guò)像GRPO和DAPO這樣的最先進(jìn)強(qiáng)化學(xué)習(xí)算法。第二,監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)在在線訓(xùn)練中的性能差距主要源于監(jiān)督學(xué)習(xí)過(guò)去無(wú)法利用負(fù)面反饋,而非強(qiáng)化學(xué)習(xí)的任何內(nèi)在優(yōu)勢(shì)。通過(guò)額外利用負(fù)面數(shù)據(jù),NFT大大縮小了監(jiān)督學(xué)習(xí)和領(lǐng)先強(qiáng)化學(xué)習(xí)算法之間的性能差距。

在具體實(shí)驗(yàn)中,研究團(tuán)隊(duì)在7B和32B模型上進(jìn)行了約5000步梯度更新,批量大小為512。他們?cè)诹鶄€(gè)驗(yàn)證基準(zhǔn)上評(píng)估模型,包括AIME 2024、AIME 2025、AMC 2023、MATH500、OlympiadBench和Minerva Math。驗(yàn)證使用top-p值為0.7,7B模型的驗(yàn)證溫度為1.0,32B模型為0.6。

實(shí)驗(yàn)結(jié)果表明,NFT算法在幾乎所有基準(zhǔn)上都表現(xiàn)卓越。通過(guò)應(yīng)用NFT到Qwen2.5-Math-7B,研究團(tuán)隊(duì)發(fā)布了NFT-7B-Zero,在所有基準(zhǔn)測(cè)試中與其他零樣式7B數(shù)學(xué)模型相比表現(xiàn)優(yōu)異。這提供了NFT算法有效性的有力實(shí)證證據(jù),并表明僅憑監(jiān)督學(xué)習(xí)就能在數(shù)學(xué)任務(wù)中實(shí)現(xiàn)有效的自我提升。

研究還發(fā)現(xiàn),負(fù)面反饋增強(qiáng)了性能和探索。NFT在訓(xùn)練過(guò)程中保持了更高的熵(一種測(cè)量生成多樣性的指標(biāo)),而RFT則傾向于隨時(shí)間減少熵。這種行為表明NFT能夠進(jìn)行更積極的探索,這可能是NFT和RFT之間性能差距的原因。

更有趣的是,負(fù)面反饋在更大模型中變得愈發(fā)重要。在32B實(shí)驗(yàn)中,RFT和NFT之間的性能差距隨著訓(xùn)練而擴(kuò)大,而這種趨勢(shì)在7B模型中不太明顯。這與其他研究的觀察一致,即強(qiáng)化學(xué)習(xí)在更大模型中比起監(jiān)督微調(diào)提供更大的收益。

盡管被許多算法超越,RFT因其極端簡(jiǎn)單性仍然值得關(guān)注。在32B設(shè)置中,從正面數(shù)據(jù)學(xué)習(xí)(RFT)貢獻(xiàn)了最佳表現(xiàn)模型總增益的80%,而負(fù)面數(shù)據(jù)僅占剩余20%。這些發(fā)現(xiàn)呼應(yīng)了最近的研究,表明強(qiáng)化學(xué)習(xí)主要是放大大型模型中已有的能力,而非培養(yǎng)新技能。如何更好地利用負(fù)面反饋仍然是一個(gè)充滿潛力的開(kāi)放挑戰(zhàn)。

研究團(tuán)隊(duì)還探討了NFT有效性背后的關(guān)鍵設(shè)計(jì)選擇。首先,他們發(fā)現(xiàn)對(duì)低正確率的困難問(wèn)題賦予更高權(quán)重可以增強(qiáng)模型性能。其次,避免過(guò)度懲罰錯(cuò)誤也很重要——NFT的裁剪值設(shè)置了對(duì)錯(cuò)誤答案似然比增加時(shí)的懲罰權(quán)重上限。當(dāng)裁剪值過(guò)?。ń咏悖r(shí),算法會(huì)對(duì)錯(cuò)誤答案的上升似然賦予高懲罰,但實(shí)驗(yàn)表明過(guò)于激進(jìn)的懲罰會(huì)降低整體性能。

這項(xiàng)研究不僅展示了監(jiān)督學(xué)習(xí)在驗(yàn)證驅(qū)動(dòng)的自我提升中的有效性,更重要的是,它彌合了監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)之間的理論和實(shí)踐差距。通過(guò)證明NFT和GRPO在嚴(yán)格同策略訓(xùn)練中的等價(jià)性,研究揭示了這兩種學(xué)習(xí)范式之間存在深層聯(lián)系,盡管它們?cè)醋酝耆煌睦碚摶A(chǔ)。這一發(fā)現(xiàn)為理解和改進(jìn)二元反饋學(xué)習(xí)系統(tǒng)中的各種學(xué)習(xí)方法提供了新的視角。

總的來(lái)說(shuō),這項(xiàng)研究表明,通過(guò)巧妙設(shè)計(jì),監(jiān)督學(xué)習(xí)可以像強(qiáng)化學(xué)習(xí)一樣實(shí)現(xiàn)自我反思和自我提升,挑戰(zhàn)了傳統(tǒng)認(rèn)知,并為大語(yǔ)言模型訓(xùn)練提供了一種更簡(jiǎn)單、更直接的方法。NFT的成功表明,在追求通用人工智能的道路上,我們或許不需要完全依賴復(fù)雜的強(qiáng)化學(xué)習(xí)框架,而可以依靠更簡(jiǎn)單、更易于實(shí)現(xiàn)的監(jiān)督學(xué)習(xí)方法,只要它們能夠有效利用所有可用的反饋信號(hào)。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-