av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見(jiàn)證連接與計(jì)算的「力量」

首頁(yè) AI新手也能玩轉(zhuǎn)超強(qiáng)推理:這個(gè)2.75B的小模型居然超越了8B大模型!

AI新手也能玩轉(zhuǎn)超強(qiáng)推理:這個(gè)2.75B的小模型居然超越了8B大模型!

2025-06-23 11:46
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-23 11:46 ? 科技行者

這項(xiàng)由Inclusion AI的Ring團(tuán)隊(duì)開(kāi)發(fā)的研究發(fā)表于2025年6月的arXiv預(yù)印本平臺(tái)(論文編號(hào):arXiv:2506.14731v1),有興趣深入了解的讀者可以通過(guò)https://github.com/inclusionAI/Ring訪問(wèn)完整論文和代碼。研究團(tuán)隊(duì)包括眾多來(lái)自不同背景的研究者,共同致力于讓AI推理能力更加高效和易用。

在人工智能快速發(fā)展的今天,大模型的推理能力一直是個(gè)讓人頭疼的問(wèn)題。大家都知道,要讓AI像人類一樣思考和解決復(fù)雜問(wèn)題,往往需要投入巨大的計(jì)算資源。就像要烤出完美的蛋糕,傳統(tǒng)做法是準(zhǔn)備一個(gè)巨大的烤箱,消耗大量電力。但如果有一種神奇的烘焙技術(shù),能讓小烤箱做出比大烤箱更棒的蛋糕,那該多好啊!

Ring團(tuán)隊(duì)就是在這樣的想法下,開(kāi)發(fā)了一個(gè)名為Ring-lite的AI模型。這個(gè)模型最令人驚嘆的地方在于,它只有2.75億個(gè)活躍參數(shù)(想象成烤箱里真正工作的加熱元件數(shù)量),但卻能在數(shù)學(xué)、編程和科學(xué)推理任務(wù)上匹敵甚至超越那些擁有8億參數(shù)的大模型。這就好比一個(gè)小巧的家用烤箱,居然能做出五星級(jí)酒店那種大型烤箱才能制作的精美糕點(diǎn)。

更讓人興奮的是,這項(xiàng)研究完全開(kāi)源,意味著任何對(duì)AI感興趣的人都可以免費(fèi)獲取模型、數(shù)據(jù)集和訓(xùn)練代碼。這就像一位頂級(jí)糕點(diǎn)師不僅公開(kāi)了自己的獨(dú)門(mén)秘方,還手把手教你如何使用這些技巧。對(duì)于AI研究領(lǐng)域來(lái)說(shuō),這種開(kāi)放性極大地降低了入門(mén)門(mén)檻,讓更多人能夠參與到這個(gè)激動(dòng)人心的領(lǐng)域中來(lái)。

Ring-lite的核心創(chuàng)新在于采用了一種叫做"專家混合"(MoE)的架構(gòu),配合全新的強(qiáng)化學(xué)習(xí)訓(xùn)練方法。如果把傳統(tǒng)的AI模型比作一個(gè)全能廚師,那么MoE架構(gòu)就像是一個(gè)專業(yè)化的廚師團(tuán)隊(duì)——有專門(mén)做甜品的、有專門(mén)做主菜的、有專門(mén)做湯的。當(dāng)面對(duì)具體任務(wù)時(shí),只需要調(diào)動(dòng)相關(guān)的專家廚師,而不是讓全能廚師事無(wú)巨細(xì)地處理每一個(gè)細(xì)節(jié)。這樣既提高了效率,又保證了質(zhì)量。

一、破解AI訓(xùn)練中的"情緒波動(dòng)"難題

在訓(xùn)練AI模型的過(guò)程中,研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)有趣而棘手的現(xiàn)象,他們稱之為"獎(jiǎng)勵(lì)崩潰"。這就像教一個(gè)孩子學(xué)習(xí),開(kāi)始時(shí)孩子表現(xiàn)很好,但突然某一天開(kāi)始變得消極怠工,之前學(xué)會(huì)的技能也開(kāi)始退化。這種現(xiàn)象在AI訓(xùn)練中非常常見(jiàn),特別是當(dāng)使用傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法時(shí)。

傳統(tǒng)的訓(xùn)練方法存在兩個(gè)主要問(wèn)題。第一個(gè)問(wèn)題是"長(zhǎng)度偏見(jiàn)",就像評(píng)價(jià)學(xué)生作文時(shí),如果只看字?jǐn)?shù)而不看質(zhì)量,短文章的每個(gè)字會(huì)被過(guò)度重視,而長(zhǎng)文章的每個(gè)字則被低估。在AI訓(xùn)練中,這會(huì)導(dǎo)致模型傾向于生成過(guò)短或過(guò)長(zhǎng)的回答,而不是最合適的回答。

第二個(gè)問(wèn)題是"訓(xùn)練不穩(wěn)定",就像開(kāi)車時(shí)油門(mén)忽輕忽重,導(dǎo)致車子一會(huì)兒加速一會(huì)兒減速,無(wú)法平穩(wěn)行駛。在AI訓(xùn)練中,這表現(xiàn)為模型的表現(xiàn)忽好忽壞,很難達(dá)到穩(wěn)定的高水平。

為了解決這些問(wèn)題,研究團(tuán)隊(duì)開(kāi)發(fā)了一種名為C3PO(Constrained Contextual Computation Policy Optimization)的新方法。這個(gè)名字聽(tīng)起來(lái)很復(fù)雜,但其實(shí)核心思想很簡(jiǎn)單:就像制定嚴(yán)格的烘焙時(shí)間表一樣,給AI訓(xùn)練設(shè)定固定的"計(jì)算預(yù)算"。

具體來(lái)說(shuō),C3PO方法就像是給烤箱設(shè)定了固定的烘焙時(shí)間。無(wú)論是制作簡(jiǎn)單的餅干還是復(fù)雜的多層蛋糕,每次烘焙都使用相同的時(shí)間額度。這樣做的好處是,烤箱的溫度和能耗變得可以預(yù)測(cè),不會(huì)出現(xiàn)忽高忽低的情況。對(duì)應(yīng)到AI訓(xùn)練中,就是每次訓(xùn)練步驟都使用相同數(shù)量的計(jì)算資源,讓整個(gè)訓(xùn)練過(guò)程變得穩(wěn)定可控。

研究團(tuán)隊(duì)通過(guò)大量實(shí)驗(yàn)證明,使用C3PO方法訓(xùn)練的模型不僅更加穩(wěn)定,而且訓(xùn)練效率也顯著提高。這就像找到了完美的烘焙溫度和時(shí)間組合,不僅能確保每次都能做出高質(zhì)量的糕點(diǎn),而且還能節(jié)省時(shí)間和能源。

另外,研究團(tuán)隊(duì)還發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:選擇合適的起始模型對(duì)最終效果至關(guān)重要。他們發(fā)現(xiàn),那些在預(yù)訓(xùn)練階段保持較高"熵值"(可以理解為保持一定隨機(jī)性和探索能力)的模型,在后續(xù)的強(qiáng)化學(xué)習(xí)訓(xùn)練中表現(xiàn)更好。這就像選擇烘焙材料時(shí),新鮮而有活力的酵母比那些已經(jīng)"死氣沉沉"的酵母能制作出更好的面包。

二、解決多領(lǐng)域?qū)W習(xí)中的"打架"問(wèn)題

在現(xiàn)實(shí)應(yīng)用中,我們希望AI能夠在多個(gè)領(lǐng)域都表現(xiàn)出色,比如既能解數(shù)學(xué)題,又能寫(xiě)代碼,還能回答科學(xué)問(wèn)題。但研究團(tuán)隊(duì)發(fā)現(xiàn),當(dāng)試圖讓一個(gè)模型同時(shí)學(xué)習(xí)多個(gè)領(lǐng)域的知識(shí)時(shí),經(jīng)常會(huì)出現(xiàn)"領(lǐng)域沖突"的問(wèn)題。

這種現(xiàn)象就像讓一個(gè)人同時(shí)學(xué)習(xí)中文、英文和法文。如果同時(shí)學(xué)習(xí),可能會(huì)出現(xiàn)語(yǔ)言混淆的情況,說(shuō)中文時(shí)蹦出英文單詞,說(shuō)英文時(shí)又混入法文語(yǔ)法。在AI訓(xùn)練中,這表現(xiàn)為模型在數(shù)學(xué)任務(wù)上表現(xiàn)好時(shí),編程能力可能會(huì)下降;提升了編程能力后,科學(xué)推理能力又可能受影響。

研究團(tuán)隊(duì)通過(guò)仔細(xì)的實(shí)驗(yàn)分析發(fā)現(xiàn),簡(jiǎn)單地把不同領(lǐng)域的訓(xùn)練數(shù)據(jù)混合在一起并不是最佳方案。相反,他們開(kāi)發(fā)了一種"分階段訓(xùn)練"的策略,就像學(xué)習(xí)語(yǔ)言時(shí)先專注掌握一門(mén)語(yǔ)言的基礎(chǔ),再逐步添加其他語(yǔ)言的學(xué)習(xí)。

具體來(lái)說(shuō),他們首先讓模型專注學(xué)習(xí)數(shù)學(xué)推理任務(wù),等這部分能力穩(wěn)固之后,再加入編程和科學(xué)領(lǐng)域的訓(xùn)練內(nèi)容。這種方法類似于建造房子時(shí)先打好地基,再逐層建設(shè)的過(guò)程。實(shí)驗(yàn)結(jié)果顯示,這種分階段的訓(xùn)練方法不僅避免了不同領(lǐng)域知識(shí)之間的相互干擾,還讓模型在各個(gè)領(lǐng)域都達(dá)到了更高的水平。

更有趣的是,研究團(tuán)隊(duì)發(fā)現(xiàn)數(shù)學(xué)訓(xùn)練似乎為其他領(lǐng)域的學(xué)習(xí)提供了很好的基礎(chǔ)。那些先接受數(shù)學(xué)訓(xùn)練的模型,在后續(xù)學(xué)習(xí)編程和科學(xué)推理時(shí)表現(xiàn)得更好。這就像數(shù)學(xué)為其他學(xué)科提供了思維基礎(chǔ)一樣,讓模型的整體推理能力得到了提升。

為了進(jìn)一步優(yōu)化多領(lǐng)域?qū)W習(xí)效果,研究團(tuán)隊(duì)還對(duì)訓(xùn)練數(shù)據(jù)的比例進(jìn)行了精心調(diào)配。他們發(fā)現(xiàn),當(dāng)增加編程和科學(xué)領(lǐng)域的訓(xùn)練數(shù)據(jù)量時(shí),模型的綜合表現(xiàn)還能再上一個(gè)臺(tái)階。最終,他們找到了一個(gè)最佳的數(shù)據(jù)配比,讓模型在保持?jǐn)?shù)學(xué)和科學(xué)推理能力的同時(shí),編程能力也得到了顯著提升。

三、構(gòu)建高質(zhì)量的訓(xùn)練"食材"庫(kù)

就像頂級(jí)廚師需要精選最優(yōu)質(zhì)的食材一樣,訓(xùn)練出色的AI模型也需要高質(zhì)量的數(shù)據(jù)。Ring團(tuán)隊(duì)在數(shù)據(jù)準(zhǔn)備方面投入了大量精力,建立了一套嚴(yán)格的"食材篩選"流程。

他們的訓(xùn)練數(shù)據(jù)分為兩個(gè)主要部分。第一部分是"長(zhǎng)鏈條思維"監(jiān)督訓(xùn)練數(shù)據(jù),就像是基礎(chǔ)的烹飪教程,教會(huì)模型如何進(jìn)行系統(tǒng)性的思考。這些數(shù)據(jù)主要來(lái)源于開(kāi)源資源和大語(yǔ)言模型生成的內(nèi)容,但經(jīng)過(guò)了嚴(yán)格的篩選和清洗。研究團(tuán)隊(duì)建立了一套迭代優(yōu)化的流程,結(jié)合自動(dòng)化模型生成、專家人工標(biāo)注和篩選機(jī)制,確保每一條訓(xùn)練數(shù)據(jù)都是高質(zhì)量的。

第二部分是強(qiáng)化學(xué)習(xí)訓(xùn)練數(shù)據(jù),這更像是實(shí)戰(zhàn)演練的題庫(kù)。在數(shù)學(xué)領(lǐng)域,他們從多個(gè)開(kāi)源數(shù)據(jù)集中精選問(wèn)題,包括BigMath、DeepScaleR等知名數(shù)據(jù)集,還從AoPS(Art of Problem Solving)網(wǎng)站爬取了大量數(shù)學(xué)競(jìng)賽題目,并收集了各種學(xué)校考試和數(shù)學(xué)競(jìng)賽的真題。經(jīng)過(guò)嚴(yán)格的篩選和清洗,最終形成了超過(guò)7.3萬(wàn)個(gè)高質(zhì)量數(shù)學(xué)問(wèn)題。

在編程領(lǐng)域,他們從CodeContest、TACO和APPS等編程競(jìng)賽資源中篩選題目,還包括QOJ在線評(píng)判平臺(tái)的問(wèn)題。為了確保數(shù)據(jù)質(zhì)量,他們建立了多階段的過(guò)濾流程。首先移除格式不一致的測(cè)試用例,如錯(cuò)誤的換行符或多余空格,以及被省略號(hào)標(biāo)記的不完整內(nèi)容。然后,所有"通過(guò)"的解決方案都在代碼沙盒環(huán)境中進(jìn)行嚴(yán)格驗(yàn)證,剔除那些有外部依賴問(wèn)題或在擴(kuò)展測(cè)試用例中失敗的提交。最終,他們精選了約1.4萬(wàn)個(gè)編程樣本,每個(gè)都配有經(jīng)過(guò)驗(yàn)證的可執(zhí)行解決方案。

在科學(xué)領(lǐng)域,他們采用了三階段演進(jìn)策略。最初使用Nemotron-CrossThink和SCP-116K等開(kāi)源數(shù)據(jù)集建立基線。隨著模型能力提升,他們使用SHARP合成管道生成更具挑戰(zhàn)性的可驗(yàn)證問(wèn)題。但考慮到合成數(shù)據(jù)的局限性,他們最終采用了第三階段數(shù)據(jù)集:來(lái)自高級(jí)自然科學(xué)領(lǐng)域的高難度人工標(biāo)注科學(xué)問(wèn)題,包括奧林匹克競(jìng)賽和研究生水平考試題目。經(jīng)過(guò)嚴(yán)格篩選,最終得到3833個(gè)高質(zhì)量科學(xué)問(wèn)題。

為了確保訓(xùn)練數(shù)據(jù)的純凈度,研究團(tuán)隊(duì)開(kāi)發(fā)了一套全面的數(shù)據(jù)處理流程。他們首先剔除包含無(wú)效字符、圖像、多子問(wèn)題或缺乏有效答案的問(wèn)題,進(jìn)行嚴(yán)格的字符級(jí)和語(yǔ)義級(jí)去重和去污染處理。他們還移除那些無(wú)法唯一求解或容易猜測(cè)的問(wèn)題,如多選題和是非題。

在答案驗(yàn)證方面,他們采用了多種方法來(lái)確保正確性。使用不同規(guī)模的大語(yǔ)言模型生成多個(gè)解決方案,基于強(qiáng)化學(xué)習(xí)訓(xùn)練中使用的驗(yàn)證器計(jì)算通過(guò)率。同時(shí),他們還邀請(qǐng)人類專家進(jìn)行人工標(biāo)注。那些無(wú)法通過(guò)任何驗(yàn)證方法的問(wèn)題都被排除在數(shù)據(jù)集之外。

四、巧妙的獎(jiǎng)勵(lì)機(jī)制設(shè)計(jì)

在強(qiáng)化學(xué)習(xí)訓(xùn)練中,獎(jiǎng)勵(lì)機(jī)制就像是老師給學(xué)生的評(píng)分標(biāo)準(zhǔn)。Ring團(tuán)隊(duì)為不同類型的任務(wù)設(shè)計(jì)了相應(yīng)的評(píng)價(jià)體系,確保模型能夠準(zhǔn)確理解什么樣的回答是好的。

對(duì)于數(shù)學(xué)和科學(xué)任務(wù),他們采用了基于規(guī)則的可驗(yàn)證獎(jiǎng)勵(lì)系統(tǒng)。具體做法是在每個(gè)輸入問(wèn)題后添加簡(jiǎn)短的指導(dǎo)提示:"請(qǐng)逐步推理,并將最終答案放在\\boxed{}中。" 然后使用外部驗(yàn)證工具M(jìn)ath-Verify來(lái)評(píng)估模型回答的正確性。如果答案正確匹配標(biāo)準(zhǔn)答案,就給予1分的獎(jiǎng)勵(lì);如果錯(cuò)誤,則給予0分。由于Math-Verify提供了強(qiáng)大的解析能力,能夠很好地處理各種數(shù)學(xué)符號(hào)和表達(dá)式,所以他們沒(méi)有在訓(xùn)練框架中包含任何明確的格式相關(guān)獎(jiǎng)勵(lì)。

對(duì)于編程任務(wù),他們構(gòu)建了一個(gè)代碼沙盒來(lái)進(jìn)行獎(jiǎng)勵(lì)驗(yàn)證。這個(gè)沙盒支持多種編程語(yǔ)言的代碼執(zhí)行和在線評(píng)判任務(wù),包括Python、C++、Java等。它提供多種執(zhí)行模式(函數(shù)調(diào)用、在線評(píng)判、單元測(cè)試)和交互方式(用于訓(xùn)練的實(shí)時(shí)SDK/API、用于數(shù)據(jù)清理的離線批處理),實(shí)現(xiàn)了8K/s的吞吐量和亞秒級(jí)延遲。

在代碼任務(wù)的獎(jiǎng)勵(lì)設(shè)計(jì)上,他們采用了稀疏結(jié)果獎(jiǎng)勵(lì),具體定義為:只有當(dāng)代碼成功通過(guò)所有測(cè)試用例時(shí)才給予1分獎(jiǎng)勵(lì),否則給予0分。這種方法與那些為不完整或部分正確的解決方案提供部分分?jǐn)?shù)的增量獎(jiǎng)勵(lì)系統(tǒng)形成鮮明對(duì)比。通過(guò)采用這種策略,他們確保模型被激勵(lì)去全面理解問(wèn)題,而不是專注于表面的測(cè)試用例。這防止了模型簡(jiǎn)單地重復(fù)公開(kāi)測(cè)試用例的答案或過(guò)度擬合瑣碎的邊緣情況,鼓勵(lì)了更穩(wěn)健和全面的問(wèn)題解決方法。

五、完整的訓(xùn)練流水線

Ring-lite的訓(xùn)練過(guò)程就像制作一道復(fù)雜菜肴的完整流程,需要經(jīng)過(guò)四個(gè)精心設(shè)計(jì)的階段。每個(gè)階段都有其特定的目標(biāo)和作用,最終合力打造出這個(gè)高性能的推理模型。

第一個(gè)階段是長(zhǎng)鏈條思維監(jiān)督微調(diào),就像是教學(xué)生基本的解題思路和方法。在這個(gè)階段,他們使用精心構(gòu)建的長(zhǎng)鏈條思維數(shù)據(jù)集對(duì)基礎(chǔ)模型進(jìn)行訓(xùn)練,目標(biāo)是直接將大型教師模型的推理能力傳授給小規(guī)模的基礎(chǔ)模型。研究團(tuán)隊(duì)發(fā)現(xiàn),通過(guò)這種精心策劃的推理數(shù)據(jù)訓(xùn)練,蒸餾模型的推理能力可以得到進(jìn)一步增強(qiáng)。

第二和第三階段是分兩步進(jìn)行的強(qiáng)化學(xué)習(xí)訓(xùn)練。研究團(tuán)隊(duì)發(fā)現(xiàn),直接在混合推理數(shù)據(jù)上應(yīng)用強(qiáng)化學(xué)習(xí)容易出現(xiàn)領(lǐng)域沖突,導(dǎo)致性能下降。因此,他們提出采用兩階段強(qiáng)化學(xué)習(xí)訓(xùn)練流程:首先在數(shù)學(xué)數(shù)據(jù)集上運(yùn)行強(qiáng)化學(xué)習(xí)訓(xùn)練,然后在后續(xù)的強(qiáng)化學(xué)習(xí)訓(xùn)練中加入編程和科學(xué)數(shù)據(jù)集。這種方法在實(shí)驗(yàn)中證明能夠有效保持各個(gè)不同領(lǐng)域的推理能力。

第四個(gè)階段是通用監(jiān)督微調(diào),目的是增強(qiáng)模型在各種通用任務(wù)中的能力,如指令遵循、創(chuàng)意寫(xiě)作、安全性等。由于長(zhǎng)鏈條思維監(jiān)督微調(diào)和兩階段強(qiáng)化學(xué)習(xí)訓(xùn)練都專注于提高推理任務(wù)的性能,因此他們額外包含了通用監(jiān)督微調(diào)階段來(lái)增強(qiáng)模型在各種一般任務(wù)中的能力。

在訓(xùn)練設(shè)置方面,他們采用了AdamW優(yōu)化器,權(quán)重衰減為0.1,學(xué)習(xí)率為3e-4,遵循余弦衰減調(diào)度,包含1%的線性預(yù)熱。訓(xùn)練配置包括256的批大小,進(jìn)行3個(gè)輪次的訓(xùn)練。為了促進(jìn)長(zhǎng)上下文推理,他們將模型的上下文窗口設(shè)置為32,768個(gè)token,并將RoPE基礎(chǔ)調(diào)整為600,000以提高穩(wěn)定性。

在強(qiáng)化學(xué)習(xí)訓(xùn)練中,他們使用C3PO方法,批大小L為512,每個(gè)提示采樣K=16個(gè)響應(yīng),采用學(xué)習(xí)率為3e-6的AdamW優(yōu)化器。token預(yù)算參數(shù)設(shè)置為409600。最大總長(zhǎng)度配置為24576,在編程和科學(xué)訓(xùn)練的第二階段擴(kuò)展到32768。他們?cè)O(shè)置了各種損失系數(shù):熵?fù)p失系數(shù)為5e-4、負(fù)載平衡損失系數(shù)為1e-5、路由器z損失系數(shù)為1e-7、KL損失系數(shù)為1e-3。所有實(shí)驗(yàn)都在256塊NVIDIA H800 GPU上進(jìn)行。

六、令人矚目的實(shí)驗(yàn)成果

Ring-lite在各種推理基準(zhǔn)測(cè)試中的表現(xiàn)令人印象深刻,充分證明了這個(gè)小而精的模型的強(qiáng)大能力。研究團(tuán)隊(duì)選擇了多個(gè)具有挑戰(zhàn)性的評(píng)估維度來(lái)全面測(cè)試模型的能力。

在數(shù)學(xué)推理方面,他們使用了MATH-500、AIME 2024、AIME 2025、CNMO 2024、LiveMathBench和MinervaMath等基準(zhǔn)測(cè)試。這些測(cè)試涵蓋了從基礎(chǔ)數(shù)學(xué)到競(jìng)賽級(jí)別的各種難度層次。在編程能力方面,他們采用了LiveCodeBench和Codeforces等編程競(jìng)賽平臺(tái)的題目進(jìn)行評(píng)估。在科學(xué)推理方面,他們使用了GPQA Diamond和OlympiadBench等高難度科學(xué)問(wèn)題集。

實(shí)驗(yàn)結(jié)果令人振奮。Ring-lite在AIME2024和AIME2025這兩個(gè)極具挑戰(zhàn)性的數(shù)學(xué)競(jìng)賽基準(zhǔn)上分別取得了76.61%和69.11%的優(yōu)異成績(jī)。在編程任務(wù)上,它在LiveCodeBench和Codeforces上分別達(dá)到了60.66%和86.45%的成績(jī)。在科學(xué)推理方面,它在GPQA-diamond這個(gè)研究生級(jí)別的科學(xué)問(wèn)答基準(zhǔn)上取得了61.05%的分?jǐn)?shù)。

更令人驚訝的是,Ring-lite僅使用2.75億個(gè)活躍參數(shù)就達(dá)到了這樣的性能水平,這意味著它能夠匹配或超越那些需要三倍參數(shù)量的可比模型。與最近的競(jìng)爭(zhēng)性推理模型相比,Ring-lite在約10億參數(shù)的模型中建立了新的性能標(biāo)桿,甚至在某些任務(wù)上超越了Qwen3-8B-Thinking這樣的8億參數(shù)強(qiáng)基線模型。

特別值得注意的是,Ring-lite相比于之前發(fā)布的蒸餾MoE模型Ring-lite-distill-preview,在所有基準(zhǔn)測(cè)試上都顯著提高了推理性能,進(jìn)一步證明了他們訓(xùn)練流程的優(yōu)越性。這種性能提升不是通過(guò)簡(jiǎn)單增加模型大小實(shí)現(xiàn)的,而是通過(guò)更智能的訓(xùn)練方法和更好的數(shù)據(jù)利用實(shí)現(xiàn)的。

七、深入的訓(xùn)練過(guò)程洞察

研究團(tuán)隊(duì)通過(guò)大量實(shí)驗(yàn)深入分析了訓(xùn)練過(guò)程中的各種現(xiàn)象,獲得了許多有價(jià)值的洞察。這些發(fā)現(xiàn)不僅對(duì)理解Ring-lite的成功至關(guān)重要,也為未來(lái)的研究提供了重要指導(dǎo)。

關(guān)于訓(xùn)練穩(wěn)定性,他們發(fā)現(xiàn)在蒸餾模型的強(qiáng)化學(xué)習(xí)訓(xùn)練中,獎(jiǎng)勵(lì)軌跡會(huì)在幾個(gè)訓(xùn)練步驟后出現(xiàn)急劇下降,無(wú)法恢復(fù)到基線水平,最終導(dǎo)致完全的訓(xùn)練崩潰。通過(guò)嚴(yán)格的實(shí)驗(yàn)診斷,他們識(shí)別出影響強(qiáng)化學(xué)習(xí)訓(xùn)練穩(wěn)定性的兩個(gè)關(guān)鍵因素:模型熵(量化蒸餾模型中的策略退化)和響應(yīng)長(zhǎng)度波動(dòng)(衡量序列生成不穩(wěn)定性的指標(biāo))。

他們發(fā)現(xiàn),監(jiān)督微調(diào)訓(xùn)練輪次的數(shù)量與強(qiáng)化學(xué)習(xí)訓(xùn)練中的獎(jiǎng)勵(lì)崩潰之間存在系統(tǒng)性依賴關(guān)系:訓(xùn)練輪次更多的模型會(huì)更早經(jīng)歷崩潰。這種趨勢(shì)伴隨著熵?fù)p失的同步降低,揭示了熵?fù)p失幅度與強(qiáng)化學(xué)習(xí)訓(xùn)練穩(wěn)定性之間的強(qiáng)反向相關(guān)性。這些結(jié)果表明,監(jiān)督微調(diào)期間較低的熵?fù)p失對(duì)應(yīng)于后續(xù)強(qiáng)化學(xué)習(xí)階段更高的獎(jiǎng)勵(lì)崩潰傾向,暗示這些變量之間存在統(tǒng)計(jì)學(xué)顯著的反向關(guān)系。

在響應(yīng)長(zhǎng)度波動(dòng)方面,他們觀察到生成長(zhǎng)度在訓(xùn)練步驟中表現(xiàn)出很大的可變性,導(dǎo)致訓(xùn)練token大小的顯著波動(dòng)。這些不穩(wěn)定的token訓(xùn)練大小極大地影響了優(yōu)化穩(wěn)定性,表現(xiàn)為梯度范數(shù)的明顯增加和偶爾的尖峰,最終導(dǎo)致災(zāi)難性的獎(jiǎng)勵(lì)崩潰。

關(guān)于蒸餾與強(qiáng)化學(xué)習(xí)之間的token效率權(quán)衡,他們發(fā)現(xiàn)雖然蒸餾是有效的,但它需要比強(qiáng)化學(xué)習(xí)多得多的訓(xùn)練token才能達(dá)到可比的性能。根據(jù)經(jīng)驗(yàn),在他們的強(qiáng)化學(xué)習(xí)訓(xùn)練設(shè)置中,選擇熵?fù)p失在0.3-0.5范圍內(nèi)的檢查點(diǎn)能夠產(chǎn)生最佳結(jié)果。低于此閾值的熵?fù)p失限制了模型探索,減少了學(xué)習(xí)解決更具挑戰(zhàn)性問(wèn)題的機(jī)會(huì);而過(guò)高的熵?fù)p失則導(dǎo)致收斂較慢和模型性能降低。

在多領(lǐng)域?qū)W習(xí)方面,他們發(fā)現(xiàn)將來(lái)自數(shù)學(xué)和編程領(lǐng)域的推理數(shù)據(jù)集簡(jiǎn)單結(jié)合并不能帶來(lái)跨不同領(lǐng)域的性能提升。相反,混合數(shù)據(jù)集無(wú)法超越專門(mén)在數(shù)學(xué)或編程數(shù)據(jù)集上訓(xùn)練的模型。值得注意的是,僅在數(shù)學(xué)上訓(xùn)練的實(shí)驗(yàn)結(jié)果顯示,無(wú)論模型架構(gòu)配置如何,數(shù)學(xué)專用訓(xùn)練在編程基準(zhǔn)測(cè)試上的表現(xiàn)都優(yōu)于編程專用訓(xùn)練。然而,這一觀察并不適用于DeepSeek衍生模型,表明強(qiáng)化學(xué)習(xí)訓(xùn)練的性能可能受到監(jiān)督微調(diào)期間長(zhǎng)鏈條思維數(shù)據(jù)的強(qiáng)烈影響。

為了解決這些域間沖突,他們開(kāi)發(fā)了兩階段訓(xùn)練策略。首先僅使用數(shù)學(xué)數(shù)據(jù)集進(jìn)行強(qiáng)化學(xué)習(xí)實(shí)驗(yàn),然后應(yīng)用科學(xué)和編程數(shù)據(jù)集的強(qiáng)化學(xué)習(xí)。實(shí)驗(yàn)結(jié)果表明,這種兩階段訓(xùn)練策略顯著提高了AIME25和LiveCodeBench等具有挑戰(zhàn)性推理基準(zhǔn)的下游性能。通過(guò)將編程和科學(xué)訓(xùn)練數(shù)據(jù)量增加一倍,他們?cè)跀?shù)學(xué)和科學(xué)基準(zhǔn)測(cè)試上都實(shí)現(xiàn)了平均1%的性能提升。

總的來(lái)說(shuō),Ring-lite的成功不僅在于其優(yōu)異的性能表現(xiàn),更在于研究團(tuán)隊(duì)對(duì)訓(xùn)練過(guò)程的深入理解和系統(tǒng)性優(yōu)化。他們不僅解決了傳統(tǒng)強(qiáng)化學(xué)習(xí)訓(xùn)練中的穩(wěn)定性問(wèn)題,還找到了在有限計(jì)算資源下實(shí)現(xiàn)最佳性能的方法。這種"小而精"的設(shè)計(jì)理念為未來(lái)的AI模型開(kāi)發(fā)指明了一個(gè)新的方向,證明了通過(guò)智能的設(shè)計(jì)和訓(xùn)練方法,完全可以用更少的資源實(shí)現(xiàn)更好的效果。

Ring-lite的開(kāi)源發(fā)布更是為整個(gè)AI研究社區(qū)帶來(lái)了寶貴的資源。無(wú)論是學(xué)術(shù)研究者還是工業(yè)界的開(kāi)發(fā)者,都可以基于這個(gè)模型和相關(guān)技術(shù)繼續(xù)探索和創(chuàng)新。這種開(kāi)放共享的精神不僅推動(dòng)了技術(shù)進(jìn)步,也體現(xiàn)了AI研究應(yīng)該服務(wù)于更廣泛群體的理念。

說(shuō)到底,Ring-lite的意義遠(yuǎn)不止于一個(gè)性能優(yōu)異的AI模型。它代表了一種新的思路:在追求更強(qiáng)AI能力的路上,我們不一定要走"越大越好"的路線,而是可以通過(guò)更聰明的方法實(shí)現(xiàn)更好的效果。這就像烹飪藝術(shù)一樣,最好的菜肴往往不是用最貴的食材,而是通過(guò)精湛的技藝將普通食材變成美味佳肴。Ring-lite正是這樣一個(gè)例子,它用更少的參數(shù)和更智能的訓(xùn)練方法,為我們展示了AI發(fā)展的另一種可能性。

Q&A

Q1:Ring-lite是什么?它和其他AI模型有什么不同? A:Ring-lite是一個(gè)專門(mén)用于推理任務(wù)的AI模型,采用了"專家混合"架構(gòu)。它的特別之處在于只用2.75億個(gè)活躍參數(shù)就能達(dá)到甚至超越8億參數(shù)模型的性能,就像小烤箱做出大烤箱的效果。而且完全開(kāi)源,任何人都可以免費(fèi)使用。

Q2:C3PO訓(xùn)練方法解決了什么問(wèn)題? A:C3PO主要解決了AI訓(xùn)練中的"情緒波動(dòng)"問(wèn)題。傳統(tǒng)方法訓(xùn)練時(shí)模型表現(xiàn)忽好忽壞,還容易出現(xiàn)"獎(jiǎng)勵(lì)崩潰"。C3PO通過(guò)設(shè)定固定的計(jì)算預(yù)算,就像給烤箱設(shè)定固定烘焙時(shí)間一樣,讓訓(xùn)練過(guò)程變得穩(wěn)定可控,大大提高了訓(xùn)練效率和模型性能。

Q3:普通人能使用Ring-lite嗎?有什么實(shí)際應(yīng)用? A:可以!Ring-lite完全開(kāi)源,代碼和模型都可以在GitHub上免費(fèi)獲取。它特別擅長(zhǎng)數(shù)學(xué)推理、編程和科學(xué)問(wèn)題解答,可以用于教育輔助、代碼生成、科研助手等場(chǎng)景。由于參數(shù)量小,對(duì)硬件要求也相對(duì)較低,更容易部署和使用。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-