av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁 微軟開發(fā)的14B參數(shù)AI:用510步訓(xùn)練就能媲美6710億參數(shù)模型的數(shù)學(xué)推理能力

微軟開發(fā)的14B參數(shù)AI:用510步訓(xùn)練就能媲美6710億參數(shù)模型的數(shù)學(xué)推理能力

2025-09-04 09:59
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-09-04 09:59 ? 科技行者

這項(xiàng)由微軟研究院的Ning Shang、Yifei Liu、Yi Zhu、Li Lyna Zhang等研究人員于2025年8月提交的研究成果,以論文《rStar2-Agent: Agentic Reasoning Technical Report》的形式發(fā)布在arXiv預(yù)印本服務(wù)器上。有興趣深入了解的讀者可以通過論文ID arXiv:2508.20722v1訪問完整論文,代碼和訓(xùn)練配方也已在GitHub的rStar項(xiàng)目中開源。

當(dāng)我們提到人工智能的數(shù)學(xué)推理能力時(shí),大多數(shù)人可能會(huì)想象這需要一個(gè)龐大無比的模型才能實(shí)現(xiàn)。就像建造摩天大樓需要大量鋼筋混凝土一樣,人們普遍認(rèn)為要讓AI解決復(fù)雜數(shù)學(xué)問題,就必須投入海量的計(jì)算資源和參數(shù)。然而,微軟研究院的這項(xiàng)最新成果卻徹底顛覆了這一觀念。

研究團(tuán)隊(duì)開發(fā)的rStar2-Agent模型僅包含140億個(gè)參數(shù),相當(dāng)于一座中型寫字樓的規(guī)模,卻能在數(shù)學(xué)推理能力上與擁有6710億參數(shù)的DeepSeek-R1這樣的"超級(jí)摩天大樓"級(jí)模型相提并論,甚至在某些測(cè)試中表現(xiàn)更優(yōu)。更令人驚嘆的是,這個(gè)"小而美"的模型只用了510個(gè)訓(xùn)練步驟就達(dá)到了這種水平,整個(gè)訓(xùn)練過程在64個(gè)GPU上僅用了一周時(shí)間。

這就好比一個(gè)普通廚師用簡(jiǎn)單的廚具和短短一周的練習(xí),就做出了能與米其林三星大廚媲美的精致料理。rStar2-Agent在AIME24(美國數(shù)學(xué)邀請(qǐng)賽2024)中取得了80.6%的準(zhǔn)確率,在AIME25中達(dá)到69.8%的準(zhǔn)確率,這些成績(jī)不僅超越了OpenAI的o3-mini模型,也勝過了Claude-Opus-4.0等知名AI系統(tǒng)。

這項(xiàng)研究的核心創(chuàng)新在于讓AI學(xué)會(huì)"聰明地思考"而不僅僅是"長時(shí)間思考"。傳統(tǒng)的AI推理就像一個(gè)學(xué)生在考試時(shí)不停地在草稿紙上寫寫畫畫,希望通過更長的思考過程找到答案。而rStar2-Agent則更像一個(gè)聰明的學(xué)生,知道什么時(shí)候該用計(jì)算器,什么時(shí)候該畫圖表,如何從工具的反饋中學(xué)習(xí)并調(diào)整思路。

一、突破性的"智能體強(qiáng)化學(xué)習(xí)":讓AI學(xué)會(huì)使用工具思考

傳統(tǒng)的AI數(shù)學(xué)推理就像讓一個(gè)人在黑暗中摸索解題,只能依靠?jī)?nèi)心的獨(dú)白和推演。當(dāng)遇到復(fù)雜計(jì)算或需要驗(yàn)證中間步驟時(shí),AI往往會(huì)陷入自我懷疑的循環(huán),或者產(chǎn)生看似合理但實(shí)際錯(cuò)誤的推理鏈。這種"純思維鏈"的方法雖然在某些情況下有效,但就像讓一個(gè)數(shù)學(xué)家在沒有任何計(jì)算工具的情況下解決復(fù)雜問題一樣,存在明顯的局限性。

rStar2-Agent的創(chuàng)新之處在于引入了"智能體強(qiáng)化學(xué)習(xí)"的概念。簡(jiǎn)單來說,就是讓AI學(xué)會(huì)像人類數(shù)學(xué)家一樣,知道什么時(shí)候該拿起計(jì)算器、什么時(shí)候該用Python編程驗(yàn)證結(jié)果、什么時(shí)候該畫個(gè)圖表幫助理解。這個(gè)過程類似于教導(dǎo)一個(gè)學(xué)生不僅要會(huì)心算,還要學(xué)會(huì)合理使用各種數(shù)學(xué)工具。

在實(shí)際操作中,rStar2-Agent會(huì)在推理過程中主動(dòng)調(diào)用Python代碼執(zhí)行環(huán)境。當(dāng)它需要進(jìn)行復(fù)雜數(shù)值計(jì)算時(shí),不是在腦海中苦苦推演,而是寫出Python代碼來精確計(jì)算。當(dāng)計(jì)算結(jié)果出來后,它還會(huì)仔細(xì)分析這些結(jié)果是否符合預(yù)期,就像一個(gè)謹(jǐn)慎的研究員會(huì)反復(fù)驗(yàn)證實(shí)驗(yàn)數(shù)據(jù)一樣。

這種方法的優(yōu)勢(shì)體現(xiàn)在多個(gè)方面。首先,Python編程工具大大擴(kuò)展了AI的"行動(dòng)空間"。原本只能進(jìn)行抽象推理的AI現(xiàn)在可以進(jìn)行精確的數(shù)值計(jì)算、符號(hào)運(yùn)算,甚至可以生成可視化圖表來輔助理解。其次,工具的反饋為AI提供了外部驗(yàn)證機(jī)制。當(dāng)AI寫出的代碼產(chǎn)生錯(cuò)誤時(shí),Python解釋器會(huì)返回具體的錯(cuò)誤信息,AI可以據(jù)此調(diào)整思路,這比單純的內(nèi)省反思要可靠得多。

然而,讓AI學(xué)會(huì)使用編程工具并非易事。就像教會(huì)一個(gè)人開車不僅要學(xué)會(huì)操作方向盤,還要學(xué)會(huì)觀察路況、處理突發(fā)情況一樣,AI需要學(xué)會(huì)的不僅是如何寫代碼,還包括如何解讀代碼執(zhí)行結(jié)果,如何從錯(cuò)誤中學(xué)習(xí),如何在代碼出錯(cuò)時(shí)進(jìn)行調(diào)試。

研究團(tuán)隊(duì)發(fā)現(xiàn),當(dāng)AI剛開始學(xué)習(xí)使用編程工具時(shí),經(jīng)常會(huì)寫出語法錯(cuò)誤的代碼,或者邏輯錯(cuò)誤的程序。更具挑戰(zhàn)性的是,即使代碼能夠運(yùn)行,AI也可能誤解計(jì)算結(jié)果的含義。這就像一個(gè)初學(xué)者雖然學(xué)會(huì)了使用計(jì)算器,但可能會(huì)輸入錯(cuò)誤的算式或者誤讀顯示結(jié)果。

為了解決這些問題,研究團(tuán)隊(duì)開發(fā)了一套完整的多輪對(duì)話機(jī)制。AI的推理過程不再是一次性的長篇獨(dú)白,而是變成了與編程環(huán)境的多輪互動(dòng)。在每一輪中,AI會(huì)生成一段推理過程,可能包含代碼調(diào)用,然后接收環(huán)境的反饋,再基于這些反饋進(jìn)行下一輪思考。

這種多輪互動(dòng)的好處是顯而易見的。AI可以逐步驗(yàn)證自己的推理過程,及時(shí)發(fā)現(xiàn)和糾正錯(cuò)誤,而不是等到最后才發(fā)現(xiàn)整個(gè)推理鏈存在問題。更重要的是,這種方式讓AI學(xué)會(huì)了從外部反饋中學(xué)習(xí),培養(yǎng)了類似人類的"反思能力"。

二、創(chuàng)新算法GRPO-RoC:在噪聲環(huán)境中學(xué)會(huì)精確推理

當(dāng)AI開始使用編程工具進(jìn)行推理時(shí),一個(gè)新的挑戰(zhàn)隨之出現(xiàn):環(huán)境噪聲問題。這就好比一個(gè)學(xué)生在學(xué)習(xí)過程中不僅要掌握正確的解題方法,還要學(xué)會(huì)識(shí)別和避免各種干擾因素。在編程環(huán)境中,AI經(jīng)常會(huì)遇到語法錯(cuò)誤、邏輯錯(cuò)誤、超時(shí)等各種問題,這些"噪聲"可能會(huì)誤導(dǎo)學(xué)習(xí)過程。

傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法在這種情況下表現(xiàn)不佳。它們通常只關(guān)注最終結(jié)果是否正確,而忽略了達(dá)到正確結(jié)果的過程質(zhì)量。這就像只看考試成績(jī)而不關(guān)心學(xué)生的解題過程一樣,可能會(huì)強(qiáng)化一些運(yùn)氣成分較大的"歪門邪道"。

研究團(tuán)隊(duì)觀察到一個(gè)有趣現(xiàn)象:在使用傳統(tǒng)方法訓(xùn)練時(shí),即使AI最終得出了正確答案,其推理過程中往往充滿了工具調(diào)用錯(cuò)誤。AI似乎學(xué)會(huì)了"帶病工作"——即使代碼經(jīng)常出錯(cuò),只要最終答案碰巧正確,它就認(rèn)為這種方法是可行的。這種學(xué)習(xí)方式不僅效率低下,而且會(huì)導(dǎo)致AI產(chǎn)生冗長而低質(zhì)量的推理過程。

為了解決這個(gè)問題,研究團(tuán)隊(duì)開發(fā)了GRPO-RoC算法(Group Relative Policy Optimization with Resampling on Correct,基于正確重采樣的組相對(duì)策略優(yōu)化)。這個(gè)算法的核心思想可以用一個(gè)生動(dòng)的比喻來解釋:就像一個(gè)嚴(yán)格的教練在選拔運(yùn)動(dòng)員時(shí),不僅要看誰跑得最快,還要看誰的跑姿最標(biāo)準(zhǔn)。

GRPO-RoC的工作流程是這樣的:對(duì)于每個(gè)數(shù)學(xué)問題,AI會(huì)生成多個(gè)不同的解答過程,其中一些能得出正確答案,一些則不能。傳統(tǒng)方法會(huì)簡(jiǎn)單地獎(jiǎng)勵(lì)所有正確答案,懲罰所有錯(cuò)誤答案。而GRPO-RoC則更加細(xì)致,它會(huì)在正確答案中進(jìn)一步篩選出那些過程最優(yōu)雅、工具使用最恰當(dāng)?shù)慕獯稹?/p>

具體來說,算法會(huì)對(duì)每個(gè)正確的解答過程進(jìn)行質(zhì)量評(píng)估。評(píng)估標(biāo)準(zhǔn)包括工具調(diào)用的成功率、代碼的簡(jiǎn)潔程度、推理過程的邏輯性等。那些雖然得出正確答案但過程中充滿錯(cuò)誤的解答會(huì)被降低權(quán)重,而那些過程優(yōu)雅、邏輯清晰的解答則會(huì)獲得更高的學(xué)習(xí)優(yōu)先級(jí)。

這種方法的效果非常顯著。在訓(xùn)練過程中,AI不僅學(xué)會(huì)了得出正確答案,更重要的是學(xué)會(huì)了如何優(yōu)雅地達(dá)到這些答案。工具調(diào)用錯(cuò)誤率大幅下降,推理過程變得更加簡(jiǎn)潔有效。這就像一個(gè)學(xué)生不僅提高了考試成績(jī),而且掌握了更好的學(xué)習(xí)方法。

GRPO-RoC算法還有一個(gè)巧妙的設(shè)計(jì):非對(duì)稱采樣策略。對(duì)于錯(cuò)誤的解答,算法會(huì)保持多樣性,讓AI能從各種不同類型的錯(cuò)誤中學(xué)習(xí)。而對(duì)于正確的解答,則會(huì)優(yōu)先選擇質(zhì)量最高的那些作為學(xué)習(xí)樣本。這種策略確保了AI既能學(xué)會(huì)避免錯(cuò)誤,又能學(xué)會(huì)追求卓越。

研究團(tuán)隊(duì)通過大量實(shí)驗(yàn)驗(yàn)證了這種方法的有效性。使用GRPO-RoC算法訓(xùn)練的AI不僅在準(zhǔn)確率上有所提升,在推理效率上也有顯著改善。原本需要數(shù)千個(gè)詞匯才能表達(dá)的推理過程,現(xiàn)在只需要幾百個(gè)詞匯就能完成,而且邏輯更加清晰。

三、高效基礎(chǔ)設(shè)施:支撐大規(guī)模智能體訓(xùn)練的技術(shù)架構(gòu)

訓(xùn)練一個(gè)能夠熟練使用編程工具的AI系統(tǒng),在技術(shù)實(shí)現(xiàn)上面臨著前所未有的挑戰(zhàn)。這就像同時(shí)管理成千上萬個(gè)學(xué)生在線考試,每個(gè)學(xué)生都可能隨時(shí)需要使用計(jì)算器、查閱資料或進(jìn)行實(shí)驗(yàn),而系統(tǒng)必須確保所有操作都能快速響應(yīng)且不互相干擾。

傳統(tǒng)的AI訓(xùn)練通常只涉及文本生成,就像讓學(xué)生在紙上寫作文一樣相對(duì)簡(jiǎn)單。但rStar2-Agent的訓(xùn)練過程中,每個(gè)訓(xùn)練樣本都可能觸發(fā)多次代碼執(zhí)行請(qǐng)求。一個(gè)訓(xùn)練批次可能包含數(shù)萬個(gè)這樣的請(qǐng)求,每個(gè)請(qǐng)求都需要在獨(dú)立的Python環(huán)境中執(zhí)行,并且要在合理的時(shí)間內(nèi)返回結(jié)果。

更復(fù)雜的是,AI生成的代碼是不可預(yù)測(cè)的。就像讓一群初學(xué)者隨意編寫程序一樣,這些代碼可能包含各種錯(cuò)誤:語法錯(cuò)誤、邏輯錯(cuò)誤、無限循環(huán),甚至可能調(diào)用危險(xiǎn)的系統(tǒng)功能。如果在主訓(xùn)練進(jìn)程中直接執(zhí)行這些代碼,很容易導(dǎo)致系統(tǒng)崩潰或安全問題。

為了解決這些挑戰(zhàn),研究團(tuán)隊(duì)構(gòu)建了一套專門的分布式代碼執(zhí)行環(huán)境。這個(gè)系統(tǒng)的設(shè)計(jì)理念類似于一個(gè)大型考試中心:有專門的考場(chǎng)(執(zhí)行環(huán)境)、監(jiān)考員(安全監(jiān)控)、快遞員(任務(wù)分發(fā))和閱卷老師(結(jié)果處理)。

系統(tǒng)的核心是一個(gè)高度并發(fā)的代碼執(zhí)行服務(wù),能夠同時(shí)處理多達(dá)45000個(gè)代碼執(zhí)行請(qǐng)求。每個(gè)代碼執(zhí)行都在完全隔離的環(huán)境中進(jìn)行,就像每個(gè)學(xué)生都有自己獨(dú)立的考試房間一樣。即使某個(gè)代碼出現(xiàn)問題導(dǎo)致執(zhí)行環(huán)境崩潰,也不會(huì)影響其他代碼的執(zhí)行或主訓(xùn)練程序的運(yùn)行。

為了提高效率,系統(tǒng)采用了智能的任務(wù)調(diào)度策略。任務(wù)分發(fā)器會(huì)根據(jù)各個(gè)執(zhí)行節(jié)點(diǎn)的當(dāng)前負(fù)載情況,動(dòng)態(tài)地分配代碼執(zhí)行任務(wù)。繁忙的節(jié)點(diǎn)會(huì)收到較少的新任務(wù),而空閑的節(jié)點(diǎn)則會(huì)承擔(dān)更多工作。這種負(fù)載均衡確保了整個(gè)系統(tǒng)的處理能力得到充分利用。

在安全性方面,每個(gè)執(zhí)行環(huán)境都有嚴(yán)格的資源限制和時(shí)間限制。代碼執(zhí)行時(shí)間超過預(yù)設(shè)閾值(通常是幾秒鐘)會(huì)被強(qiáng)制終止,防止無限循環(huán)或過度計(jì)算消耗系統(tǒng)資源。同時(shí),執(zhí)行環(huán)境被限制只能進(jìn)行數(shù)學(xué)計(jì)算相關(guān)的操作,無法訪問網(wǎng)絡(luò)或系統(tǒng)文件,確保安全性。

另一個(gè)技術(shù)創(chuàng)新是動(dòng)態(tài)負(fù)載均衡的rollout調(diào)度器。在傳統(tǒng)的AI訓(xùn)練中,訓(xùn)練樣本通常被平均分配到各個(gè)GPU上。但在智能體訓(xùn)練中,不同樣本的計(jì)算復(fù)雜度差異巨大。有些推理過程可能只需要幾輪簡(jiǎn)單計(jì)算,而有些則可能需要十幾輪復(fù)雜的代碼執(zhí)行。

如果仍然使用靜態(tài)分配策略,就會(huì)出現(xiàn)"木桶效應(yīng)":處理復(fù)雜樣本的GPU需要更長時(shí)間,而處理簡(jiǎn)單樣本的GPU會(huì)提前完成并進(jìn)入等待狀態(tài)。這種不均衡會(huì)顯著降低整體訓(xùn)練效率。

研究團(tuán)隊(duì)開發(fā)的動(dòng)態(tài)調(diào)度器會(huì)實(shí)時(shí)監(jiān)控各個(gè)GPU的KV緩存使用情況(這是衡量GPU當(dāng)前工作負(fù)載的重要指標(biāo)),然后根據(jù)可用容量動(dòng)態(tài)分配新的訓(xùn)練樣本。忙碌的GPU會(huì)收到較少的新任務(wù),而空閑的GPU則會(huì)承擔(dān)更多工作。這種策略確保了所有GPU都能保持高效工作狀態(tài)。

整個(gè)基礎(chǔ)設(shè)施的另一個(gè)亮點(diǎn)是異步處理機(jī)制。代碼執(zhí)行請(qǐng)求被發(fā)送后,訓(xùn)練程序不會(huì)傻傻地等待結(jié)果返回,而是繼續(xù)處理其他任務(wù)。當(dāng)代碼執(zhí)行完成后,結(jié)果會(huì)通過消息隊(duì)列異步返回給對(duì)應(yīng)的訓(xùn)練進(jìn)程。這種設(shè)計(jì)大大提高了系統(tǒng)的整體吞吐量。

四、精心設(shè)計(jì)的訓(xùn)練策略:從零開始培養(yǎng)AI的推理能力

訓(xùn)練rStar2-Agent的過程就像培養(yǎng)一個(gè)從零開始的學(xué)生成為數(shù)學(xué)高手,整個(gè)過程需要精心規(guī)劃的課程安排和循序漸進(jìn)的能力培養(yǎng)。與許多現(xiàn)有AI系統(tǒng)不同,rStar2-Agent的訓(xùn)練并沒有依賴大量預(yù)先準(zhǔn)備好的推理數(shù)據(jù),而是從最基礎(chǔ)的工具使用開始,逐步建立起復(fù)雜的數(shù)學(xué)推理能力。

訓(xùn)練的第一階段被研究團(tuán)隊(duì)稱為"非推理冷啟動(dòng)",這個(gè)階段的目標(biāo)并不是教會(huì)AI如何解決數(shù)學(xué)問題,而是讓它學(xué)會(huì)基本的"生活技能":如何理解人類的指令、如何使用工具、如何按照規(guī)定的格式輸出結(jié)果。這就像教一個(gè)孩子在學(xué)數(shù)學(xué)之前先要學(xué)會(huì)拿筆、認(rèn)字和聽懂老師的話一樣。

在這個(gè)階段,AI學(xué)習(xí)的內(nèi)容包括函數(shù)調(diào)用、JSON格式處理、基礎(chǔ)編程語法等。研究團(tuán)隊(duì)特意避免在這個(gè)階段加入任何復(fù)雜的數(shù)學(xué)推理內(nèi)容,因?yàn)樗麄儼l(fā)現(xiàn)過早引入推理訓(xùn)練可能會(huì)導(dǎo)致AI產(chǎn)生固化的思維模式,反而不利于后續(xù)的靈活學(xué)習(xí)。

第二階段是數(shù)據(jù)精心篩選和清理。訓(xùn)練一個(gè)AI系統(tǒng)就像培養(yǎng)一個(gè)學(xué)生,喂給它什么樣的題目,它就會(huì)形成什么樣的解題習(xí)慣。研究團(tuán)隊(duì)對(duì)這一點(diǎn)極其重視,他們制定了嚴(yán)格的數(shù)據(jù)篩選標(biāo)準(zhǔn)。

最重要的原則是:所有訓(xùn)練題目的答案必須是整數(shù)。這個(gè)看似簡(jiǎn)單的要求背后有著深刻的考慮。在數(shù)學(xué)中,很多問題的答案可能是復(fù)雜的代數(shù)表達(dá)式,比如"√2 + π/3"和"1.414 + 1.047"雖然在數(shù)學(xué)上等價(jià),但對(duì)于計(jì)算機(jī)程序來說很難準(zhǔn)確判斷它們是否相同。如果訓(xùn)練數(shù)據(jù)中包含這類歧義答案,AI可能會(huì)因?yàn)榇鸢父袷降募?xì)微差別而收到錯(cuò)誤的反饋,從而學(xué)到錯(cuò)誤的推理模式。

通過限制答案為整數(shù),研究團(tuán)隊(duì)確保了訓(xùn)練過程中獎(jiǎng)勵(lì)信號(hào)的可靠性。這就像在教學(xué)生解題時(shí),先從答案明確的問題開始,避免因?yàn)榇鸢副磉_(dá)方式的不同而造成混亂。

經(jīng)過嚴(yán)格篩選,研究團(tuán)隊(duì)從超過10萬道候選題目中篩選出4.2萬道高質(zhì)量的數(shù)學(xué)問題。這些題目來源廣泛,包括數(shù)學(xué)競(jìng)賽題、在線數(shù)學(xué)社區(qū)的討論題,以及需要編程技能的Project Euler問題。每一道題目都經(jīng)過了多輪驗(yàn)證,確保答案的準(zhǔn)確性和問題描述的清晰性。

第三階段是多階段強(qiáng)化學(xué)習(xí)訓(xùn)練,這是整個(gè)訓(xùn)練過程的核心。研究團(tuán)隊(duì)采用了一種漸進(jìn)式的訓(xùn)練策略,就像體育訓(xùn)練中的"循序漸進(jìn)"原則一樣。

訓(xùn)練分為三個(gè)子階段,每個(gè)階段都有不同的重點(diǎn)和挑戰(zhàn)。第一個(gè)子階段限制AI的回答長度在8000個(gè)詞匯以內(nèi),這迫使AI學(xué)會(huì)簡(jiǎn)潔地表達(dá)推理過程。許多AI系統(tǒng)在學(xué)習(xí)初期會(huì)產(chǎn)生冗長而重復(fù)的輸出,就像一個(gè)學(xué)生為了湊字?jǐn)?shù)而寫出大量廢話一樣。通過嚴(yán)格的長度限制,AI被迫學(xué)會(huì)更高效的推理方式。

有趣的是,在這個(gè)階段初期,AI經(jīng)常會(huì)因?yàn)槌鲩L度限制而被截?cái)嗷卮?。研究團(tuán)隊(duì)原本擔(dān)心這會(huì)影響訓(xùn)練效果,但實(shí)驗(yàn)結(jié)果顯示,AI很快學(xué)會(huì)了自我調(diào)整。它開始減少不必要的重復(fù),更加精準(zhǔn)地使用編程工具,推理過程變得越來越簡(jiǎn)潔。

第二個(gè)子階段將長度限制放寬到12000個(gè)詞匯,給予AI更多的表達(dá)空間來處理復(fù)雜問題。在這個(gè)階段,AI的數(shù)學(xué)推理能力有了顯著提升,能夠處理需要多步推理和復(fù)雜計(jì)算的問題。

第三個(gè)子階段采用了一個(gè)巧妙的策略:難題集中訓(xùn)練。當(dāng)AI在前兩個(gè)階段的訓(xùn)練中表現(xiàn)越來越好時(shí),原來的訓(xùn)練題目對(duì)它來說變得過于簡(jiǎn)單。就像一個(gè)學(xué)生掌握了基礎(chǔ)知識(shí)后需要挑戰(zhàn)更難的題目一樣,研究團(tuán)隊(duì)篩選出那些AI仍然難以解決的問題,專門針對(duì)這些難題進(jìn)行強(qiáng)化訓(xùn)練。

這種方法的效果非常顯著。通過集中攻克難點(diǎn),AI在最后125個(gè)訓(xùn)練步驟中實(shí)現(xiàn)了從優(yōu)秀到卓越的跨越,最終達(dá)到了與頂級(jí)AI系統(tǒng)相媲美的數(shù)學(xué)推理能力。

整個(gè)訓(xùn)練過程只用了510個(gè)步驟,相比其他需要數(shù)千甚至數(shù)萬步訓(xùn)練的AI系統(tǒng),rStar2-Agent的訓(xùn)練效率可謂驚人。研究團(tuán)隊(duì)將這種高效歸因于精心設(shè)計(jì)的訓(xùn)練策略和GRPO-RoC算法的優(yōu)越性能。

五、卓越的性能表現(xiàn):小模型的大能力

rStar2-Agent的測(cè)試結(jié)果讓整個(gè)AI研究社區(qū)為之驚嘆。這個(gè)僅有140億參數(shù)的模型在各項(xiàng)數(shù)學(xué)推理測(cè)試中的表現(xiàn),徹底顛覆了人們對(duì)模型規(guī)模與能力關(guān)系的傳統(tǒng)認(rèn)知。

在AIME24(2024年美國數(shù)學(xué)邀請(qǐng)賽)測(cè)試中,rStar2-Agent取得了80.6%的正確率,這個(gè)成績(jī)超越了OpenAI的o3-mini模型(79.6%),也勝過了DeepSeek-R1這個(gè)擁有6710億參數(shù)的巨型模型(79.8%)。更令人印象深刻的是,它還超越了Claude-Opus-4.0的思考模式(76.0%)。

在AIME25測(cè)試中,rStar2-Agent達(dá)到了69.8%的準(zhǔn)確率,同樣超越了多個(gè)知名AI系統(tǒng)。在HMMT25(哈佛-麻省理工數(shù)學(xué)競(jìng)賽)中,它獲得了52.7%的成績(jī),顯示了在不同類型數(shù)學(xué)問題上的穩(wěn)定表現(xiàn)。

這些成績(jī)的意義遠(yuǎn)遠(yuǎn)超出了數(shù)字本身。AIME和HMMT都是面向高中數(shù)學(xué)天才的頂級(jí)競(jìng)賽,參賽者通常都是各地的數(shù)學(xué)精英。能夠在這些競(jìng)賽中取得如此高的正確率,意味著rStar2-Agent已經(jīng)具備了接近人類數(shù)學(xué)專家的推理能力。

更令人驚喜的是rStar2-Agent在推理效率方面的表現(xiàn)。傳統(tǒng)的大型AI系統(tǒng)在解決數(shù)學(xué)問題時(shí)往往會(huì)產(chǎn)生極其冗長的推理過程,動(dòng)輒數(shù)萬字的回答讓人望而卻步。而rStar2-Agent的平均回答長度只有9000-11000個(gè)詞匯,不到其他系統(tǒng)的一半,卻能達(dá)到更高的準(zhǔn)確率。

這種效率優(yōu)勢(shì)不僅體現(xiàn)在用戶體驗(yàn)上,也有重要的實(shí)用價(jià)值。更短的回答意味著更低的計(jì)算成本、更快的響應(yīng)速度,以及更好的可讀性。就像一個(gè)優(yōu)秀的數(shù)學(xué)老師能夠用簡(jiǎn)潔明了的語言解釋復(fù)雜概念一樣,rStar2-Agent學(xué)會(huì)了用最經(jīng)濟(jì)的方式表達(dá)數(shù)學(xué)推理過程。

研究團(tuán)隊(duì)還測(cè)試了rStar2-Agent在數(shù)學(xué)以外領(lǐng)域的表現(xiàn),結(jié)果同樣令人驚喜。盡管它只使用數(shù)學(xué)問題進(jìn)行訓(xùn)練,但在科學(xué)推理、工具使用和一般對(duì)話等任務(wù)中都表現(xiàn)出了良好的泛化能力。

在GPQA-Diamond科學(xué)推理測(cè)試中,rStar2-Agent達(dá)到了60.9%的準(zhǔn)確率,超越了DeepSeek-V3的59.1%。這說明通過數(shù)學(xué)推理訓(xùn)練獲得的能力能夠很好地遷移到其他科學(xué)領(lǐng)域。

在BFCL v3工具使用測(cè)試中,rStar2-Agent獲得了60.8%的成績(jī),顯示了它在工具調(diào)用方面的熟練程度。在IFEval指令遵循和Arena-Hard通用對(duì)話測(cè)試中,它也保持了與訓(xùn)練前相當(dāng)?shù)乃?,說明專門的數(shù)學(xué)訓(xùn)練并沒有損害它在其他任務(wù)上的表現(xiàn)。

六、深入剖析:AI如何學(xué)會(huì)"智慧推理"

為了理解rStar2-Agent為什么能夠達(dá)到如此出色的性能,研究團(tuán)隊(duì)進(jìn)行了詳細(xì)的行為分析。他們發(fā)現(xiàn),經(jīng)過智能體強(qiáng)化學(xué)習(xí)訓(xùn)練的AI展現(xiàn)出了一些非常有趣的認(rèn)知行為模式,這些模式與人類專家的推理方式有著驚人的相似性。

通過分析AI在推理過程中的token熵值分布,研究團(tuán)隊(duì)發(fā)現(xiàn)了兩種特別有價(jià)值的高熵(高不確定性)token模式。第一種是"分叉token",這些詞匯通常出現(xiàn)在AI需要做出關(guān)鍵決策的時(shí)刻。比如當(dāng)AI說出"但是"、"等等"、"讓我重新檢查"這類詞語時(shí),往往預(yù)示著它即將改變推理方向或者發(fā)現(xiàn)潛在問題。

這種行為類似于人類數(shù)學(xué)家在解題過程中的自我質(zhì)疑和反思。一個(gè)經(jīng)驗(yàn)豐富的數(shù)學(xué)家在推理過程中會(huì)時(shí)常停下來問自己:"這個(gè)步驟對(duì)嗎?""有沒有更簡(jiǎn)單的方法?""我是不是遺漏了什么?"rStar2-Agent學(xué)會(huì)了類似的自我監(jiān)控能力。

第二種是"反思token",這些詞匯出現(xiàn)在AI接收到編程工具反饋之后。當(dāng)Python代碼執(zhí)行返回結(jié)果或錯(cuò)誤信息時(shí),AI會(huì)產(chǎn)生大量高熵token來分析這些反饋。比如看到錯(cuò)誤信息后,AI可能會(huì)說"這個(gè)錯(cuò)誤提示說明了..."、"看起來問題出在..."、"讓我換個(gè)思路..."等等。

這種對(duì)工具反饋的深度分析體現(xiàn)了rStar2-Agent的一個(gè)重要能力:環(huán)境適應(yīng)性學(xué)習(xí)。它不僅能夠使用編程工具,更重要的是能夠從工具的反饋中學(xué)習(xí)和調(diào)整策略。這就像一個(gè)實(shí)驗(yàn)科學(xué)家不僅會(huì)做實(shí)驗(yàn),還會(huì)仔細(xì)分析實(shí)驗(yàn)結(jié)果,從中獲得新的洞察。

研究團(tuán)隊(duì)還發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:編程相關(guān)的token通常具有較低的熵值,這意味著AI在寫代碼時(shí)表現(xiàn)得相當(dāng)自信和確定。這可能是因?yàn)榛A(chǔ)模型在預(yù)訓(xùn)練階段就接觸了大量Python代碼,已經(jīng)形成了穩(wěn)定的編程模式。但在解讀代碼執(zhí)行結(jié)果時(shí),AI的不確定性會(huì)增加,促使它進(jìn)行更深入的思考。

通過對(duì)比分析,研究團(tuán)隊(duì)發(fā)現(xiàn)GRPO-RoC算法確實(shí)有效地減少了低質(zhì)量推理行為。使用傳統(tǒng)訓(xùn)練方法的AI經(jīng)常會(huì)產(chǎn)生冗長而重復(fù)的輸出,工具調(diào)用錯(cuò)誤率居高不下。而使用GRPO-RoC訓(xùn)練的AI不僅準(zhǔn)確率更高,推理過程也更加簡(jiǎn)潔優(yōu)雅。

一個(gè)具體的例子很好地說明了這種改進(jìn)。在解決一個(gè)關(guān)于數(shù)論的復(fù)雜問題時(shí),傳統(tǒng)方法訓(xùn)練的AI可能會(huì)寫出多個(gè)功能重復(fù)的代碼塊,每次都因?yàn)樾″e(cuò)誤而失敗,然后不斷嘗試修正。整個(gè)過程冗長混亂,雖然最終可能找到正確答案,但過程效率極低。

而rStar2-Agent會(huì)更加謹(jǐn)慎地規(guī)劃代碼結(jié)構(gòu),通常第一次就能寫出基本正確的代碼。即使出現(xiàn)錯(cuò)誤,它也能快速定位問題所在并進(jìn)行精準(zhǔn)修正。整個(gè)推理過程體現(xiàn)出了一種"工程師思維":先思考,再行動(dòng),出錯(cuò)后快速調(diào)試。

七、技術(shù)創(chuàng)新的深層價(jià)值:重新定義AI訓(xùn)練效率

rStar2-Agent的成功不僅在于其出色的性能表現(xiàn),更在于它所代表的技術(shù)理念轉(zhuǎn)變。在AI發(fā)展的歷史上,人們長期遵循著"規(guī)模至上"的邏輯:更大的模型、更多的數(shù)據(jù)、更強(qiáng)的計(jì)算力。然而,rStar2-Agent用實(shí)際行動(dòng)證明了"巧干勝過蠻干"的道理。

這種技術(shù)理念的轉(zhuǎn)變具有深遠(yuǎn)的意義。首先,它大大降低了AI研究和應(yīng)用的門檻。訓(xùn)練rStar2-Agent只需要64個(gè)GPU和一周時(shí)間,這樣的資源需求對(duì)于許多研究機(jī)構(gòu)和公司來說都是可以承受的。相比之下,訓(xùn)練一個(gè)6710億參數(shù)的模型需要數(shù)千個(gè)GPU和數(shù)月時(shí)間,成本高達(dá)數(shù)百萬美元。

這種效率優(yōu)勢(shì)使得更多的研究團(tuán)隊(duì)能夠參與AI前沿研究,有助于加速整個(gè)領(lǐng)域的創(chuàng)新進(jìn)程。就像個(gè)人計(jì)算機(jī)的普及促進(jìn)了軟件產(chǎn)業(yè)的蓬勃發(fā)展一樣,高效的AI訓(xùn)練方法可能會(huì)帶來更多創(chuàng)新應(yīng)用的涌現(xiàn)。

其次,rStar2-Agent展示了"能力與規(guī)模解耦"的可能性。傳統(tǒng)觀念認(rèn)為,要實(shí)現(xiàn)強(qiáng)大的AI能力就必須構(gòu)建龐大的模型。但rStar2-Agent證明,通過精心設(shè)計(jì)的訓(xùn)練策略和算法創(chuàng)新,小模型也能達(dá)到大模型的性能水平。

這種解耦不僅有技術(shù)價(jià)值,也有重要的社會(huì)意義。更小的模型意味著更低的運(yùn)行成本、更快的響應(yīng)速度、更好的隱私保護(hù)(可以在本地部署),以及更廣泛的應(yīng)用可能性。這可能會(huì)推動(dòng)AI技術(shù)從"少數(shù)精英的玩具"向"普惠大眾的工具"轉(zhuǎn)變。

GRPO-RoC算法的創(chuàng)新也為強(qiáng)化學(xué)習(xí)領(lǐng)域貢獻(xiàn)了新的思路。傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法往往只關(guān)注最終結(jié)果,而忽略過程質(zhì)量。這在某些場(chǎng)景下可能導(dǎo)致AI學(xué)會(huì)一些"投機(jī)取巧"的策略,雖然能達(dá)到目標(biāo)但過程不夠優(yōu)雅。

GRPO-RoC引入的過程質(zhì)量評(píng)估機(jī)制,讓AI不僅學(xué)會(huì)做正確的事情,還學(xué)會(huì)正確地做事情。這種理念可能對(duì)其他需要過程可靠性的AI應(yīng)用場(chǎng)景有重要啟發(fā),比如自動(dòng)駕駛、醫(yī)療診斷、金融決策等。

研究團(tuán)隊(duì)構(gòu)建的分布式訓(xùn)練基礎(chǔ)設(shè)施也為AI社區(qū)提供了寶貴的工程經(jīng)驗(yàn)。如何高效地處理大規(guī)模并發(fā)任務(wù)、如何確保系統(tǒng)的可靠性和安全性、如何實(shí)現(xiàn)智能的負(fù)載均衡,這些工程挑戰(zhàn)在AI系統(tǒng)越來越復(fù)雜的今天變得格外重要。

八、未來展望:智能體AI的廣闊前景

rStar2-Agent的成功開啟了AI發(fā)展的一個(gè)新方向:從單純的"思維模擬"向"工具增強(qiáng)智能"轉(zhuǎn)變。這種轉(zhuǎn)變可能會(huì)帶來AI應(yīng)用方式的根本性改變。

在教育領(lǐng)域,未來的AI助教可能不僅能夠解釋數(shù)學(xué)概念,還能實(shí)時(shí)演示計(jì)算過程、生成可視化圖表、甚至指導(dǎo)學(xué)生進(jìn)行編程練習(xí)。學(xué)生們將擁有一個(gè)既博學(xué)又耐心的個(gè)人導(dǎo)師,能夠根據(jù)每個(gè)學(xué)生的學(xué)習(xí)節(jié)奏和理解能力調(diào)整教學(xué)方式。

在科學(xué)研究領(lǐng)域,AI科學(xué)家可能會(huì)成為人類研究者的得力助手。它們能夠快速驗(yàn)證假設(shè)、進(jìn)行大規(guī)模數(shù)值模擬、分析復(fù)雜的實(shí)驗(yàn)數(shù)據(jù),甚至提出新的研究思路??茖W(xué)發(fā)現(xiàn)的速度可能會(huì)大大加快。

在工程設(shè)計(jì)領(lǐng)域,AI工程師可能會(huì)協(xié)助人類完成復(fù)雜的設(shè)計(jì)任務(wù)。從建筑設(shè)計(jì)到芯片設(shè)計(jì),從藥物研發(fā)到材料科學(xué),AI都可能發(fā)揮重要作用。它們不僅能夠進(jìn)行理論計(jì)算,還能夠調(diào)用各種專業(yè)軟件進(jìn)行仿真和驗(yàn)證。

當(dāng)然,這種發(fā)展也帶來了新的挑戰(zhàn)。如何確保AI正確地使用工具?如何防止AI產(chǎn)生有害或危險(xiǎn)的代碼?如何在給予AI更大自主性的同時(shí)保持人類的控制?這些問題都需要深入研究和謹(jǐn)慎處理。

rStar2-Agent的研究團(tuán)隊(duì)已經(jīng)意識(shí)到了這些挑戰(zhàn),并在系統(tǒng)設(shè)計(jì)中采取了多種安全措施。但隨著AI系統(tǒng)變得越來越強(qiáng)大和自主,安全性考慮將變得越來越重要。

從更長遠(yuǎn)的角度來看,rStar2-Agent所代表的技術(shù)路線可能會(huì)推動(dòng)AI向更接近人類認(rèn)知方式的方向發(fā)展。人類的智能很大程度上體現(xiàn)在使用工具、從環(huán)境中學(xué)習(xí)、與外界互動(dòng)的能力上。如果AI系統(tǒng)也能掌握這些能力,那么人工智能與人類智能的邊界可能會(huì)變得更加模糊。

這并不意味著AI會(huì)取代人類,而可能意味著一種全新的人機(jī)協(xié)作模式的出現(xiàn)。人類擅長創(chuàng)造性思考、價(jià)值判斷、情感理解,而AI擅長快速計(jì)算、大量信息處理、精確執(zhí)行。兩者的結(jié)合可能會(huì)產(chǎn)生比單獨(dú)的人類或AI更強(qiáng)大的智能系統(tǒng)。

說到底,rStar2-Agent的意義不僅在于它解決了多少數(shù)學(xué)問題,更在于它展示了AI發(fā)展的一種全新可能性。它告訴我們,AI不必局限于模仿人類的思維過程,而可以發(fā)展出獨(dú)特的、與工具深度融合的智能形式。這種智能可能比傳統(tǒng)的AI更實(shí)用、更可靠,也更容易與人類協(xié)作。

當(dāng)我們回顧AI發(fā)展的歷程時(shí),可能會(huì)發(fā)現(xiàn)rStar2-Agent標(biāo)志著一個(gè)重要的轉(zhuǎn)折點(diǎn):從追求更大的模型規(guī)模,轉(zhuǎn)向追求更智能的學(xué)習(xí)方式;從模仿人類思維,轉(zhuǎn)向創(chuàng)造增強(qiáng)型智能;從封閉的推理系統(tǒng),轉(zhuǎn)向開放的工具生態(tài)。這些轉(zhuǎn)變可能會(huì)深刻地影響AI技術(shù)的未來發(fā)展方向,也會(huì)改變?nèi)祟惻cAI系統(tǒng)的互動(dòng)方式。

Q&A

Q1:rStar2-Agent相比傳統(tǒng)大模型有什么優(yōu)勢(shì)?

A:rStar2-Agent雖然只有140億參數(shù),但通過智能體強(qiáng)化學(xué)習(xí)和工具使用能力,在數(shù)學(xué)推理上達(dá)到了6710億參數(shù)DeepSeek-R1的水平。它的優(yōu)勢(shì)包括:訓(xùn)練成本低(只需64個(gè)GPU訓(xùn)練一周)、推理效率高(回答長度只有傳統(tǒng)模型一半)、準(zhǔn)確率更高(AIME24達(dá)到80.6%),同時(shí)具有很好的泛化能力。

Q2:GRPO-RoC算法解決了什么關(guān)鍵問題?

A:GRPO-RoC算法主要解決了AI在使用編程工具時(shí)的"環(huán)境噪聲"問題。傳統(tǒng)方法只看最終答案對(duì)錯(cuò),導(dǎo)致AI學(xué)會(huì)了"帶病工作"——即使推理過程中工具調(diào)用錯(cuò)誤頻繁,只要最終答案正確就認(rèn)為可行。GRPO-RoC不僅要求答案正確,還優(yōu)先學(xué)習(xí)那些推理過程優(yōu)雅、工具使用恰當(dāng)?shù)慕獯穑孉I學(xué)會(huì)了更高質(zhì)量的推理方式。

Q3:rStar2-Agent的工具使用能力是如何實(shí)現(xiàn)的?

A:rStar2-Agent通過多輪對(duì)話機(jī)制與Python編程環(huán)境進(jìn)行交互。它會(huì)在推理過程中主動(dòng)調(diào)用代碼來進(jìn)行復(fù)雜計(jì)算,接收?qǐng)?zhí)行結(jié)果后進(jìn)行分析反思,必要時(shí)調(diào)試修正。整個(gè)過程類似人類數(shù)學(xué)家使用計(jì)算工具的方式。系統(tǒng)還構(gòu)建了專門的分布式代碼執(zhí)行環(huán)境,能同時(shí)處理45000個(gè)并發(fā)代碼請(qǐng)求,確保訓(xùn)練的高效性和安全性。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-