av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<pre id="lfg5w"><dfn id="lfg5w"></dfn></pre>

首頁
對(duì)話創(chuàng)新
對(duì)話科技行者
機(jī)器人新紀(jì)元
AI論文解讀
聯(lián)系我們

微信掃一掃，關(guān)注公眾號(hào)

科技行者
算力行者

見證連接與計(jì)算的「力量」

微軟開發(fā)的14B參數(shù)AI：用510步訓(xùn)練就能媲美6710億參數(shù)模型的數(shù)學(xué)推理能力

人工智能強(qiáng)化學(xué)習(xí)數(shù)學(xué)推理

微軟開發(fā)的14B參數(shù)AI：用510步訓(xùn)練就能媲美6710億參數(shù)模型的數(shù)學(xué)推理能力

作者：科技行者

2025-09-04 09:59

分享至：

微軟研究院開發(fā)的rStar2-Agent是一個(gè)僅140億參數(shù)的AI數(shù)學(xué)推理模型，通過創(chuàng)新的智能體強(qiáng)化學(xué)習(xí)方法，在AIME24數(shù)學(xué)競(jìng)賽中達(dá)到80.6%準(zhǔn)確率，超越了6710億參數(shù)的DeepSeek-R1等大型模型。該模型的核心創(chuàng)新包括GRPO-RoC算法、分布式代碼執(zhí)行環(huán)境和漸進(jìn)式訓(xùn)練策略，僅用510個(gè)訓(xùn)練步驟和一周時(shí)間就達(dá)到頂級(jí)性能，展示了"小模型大能力"的技術(shù)路徑，為AI發(fā)展提供了高效替代方案。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-09-04 09:59 ? 科技行者

這項(xiàng)由微軟研究院的Ning Shang、Yifei Liu、Yi Zhu、Li Lyna Zhang等研究人員于2025年8月提交的研究成果，以論文《rStar2-Agent: Agentic Reasoning Technical Report》的形式發(fā)布在arXiv預(yù)印本服務(wù)器上。有興趣深入了解的讀者可以通過論文ID arXiv:2508.20722v1訪問完整論文，代碼和訓(xùn)練配方也已在GitHub的rStar項(xiàng)目中開源。

當(dāng)我們提到人工智能的數(shù)學(xué)推理能力時(shí)，大多數(shù)人可能會(huì)想象這需要一個(gè)龐大無比的模型才能實(shí)現(xiàn)。就像建造摩天大樓需要大量鋼筋混凝土一樣，人們普遍認(rèn)為要讓AI解決復(fù)雜數(shù)學(xué)問題，就必須投入海量的計(jì)算資源和參數(shù)。然而，微軟研究院的這項(xiàng)最新成果卻徹底顛覆了這一觀念。

研究團(tuán)隊(duì)開發(fā)的rStar2-Agent模型僅包含140億個(gè)參數(shù)，相當(dāng)于一座中型寫字樓的規(guī)模，卻能在數(shù)學(xué)推理能力上與擁有6710億參數(shù)的DeepSeek-R1這樣的"超級(jí)摩天大樓"級(jí)模型相提并論，甚至在某些測(cè)試中表現(xiàn)更優(yōu)。更令人驚嘆的是，這個(gè)"小而美"的模型只用了510個(gè)訓(xùn)練步驟就達(dá)到了這種水平，整個(gè)訓(xùn)練過程在64個(gè)GPU上僅用了一周時(shí)間。

這就好比一個(gè)普通廚師用簡(jiǎn)單的廚具和短短一周的練習(xí)，就做出了能與米其林三星大廚媲美的精致料理。rStar2-Agent在AIME24（美國數(shù)學(xué)邀請(qǐng)賽2024）中取得了80.6%的準(zhǔn)確率，在AIME25中達(dá)到69.8%的準(zhǔn)確率，這些成績(jī)不僅超越了OpenAI的o3-mini模型，也勝過了Claude-Opus-4.0等知名AI系統(tǒng)。

這項(xiàng)研究的核心創(chuàng)新在于讓AI學(xué)會(huì)"聰明地思考"而不僅僅是"長時(shí)間思考"。傳統(tǒng)的AI推理就像一個(gè)學(xué)生在考試時(shí)不停地在草稿紙上寫寫畫畫，希望通過更長的思考過程找到答案。而rStar2-Agent則更像一個(gè)聰明的學(xué)生，知道什么時(shí)候該用計(jì)算器，什么時(shí)候該畫圖表，如何從工具的反饋中學(xué)習(xí)并調(diào)整思路。

一、突破性的"智能體強(qiáng)化學(xué)習(xí)"：讓AI學(xué)會(huì)使用工具思考

傳統(tǒng)的AI數(shù)學(xué)推理就像讓一個(gè)人在黑暗中摸索解題，只能依靠?jī)?nèi)心的獨(dú)白和推演。當(dāng)遇到復(fù)雜計(jì)算或需要驗(yàn)證中間步驟時(shí)，AI往往會(huì)陷入自我懷疑的循環(huán)，或者產(chǎn)生看似合理但實(shí)際錯(cuò)誤的推理鏈。這種"純思維鏈"的方法雖然在某些情況下有效，但就像讓一個(gè)數(shù)學(xué)家在沒有任何計(jì)算工具的情況下解決復(fù)雜問題一樣，存在明顯的局限性。

rStar2-Agent的創(chuàng)新之處在于引入了"智能體強(qiáng)化學(xué)習(xí)"的概念。簡(jiǎn)單來說，就是讓AI學(xué)會(huì)像人類數(shù)學(xué)家一樣，知道什么時(shí)候該拿起計(jì)算器、什么時(shí)候該用Python編程驗(yàn)證結(jié)果、什么時(shí)候該畫個(gè)圖表幫助理解。這個(gè)過程類似于教導(dǎo)一個(gè)學(xué)生不僅要會(huì)心算，還要學(xué)會(huì)合理使用各種數(shù)學(xué)工具。

在實(shí)際操作中，rStar2-Agent會(huì)在推理過程中主動(dòng)調(diào)用Python代碼執(zhí)行環(huán)境。當(dāng)它需要進(jìn)行復(fù)雜數(shù)值計(jì)算時(shí)，不是在腦海中苦苦推演，而是寫出Python代碼來精確計(jì)算。當(dāng)計(jì)算結(jié)果出來后，它還會(huì)仔細(xì)分析這些結(jié)果是否符合預(yù)期，就像一個(gè)謹(jǐn)慎的研究員會(huì)反復(fù)驗(yàn)證實(shí)驗(yàn)數(shù)據(jù)一樣。

這種方法的優(yōu)勢(shì)體現(xiàn)在多個(gè)方面。首先，Python編程工具大大擴(kuò)展了AI的"行動(dòng)空間"。原本只能進(jìn)行抽象推理的AI現(xiàn)在可以進(jìn)行精確的數(shù)值計(jì)算、符號(hào)運(yùn)算，甚至可以生成可視化圖表來輔助理解。其次，工具的反饋為AI提供了外部驗(yàn)證機(jī)制。當(dāng)AI寫出的代碼產(chǎn)生錯(cuò)誤時(shí)，Python解釋器會(huì)返回具體的錯(cuò)誤信息，AI可以據(jù)此調(diào)整思路，這比單純的內(nèi)省反思要可靠得多。

然而，讓AI學(xué)會(huì)使用編程工具并非易事。就像教會(huì)一個(gè)人開車不僅要學(xué)會(huì)操作方向盤，還要學(xué)會(huì)觀察路況、處理突發(fā)情況一樣，AI需要學(xué)會(huì)的不僅是如何寫代碼，還包括如何解讀代碼執(zhí)行結(jié)果，如何從錯(cuò)誤中學(xué)習(xí)，如何在代碼出錯(cuò)時(shí)進(jìn)行調(diào)試。

研究團(tuán)隊(duì)發(fā)現(xiàn)，當(dāng)AI剛開始學(xué)習(xí)使用編程工具時(shí)，經(jīng)常會(huì)寫出語法錯(cuò)誤的代碼，或者邏輯錯(cuò)誤的程序。更具挑戰(zhàn)性的是，即使代碼能夠運(yùn)行，AI也可能誤解計(jì)算結(jié)果的含義。這就像一個(gè)初學(xué)者雖然學(xué)會(huì)了使用計(jì)算器，但可能會(huì)輸入錯(cuò)誤的算式或者誤讀顯示結(jié)果。

為了解決這些問題，研究團(tuán)隊(duì)開發(fā)了一套完整的多輪對(duì)話機(jī)制。AI的推理過程不再是一次性的長篇獨(dú)白，而是變成了與編程環(huán)境的多輪互動(dòng)。在每一輪中，AI會(huì)生成一段推理過程，可能包含代碼調(diào)用，然后接收環(huán)境的反饋，再基于這些反饋進(jìn)行下一輪思考。

這種多輪互動(dòng)的好處是顯而易見的。AI可以逐步驗(yàn)證自己的推理過程，及時(shí)發(fā)現(xiàn)和糾正錯(cuò)誤，而不是等到最后才發(fā)現(xiàn)整個(gè)推理鏈存在問題。更重要的是，這種方式讓AI學(xué)會(huì)了從外部反饋中學(xué)習(xí)，培養(yǎng)了類似人類的"反思能力"。

二、創(chuàng)新算法GRPO-RoC：在噪聲環(huán)境中學(xué)會(huì)精確推理

當(dāng)AI開始使用編程工具進(jìn)行推理時(shí)，一個(gè)新的挑戰(zhàn)隨之出現(xiàn)：環(huán)境噪聲問題。這就好比一個(gè)學(xué)生在學(xué)習(xí)過程中不僅要掌握正確的解題方法，還要學(xué)會(huì)識(shí)別和避免各種干擾因素。在編程環(huán)境中，AI經(jīng)常會(huì)遇到語法錯(cuò)誤、邏輯錯(cuò)誤、超時(shí)等各種問題，這些"噪聲"可能會(huì)誤導(dǎo)學(xué)習(xí)過程。

傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法在這種情況下表現(xiàn)不佳。它們通常只關(guān)注最終結(jié)果是否正確，而忽略了達(dá)到正確結(jié)果的過程質(zhì)量。這就像只看考試成績(jī)而不關(guān)心學(xué)生的解題過程一樣，可能會(huì)強(qiáng)化一些運(yùn)氣成分較大的"歪門邪道"。

研究團(tuán)隊(duì)觀察到一個(gè)有趣現(xiàn)象：在使用傳統(tǒng)方法訓(xùn)練時(shí)，即使AI最終得出了正確答案，其推理過程中往往充滿了工具調(diào)用錯(cuò)誤。AI似乎學(xué)會(huì)了"帶病工作"——即使代碼經(jīng)常出錯(cuò)，只要最終答案碰巧正確，它就認(rèn)為這種方法是可行的。這種學(xué)習(xí)方式不僅效率低下，而且會(huì)導(dǎo)致AI產(chǎn)生冗長而低質(zhì)量的推理過程。

為了解決這個(gè)問題，研究團(tuán)隊(duì)開發(fā)了GRPO-RoC算法（Group Relative Policy Optimization with Resampling on Correct，基于正確重采樣的組相對(duì)策略優(yōu)化）。這個(gè)算法的核心思想可以用一個(gè)生動(dòng)的比喻來解釋：就像一個(gè)嚴(yán)格的教練在選拔運(yùn)動(dòng)員時(shí)，不僅要看誰跑得最快，還要看誰的跑姿最標(biāo)準(zhǔn)。

GRPO-RoC的工作流程是這樣的：對(duì)于每個(gè)數(shù)學(xué)問題，AI會(huì)生成多個(gè)不同的解答過程，其中一些能得出正確答案，一些則不能。傳統(tǒng)方法會(huì)簡(jiǎn)單地獎(jiǎng)勵(lì)所有正確答案，懲罰所有錯(cuò)誤答案。而GRPO-RoC則更加細(xì)致，它會(huì)在正確答案中進(jìn)一步篩選出那些過程最優(yōu)雅、工具使用最恰當(dāng)?shù)慕獯稹?/p>

具體來說，算法會(huì)對(duì)每個(gè)正確的解答過程進(jìn)行質(zhì)量評(píng)估。評(píng)估標(biāo)準(zhǔn)包括工具調(diào)用的成功率、代碼的簡(jiǎn)潔程度、推理過程的邏輯性等。那些雖然得出正確答案但過程中充滿錯(cuò)誤的解答會(huì)被降低權(quán)重，而那些過程優(yōu)雅、邏輯清晰的解答則會(huì)獲得更高的學(xué)習(xí)優(yōu)先級(jí)。

這種方法的效果非常顯著。在訓(xùn)練過程中，AI不僅學(xué)會(huì)了得出正確答案，更重要的是學(xué)會(huì)了如何優(yōu)雅地達(dá)到這些答案。工具調(diào)用錯(cuò)誤率大幅下降，推理過程變得更加簡(jiǎn)潔有效。這就像一個(gè)學(xué)生不僅提高了考試成績(jī)，而且掌握了更好的學(xué)習(xí)方法。

GRPO-RoC算法還有一個(gè)巧妙的設(shè)計(jì)：非對(duì)稱采樣策略。對(duì)于錯(cuò)誤的解答，算法會(huì)保持多樣性，讓AI能從各種不同類型的錯(cuò)誤中學(xué)習(xí)。而對(duì)于正確的解答，則會(huì)優(yōu)先選擇質(zhì)量最高的那些作為學(xué)習(xí)樣本。這種策略確保了AI既能學(xué)會(huì)避免錯(cuò)誤，又能學(xué)會(huì)追求卓越。

研究團(tuán)隊(duì)通過大量實(shí)驗(yàn)驗(yàn)證了這種方法的有效性。使用GRPO-RoC算法訓(xùn)練的AI不僅在準(zhǔn)確率上有所提升，在推理效率上也有顯著改善。原本需要數(shù)千個(gè)詞匯才能表達(dá)的推理過程，現(xiàn)在只需要幾百個(gè)詞匯就能完成，而且邏輯更加清晰。

三、高效基礎(chǔ)設(shè)施：支撐大規(guī)模智能體訓(xùn)練的技術(shù)架構(gòu)

訓(xùn)練一個(gè)能夠熟練使用編程工具的AI系統(tǒng)，在技術(shù)實(shí)現(xiàn)上面臨著前所未有的挑戰(zhàn)。這就像同時(shí)管理成千上萬個(gè)學(xué)生在線考試，每個(gè)學(xué)生都可能隨時(shí)需要使用計(jì)算器、查閱資料或進(jìn)行實(shí)驗(yàn)，而系統(tǒng)必須確保所有操作都能快速響應(yīng)且不互相干擾。

傳統(tǒng)的AI訓(xùn)練通常只涉及文本生成，就像讓學(xué)生在紙上寫作文一樣相對(duì)簡(jiǎn)單。但rStar2-Agent的訓(xùn)練過程中，每個(gè)訓(xùn)練樣本都可能觸發(fā)多次代碼執(zhí)行請(qǐng)求。一個(gè)訓(xùn)練批次可能包含數(shù)萬個(gè)這樣的請(qǐng)求，每個(gè)請(qǐng)求都需要在獨(dú)立的Python環(huán)境中執(zhí)行，并且要在合理的時(shí)間內(nèi)返回結(jié)果。

更復(fù)雜的是，AI生成的代碼是不可預(yù)測(cè)的。就像讓一群初學(xué)者隨意編寫程序一樣，這些代碼可能包含各種錯(cuò)誤：語法錯(cuò)誤、邏輯錯(cuò)誤、無限循環(huán)，甚至可能調(diào)用危險(xiǎn)的系統(tǒng)功能。如果在主訓(xùn)練進(jìn)程中直接執(zhí)行這些代碼，很容易導(dǎo)致系統(tǒng)崩潰或安全問題。

為了解決這些挑戰(zhàn)，研究團(tuán)隊(duì)構(gòu)建了一套專門的分布式代碼執(zhí)行環(huán)境。這個(gè)系統(tǒng)的設(shè)計(jì)理念類似于一個(gè)大型考試中心：有專門的考場(chǎng)（執(zhí)行環(huán)境）、監(jiān)考員（安全監(jiān)控）、快遞員（任務(wù)分發(fā)）和閱卷老師（結(jié)果處理）。

系統(tǒng)的核心是一個(gè)高度并發(fā)的代碼執(zhí)行服務(wù)，能夠同時(shí)處理多達(dá)45000個(gè)代碼執(zhí)行請(qǐng)求。每個(gè)代碼執(zhí)行都在完全隔離的環(huán)境中進(jìn)行，就像每個(gè)學(xué)生都有自己獨(dú)立的考試房間一樣。即使某個(gè)代碼出現(xiàn)問題導(dǎo)致執(zhí)行環(huán)境崩潰，也不會(huì)影響其他代碼的執(zhí)行或主訓(xùn)練程序的運(yùn)行。

為了提高效率，系統(tǒng)采用了智能的任務(wù)調(diào)度策略。任務(wù)分發(fā)器會(huì)根據(jù)各個(gè)執(zhí)行節(jié)點(diǎn)的當(dāng)前負(fù)載情況，動(dòng)態(tài)地分配代碼執(zhí)行任務(wù)。繁忙的節(jié)點(diǎn)會(huì)收到較少的新任務(wù)，而空閑的節(jié)點(diǎn)則會(huì)承擔(dān)更多工作。這種負(fù)載均衡確保了整個(gè)系統(tǒng)的處理能力得到充分利用。

在安全性方面，每個(gè)執(zhí)行環(huán)境都有嚴(yán)格的資源限制和時(shí)間限制。代碼執(zhí)行時(shí)間超過預(yù)設(shè)閾值（通常是幾秒鐘）會(huì)被強(qiáng)制終止，防止無限循環(huán)或過度計(jì)算消耗系統(tǒng)資源。同時(shí)，執(zhí)行環(huán)境被限制只能進(jìn)行數(shù)學(xué)計(jì)算相關(guān)的操作，無法訪問網(wǎng)絡(luò)或系統(tǒng)文件，確保安全性。

另一個(gè)技術(shù)創(chuàng)新是動(dòng)態(tài)負(fù)載均衡的rollout調(diào)度器。在傳統(tǒng)的AI訓(xùn)練中，訓(xùn)練樣本通常被平均分配到各個(gè)GPU上。但在智能體訓(xùn)練中，不同樣本的計(jì)算復(fù)雜度差異巨大。有些推理過程可能只需要幾輪簡(jiǎn)單計(jì)算，而有些則可能需要十幾輪復(fù)雜的代碼執(zhí)行。

如果仍然使用靜態(tài)分配策略，就會(huì)出現(xiàn)"木桶效應(yīng)"：處理復(fù)雜樣本的GPU需要更長時(shí)間，而處理簡(jiǎn)單樣本的GPU會(huì)提前完成并進(jìn)入等待狀態(tài)。這種不均衡會(huì)顯著降低整體訓(xùn)練效率。

研究團(tuán)隊(duì)開發(fā)的動(dòng)態(tài)調(diào)度器會(huì)實(shí)時(shí)監(jiān)控各個(gè)GPU的KV緩存使用情況（這是衡量GPU當(dāng)前工作負(fù)載的重要指標(biāo)），然后根據(jù)可用容量動(dòng)態(tài)分配新的訓(xùn)練樣本。忙碌的GPU會(huì)收到較少的新任務(wù)，而空閑的GPU則會(huì)承擔(dān)更多工作。這種策略確保了所有GPU都能保持高效工作狀態(tài)。

整個(gè)基礎(chǔ)設(shè)施的另一個(gè)亮點(diǎn)是異步處理機(jī)制。代碼執(zhí)行請(qǐng)求被發(fā)送后，訓(xùn)練程序不會(huì)傻傻地等待結(jié)果返回，而是繼續(xù)處理其他任務(wù)。當(dāng)代碼執(zhí)行完成后，結(jié)果會(huì)通過消息隊(duì)列異步返回給對(duì)應(yīng)的訓(xùn)練進(jìn)程。這種設(shè)計(jì)大大提高了系統(tǒng)的整體吞吐量。

四、精心設(shè)計(jì)的訓(xùn)練策略：從零開始培養(yǎng)AI的推理能力

訓(xùn)練rStar2-Agent的過程就像培養(yǎng)一個(gè)從零開始的學(xué)生成為數(shù)學(xué)高手，整個(gè)過程需要精心規(guī)劃的課程安排和循序漸進(jìn)的能力培養(yǎng)。與許多現(xiàn)有AI系統(tǒng)不同，rStar2-Agent的訓(xùn)練并沒有依賴大量預(yù)先準(zhǔn)備好的推理數(shù)據(jù)，而是從最基礎(chǔ)的工具使用開始，逐步建立起復(fù)雜的數(shù)學(xué)推理能力。

訓(xùn)練的第一階段被研究團(tuán)隊(duì)稱為"非推理冷啟動(dòng)"，這個(gè)階段的目標(biāo)并不是教會(huì)AI如何解決數(shù)學(xué)問題，而是讓它學(xué)會(huì)基本的"生活技能"：如何理解人類的指令、如何使用工具、如何按照規(guī)定的格式輸出結(jié)果。這就像教一個(gè)孩子在學(xué)數(shù)學(xué)之前先要學(xué)會(huì)拿筆、認(rèn)字和聽懂老師的話一樣。

在這個(gè)階段，AI學(xué)習(xí)的內(nèi)容包括函數(shù)調(diào)用、JSON格式處理、基礎(chǔ)編程語法等。研究團(tuán)隊(duì)特意避免在這個(gè)階段加入任何復(fù)雜的數(shù)學(xué)推理內(nèi)容，因?yàn)樗麄儼l(fā)現(xiàn)過早引入推理訓(xùn)練可能會(huì)導(dǎo)致AI產(chǎn)生固化的思維模式，反而不利于后續(xù)的靈活學(xué)習(xí)。

第二階段是數(shù)據(jù)精心篩選和清理。訓(xùn)練一個(gè)AI系統(tǒng)就像培養(yǎng)一個(gè)學(xué)生，喂給它什么樣的題目，它就會(huì)形成什么樣的解題習(xí)慣。研究團(tuán)隊(duì)對(duì)這一點(diǎn)極其重視，他們制定了嚴(yán)格的數(shù)據(jù)篩選標(biāo)準(zhǔn)。

最重要的原則是：所有訓(xùn)練題目的答案必須是整數(shù)。這個(gè)看似簡(jiǎn)單的要求背后有著深刻的考慮。在數(shù)學(xué)中，很多問題的答案可能是復(fù)雜的代數(shù)表達(dá)式，比如"√2 + π/3"和"1.414 + 1.047"雖然在數(shù)學(xué)上等價(jià)，但對(duì)于計(jì)算機(jī)程序來說很難準(zhǔn)確判斷它們是否相同。如果訓(xùn)練數(shù)據(jù)中包含這類歧義答案，AI可能會(huì)因?yàn)榇鸢父袷降募?xì)微差別而收到錯(cuò)誤的反饋，從而學(xué)到錯(cuò)誤的推理模式。

通過限制答案為整數(shù)，研究團(tuán)隊(duì)確保了訓(xùn)練過程中獎(jiǎng)勵(lì)信號(hào)的可靠性。這就像在教學(xué)生解題時(shí)，先從答案明確的問題開始，避免因?yàn)榇鸢副磉_(dá)方式的不同而造成混亂。

經(jīng)過嚴(yán)格篩選，研究團(tuán)隊(duì)從超過10萬道候選題目中篩選出4.2萬道高質(zhì)量的數(shù)學(xué)問題。這些題目來源廣泛，包括數(shù)學(xué)競(jìng)賽題、在線數(shù)學(xué)社區(qū)的討論題，以及需要編程技能的Project Euler問題。每一道題目都經(jīng)過了多輪驗(yàn)證，確保答案的準(zhǔn)確性和問題描述的清晰性。

第三階段是多階段強(qiáng)化學(xué)習(xí)訓(xùn)練，這是整個(gè)訓(xùn)練過程的核心。研究團(tuán)隊(duì)采用了一種漸進(jìn)式的訓(xùn)練策略，就像體育訓(xùn)練中的"循序漸進(jìn)"原則一樣。

訓(xùn)練分為三個(gè)子階段，每個(gè)階段都有不同的重點(diǎn)和挑戰(zhàn)。第一個(gè)子階段限制AI的回答長度在8000個(gè)詞匯以內(nèi)，這迫使AI學(xué)會(huì)簡(jiǎn)潔地表達(dá)推理過程。許多AI系統(tǒng)在學(xué)習(xí)初期會(huì)產(chǎn)生冗長而重復(fù)的輸出，就像一個(gè)學(xué)生為了湊字?jǐn)?shù)而寫出大量廢話一樣。通過嚴(yán)格的長度限制，AI被迫學(xué)會(huì)更高效的推理方式。

有趣的是，在這個(gè)階段初期，AI經(jīng)常會(huì)因?yàn)槌鲩L度限制而被截?cái)嗷卮?。研究團(tuán)隊(duì)原本擔(dān)心這會(huì)影響訓(xùn)練效果，但實(shí)驗(yàn)結(jié)果顯示，AI很快學(xué)會(huì)了自我調(diào)整。它開始減少不必要的重復(fù)，更加精準(zhǔn)地使用編程工具，推理過程變得越來越簡(jiǎn)潔。

第二個(gè)子階段將長度限制放寬到12000個(gè)詞匯，給予AI更多的表達(dá)空間來處理復(fù)雜問題。在這個(gè)階段，AI的數(shù)學(xué)推理能力有了顯著提升，能夠處理需要多步推理和復(fù)雜計(jì)算的問題。

第三個(gè)子階段采用了一個(gè)巧妙的策略：難題集中訓(xùn)練。當(dāng)AI在前兩個(gè)階段的訓(xùn)練中表現(xiàn)越來越好時(shí)，原來的訓(xùn)練題目對(duì)它來說變得過于簡(jiǎn)單。就像一個(gè)學(xué)生掌握了基礎(chǔ)知識(shí)后需要挑戰(zhàn)更難的題目一樣，研究團(tuán)隊(duì)篩選出那些AI仍然難以解決的問題，專門針對(duì)這些難題進(jìn)行強(qiáng)化訓(xùn)練。

這種方法的效果非常顯著。通過集中攻克難點(diǎn)，AI在最后125個(gè)訓(xùn)練步驟中實(shí)現(xiàn)了從優(yōu)秀到卓越的跨越，最終達(dá)到了與頂級(jí)AI系統(tǒng)相媲美的數(shù)學(xué)推理能力。

整個(gè)訓(xùn)練過程只用了510個(gè)步驟，相比其他需要數(shù)千甚至數(shù)萬步訓(xùn)練的AI系統(tǒng)，rStar2-Agent的訓(xùn)練效率可謂驚人。研究團(tuán)隊(duì)將這種高效歸因于精心設(shè)計(jì)的訓(xùn)練策略和GRPO-RoC算法的優(yōu)越性能。

五、卓越的性能表現(xiàn)：小模型的大能力

rStar2-Agent的測(cè)試結(jié)果讓整個(gè)AI研究社區(qū)為之驚嘆。這個(gè)僅有140億參數(shù)的模型在各項(xiàng)數(shù)學(xué)推理測(cè)試中的表現(xiàn)，徹底顛覆了人們對(duì)模型規(guī)模與能力關(guān)系的傳統(tǒng)認(rèn)知。

在AIME24（2024年美國數(shù)學(xué)邀請(qǐng)賽）測(cè)試中，rStar2-Agent取得了80.6%的正確率，這個(gè)成績(jī)超越了OpenAI的o3-mini模型（79.6%），也勝過了DeepSeek-R1這個(gè)擁有6710億參數(shù)的巨型模型（79.8%）。更令人印象深刻的是，它還超越了Claude-Opus-4.0的思考模式（76.0%）。

在AIME25測(cè)試中，rStar2-Agent達(dá)到了69.8%的準(zhǔn)確率，同樣超越了多個(gè)知名AI系統(tǒng)。在HMMT25（哈佛-麻省理工數(shù)學(xué)競(jìng)賽）中，它獲得了52.7%的成績(jī)，顯示了在不同類型數(shù)學(xué)問題上的穩(wěn)定表現(xiàn)。

這些成績(jī)的意義遠(yuǎn)遠(yuǎn)超出了數(shù)字本身。AIME和HMMT都是面向高中數(shù)學(xué)天才的頂級(jí)競(jìng)賽，參賽者通常都是各地的數(shù)學(xué)精英。能夠在這些競(jìng)賽中取得如此高的正確率，意味著rStar2-Agent已經(jīng)具備了接近人類數(shù)學(xué)專家的推理能力。

更令人驚喜的是rStar2-Agent在推理效率方面的表現(xiàn)。傳統(tǒng)的大型AI系統(tǒng)在解決數(shù)學(xué)問題時(shí)往往會(huì)產(chǎn)生極其冗長的推理過程，動(dòng)輒數(shù)萬字的回答讓人望而卻步。而rStar2-Agent的平均回答長度只有9000-11000個(gè)詞匯，不到其他系統(tǒng)的一半，卻能達(dá)到更高的準(zhǔn)確率。

這種效率優(yōu)勢(shì)不僅體現(xiàn)在用戶體驗(yàn)上，也有重要的實(shí)用價(jià)值。更短的回答意味著更低的計(jì)算成本、更快的響應(yīng)速度，以及更好的可讀性。就像一個(gè)優(yōu)秀的數(shù)學(xué)老師能夠用簡(jiǎn)潔明了的語言解釋復(fù)雜概念一樣，rStar2-Agent學(xué)會(huì)了用最經(jīng)濟(jì)的方式表達(dá)數(shù)學(xué)推理過程。

研究團(tuán)隊(duì)還測(cè)試了rStar2-Agent在數(shù)學(xué)以外領(lǐng)域的表現(xiàn)，結(jié)果同樣令人驚喜。盡管它只使用數(shù)學(xué)問題進(jìn)行訓(xùn)練，但在科學(xué)推理、工具使用和一般對(duì)話等任務(wù)中都表現(xiàn)出了良好的泛化能力。

在GPQA-Diamond科學(xué)推理測(cè)試中，rStar2-Agent達(dá)到了60.9%的準(zhǔn)確率，超越了DeepSeek-V3的59.1%。這說明通過數(shù)學(xué)推理訓(xùn)練獲得的能力能夠很好地遷移到其他科學(xué)領(lǐng)域。

在BFCL v3工具使用測(cè)試中，rStar2-Agent獲得了60.8%的成績(jī)，顯示了它在工具調(diào)用方面的熟練程度。在IFEval指令遵循和Arena-Hard通用對(duì)話測(cè)試中，它也保持了與訓(xùn)練前相當(dāng)?shù)乃?，說明專門的數(shù)學(xué)訓(xùn)練并沒有損害它在其他任務(wù)上的表現(xiàn)。

六、深入剖析：AI如何學(xué)會(huì)"智慧推理"

為了理解rStar2-Agent為什么能夠達(dá)到如此出色的性能，研究團(tuán)隊(duì)進(jìn)行了詳細(xì)的行為分析。他們發(fā)現(xiàn)，經(jīng)過智能體強(qiáng)化學(xué)習(xí)訓(xùn)練的AI展現(xiàn)出了一些非常有趣的認(rèn)知行為模式，這些模式與人類專家的推理方式有著驚人的相似性。

通過分析AI在推理過程中的token熵值分布，研究團(tuán)隊(duì)發(fā)現(xiàn)了兩種特別有價(jià)值的高熵（高不確定性）token模式。第一種是"分叉token"，這些詞匯通常出現(xiàn)在AI需要做出關(guān)鍵決策的時(shí)刻。比如當(dāng)AI說出"但是"、"等等"、"讓我重新檢查"這類詞語時(shí)，往往預(yù)示著它即將改變推理方向或者發(fā)現(xiàn)潛在問題。

這種行為類似于人類數(shù)學(xué)家在解題過程中的自我質(zhì)疑和反思。一個(gè)經(jīng)驗(yàn)豐富的數(shù)學(xué)家在推理過程中會(huì)時(shí)常停下來問自己："這個(gè)步驟對(duì)嗎？""有沒有更簡(jiǎn)單的方法？""我是不是遺漏了什么？"rStar2-Agent學(xué)會(huì)了類似的自我監(jiān)控能力。

第二種是"反思token"，這些詞匯出現(xiàn)在AI接收到編程工具反饋之后。當(dāng)Python代碼執(zhí)行返回結(jié)果或錯(cuò)誤信息時(shí)，AI會(huì)產(chǎn)生大量高熵token來分析這些反饋。比如看到錯(cuò)誤信息后，AI可能會(huì)說"這個(gè)錯(cuò)誤提示說明了..."、"看起來問題出在..."、"讓我換個(gè)思路..."等等。

這種對(duì)工具反饋的深度分析體現(xiàn)了rStar2-Agent的一個(gè)重要能力：環(huán)境適應(yīng)性學(xué)習(xí)。它不僅能夠使用編程工具，更重要的是能夠從工具的反饋中學(xué)習(xí)和調(diào)整策略。這就像一個(gè)實(shí)驗(yàn)科學(xué)家不僅會(huì)做實(shí)驗(yàn)，還會(huì)仔細(xì)分析實(shí)驗(yàn)結(jié)果，從中獲得新的洞察。

研究團(tuán)隊(duì)還發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象：編程相關(guān)的token通常具有較低的熵值，這意味著AI在寫代碼時(shí)表現(xiàn)得相當(dāng)自信和確定。這可能是因?yàn)榛A(chǔ)模型在預(yù)訓(xùn)練階段就接觸了大量Python代碼，已經(jīng)形成了穩(wěn)定的編程模式。但在解讀代碼執(zhí)行結(jié)果時(shí)，AI的不確定性會(huì)增加，促使它進(jìn)行更深入的思考。

通過對(duì)比分析，研究團(tuán)隊(duì)發(fā)現(xiàn)GRPO-RoC算法確實(shí)有效地減少了低質(zhì)量推理行為。使用傳統(tǒng)訓(xùn)練方法的AI經(jīng)常會(huì)產(chǎn)生冗長而重復(fù)的輸出，工具調(diào)用錯(cuò)誤率居高不下。而使用GRPO-RoC訓(xùn)練的AI不僅準(zhǔn)確率更高，推理過程也更加簡(jiǎn)潔優(yōu)雅。

一個(gè)具體的例子很好地說明了這種改進(jìn)。在解決一個(gè)關(guān)于數(shù)論的復(fù)雜問題時(shí)，傳統(tǒng)方法訓(xùn)練的AI可能會(huì)寫出多個(gè)功能重復(fù)的代碼塊，每次都因?yàn)樾″e(cuò)誤而失敗，然后不斷嘗試修正。整個(gè)過程冗長混亂，雖然最終可能找到正確答案，但過程效率極低。

而rStar2-Agent會(huì)更加謹(jǐn)慎地規(guī)劃代碼結(jié)構(gòu)，通常第一次就能寫出基本正確的代碼。即使出現(xiàn)錯(cuò)誤，它也能快速定位問題所在并進(jìn)行精準(zhǔn)修正。整個(gè)推理過程體現(xiàn)出了一種"工程師思維"：先思考，再行動(dòng)，出錯(cuò)后快速調(diào)試。

七、技術(shù)創(chuàng)新的深層價(jià)值：重新定義AI訓(xùn)練效率

rStar2-Agent的成功不僅在于其出色的性能表現(xiàn)，更在于它所代表的技術(shù)理念轉(zhuǎn)變。在AI發(fā)展的歷史上，人們長期遵循著"規(guī)模至上"的邏輯：更大的模型、更多的數(shù)據(jù)、更強(qiáng)的計(jì)算力。然而，rStar2-Agent用實(shí)際行動(dòng)證明了"巧干勝過蠻干"的道理。

這種技術(shù)理念的轉(zhuǎn)變具有深遠(yuǎn)的意義。首先，它大大降低了AI研究和應(yīng)用的門檻。訓(xùn)練rStar2-Agent只需要64個(gè)GPU和一周時(shí)間，這樣的資源需求對(duì)于許多研究機(jī)構(gòu)和公司來說都是可以承受的。相比之下，訓(xùn)練一個(gè)6710億參數(shù)的模型需要數(shù)千個(gè)GPU和數(shù)月時(shí)間，成本高達(dá)數(shù)百萬美元。

這種效率優(yōu)勢(shì)使得更多的研究團(tuán)隊(duì)能夠參與AI前沿研究，有助于加速整個(gè)領(lǐng)域的創(chuàng)新進(jìn)程。就像個(gè)人計(jì)算機(jī)的普及促進(jìn)了軟件產(chǎn)業(yè)的蓬勃發(fā)展一樣，高效的AI訓(xùn)練方法可能會(huì)帶來更多創(chuàng)新應(yīng)用的涌現(xiàn)。

其次，rStar2-Agent展示了"能力與規(guī)模解耦"的可能性。傳統(tǒng)觀念認(rèn)為，要實(shí)現(xiàn)強(qiáng)大的AI能力就必須構(gòu)建龐大的模型。但rStar2-Agent證明，通過精心設(shè)計(jì)的訓(xùn)練策略和算法創(chuàng)新，小模型也能達(dá)到大模型的性能水平。

這種解耦不僅有技術(shù)價(jià)值，也有重要的社會(huì)意義。更小的模型意味著更低的運(yùn)行成本、更快的響應(yīng)速度、更好的隱私保護(hù)（可以在本地部署），以及更廣泛的應(yīng)用可能性。這可能會(huì)推動(dòng)AI技術(shù)從"少數(shù)精英的玩具"向"普惠大眾的工具"轉(zhuǎn)變。

GRPO-RoC算法的創(chuàng)新也為強(qiáng)化學(xué)習(xí)領(lǐng)域貢獻(xiàn)了新的思路。傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法往往只關(guān)注最終結(jié)果，而忽略過程質(zhì)量。這在某些場(chǎng)景下可能導(dǎo)致AI學(xué)會(huì)一些"投機(jī)取巧"的策略，雖然能達(dá)到目標(biāo)但過程不夠優(yōu)雅。

GRPO-RoC引入的過程質(zhì)量評(píng)估機(jī)制，讓AI不僅學(xué)會(huì)做正確的事情，還學(xué)會(huì)正確地做事情。這種理念可能對(duì)其他需要過程可靠性的AI應(yīng)用場(chǎng)景有重要啟發(fā)，比如自動(dòng)駕駛、醫(yī)療診斷、金融決策等。

研究團(tuán)隊(duì)構(gòu)建的分布式訓(xùn)練基礎(chǔ)設(shè)施也為AI社區(qū)提供了寶貴的工程經(jīng)驗(yàn)。如何高效地處理大規(guī)模并發(fā)任務(wù)、如何確保系統(tǒng)的可靠性和安全性、如何實(shí)現(xiàn)智能的負(fù)載均衡，這些工程挑戰(zhàn)在AI系統(tǒng)越來越復(fù)雜的今天變得格外重要。

八、未來展望：智能體AI的廣闊前景

rStar2-Agent的成功開啟了AI發(fā)展的一個(gè)新方向：從單純的"思維模擬"向"工具增強(qiáng)智能"轉(zhuǎn)變。這種轉(zhuǎn)變可能會(huì)帶來AI應(yīng)用方式的根本性改變。

在教育領(lǐng)域，未來的AI助教可能不僅能夠解釋數(shù)學(xué)概念，還能實(shí)時(shí)演示計(jì)算過程、生成可視化圖表、甚至指導(dǎo)學(xué)生進(jìn)行編程練習(xí)。學(xué)生們將擁有一個(gè)既博學(xué)又耐心的個(gè)人導(dǎo)師，能夠根據(jù)每個(gè)學(xué)生的學(xué)習(xí)節(jié)奏和理解能力調(diào)整教學(xué)方式。

在科學(xué)研究領(lǐng)域，AI科學(xué)家可能會(huì)成為人類研究者的得力助手。它們能夠快速驗(yàn)證假設(shè)、進(jìn)行大規(guī)模數(shù)值模擬、分析復(fù)雜的實(shí)驗(yàn)數(shù)據(jù)，甚至提出新的研究思路?？茖W(xué)發(fā)現(xiàn)的速度可能會(huì)大大加快。

在工程設(shè)計(jì)領(lǐng)域，AI工程師可能會(huì)協(xié)助人類完成復(fù)雜的設(shè)計(jì)任務(wù)。從建筑設(shè)計(jì)到芯片設(shè)計(jì)，從藥物研發(fā)到材料科學(xué)，AI都可能發(fā)揮重要作用。它們不僅能夠進(jìn)行理論計(jì)算，還能夠調(diào)用各種專業(yè)軟件進(jìn)行仿真和驗(yàn)證。

當(dāng)然，這種發(fā)展也帶來了新的挑戰(zhàn)。如何確保AI正確地使用工具？如何防止AI產(chǎn)生有害或危險(xiǎn)的代碼？如何在給予AI更大自主性的同時(shí)保持人類的控制？這些問題都需要深入研究和謹(jǐn)慎處理。

rStar2-Agent的研究團(tuán)隊(duì)已經(jīng)意識(shí)到了這些挑戰(zhàn)，并在系統(tǒng)設(shè)計(jì)中采取了多種安全措施。但隨著AI系統(tǒng)變得越來越強(qiáng)大和自主，安全性考慮將變得越來越重要。

從更長遠(yuǎn)的角度來看，rStar2-Agent所代表的技術(shù)路線可能會(huì)推動(dòng)AI向更接近人類認(rèn)知方式的方向發(fā)展。人類的智能很大程度上體現(xiàn)在使用工具、從環(huán)境中學(xué)習(xí)、與外界互動(dòng)的能力上。如果AI系統(tǒng)也能掌握這些能力，那么人工智能與人類智能的邊界可能會(huì)變得更加模糊。

這并不意味著AI會(huì)取代人類，而可能意味著一種全新的人機(jī)協(xié)作模式的出現(xiàn)。人類擅長創(chuàng)造性思考、價(jià)值判斷、情感理解，而AI擅長快速計(jì)算、大量信息處理、精確執(zhí)行。兩者的結(jié)合可能會(huì)產(chǎn)生比單獨(dú)的人類或AI更強(qiáng)大的智能系統(tǒng)。

說到底，rStar2-Agent的意義不僅在于它解決了多少數(shù)學(xué)問題，更在于它展示了AI發(fā)展的一種全新可能性。它告訴我們，AI不必局限于模仿人類的思維過程，而可以發(fā)展出獨(dú)特的、與工具深度融合的智能形式。這種智能可能比傳統(tǒng)的AI更實(shí)用、更可靠，也更容易與人類協(xié)作。

當(dāng)我們回顧AI發(fā)展的歷程時(shí)，可能會(huì)發(fā)現(xiàn)rStar2-Agent標(biāo)志著一個(gè)重要的轉(zhuǎn)折點(diǎn)：從追求更大的模型規(guī)模，轉(zhuǎn)向追求更智能的學(xué)習(xí)方式；從模仿人類思維，轉(zhuǎn)向創(chuàng)造增強(qiáng)型智能；從封閉的推理系統(tǒng)，轉(zhuǎn)向開放的工具生態(tài)。這些轉(zhuǎn)變可能會(huì)深刻地影響AI技術(shù)的未來發(fā)展方向，也會(huì)改變?nèi)祟惻cAI系統(tǒng)的互動(dòng)方式。

Q&A

Q1：rStar2-Agent相比傳統(tǒng)大模型有什么優(yōu)勢(shì)？

A：rStar2-Agent雖然只有140億參數(shù)，但通過智能體強(qiáng)化學(xué)習(xí)和工具使用能力，在數(shù)學(xué)推理上達(dá)到了6710億參數(shù)DeepSeek-R1的水平。它的優(yōu)勢(shì)包括：訓(xùn)練成本低（只需64個(gè)GPU訓(xùn)練一周）、推理效率高（回答長度只有傳統(tǒng)模型一半）、準(zhǔn)確率更高（AIME24達(dá)到80.6%），同時(shí)具有很好的泛化能力。

Q2：GRPO-RoC算法解決了什么關(guān)鍵問題？

A：GRPO-RoC算法主要解決了AI在使用編程工具時(shí)的"環(huán)境噪聲"問題。傳統(tǒng)方法只看最終答案對(duì)錯(cuò)，導(dǎo)致AI學(xué)會(huì)了"帶病工作"——即使推理過程中工具調(diào)用錯(cuò)誤頻繁，只要最終答案正確就認(rèn)為可行。GRPO-RoC不僅要求答案正確，還優(yōu)先學(xué)習(xí)那些推理過程優(yōu)雅、工具使用恰當(dāng)?shù)慕獯穑孉I學(xué)會(huì)了更高質(zhì)量的推理方式。

Q3：rStar2-Agent的工具使用能力是如何實(shí)現(xiàn)的？

A：rStar2-Agent通過多輪對(duì)話機(jī)制與Python編程環(huán)境進(jìn)行交互。它會(huì)在推理過程中主動(dòng)調(diào)用代碼來進(jìn)行復(fù)雜計(jì)算，接收?qǐng)?zhí)行結(jié)果后進(jìn)行分析反思，必要時(shí)調(diào)試修正。整個(gè)過程類似人類數(shù)學(xué)家使用計(jì)算工具的方式。系統(tǒng)還構(gòu)建了專門的分布式代碼執(zhí)行環(huán)境，能同時(shí)處理45000個(gè)并發(fā)代碼請(qǐng)求，確保訓(xùn)練的高效性和安全性。

人工智能強(qiáng)化學(xué)習(xí)數(shù)學(xué)推理

分享至

0贊

好文章，需要你的鼓勵(lì)

推薦文章

音頻生成
大語言模型
多模態(tài)AI

2025-09-10 09:47

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng)，首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù)，通過交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練，能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異，為AI音頻創(chuàng)作開辟新方向。
視頻生成
深度學(xué)習(xí)
多模態(tài)學(xué)習(xí)

2025-09-09 13:57

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動(dòng)起來不再是奢望

Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù)，通過讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息，顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量，在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型，為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
多模態(tài)AI
人類價(jià)值觀對(duì)齊
數(shù)據(jù)集構(gòu)建

2025-09-09 13:56

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價(jià)值觀對(duì)齊難題

上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究，首次系統(tǒng)性解決多模態(tài)大語言模型人性化對(duì)話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn)，通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法，讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平，為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
人工智能
圖神經(jīng)網(wǎng)絡(luò)
天氣預(yù)報(bào)

2025-09-09 10:56

谷歌研究團(tuán)隊(duì)發(fā)布超級(jí)預(yù)測(cè)模型：讓AI像天氣預(yù)報(bào)員一樣預(yù)測(cè)全球大氣變化

谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型，能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào)，準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù)，通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律，在極端天氣預(yù)測(cè)方面表現(xiàn)卓越，能耗僅為傳統(tǒng)方法的千分之一，為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

2025-09-10 09:47

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動(dòng)起來不再是奢望

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動(dòng)起來不再是奢望

2025-09-09 13:57

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價(jià)值觀對(duì)齊難題

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價(jià)值觀對(duì)齊難題

2025-09-09 13:56

谷歌研究團(tuán)隊(duì)發(fā)布超級(jí)預(yù)測(cè)模型：讓AI像天氣預(yù)報(bào)員一樣預(yù)測(cè)全球大氣變化

谷歌研究團(tuán)隊(duì)發(fā)布超級(jí)預(yù)測(cè)模型：讓AI像天氣預(yù)報(bào)員一樣預(yù)測(cè)全球大氣變化

2025-09-09 10:56

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時(shí)代

京ICP證15039648號(hào) 京ICP備15039648號(hào)-9 京公網(wǎng)安備 11010802021500號(hào)

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報(bào)電話：010-62641205　涉未成年人舉報(bào)專線：010-62641208 舉報(bào)郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報(bào)專區(qū)：https://www.12377.cn

<menuitem id="oyt1n"><mark id="oyt1n"><ins id="oyt1n"></ins></mark></menuitem>