av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁 OREAL算法:從7B模型首破91分到32B新紀(jì)錄,上海AI實(shí)驗(yàn)室如何用強(qiáng)化學(xué)習(xí)讓AI數(shù)學(xué)推理超越OpenAI o1?

OREAL算法:從7B模型首破91分到32B新紀(jì)錄,上海AI實(shí)驗(yàn)室如何用強(qiáng)化學(xué)習(xí)讓AI數(shù)學(xué)推理超越OpenAI o1?

2025-08-22 15:09
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-08-22 15:09 ? 科技行者

這項(xiàng)由上海AI實(shí)驗(yàn)室呂承麒、高松陽等研究人員領(lǐng)導(dǎo)的研究,發(fā)表于2025年2月10日的arXiv預(yù)印本平臺,有興趣深入了解的讀者可以通過arXiv:2502.06781v1訪問完整論文。研究團(tuán)隊(duì)來自上海AI實(shí)驗(yàn)室、上海交通大學(xué)、香港中文大學(xué)MMLab等多個(gè)頂尖科研機(jī)構(gòu),共同探索了在數(shù)學(xué)推理任務(wù)中使用強(qiáng)化學(xué)習(xí)的性能極限。

當(dāng)你看到一個(gè)7B參數(shù)的AI模型在數(shù)學(xué)競賽中擊敗了參數(shù)量是它4倍多的32B模型,甚至超越了OpenAI的o1-mini時(shí),你會不會感到震驚?更令人驚訝的是,這一突破并非來自更大的模型或更多的數(shù)據(jù),而是源于一種全新的強(qiáng)化學(xué)習(xí)訓(xùn)練方法。上海AI實(shí)驗(yàn)室的研究團(tuán)隊(duì)開發(fā)出了一個(gè)名為OREAL的算法框架,成功地讓一個(gè)相對較小的AI模型在數(shù)學(xué)推理能力上實(shí)現(xiàn)了歷史性突破。

要理解這項(xiàng)研究的重要性,我們首先需要明白AI數(shù)學(xué)推理面臨的根本挑戰(zhàn)。當(dāng)前最強(qiáng)大的數(shù)學(xué)推理AI,比如OpenAI的o1系列模型,雖然在數(shù)學(xué)競賽中表現(xiàn)出色,但它們的技術(shù)細(xì)節(jié)完全保密。學(xué)術(shù)界只知道這些模型使用了強(qiáng)化學(xué)習(xí)和長推理鏈,但具體怎么做的,沒人知道。這就像看到別人做出了美味的菜肴,卻不知道配方和烹飪技巧一樣令人困惑。

更關(guān)鍵的問題在于,教AI做數(shù)學(xué)就像教一個(gè)學(xué)生解題一樣困難。在傳統(tǒng)的監(jiān)督學(xué)習(xí)中,我們可以告訴AI每一步應(yīng)該怎么做,就像手把手教學(xué)生每個(gè)步驟。但在強(qiáng)化學(xué)習(xí)中,我們只能告訴AI最終答案是對是錯,就像只告訴學(xué)生考試成績,卻不指出哪些步驟做錯了。這種"稀疏獎勵"的問題在數(shù)學(xué)推理中特別嚴(yán)重,因?yàn)橐坏罃?shù)學(xué)題的解答過程可能有幾千個(gè)詞,但我們只有一個(gè)最終的對錯判斷。

OREAL算法的核心創(chuàng)新在于解決了這個(gè)困難。研究團(tuán)隊(duì)發(fā)現(xiàn),在數(shù)學(xué)推理這個(gè)特殊領(lǐng)域,所有正確的解答路徑本質(zhì)上都是等價(jià)的。無論你用哪種方法解出了正確答案,這些方法的價(jià)值都是相同的。基于這個(gè)洞察,他們提出了一個(gè)反直覺的觀點(diǎn):只需要從多個(gè)嘗試中挑選出正確的解答進(jìn)行學(xué)習(xí),就足以獲得最優(yōu)的學(xué)習(xí)效果。

這個(gè)想法的巧妙之處可以這樣理解:假設(shè)你在學(xué)習(xí)烹飪,每次嘗試后只知道菜好不好吃,不知道具體哪些步驟有問題。傳統(tǒng)方法會試圖分析每個(gè)步驟的貢獻(xiàn),但OREAL發(fā)現(xiàn),在數(shù)學(xué)這個(gè)特殊領(lǐng)域,只要收集足夠多的成功菜譜,仔細(xì)研究它們的共同特征,就能掌握烹飪的精髓。

不過,僅僅學(xué)習(xí)正確答案還不夠。研究團(tuán)隊(duì)進(jìn)一步發(fā)現(xiàn),失敗的嘗試同樣包含寶貴信息。但這里有個(gè)微妙的問題:由于我們從成功樣本中學(xué)習(xí)時(shí)改變了原有的數(shù)據(jù)分布,學(xué)習(xí)失敗樣本時(shí)也需要相應(yīng)調(diào)整,否則就會出現(xiàn)不一致的學(xué)習(xí)信號。OREAL通過一個(gè)巧妙的"獎勵重塑"機(jī)制解決了這個(gè)問題,確保正確和錯誤的解答都能為AI提供一致的學(xué)習(xí)信號。

另一個(gè)關(guān)鍵創(chuàng)新是解決長推理鏈中的信用分配問題。當(dāng)一道數(shù)學(xué)題的解答有幾千個(gè)詞時(shí),哪些詞對最終答案更重要?OREAL引入了一個(gè)輕量級的"詞級獎勵模型",能夠自動識別推理過程中每個(gè)詞的重要程度。這就像給每個(gè)詞打分,讓AI知道應(yīng)該重點(diǎn)關(guān)注哪些關(guān)鍵步驟。

研究團(tuán)隊(duì)的實(shí)驗(yàn)結(jié)果令人印象深刻。在數(shù)學(xué)競賽的標(biāo)準(zhǔn)測試MATH-500上,OREAL訓(xùn)練的7B模型達(dá)到了91.0分的pass@1準(zhǔn)確率,這是第一次有如此小的模型通過強(qiáng)化學(xué)習(xí)而非知識蒸餾達(dá)到如此高的性能。更令人驚喜的是,當(dāng)他們將OREAL應(yīng)用到之前最強(qiáng)的7B模型DeepSeek-R1-Distill-Qwen-7B上時(shí),性能從92.8分提升到了94.0分,達(dá)到了與32B模型相媲美的水平。

在32B模型上,OREAL同樣創(chuàng)造了新紀(jì)錄。OREAL-32B在MATH-500上達(dá)到了95.0分,在多個(gè)數(shù)學(xué)競賽測試中都超越了之前的最佳成績,包括擊敗了OpenAI的o1-preview和QwQ-32B-Preview等強(qiáng)勁對手。這些結(jié)果表明,OREAL不僅在小模型上有效,在大模型上同樣能夠帶來顯著提升。

為了驗(yàn)證算法各個(gè)組件的有效性,研究團(tuán)隊(duì)進(jìn)行了細(xì)致的消融實(shí)驗(yàn)。他們發(fā)現(xiàn),每個(gè)組件都對最終性能有貢獻(xiàn):獎勵重塑機(jī)制提升了0.8分,正確樣本的行為克隆貢獻(xiàn)了1.0分,重要性采樣帶來了1.4分的提升,而技能增強(qiáng)策略最終貢獻(xiàn)了2.0分的提升。這種逐步改進(jìn)的過程展現(xiàn)了OREAL算法設(shè)計(jì)的合理性。

訓(xùn)練過程中的一些觀察也很有趣。研究團(tuán)隊(duì)發(fā)現(xiàn),初始策略模型的質(zhì)量對最終效果至關(guān)重要。一個(gè)強(qiáng)大的起點(diǎn)能讓強(qiáng)化學(xué)習(xí)事半功倍,而基礎(chǔ)薄弱的模型即使經(jīng)過強(qiáng)化學(xué)習(xí)也難以達(dá)到頂尖水平。這提醒我們,強(qiáng)化學(xué)習(xí)并不是萬能藥,它需要建立在扎實(shí)的基礎(chǔ)之上。

另一個(gè)重要發(fā)現(xiàn)是訓(xùn)練數(shù)據(jù)的質(zhì)量和多樣性同樣關(guān)鍵。研究團(tuán)隊(duì)特別設(shè)計(jì)了一個(gè)"技能增強(qiáng)"策略,針對模型在訓(xùn)練過程中反復(fù)犯錯的特定技能點(diǎn),專門收集相關(guān)的訓(xùn)練樣本進(jìn)行強(qiáng)化。這種做法就像針對學(xué)生的薄弱環(huán)節(jié)進(jìn)行專項(xiàng)訓(xùn)練,效果顯著。

OREAL算法的理論基礎(chǔ)也很扎實(shí)。研究團(tuán)隊(duì)從數(shù)學(xué)角度證明了,在二元反饋環(huán)境中,對Best-of-N采樣得到的正確軌跡進(jìn)行行為克隆就足以學(xué)習(xí)到KL正則化的最優(yōu)策略。這個(gè)理論結(jié)果為他們的方法提供了堅(jiān)實(shí)的數(shù)學(xué)基礎(chǔ),解釋了為什么這種看似簡單的方法能夠取得如此好的效果。

從技術(shù)實(shí)現(xiàn)的角度,OREAL算法相對簡潔優(yōu)雅。它避免了復(fù)雜的價(jià)值網(wǎng)絡(luò)設(shè)計(jì),不需要昂貴的人工標(biāo)注,主要依靠自動化的獎勵信號進(jìn)行學(xué)習(xí)。這種簡潔性使得算法更容易復(fù)現(xiàn)和擴(kuò)展,降低了研究和應(yīng)用的門檻。

研究團(tuán)隊(duì)也誠實(shí)地討論了當(dāng)前方法的局限性。他們發(fā)現(xiàn),在某些特定類型的數(shù)學(xué)競賽(如AIME系列)上,OREAL的表現(xiàn)相對較弱。這可能與訓(xùn)練數(shù)據(jù)的覆蓋范圍和質(zhì)量有關(guān),表明還有進(jìn)一步優(yōu)化的空間。

這項(xiàng)研究的意義不僅僅在于刷新了幾個(gè)測試分?jǐn)?shù)。它提供了一個(gè)完整的框架來理解如何在結(jié)果獎勵環(huán)境中進(jìn)行有效的強(qiáng)化學(xué)習(xí)。這個(gè)框架不僅適用于數(shù)學(xué)推理,還可能擴(kuò)展到其他需要復(fù)雜推理的任務(wù)中。

更重要的是,OREAL的成功表明,學(xué)術(shù)界完全有能力開發(fā)出與商業(yè)閉源模型相媲美的技術(shù)。這種開放性對于科學(xué)進(jìn)步和技術(shù)民主化具有重要意義。研究團(tuán)隊(duì)承諾將公開代碼、模型和數(shù)據(jù),這將進(jìn)一步加速相關(guān)研究的發(fā)展。

從更廣闊的視角來看,這項(xiàng)研究揭示了AI發(fā)展的一個(gè)重要趨勢:算法創(chuàng)新往往比簡單的規(guī)模擴(kuò)張更有價(jià)值。OREAL用巧妙的方法設(shè)計(jì)讓小模型展現(xiàn)出大模型的能力,這種效率提升對于資源有限的研究機(jī)構(gòu)和應(yīng)用場景具有重要價(jià)值。

展望未來,OREAL算法還有很大的發(fā)展空間。研究團(tuán)隊(duì)指出,初始策略模型的質(zhì)量和訓(xùn)練數(shù)據(jù)的多樣性是影響最終效果的關(guān)鍵因素。隨著基礎(chǔ)模型和數(shù)據(jù)質(zhì)量的不斷提升,OREAL的潛力還將進(jìn)一步釋放。

說到底,這項(xiàng)研究最讓人興奮的地方在于它展現(xiàn)的可能性。當(dāng)我們看到一個(gè)相對較小的模型通過巧妙的訓(xùn)練方法就能在數(shù)學(xué)推理上達(dá)到頂尖水平時(shí),我們不禁要問:還有多少看似不可能的突破正在等待著我們?OREAL算法只是一個(gè)開始,它打開了強(qiáng)化學(xué)習(xí)在復(fù)雜推理任務(wù)中應(yīng)用的新篇章。對于每一個(gè)關(guān)注AI發(fā)展的人來說,這都是一個(gè)值得深入了解的里程碑式成果。

Q&A

Q1:OREAL算法是什么?它是如何讓小模型超越大模型的?

A:OREAL是由上海AI實(shí)驗(yàn)室開發(fā)的強(qiáng)化學(xué)習(xí)算法,專門用于提升AI的數(shù)學(xué)推理能力。它的核心創(chuàng)新在于發(fā)現(xiàn)在數(shù)學(xué)推理中,所有正確答案的價(jià)值都相同,因此只需要從多次嘗試中篩選正確解答進(jìn)行學(xué)習(xí),再通過巧妙的獎勵重塑和重要性采樣機(jī)制,讓小模型也能達(dá)到大模型的推理水平。

Q2:OREAL算法在數(shù)學(xué)測試中的具體表現(xiàn)如何?

A:OREAL創(chuàng)造了多項(xiàng)紀(jì)錄:7B模型在MATH-500測試中達(dá)到91.0分,首次讓如此小的模型通過強(qiáng)化學(xué)習(xí)達(dá)到這個(gè)水平;32B模型更是達(dá)到95.0分的新紀(jì)錄,在多個(gè)數(shù)學(xué)競賽測試中都超越了OpenAI的o1系列和其他頂尖模型。

Q3:為什么OREAL算法比傳統(tǒng)的AI數(shù)學(xué)訓(xùn)練方法更有效?

A:傳統(tǒng)方法面臨"稀疏獎勵"問題,即只知道最終答案對錯,不知道中間步驟的好壞。OREAL通過三個(gè)關(guān)鍵創(chuàng)新解決了這個(gè)問題:只學(xué)習(xí)正確解答的行為克隆、針對錯誤樣本的獎勵重塑、以及詞級重要性評估。這使得AI能夠更有效地從成功和失敗中學(xué)習(xí)。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-