av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 數(shù)學AI能不能又準又快?東京大學團隊打造數(shù)學模型新"配方"

數(shù)學AI能不能又準又快?東京大學團隊打造數(shù)學模型新"配方"

2025-07-22 09:26
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-07-22 09:26 ? 科技行者

近年來,大型語言模型(LLMs)在各個領域都展現(xiàn)出了驚人的能力,從日常對話到復雜的推理任務,它們似乎無所不能。但是,當面對數(shù)學這個需要嚴密邏輯和精確計算的領域時,如何讓AI既能準確解題又能高效運行,一直是研究者們頭疼的問題。

這項由東京大學、京都Rist公司和Sakana AI公司合作完成的研究,發(fā)表于2025年7月的第42屆國際機器學習大會(ICML 2025)第二屆AI數(shù)學研討會上。有興趣深入了解的讀者可以通過https://github.com/analokmaus/kaggle-aimo2-fast-math-r1訪問完整的研究代碼和模型。研究團隊由東京大學的Hiroshi Yoshihara、京都Rist公司的Taiki Yamaguchi以及Sakana AI的Yuichi Inoue領導。

這個研究團隊發(fā)現(xiàn)了一個有趣的現(xiàn)象:長期以來,研究者們一直在爭論到底應該用監(jiān)督學習(SFT)還是強化學習(RL)來訓練數(shù)學AI。這就像是在討論做菜時到底應該先調味還是先炒制一樣,大家各持己見。但是,這個團隊提出了一個全新的視角——為什么不把這兩種方法結合起來,發(fā)揮各自的優(yōu)勢呢?

他們提出的訓練"配方"非常簡單卻有效:首先用監(jiān)督學習進行長時間的"精雕細琢",讓模型的解題準確率達到極限;然后再用強化學習進行"效率優(yōu)化",讓模型在保持高準確率的同時,大幅減少生成答案所需的文字長度。這種方法就像是先讓學生刻苦練習提高解題能力,再教他們如何用更簡潔的方式表達解題過程。

研究結果令人振奮。他們的模型在國際數(shù)學奧林匹克競賽(AIMO)這個嚴格防止數(shù)據(jù)泄露的權威測試中,在超過2200支參賽隊伍中獲得了第8名的好成績。更重要的是,這個模型不僅解題準確,而且生成的解題過程相對簡潔,真正實現(xiàn)了"又準又快"的目標。

這項研究的意義不僅在于取得了優(yōu)異的成績,更在于為AI數(shù)學推理能力的發(fā)展提供了一個實用的訓練框架。研究團隊承諾將開源所有代碼、模型和訓練數(shù)據(jù),讓更多研究者能夠在此基礎上繼續(xù)探索和改進。

一、重新審視AI數(shù)學學習的兩大流派

在AI學習數(shù)學的世界里,長期存在著兩個主要的訓練流派,就像武俠小說中的兩大門派一樣,各有千秋但也各有局限。

第一個流派是監(jiān)督學習(SFT),這就像是傳統(tǒng)的師傅帶徒弟模式。研究者們收集了大量的數(shù)學題目和標準答案,讓AI模型通過反復學習這些"標準答案"來掌握解題技巧。這種方法的好處是穩(wěn)定可靠,就像跟著經驗豐富的老師學習一樣,能夠扎實地掌握基礎知識。但是,這種方法也有一個明顯的缺陷:AI只能學到數(shù)據(jù)集中已有的解題方法,很難突破原有的知識邊界。

第二個流派是強化學習(RL),這更像是讓AI在實戰(zhàn)中自我摸索。系統(tǒng)會給AI一個獎勵機制,解對了題目就得到獎勵,解錯了就受到懲罰。通過這種"試錯學習",AI能夠發(fā)現(xiàn)一些數(shù)據(jù)集中沒有的新解題方法。但是,這種方法的問題在于訓練過程不夠穩(wěn)定,就像讓學生完全自學一樣,容易出現(xiàn)各種意外情況。

過去的研究者們往往把這兩種方法看作是互相競爭的關系,總是在爭論哪種方法更好。但是,東京大學的研究團隊提出了一個全新的思路:為什么不把它們結合起來,讓各自的優(yōu)勢得到充分發(fā)揮呢?

他們發(fā)現(xiàn),這兩種方法其實在解決不同的問題。監(jiān)督學習擅長提高解題的準確率,就像是讓學生通過大量練習來提高解題能力;而強化學習則擅長優(yōu)化解題的效率,就像是教會學生如何用更簡潔的方式表達解題過程。

這個發(fā)現(xiàn)讓研究團隊意識到,與其讓這兩種方法互相競爭,不如讓它們協(xié)同工作。于是,他們設計了一個兩階段的訓練方案:先用監(jiān)督學習打下扎實的基礎,再用強化學習進行效率優(yōu)化。這種方法就像是先讓學生通過大量練習掌握扎實的基礎知識,然后再教他們如何在考試中快速準確地答題。

二、突破傳統(tǒng)的長期監(jiān)督學習策略

在傳統(tǒng)的AI訓練中,監(jiān)督學習通常只進行很短的時間,就像是給學生上幾節(jié)課就讓他們去考試一樣。但是,這個研究團隊發(fā)現(xiàn)了一個驚人的現(xiàn)象:當他們把監(jiān)督學習的時間大幅延長到10個周期時,模型的表現(xiàn)出現(xiàn)了質的飛躍。

這個發(fā)現(xiàn)其實很有趣。在訓練的初期,模型的表現(xiàn)甚至會出現(xiàn)暫時的下降,就像學生在學習新知識時會暫時感到困惑一樣。但是,如果堅持繼續(xù)訓練,模型就會逐漸適應并最終達到更高的水平。這就像是運動員在高強度訓練初期會感到疲勞,但經過持續(xù)訓練后體能會得到顯著提升。

研究團隊在構建訓練數(shù)據(jù)時也下了很大功夫。他們從三個不同的數(shù)據(jù)源精心挑選了約7900個高難度的數(shù)學問題。這些問題都有一個共同特點:它們都是那些即使是先進的AI模型也很難解決的難題。

從OpenR1 Math數(shù)據(jù)集中,他們選擇了大約6000個問題,這些問題的特點是原始模型生成的解題過程特別長(超過12800個字符),而且準確率在50%到75%之間。這就像是選擇了那些需要長篇大論才能解決,而且容易出錯的復雜題目。

從openr1 hard數(shù)據(jù)集中,他們又選擇了約2500個極具挑戰(zhàn)性的問題。這些問題連32B參數(shù)的大型模型嘗試四次都無法解決,可見其難度之高。

最后,他們還加入了Light-R1-SFT數(shù)據(jù)集中的第二階段訓練數(shù)據(jù),進一步豐富了訓練素材的多樣性。

在數(shù)據(jù)處理過程中,研究團隊特別注意去除重復內容,并且對每個問題都選擇了最短的正確解答。這種做法就像是在教學中,老師會選擇最簡潔明了的解題方法來教授學生,避免冗長復雜的表述。

訓練過程本身也經過了精心設計。他們使用了8張高性能的NVIDIA H200 GPU,這相當于動用了非常強大的計算資源。訓練參數(shù)的設置也很有講究:學習率設置為較低的1e-5,使用余弦學習率調度器,最大序列長度設置為24000個字符,這些設置都是為了確保模型能夠穩(wěn)定地學習復雜的數(shù)學推理過程。

整個訓練過程持續(xù)了10個完整的周期,這在傳統(tǒng)的AI訓練中是相當長的時間。但正是這種"慢工出細活"的方法,讓模型能夠真正掌握復雜的數(shù)學推理能力。

三、強化學習的新角色:從提分轉向提效

在第二階段,研究團隊引入了一種叫做GRPO(Group Relative Policy Optimization)的強化學習方法。這里需要澄清一個重要的觀念轉變:過去人們認為強化學習主要是為了提高準確率,但這個研究發(fā)現(xiàn),強化學習在這個框架中的主要作用其實是提高效率。

這就像是在學生已經掌握了扎實的解題能力后,再教他們如何在考試中更快速、更簡潔地表達答案。強化學習的目標不是讓學生解出更多的題目,而是讓他們用更少的文字表達同樣準確的答案。

為了實現(xiàn)這個目標,研究團隊設計了一個巧妙的獎勵機制,包含三個組成部分。第一個是格式獎勵,就像是給答案格式正確的學生加分。如果模型的輸出符合預期的格式(比如答案放在規(guī)定的框中),就會得到+1的獎勵,否則得到0。

第二個是余弦相似度獎勵,這是一個更加精細的評價機制。對于格式正確的答案,系統(tǒng)會計算模型生成的解題過程與標準答案之間的相似度。如果答案正確,相似度獎勵會在0.1到1.0之間變化,相似度越高(也就是解題過程越接近標準答案)獎勵越高。如果答案錯誤,獎勵會在-1.0到-0.1之間變化,這樣就能更嚴厲地懲罰那些簡短但錯誤的答案。

第三個是長度懲罰,直接針對生成文本的長度進行懲罰。這就像是在考試中,如果兩個學生的答案都正確,那么用更少文字表達的學生會得到更高的分數(shù)。

這種獎勵機制的設計非常聰明,它能夠引導模型在保持準確性的同時,盡可能地簡化解題過程。訓練過程中,每次生成8個不同的答案,然后通過比較它們的獎勵分數(shù)來調整模型的行為。這就像是讓學生反復練習,通過比較不同答案的優(yōu)劣來不斷改進。

強化學習階段的訓練相對較短,只進行了50個步驟,但效果卻非常顯著。經過這個階段的訓練,模型不僅保持了高準確率,而且生成的解題過程變得更加簡潔高效。

四、多維度實驗驗證效果顯著

研究團隊在多個權威的數(shù)學競賽基準測試上驗證了他們方法的有效性。這些測試就像是不同難度級別的數(shù)學考試,能夠全面評估模型的表現(xiàn)。

在AIME 2024和AIME 2025這兩個具有競賽級別難度的測試中,結果令人印象深刻。以14B參數(shù)的模型為例,原始模型在AIME 2024上的準確率為63.3%,平均需要9590個字符來表達答案。經過10輪監(jiān)督學習后,準確率提升到65.2%,但平均字符數(shù)增加到10268個。這說明雖然模型變得更準確了,但表達變得更冗長了。

接下來的強化學習階段就發(fā)揮了關鍵作用。經過強化學習優(yōu)化后,模型的準確率進一步提升到66.0%,同時平均字符數(shù)大幅減少到7932個。這意味著模型不僅更準確,而且表達更加簡潔高效。

在AIME 2025的測試中,同樣的趨勢得到了驗證。14B模型的準確率從原始的46.7%提升到最終的49.2%,同時平均字符數(shù)從10602個減少到9066個。

更有趣的是,這種改進效果在不同規(guī)模的模型上都得到了體現(xiàn)。1.5B參數(shù)的小模型雖然總體表現(xiàn)不如大模型,但同樣在這個訓練方案下獲得了提升。7B參數(shù)的中等規(guī)模模型也表現(xiàn)出了類似的改進趨勢。

在相對簡單的MATH-500測試中,結果更加令人鼓舞。14B模型的準確率從原始的86.4%提升到最終的91.2%,同時平均字符數(shù)從2556個減少到2084個。這說明這種訓練方法不僅在高難度問題上有效,在相對簡單的問題上也能帶來顯著改善。

研究團隊還進行了詳細的消融實驗,分析了不同獎勵函數(shù)組合對結果的影響。他們發(fā)現(xiàn),單純的準確率獎勵雖然能提高正確率,但不能有效控制答案長度。而他們設計的余弦相似度獎勵結合長度懲罰的方案,能夠在保持高準確率的同時顯著減少答案長度。

特別值得關注的是,研究團隊還進行了逐題分析,發(fā)現(xiàn)在大多數(shù)問題上,他們的方法都能同時提高準確率和減少答案長度。對于那些原本就很準確的問題,新方法能夠在保持準確性的同時讓答案更簡潔。對于中等難度的問題,改進效果最為顯著。只有對于最困難的問題,改進效果相對有限,這也為未來的研究指明了方向。

五、權威競賽中的實戰(zhàn)檢驗

最終的驗證來自于AI數(shù)學奧林匹克競賽(AIMO),這是一個具有嚴格防作弊措施的國際性競賽。與普通的學術測試不同,AIMO采用了嚴格的數(shù)據(jù)隔離機制,確保參賽模型無法接觸到測試數(shù)據(jù),這就像是在完全封閉的考場中進行考試。

在這個包含超過2200支參賽隊伍的激烈競爭中,研究團隊的模型表現(xiàn)出色。在公開測試集上,他們的模型獲得了29分(滿分50分),排名第4位。在私有測試集上獲得了28分,排名第8位??紤]到參賽隊伍的龐大規(guī)模和競爭的激烈程度,這個成績可以說是相當優(yōu)異的。

更重要的是,這個結果證明了他們的方法具有很好的泛化能力。模型在公開測試集和私有測試集上的表現(xiàn)都很穩(wěn)定,說明它沒有出現(xiàn)過度擬合的問題,而是真正掌握了數(shù)學推理的能力。

這個競賽結果特別有說服力,因為AIMO的評測環(huán)境完全模擬了真實的應用場景。在這種環(huán)境中,模型必須依靠自己學到的知識和推理能力來解決從未見過的問題,而不能依賴于記憶訓練數(shù)據(jù)中的答案。

六、開源承諾與未來展望

研究團隊展現(xiàn)出了令人贊賞的開放態(tài)度,承諾將完整的研究成果開源。這包括最終的模型權重、完整的訓練和評估代碼、所有精心篩選的數(shù)據(jù)集,以及強化學習階段的全部檢查點。這種開源精神就像是把自己的"獨門秘籍"毫無保留地分享給整個學術界。

這種開源策略的意義不僅在于讓其他研究者能夠驗證和復現(xiàn)他們的結果,更重要的是為整個AI數(shù)學推理領域提供了一個可靠的基礎。其他研究團隊可以在此基礎上繼續(xù)改進和創(chuàng)新,推動整個領域的發(fā)展。

從技術發(fā)展的角度來看,這項研究提出的兩階段訓練方法很可能會成為AI數(shù)學推理領域的標準做法。它清晰地解決了監(jiān)督學習和強化學習如何協(xié)同工作的問題,為未來的研究指明了方向。

當然,這項研究也還存在一些局限性和改進空間。比如,對于最困難的數(shù)學問題,當前的方法仍然改進有限。此外,如何進一步提高訓練效率,以及如何將這種方法推廣到其他推理任務中,都是值得探索的問題。

研究團隊的工作也揭示了一個重要的觀點:在AI發(fā)展中,準確性和效率不應該是相互對立的目標,而應該是可以同時實現(xiàn)的。通過巧妙的訓練策略設計,我們可以讓AI模型在保持高準確率的同時,變得更加高效實用。

說到底,這項研究為我們展示了一個重要的發(fā)展方向:AI不僅要能夠解決復雜的問題,還要能夠以人類可以理解和接受的方式來解決問題。一個能夠給出簡潔明了答案的AI,顯然比一個只會長篇大論的AI更有實用價值。

歸根結底,這項研究的意義遠不止于在數(shù)學競賽中取得好成績。它為AI推理能力的發(fā)展提供了一個新的思路,證明了通過合理的訓練策略組合,我們可以讓AI變得既聰明又高效。這對于AI技術的實際應用和普及都具有重要意義。

對于普通讀者來說,這項研究的啟示是:未來的AI助手不僅會變得更加智能,還會變得更加簡潔高效。當你向AI提問時,它不僅能給出正確答案,還會用最簡潔明了的方式來表達。這種發(fā)展趨勢無疑會讓AI技術更加貼近人類的需求和習慣。

有興趣深入了解這項研究的讀者,可以訪問他們的GitHub頁面https://github.com/analokmaus/kaggle-aimo2-fast-math-r1,那里有完整的代碼、數(shù)據(jù)和模型可供學習和使用。

Q&A

Q1:這個兩階段訓練方法相比傳統(tǒng)方法有什么優(yōu)勢? A:傳統(tǒng)方法通常只用監(jiān)督學習或強化學習中的一種,而這個方法巧妙地結合了兩者的優(yōu)勢。先用長期監(jiān)督學習讓模型達到高準確率,再用強化學習優(yōu)化效率,最終實現(xiàn)了"又準又快"的效果。在AIME測試中,14B模型準確率從63.3%提升到66.0%,同時答案長度從9590個字符減少到7932個字符。

Q2:為什么要進行10輪監(jiān)督學習訓練?這么長時間訓練不會過擬合嗎? A:研究團隊發(fā)現(xiàn),雖然初期訓練會出現(xiàn)性能暫時下降,但長期訓練(10輪)對提高數(shù)學推理能力至關重要。這就像運動員需要長期訓練才能達到最佳狀態(tài)一樣。實驗證明,短期訓練往往無法充分發(fā)揮模型的潛力,而適當?shù)拈L期訓練反而能帶來突破性的性能提升。

Q3:這個方法只適用于數(shù)學問題嗎?能否推廣到其他領域? A:雖然這項研究專注于數(shù)學推理,但其核心思想——先用監(jiān)督學習建立扎實基礎,再用強化學習優(yōu)化效率——理論上可以應用到其他需要復雜推理的領域。比如代碼生成、邏輯推理、科學問題解答等。不過具體的應用效果還需要進一步的研究驗證。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-