av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見(jiàn)證連接與計(jì)算的「力量」

首頁(yè) 數(shù)學(xué)推理的新突破:讓AI自己當(dāng)老師又當(dāng)學(xué)生,南京大學(xué)團(tuán)隊(duì)打造會(huì)自我獎(jiǎng)勵(lì)的智能模型

數(shù)學(xué)推理的新突破:讓AI自己當(dāng)老師又當(dāng)學(xué)生,南京大學(xué)團(tuán)隊(duì)打造會(huì)自我獎(jiǎng)勵(lì)的智能模型

2025-07-30 20:50
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-07-30 20:50 ? 科技行者

這項(xiàng)由南京大學(xué)國(guó)家重點(diǎn)軟件技術(shù)實(shí)驗(yàn)室的張世茂、黃淑瑾等研究者與微軟亞洲研究院的劉曉、龔業(yè)云等專家合作完成的研究,發(fā)表于2025年3月的arXiv預(yù)印本論文庫(kù)。有興趣深入了解的讀者可以通過(guò)論文編號(hào)arXiv:2503.03746v1訪問(wèn)完整研究?jī)?nèi)容。

過(guò)去,訓(xùn)練人工智能解決數(shù)學(xué)問(wèn)題就像請(qǐng)家教一樣,需要人類老師不斷給出評(píng)價(jià)和指導(dǎo)。然而,人類能力終究有限,這就像再好的家教也無(wú)法培養(yǎng)出超越自己水平的學(xué)生。如今,南京大學(xué)和微軟的研究團(tuán)隊(duì)提出了一個(gè)革命性想法:讓AI既當(dāng)學(xué)生又當(dāng)老師,通過(guò)"自我獎(jiǎng)勵(lì)"的方式不斷提升數(shù)學(xué)推理能力。

想象一個(gè)學(xué)生在做數(shù)學(xué)題時(shí),不僅要算出答案,還要像老師一樣檢查每一個(gè)步驟是否正確。這就是"過(guò)程式自我獎(jiǎng)勵(lì)語(yǔ)言模型"的核心思想。傳統(tǒng)的AI訓(xùn)練方法只看最終答案對(duì)錯(cuò),但這項(xiàng)研究讓AI關(guān)注解題的每一個(gè)中間步驟,就像一位嚴(yán)格的數(shù)學(xué)老師會(huì)逐步檢查學(xué)生的解題過(guò)程一樣。

研究團(tuán)隊(duì)發(fā)現(xiàn),現(xiàn)有的自我獎(jiǎng)勵(lì)方法在數(shù)學(xué)推理任務(wù)上表現(xiàn)不佳,甚至可能越訓(xùn)練越差。這就像一個(gè)學(xué)生用錯(cuò)誤的學(xué)習(xí)方法,越努力反而越糟糕。問(wèn)題的根源在于:第一,對(duì)于需要多步推理的復(fù)雜數(shù)學(xué)問(wèn)題,傳統(tǒng)方法無(wú)法提供精確的獎(jiǎng)勵(lì)信號(hào);第二,給復(fù)雜數(shù)學(xué)解答打分比讓AI進(jìn)行兩兩比較更加困難,一致性也更差。

一、革命性的訓(xùn)練方法:讓AI學(xué)會(huì)自我監(jiān)督

這項(xiàng)研究的核心創(chuàng)新在于重新設(shè)計(jì)了AI的學(xué)習(xí)方式。傳統(tǒng)方法就像讓學(xué)生做完整套試卷后只告訴他總分,而新方法則像配備了一位貼身家教,對(duì)每個(gè)解題步驟都給出即時(shí)反饋。

具體來(lái)說(shuō),研究團(tuán)隊(duì)讓AI掌握兩項(xiàng)核心技能。首先是逐步數(shù)學(xué)推理能力,當(dāng)面對(duì)復(fù)雜問(wèn)題時(shí),AI需要像人類學(xué)生一樣一步步思考,將解題過(guò)程分解為多個(gè)清晰的步驟,每個(gè)步驟都以"第n步:"的格式輸出。其次是逐步判斷能力,AI需要像數(shù)學(xué)老師一樣,能夠評(píng)估給定推理步驟的質(zhì)量,判斷某個(gè)步驟是否正確或更優(yōu)。

為了讓AI獲得這兩項(xiàng)技能,研究團(tuán)隊(duì)精心構(gòu)建了兩套訓(xùn)練數(shù)據(jù)。第一套是指令微調(diào)數(shù)據(jù),他們從NuminaMath數(shù)據(jù)集中提取了28889個(gè)樣本,使用OpenAI的o1模型將原本的解答逐步分解為標(biāo)準(zhǔn)格式。第二套是評(píng)估微調(diào)數(shù)據(jù),由于沒(méi)有現(xiàn)成的逐步判斷數(shù)據(jù)集,研究團(tuán)隊(duì)先訓(xùn)練了一個(gè)過(guò)程獎(jiǎng)勵(lì)模型,通過(guò)蒙特卡洛樹(shù)搜索生成候選步驟,再用GPT-o1生成詳細(xì)的判斷和解釋。

整個(gè)訓(xùn)練過(guò)程就像培養(yǎng)一位既會(huì)解題又會(huì)改卷的全能數(shù)學(xué)老師。AI首先通過(guò)基礎(chǔ)訓(xùn)練掌握這兩項(xiàng)技能,然后進(jìn)入自我提升的循環(huán):生成多個(gè)候選的下一步推理,對(duì)這些候選步驟進(jìn)行兩兩比較判斷,選出最好和最差的步驟形成偏好對(duì),最后通過(guò)直接偏好優(yōu)化技術(shù)來(lái)改進(jìn)模型。

二、智能搜索策略:像下棋一樣解數(shù)學(xué)題

研究團(tuán)隊(duì)設(shè)計(jì)的推理過(guò)程就像一場(chǎng)精密的棋局。對(duì)于每個(gè)推理步驟,AI會(huì)生成多個(gè)候選方案,就像棋手會(huì)考慮多種走法一樣。然后,AI會(huì)對(duì)這些候選方案進(jìn)行兩兩比較,通過(guò)投票機(jī)制選出最優(yōu)和最差的選項(xiàng)。

這個(gè)過(guò)程可以用一個(gè)簡(jiǎn)單的公式來(lái)描述:對(duì)于第l步的第i個(gè)候選方案,AI會(huì)將其與所有其他候選方案比較,獲得一個(gè)綜合評(píng)分。評(píng)分最高的方案被選為最佳步驟,評(píng)分最低的成為最差步驟,兩者組成訓(xùn)練用的偏好對(duì)。

特別值得注意的是,如果所有候選步驟的評(píng)分相同,說(shuō)明AI無(wú)法區(qū)分好壞,這時(shí)系統(tǒng)會(huì)放棄當(dāng)前步驟,回退到上一步重新開(kāi)始。這種"反悔機(jī)制"確保了訓(xùn)練數(shù)據(jù)的質(zhì)量,就像一位謹(jǐn)慎的學(xué)生發(fā)現(xiàn)解題思路有問(wèn)題時(shí)會(huì)主動(dòng)回頭重新思考。

通過(guò)這種逐步的偏好優(yōu)化,AI不僅學(xué)會(huì)了生成正確的最終答案,更重要的是學(xué)會(huì)了生成正確的中間推理步驟。這就像培養(yǎng)學(xué)生不僅要得出正確結(jié)果,更要掌握正確的思維過(guò)程。

三、循環(huán)迭代的自我提升機(jī)制

研究團(tuán)隊(duì)設(shè)計(jì)的訓(xùn)練流程是一個(gè)完整的循環(huán)系統(tǒng)。從基礎(chǔ)模型M0開(kāi)始,首先通過(guò)監(jiān)督微調(diào)得到M1,這個(gè)模型已經(jīng)具備了基本的逐步推理和判斷能力。然后,M1開(kāi)始生成自己的訓(xùn)練數(shù)據(jù),通過(guò)逐步搜索和自我判斷創(chuàng)建偏好對(duì),再用這些數(shù)據(jù)訓(xùn)練得到M2。

這個(gè)過(guò)程會(huì)不斷重復(fù),每一代模型都比前一代更強(qiáng)。研究團(tuán)隊(duì)進(jìn)行了四輪迭代,最終得到M4模型。整個(gè)過(guò)程就像一個(gè)學(xué)生通過(guò)不斷的自我練習(xí)和反思逐步提高,每次都在前一次的基礎(chǔ)上取得進(jìn)步。

值得注意的是,隨著迭代的進(jìn)行,AI生成的推理步驟呈現(xiàn)出有趣的變化趨勢(shì):步驟數(shù)量逐漸減少,但每個(gè)步驟的長(zhǎng)度逐漸增加。這表明AI學(xué)會(huì)了生成更高質(zhì)量、更詳細(xì)的單步推理,用更少但更精確的步驟達(dá)到最終答案。這就像一個(gè)學(xué)生從最初的小步快跑逐漸成長(zhǎng)為大步流星的高手。

四、突破性的實(shí)驗(yàn)結(jié)果

研究團(tuán)隊(duì)在多個(gè)數(shù)學(xué)推理基準(zhǔn)測(cè)試上驗(yàn)證了方法的有效性。他們選擇了Qwen2.5-Math系列模型作為基礎(chǔ),分別測(cè)試了7B和72B參數(shù)規(guī)模的版本。測(cè)試涵蓋了從基礎(chǔ)的GSM8k和MATH數(shù)據(jù)集,到更具挑戰(zhàn)性的高考2023英文版、奧林匹克數(shù)學(xué)競(jìng)賽、AIME2024和AMC2023等多個(gè)基準(zhǔn)。

實(shí)驗(yàn)結(jié)果令人振奮。以72B模型為例,經(jīng)過(guò)四輪自我獎(jiǎng)勵(lì)訓(xùn)練后,模型在所有測(cè)試基準(zhǔn)上都顯示出穩(wěn)定的性能提升。特別是在一些復(fù)雜任務(wù)上,提升幅度尤為顯著。比如在AIME2024測(cè)試中,準(zhǔn)確率從13.3%提升到23.3%,在AMC2023中從45.0%提升到57.5%。

更重要的是,研究團(tuán)隊(duì)的方法在各個(gè)基準(zhǔn)測(cè)試上都超越了傳統(tǒng)的自我獎(jiǎng)勵(lì)方法。通過(guò)對(duì)比從M1到M4的性能變化,可以清楚地看到過(guò)程式自我獎(jiǎng)勵(lì)方法帶來(lái)了更穩(wěn)定、更顯著的改進(jìn)。這種優(yōu)勢(shì)在7B和72B兩個(gè)不同規(guī)模的模型上都得到了驗(yàn)證,說(shuō)明方法具有良好的通用性。

研究團(tuán)隊(duì)還發(fā)現(xiàn),較大的模型(72B)比較小的模型(7B)獲得了更穩(wěn)定的改進(jìn)效果。這可能是因?yàn)榇竽P途哂懈鼜?qiáng)的數(shù)學(xué)推理和判斷能力,能夠更好地利用自我獎(jiǎng)勵(lì)機(jī)制。

五、深入分析:AI判斷能力的演變

除了數(shù)學(xué)推理能力的提升,研究團(tuán)隊(duì)還深入分析了AI作為"判官"的表現(xiàn)。他們構(gòu)建了500個(gè)測(cè)試樣本來(lái)評(píng)估AI進(jìn)行逐步判斷的準(zhǔn)確性。結(jié)果顯示,在經(jīng)過(guò)少量評(píng)估微調(diào)數(shù)據(jù)的初始化后,AI就能達(dá)到很高的判斷準(zhǔn)確率:7B模型達(dá)到92.8%,72B模型更是高達(dá)95.6%。

有趣的是,雖然在后續(xù)迭代中沒(méi)有加入新的判斷訓(xùn)練數(shù)據(jù),AI的判斷能力依然保持在較高水平。研究團(tuán)隊(duì)觀察到一個(gè)一致的模式:判斷準(zhǔn)確率先上升,然后略有下降,最后再次上升。這個(gè)現(xiàn)象可以這樣理解:最初AI通過(guò)評(píng)估數(shù)據(jù)獲得強(qiáng)判斷能力,隨后在數(shù)學(xué)訓(xùn)練中略有波動(dòng),但隨著數(shù)學(xué)能力的整體提升,判斷能力也相應(yīng)改善。

這種現(xiàn)象說(shuō)明了數(shù)學(xué)推理能力和判斷能力之間的相互促進(jìn)關(guān)系。一個(gè)數(shù)學(xué)能力更強(qiáng)的AI,自然也能更準(zhǔn)確地判斷推理步驟的質(zhì)量,形成了良性循環(huán)。

六、數(shù)據(jù)分布與推理模式的變化

研究團(tuán)隊(duì)通過(guò)數(shù)據(jù)可視化分析發(fā)現(xiàn)了訓(xùn)練過(guò)程中的有趣現(xiàn)象。他們使用BERT嵌入和t-SNE降維技術(shù)分析了不同類型數(shù)據(jù)的分布情況。結(jié)果顯示,評(píng)估微調(diào)數(shù)據(jù)和指令微調(diào)數(shù)據(jù)在分布上并不重疊,這使得AI能夠清晰地區(qū)分兩種不同的任務(wù)模式,避免了相互干擾。

同時(shí),模型生成的偏好對(duì)數(shù)據(jù)與指令微調(diào)數(shù)據(jù)的分布有所不同,但與評(píng)估數(shù)據(jù)相對(duì)獨(dú)立。這種分布特性有助于AI在迭代過(guò)程中同時(shí)提升數(shù)學(xué)推理和判斷能力,而不會(huì)因?yàn)橛?xùn)練數(shù)據(jù)的混雜而產(chǎn)生負(fù)面影響。

在推理模式方面,研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)清晰的趨勢(shì):隨著迭代進(jìn)行,AI生成的推理步驟數(shù)量逐漸減少,但每個(gè)步驟的平均長(zhǎng)度不斷增加。這表明AI學(xué)會(huì)了生成更高質(zhì)量、更詳細(xì)的單步推理,能夠在更少的步驟中完成更復(fù)雜的思考過(guò)程。

這種變化反映了AI推理能力的質(zhì)的提升。就像一個(gè)經(jīng)驗(yàn)豐富的數(shù)學(xué)家能夠用簡(jiǎn)潔而深刻的方式解決復(fù)雜問(wèn)題,而初學(xué)者則需要更多的小步驟。

七、測(cè)試時(shí)擴(kuò)展能力的驗(yàn)證

研究團(tuán)隊(duì)還驗(yàn)證了訓(xùn)練后的AI在測(cè)試時(shí)擴(kuò)展能力方面的表現(xiàn)。測(cè)試時(shí)擴(kuò)展是指AI在推理過(guò)程中進(jìn)行搜索和選擇,類似于人類在考試時(shí)會(huì)仔細(xì)思考和檢查。

實(shí)驗(yàn)結(jié)果顯示,經(jīng)過(guò)過(guò)程式自我獎(jiǎng)勵(lì)訓(xùn)練的AI在測(cè)試時(shí)擴(kuò)展方面表現(xiàn)優(yōu)異。與直接生成答案相比,通過(guò)搜索和選擇能夠獲得更好的性能。更重要的是,從M1到M4的迭代過(guò)程中,AI的測(cè)試時(shí)擴(kuò)展能力也在不斷提升,這與其數(shù)學(xué)推理和判斷能力的提升是一致的。

這個(gè)結(jié)果證明了AI不僅在訓(xùn)練時(shí)學(xué)會(huì)了更好的推理模式,在實(shí)際應(yīng)用時(shí)也能夠有效利用額外的計(jì)算資源來(lái)獲得更準(zhǔn)確的結(jié)果。這為AI在實(shí)際數(shù)學(xué)問(wèn)題解決中的應(yīng)用提供了更多可能性。

八、方法的局限性與未來(lái)展望

盡管取得了顯著成果,研究團(tuán)隊(duì)也誠(chéng)實(shí)地指出了當(dāng)前方法的局限性。首先,初始化模型M1的基礎(chǔ)能力直接影響后續(xù)過(guò)程式自我獎(jiǎng)勵(lì)的效果。如果基礎(chǔ)模型的數(shù)學(xué)推理和判斷能力較弱,后續(xù)的自我訓(xùn)練效果也會(huì)受到限制。這意味著需要更高質(zhì)量的初始化數(shù)據(jù)來(lái)確保良好的起點(diǎn)。

其次,由于計(jì)算資源限制,當(dāng)前研究只進(jìn)行了四輪迭代實(shí)驗(yàn)。更多輪次的迭代是否能帶來(lái)進(jìn)一步提升,以及性能提升何時(shí)會(huì)達(dá)到瓶頸,這些問(wèn)題還需要更深入的研究。

此外,研究主要聚焦于數(shù)學(xué)推理任務(wù)。這種過(guò)程式自我獎(jiǎng)勵(lì)方法是否能夠推廣到其他需要多步推理的任務(wù),如科學(xué)推理、邏輯推理等,也是值得探索的方向。

展望未來(lái),這項(xiàng)研究為AI的自主學(xué)習(xí)和能力提升開(kāi)辟了新的道路。通過(guò)讓AI學(xué)會(huì)自我監(jiān)督和自我改進(jìn),我們可能最終實(shí)現(xiàn)超越人類專家水平的AI系統(tǒng)。這不僅在數(shù)學(xué)領(lǐng)域有重要意義,在科學(xué)研究、工程設(shè)計(jì)等需要復(fù)雜推理的領(lǐng)域都可能產(chǎn)生深遠(yuǎn)影響。

結(jié)論

說(shuō)到底,這項(xiàng)研究最大的意義在于展示了AI自主學(xué)習(xí)的巨大潛力。通過(guò)讓AI既當(dāng)學(xué)生又當(dāng)老師,研究團(tuán)隊(duì)成功打破了傳統(tǒng)訓(xùn)練方法的瓶頸,實(shí)現(xiàn)了性能的持續(xù)提升。這就像培養(yǎng)了一個(gè)永不疲倦、不斷自我完善的學(xué)習(xí)者。

歸根結(jié)底,這種過(guò)程式自我獎(jiǎng)勵(lì)的思想可能會(huì)徹底改變我們訓(xùn)練AI的方式。不再需要大量的人工標(biāo)注和外部監(jiān)督,AI可以通過(guò)自我反思和改進(jìn)達(dá)到更高的水平。這對(duì)普通人意味著什么呢?未來(lái)我們可能會(huì)看到更智能的AI助手,它們不僅能解決復(fù)雜的數(shù)學(xué)問(wèn)題,還能在解題過(guò)程中提供清晰的步驟說(shuō)明,真正成為人類學(xué)習(xí)和工作的得力伙伴。

當(dāng)然,這項(xiàng)研究也提出了一個(gè)有趣的哲學(xué)問(wèn)題:當(dāng)AI學(xué)會(huì)了自我教育和自我評(píng)判,它們是否已經(jīng)具備了某種形式的"智慧"?雖然我們還無(wú)法給出確定答案,但可以肯定的是,這種技術(shù)將為教育、科研和日常問(wèn)題解決帶來(lái)革命性變化。

對(duì)于那些對(duì)AI技術(shù)發(fā)展感興趣的讀者,這項(xiàng)研究提供了一個(gè)精彩的案例,展示了如何通過(guò)巧妙的設(shè)計(jì)讓機(jī)器實(shí)現(xiàn)自我超越。有興趣深入了解技術(shù)細(xì)節(jié)的朋友,可以通過(guò)arXiv:2503.03746v1查閱完整的研究論文。

Q&A

Q1:什么是過(guò)程式自我獎(jiǎng)勵(lì),它與傳統(tǒng)AI訓(xùn)練有什么不同? A:過(guò)程式自我獎(jiǎng)勵(lì)是讓AI像老師一樣檢查自己每個(gè)解題步驟的方法。傳統(tǒng)訓(xùn)練只看最終答案對(duì)錯(cuò),而這種方法關(guān)注解題過(guò)程中的每一步,AI會(huì)生成多個(gè)候選步驟,然后自己判斷哪個(gè)更好,用這些判斷結(jié)果來(lái)改進(jìn)自己,實(shí)現(xiàn)持續(xù)的自我提升。

Q2:AI會(huì)不會(huì)真的超越人類數(shù)學(xué)家? A:目前還沒(méi)有,但這項(xiàng)研究顯示了這種可能性。通過(guò)自我獎(jiǎng)勵(lì)訓(xùn)練,AI在多個(gè)數(shù)學(xué)競(jìng)賽基準(zhǔn)上都獲得了顯著提升,有些甚至接近人類專家水平。不過(guò)AI還缺乏創(chuàng)造性思維和直覺(jué),完全超越人類數(shù)學(xué)家還需要更多突破。

Q3:普通人能用到這種技術(shù)嗎? A:雖然這項(xiàng)技術(shù)還處于研究階段,但未來(lái)很可能出現(xiàn)在智能教育軟件、在線學(xué)習(xí)平臺(tái)中。你可能會(huì)用到能夠逐步解釋數(shù)學(xué)題、檢查解題過(guò)程的AI家教,它們不僅給出答案,還能像真正的老師一樣指出每一步的對(duì)錯(cuò)和原因。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-