av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見(jiàn)證連接與計(jì)算的「力量」

首頁(yè) 推理健身房:帶有可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)推理環(huán)境

推理健身房:帶有可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)推理環(huán)境

2025-06-05 12:01
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-05 12:01 ? 科技行者

GitHub團(tuán)隊(duì)推出突破性推理環(huán)境庫(kù),讓AI像健身一樣練習(xí)邏輯思維

近日,GitHub團(tuán)隊(duì)的Zafir Stojanovski、Oliver Stanley、Joe Sharratt、Richard Jones、Abdulhakeem Adefioye,以及顧問(wèn)Jean Kaddour和Andreas Kopf發(fā)布了一項(xiàng)令人矚目的研究成果——名為"REASONING GYM"(推理健身房,簡(jiǎn)稱RG)的推理環(huán)境庫(kù)。這項(xiàng)研究發(fā)表于2025年5月30日,預(yù)印本已上傳至arXiv(arXiv:2505.24760v1)。這個(gè)創(chuàng)新平臺(tái)猶如為AI模型打造的"智力健身房",旨在通過(guò)可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)方式提升模型的推理能力。

想象一下,如果我們能建立一個(gè)永不枯竭的題庫(kù),里面的問(wèn)題可以無(wú)限生成、難度可調(diào)節(jié),并且每道題都有明確的評(píng)分標(biāo)準(zhǔn),那么訓(xùn)練AI思維能力將會(huì)變得多么高效。這正是推理健身房的核心理念。它提供了超過(guò)100個(gè)數(shù)據(jù)生成器和驗(yàn)證器,涵蓋了代數(shù)、算術(shù)、計(jì)算、認(rèn)知、幾何、圖論、邏輯和各種常見(jiàn)游戲等多個(gè)領(lǐng)域,為AI模型提供了一個(gè)全面的"腦力鍛煉"環(huán)境。

與傳統(tǒng)的固定數(shù)據(jù)集不同,推理健身房的革命性創(chuàng)新在于它能夠生成幾乎無(wú)限的訓(xùn)練數(shù)據(jù),并且可以調(diào)整復(fù)雜度。這就像是為AI打造了一套從初級(jí)到高級(jí)的完整訓(xùn)練計(jì)劃,讓模型可以循序漸進(jìn)地增強(qiáng)自己的推理能力。研究團(tuán)隊(duì)的實(shí)驗(yàn)結(jié)果表明,這種方法在評(píng)估和強(qiáng)化學(xué)習(xí)推理模型方面非常有效。

為什么我們需要推理健身房?

近年來(lái),大型語(yǔ)言模型(LLMs)的推理能力取得了顯著進(jìn)步,像OpenAI-o1、DeepSeek-R1和QwQ-32B等模型不斷刷新各項(xiàng)基準(zhǔn)測(cè)試的記錄。這些突破的背后,是"帶可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)"(RLVR)技術(shù)的廣泛應(yīng)用,它允許模型通過(guò)結(jié)果反饋來(lái)學(xué)習(xí)開(kāi)放式的推理過(guò)程,支持多樣化的解決路徑。

但RLVR的成功嚴(yán)重依賴高質(zhì)量訓(xùn)練數(shù)據(jù)的可用性。目前的方法面臨一個(gè)根本性的可擴(kuò)展性瓶頸:它們要么依賴昂貴的人工整理問(wèn)答對(duì),要么依賴從互聯(lián)網(wǎng)抓取的內(nèi)容,這兩種方式在長(zhǎng)期來(lái)看既不可持續(xù)也不可靠。隨著推理模型不斷進(jìn)步,數(shù)據(jù)稀缺問(wèn)題將成為限制進(jìn)一步發(fā)展的嚴(yán)重障礙。

推理健身房正是為解決這一挑戰(zhàn)而生。它提供的程序化生成環(huán)境可以創(chuàng)建無(wú)限多樣的訓(xùn)練實(shí)例,無(wú)需擔(dān)心數(shù)據(jù)耗盡的問(wèn)題。這就像是從固定的題庫(kù)練習(xí)轉(zhuǎn)變?yōu)橐晃荒軌虿粩喑鲂骂}的無(wú)限耐心的導(dǎo)師,根據(jù)學(xué)生的進(jìn)步不斷調(diào)整題目難度。

推理健身房如何工作?

如果把傳統(tǒng)的AI訓(xùn)練數(shù)據(jù)集比作固定的教科書(shū),那么推理健身房就像是一個(gè)能自動(dòng)生成無(wú)限習(xí)題的智能教學(xué)系統(tǒng)。在這個(gè)系統(tǒng)中,有三個(gè)核心設(shè)計(jì)原則:

首先是算法可驗(yàn)證性。每個(gè)任務(wù)都能自動(dòng)驗(yàn)證,不需要人為判斷。這就像是一個(gè)自動(dòng)批改系統(tǒng),能立即判斷答案是否正確,并給出明確的分?jǐn)?shù),為可靠的強(qiáng)化學(xué)習(xí)訓(xùn)練提供基礎(chǔ)。

其次是廣闊的解決方案空間。任務(wù)設(shè)計(jì)有著廣泛的解決路徑,鼓勵(lì)模型發(fā)展通用策略而非簡(jiǎn)單記憶特定解法,有效防止模型找"投機(jī)取巧"的捷徑。

第三是參數(shù)化難度控制??膳渲玫膮?shù)可以系統(tǒng)地控制問(wèn)題特性,通過(guò)精確的難度調(diào)整啟用動(dòng)態(tài)課程學(xué)習(xí)。就像健身房中從輕重量逐漸過(guò)渡到重量級(jí)訓(xùn)練一樣,模型可以從簡(jiǎn)單問(wèn)題開(kāi)始,逐步挑戰(zhàn)更復(fù)雜的任務(wù)。

研究團(tuán)隊(duì)將推理健身房的生成器分為幾個(gè)高級(jí)類別,反映了人類在解決問(wèn)題時(shí)依賴的抽象概念:數(shù)學(xué)領(lǐng)域(代數(shù)、算術(shù)、幾何)、算法思維(搜索、優(yōu)化、程序)、邏輯推理(形式證明、推理規(guī)則)、模式識(shí)別(序列、視覺(jué)類比)和約束滿足(游戲、謎題、規(guī)劃)。

在每個(gè)類別中,任務(wù)不是固定的問(wèn)題-答案對(duì),而是生成算法,其參數(shù)可以連續(xù)調(diào)整問(wèn)題特性:難度參數(shù)直接控制復(fù)雜度(圖的節(jié)點(diǎn)數(shù)、多項(xiàng)式度數(shù)、單詞長(zhǎng)度等);結(jié)構(gòu)參數(shù)決定基本問(wèn)題屬性(維度、約束類型、證明深度);風(fēng)格參數(shù)在不影響難度的情況下改變呈現(xiàn)方式(變量名、數(shù)字格式、問(wèn)題框架)。

前沿模型在推理健身房中的表現(xiàn)如何?

研究團(tuán)隊(duì)對(duì)最先進(jìn)的語(yǔ)言模型在推理健身房任務(wù)上進(jìn)行了全面評(píng)估,結(jié)果顯示即使是前沿模型也面臨著持續(xù)的挑戰(zhàn)。研究分析了模型在不同推理領(lǐng)域的零樣本能力以及任務(wù)難度縮放的影響。

最令人矚目的發(fā)現(xiàn)是推理優(yōu)化模型與通用模型之間存在明顯的性能差距。專門(mén)針對(duì)推理進(jìn)行訓(xùn)練的模型,包括o3-mini(63.5%)、DeepSeek-R1(59.5%)和Grok 3 Mini(55.1%),形成了一個(gè)明顯的領(lǐng)先群體。相比之下,強(qiáng)大的通用系統(tǒng)如Llama 4 Maverick(41.5%)、Claude 3.5 Sonnet(40.3%)和Gemma 3 27B(20.3%)的表現(xiàn)明顯較低。

最佳推理模型和非推理模型之間的22%差距遠(yuǎn)不止是邊際改進(jìn),這表明RLVR能夠解鎖質(zhì)的不同能力。這種優(yōu)勢(shì)在推理健身房的各種任務(wù)類別中的一致性表明,推理特定訓(xùn)練能夠發(fā)展廣泛適用的技能,而不僅僅是狹窄領(lǐng)域的專業(yè)知識(shí)。

從任務(wù)類別來(lái)看,不同模型展現(xiàn)出有趣的能力模式。數(shù)學(xué)領(lǐng)域(代數(shù)、算術(shù)、幾何)在所有模型類型中表現(xiàn)相對(duì)較強(qiáng),這可能反映了最近訓(xùn)練方案對(duì)數(shù)學(xué)推理的重視。然而,需要以文本格式表示的視覺(jué)空間推理的任務(wù)(認(rèn)知、游戲)證明特別具有挑戰(zhàn)性,即使最強(qiáng)大的模型也達(dá)不到50%的準(zhǔn)確率。

算法任務(wù)呈現(xiàn)出一個(gè)中間挑戰(zhàn),推理和非推理模型之間有明顯的性能差異。這表明,雖然基本的算法思維存在于通用模型中,但復(fù)雜算法推理所需的系統(tǒng)問(wèn)題分解顯著受益于專門(mén)訓(xùn)練。

難度懸崖現(xiàn)象

研究中最引人注目的發(fā)現(xiàn)之一是當(dāng)任務(wù)難度增加時(shí),性能急劇下降的現(xiàn)象。研究團(tuán)隊(duì)將這種現(xiàn)象稱為"難度懸崖",它揭示了當(dāng)前AI推理能力的脆弱性。

對(duì)于o3-mini模型,在代碼(-71.9%)、圖(-33.8%)、幾何(-33.1%)和算法(-25.6%)類別中出現(xiàn)了最陡峭的下降。DeepSeek-R1顯示了類似的模式,在相同類別上分別下降了-61.8%、-29.6%、-11.8%和-27.9%??傮w而言,大多數(shù)模型-任務(wù)對(duì)在難度增加時(shí)都表現(xiàn)出明顯的性能下降。

這些結(jié)果揭示了一些重要啟示:當(dāng)前模型的能力比通常認(rèn)為的更脆弱。模型可能學(xué)習(xí)識(shí)別和應(yīng)用解決方案模板,而不是發(fā)展穩(wěn)健的推理策略。這一點(diǎn)也被其他研究所證實(shí)。空間推理在基于文本的表示中對(duì)所有模型來(lái)說(shuō)仍然特別具有挑戰(zhàn)性。不同領(lǐng)域的難度懸崖幅度各不相同,表明推理挑戰(zhàn)并不均勻。一些領(lǐng)域(如基本算術(shù))可能接近飽和,而其他領(lǐng)域(如復(fù)雜算法推理)在很大程度上仍未解決。

技能遷移和泛化

推理研究中的一個(gè)核心問(wèn)題是在特定任務(wù)上學(xué)習(xí)的技能是否能遷移到相關(guān)問(wèn)題。推理健身房的多樣化任務(wù)類別提供了一個(gè)理想的測(cè)試平臺(tái),用于研究領(lǐng)域內(nèi)遷移(在推理類別內(nèi))和跨領(lǐng)域遷移(跨不同類型的推理)。

研究團(tuán)隊(duì)首先調(diào)查了RLVR訓(xùn)練能否在推理領(lǐng)域內(nèi)的任務(wù)子集上改善同一領(lǐng)域中保留任務(wù)的性能。這測(cè)試了模型是否能夠發(fā)展特定領(lǐng)域的推理策略,這些策略能夠超越它們訓(xùn)練過(guò)的特定任務(wù)。每個(gè)實(shí)驗(yàn)涉及在相同評(píng)估集上進(jìn)行三次獨(dú)立運(yùn)行,提供了對(duì)遷移效果的穩(wěn)健估計(jì)。

訓(xùn)練動(dòng)態(tài)圖顯示,大多數(shù)類別表現(xiàn)出快速的初始改進(jìn),反映了格式學(xué)習(xí)和真正的技能獲取。例外是算術(shù),基礎(chǔ)模型已經(jīng)表現(xiàn)出很強(qiáng)的能力,這可能是由于在其監(jiān)督微調(diào)階段進(jìn)行了廣泛的數(shù)學(xué)訓(xùn)練。這種天花板效應(yīng)提供了一個(gè)有用的控制,表明訓(xùn)練改進(jìn)反映了真正的學(xué)習(xí),而不是人為因素。

領(lǐng)域內(nèi)遷移結(jié)果顯示,所有推理類別都一致改善。改進(jìn)范圍從基礎(chǔ)模型已經(jīng)表現(xiàn)出能力的領(lǐng)域(算術(shù):+6.3%)到更具挑戰(zhàn)性的領(lǐng)域(代數(shù):+11.7%)的適度增益。特別引人注目的是游戲類別,基礎(chǔ)模型達(dá)到零準(zhǔn)確率,但在RLVR訓(xùn)練后發(fā)展出可測(cè)量的能力(3.3%)。這表明特定領(lǐng)域的訓(xùn)練可以引導(dǎo)全新的推理能力,而不僅僅是完善現(xiàn)有能力。跨不同難度水平的一致改進(jìn)表明,RLVR發(fā)展了穩(wěn)健的特定領(lǐng)域策略,而不是特定任務(wù)的解決方案。

跨領(lǐng)域遷移:意外的能力遷移

比領(lǐng)域內(nèi)遷移更令人驚訝的是在一個(gè)領(lǐng)域?qū)W習(xí)的推理技能可能有益于完全不同領(lǐng)域的性能。這表明RLVR能夠灌輸超越特定問(wèn)題類型的通用推理能力。

研究團(tuán)隊(duì)在單個(gè)推理健身房類別上訓(xùn)練單獨(dú)的模型,然后評(píng)估它們?cè)诓煌I(lǐng)域的保留任務(wù)上的表現(xiàn)。這種設(shè)計(jì)通過(guò)確保模型在訓(xùn)練期間從不看到來(lái)自評(píng)估領(lǐng)域的數(shù)據(jù)來(lái)隔離跨領(lǐng)域遷移的效果。每次跨領(lǐng)域評(píng)估涉及三次獨(dú)立運(yùn)行,確保穩(wěn)健的估計(jì)。

跨領(lǐng)域遷移結(jié)果揭示了一些令人驚訝的模式:在算法任務(wù)上訓(xùn)練的模型在代數(shù)(+29.1%)和幾何(+22.3%)方面顯示出實(shí)質(zhì)性改進(jìn),這表明程序推理技能在數(shù)學(xué)領(lǐng)域中普遍適用;在邏輯任務(wù)上訓(xùn)練改善了認(rèn)知(+13.3%)和圖形推理(+9.1%)的性能,表明共享的底層推理機(jī)制;游戲訓(xùn)練顯示出選擇性遷移,盡管領(lǐng)域內(nèi)性能較差,但在代數(shù)(+21.8%)和認(rèn)知(+13.1%)方面有所改善,這表明約束滿足技能可以遷移到其他領(lǐng)域。

這些結(jié)果提供了強(qiáng)有力的證據(jù),表明RLVR訓(xùn)練發(fā)展了可遷移的推理能力,這些能力遠(yuǎn)遠(yuǎn)超出了訓(xùn)練發(fā)生的特定領(lǐng)域。

遷移到外部基準(zhǔn)測(cè)試

推理健身房實(shí)用性的最終測(cè)試在于通過(guò)訓(xùn)練開(kāi)發(fā)的技能是否能遷移到已建立的推理基準(zhǔn)測(cè)試。研究團(tuán)隊(duì)通過(guò)在推理健身房的數(shù)學(xué)類別上訓(xùn)練模型,然后評(píng)估在GSM8K和MATH(兩個(gè)廣泛使用的數(shù)學(xué)推理基準(zhǔn)測(cè)試)上的性能來(lái)調(diào)查這一點(diǎn)。

研究團(tuán)隊(duì)在推理健身房的代數(shù)、算術(shù)和幾何任務(wù)的組合上訓(xùn)練了模型,然后在完整的GSM8K和MATH測(cè)試集上進(jìn)行評(píng)估。訓(xùn)練涉及對(duì)Llama-3.2-3B-Instruct進(jìn)行800個(gè)GRPO步驟,對(duì)Qwen2.5-3B-Instruct進(jìn)行600個(gè)步驟,評(píng)估使用語(yǔ)言模型評(píng)估工具進(jìn)行,以確保標(biāo)準(zhǔn)化比較。

外部遷移結(jié)果表明,推理健身房訓(xùn)練在已建立的基準(zhǔn)測(cè)試上產(chǎn)生了有意義的改進(jìn),驗(yàn)證了該方法的實(shí)際適用性。在GSM8k上,兩個(gè)模型都顯示出適度但一致的改進(jìn)(+0.5%);在MATH基準(zhǔn)測(cè)試上出現(xiàn)了更大的收益,特別是對(duì)于Qwen2.5-3B-Instruct(+9.7%),表明推理健身房訓(xùn)練發(fā)展了遷移到復(fù)雜數(shù)學(xué)問(wèn)題解決的技能。

課程強(qiáng)化學(xué)習(xí)

課程學(xué)習(xí)的目標(biāo)是組織訓(xùn)練分布,使學(xué)習(xí)者首先掌握更簡(jiǎn)單的實(shí)例,然后逐漸接觸更難的變體。理想情況下,這種方法會(huì)導(dǎo)致整個(gè)訓(xùn)練過(guò)程中更快的進(jìn)展或更好的最終性能。研究團(tuán)隊(duì)通過(guò)在RLVR期間持續(xù)增加推理健身房任務(wù)的復(fù)雜性來(lái)評(píng)估一種簡(jiǎn)單形式的課程學(xué)習(xí)。

實(shí)驗(yàn)設(shè)置使用了兩種條件:課程學(xué)習(xí),從3個(gè)字母的單詞開(kāi)始,當(dāng)20個(gè)訓(xùn)練步驟的性能超過(guò)70%時(shí)增加長(zhǎng)度;固定難度,從所有單詞長(zhǎng)度均勻采樣。兩個(gè)模型都訓(xùn)練了一個(gè)時(shí)期,并在跨所有難度級(jí)別的500個(gè)保留示例上進(jìn)行評(píng)估。

結(jié)果揭示了推理健身房環(huán)境中課程學(xué)習(xí)的好處。課程訓(xùn)練的模型展示了更快的學(xué)習(xí)動(dòng)態(tài),并在所有難度級(jí)別上實(shí)現(xiàn)了更好的最終性能。加速學(xué)習(xí):課程方法比固定難度訓(xùn)練明顯更快地達(dá)到高性能水平,這表明更有效地使用訓(xùn)練數(shù)據(jù)。改進(jìn)的泛化:盡管從更容易的例子開(kāi)始,課程訓(xùn)練的模型最終在最具挑戰(zhàn)性的單詞長(zhǎng)度上也優(yōu)于固定難度模型。

相關(guān)工作和局限性

雖然推理健身房提供了一個(gè)強(qiáng)大的框架來(lái)生成和評(píng)估推理任務(wù),但研究團(tuán)隊(duì)也承認(rèn)當(dāng)前方法的一些局限性:一些推理領(lǐng)域,特別是那些需要廣泛領(lǐng)域知識(shí)或創(chuàng)造力的領(lǐng)域,難以用程序生成器捕捉;驗(yàn)證函數(shù)雖然全面,但可能無(wú)法捕捉人類認(rèn)為重要的解決方案質(zhì)量的所有方面;當(dāng)前的推理健身房實(shí)現(xiàn)專注于單輪、基于文本的推理,尚未包括多輪或多模態(tài)推理任務(wù)。

研究團(tuán)隊(duì)計(jì)劃在未來(lái)的工作中解決這些限制,可能擴(kuò)展到更廣泛的領(lǐng)域,并納入更復(fù)雜的評(píng)估機(jī)制。

結(jié)論:推理健身房的未來(lái)

推理健身房代表了AI推理訓(xùn)練的一個(gè)重要進(jìn)步,提供了一個(gè)全面的程序化生成環(huán)境庫(kù),可以生成無(wú)限的訓(xùn)練實(shí)例,并具有可調(diào)整的難度。與傳統(tǒng)的固定數(shù)據(jù)集相比,這種方法有幾個(gè)關(guān)鍵優(yōu)勢(shì):它消除了記憶問(wèn)題,使得難度動(dòng)態(tài)調(diào)整成為可能,提供無(wú)限的訓(xùn)練數(shù)據(jù),并允許研究人員系統(tǒng)地研究特定推理能力的發(fā)展。

正如人類通過(guò)持續(xù)練習(xí)和逐漸增加難度來(lái)培養(yǎng)推理技能一樣,推理健身房為AI模型提供了一個(gè)類似的訓(xùn)練場(chǎng)所。這種方法不僅可以推動(dòng)當(dāng)前模型的性能界限,還可以為我們提供關(guān)于AI系統(tǒng)如何發(fā)展和應(yīng)用推理能力的寶貴見(jiàn)解。

隨著研究界繼續(xù)探索強(qiáng)化學(xué)習(xí)和課程學(xué)習(xí)在提高AI推理能力中的應(yīng)用,像推理健身房這樣的工具將成為關(guān)鍵資源,使研究人員能夠以前所未有的規(guī)模和細(xì)微程度評(píng)估和訓(xùn)練模型。這項(xiàng)研究不僅代表了AI推理訓(xùn)練的一個(gè)技術(shù)突破,也為我們理解機(jī)器思維的發(fā)展方式提供了一個(gè)窗口。

最終,推理健身房的目標(biāo)不僅是生成更好的訓(xùn)練數(shù)據(jù),而是培養(yǎng)能夠進(jìn)行穩(wěn)健、通用推理的AI系統(tǒng)——這是通往更加智能和可靠的AI未來(lái)的重要一步。

對(duì)于希望深入了解或使用推理健身房的讀者,可以訪問(wèn)研究團(tuán)隊(duì)的GitHub倉(cāng)庫(kù):https://github.com/open-thought/reasoning-gym/,那里提供了完整的庫(kù)、任務(wù)生成器、訓(xùn)練基礎(chǔ)設(shè)施和實(shí)驗(yàn)配置。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-