av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 AI玩游戲能讓推理變聰明?新加坡國立大學發(fā)現(xiàn)自對弈訓練的神奇效果

AI玩游戲能讓推理變聰明?新加坡國立大學發(fā)現(xiàn)自對弈訓練的神奇效果

2025-07-02 14:26
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-07-02 14:26 ? 科技行者

這項由新加坡國立大學的劉博、里昂·格特勒等研究人員領(lǐng)導,聯(lián)合A*STAR前沿AI研究中心、東北大學、Sea AI Lab、Plastic Labs和華盛頓大學的團隊共同完成的研究,于2025年6月發(fā)表在arXiv預印本平臺上。有興趣深入了解的讀者可以通過論文編號arXiv:2506.24119v1訪問完整論文。

這項研究解決了一個讓AI研究人員頭疼不已的問題:如何讓人工智能真正學會推理,而不是簡單地背答案。傳統(tǒng)的訓練方法就像讓學生死記硬背標準答案,雖然能在考試中得高分,但遇到新問題就束手無策。更麻煩的是,這種方法需要大量的專家來設(shè)計題目、提供標準答案,成本高昂且難以擴展。

研究團隊提出了一個令人眼前一亮的解決方案:讓AI通過玩游戲來學習推理。他們開發(fā)了一個叫做SPIRAL的訓練框架,讓AI模型通過與自己的復制版本對弈零和游戲來提升推理能力。這就好比讓一個人通過與鏡子中的自己下棋來提高棋藝,隨著自己水平的提升,對手的水平也在同步提升,形成了一個不斷進步的良性循環(huán)。

最令人驚訝的是實驗結(jié)果:僅僅通過訓練AI玩簡單的撲克游戲Kuhn Poker,AI在數(shù)學推理測試中的表現(xiàn)提升了8.6%,在通用推理測試中提升了8.4%。更重要的是,這種提升完全不需要任何數(shù)學題目作為訓練材料。研究人員發(fā)現(xiàn),游戲中培養(yǎng)的三種核心推理模式——系統(tǒng)性分解、期望值計算和逐案分析——能夠完美轉(zhuǎn)移到數(shù)學問題求解中。

**一、游戲訓練的巧妙設(shè)計**

要理解這項研究的精妙之處,我們可以把AI的學習過程想象成運動員的訓練。傳統(tǒng)的AI訓練方法就像讓運動員反復練習比賽中的標準動作,雖然能掌握基本技能,但缺乏應變能力。而SPIRAL框架則像讓運動員在實戰(zhàn)對抗中成長,每一次對弈都是一次新的挑戰(zhàn)。

研究團隊精心選擇了三款具有不同認知要求的游戲作為訓練環(huán)境。井字棋要求空間推理能力,玩家需要識別獲勝模式、阻擋對手威脅并規(guī)劃多步強制序列。這種確定性的完全信息游戲能夠訓練純粹的策略推理,避免了不確定性管理的干擾。

Kuhn Poker則引入了概率推理的挑戰(zhàn)。這是一個簡化版的撲克游戲,只使用三張牌(J、Q、K),每位玩家獲得一張牌,剩余一張不發(fā)。游戲的精髓在于隱藏信息下的決策制定,玩家需要計算期望值、建模對手行為,并在不確定性中做出選擇。這些能力直接對應著數(shù)學中涉及概率、期望值和策略不確定性的問題。

簡單談判游戲則培養(yǎng)了多約束優(yōu)化能力。兩名玩家交換木材和黃金資源,各自擁有不同的估值函數(shù),形成天然的利益對立。成功需要理解對手偏好、規(guī)劃多步交易,以及通過提議和反提議進行策略性溝通。研究人員假設(shè)這些技能能夠轉(zhuǎn)移到優(yōu)化問題、資源分配任務以及需要平衡競爭目標的多約束推理中。

更巧妙的是訓練機制的設(shè)計。與傳統(tǒng)的監(jiān)督學習不同,SPIRAL采用了完全在線的多智能體強化學習系統(tǒng)。系統(tǒng)使用分布式演員-學習者架構(gòu),多個并行演員從不同游戲中采樣軌跡,而集中式學習者處理這些軌跡并執(zhí)行策略更新。這種設(shè)計讓AI能夠在真實的競爭環(huán)境中學習,而不是簡單地模仿專家行為。

**二、自對弈的無限課程效應**

自對弈訓練的魅力在于它創(chuàng)造了一個永不停止的自適應課程。當AI與固定對手訓練時,很容易陷入兩種困境。一種是"格式學習的回合詛咒":面對隨機對手時,AI必須在每個回合都生成正確格式的有效動作才能獲得正面獎勵,但生成完全有效軌跡的概率隨著回合長度呈指數(shù)下降,使得探索和學習變得極其困難。另一種是"靜態(tài)策略利用":固定的模型對手雖然能幫助學習動作格式,但AI很快就會找到針對性的獲勝策略,導致過擬合而無法泛化。

自對弈巧妙地避免了這兩個陷阱。由于對手和自己共享同一個策略網(wǎng)絡(luò),隨著AI能力的提升,對手的水平也在同步增長。這創(chuàng)造了一個始終維持在50%左右勝率的平衡狀態(tài),確保挑戰(zhàn)難度始終適中。更重要的是,這種動態(tài)平衡迫使AI不斷開發(fā)新的策略,而不是停留在固定的獲勝套路上。

實驗數(shù)據(jù)清楚地展示了這種差異。在與固定對手Gemini的訓練中,AI在前128步幾乎沒有任何學習(勝率為0%,意味著沒有正面獎勵信號),直到第384步才學會擊敗這個固定對手,勝率達到62.5%。然而,一旦掌握了獲勝策略,進步就停滯不前。相比之下,自對弈訓練始終維持50-52%的勝率,表明對手在持續(xù)進化以匹配當前能力。

這種持續(xù)適應性訓練在推理能力轉(zhuǎn)移方面表現(xiàn)得更加出色。自對弈在數(shù)學推理測試中達到40%的成績,在通用推理測試中達到45%,分別比最佳固定對手訓練高出5個和3個百分點。這種相對提升證明了多樣化策略比利用靜態(tài)弱點更能培養(yǎng)可泛化的推理模式。

**三、推理模式的意外轉(zhuǎn)移**

研究團隊通過深入分析發(fā)現(xiàn),游戲訓練過程中自然涌現(xiàn)出三種核心推理模式,這些模式能夠以不同程度轉(zhuǎn)移到數(shù)學問題求解中。

逐案分析展現(xiàn)了近乎完美的轉(zhuǎn)移效果,從游戲中的72%使用率幾乎無損地轉(zhuǎn)移到數(shù)學中的71%。這種系統(tǒng)性枚舉的元認知技能代表著一種領(lǐng)域無關(guān)的結(jié)構(gòu)化思維方式,能夠普遍改善推理表現(xiàn)。無論是分析撲克中的對手可能性,還是分析數(shù)學中的解決方案分支,核心技能都是相同的。一個具體的例子是,在游戲中AI學會了"情況1-棄牌:你失去1個籌碼,現(xiàn)在有2個籌碼。情況2-跟注:你有0%的獲勝機會,如果輸了會有1個籌碼"的分析方式,在數(shù)學中則轉(zhuǎn)化為"情況n=0:m?+2=m,無實數(shù)解。情況n=1:m?+6=3m,無實數(shù)解"的系統(tǒng)性枚舉。

期望值計算顯示了有限但有意義的轉(zhuǎn)移,從游戲中的78%使用率轉(zhuǎn)移到數(shù)學中的28%。雖然游戲特定的概率推理在數(shù)學中出現(xiàn)頻率較低,但這主要是因為大多數(shù)數(shù)學問題缺乏顯式的決策理論結(jié)構(gòu)。然而,在涉及概率和優(yōu)化的數(shù)學問題中,這種推理方式直接適用且非常有效。

最有趣的是模式識別展現(xiàn)出的放大效應,從游戲中的35%使用率實際增強到數(shù)學中的45%。研究人員認為這是因為數(shù)學本質(zhì)上需要模式識別,游戲訓練增強了一個已經(jīng)存在的核心數(shù)學技能,使其在面對數(shù)學問題時部署得比游戲中更加頻繁。

**四、多游戲訓練的協(xié)同效應**

單獨游戲訓練已經(jīng)令人印象深刻,但多游戲組合訓練展現(xiàn)出了更加強大的協(xié)同效應。研究團隊發(fā)現(xiàn),不同游戲培養(yǎng)的專門技能能夠互補協(xié)作,創(chuàng)造出比單一游戲更強的綜合能力。

在專家對專家的對決中,這種專業(yè)化分工表現(xiàn)得淋漓盡致。井字棋專家在需要類似認知技能的游戲中表現(xiàn)出色,在訓練游戲中獲得57.5%的勝率,在未見過的貪吃蛇游戲中保持56.0%的表現(xiàn),證明了空間推理能力的穩(wěn)健轉(zhuǎn)移。Kuhn Poker專家在概率推理方面獨領(lǐng)風騷,不僅在訓練游戲中達到64.2%的勝率,在未見過的豬骰子游戲中更是創(chuàng)造了驚人的91.7%勝率。簡單談判專家則在策略優(yōu)化方面見長,在訓練游戲中獲得62.7%勝率,在真相與欺騙游戲中達到55.8%。

然而,真正的魔力在多游戲模型中展現(xiàn)。這個綜合訓練的模型在面對新挑戰(zhàn)時展現(xiàn)出超越任何專家的適應能力。在騙子骰子游戲中,各個專家的表現(xiàn)都不盡如人意,Kuhn Poker專家只有24.9%的勝率,簡單談判專家更是只有12.3%。但多游戲模型卻達到了51.4%的勝率,證明了多樣化訓練創(chuàng)造的涌現(xiàn)能力遠超單一技能的簡單疊加。

這種協(xié)同效應在標準推理基準測試中得到了進一步驗證。多游戲訓練將Qwen3-4B模型的平均表現(xiàn)從33.1%提升到42.3%,提升幅度達到9.2個百分點。更令人印象深刻的是,即使對于已經(jīng)表現(xiàn)優(yōu)異的強推理模型DeepSeek-R1-Distill-Qwen-7B,多游戲訓練仍然能夠帶來從59.7%到61.7%的2.0個百分點提升,證明游戲訓練教授的認知技能即使對已經(jīng)擅長數(shù)學推理的模型也具有互補價值。

**五、技術(shù)創(chuàng)新的關(guān)鍵支撐**

整個研究的成功離不開一項關(guān)鍵的技術(shù)創(chuàng)新:角色條件優(yōu)勢估計(RAE)。這項技術(shù)解決了多智能體自對弈訓練中的一個根本性挑戰(zhàn)——高方差梯度導致的訓練不穩(wěn)定。

傳統(tǒng)的強化學習方法在多智能體設(shè)置中面臨嚴重的方差問題,特別是當兩個玩家共享同一個策略網(wǎng)絡(luò)時。即使在共享策略的情況下,不同角色可能因為游戲不對稱性(如井字棋的先手優(yōu)勢、Kuhn Poker的信息不對稱)而具有不同的期望回報。RAE通過為每個游戲和角色維護獨立的基線來解決這個問題,使用指數(shù)移動平均來估計每個角色在特定游戲中的期望回報。

這種看似簡單的改進產(chǎn)生了巨大的影響。沒有RAE的訓練會導致災難性的"思維崩潰"現(xiàn)象:模型在200步訓練后開始截斷推理過程,生成空洞的推理軌跡如"下注"。這種崩潰伴隨著梯度范數(shù)的不穩(wěn)定,先是出現(xiàn)高初值和峰值,然后在200步后崩潰至接近零,表明模型已收斂到退化策略。

相比之下,使用RAE的訓練始終維持穩(wěn)定的梯度范數(shù)(約0.1),確保持續(xù)學習。更重要的是,RAE防止了推理放棄行為,維持了對泛化至關(guān)重要的實質(zhì)性推理。實驗清楚地顯示,沒有RAE的模型學會了單純玩游戲但放棄了鏈式思維,導致泛化失敗。數(shù)學推理性能從35%暴跌至12%(相對下降66%),通用推理從44%下降至40%。

**六、實驗驗證的全面性**

研究團隊的實驗設(shè)計展現(xiàn)了令人敬佩的全面性和嚴謹性。他們不滿足于單一維度的驗證,而是從多個角度確保發(fā)現(xiàn)的可靠性。

在游戲外泛化測試中,他們精心選擇了七款未見過的游戲來測試學習技能的遷移。貪吃蛇和四子棋測試空間推理,豬骰子和騙子骰子測試概率推理,真相與欺騙測試策略優(yōu)化。這些游戲?qū)iT探測從井字棋、Kuhn Poker和簡單談判中學到的空間推理、概率推理和策略優(yōu)化是否能遷移到新的游戲機制。

在標準推理基準測試中,他們使用了廣泛的數(shù)學和通用推理評估套件。數(shù)學推理涵蓋MATH500、AIME24、AIME25、OlympiadBench、AMC-23和Minerva Math等數(shù)據(jù)集,覆蓋從基礎(chǔ)數(shù)學到競賽級難題的各個層次。通用推理則使用GPQA(研究生級科學問題)和MMLU-Pro(多學科知識基準)進行評估。所有評估都采用零樣本設(shè)置,確保游戲誘導的推理能夠成功遷移到通用問題解決中。

更為重要的是,他們通過大規(guī)模的推理模式分析來理解遷移機制。使用GPT-4.1作為評判器,他們分析了290個游戲軌跡和46,792個數(shù)學問題解答中的推理軌跡,將推理策略分類為三種核心模式。通過跟蹤這些模式在訓練檢查點(早期:步驟0,中期:步驟128,后期:步驟400)的演變,他們測量了從游戲到數(shù)學領(lǐng)域的遷移率。

實驗結(jié)果的一致性令人信服。SPIRAL訓練僅在Kuhn Poker上就在數(shù)學推理(MATH500提升10.6%,AIME'25提升6.7%,AMC-23提升7.5%)和通用推理(GPQA提升6.4%,MMLU-Pro提升10.5%)方面實現(xiàn)了一致的提升。特別值得注意的是,SPIRAL實現(xiàn)了這些收益,盡管在整個訓練過程中從未見過單一的數(shù)學方程、學術(shù)問題或領(lǐng)域特定的訓練示例。Minerva Math上18.1%的提升和數(shù)學基準平均8.7%的收益證明,競爭游戲環(huán)境成功地促使發(fā)現(xiàn)了在各個領(lǐng)域廣泛遷移的推理模式。

**七、研究意義與未來展望**

這項研究的意義遠超其技術(shù)貢獻本身,它揭示了一個關(guān)于智能本質(zhì)的深刻洞察:復雜的推理能力可能不是來自精密的監(jiān)督,而是來自迫使模型思考的環(huán)境挑戰(zhàn)。

從實用角度來看,SPIRAL為AI訓練提供了一條全新的道路。傳統(tǒng)方法需要專家設(shè)計復雜的獎勵函數(shù)、策劃訓練問題并驗證推理軌跡,每個新的推理領(lǐng)域都需要專家來設(shè)計評估指標、策劃訓練問題并驗證推理軌跡。這種手工過程隨著我們追求更通用的智能而變得越來越不可持續(xù),限制了模型能夠?qū)W習的推理挑戰(zhàn)的規(guī)模和多樣性。SPIRAL通過游戲動態(tài)單獨生成無限訓練數(shù)據(jù),消除了對人工策劃問題-答案對的依賴。

從理論角度來看,這項研究支持了一個重要觀點:智能的涌現(xiàn)可能不需要復雜的架構(gòu)設(shè)計,而需要合適的環(huán)境壓力。競爭壓力剝奪了記憶,因為自對弈對手不斷演進,迫使模型發(fā)展真正的推理而非模式匹配。游戲隔離了純推理,沒有領(lǐng)域復雜性,游戲教授了有效泛化的基本認知操作(枚舉、評估、綜合)。在游戲中學到的結(jié)構(gòu)化輸出格式為模型重用數(shù)學問題提供了推理腳手架。

當然,研究也存在一些局限性。雖然消除了人工策劃的問題,但SPIRAL仍然需要設(shè)計游戲環(huán)境。實驗使用簡單游戲(井字棋、Kuhn Poker、簡單談判),擴展到復雜環(huán)境仍有待探索。計算要求相當大(每個實驗需要8個H100 GPU運行25小時)。性能在延長訓練后趨于平穩(wěn),評估重點關(guān)注學術(shù)基準而非需要常識或倫理判斷的現(xiàn)實推理任務。

盡管如此,這項工作開啟了幾個激動人心的研究方向。擴展到合作游戲、納入部分可觀察性、設(shè)計針對特定推理弱點的游戲都是值得探索的領(lǐng)域。理解為什么某些游戲發(fā)展特定技能可能實現(xiàn)有原則的環(huán)境設(shè)計。研究團隊甚至設(shè)想了自我改進智能體生態(tài)系統(tǒng),生成越來越復雜的挑戰(zhàn),創(chuàng)造超越人類監(jiān)督的自主推理發(fā)展。

說到底,SPIRAL證明了簡單游戲可以解鎖復雜推理,而無需領(lǐng)域特定數(shù)據(jù)。通過利用競爭壓力,研究團隊創(chuàng)造了發(fā)現(xiàn)自己課程并持續(xù)改進的系統(tǒng)。從游戲到數(shù)學的遷移表明,智能的涌現(xiàn)可能不是來自精密的監(jiān)督,而是來自迫使模型思考的環(huán)境挑戰(zhàn)。這種范式轉(zhuǎn)換指向了AI系統(tǒng)自主推動推理邊界并通過自對弈持續(xù)演進的未來。

當我們站在AI發(fā)展的十字路口時,SPIRAL提醒我們,有時候最簡單的想法——讓AI通過游戲?qū)W習——可能蘊含著最深刻的洞察。正如人類通過游戲?qū)W會了策略思維和問題解決,AI也許能夠通過同樣的方式發(fā)展出真正的智能。這不僅是技術(shù)的進步,更是我們對智能本質(zhì)理解的一次重要飛躍。

Q&A

Q1:SPIRAL是什么?它能做什么? A:SPIRAL是新加坡國立大學開發(fā)的AI訓練框架,通過讓AI與自己的復制版本玩零和游戲來提升推理能力。它的核心能力是無需任何數(shù)學題目訓練,僅通過游戲就能讓AI在數(shù)學和通用推理測試中提升8%以上的表現(xiàn)。

Q2:為什么玩游戲能提升AI的數(shù)學推理能力? A:研究發(fā)現(xiàn)游戲訓練能培養(yǎng)三種核心推理模式:系統(tǒng)性分解、期望值計算和逐案分析。這些模式能完美轉(zhuǎn)移到數(shù)學問題求解中。競爭壓力迫使AI發(fā)展真正的推理能力而非簡單記憶,就像人類通過下棋學會策略思維一樣。

Q3:這項技術(shù)會不會改變AI訓練方式? A:很可能會。傳統(tǒng)AI訓練需要專家設(shè)計大量題目和標準答案,成本高昂。SPIRAL通過自對弈游戲自動生成無限訓練數(shù)據(jù),大大降低了訓練成本。雖然目前仍需要設(shè)計游戲環(huán)境,但已經(jīng)展現(xiàn)出替代傳統(tǒng)監(jiān)督學習的巨大潛力。

分享至
1贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-