av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<nobr id="fbyik"><listing id="fbyik"></listing></nobr>

首頁(yè)
對(duì)話創(chuàng)新
對(duì)話科技行者
機(jī)器人新紀(jì)元
AI論文解讀
聯(lián)系我們

微信掃一掃，關(guān)注公眾號(hào)

科技行者
算力行者

見證連接與計(jì)算的「力量」

海外AI實(shí)驗(yàn)室首次破解R1-Zero訓(xùn)練謎題：原來這些神奇的AI推理能力是這樣煉成的

人工智能強(qiáng)化學(xué)習(xí)算法優(yōu)化

海外AI實(shí)驗(yàn)室首次破解R1-Zero訓(xùn)練謎題：原來這些神奇的AI推理能力是這樣煉成的

作者：科技行者

2025-07-15 10:13

分享至：

新加坡聯(lián)合研究團(tuán)隊(duì)首次全面解析R1-Zero訓(xùn)練方法，發(fā)現(xiàn)傳統(tǒng)算法存在隱藏偏差，提出改進(jìn)版Dr. GRPO算法。研究揭示AI"自我反思"能力的真相，并用極簡(jiǎn)配方在7B模型上創(chuàng)造AIME 2024新紀(jì)錄，為AI推理訓(xùn)練提供重要洞察和實(shí)用改進(jìn)方案。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-07-15 10:13 ? 科技行者

這項(xiàng)令人矚目的研究來自新加坡Sea AI實(shí)驗(yàn)室、新加坡國(guó)立大學(xué)和新加坡管理大學(xué)的聯(lián)合團(tuán)隊(duì)，由劉子晨、陳昌宇、李文俊等多位研究者共同完成。該研究于2025年3月21日發(fā)表，完整論文可通過arXiv:2503.20783v1獲取。這是首次對(duì)DeepSeek-R1-Zero這類革命性AI訓(xùn)練方法進(jìn)行全面深入分析的研究。

當(dāng)我們聽到"AI能像人類一樣思考和推理"這樣的說法時(shí)，你是否會(huì)好奇：這些AI到底是怎么學(xué)會(huì)復(fù)雜推理的？最近，一種叫做R1-Zero的訓(xùn)練方法徹底改變了我們對(duì)AI學(xué)習(xí)的認(rèn)知。與傳統(tǒng)方法不同，這種方法讓AI直接在"實(shí)戰(zhàn)"中學(xué)習(xí)，就像一個(gè)孩子不用先背誦教科書，而是直接通過做數(shù)學(xué)題來掌握數(shù)學(xué)思維。

R1-Zero訓(xùn)練就像培養(yǎng)一個(gè)數(shù)學(xué)天才的過程。傳統(tǒng)方法是先讓AI學(xué)習(xí)大量的標(biāo)準(zhǔn)答案和解題步驟，然后再教它如何應(yīng)用。而R1-Zero則完全跳過了這個(gè)"背書"階段，直接讓AI在解題過程中通過獎(jiǎng)勵(lì)和懲罰來學(xué)習(xí)什么是好的推理，什么是壞的推理。這種方法最神奇的地方在于，AI會(huì)自發(fā)地學(xué)會(huì)"自我反思"——當(dāng)它意識(shí)到自己可能犯錯(cuò)時(shí)，會(huì)主動(dòng)說"等等，讓我重新想想"或者"我需要檢查一下這個(gè)答案"。

然而，這個(gè)看似完美的訓(xùn)練方法背后隱藏著許多未解之謎。究竟是什么讓有些AI模型能夠成功掌握這種推理能力，而有些卻不行？在訓(xùn)練過程中觀察到的那些令人印象深刻的現(xiàn)象，比如AI回答變得越來越長(zhǎng)、推理過程越來越復(fù)雜，這些真的代表AI變得更聰明了嗎？

新加坡研究團(tuán)隊(duì)決定揭開這些謎團(tuán)。他們像偵探一樣，仔細(xì)分析了R1-Zero訓(xùn)練的每一個(gè)組成部分。他們的發(fā)現(xiàn)顛覆了許多人的認(rèn)知：原來，一些我們以為是AI"變聰明"的表現(xiàn)，實(shí)際上可能只是訓(xùn)練算法的偏差造成的假象。

研究團(tuán)隊(duì)首先發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象：不同的AI基礎(chǔ)模型表現(xiàn)出了截然不同的特點(diǎn)。就像不同品種的種子在同樣的土壤中會(huì)長(zhǎng)成不同的植物一樣，不同的AI模型在R1-Zero訓(xùn)練中也呈現(xiàn)出了不同的學(xué)習(xí)模式。特別是Qwen2.5系列模型表現(xiàn)出了一種奇特的特性——即使不給它們?nèi)魏翁厥獾奶崾?，它們也能直接回答?shù)學(xué)問題，這讓研究者懷疑這些模型在最初的訓(xùn)練階段就已經(jīng)"偷偷"學(xué)過類似的問答內(nèi)容。

更令人驚訝的是，研究團(tuán)隊(duì)發(fā)現(xiàn)幾乎所有的AI基礎(chǔ)模型都已經(jīng)具備了"啊哈時(shí)刻"的能力——也就是在推理過程中突然意識(shí)到問題并進(jìn)行自我糾正的能力。這就像發(fā)現(xiàn)所有的學(xué)生在正式上課之前就已經(jīng)掌握了一些基礎(chǔ)技能一樣，這個(gè)發(fā)現(xiàn)讓研究者重新思考R1-Zero訓(xùn)練到底教會(huì)了AI什么新東西。

但研究團(tuán)隊(duì)最重要的發(fā)現(xiàn)是在訓(xùn)練算法本身。他們發(fā)現(xiàn)了GRPO（Group Relative Policy Optimization）算法中存在的一個(gè)隱藏偏差，這個(gè)偏差就像一個(gè)有缺陷的天平，會(huì)無意中鼓勵(lì)A(yù)I產(chǎn)生更長(zhǎng)的錯(cuò)誤答案。當(dāng)AI給出錯(cuò)誤答案時(shí)，如果這個(gè)答案很長(zhǎng)，算法給予的懲罰就會(huì)相對(duì)較輕；反之，如果AI給出正確但簡(jiǎn)短的答案，算法的獎(jiǎng)勵(lì)也會(huì)相對(duì)減少。這就導(dǎo)致了一個(gè)奇怪的現(xiàn)象：AI學(xué)會(huì)了寫更長(zhǎng)的回答，但這并不一定意味著它的推理能力真的提高了。

為了解決這個(gè)問題，研究團(tuán)隊(duì)提出了一個(gè)改進(jìn)版本，他們幽默地稱之為"Dr. GRPO"（GRPO Done Right的縮寫，意思是"做對(duì)了的GRPO"）。這個(gè)改進(jìn)版本就像修正了有缺陷的天平，讓AI的學(xué)習(xí)過程更加公平和高效。實(shí)驗(yàn)結(jié)果顯示，使用Dr. GRPO訓(xùn)練的AI不僅保持了原有的推理能力，還顯著提高了效率——它們能夠用更少的文字表達(dá)同樣復(fù)雜的推理過程。

在深入分析基礎(chǔ)模型的特性時(shí)，研究團(tuán)隊(duì)像考古學(xué)家一樣仔細(xì)挖掘每個(gè)模型的"DNA"。他們發(fā)現(xiàn)，模板的選擇對(duì)AI的表現(xiàn)影響巨大。模板就像是給AI戴上不同類型的"眼鏡"，有些眼鏡能讓AI看得更清楚，有些則會(huì)模糊AI的視線。有趣的是，對(duì)于某些模型，最好的"眼鏡"竟然是不戴任何眼鏡——也就是不使用任何模板，直接讓AI回答問題。

研究團(tuán)隊(duì)還進(jìn)行了一系列精心設(shè)計(jì)的實(shí)驗(yàn)來測(cè)試不同因素的影響。他們發(fā)現(xiàn)，當(dāng)AI模型與模板不匹配時(shí)，就像讓一個(gè)習(xí)慣了中式思維的學(xué)生突然用西式邏輯解題一樣，AI的能力會(huì)暫時(shí)下降，但通過R1-Zero訓(xùn)練，AI能夠逐漸適應(yīng)并重新獲得推理能力。這個(gè)過程就像重新學(xué)習(xí)使用一種新工具，雖然開始可能不順手，但最終還是能掌握。

另一個(gè)重要發(fā)現(xiàn)是訓(xùn)練數(shù)據(jù)覆蓋范圍的影響。研究團(tuán)隊(duì)發(fā)現(xiàn)，當(dāng)AI模型和模板高度匹配時(shí)，即使用相對(duì)簡(jiǎn)單和范圍較小的訓(xùn)練數(shù)據(jù)，也能獲得出色的效果。這就像一個(gè)已經(jīng)掌握了基本技能的學(xué)生，只需要少量的練習(xí)就能在考試中取得好成績(jī)。但如果模型和模板不匹配，就需要更大范圍、更多樣化的訓(xùn)練數(shù)據(jù)來彌補(bǔ)這種不匹配帶來的困難。

為了驗(yàn)證數(shù)學(xué)專業(yè)訓(xùn)練的重要性，研究團(tuán)隊(duì)還進(jìn)行了一個(gè)對(duì)照實(shí)驗(yàn)。他們從一個(gè)原本在數(shù)學(xué)方面能力較弱的AI模型開始，先讓它接受數(shù)學(xué)專業(yè)訓(xùn)練，再進(jìn)行R1-Zero訓(xùn)練。結(jié)果顯示，這種"先打基礎(chǔ)，再提升"的方法確實(shí)能夠顯著提高AI的最終推理能力上限。這就像讓一個(gè)學(xué)生先掌握基礎(chǔ)知識(shí)，再進(jìn)行高級(jí)訓(xùn)練，效果會(huì)比直接進(jìn)行高級(jí)訓(xùn)練好得多。

在對(duì)比分析中，研究團(tuán)隊(duì)還仔細(xì)研究了著名的DeepSeek-V3-Base模型和經(jīng)過R1-Zero訓(xùn)練后的DeepSeek-R1-Zero模型。他們發(fā)現(xiàn)，雖然訓(xùn)練后的模型在回答長(zhǎng)度上有顯著增加，推理過程也變得更加復(fù)雜，但這種"變長(zhǎng)"并不總是意味著"變好"。有些時(shí)候，更長(zhǎng)的回答反而包含了更多的錯(cuò)誤或冗余信息。這個(gè)發(fā)現(xiàn)提醒我們，在評(píng)價(jià)AI能力時(shí)，不能僅僅看表面現(xiàn)象，而要深入分析實(shí)質(zhì)內(nèi)容。

更有趣的是，研究團(tuán)隊(duì)發(fā)現(xiàn)，即使是那些看起來具有"自我反思"能力的AI回答，也不一定比沒有自我反思的回答更準(zhǔn)確。這就像有些學(xué)生雖然在考試中寫了很多"讓我再想想"、"等等，這樣對(duì)嗎"之類的話，但最終的答案并不一定更正確。這個(gè)發(fā)現(xiàn)讓我們對(duì)AI的"自我反思"能力有了更理性的認(rèn)識(shí)。

基于所有這些發(fā)現(xiàn)，研究團(tuán)隊(duì)提出了一個(gè)極簡(jiǎn)的R1-Zero訓(xùn)練配方。他們選擇了Qwen2.5-Math-7B作為基礎(chǔ)模型，使用改進(jìn)的Dr. GRPO算法，在精心選擇的數(shù)學(xué)問題上進(jìn)行訓(xùn)練。令人驚喜的是，這個(gè)極簡(jiǎn)配方在僅僅27小時(shí)的訓(xùn)練時(shí)間內(nèi)（使用8塊A100 GPU），就在AIME 2024競(jìng)賽中達(dá)到了43.3%的準(zhǔn)確率，創(chuàng)造了7B參數(shù)模型的新紀(jì)錄。這就像用一個(gè)簡(jiǎn)化的食譜做出了星級(jí)餐廳水準(zhǔn)的菜肴。

整個(gè)研究過程就像拆解一臺(tái)精密儀器，然后重新組裝出一臺(tái)更高效的機(jī)器。研究團(tuán)隊(duì)不僅發(fā)現(xiàn)了原有方法的問題，還提出了實(shí)用的解決方案，并用實(shí)際結(jié)果證明了改進(jìn)的有效性。他們的工作為整個(gè)AI研究社區(qū)提供了寶貴的洞察，幫助大家更好地理解和改進(jìn)這些強(qiáng)大的AI訓(xùn)練方法。

這項(xiàng)研究的意義不僅在于技術(shù)層面的突破，更在于它揭示了AI學(xué)習(xí)過程中的一些根本規(guī)律。就像牛頓發(fā)現(xiàn)萬有引力定律不僅解釋了蘋果為什么會(huì)掉落，還解釋了行星如何圍繞太陽運(yùn)轉(zhuǎn)一樣，這項(xiàng)研究的發(fā)現(xiàn)可能會(huì)影響未來AI訓(xùn)練方法的發(fā)展方向。

研究團(tuán)隊(duì)還慷慨地開放了他們的代碼和訓(xùn)練好的模型，讓其他研究者和開發(fā)者能夠基于他們的工作繼續(xù)改進(jìn)。這種開放的態(tài)度就像科學(xué)家們分享實(shí)驗(yàn)數(shù)據(jù)和方法一樣，有助于整個(gè)領(lǐng)域的快速發(fā)展。

說到底，這項(xiàng)研究告訴我們，即使是看起來最神奇的AI能力，背后也有著可以理解和改進(jìn)的科學(xué)原理。那些令人驚嘆的AI推理能力并非來自某種神秘的"人工智能魔法"，而是通過精心設(shè)計(jì)的訓(xùn)練過程和算法優(yōu)化實(shí)現(xiàn)的。更重要的是，通過深入分析和改進(jìn)這些方法，我們可以讓AI變得更加高效和可靠。

對(duì)于普通人來說，這項(xiàng)研究的影響可能會(huì)在未來幾年內(nèi)逐漸顯現(xiàn)。更高效的AI訓(xùn)練方法意味著我們能夠用更少的計(jì)算資源訓(xùn)練出更強(qiáng)大的AI助手，這些助手在幫助我們解決數(shù)學(xué)問題、分析復(fù)雜情況或進(jìn)行邏輯推理時(shí)會(huì)變得更加可靠和高效。這就像從手工制作升級(jí)到工業(yè)化生產(chǎn)，不僅提高了質(zhì)量，也降低了成本，讓更多人能夠受益于這些先進(jìn)技術(shù)。

Q&A Q1：R1-Zero訓(xùn)練是什么？它跟傳統(tǒng)AI訓(xùn)練有什么不同？ A：R1-Zero訓(xùn)練是一種革命性的AI訓(xùn)練方法，它跳過了傳統(tǒng)的"先學(xué)習(xí)標(biāo)準(zhǔn)答案"步驟，直接讓AI在解題過程中通過獎(jiǎng)勵(lì)和懲罰學(xué)習(xí)推理。就像讓孩子直接做題學(xué)數(shù)學(xué)，而不是先背公式。這種方法能讓AI自發(fā)學(xué)會(huì)"自我反思"的能力。

Q2：Dr. GRPO算法解決了什么問題？ A：Dr. GRPO解決了原始GRPO算法中的偏差問題。原來的算法就像有缺陷的天平，會(huì)無意中鼓勵(lì)A(yù)I寫更長(zhǎng)的錯(cuò)誤答案，而對(duì)簡(jiǎn)短正確答案的獎(jiǎng)勵(lì)不足。Dr. GRPO修正了這個(gè)問題，讓AI學(xué)習(xí)過程更公平高效，用更少文字表達(dá)同樣復(fù)雜的推理。

Q3：這項(xiàng)研究對(duì)普通人有什么意義？ A：這項(xiàng)研究讓AI訓(xùn)練變得更高效，意味著未來我們能用更少資源訓(xùn)練出更強(qiáng)大的AI助手。這些助手在幫助解決數(shù)學(xué)問題、分析復(fù)雜情況時(shí)會(huì)更可靠。就像從手工制作升級(jí)到工業(yè)化生產(chǎn)，提高質(zhì)量的同時(shí)降低成本，讓更多人受益于先進(jìn)AI技術(shù)。

人工智能強(qiáng)化學(xué)習(xí)算法優(yōu)化

分享至

0贊

好文章，需要你的鼓勵(lì)

推薦文章

自對(duì)弈訓(xùn)練
推理能力提升
零和游戲?qū)W習(xí)

2025-07-02 14:26

AI玩游戲能讓推理變聰明？新加坡國(guó)立大學(xué)發(fā)現(xiàn)自對(duì)弈訓(xùn)練的神奇效果

新加坡國(guó)立大學(xué)研究團(tuán)隊(duì)開發(fā)了SPIRAL框架，通過讓AI與自己對(duì)弈零和游戲來提升推理能力。實(shí)驗(yàn)顯示，僅訓(xùn)練AI玩簡(jiǎn)單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%，通用推理提升8.4%，且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中，為AI訓(xùn)練提供了新思路。
計(jì)算機(jī)視覺
圖像降噪
3D相機(jī)技術(shù)

2025-07-02 14:26

同濟(jì)大學(xué)突破性研究：讓3D相機(jī)告別"噪點(diǎn)困擾"的智能降噪新技術(shù)

同濟(jì)大學(xué)團(tuán)隊(duì)開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息，創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系，結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法，在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升，并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力，為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
人工智能
視覺語言模型
強(qiáng)化學(xué)習(xí)

2025-07-02 14:26

AI視覺推理模型的"頓悟時(shí)刻"真的存在嗎？伊利諾伊大學(xué)研究揭示令人意外的真相

伊利諾伊大學(xué)研究團(tuán)隊(duì)通過對(duì)比實(shí)驗(yàn)發(fā)現(xiàn)，經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象，但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距"，即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力，且模型在自我驗(yàn)證時(shí)無法有效利用視覺信息，為AI多模態(tài)推理發(fā)展提供了重要啟示。
大語言模型
稀疏性訓(xùn)練
計(jì)算效率優(yōu)化

2025-07-02 14:25

MIT團(tuán)隊(duì)發(fā)明"智能減肥法"讓AI訓(xùn)練快1.6倍：只需要一半的算力就能教會(huì)大模型新技能

MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù)，通過動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語言模型訓(xùn)練加速1.6倍，計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分，在保持模型性能的同時(shí)顯著提升訓(xùn)練效率，已在多個(gè)任務(wù)上驗(yàn)證有效性。

AI玩游戲能讓推理變聰明？新加坡國(guó)立大學(xué)發(fā)現(xiàn)自對(duì)弈訓(xùn)練的神奇效果

AI玩游戲能讓推理變聰明？新加坡國(guó)立大學(xué)發(fā)現(xiàn)自對(duì)弈訓(xùn)練的神奇效果

2025-07-02 14:26

同濟(jì)大學(xué)突破性研究：讓3D相機(jī)告別"噪點(diǎn)困擾"的智能降噪新技術(shù)

同濟(jì)大學(xué)突破性研究：讓3D相機(jī)告別"噪點(diǎn)困擾"的智能降噪新技術(shù)

2025-07-02 14:26

AI視覺推理模型的"頓悟時(shí)刻"真的存在嗎？伊利諾伊大學(xué)研究揭示令人意外的真相

AI視覺推理模型的"頓悟時(shí)刻"真的存在嗎？伊利諾伊大學(xué)研究揭示令人意外的真相

2025-07-02 14:26

MIT團(tuán)隊(duì)發(fā)明"智能減肥法"讓AI訓(xùn)練快1.6倍：只需要一半的算力就能教會(huì)大模型新技能

MIT團(tuán)隊(duì)發(fā)明"智能減肥法"讓AI訓(xùn)練快1.6倍：只需要一半的算力就能教會(huì)大模型新技能

2025-07-02 14:25

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時(shí)代

京ICP證15039648號(hào) 京ICP備15039648號(hào)-9 京公網(wǎng)安備 11010802021500號(hào)

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報(bào)電話：010-62641205　涉未成年人舉報(bào)專線：010-62641208 舉報(bào)郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報(bào)專區(qū)：https://www.12377.cn

<ruby id="vfahn"><option id="vfahn"><small id="vfahn"></small></option></ruby>

<code id="vfahn"></code>