這項(xiàng)令人矚目的研究來自新加坡Sea AI實(shí)驗(yàn)室、新加坡國(guó)立大學(xué)和新加坡管理大學(xué)的聯(lián)合團(tuán)隊(duì),由劉子晨、陳昌宇、李文俊等多位研究者共同完成。該研究于2025年3月21日發(fā)表,完整論文可通過arXiv:2503.20783v1獲取。這是首次對(duì)DeepSeek-R1-Zero這類革命性AI訓(xùn)練方法進(jìn)行全面深入分析的研究。
當(dāng)我們聽到"AI能像人類一樣思考和推理"這樣的說法時(shí),你是否會(huì)好奇:這些AI到底是怎么學(xué)會(huì)復(fù)雜推理的?最近,一種叫做R1-Zero的訓(xùn)練方法徹底改變了我們對(duì)AI學(xué)習(xí)的認(rèn)知。與傳統(tǒng)方法不同,這種方法讓AI直接在"實(shí)戰(zhàn)"中學(xué)習(xí),就像一個(gè)孩子不用先背誦教科書,而是直接通過做數(shù)學(xué)題來掌握數(shù)學(xué)思維。
R1-Zero訓(xùn)練就像培養(yǎng)一個(gè)數(shù)學(xué)天才的過程。傳統(tǒng)方法是先讓AI學(xué)習(xí)大量的標(biāo)準(zhǔn)答案和解題步驟,然后再教它如何應(yīng)用。而R1-Zero則完全跳過了這個(gè)"背書"階段,直接讓AI在解題過程中通過獎(jiǎng)勵(lì)和懲罰來學(xué)習(xí)什么是好的推理,什么是壞的推理。這種方法最神奇的地方在于,AI會(huì)自發(fā)地學(xué)會(huì)"自我反思"——當(dāng)它意識(shí)到自己可能犯錯(cuò)時(shí),會(huì)主動(dòng)說"等等,讓我重新想想"或者"我需要檢查一下這個(gè)答案"。
然而,這個(gè)看似完美的訓(xùn)練方法背后隱藏著許多未解之謎。究竟是什么讓有些AI模型能夠成功掌握這種推理能力,而有些卻不行?在訓(xùn)練過程中觀察到的那些令人印象深刻的現(xiàn)象,比如AI回答變得越來越長(zhǎng)、推理過程越來越復(fù)雜,這些真的代表AI變得更聰明了嗎?
新加坡研究團(tuán)隊(duì)決定揭開這些謎團(tuán)。他們像偵探一樣,仔細(xì)分析了R1-Zero訓(xùn)練的每一個(gè)組成部分。他們的發(fā)現(xiàn)顛覆了許多人的認(rèn)知:原來,一些我們以為是AI"變聰明"的表現(xiàn),實(shí)際上可能只是訓(xùn)練算法的偏差造成的假象。
研究團(tuán)隊(duì)首先發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:不同的AI基礎(chǔ)模型表現(xiàn)出了截然不同的特點(diǎn)。就像不同品種的種子在同樣的土壤中會(huì)長(zhǎng)成不同的植物一樣,不同的AI模型在R1-Zero訓(xùn)練中也呈現(xiàn)出了不同的學(xué)習(xí)模式。特別是Qwen2.5系列模型表現(xiàn)出了一種奇特的特性——即使不給它們?nèi)魏翁厥獾奶崾?,它們也能直接回答?shù)學(xué)問題,這讓研究者懷疑這些模型在最初的訓(xùn)練階段就已經(jīng)"偷偷"學(xué)過類似的問答內(nèi)容。
更令人驚訝的是,研究團(tuán)隊(duì)發(fā)現(xiàn)幾乎所有的AI基礎(chǔ)模型都已經(jīng)具備了"啊哈時(shí)刻"的能力——也就是在推理過程中突然意識(shí)到問題并進(jìn)行自我糾正的能力。這就像發(fā)現(xiàn)所有的學(xué)生在正式上課之前就已經(jīng)掌握了一些基礎(chǔ)技能一樣,這個(gè)發(fā)現(xiàn)讓研究者重新思考R1-Zero訓(xùn)練到底教會(huì)了AI什么新東西。
但研究團(tuán)隊(duì)最重要的發(fā)現(xiàn)是在訓(xùn)練算法本身。他們發(fā)現(xiàn)了GRPO(Group Relative Policy Optimization)算法中存在的一個(gè)隱藏偏差,這個(gè)偏差就像一個(gè)有缺陷的天平,會(huì)無意中鼓勵(lì)A(yù)I產(chǎn)生更長(zhǎng)的錯(cuò)誤答案。當(dāng)AI給出錯(cuò)誤答案時(shí),如果這個(gè)答案很長(zhǎng),算法給予的懲罰就會(huì)相對(duì)較輕;反之,如果AI給出正確但簡(jiǎn)短的答案,算法的獎(jiǎng)勵(lì)也會(huì)相對(duì)減少。這就導(dǎo)致了一個(gè)奇怪的現(xiàn)象:AI學(xué)會(huì)了寫更長(zhǎng)的回答,但這并不一定意味著它的推理能力真的提高了。
為了解決這個(gè)問題,研究團(tuán)隊(duì)提出了一個(gè)改進(jìn)版本,他們幽默地稱之為"Dr. GRPO"(GRPO Done Right的縮寫,意思是"做對(duì)了的GRPO")。這個(gè)改進(jìn)版本就像修正了有缺陷的天平,讓AI的學(xué)習(xí)過程更加公平和高效。實(shí)驗(yàn)結(jié)果顯示,使用Dr. GRPO訓(xùn)練的AI不僅保持了原有的推理能力,還顯著提高了效率——它們能夠用更少的文字表達(dá)同樣復(fù)雜的推理過程。
在深入分析基礎(chǔ)模型的特性時(shí),研究團(tuán)隊(duì)像考古學(xué)家一樣仔細(xì)挖掘每個(gè)模型的"DNA"。他們發(fā)現(xiàn),模板的選擇對(duì)AI的表現(xiàn)影響巨大。模板就像是給AI戴上不同類型的"眼鏡",有些眼鏡能讓AI看得更清楚,有些則會(huì)模糊AI的視線。有趣的是,對(duì)于某些模型,最好的"眼鏡"竟然是不戴任何眼鏡——也就是不使用任何模板,直接讓AI回答問題。
研究團(tuán)隊(duì)還進(jìn)行了一系列精心設(shè)計(jì)的實(shí)驗(yàn)來測(cè)試不同因素的影響。他們發(fā)現(xiàn),當(dāng)AI模型與模板不匹配時(shí),就像讓一個(gè)習(xí)慣了中式思維的學(xué)生突然用西式邏輯解題一樣,AI的能力會(huì)暫時(shí)下降,但通過R1-Zero訓(xùn)練,AI能夠逐漸適應(yīng)并重新獲得推理能力。這個(gè)過程就像重新學(xué)習(xí)使用一種新工具,雖然開始可能不順手,但最終還是能掌握。
另一個(gè)重要發(fā)現(xiàn)是訓(xùn)練數(shù)據(jù)覆蓋范圍的影響。研究團(tuán)隊(duì)發(fā)現(xiàn),當(dāng)AI模型和模板高度匹配時(shí),即使用相對(duì)簡(jiǎn)單和范圍較小的訓(xùn)練數(shù)據(jù),也能獲得出色的效果。這就像一個(gè)已經(jīng)掌握了基本技能的學(xué)生,只需要少量的練習(xí)就能在考試中取得好成績(jī)。但如果模型和模板不匹配,就需要更大范圍、更多樣化的訓(xùn)練數(shù)據(jù)來彌補(bǔ)這種不匹配帶來的困難。
為了驗(yàn)證數(shù)學(xué)專業(yè)訓(xùn)練的重要性,研究團(tuán)隊(duì)還進(jìn)行了一個(gè)對(duì)照實(shí)驗(yàn)。他們從一個(gè)原本在數(shù)學(xué)方面能力較弱的AI模型開始,先讓它接受數(shù)學(xué)專業(yè)訓(xùn)練,再進(jìn)行R1-Zero訓(xùn)練。結(jié)果顯示,這種"先打基礎(chǔ),再提升"的方法確實(shí)能夠顯著提高AI的最終推理能力上限。這就像讓一個(gè)學(xué)生先掌握基礎(chǔ)知識(shí),再進(jìn)行高級(jí)訓(xùn)練,效果會(huì)比直接進(jìn)行高級(jí)訓(xùn)練好得多。
在對(duì)比分析中,研究團(tuán)隊(duì)還仔細(xì)研究了著名的DeepSeek-V3-Base模型和經(jīng)過R1-Zero訓(xùn)練后的DeepSeek-R1-Zero模型。他們發(fā)現(xiàn),雖然訓(xùn)練后的模型在回答長(zhǎng)度上有顯著增加,推理過程也變得更加復(fù)雜,但這種"變長(zhǎng)"并不總是意味著"變好"。有些時(shí)候,更長(zhǎng)的回答反而包含了更多的錯(cuò)誤或冗余信息。這個(gè)發(fā)現(xiàn)提醒我們,在評(píng)價(jià)AI能力時(shí),不能僅僅看表面現(xiàn)象,而要深入分析實(shí)質(zhì)內(nèi)容。
更有趣的是,研究團(tuán)隊(duì)發(fā)現(xiàn),即使是那些看起來具有"自我反思"能力的AI回答,也不一定比沒有自我反思的回答更準(zhǔn)確。這就像有些學(xué)生雖然在考試中寫了很多"讓我再想想"、"等等,這樣對(duì)嗎"之類的話,但最終的答案并不一定更正確。這個(gè)發(fā)現(xiàn)讓我們對(duì)AI的"自我反思"能力有了更理性的認(rèn)識(shí)。
基于所有這些發(fā)現(xiàn),研究團(tuán)隊(duì)提出了一個(gè)極簡(jiǎn)的R1-Zero訓(xùn)練配方。他們選擇了Qwen2.5-Math-7B作為基礎(chǔ)模型,使用改進(jìn)的Dr. GRPO算法,在精心選擇的數(shù)學(xué)問題上進(jìn)行訓(xùn)練。令人驚喜的是,這個(gè)極簡(jiǎn)配方在僅僅27小時(shí)的訓(xùn)練時(shí)間內(nèi)(使用8塊A100 GPU),就在AIME 2024競(jìng)賽中達(dá)到了43.3%的準(zhǔn)確率,創(chuàng)造了7B參數(shù)模型的新紀(jì)錄。這就像用一個(gè)簡(jiǎn)化的食譜做出了星級(jí)餐廳水準(zhǔn)的菜肴。
整個(gè)研究過程就像拆解一臺(tái)精密儀器,然后重新組裝出一臺(tái)更高效的機(jī)器。研究團(tuán)隊(duì)不僅發(fā)現(xiàn)了原有方法的問題,還提出了實(shí)用的解決方案,并用實(shí)際結(jié)果證明了改進(jìn)的有效性。他們的工作為整個(gè)AI研究社區(qū)提供了寶貴的洞察,幫助大家更好地理解和改進(jìn)這些強(qiáng)大的AI訓(xùn)練方法。
這項(xiàng)研究的意義不僅在于技術(shù)層面的突破,更在于它揭示了AI學(xué)習(xí)過程中的一些根本規(guī)律。就像牛頓發(fā)現(xiàn)萬有引力定律不僅解釋了蘋果為什么會(huì)掉落,還解釋了行星如何圍繞太陽運(yùn)轉(zhuǎn)一樣,這項(xiàng)研究的發(fā)現(xiàn)可能會(huì)影響未來AI訓(xùn)練方法的發(fā)展方向。
研究團(tuán)隊(duì)還慷慨地開放了他們的代碼和訓(xùn)練好的模型,讓其他研究者和開發(fā)者能夠基于他們的工作繼續(xù)改進(jìn)。這種開放的態(tài)度就像科學(xué)家們分享實(shí)驗(yàn)數(shù)據(jù)和方法一樣,有助于整個(gè)領(lǐng)域的快速發(fā)展。
說到底,這項(xiàng)研究告訴我們,即使是看起來最神奇的AI能力,背后也有著可以理解和改進(jìn)的科學(xué)原理。那些令人驚嘆的AI推理能力并非來自某種神秘的"人工智能魔法",而是通過精心設(shè)計(jì)的訓(xùn)練過程和算法優(yōu)化實(shí)現(xiàn)的。更重要的是,通過深入分析和改進(jìn)這些方法,我們可以讓AI變得更加高效和可靠。
對(duì)于普通人來說,這項(xiàng)研究的影響可能會(huì)在未來幾年內(nèi)逐漸顯現(xiàn)。更高效的AI訓(xùn)練方法意味著我們能夠用更少的計(jì)算資源訓(xùn)練出更強(qiáng)大的AI助手,這些助手在幫助我們解決數(shù)學(xué)問題、分析復(fù)雜情況或進(jìn)行邏輯推理時(shí)會(huì)變得更加可靠和高效。這就像從手工制作升級(jí)到工業(yè)化生產(chǎn),不僅提高了質(zhì)量,也降低了成本,讓更多人能夠受益于這些先進(jìn)技術(shù)。
Q&A Q1:R1-Zero訓(xùn)練是什么?它跟傳統(tǒng)AI訓(xùn)練有什么不同? A:R1-Zero訓(xùn)練是一種革命性的AI訓(xùn)練方法,它跳過了傳統(tǒng)的"先學(xué)習(xí)標(biāo)準(zhǔn)答案"步驟,直接讓AI在解題過程中通過獎(jiǎng)勵(lì)和懲罰學(xué)習(xí)推理。就像讓孩子直接做題學(xué)數(shù)學(xué),而不是先背公式。這種方法能讓AI自發(fā)學(xué)會(huì)"自我反思"的能力。
Q2:Dr. GRPO算法解決了什么問題? A:Dr. GRPO解決了原始GRPO算法中的偏差問題。原來的算法就像有缺陷的天平,會(huì)無意中鼓勵(lì)A(yù)I寫更長(zhǎng)的錯(cuò)誤答案,而對(duì)簡(jiǎn)短正確答案的獎(jiǎng)勵(lì)不足。Dr. GRPO修正了這個(gè)問題,讓AI學(xué)習(xí)過程更公平高效,用更少文字表達(dá)同樣復(fù)雜的推理。
Q3:這項(xiàng)研究對(duì)普通人有什么意義? A:這項(xiàng)研究讓AI訓(xùn)練變得更高效,意味著未來我們能用更少資源訓(xùn)練出更強(qiáng)大的AI助手。這些助手在幫助解決數(shù)學(xué)問題、分析復(fù)雜情況時(shí)會(huì)更可靠。就像從手工制作升級(jí)到工業(yè)化生產(chǎn),提高質(zhì)量的同時(shí)降低成本,讓更多人受益于先進(jìn)AI技術(shù)。
好文章,需要你的鼓勵(lì)
新加坡國(guó)立大學(xué)研究團(tuán)隊(duì)開發(fā)了SPIRAL框架,通過讓AI與自己對(duì)弈零和游戲來提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡(jiǎn)單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。