這項由微軟亞洲研究院的溫旭萌、劉子涵、鄭舜等研究人員主導(dǎo)的研究發(fā)表于2025年6月,論文標(biāo)題為《具有可驗證獎勵的強化學(xué)習(xí)隱性激勵大語言模型中的正確推理》。有興趣深入了解的讀者可以通過arXiv:2506.14245v1訪問完整論文。
近年來,人工智能領(lǐng)域出現(xiàn)了一個引人注目的現(xiàn)象:通過"強化學(xué)習(xí)"訓(xùn)練的AI模型在解決數(shù)學(xué)問題時表現(xiàn)出色,但學(xué)界對其真正的推理能力產(chǎn)生了質(zhì)疑。就像學(xué)生考試時,有些人真正理解了解題思路,有些人則是靠運氣蒙對答案。那么,經(jīng)過特殊訓(xùn)練的AI究竟是真正學(xué)會了推理,還是只是變得更善于"蒙答案"呢?
這個問題的核心在于一種叫做"具有可驗證獎勵的強化學(xué)習(xí)"(RLVR)的訓(xùn)練方法。這種方法就像給AI配備了一位嚴(yán)格的數(shù)學(xué)老師:每當(dāng)AI解出一道題,老師只會告訴它最終答案對不對,但不會檢查解題過程是否正確。久而久之,AI學(xué)會了找到正確答案,但人們開始懷疑——它是真正理解了數(shù)學(xué)原理,還是只是學(xué)會了一些解題技巧?
為了解答這個疑問,微軟研究團隊展開了一項深入調(diào)查。他們發(fā)現(xiàn),傳統(tǒng)的評估方法存在一個重大缺陷:只關(guān)注最終答案是否正確,卻忽略了思維過程的質(zhì)量。這就像評判一個學(xué)生的數(shù)學(xué)水平時,只看他在多次嘗試中是否能蒙對答案,而不檢查他的解題步驟是否合理。
研究團隊發(fā)現(xiàn),許多看似"聰明"的基礎(chǔ)AI模型實際上經(jīng)常使用錯誤的推理過程得出正確答案。就像一個學(xué)生在解方程時計算步驟全錯,但最后卻意外得到了正確結(jié)果。這種現(xiàn)象在AI世界中相當(dāng)普遍,特別是那些經(jīng)過大量文本訓(xùn)練的模型,它們具有強大的"聯(lián)想"能力,能夠憑借對語言模式的記憶找到答案,即使推理過程并不嚴(yán)謹(jǐn)。
為了更準(zhǔn)確地評估AI的真實推理能力,研究團隊提出了一個新的評估標(biāo)準(zhǔn),稱為"CoT-Pass@K"。這個標(biāo)準(zhǔn)不僅要求AI給出正確答案,還要求其思維過程(Chain of Thought,簡稱CoT)必須邏輯清晰、步驟正確。這就像數(shù)學(xué)考試中,老師不僅要看最終答案,還要檢查每一個解題步驟是否合理。
研究團隊還建立了一套理論框架來解釋RLVR訓(xùn)練的工作原理。他們發(fā)現(xiàn),這種訓(xùn)練方法確實能夠激勵A(yù)I產(chǎn)生正確的推理過程。原理很簡單:如果AI的思維過程更加嚴(yán)謹(jǐn),那么它得出正確答案的概率就會更高。在訓(xùn)練過程中,系統(tǒng)會獎勵那些得出正確答案的嘗試,而擁有正確推理過程的AI自然更容易獲得獎勵,從而形成良性循環(huán)。
這就像培養(yǎng)一個學(xué)生解題能力的過程。雖然老師只對最終答案進(jìn)行評分,但那些真正掌握了解題方法的學(xué)生,長期來看總是比那些依賴運氣的學(xué)生表現(xiàn)更好。因此,通過持續(xù)的練習(xí)和反饋,AI會逐漸學(xué)會使用更加可靠的推理方法。
為了驗證這一理論,研究團隊進(jìn)行了大量實驗。他們使用了一個強大的AI模型作為"評判員",專門檢查其他AI的思維過程是否正確。這個評判員模型經(jīng)過特殊訓(xùn)練,能夠識別數(shù)學(xué)推理中的邏輯錯誤、計算錯誤和概念誤用。
實驗結(jié)果令人振奮。在傳統(tǒng)的評估方法下,經(jīng)過RLVR訓(xùn)練的模型似乎并沒有比基礎(chǔ)模型強多少,有時甚至表現(xiàn)更差。但當(dāng)使用新的CoT-Pass@K標(biāo)準(zhǔn)時,訓(xùn)練后的模型表現(xiàn)出明顯的優(yōu)勢。這說明RLVR訓(xùn)練確實提升了AI的推理質(zhì)量,只是傳統(tǒng)評估方法無法準(zhǔn)確捕捉到這種提升。
研究團隊特別關(guān)注了兩個數(shù)學(xué)競賽數(shù)據(jù)集:AIME 2024和AIME 2025。這些是美國中學(xué)數(shù)學(xué)競賽的真題,難度較高且不太可能出現(xiàn)在AI的訓(xùn)練數(shù)據(jù)中,因此能夠更客觀地測試AI的推理能力。結(jié)果顯示,經(jīng)過RLVR訓(xùn)練的模型在這些測試中表現(xiàn)出了持續(xù)的優(yōu)勢,無論是在少量嘗試還是大量嘗試的情況下。
更有趣的是,研究團隊還觀察了訓(xùn)練過程中AI能力的變化。他們發(fā)現(xiàn),正確推理能力的提升出現(xiàn)得很早,幾乎從訓(xùn)練開始就能觀察到改善。這表明RLVR訓(xùn)練確實在從根本上改善AI的思維模式,而不是僅僅讓它記住更多解題套路。
通過分析訓(xùn)練數(shù)據(jù),研究人員發(fā)現(xiàn)了一個有趣現(xiàn)象:在簡單問題上,基礎(chǔ)AI模型經(jīng)常能夠找到正確答案,但其推理過程往往存在缺陷。而經(jīng)過RLVR訓(xùn)練后,AI不僅保持了找到正確答案的能力,其推理過程的質(zhì)量也顯著提升。這就像一個原本依賴直覺解題的學(xué)生,通過系統(tǒng)訓(xùn)練學(xué)會了規(guī)范的解題方法。
研究團隊還解釋了為什么在某些測試中,訓(xùn)練效果可能不夠明顯。當(dāng)題目過于簡單時,即使是基礎(chǔ)模型也能輕松解決,因此訓(xùn)練效果不明顯。當(dāng)題目涉及的領(lǐng)域與訓(xùn)練數(shù)據(jù)差異較大時,訓(xùn)練效果也會受到限制。這提醒我們,AI的能力提升需要在合適的難度水平和相關(guān)領(lǐng)域內(nèi)才能充分體現(xiàn)。
這項研究的意義遠(yuǎn)不止于學(xué)術(shù)層面。它為我們理解AI的學(xué)習(xí)機制提供了重要洞察,也為未來AI訓(xùn)練方法的改進(jìn)指明了方向。更重要的是,它證明了AI確實可以通過適當(dāng)?shù)挠?xùn)練方法獲得更強的推理能力,而不僅僅是記憶和模式匹配。
從實際應(yīng)用角度來看,這項研究為開發(fā)更可靠的AI推理系統(tǒng)奠定了基礎(chǔ)。當(dāng)我們能夠確信AI的推理過程是可靠的,而不僅僅是答案碰巧正確時,AI在教育、科研、工程等需要嚴(yán)謹(jǐn)邏輯的領(lǐng)域的應(yīng)用將變得更加可靠。
研究團隊也坦誠地指出了當(dāng)前方法的局限性。目前他們主要依靠另一個AI模型來評判推理過程的正確性,這種方法雖然實用,但可能存在誤判。此外,研究主要集中在數(shù)學(xué)推理領(lǐng)域,在其他類型的推理任務(wù)中的效果還需要進(jìn)一步驗證。
展望未來,這項研究為AI訓(xùn)練方法的發(fā)展開辟了新的道路。研究人員提出,未來的AI訓(xùn)練應(yīng)該更加注重推理過程的質(zhì)量,而不僅僅是最終結(jié)果的正確性。這可能需要開發(fā)更好的自動評估工具,或者設(shè)計新的訓(xùn)練目標(biāo)來直接優(yōu)化推理質(zhì)量。
說到底,這項研究回答了一個關(guān)鍵問題:AI確實可以通過適當(dāng)?shù)挠?xùn)練方法學(xué)會更好的推理,而不僅僅是變得更善于找到正確答案。這為我們對AI能力的理解帶來了重要轉(zhuǎn)變——從關(guān)注"它能做什么"轉(zhuǎn)向關(guān)注"它是如何思考的"。正如研究團隊所說,真正的智能不在于能夠給出正確答案,而在于能夠進(jìn)行可靠的推理。
這一發(fā)現(xiàn)對普通人意味著什么呢?隨著AI推理能力的真正提升,我們可能很快就會看到在教育輔導(dǎo)、科學(xué)研究、工程設(shè)計等領(lǐng)域出現(xiàn)更加可靠的AI助手。這些AI不僅能給出答案,還能清晰地解釋推理過程,讓人類能夠理解和驗證其邏輯。這將大大提升人機協(xié)作的效率和可靠性。
當(dāng)然,這也提醒我們在評估AI能力時要更加謹(jǐn)慎。僅僅看AI是否能給出正確答案是不夠的,我們還需要理解它的思維過程。只有當(dāng)AI的推理過程變得透明、可靠時,我們才能真正信任它在重要任務(wù)中的表現(xiàn)。
Q&A
Q1:什么是RLVR訓(xùn)練?它和傳統(tǒng)AI訓(xùn)練有什么不同? A:RLVR是"具有可驗證獎勵的強化學(xué)習(xí)"的簡稱,就像給AI配備了一位只看最終答案的老師。與傳統(tǒng)訓(xùn)練不同,這種方法不直接教AI如何解題,而是讓AI自己嘗試,然后根據(jù)答案正確與否給予獎勵。研究發(fā)現(xiàn),這種方法能夠間接激勵A(yù)I發(fā)展出更好的推理能力。
Q2:為什么傳統(tǒng)的評估方法不能準(zhǔn)確反映AI的推理能力? A:傳統(tǒng)評估只看最終答案是否正確,就像只看學(xué)生考試成績而不檢查解題過程。許多AI模型能夠通過記憶、聯(lián)想或運氣得到正確答案,但推理過程可能存在嚴(yán)重缺陷。這就導(dǎo)致我們高估了AI的真實推理能力。
Q3:CoT-Pass@K評估標(biāo)準(zhǔn)有什么特別之處? A:這個標(biāo)準(zhǔn)不僅要求AI給出正確答案,還要求其思維過程必須邏輯清晰、步驟正確。就像數(shù)學(xué)考試中,老師既要看最終答案,也要檢查每個解題步驟。通過這種更嚴(yán)格的評估,研究人員發(fā)現(xiàn)經(jīng)過RLVR訓(xùn)練的AI確實具有更強的推理能力。
好文章,需要你的鼓勵
新加坡國立大學(xué)研究團隊開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實驗顯示,僅訓(xùn)練AI玩簡單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟大學(xué)團隊開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實現(xiàn)37.9%的精度提升,并在真實設(shè)備上展現(xiàn)出色泛化能力,為機器人、AR和自動駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團隊通過對比實驗發(fā)現(xiàn),經(jīng)過強化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時刻"現(xiàn)象,但這些自我糾錯行為并不能實際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗證差距",即生成答案的能力強于驗證答案質(zhì)量的能力,且模型在自我驗證時無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動態(tài)稀疏性實現(xiàn)大語言模型訓(xùn)練加速1.6倍,計算成本降低2.2倍。該方法使用SVD稀疏性估計器智能選擇重要計算部分,在保持模型性能的同時顯著提升訓(xùn)練效率,已在多個任務(wù)上驗證有效性。