av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<ruby id="ru0vj"></ruby>

微信掃一掃，關注公眾號

科技行者
算力行者

見證連接與計算的「力量」

微軟亞洲研究院重大發(fā)現(xiàn)：AI推理訓練真的能讓機器變聰明，關鍵在于思維過程而非答案

人工智能強化學習推理評估

微軟亞洲研究院重大發(fā)現(xiàn)：AI推理訓練真的能讓機器變聰明，關鍵在于思維過程而非答案

作者：科技行者

2025-06-24 10:13

分享至：

微軟亞洲研究院團隊通過創(chuàng)新的評估方法發(fā)現(xiàn)，具有可驗證獎勵的強化學習(RLVR)能夠真正提升AI的推理能力，而非僅僅改善答案準確率。研究提出了CoT-Pass@K評估標準，要求AI不僅給出正確答案還需保證推理過程正確，實驗證明RLVR訓練顯著提升了AI的邏輯推理質(zhì)量，為開發(fā)更可靠的AI推理系統(tǒng)奠定重要基礎。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-06-24 10:13 ? 科技行者

這項由微軟亞洲研究院的溫旭萌、劉子涵、鄭舜等研究人員主導的研究發(fā)表于2025年6月，論文標題為《具有可驗證獎勵的強化學習隱性激勵大語言模型中的正確推理》。有興趣深入了解的讀者可以通過arXiv:2506.14245v1訪問完整論文。

近年來，人工智能領域出現(xiàn)了一個引人注目的現(xiàn)象：通過"強化學習"訓練的AI模型在解決數(shù)學問題時表現(xiàn)出色，但學界對其真正的推理能力產(chǎn)生了質(zhì)疑。就像學生考試時，有些人真正理解了解題思路，有些人則是靠運氣蒙對答案。那么，經(jīng)過特殊訓練的AI究竟是真正學會了推理，還是只是變得更善于"蒙答案"呢？

這個問題的核心在于一種叫做"具有可驗證獎勵的強化學習"（RLVR）的訓練方法。這種方法就像給AI配備了一位嚴格的數(shù)學老師：每當AI解出一道題，老師只會告訴它最終答案對不對，但不會檢查解題過程是否正確。久而久之，AI學會了找到正確答案，但人們開始懷疑——它是真正理解了數(shù)學原理，還是只是學會了一些解題技巧？

為了解答這個疑問，微軟研究團隊展開了一項深入調(diào)查。他們發(fā)現(xiàn)，傳統(tǒng)的評估方法存在一個重大缺陷：只關注最終答案是否正確，卻忽略了思維過程的質(zhì)量。這就像評判一個學生的數(shù)學水平時，只看他在多次嘗試中是否能蒙對答案，而不檢查他的解題步驟是否合理。

研究團隊發(fā)現(xiàn)，許多看似"聰明"的基礎AI模型實際上經(jīng)常使用錯誤的推理過程得出正確答案。就像一個學生在解方程時計算步驟全錯，但最后卻意外得到了正確結果。這種現(xiàn)象在AI世界中相當普遍，特別是那些經(jīng)過大量文本訓練的模型，它們具有強大的"聯(lián)想"能力，能夠憑借對語言模式的記憶找到答案，即使推理過程并不嚴謹。

為了更準確地評估AI的真實推理能力，研究團隊提出了一個新的評估標準，稱為"CoT-Pass@K"。這個標準不僅要求AI給出正確答案，還要求其思維過程（Chain of Thought，簡稱CoT）必須邏輯清晰、步驟正確。這就像數(shù)學考試中，老師不僅要看最終答案，還要檢查每一個解題步驟是否合理。

研究團隊還建立了一套理論框架來解釋RLVR訓練的工作原理。他們發(fā)現(xiàn)，這種訓練方法確實能夠激勵AI產(chǎn)生正確的推理過程。原理很簡單：如果AI的思維過程更加嚴謹，那么它得出正確答案的概率就會更高。在訓練過程中，系統(tǒng)會獎勵那些得出正確答案的嘗試，而擁有正確推理過程的AI自然更容易獲得獎勵，從而形成良性循環(huán)。

這就像培養(yǎng)一個學生解題能力的過程。雖然老師只對最終答案進行評分，但那些真正掌握了解題方法的學生，長期來看總是比那些依賴運氣的學生表現(xiàn)更好。因此，通過持續(xù)的練習和反饋，AI會逐漸學會使用更加可靠的推理方法。

為了驗證這一理論，研究團隊進行了大量實驗。他們使用了一個強大的AI模型作為"評判員"，專門檢查其他AI的思維過程是否正確。這個評判員模型經(jīng)過特殊訓練，能夠識別數(shù)學推理中的邏輯錯誤、計算錯誤和概念誤用。

實驗結果令人振奮。在傳統(tǒng)的評估方法下，經(jīng)過RLVR訓練的模型似乎并沒有比基礎模型強多少，有時甚至表現(xiàn)更差。但當使用新的CoT-Pass@K標準時，訓練后的模型表現(xiàn)出明顯的優(yōu)勢。這說明RLVR訓練確實提升了AI的推理質(zhì)量，只是傳統(tǒng)評估方法無法準確捕捉到這種提升。

研究團隊特別關注了兩個數(shù)學競賽數(shù)據(jù)集：AIME 2024和AIME 2025。這些是美國中學數(shù)學競賽的真題，難度較高且不太可能出現(xiàn)在AI的訓練數(shù)據(jù)中，因此能夠更客觀地測試AI的推理能力。結果顯示，經(jīng)過RLVR訓練的模型在這些測試中表現(xiàn)出了持續(xù)的優(yōu)勢，無論是在少量嘗試還是大量嘗試的情況下。

更有趣的是，研究團隊還觀察了訓練過程中AI能力的變化。他們發(fā)現(xiàn)，正確推理能力的提升出現(xiàn)得很早，幾乎從訓練開始就能觀察到改善。這表明RLVR訓練確實在從根本上改善AI的思維模式，而不是僅僅讓它記住更多解題套路。

通過分析訓練數(shù)據(jù)，研究人員發(fā)現(xiàn)了一個有趣現(xiàn)象：在簡單問題上，基礎AI模型經(jīng)常能夠找到正確答案，但其推理過程往往存在缺陷。而經(jīng)過RLVR訓練后，AI不僅保持了找到正確答案的能力，其推理過程的質(zhì)量也顯著提升。這就像一個原本依賴直覺解題的學生，通過系統(tǒng)訓練學會了規(guī)范的解題方法。

研究團隊還解釋了為什么在某些測試中，訓練效果可能不夠明顯。當題目過于簡單時，即使是基礎模型也能輕松解決，因此訓練效果不明顯。當題目涉及的領域與訓練數(shù)據(jù)差異較大時，訓練效果也會受到限制。這提醒我們，AI的能力提升需要在合適的難度水平和相關領域內(nèi)才能充分體現(xiàn)。

這項研究的意義遠不止于學術層面。它為我們理解AI的學習機制提供了重要洞察，也為未來AI訓練方法的改進指明了方向。更重要的是，它證明了AI確實可以通過適當?shù)挠柧毞椒ǐ@得更強的推理能力，而不僅僅是記憶和模式匹配。

從實際應用角度來看，這項研究為開發(fā)更可靠的AI推理系統(tǒng)奠定了基礎。當我們能夠確信AI的推理過程是可靠的，而不僅僅是答案碰巧正確時，AI在教育、科研、工程等需要嚴謹邏輯的領域的應用將變得更加可靠。

研究團隊也坦誠地指出了當前方法的局限性。目前他們主要依靠另一個AI模型來評判推理過程的正確性，這種方法雖然實用，但可能存在誤判。此外，研究主要集中在數(shù)學推理領域，在其他類型的推理任務中的效果還需要進一步驗證。

展望未來，這項研究為AI訓練方法的發(fā)展開辟了新的道路。研究人員提出，未來的AI訓練應該更加注重推理過程的質(zhì)量，而不僅僅是最終結果的正確性。這可能需要開發(fā)更好的自動評估工具，或者設計新的訓練目標來直接優(yōu)化推理質(zhì)量。

說到底，這項研究回答了一個關鍵問題：AI確實可以通過適當?shù)挠柧毞椒▽W會更好的推理，而不僅僅是變得更善于找到正確答案。這為我們對AI能力的理解帶來了重要轉變——從關注"它能做什么"轉向關注"它是如何思考的"。正如研究團隊所說，真正的智能不在于能夠給出正確答案，而在于能夠進行可靠的推理。

這一發(fā)現(xiàn)對普通人意味著什么呢？隨著AI推理能力的真正提升，我們可能很快就會看到在教育輔導、科學研究、工程設計等領域出現(xiàn)更加可靠的AI助手。這些AI不僅能給出答案，還能清晰地解釋推理過程，讓人類能夠理解和驗證其邏輯。這將大大提升人機協(xié)作的效率和可靠性。

當然，這也提醒我們在評估AI能力時要更加謹慎。僅僅看AI是否能給出正確答案是不夠的，我們還需要理解它的思維過程。只有當AI的推理過程變得透明、可靠時，我們才能真正信任它在重要任務中的表現(xiàn)。

Q&A

Q1：什么是RLVR訓練？它和傳統(tǒng)AI訓練有什么不同？ A：RLVR是"具有可驗證獎勵的強化學習"的簡稱，就像給AI配備了一位只看最終答案的老師。與傳統(tǒng)訓練不同，這種方法不直接教AI如何解題，而是讓AI自己嘗試，然后根據(jù)答案正確與否給予獎勵。研究發(fā)現(xiàn)，這種方法能夠間接激勵AI發(fā)展出更好的推理能力。

Q2：為什么傳統(tǒng)的評估方法不能準確反映AI的推理能力？ A：傳統(tǒng)評估只看最終答案是否正確，就像只看學生考試成績而不檢查解題過程。許多AI模型能夠通過記憶、聯(lián)想或運氣得到正確答案，但推理過程可能存在嚴重缺陷。這就導致我們高估了AI的真實推理能力。

Q3：CoT-Pass@K評估標準有什么特別之處？ A：這個標準不僅要求AI給出正確答案，還要求其思維過程必須邏輯清晰、步驟正確。就像數(shù)學考試中，老師既要看最終答案，也要檢查每個解題步驟。通過這種更嚴格的評估，研究人員發(fā)現(xiàn)經(jīng)過RLVR訓練的AI確實具有更強的推理能力。

人工智能強化學習推理評估

分享至

0贊

好文章，需要你的鼓勵

推薦文章

音頻生成
大語言模型
多模態(tài)AI

2025-09-10 09:47

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實驗室團隊AudioStory突破性進展

騰訊ARC實驗室推出AudioStory系統(tǒng)，首次實現(xiàn)AI根據(jù)復雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結合大語言模型的敘事推理能力與音頻生成技術，通過交錯式推理生成、解耦橋接機制和漸進式訓練，能夠將復雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準測試中表現(xiàn)優(yōu)異，為AI音頻創(chuàng)作開辟新方向。
視頻生成
深度學習
多模態(tài)學習

2025-09-09 13:57

Meta與特拉維夫大學聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

Meta與特拉維夫大學聯(lián)合研發(fā)的VideoJAM技術，通過讓AI同時學習外觀和運動信息，顯著解決了當前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術僅需添加兩個線性層就能大幅提升運動質(zhì)量，在多項測試中超越包括Sora在內(nèi)的商業(yè)模型，為AI視頻生成的實用化應用奠定了重要基礎。
多模態(tài)AI
人類價值觀對齊
數(shù)據(jù)集構建

2025-09-09 13:56

上海AI實驗室重磅發(fā)布：讓AI看圖"說人話"的神奇訓練法，解決多模態(tài)AI與人類價值觀對齊難題

上海AI實驗室發(fā)布OmniAlign-V研究，首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓練數(shù)據(jù)集和MM-AlignBench評測基準，通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法，讓AI在保持技術能力的同時顯著提升人性化交互水平，為AI價值觀對齊提供了可行技術路徑。
人工智能
圖神經(jīng)網(wǎng)絡
天氣預報

2025-09-09 10:56

谷歌研究團隊發(fā)布超級預測模型：讓AI像天氣預報員一樣預測全球大氣變化

谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預測模型，能夠在不到一分鐘內(nèi)完成10天全球天氣預報，準確性超越傳統(tǒng)方法90%的指標。該模型采用圖神經(jīng)網(wǎng)絡技術，通過學習40年歷史數(shù)據(jù)掌握天氣變化規(guī)律，在極端天氣預測方面表現(xiàn)卓越，能耗僅為傳統(tǒng)方法的千分之一，為氣象學領域帶來了效率和精度的雙重突破。

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實驗室團隊AudioStory突破性進展

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實驗室團隊AudioStory突破性進展

2025-09-10 09:47

Meta與特拉維夫大學聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

Meta與特拉維夫大學聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

2025-09-09 13:57

上海AI實驗室重磅發(fā)布：讓AI看圖"說人話"的神奇訓練法，解決多模態(tài)AI與人類價值觀對齊難題

上海AI實驗室重磅發(fā)布：讓AI看圖"說人話"的神奇訓練法，解決多模態(tài)AI與人類價值觀對齊難題

2025-09-09 13:56

谷歌研究團隊發(fā)布超級預測模型：讓AI像天氣預報員一樣預測全球大氣變化

谷歌研究團隊發(fā)布超級預測模型：讓AI像天氣預報員一樣預測全球大氣變化

2025-09-09 10:56

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時代

京ICP證15039648號京ICP備15039648號-9 京公網(wǎng)安備 11010802021500號

北京第二十六維信息技術有限公司（至頂網(wǎng)）版權所有。 | 聯(lián)絡我們

舉報電話：010-62641205　涉未成年人舉報專線：010-62641208 舉報郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報專區(qū)：https://www.12377.cn

<acronym id="axmfa"><var id="axmfa"></var></acronym>

<sup id="axmfa"><tfoot id="axmfa"></tfoot></sup>

<u id="axmfa"></u>