av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<strike id="en4am"><rt id="en4am"></rt></strike>

<style id="en4am"></style>

微信掃一掃，關(guān)注公眾號

科技行者
算力行者

見證連接與計算的「力量」

上海AI實驗室團隊讓GPT-4o數(shù)學(xué)推理能力飛躍4.6%：一種讓AI在解題時"邊做邊學(xué)"的革命性方法

人工智能數(shù)學(xué)推理步驟級學(xué)習(xí)

上海AI實驗室團隊讓GPT-4o數(shù)學(xué)推理能力飛躍4.6%：一種讓AI在解題時"邊做邊學(xué)"的革命性方法

作者：科技行者

2025-09-16 11:08

分享至：

上海AI實驗室團隊提出BoostStep方法，通過步驟級情境學(xué)習(xí)顯著提升大語言模型數(shù)學(xué)推理能力。該方法在AI解題過程中實時提供精準指導(dǎo)，而非傳統(tǒng)的完整例題參考，在GPT-4o上實現(xiàn)4.6%性能提升，超越傳統(tǒng)方法的1.2%。研究發(fā)現(xiàn)99.2%的數(shù)學(xué)錯誤源于單步推理失誤，驗證了細粒度指導(dǎo)的重要性。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-09-16 11:08 ? 科技行者

這項由上海AI實驗室、上海交通大學(xué)和香港中文大學(xué)聯(lián)合完成的研究發(fā)表于2025年2月17日的arXiv預(yù)印本服務(wù)器，論文題為"BoostStep: Boosting Mathematical Capability of Large Language Models via Improved Single-step Reasoning"。有興趣深入了解的讀者可以通過https://github.com/beichenzbc/BoostStep訪問完整研究資料和代碼。

當我們看到孩子做數(shù)學(xué)題時，往往會發(fā)現(xiàn)一個有趣現(xiàn)象：他們能夠正確地將一道復(fù)雜題目分解成幾個小步驟，但在具體執(zhí)行某個步驟時卻容易出錯。比如明明知道要用勾股定理，卻在計算時搞錯了公式，或者明明分析出需要列方程，但在求解過程中計算失誤?，F(xiàn)在的大型語言模型在數(shù)學(xué)推理方面表現(xiàn)出了同樣的特點。

研究團隊通過深入分析發(fā)現(xiàn)了一個令人驚訝的現(xiàn)象：即使是GPT-4o這樣的頂級模型，在數(shù)學(xué)問題上犯的錯誤中，高達99.2%都源于單個步驟的推理失誤，而不是整體思路錯誤。這就像一個經(jīng)驗豐富的廚師知道做一道菜需要哪些步驟，但在某個具體步驟上可能會搞錯調(diào)料的用量。

傳統(tǒng)的解決方案是給AI模型提供幾個完整的例題作為參考，這種方法叫做"情境學(xué)習(xí)"。但研究人員發(fā)現(xiàn)這就像給學(xué)生看幾道完整的解題過程，學(xué)生可能會被無關(guān)的步驟分散注意力，或者根本找不到對當前步驟有用的指導(dǎo)。更要命的是，如果例題與當前題目差別較大，反而可能誤導(dǎo)模型的判斷。

基于這些發(fā)現(xiàn)，研究團隊提出了一種全新的方法，稱為BoostStep。這個方法的核心思想非常巧妙：不再是一開始就給出完整例題，而是在AI模型解每一個具體步驟時，實時提供最相關(guān)的指導(dǎo)。

BoostStep的工作方式可以用輔導(dǎo)老師的教學(xué)方法來類比。當學(xué)生遇到難題時，好的輔導(dǎo)老師不會直接給出答案，而是先讓學(xué)生嘗試解題，觀察學(xué)生在哪一步卡住了，然后針對性地提供這一步的解題技巧和類似例子。BoostStep正是模擬了這種教學(xué)方式。

具體來說，當AI模型需要進行下一步推理時，BoostStep會讓模型先進行一次"試探性嘗試"。這個嘗試不需要完全正確，只需要讓系統(tǒng)了解模型當前想要解決什么問題。然后，系統(tǒng)會在預(yù)先建立的步驟級題庫中搜索最相似的解題步驟，將找到的相關(guān)例子提供給模型，幫助它完成當前步驟的推理。

這種方法的優(yōu)勢非常明顯。首先，它提供的指導(dǎo)更加精準。傳統(tǒng)方法就像給學(xué)生一本厚厚的參考書，學(xué)生需要自己找到有用的部分，而BoostStep則像一個智能助手，總是在恰當?shù)臅r機提供恰當?shù)膸椭?。其次，這種方法大大降低了對例題相似度的要求。即使兩道題目看起來完全不同，只要其中某些解題步驟相似，就能提供有效的指導(dǎo)。

為了構(gòu)建高質(zhì)量的步驟級題庫，研究團隊沒有簡單地按照標點符號來分割解題過程，而是讓GPT-4o根據(jù)推理內(nèi)容來自然分解每個步驟。這確保了題庫中的每個步驟都是一個完整的推理單元，就像確保每個"積木塊"都是完整的一樣，這樣在需要時才能提供真正有用的指導(dǎo)。

在實驗驗證階段，BoostStep展現(xiàn)出了令人印象深刻的效果。在GPT-4o上，這種方法在數(shù)學(xué)基準測試中平均提升了4.6%的性能，而傳統(tǒng)的幾樣本學(xué)習(xí)方法只能提升1.2%。更令人驚訝的是，在一些與題庫相似度較低的多模態(tài)數(shù)學(xué)題目上，傳統(tǒng)方法甚至?xí)a(chǎn)生負面影響，降低0.9%的準確率，但BoostStep仍然能夠提升2.8%。

研究團隊還測試了BoostStep在"以簡馭繁"方面的能力。他們用相對簡單的MATH數(shù)據(jù)集中的例題來指導(dǎo)最先進的模型解決更困難的AIME競賽題目。結(jié)果顯示，即使是DeepSeek-R1這樣的頂級模型，在BoostStep的幫助下也能在AIME測試中提升2.2%的表現(xiàn)。這證明了該方法不僅能提升性能，還能讓AI模型從更簡單的例子中學(xué)到解決復(fù)雜問題的技巧。

BoostStep還展現(xiàn)出了與現(xiàn)有推理策略的良好兼容性。當與樹搜索算法結(jié)合時，它能夠同時改進候選步驟的生成質(zhì)量和評估準確性，帶來額外7.5%的性能提升。這就像一個優(yōu)秀的工具能夠與其他工具完美配合，產(chǎn)生1+1>2的效果。

從技術(shù)角度來看，BoostStep的核心創(chuàng)新在于將傳統(tǒng)的問題級情境學(xué)習(xí)細化到了步驟級。這種細粒度的方法不僅提供了更精準的指導(dǎo)，還減少了無關(guān)信息的干擾。通過"先嘗試、再檢索、后推理"的策略，系統(tǒng)能夠準確理解模型的當前需求，并提供最相關(guān)的幫助。

值得注意的是，BoostStep在不同類型的數(shù)學(xué)問題上都表現(xiàn)出了穩(wěn)定的改進效果。無論是代數(shù)問題、幾何問題還是概率統(tǒng)計問題，這種方法都能提供有效的指導(dǎo)。這說明了該方法的通用性和魯棒性。

在多模態(tài)數(shù)學(xué)問題上，BoostStep的優(yōu)勢更加明顯。傳統(tǒng)的情境學(xué)習(xí)方法在處理包含圖表、圖形的數(shù)學(xué)題時往往效果不佳，因為很難找到在視覺內(nèi)容上完全匹配的例題。但BoostStep通過專注于推理步驟而非整體問題，能夠跨越視覺表現(xiàn)的差異，提供有效的解題指導(dǎo)。

研究團隊還進行了詳細的消融實驗來驗證方法中各個組件的作用。他們發(fā)現(xiàn)，基于推理內(nèi)容而非語法結(jié)構(gòu)來分解步驟是至關(guān)重要的，這確保了每個步驟都是語義完整的推理單元。同時，"先嘗試"策略相比其他檢索方法也顯示出明顯優(yōu)勢，能夠更準確地理解模型的當前需求。

從實際應(yīng)用的角度來看，BoostStep為大語言模型在數(shù)學(xué)教育、科學(xué)計算、工程問題求解等領(lǐng)域的應(yīng)用開辟了新的可能性。通過提供更精準的推理指導(dǎo)，這種方法能夠讓AI系統(tǒng)在復(fù)雜推理任務(wù)中表現(xiàn)得更加可靠和準確。

研究團隊也坦誠地指出了當前方法的局限性。他們使用的題庫主要來源于PRM800K數(shù)據(jù)集，在問題類型和難度分布上還相對單一。使用更大規(guī)模、更多樣化的題庫可能會進一步提升效果。此外，目前使用的TF-IDF檢索方法雖然簡單有效，但專門為數(shù)學(xué)問題設(shè)計的檢索器可能會帶來更好的效果。

說到底，BoostStep代表了AI數(shù)學(xué)推理能力提升的一個重要方向。它不是通過讓模型記住更多解題模板來提升性能，而是通過在推理過程中提供更智能的指導(dǎo)來幫助模型做出更好的決策。這種思路不僅在數(shù)學(xué)推理領(lǐng)域有價值，在其他需要復(fù)雜推理的任務(wù)中也可能發(fā)揮重要作用。

歸根結(jié)底，這項研究告訴我們，有時候解決復(fù)雜問題的關(guān)鍵不在于擁有更多信息，而在于在正確的時間獲得正確的指導(dǎo)。就像一個好的導(dǎo)師不會一次性灌輸所有知識，而是會在學(xué)生需要的時候提供恰當?shù)膸椭?。BoostStep正是將這種教學(xué)智慧融入了AI系統(tǒng)的設(shè)計中，讓機器也能夠像優(yōu)秀的導(dǎo)師一樣，在推理過程中獲得精準的指導(dǎo)和支持。

Q&A

Q1：BoostStep方法和傳統(tǒng)的AI數(shù)學(xué)解題方法有什么不同？

A：傳統(tǒng)方法是在開始解題前給AI幾道完整的例題參考，就像給學(xué)生一本參考書讓他自己找有用信息。而BoostStep是在AI解每個具體步驟時實時提供最相關(guān)的指導(dǎo)，就像有個老師在旁邊，看到學(xué)生在某一步卡住了就馬上給出針對性的提示。這樣避免了無關(guān)信息的干擾，指導(dǎo)更精準。

Q2：為什么說現(xiàn)在的AI模型在數(shù)學(xué)推理上99.2%的錯誤都來自單步推理？

A：研究團隊分析發(fā)現(xiàn)，像GPT-4o這樣的先進模型其實很擅長將復(fù)雜數(shù)學(xué)題分解成小步驟，知道整體該怎么解。但在執(zhí)行具體某個步驟時容易出錯，比如用錯公式、算錯數(shù)字等。這就像一個廚師知道做菜的整個流程，但在某個具體步驟上可能會搞錯調(diào)料用量。所以提升單步推理準確性是關(guān)鍵。

Q3：BoostStep能讓簡單例題幫助解決更難的數(shù)學(xué)問題嗎？

A：是的，這是BoostStep的一個重要優(yōu)勢。研究顯示即使用MATH數(shù)據(jù)集中相對簡單的例題，也能幫助最先進的模型在更難的AIME競賽題上提升2.2%的表現(xiàn)。因為BoostStep專注于推理步驟而非整體問題，即使題目難度差別很大，只要某些解題步驟相似，就能提供有效指導(dǎo)。

人工智能數(shù)學(xué)推理步驟級學(xué)習(xí)

分享至

0贊

好文章，需要你的鼓勵

推薦文章

音頻生成
大語言模型
多模態(tài)AI

2025-09-10 09:47

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實驗室團隊AudioStory突破性進展

騰訊ARC實驗室推出AudioStory系統(tǒng)，首次實現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù)，通過交錯式推理生成、解耦橋接機制和漸進式訓(xùn)練，能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準測試中表現(xiàn)優(yōu)異，為AI音頻創(chuàng)作開辟新方向。
視頻生成
深度學(xué)習(xí)
多模態(tài)學(xué)習(xí)

2025-09-09 13:57

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù)，通過讓AI同時學(xué)習(xí)外觀和運動信息，顯著解決了當前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運動質(zhì)量，在多項測試中超越包括Sora在內(nèi)的商業(yè)模型，為AI視頻生成的實用化應(yīng)用奠定了重要基礎(chǔ)。
多模態(tài)AI
人類價值觀對齊
數(shù)據(jù)集構(gòu)建

2025-09-09 13:56

上海AI實驗室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價值觀對齊難題

上海AI實驗室發(fā)布OmniAlign-V研究，首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準，通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法，讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平，為AI價值觀對齊提供了可行技術(shù)路徑。
人工智能
圖神經(jīng)網(wǎng)絡(luò)
天氣預(yù)報

2025-09-09 10:56

谷歌研究團隊發(fā)布超級預(yù)測模型：讓AI像天氣預(yù)報員一樣預(yù)測全球大氣變化

谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型，能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報，準確性超越傳統(tǒng)方法90%的指標。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù)，通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律，在極端天氣預(yù)測方面表現(xiàn)卓越，能耗僅為傳統(tǒng)方法的千分之一，為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實驗室團隊AudioStory突破性進展

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實驗室團隊AudioStory突破性進展

2025-09-10 09:47

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

2025-09-09 13:57

上海AI實驗室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價值觀對齊難題

上海AI實驗室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價值觀對齊難題

2025-09-09 13:56

谷歌研究團隊發(fā)布超級預(yù)測模型：讓AI像天氣預(yù)報員一樣預(yù)測全球大氣變化

谷歌研究團隊發(fā)布超級預(yù)測模型：讓AI像天氣預(yù)報員一樣預(yù)測全球大氣變化

2025-09-09 10:56

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時代

京ICP證15039648號京ICP備15039648號-9 京公網(wǎng)安備 11010802021500號

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報電話：010-62641205　涉未成年人舉報專線：010-62641208 舉報郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報專區(qū)：https://www.12377.cn

^{<p id="xgkhx"></p>}

<tfoot id="xgkhx"><span id="xgkhx"></span></tfoot>