這項由上海AI實驗室、上海交通大學(xué)和香港中文大學(xué)聯(lián)合完成的研究發(fā)表于2025年2月17日的arXiv預(yù)印本服務(wù)器,論文題為"BoostStep: Boosting Mathematical Capability of Large Language Models via Improved Single-step Reasoning"。有興趣深入了解的讀者可以通過https://github.com/beichenzbc/BoostStep訪問完整研究資料和代碼。
當我們看到孩子做數(shù)學(xué)題時,往往會發(fā)現(xiàn)一個有趣現(xiàn)象:他們能夠正確地將一道復(fù)雜題目分解成幾個小步驟,但在具體執(zhí)行某個步驟時卻容易出錯。比如明明知道要用勾股定理,卻在計算時搞錯了公式,或者明明分析出需要列方程,但在求解過程中計算失誤?,F(xiàn)在的大型語言模型在數(shù)學(xué)推理方面表現(xiàn)出了同樣的特點。
研究團隊通過深入分析發(fā)現(xiàn)了一個令人驚訝的現(xiàn)象:即使是GPT-4o這樣的頂級模型,在數(shù)學(xué)問題上犯的錯誤中,高達99.2%都源于單個步驟的推理失誤,而不是整體思路錯誤。這就像一個經(jīng)驗豐富的廚師知道做一道菜需要哪些步驟,但在某個具體步驟上可能會搞錯調(diào)料的用量。
傳統(tǒng)的解決方案是給AI模型提供幾個完整的例題作為參考,這種方法叫做"情境學(xué)習(xí)"。但研究人員發(fā)現(xiàn)這就像給學(xué)生看幾道完整的解題過程,學(xué)生可能會被無關(guān)的步驟分散注意力,或者根本找不到對當前步驟有用的指導(dǎo)。更要命的是,如果例題與當前題目差別較大,反而可能誤導(dǎo)模型的判斷。
基于這些發(fā)現(xiàn),研究團隊提出了一種全新的方法,稱為BoostStep。這個方法的核心思想非常巧妙:不再是一開始就給出完整例題,而是在AI模型解每一個具體步驟時,實時提供最相關(guān)的指導(dǎo)。
BoostStep的工作方式可以用輔導(dǎo)老師的教學(xué)方法來類比。當學(xué)生遇到難題時,好的輔導(dǎo)老師不會直接給出答案,而是先讓學(xué)生嘗試解題,觀察學(xué)生在哪一步卡住了,然后針對性地提供這一步的解題技巧和類似例子。BoostStep正是模擬了這種教學(xué)方式。
具體來說,當AI模型需要進行下一步推理時,BoostStep會讓模型先進行一次"試探性嘗試"。這個嘗試不需要完全正確,只需要讓系統(tǒng)了解模型當前想要解決什么問題。然后,系統(tǒng)會在預(yù)先建立的步驟級題庫中搜索最相似的解題步驟,將找到的相關(guān)例子提供給模型,幫助它完成當前步驟的推理。
這種方法的優(yōu)勢非常明顯。首先,它提供的指導(dǎo)更加精準。傳統(tǒng)方法就像給學(xué)生一本厚厚的參考書,學(xué)生需要自己找到有用的部分,而BoostStep則像一個智能助手,總是在恰當?shù)臅r機提供恰當?shù)膸椭?。其次,這種方法大大降低了對例題相似度的要求。即使兩道題目看起來完全不同,只要其中某些解題步驟相似,就能提供有效的指導(dǎo)。
為了構(gòu)建高質(zhì)量的步驟級題庫,研究團隊沒有簡單地按照標點符號來分割解題過程,而是讓GPT-4o根據(jù)推理內(nèi)容來自然分解每個步驟。這確保了題庫中的每個步驟都是一個完整的推理單元,就像確保每個"積木塊"都是完整的一樣,這樣在需要時才能提供真正有用的指導(dǎo)。
在實驗驗證階段,BoostStep展現(xiàn)出了令人印象深刻的效果。在GPT-4o上,這種方法在數(shù)學(xué)基準測試中平均提升了4.6%的性能,而傳統(tǒng)的幾樣本學(xué)習(xí)方法只能提升1.2%。更令人驚訝的是,在一些與題庫相似度較低的多模態(tài)數(shù)學(xué)題目上,傳統(tǒng)方法甚至?xí)a(chǎn)生負面影響,降低0.9%的準確率,但BoostStep仍然能夠提升2.8%。
研究團隊還測試了BoostStep在"以簡馭繁"方面的能力。他們用相對簡單的MATH數(shù)據(jù)集中的例題來指導(dǎo)最先進的模型解決更困難的AIME競賽題目。結(jié)果顯示,即使是DeepSeek-R1這樣的頂級模型,在BoostStep的幫助下也能在AIME測試中提升2.2%的表現(xiàn)。這證明了該方法不僅能提升性能,還能讓AI模型從更簡單的例子中學(xué)到解決復(fù)雜問題的技巧。
BoostStep還展現(xiàn)出了與現(xiàn)有推理策略的良好兼容性。當與樹搜索算法結(jié)合時,它能夠同時改進候選步驟的生成質(zhì)量和評估準確性,帶來額外7.5%的性能提升。這就像一個優(yōu)秀的工具能夠與其他工具完美配合,產(chǎn)生1+1>2的效果。
從技術(shù)角度來看,BoostStep的核心創(chuàng)新在于將傳統(tǒng)的問題級情境學(xué)習(xí)細化到了步驟級。這種細粒度的方法不僅提供了更精準的指導(dǎo),還減少了無關(guān)信息的干擾。通過"先嘗試、再檢索、后推理"的策略,系統(tǒng)能夠準確理解模型的當前需求,并提供最相關(guān)的幫助。
值得注意的是,BoostStep在不同類型的數(shù)學(xué)問題上都表現(xiàn)出了穩(wěn)定的改進效果。無論是代數(shù)問題、幾何問題還是概率統(tǒng)計問題,這種方法都能提供有效的指導(dǎo)。這說明了該方法的通用性和魯棒性。
在多模態(tài)數(shù)學(xué)問題上,BoostStep的優(yōu)勢更加明顯。傳統(tǒng)的情境學(xué)習(xí)方法在處理包含圖表、圖形的數(shù)學(xué)題時往往效果不佳,因為很難找到在視覺內(nèi)容上完全匹配的例題。但BoostStep通過專注于推理步驟而非整體問題,能夠跨越視覺表現(xiàn)的差異,提供有效的解題指導(dǎo)。
研究團隊還進行了詳細的消融實驗來驗證方法中各個組件的作用。他們發(fā)現(xiàn),基于推理內(nèi)容而非語法結(jié)構(gòu)來分解步驟是至關(guān)重要的,這確保了每個步驟都是語義完整的推理單元。同時,"先嘗試"策略相比其他檢索方法也顯示出明顯優(yōu)勢,能夠更準確地理解模型的當前需求。
從實際應(yīng)用的角度來看,BoostStep為大語言模型在數(shù)學(xué)教育、科學(xué)計算、工程問題求解等領(lǐng)域的應(yīng)用開辟了新的可能性。通過提供更精準的推理指導(dǎo),這種方法能夠讓AI系統(tǒng)在復(fù)雜推理任務(wù)中表現(xiàn)得更加可靠和準確。
研究團隊也坦誠地指出了當前方法的局限性。他們使用的題庫主要來源于PRM800K數(shù)據(jù)集,在問題類型和難度分布上還相對單一。使用更大規(guī)模、更多樣化的題庫可能會進一步提升效果。此外,目前使用的TF-IDF檢索方法雖然簡單有效,但專門為數(shù)學(xué)問題設(shè)計的檢索器可能會帶來更好的效果。
說到底,BoostStep代表了AI數(shù)學(xué)推理能力提升的一個重要方向。它不是通過讓模型記住更多解題模板來提升性能,而是通過在推理過程中提供更智能的指導(dǎo)來幫助模型做出更好的決策。這種思路不僅在數(shù)學(xué)推理領(lǐng)域有價值,在其他需要復(fù)雜推理的任務(wù)中也可能發(fā)揮重要作用。
歸根結(jié)底,這項研究告訴我們,有時候解決復(fù)雜問題的關(guān)鍵不在于擁有更多信息,而在于在正確的時間獲得正確的指導(dǎo)。就像一個好的導(dǎo)師不會一次性灌輸所有知識,而是會在學(xué)生需要的時候提供恰當?shù)膸椭?。BoostStep正是將這種教學(xué)智慧融入了AI系統(tǒng)的設(shè)計中,讓機器也能夠像優(yōu)秀的導(dǎo)師一樣,在推理過程中獲得精準的指導(dǎo)和支持。
Q&A
Q1:BoostStep方法和傳統(tǒng)的AI數(shù)學(xué)解題方法有什么不同?
A:傳統(tǒng)方法是在開始解題前給AI幾道完整的例題參考,就像給學(xué)生一本參考書讓他自己找有用信息。而BoostStep是在AI解每個具體步驟時實時提供最相關(guān)的指導(dǎo),就像有個老師在旁邊,看到學(xué)生在某一步卡住了就馬上給出針對性的提示。這樣避免了無關(guān)信息的干擾,指導(dǎo)更精準。
Q2:為什么說現(xiàn)在的AI模型在數(shù)學(xué)推理上99.2%的錯誤都來自單步推理?
A:研究團隊分析發(fā)現(xiàn),像GPT-4o這樣的先進模型其實很擅長將復(fù)雜數(shù)學(xué)題分解成小步驟,知道整體該怎么解。但在執(zhí)行具體某個步驟時容易出錯,比如用錯公式、算錯數(shù)字等。這就像一個廚師知道做菜的整個流程,但在某個具體步驟上可能會搞錯調(diào)料用量。所以提升單步推理準確性是關(guān)鍵。
Q3:BoostStep能讓簡單例題幫助解決更難的數(shù)學(xué)問題嗎?
A:是的,這是BoostStep的一個重要優(yōu)勢。研究顯示即使用MATH數(shù)據(jù)集中相對簡單的例題,也能幫助最先進的模型在更難的AIME競賽題上提升2.2%的表現(xiàn)。因為BoostStep專注于推理步驟而非整體問題,即使題目難度差別很大,只要某些解題步驟相似,就能提供有效指導(dǎo)。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機制和漸進式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學(xué)習(xí)外觀和運動信息,顯著解決了當前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準,通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報,準確性超越傳統(tǒng)方法90%的指標。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。