av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見(jiàn)證連接與計(jì)算的「力量」

首頁(yè) 阿里巴巴推出START:讓AI也能像人一樣用工具解題的突破性進(jìn)展

阿里巴巴推出START:讓AI也能像人一樣用工具解題的突破性進(jìn)展

2025-08-04 11:15
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-08-04 11:15 ? 科技行者

這項(xiàng)由中國(guó)科學(xué)技術(shù)大學(xué)的李成鵬以及阿里巴巴集團(tuán)的薛明峰、張振如、楊佳希等研究人員合作完成的研究發(fā)表于2025年3月,題為"START: Self-taught Reasoner with Tools"。有興趣深入了解的讀者可以通過(guò)arXiv:2503.04625v2訪問(wèn)完整論文。

當(dāng)我們遇到復(fù)雜的數(shù)學(xué)題時(shí),大多數(shù)人會(huì)自然而然地拿出計(jì)算器或者在草稿紙上畫(huà)圖輔助思考。然而,目前最先進(jìn)的AI推理模型,比如OpenAI的o1和DeepSeek的R1,雖然能進(jìn)行復(fù)雜的邏輯推理,卻只能"空想"——它們無(wú)法像人類一樣使用外部工具來(lái)輔助計(jì)算和驗(yàn)證。這就好比讓一個(gè)數(shù)學(xué)家在沒(méi)有任何工具的情況下,僅憑大腦就要解決復(fù)雜的微積分問(wèn)題,自然容易出現(xiàn)錯(cuò)誤和幻覺(jué)。

阿里巴巴的研究團(tuán)隊(duì)意識(shí)到了這個(gè)問(wèn)題,并開(kāi)發(fā)出了一個(gè)名為START(Self-taught Reasoner with Tools)的創(chuàng)新系統(tǒng)。這個(gè)系統(tǒng)就像是給AI裝上了一雙"巧手",讓它能夠在思考問(wèn)題的同時(shí)使用Python編程工具進(jìn)行計(jì)算、驗(yàn)證和調(diào)試,大大提升了推理的準(zhǔn)確性和可靠性。

START的核心創(chuàng)新在于它的自學(xué)習(xí)能力。研究團(tuán)隊(duì)沒(méi)有給AI提供大量的示例來(lái)教它如何使用工具,而是開(kāi)發(fā)了一種巧妙的"提示注入"技術(shù)。這就好比在學(xué)生做題時(shí),老師在關(guān)鍵時(shí)刻輕聲提醒"也許用計(jì)算器會(huì)更好",從而激發(fā)學(xué)生自主使用工具的意識(shí)。

一、START的工作原理:從"空想家"到"實(shí)干家"

傳統(tǒng)的大型推理模型在解決問(wèn)題時(shí),就像一個(gè)坐在書(shū)桌前冥思苦想的學(xué)者,只能依靠?jī)?nèi)在的邏輯推理能力。雖然這些模型在處理抽象概念方面表現(xiàn)出色,但當(dāng)面臨需要精確計(jì)算或復(fù)雜驗(yàn)證的問(wèn)題時(shí),往往會(huì)產(chǎn)生"幻覺(jué)"——也就是給出看似合理但實(shí)際錯(cuò)誤的答案。

START的突破在于將這種"純思維"的推理模式轉(zhuǎn)變?yōu)?思維+工具"的協(xié)作模式。當(dāng)START遇到一個(gè)復(fù)雜的數(shù)學(xué)問(wèn)題時(shí),它不僅會(huì)進(jìn)行邏輯分析,還會(huì)主動(dòng)編寫(xiě)Python代碼來(lái)驗(yàn)證計(jì)算結(jié)果,檢查答案的合理性,甚至在發(fā)現(xiàn)錯(cuò)誤時(shí)進(jìn)行自我調(diào)試。

這種轉(zhuǎn)變的實(shí)現(xiàn)依賴于兩個(gè)關(guān)鍵技術(shù)創(chuàng)新。第一個(gè)是"Hint-infer"(提示推理)技術(shù)。研究團(tuán)隊(duì)發(fā)現(xiàn),如果在模型推理過(guò)程中的特定位置插入精心設(shè)計(jì)的提示語(yǔ),比如"等等,也許在這里使用Python是個(gè)好主意",模型就會(huì)自然而然地開(kāi)始使用編程工具。這些提示不是隨意放置的,而是插入在模型出現(xiàn)"另外"、"等等"等表示反思或?qū)で笮路椒ǖ脑~匯之后,因?yàn)檫@些時(shí)刻正是人類在解題時(shí)會(huì)考慮使用工具的關(guān)鍵節(jié)點(diǎn)。

第二個(gè)創(chuàng)新是"Hint-RFT"(提示拒絕采樣微調(diào))技術(shù)。這個(gè)過(guò)程就像是一個(gè)嚴(yán)格的質(zhì)量控制系統(tǒng):首先讓模型生成大量帶有工具使用的推理過(guò)程,然后對(duì)這些過(guò)程進(jìn)行評(píng)分和篩選,保留那些正確且有效的解題軌跡,最后用這些高質(zhì)量的數(shù)據(jù)來(lái)訓(xùn)練模型,使其學(xué)會(huì)自主使用工具。

二、從理論到實(shí)踐:START的訓(xùn)練過(guò)程

研究團(tuán)隊(duì)選擇了QwQ-32B-Preview作為基礎(chǔ)模型進(jìn)行改進(jìn)。這個(gè)選擇頗具戰(zhàn)略意義,因?yàn)镼wQ-32B-Preview本身就具備較強(qiáng)的推理能力,研究團(tuán)隊(duì)需要做的是在此基礎(chǔ)上增加工具使用能力,而不是從零開(kāi)始構(gòu)建。

訓(xùn)練數(shù)據(jù)的選擇也很有講究。研究團(tuán)隊(duì)收集了大約5萬(wàn)個(gè)問(wèn)題,其中包括4萬(wàn)個(gè)數(shù)學(xué)問(wèn)題和1萬(wàn)個(gè)編程問(wèn)題。數(shù)學(xué)問(wèn)題來(lái)源于歷年的AIME競(jìng)賽題目、MATH數(shù)據(jù)集以及Numina-MATH數(shù)據(jù)集,而編程問(wèn)題則來(lái)自Codeforces、代碼競(jìng)賽以及LiveCodeBench等平臺(tái)。這些問(wèn)題都具有相當(dāng)?shù)碾y度,需要復(fù)雜的推理和計(jì)算才能解決。

訓(xùn)練過(guò)程分為兩個(gè)階段,就像培養(yǎng)一個(gè)學(xué)生首先學(xué)會(huì)使用工具,然后熟練掌握工具使用技巧。在第一階段,研究團(tuán)隊(duì)使用Hint-infer技術(shù)讓基礎(chǔ)模型學(xué)會(huì)在推理過(guò)程中使用Python工具。他們發(fā)現(xiàn),當(dāng)在模型的推理過(guò)程中插入適當(dāng)?shù)奶崾竞?,模型竟然能夠自然地開(kāi)始編寫(xiě)代碼來(lái)解決問(wèn)題,這表明大型語(yǔ)言模型本身就具備了使用工具的潛力,只是需要適當(dāng)?shù)募ぐl(fā)。

在第二階段,研究團(tuán)隊(duì)使用更加精細(xì)的訓(xùn)練方法。他們讓經(jīng)過(guò)初步訓(xùn)練的模型(稱為START-0)生成大量的解題過(guò)程,然后使用嚴(yán)格的評(píng)分標(biāo)準(zhǔn)篩選出高質(zhì)量的推理軌跡。這些軌跡不僅要得到正確答案,還要展現(xiàn)出良好的工具使用習(xí)慣和清晰的推理邏輯。最終,這些精選的訓(xùn)練數(shù)據(jù)被用來(lái)進(jìn)一步優(yōu)化模型,產(chǎn)生了最終的START系統(tǒng)。

三、令人矚目的性能表現(xiàn)

START在多個(gè)權(quán)威基準(zhǔn)測(cè)試中都取得了顯著的性能提升,這些測(cè)試涵蓋了從博士級(jí)科學(xué)問(wèn)答到競(jìng)賽級(jí)數(shù)學(xué)和編程問(wèn)題的各個(gè)領(lǐng)域。在GPQA(研究生級(jí)問(wèn)答)測(cè)試中,START達(dá)到了63.6%的準(zhǔn)確率,比基礎(chǔ)模型提升了5.5個(gè)百分點(diǎn)。更令人印象深刻的是,在數(shù)學(xué)競(jìng)賽方面,START在AMC23上達(dá)到了95.0%的準(zhǔn)確率,在AIME24上達(dá)到66.7%,在AIME25上達(dá)到47.1%,這些提升幅度分別為15.0%、16.7%和7.1%。

在編程能力測(cè)試LiveCodeBench上,START也表現(xiàn)出色,準(zhǔn)確率達(dá)到47.3%,比基礎(chǔ)模型提升了5.9%。這些數(shù)字背后反映的是START能夠在解決復(fù)雜問(wèn)題時(shí)有效利用工具進(jìn)行計(jì)算驗(yàn)證和錯(cuò)誤調(diào)試。

為了更直觀地展示START的優(yōu)勢(shì),研究團(tuán)隊(duì)提供了一個(gè)具體的對(duì)比案例。面對(duì)一個(gè)復(fù)雜的編程問(wèn)題,基礎(chǔ)的QwQ-32B-Preview模型雖然能夠進(jìn)行深入的邏輯分析和自我反思,但在處理復(fù)雜的測(cè)試用例時(shí)出現(xiàn)了"幻覺(jué)",導(dǎo)致最終答案錯(cuò)誤。而START則能夠通過(guò)執(zhí)行代碼來(lái)驗(yàn)證結(jié)果,當(dāng)發(fā)現(xiàn)輸出不匹配時(shí),它會(huì)進(jìn)行迭代分析和調(diào)試,最終給出正確的解決方案。

四、創(chuàng)新技術(shù)的深層機(jī)制

START的成功很大程度上歸功于其創(chuàng)新的"提示庫(kù)"設(shè)計(jì)。這個(gè)提示庫(kù)就像是一個(gè)經(jīng)驗(yàn)豐富的導(dǎo)師的工具箱,包含了針對(duì)不同情況的各種提示語(yǔ)。對(duì)于數(shù)學(xué)推理任務(wù),提示庫(kù)包含了鼓勵(lì)復(fù)雜計(jì)算、自我反思、邏輯檢查和探索替代方法的各種提示。對(duì)于編程任務(wù),提示庫(kù)則專注于促進(jìn)模型的自我調(diào)試能力,鼓勵(lì)模型將代碼與測(cè)試用例進(jìn)行對(duì)比驗(yàn)證。

特別值得注意的是,研究團(tuán)隊(duì)發(fā)現(xiàn)當(dāng)在模型推理的結(jié)束位置插入提示時(shí),會(huì)產(chǎn)生一種"順序測(cè)試時(shí)間縮放"效應(yīng)。簡(jiǎn)單來(lái)說(shuō),就是給模型更多的思考時(shí)間,其解決問(wèn)題的成功率也會(huì)相應(yīng)提高。這個(gè)發(fā)現(xiàn)為提升AI推理能力提供了一個(gè)簡(jiǎn)單而有效的方法。

研究團(tuán)隊(duì)還進(jìn)行了詳細(xì)的對(duì)比實(shí)驗(yàn)來(lái)驗(yàn)證工具使用的價(jià)值。他們創(chuàng)建了一個(gè)對(duì)照版本,使用相同的訓(xùn)練數(shù)據(jù)但不包含工具使用功能,結(jié)果發(fā)現(xiàn)這個(gè)版本的性能與原始基礎(chǔ)模型幾乎相同。這清楚地表明,START的性能提升主要來(lái)源于其工具使用能力,而不是簡(jiǎn)單的數(shù)據(jù)增加。

五、技術(shù)實(shí)現(xiàn)的巧思

START的實(shí)現(xiàn)過(guò)程充滿了技術(shù)巧思。研究團(tuán)隊(duì)發(fā)現(xiàn),傳統(tǒng)的提示方法無(wú)法有效激發(fā)大型推理模型使用工具的能力。他們嘗試了直接提示、精心設(shè)計(jì)的提示以及上下文示例等多種方法,但都未能成功讓模型在長(zhǎng)鏈推理過(guò)程中主動(dòng)調(diào)用Python工具。

最終的突破來(lái)自于對(duì)模型推理過(guò)程的深入分析。研究團(tuán)隊(duì)注意到,在模型的推理過(guò)程中,某些特定的連接詞(如"另外"、"等等")通常表示模型開(kāi)始內(nèi)省或?qū)で笮碌慕鉀Q方案。在這些關(guān)鍵時(shí)刻插入提示,就能有效激發(fā)模型使用工具的行為。

這種發(fā)現(xiàn)的意義遠(yuǎn)不止于技術(shù)層面。它揭示了大型語(yǔ)言模型內(nèi)部可能存在某種類似人類認(rèn)知的結(jié)構(gòu),在特定的"反思時(shí)刻"更容易接受外部建議和使用輔助工具。這為我們理解AI的推理機(jī)制提供了新的視角。

六、實(shí)際應(yīng)用場(chǎng)景的展示

研究團(tuán)隊(duì)通過(guò)多個(gè)具體案例展示了START的實(shí)際應(yīng)用效果。在一個(gè)關(guān)于硬幣組合的數(shù)學(xué)問(wèn)題中,START不僅能夠理解問(wèn)題的數(shù)學(xué)本質(zhì)(這是一個(gè)弗羅貝尼烏斯硬幣問(wèn)題),還能夠編寫(xiě)Python代碼來(lái)驗(yàn)證所有可能的組合,最終準(zhǔn)確找到無(wú)法用給定面值硬幣支付的最大金額。

在另一個(gè)更加復(fù)雜的數(shù)論問(wèn)題中,START展現(xiàn)出了令人印象深刻的自主學(xué)習(xí)能力。面對(duì)尋找最小素?cái)?shù)的問(wèn)題,START不僅進(jìn)行了理論分析,還編寫(xiě)了復(fù)雜的搜索程序來(lái)驗(yàn)證結(jié)果,甚至在計(jì)算過(guò)程中發(fā)現(xiàn)并修正了自己的錯(cuò)誤。

在編程任務(wù)方面,START的表現(xiàn)同樣出色。面對(duì)一個(gè)需要處理單調(diào)對(duì)的復(fù)雜算法問(wèn)題,START不僅理解了問(wèn)題的數(shù)學(xué)約束條件,還設(shè)計(jì)出了高效的動(dòng)態(tài)規(guī)劃解決方案,并通過(guò)代碼執(zhí)行驗(yàn)證了算法的正確性。

七、測(cè)試時(shí)間縮放的意外發(fā)現(xiàn)

研究過(guò)程中的一個(gè)有趣發(fā)現(xiàn)是START具備"測(cè)試時(shí)間縮放"能力。這意味著通過(guò)在推理過(guò)程中多次插入提示,給模型更多的思考和工具使用機(jī)會(huì),其性能會(huì)持續(xù)提升。這就像給學(xué)生更多時(shí)間和更多次使用計(jì)算器的機(jī)會(huì),他們的答題準(zhǔn)確率會(huì)相應(yīng)提高。

這個(gè)特性的發(fā)現(xiàn)為AI系統(tǒng)的實(shí)際部署提供了重要參考。在對(duì)準(zhǔn)確性要求較高的場(chǎng)景中,可以通過(guò)增加推理時(shí)間來(lái)獲得更好的結(jié)果。而在對(duì)速度要求較高的場(chǎng)景中,則可以在準(zhǔn)確性和效率之間找到合適的平衡點(diǎn)。

八、與現(xiàn)有技術(shù)的比較優(yōu)勢(shì)

START的出現(xiàn)填補(bǔ)了當(dāng)前AI推理領(lǐng)域的一個(gè)重要空白。雖然OpenAI的o1模型也聲稱具備使用外部工具的能力,但相關(guān)的技術(shù)細(xì)節(jié)并未公開(kāi)。START作為首個(gè)開(kāi)源的工具集成長(zhǎng)鏈推理模型,為整個(gè)AI社區(qū)提供了寶貴的技術(shù)參考。

與傳統(tǒng)的工具增強(qiáng)推理方法相比,START的優(yōu)勢(shì)在于其自主性。以往的系統(tǒng)需要明確的指令或示例來(lái)指導(dǎo)工具使用,而START能夠根據(jù)問(wèn)題的需要自主決定何時(shí)以及如何使用工具。這種自主性使得START能夠處理更加復(fù)雜和多樣化的問(wèn)題。

在性能方面,START在多個(gè)基準(zhǔn)測(cè)試中都達(dá)到了與頂級(jí)閉源模型相當(dāng)?shù)乃?。特別是在數(shù)學(xué)推理任務(wù)上,START的表現(xiàn)甚至超過(guò)了一些知名的商業(yè)模型,這證明了開(kāi)源研究在推動(dòng)AI技術(shù)發(fā)展方面的重要價(jià)值。

說(shuō)到底,START代表了AI推理技術(shù)發(fā)展的一個(gè)重要里程碑。它不僅展示了如何將符號(hào)計(jì)算與神經(jīng)推理有效結(jié)合,更重要的是驗(yàn)證了AI系統(tǒng)通過(guò)自主學(xué)習(xí)掌握工具使用的可能性。這種能力的獲得,使得AI在解決復(fù)雜問(wèn)題時(shí)更加可靠和準(zhǔn)確,大大減少了"幻覺(jué)"現(xiàn)象的出現(xiàn)。

對(duì)于普通用戶而言,START技術(shù)的意義在于它預(yù)示著未來(lái)的AI助手將能夠更好地處理需要精確計(jì)算和驗(yàn)證的任務(wù)。無(wú)論是幫助學(xué)生解決復(fù)雜的數(shù)學(xué)題目,還是協(xié)助工程師進(jìn)行技術(shù)方案的驗(yàn)證,這種能夠自主使用工具的AI系統(tǒng)都將帶來(lái)更高的準(zhǔn)確性和可信度。當(dāng)然,目前START仍然主要專注于Python工具的使用,未來(lái)如果能夠擴(kuò)展到更多種類的工具和應(yīng)用領(lǐng)域,其實(shí)用價(jià)值將會(huì)更加顯著。

這項(xiàng)研究也引發(fā)了一些值得思考的問(wèn)題:隨著AI系統(tǒng)越來(lái)越善于使用工具,人類在問(wèn)題解決過(guò)程中的獨(dú)特價(jià)值又在哪里?如何確保這種強(qiáng)大的AI系統(tǒng)被正確和安全地使用?這些問(wèn)題的答案或許需要在技術(shù)繼續(xù)發(fā)展的過(guò)程中逐步探索和發(fā)現(xiàn)。無(wú)論如何,START的出現(xiàn)為我們展示了AI技術(shù)發(fā)展的一個(gè)令人興奮的新方向,值得持續(xù)關(guān)注和深入研究。

Q&A

Q1:START技術(shù)是什么?它能做什么? A:START是阿里巴巴開(kāi)發(fā)的AI推理系統(tǒng),它的核心能力是讓AI在解決復(fù)雜問(wèn)題時(shí)能夠像人類一樣主動(dòng)使用工具(如Python編程)進(jìn)行計(jì)算、驗(yàn)證和調(diào)試。這大大提升了AI解決數(shù)學(xué)和編程問(wèn)題的準(zhǔn)確性,減少了"幻覺(jué)"現(xiàn)象。

Q2:START會(huì)不會(huì)取代人類解決復(fù)雜問(wèn)題? A:目前不會(huì)完全取代人類,但會(huì)顯著改變問(wèn)題解決方式。START主要在數(shù)學(xué)計(jì)算和編程調(diào)試方面表現(xiàn)出色,但人類在創(chuàng)造性思維、問(wèn)題定義和價(jià)值判斷方面仍具有不可替代的優(yōu)勢(shì)。未來(lái)更可能是人機(jī)協(xié)作的模式。

Q3:普通人能使用START技術(shù)嗎? A:目前START主要是研究階段的技術(shù),普通用戶還無(wú)法直接使用。不過(guò)這項(xiàng)技術(shù)是開(kāi)源的,研究人員可以通過(guò)arXiv:2503.04625v2獲取技術(shù)細(xì)節(jié)。預(yù)計(jì)未來(lái)會(huì)有基于這種技術(shù)的產(chǎn)品應(yīng)用出現(xiàn),為教育和工程等領(lǐng)域提供更準(zhǔn)確的AI助手。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-