這項(xiàng)由伊利諾伊大學(xué)香檳分校的程謙、Emre Can Acikgoz、何琦、王宏儒、陳修思、Dilek Hakkani-Tür、Gokhan Tur和季恒教授領(lǐng)導(dǎo)的研究發(fā)表于2025年4月16日,題為"ToolRL: Reward is All Tool Learning Needs"。有興趣深入了解的讀者可以通過(guò)arXiv:2504.13958v1訪問(wèn)完整論文。
目前的大語(yǔ)言模型就像剛學(xué)會(huì)說(shuō)話(huà)的孩子,雖然能夠?qū)Υ鹑缌?,但在使用具體工具時(shí)卻經(jīng)常手忙腳亂。當(dāng)你需要它幫助計(jì)算復(fù)雜數(shù)學(xué)題時(shí),它可能會(huì)繞開(kāi)計(jì)算器直接給出錯(cuò)誤答案;當(dāng)你需要它搜索最新信息時(shí),它可能會(huì)固執(zhí)地基于過(guò)時(shí)的訓(xùn)練數(shù)據(jù)進(jìn)行回答。這種現(xiàn)象就像讓一個(gè)從未下過(guò)廚的人僅憑食譜描述就去做一桌菜——理論知識(shí)充足,但實(shí)際操作時(shí)卻漏洞百出。
傳統(tǒng)的解決方案是通過(guò)監(jiān)督微調(diào)來(lái)教會(huì)模型使用工具,這就像是給學(xué)生發(fā)一本標(biāo)準(zhǔn)答案,讓他們死記硬背。這種方法在熟悉的場(chǎng)景下效果不錯(cuò),但一旦遇到新的工具或復(fù)雜的多步驟任務(wù),模型就會(huì)暴露出缺乏靈活性的問(wèn)題。研究團(tuán)隊(duì)發(fā)現(xiàn),僅僅依靠標(biāo)準(zhǔn)答案式的訓(xùn)練很難讓模型真正掌握工具使用的精髓。
程謙教授團(tuán)隊(duì)提出了一個(gè)全新的思路:與其讓模型背標(biāo)準(zhǔn)答案,不如建立一套完善的獎(jiǎng)勵(lì)機(jī)制,讓模型在實(shí)際操作中學(xué)會(huì)正確使用工具。這就像是從應(yīng)試教育轉(zhuǎn)向素質(zhì)教育——不再單純看結(jié)果是否正確,而是要看整個(gè)過(guò)程是否合理,每一步操作是否恰當(dāng)。
研究團(tuán)隊(duì)的核心洞察在于,工具使用任務(wù)與傳統(tǒng)的問(wèn)答任務(wù)存在本質(zhì)差異。在問(wèn)答任務(wù)中,通常只有一個(gè)標(biāo)準(zhǔn)答案,判斷對(duì)錯(cuò)相對(duì)簡(jiǎn)單。但在工具使用場(chǎng)景中,模型需要選擇合適的工具、設(shè)置正確的參數(shù)、處理中間結(jié)果,這是一個(gè)復(fù)雜的多步驟過(guò)程。簡(jiǎn)單的對(duì)錯(cuò)判斷無(wú)法為這樣的復(fù)雜過(guò)程提供足夠細(xì)致的指導(dǎo)。
為了解決這個(gè)問(wèn)題,研究團(tuán)隊(duì)設(shè)計(jì)了一套精細(xì)的獎(jiǎng)勵(lì)系統(tǒng)。這套系統(tǒng)就像是一位耐心的老師,不僅會(huì)告訴學(xué)生最終答案是否正確,還會(huì)仔細(xì)檢查學(xué)生的解題步驟。具體來(lái)說(shuō),這套獎(jiǎng)勵(lì)系統(tǒng)會(huì)從兩個(gè)維度評(píng)估模型的表現(xiàn):格式獎(jiǎng)勵(lì)和正確性獎(jiǎng)勵(lì)。
格式獎(jiǎng)勵(lì)負(fù)責(zé)檢查模型的輸出是否符合標(biāo)準(zhǔn)格式,就像檢查學(xué)生是否按照要求的格式寫(xiě)作業(yè)。這包括檢查是否包含了所有必需的字段,是否按照正確的順序排列。這聽(tīng)起來(lái)可能有些機(jī)械,但實(shí)際上非常重要——就像做化學(xué)實(shí)驗(yàn)時(shí)必須按照正確的步驟操作一樣,工具調(diào)用也需要嚴(yán)格的格式規(guī)范。
正確性獎(jiǎng)勵(lì)則更加細(xì)致,它會(huì)深入分析工具調(diào)用的每一個(gè)細(xì)節(jié)。研究團(tuán)隊(duì)將工具調(diào)用分解為三個(gè)層次:工具名稱(chēng)匹配、參數(shù)名稱(chēng)匹配和參數(shù)內(nèi)容匹配。這就像評(píng)判一道烹飪菜品時(shí),不僅要看最終味道,還要檢查是否選對(duì)了食材(工具名稱(chēng))、是否用對(duì)了調(diào)料種類(lèi)(參數(shù)名稱(chēng))、是否掌握了正確的用量(參數(shù)內(nèi)容)。
這種細(xì)致入微的評(píng)估方法帶來(lái)了顯著的效果。在具體的訓(xùn)練過(guò)程中,研究團(tuán)隊(duì)采用了群體相對(duì)策略?xún)?yōu)化算法。這個(gè)算法的核心思想是讓模型在群體中學(xué)習(xí),通過(guò)比較不同響應(yīng)的質(zhì)量來(lái)調(diào)整自己的行為。這就像是班級(jí)學(xué)習(xí)小組,每個(gè)學(xué)生都能看到其他同學(xué)的答案,通過(guò)對(duì)比來(lái)改進(jìn)自己的方法。
為了驗(yàn)證這套方法的有效性,研究團(tuán)隊(duì)在多個(gè)基準(zhǔn)測(cè)試上進(jìn)行了廣泛的實(shí)驗(yàn)。他們選擇了三個(gè)具有代表性的數(shù)據(jù)集:ToolACE專(zhuān)注于一般工具使用場(chǎng)景,Hammer測(cè)試模型在工具名稱(chēng)被隨機(jī)化后的泛化能力,xLAM則要求模型處理復(fù)雜的多工具組合任務(wù)。
實(shí)驗(yàn)結(jié)果令人印象深刻。在伯克利函數(shù)調(diào)用排行榜這個(gè)綜合性基準(zhǔn)測(cè)試中,使用ToolRL方法訓(xùn)練的模型相比基礎(chǔ)模型提升了17個(gè)百分點(diǎn),相比傳統(tǒng)監(jiān)督微調(diào)方法提升了15個(gè)百分點(diǎn)。更重要的是,這種提升是全面性的,不僅在訓(xùn)練過(guò)程中見(jiàn)過(guò)的任務(wù)上表現(xiàn)優(yōu)秀,在全新的測(cè)試場(chǎng)景中也展現(xiàn)出了強(qiáng)大的泛化能力。
研究團(tuán)隊(duì)還發(fā)現(xiàn)了一些有趣的現(xiàn)象。傳統(tǒng)觀念認(rèn)為,讓模型進(jìn)行更長(zhǎng)時(shí)間的思考總是有益的,因此許多研究都嘗試通過(guò)獎(jiǎng)勵(lì)較長(zhǎng)的推理過(guò)程來(lái)提升模型性能。然而,在工具使用任務(wù)中,這種做法實(shí)際上可能適得其反。研究團(tuán)隊(duì)發(fā)現(xiàn),過(guò)度鼓勵(lì)長(zhǎng)篇思考可能導(dǎo)致模型"想太多",反而影響其決策效率和準(zhǔn)確性。這就像是考試時(shí)過(guò)度糾結(jié)于某道題目,反而錯(cuò)過(guò)了答題的最佳時(shí)機(jī)。
另一個(gè)重要發(fā)現(xiàn)涉及獎(jiǎng)勵(lì)設(shè)計(jì)的動(dòng)態(tài)調(diào)整。研究團(tuán)隊(duì)發(fā)現(xiàn),在訓(xùn)練的不同階段,模型的關(guān)注重點(diǎn)應(yīng)該有所不同。在訓(xùn)練初期,模型需要重點(diǎn)學(xué)習(xí)輸出格式的規(guī)范性;而在訓(xùn)練后期,則應(yīng)該更多關(guān)注工具使用的準(zhǔn)確性。這種動(dòng)態(tài)調(diào)整就像是學(xué)習(xí)駕駛時(shí)的進(jìn)階過(guò)程——剛開(kāi)始時(shí)重點(diǎn)是熟悉操作規(guī)范,隨后才逐漸關(guān)注駕駛技巧的精進(jìn)。
在獎(jiǎng)勵(lì)粒度的設(shè)計(jì)上,研究團(tuán)隊(duì)也得出了重要結(jié)論。他們對(duì)比了從粗粒度到細(xì)粒度的不同獎(jiǎng)勵(lì)設(shè)計(jì)方案。粗粒度方案只有在工具調(diào)用完全正確時(shí)才給予獎(jiǎng)勵(lì),就像是非黑即白的評(píng)判標(biāo)準(zhǔn)。而細(xì)粒度方案則會(huì)針對(duì)工具調(diào)用的每個(gè)組成部分分別給予獎(jiǎng)勵(lì),即使某些部分出現(xiàn)錯(cuò)誤,正確的部分仍能獲得相應(yīng)分?jǐn)?shù)。
實(shí)驗(yàn)結(jié)果清楚地表明,細(xì)粒度的獎(jiǎng)勵(lì)設(shè)計(jì)顯著優(yōu)于粗粒度方案。這是因?yàn)楣ぞ呤褂檬且粋€(gè)復(fù)雜的多步驟過(guò)程,簡(jiǎn)單的全對(duì)全錯(cuò)評(píng)判無(wú)法為模型提供足夠的學(xué)習(xí)信號(hào)。細(xì)粒度評(píng)估就像是一位好老師,會(huì)耐心地指出學(xué)生答案中的優(yōu)點(diǎn)和不足,幫助學(xué)生更好地改進(jìn)。
除了在標(biāo)準(zhǔn)基準(zhǔn)測(cè)試上的優(yōu)異表現(xiàn),研究團(tuán)隊(duì)還測(cè)試了模型在自由形式問(wèn)答任務(wù)上的能力。這類(lèi)任務(wù)更接近真實(shí)應(yīng)用場(chǎng)景,模型需要自主決定是否使用工具、使用哪些工具以及如何組合不同工具來(lái)解決問(wèn)題。在Bamboogle這個(gè)多跳問(wèn)答數(shù)據(jù)集上,使用ToolRL訓(xùn)練的模型不僅答案準(zhǔn)確率更高,而且在工具使用頻率上也更加合理——既不會(huì)過(guò)度依賴(lài)工具,也不會(huì)錯(cuò)過(guò)應(yīng)該使用工具的時(shí)機(jī)。
更令人驚喜的是,經(jīng)過(guò)ToolRL訓(xùn)練的模型展現(xiàn)出了一些意想不到的智能行為。比如,當(dāng)面對(duì)模糊或不完整的用戶(hù)詢(xún)問(wèn)時(shí),模型會(huì)主動(dòng)要求用戶(hù)提供更多信息,而不是盲目地調(diào)用工具。當(dāng)發(fā)現(xiàn)可用工具與當(dāng)前任務(wù)不匹配時(shí),模型會(huì)選擇不使用工具,直接基于自身知識(shí)回答問(wèn)題。這種主動(dòng)性和判斷力正是高質(zhì)量AI助手所必需的品質(zhì)。
研究團(tuán)隊(duì)還深入分析了不同模型規(guī)模下的表現(xiàn)差異。他們發(fā)現(xiàn),ToolRL方法對(duì)不同規(guī)模的模型都有顯著提升,但提升幅度存在一定差異。較小的模型(如15億參數(shù))在ToolRL訓(xùn)練后表現(xiàn)出了更大的相對(duì)提升,這說(shuō)明良好的訓(xùn)練方法可以在一定程度上彌補(bǔ)模型規(guī)模的不足。
在泛化能力測(cè)試中,研究團(tuán)隊(duì)設(shè)計(jì)了兩類(lèi)具有挑戰(zhàn)性的場(chǎng)景。第一類(lèi)是未見(jiàn)編程語(yǔ)言場(chǎng)景,測(cè)試模型是否能夠?qū)⒃赑ython環(huán)境中學(xué)到的工具使用經(jīng)驗(yàn)遷移到JavaScript或Java環(huán)境中。第二類(lèi)是無(wú)關(guān)工具檢測(cè)任務(wù),測(cè)試模型是否能夠識(shí)別并拒絕使用與當(dāng)前任務(wù)無(wú)關(guān)的工具。在這兩類(lèi)測(cè)試中,使用ToolRL訓(xùn)練的模型都表現(xiàn)出了優(yōu)于傳統(tǒng)方法的泛化能力。
除了技術(shù)創(chuàng)新,這項(xiàng)研究還為整個(gè)領(lǐng)域提供了重要的方法論啟示。研究團(tuán)隊(duì)通過(guò)系統(tǒng)性的消融實(shí)驗(yàn),詳細(xì)分析了獎(jiǎng)勵(lì)設(shè)計(jì)各個(gè)組成部分的作用。他們發(fā)現(xiàn),獎(jiǎng)勵(lì)類(lèi)型、獎(jiǎng)勵(lì)規(guī)模、獎(jiǎng)勵(lì)粒度和時(shí)間動(dòng)態(tài)這四個(gè)維度都對(duì)最終效果有重要影響,但影響方式和程度各不相同。
在獎(jiǎng)勵(lì)規(guī)模方面,研究團(tuán)隊(duì)發(fā)現(xiàn)正確性獎(jiǎng)勵(lì)的權(quán)重應(yīng)該高于格式獎(jiǎng)勵(lì)。這符合直覺(jué)——雖然格式規(guī)范很重要,但最終還是要以工具使用的正確性為主要目標(biāo)。然而,這個(gè)看似簡(jiǎn)單的原則在實(shí)際應(yīng)用中卻需要精細(xì)的調(diào)節(jié)。權(quán)重比例設(shè)置不當(dāng)可能導(dǎo)致模型過(guò)分關(guān)注某一方面而忽視另一方面。
在時(shí)間動(dòng)態(tài)方面,研究發(fā)現(xiàn)突然改變獎(jiǎng)勵(lì)權(quán)重往往會(huì)對(duì)訓(xùn)練過(guò)程造成負(fù)面影響,而漸進(jìn)式的調(diào)整則能帶來(lái)更好的效果。這就像是體育訓(xùn)練中的循序漸進(jìn)原則——急于求成往往適得其反,穩(wěn)步提升才能獲得最佳結(jié)果。
這項(xiàng)研究的影響遠(yuǎn)不止于技術(shù)層面。隨著人工智能應(yīng)用越來(lái)越廣泛,模型與外部工具的交互能力變得越來(lái)越重要。無(wú)論是在科學(xué)研究、商業(yè)分析還是日常生活中,我們都需要能夠靈活使用各種工具的智能助手。ToolRL方法為訓(xùn)練這樣的助手提供了一條可行的路徑。
研究團(tuán)隊(duì)也坦誠(chéng)地討論了當(dāng)前方法的局限性。雖然ToolRL在多個(gè)基準(zhǔn)測(cè)試上取得了優(yōu)異成績(jī),但在某些特定場(chǎng)景下,傳統(tǒng)的監(jiān)督微調(diào)方法仍有其優(yōu)勢(shì)。特別是在訓(xùn)練數(shù)據(jù)充足且任務(wù)相對(duì)固定的情況下,監(jiān)督微調(diào)可能更加高效。因此,如何結(jié)合兩種方法的優(yōu)點(diǎn),設(shè)計(jì)更加全面的訓(xùn)練策略,仍是一個(gè)值得探索的方向。
另一個(gè)需要注意的問(wèn)題是計(jì)算成本。相比傳統(tǒng)的監(jiān)督微調(diào),強(qiáng)化學(xué)習(xí)方法通常需要更多的計(jì)算資源和更長(zhǎng)的訓(xùn)練時(shí)間。雖然最終效果更好,但這種改進(jìn)是否值得額外的成本投入,需要根據(jù)具體應(yīng)用場(chǎng)景來(lái)判斷。
展望未來(lái),這項(xiàng)研究為大語(yǔ)言模型的工具使用能力提升指明了一個(gè)有前景的方向。隨著工具生態(tài)系統(tǒng)的不斷擴(kuò)展和復(fù)雜化,模型需要具備更強(qiáng)的適應(yīng)性和靈活性。ToolRL方法所體現(xiàn)的細(xì)致化評(píng)估和動(dòng)態(tài)調(diào)整理念,可能會(huì)成為未來(lái)AI系統(tǒng)訓(xùn)練的重要組成部分。
研究團(tuán)隊(duì)已經(jīng)將相關(guān)代碼和數(shù)據(jù)公開(kāi)發(fā)布,這為其他研究者復(fù)現(xiàn)和擴(kuò)展這項(xiàng)工作提供了便利。這種開(kāi)放的研究態(tài)度不僅有助于推動(dòng)整個(gè)領(lǐng)域的發(fā)展,也體現(xiàn)了學(xué)術(shù)界合作共贏的精神。
說(shuō)到底,這項(xiàng)研究解決的是一個(gè)看似簡(jiǎn)單但實(shí)際復(fù)雜的問(wèn)題:如何讓機(jī)器學(xué)會(huì)像人類(lèi)一樣靈活地使用工具。雖然我們距離完全解決這個(gè)問(wèn)題還有很長(zhǎng)的路要走,但ToolRL方法已經(jīng)為我們展示了一種很有希望的可能性。對(duì)于普通用戶(hù)而言,這意味著未來(lái)的AI助手將更加智能和可靠,能夠在更多場(chǎng)景下提供真正有用的幫助。
Q&A
Q1:ToolRL方法和傳統(tǒng)的監(jiān)督微調(diào)有什么不同? A:傳統(tǒng)監(jiān)督微調(diào)就像讓學(xué)生背標(biāo)準(zhǔn)答案,只能處理見(jiàn)過(guò)的情況。ToolRL則像建立獎(jiǎng)勵(lì)機(jī)制,讓模型在實(shí)踐中學(xué)習(xí),能夠靈活應(yīng)對(duì)新場(chǎng)景。ToolRL會(huì)細(xì)致評(píng)估工具使用的每個(gè)步驟,而不只看最終結(jié)果對(duì)錯(cuò)。
Q2:為什么說(shuō)"獎(jiǎng)勵(lì)就是工具學(xué)習(xí)所需的一切"? A:因?yàn)楣ぞ呤褂檬菑?fù)雜的多步驟過(guò)程,簡(jiǎn)單的對(duì)錯(cuò)判斷無(wú)法提供足夠指導(dǎo)。通過(guò)精心設(shè)計(jì)的獎(jiǎng)勵(lì)系統(tǒng),可以引導(dǎo)模型學(xué)會(huì)正確的工具選擇、參數(shù)設(shè)置和結(jié)果處理,比傳統(tǒng)方法更有效。
Q3:這項(xiàng)研究對(duì)普通用戶(hù)有什么實(shí)際意義? A:意味著未來(lái)的AI助手會(huì)更智能可靠。比如當(dāng)你問(wèn)計(jì)算問(wèn)題時(shí),它會(huì)正確使用計(jì)算器;需要最新信息時(shí),它會(huì)主動(dòng)搜索而不是基于過(guò)時(shí)數(shù)據(jù)回答。AI助手將能更好地理解何時(shí)該用什么工具,避免盲目操作。
好文章,需要你的鼓勵(lì)
新加坡國(guó)立大學(xué)研究團(tuán)隊(duì)開(kāi)發(fā)了SPIRAL框架,通過(guò)讓AI與自己對(duì)弈零和游戲來(lái)提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡(jiǎn)單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無(wú)需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開(kāi)發(fā)的GIGA-ToF技術(shù)通過(guò)融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問(wèn)題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺(jué)解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過(guò)對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺(jué)語(yǔ)言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無(wú)法有效利用視覺(jué)信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過(guò)動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語(yǔ)言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。