這項(xiàng)由Writer公司的Shelly Bensal、Umar Jamil等研究團(tuán)隊(duì)完成的研究《Reflect, Retry, Reward: Self-Improving LLMs via Reinforcement Learning》于2025年5月發(fā)表在arXiv預(yù)印本平臺(tái)(arXiv:2505.24726v1)。這篇論文探索了一種通過自我反思和強(qiáng)化學(xué)習(xí)來提高大型語(yǔ)言模型(LLMs)性能的創(chuàng)新方法。
一、研究背景與核心理念:讓AI學(xué)會(huì)從錯(cuò)誤中成長(zhǎng)
想象一個(gè)正在學(xué)習(xí)新技能的孩子。當(dāng)他嘗試解決一道難題但失敗了,一個(gè)好老師不會(huì)直接給出答案,而是引導(dǎo)他思考:"你覺得哪里出了問題?下次你會(huì)怎么改進(jìn)?"這種反思過程幫助孩子在下次嘗試時(shí)取得更好的結(jié)果。Writer團(tuán)隊(duì)的研究正是基于這樣的理念——教大型語(yǔ)言模型像人類一樣從錯(cuò)誤中學(xué)習(xí)和成長(zhǎng)。
現(xiàn)有的大型語(yǔ)言模型(LLMs)盡管在自然語(yǔ)言處理、數(shù)學(xué)、編程和推理等多個(gè)領(lǐng)域展現(xiàn)出令人印象深刻的能力,但它們?nèi)杂忻c(diǎn)。一個(gè)模型在一種任務(wù)上表現(xiàn)良好,并不能保證它在類似任務(wù)上也會(huì)成功。傳統(tǒng)解決方案通常是使用更多相關(guān)數(shù)據(jù)重新訓(xùn)練或微調(diào)模型,但這種方法存在兩個(gè)主要限制:首先,可能根本不存在這樣的數(shù)據(jù)集;其次,如果最先進(jìn)的大模型也難以完成這些任務(wù),我們就無法利用它們生成合成訓(xùn)練數(shù)據(jù)。
研究人員提出了一個(gè)巧妙的替代方案:不是直接教模型如何解決特定任務(wù),而是教它如何更好地進(jìn)行自我反思,從而自我改進(jìn)。這就像教一個(gè)人學(xué)習(xí)如何學(xué)習(xí),而不是僅僅傳授特定知識(shí)。這種方法的美妙之處在于,它不需要任何特定任務(wù)的訓(xùn)練數(shù)據(jù),只需要一個(gè)能夠判斷模型回答是對(duì)是錯(cuò)的簡(jiǎn)單反饋機(jī)制。
二、"反思、重試、獎(jiǎng)勵(lì)"機(jī)制:讓AI學(xué)會(huì)像人類一樣思考
Writer團(tuán)隊(duì)開發(fā)的方法運(yùn)作原理非常接近人類的學(xué)習(xí)過程,我們可以將其分解為三個(gè)簡(jiǎn)單的步驟:
首先是"反思"階段。當(dāng)模型在某個(gè)任務(wù)上失敗時(shí)(比如無法正確回答一個(gè)數(shù)學(xué)問題),系統(tǒng)會(huì)提示它生成一段自我反思的文字,分析自己之前的嘗試哪里出了問題。就像一個(gè)學(xué)生在考試后反思:"我忘記檢查分母是否為零,下次需要注意這個(gè)細(xì)節(jié)。"
接著是"重試"階段。模型會(huì)再次嘗試同一個(gè)任務(wù),但這次它可以參考自己之前的反思內(nèi)容。這就像學(xué)生在了解自己的錯(cuò)誤后重新解答同一道題目。
最后是"獎(jiǎng)勵(lì)"階段。如果第二次嘗試成功了,研究人員使用一種叫做"群組相對(duì)策略優(yōu)化"(Group Relative Policy Optimization,簡(jiǎn)稱GRPO)的強(qiáng)化學(xué)習(xí)方法來獎(jiǎng)勵(lì)模型在自我反思階段生成的文字。這相當(dāng)于告訴模型:"你的反思很有幫助,它幫助你找到了正確答案,以后也要這樣反思。"
關(guān)鍵的創(chuàng)新點(diǎn)在于,研究團(tuán)隊(duì)不是獎(jiǎng)勵(lì)模型最終給出的正確答案,而是獎(jiǎng)勵(lì)它生成的自我反思。這樣做的目的是讓模型學(xué)會(huì)如何更好地反思和分析自己的錯(cuò)誤,而不是針對(duì)特定任務(wù)進(jìn)行優(yōu)化。這種方法的通用性使其可以應(yīng)用于各種不同類型的任務(wù)。
三、實(shí)驗(yàn)設(shè)計(jì):兩大挑戰(zhàn)任務(wù)驗(yàn)證方法有效性
為了驗(yàn)證他們的方法,研究團(tuán)隊(duì)選擇了兩個(gè)具有挑戰(zhàn)性且容易驗(yàn)證的任務(wù):函數(shù)調(diào)用(APIGen數(shù)據(jù)集)和數(shù)學(xué)方程求解(Countdown數(shù)據(jù)集)。
函數(shù)調(diào)用任務(wù)要求模型根據(jù)用戶查詢選擇正確的工具(API函數(shù))并填入適當(dāng)?shù)膮?shù)。例如,當(dāng)用戶問"檢查Vimeo用戶名'john_doe_artist'是否可用"時(shí),模型需要從幾個(gè)可能的工具中選擇正確的一個(gè)(在這個(gè)例子中是"vimeo"工具),并提供正確的參數(shù)(username="john_doe_artist")。這個(gè)任務(wù)的成功與否很容易驗(yàn)證:模型生成的函數(shù)調(diào)用是否與標(biāo)準(zhǔn)答案完全匹配。
數(shù)學(xué)方程求解任務(wù)(Countdown)則要求模型使用給定的幾個(gè)數(shù)字(通常是3-4個(gè)),通過基本算術(shù)運(yùn)算(加、減、乘、除)創(chuàng)建一個(gè)等于目標(biāo)數(shù)字的方程。例如,使用數(shù)字[4, 73, 4, 23]創(chuàng)建一個(gè)等于76的方程。這個(gè)任務(wù)的成功標(biāo)準(zhǔn)也很明確:方程必須只使用每個(gè)給定數(shù)字一次,且必須精確等于目標(biāo)數(shù)字。
研究團(tuán)隊(duì)在多種不同大小和架構(gòu)的模型上進(jìn)行了實(shí)驗(yàn),包括Qwen2、Qwen2.5、Llama3.1、Llama3.2、Phi3.5-mini和Writer的Palmyra模型系列。為了確保實(shí)驗(yàn)公正,他們只使用了在測(cè)試數(shù)據(jù)集發(fā)布前就已發(fā)布的模型,確保沒有模型可能在訓(xùn)練時(shí)就見過這些數(shù)據(jù)。
四、研究發(fā)現(xiàn):驚人的性能提升與小模型超越大模型的奇跡
研究結(jié)果令人驚嘆。經(jīng)過"反思、重試、獎(jiǎng)勵(lì)"訓(xùn)練后,模型在兩個(gè)任務(wù)上都實(shí)現(xiàn)了顯著的性能提升。
在函數(shù)調(diào)用任務(wù)上,模型經(jīng)過訓(xùn)練后的表現(xiàn)提升顯著。例如,Qwen-2-1.5B模型(只有15億參數(shù))的準(zhǔn)確率從原本的32.6%躍升至48.6%,僅第一次嘗試就提高了16個(gè)百分點(diǎn)。當(dāng)允許模型根據(jù)自我反思進(jìn)行第二次嘗試時(shí),準(zhǔn)確率進(jìn)一步提高到52.9%,總提升幅度超過20%。
更令人驚訝的是,在數(shù)學(xué)方程求解任務(wù)上,性能提升更為顯著。Qwen-2.5-1.5B模型的準(zhǔn)確率從初始的6.0%飆升至34.9%(第一次嘗試),再到45.0%(第二次嘗試),總提升幅度接近40個(gè)百分點(diǎn)!這相當(dāng)于一個(gè)學(xué)習(xí)困難的學(xué)生經(jīng)過特殊訓(xùn)練后,成績(jī)從不及格躍升至優(yōu)秀。
但最令人矚目的發(fā)現(xiàn)是,經(jīng)過訓(xùn)練的小型模型竟然能夠超越未經(jīng)訓(xùn)練的大型模型。例如,經(jīng)過訓(xùn)練的Qwen-2-7B模型(70億參數(shù))在函數(shù)調(diào)用任務(wù)上的表現(xiàn)超過了未經(jīng)訓(xùn)練的Qwen-2-72B模型(720億參數(shù)),盡管后者的規(guī)模大了整整10倍。同樣,在數(shù)學(xué)方程任務(wù)上,經(jīng)過訓(xùn)練的Qwen-2.5-7B模型(70億參數(shù))超越了未經(jīng)訓(xùn)練的Qwen-2.5-72B模型(720億參數(shù))。
這就像一個(gè)經(jīng)過系統(tǒng)訓(xùn)練的高中生能夠解決一些大學(xué)教授都難以應(yīng)對(duì)的特定問題一樣令人驚嘆。這一發(fā)現(xiàn)具有重大意義,因?yàn)樾⌒湍P瓦\(yùn)行成本更低,所需計(jì)算資源更少,這意味著我們可以通過改進(jìn)訓(xùn)練方法而不是簡(jiǎn)單地增加模型規(guī)模來提高AI性能。
五、自我反思的質(zhì)量變化:從冗長(zhǎng)到簡(jiǎn)潔明了
研究人員還發(fā)現(xiàn),經(jīng)過訓(xùn)練后,模型生成的自我反思內(nèi)容質(zhì)量發(fā)生了顯著變化。未經(jīng)訓(xùn)練的模型往往會(huì)生成冗長(zhǎng)、混亂且重復(fù)的反思文本,而經(jīng)過訓(xùn)練的模型則能夠生成更加簡(jiǎn)潔、清晰且更具通用性的反思。
例如,當(dāng)面對(duì)一個(gè)函數(shù)調(diào)用錯(cuò)誤時(shí),未經(jīng)訓(xùn)練的模型可能會(huì)生成一段長(zhǎng)篇大論,重復(fù)解釋API調(diào)用的基本概念,而不是直接指出具體錯(cuò)誤。相比之下,經(jīng)過訓(xùn)練的模型會(huì)直接切入重點(diǎn):"請(qǐng)指明精確的查詢參數(shù)以獲取準(zhǔn)確結(jié)果"或"請(qǐng)指明具體的錯(cuò)誤信息以獲得更好的幫助"。
這種變化很像一個(gè)經(jīng)驗(yàn)豐富的老師與新手教師的區(qū)別。新手教師可能會(huì)給出冗長(zhǎng)但不夠具體的反饋,而經(jīng)驗(yàn)豐富的老師則能一針見血地指出問題所在,提供簡(jiǎn)潔而有效的指導(dǎo)。
六、避免災(zāi)難性遺忘:多任務(wù)能力保持完好
在機(jī)器學(xué)習(xí)領(lǐng)域,模型在學(xué)習(xí)新任務(wù)時(shí)往往會(huì)忘記之前學(xué)過的內(nèi)容,這種現(xiàn)象被稱為"災(zāi)難性遺忘"。研究人員擔(dān)心,通過強(qiáng)化學(xué)習(xí)優(yōu)化自我反思能力可能會(huì)損害模型在其他任務(wù)上的表現(xiàn)。
為了驗(yàn)證這一點(diǎn),研究團(tuán)隊(duì)在多個(gè)標(biāo)準(zhǔn)基準(zhǔn)測(cè)試上評(píng)估了模型性能,包括MMLU-Pro(測(cè)量語(yǔ)言理解能力)、GSM8K(數(shù)學(xué)問題解決能力)、HellaSwag(常識(shí)推理能力)和MATH(高級(jí)數(shù)學(xué)能力)。
令人欣慰的是,結(jié)果顯示經(jīng)過自我反思訓(xùn)練的模型在這些基準(zhǔn)測(cè)試上的表現(xiàn)幾乎沒有下降,大多數(shù)情況下性能變化不到1個(gè)百分點(diǎn)。一些模型甚至在某些基準(zhǔn)上有小幅提升,例如Qwen-2.5-1.5B模型在MMLU-Pro和MATH基準(zhǔn)上分別提高了0.6%和0.8%。
這就像一個(gè)學(xué)生通過特殊方法提高了解決某類數(shù)學(xué)問題的能力,而且這種訓(xùn)練不僅沒有影響他的其他學(xué)科成績(jī),反而在某些方面還有小幅提升。這一發(fā)現(xiàn)表明,通過自我反思來學(xué)習(xí)是一種非常健康和全面的學(xué)習(xí)方式,它提高了模型的特定能力,同時(shí)保持了其通用能力。
七、方法的局限性與未來方向
盡管研究結(jié)果令人振奮,但研究團(tuán)隊(duì)也坦誠(chéng)地指出了當(dāng)前方法的一些局限性。
首先,這種方法依賴于能夠明確判斷模型回答是對(duì)是錯(cuò)的二元驗(yàn)證器。對(duì)于某些任務(wù),如函數(shù)調(diào)用、數(shù)學(xué)方程求解或代碼執(zhí)行,這種驗(yàn)證相對(duì)容易實(shí)現(xiàn)。但對(duì)于許多開放性問題或主觀性強(qiáng)的任務(wù),創(chuàng)建這樣的驗(yàn)證器可能會(huì)更加困難。研究人員建議,在沒有明確標(biāo)準(zhǔn)答案的情況下,可以考慮使用更大的模型作為"裁判"來評(píng)判回答的質(zhì)量。
其次,研究發(fā)現(xiàn)并非所有模型都能從這種方法中受益。模型必須具備一定的基礎(chǔ)能力來執(zhí)行任務(wù)、進(jìn)行自我反思并從中學(xué)習(xí)。例如,Llama3.2-3B模型就無法學(xué)會(huì)在函數(shù)調(diào)用任務(wù)上進(jìn)行自我糾正。這就像一個(gè)學(xué)生必須具備基本的閱讀理解能力,才能從閱讀反饋中受益一樣。
最后,研究團(tuán)隊(duì)主要在中小型模型(1.5億到80億參數(shù))上進(jìn)行了實(shí)驗(yàn),而沒有直接在更大的模型上應(yīng)用GRPO訓(xùn)練。這主要是由于GRPO方法在計(jì)算效率和可擴(kuò)展性方面的已知限制。未來的研究可能需要探索如何將這種方法有效地?cái)U(kuò)展到更大的模型上。
八、研究的廣泛意義:自我改進(jìn)型AI的曙光
這項(xiàng)研究的意義遠(yuǎn)遠(yuǎn)超出了提高特定任務(wù)性能的范疇。它展示了一種全新的AI改進(jìn)范式:不是通過更多數(shù)據(jù)或更大模型來提高性能,而是教會(huì)模型如何自我改進(jìn)。
這就像教會(huì)一個(gè)孩子如何學(xué)習(xí),而不僅僅是填鴨式地傳授知識(shí)。這種方法使模型能夠在面對(duì)新挑戰(zhàn)時(shí),通過反思和自我糾正來不斷提高,即使在訓(xùn)練數(shù)據(jù)有限或完全沒有訓(xùn)練數(shù)據(jù)的情況下。
更重要的是,這種方法可能是實(shí)現(xiàn)真正通用人工智能的重要一步。人類智能的一個(gè)關(guān)鍵特征是能夠從錯(cuò)誤中學(xué)習(xí)并不斷自我完善。通過這項(xiàng)研究,AI系統(tǒng)正在朝著這個(gè)方向邁進(jìn)。
此外,這項(xiàng)研究也為小型模型的實(shí)用性帶來了新的希望。在AI領(lǐng)域,存在一種趨勢(shì)認(rèn)為更大的模型總是更好的。但這項(xiàng)研究表明,通過改進(jìn)訓(xùn)練方法,小型模型也可以實(shí)現(xiàn)出色的性能,甚至在某些任務(wù)上超越規(guī)模大得多的模型。這對(duì)于在資源受限的環(huán)境中部署AI系統(tǒng)(如移動(dòng)設(shè)備或邊緣設(shè)備)具有重要意義。
總的來說,Writer團(tuán)隊(duì)的這項(xiàng)研究不僅提出了一種提高AI性能的新方法,還為我們理解和開發(fā)更智能、更適應(yīng)性強(qiáng)的AI系統(tǒng)提供了新的視角。通過讓AI學(xué)會(huì)反思和自我糾正,我們可能正在見證更智能、更可靠的AI系統(tǒng)的曙光。
好文章,需要你的鼓勵(lì)
新加坡國(guó)立大學(xué)研究團(tuán)隊(duì)開發(fā)了SPIRAL框架,通過讓AI與自己對(duì)弈零和游戲來提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡(jiǎn)單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語(yǔ)言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語(yǔ)言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。