av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 R1-Searcher++:用強化學(xué)習(xí)激勵大語言模型動態(tài)獲取知識的新框架

R1-Searcher++:用強化學(xué)習(xí)激勵大語言模型動態(tài)獲取知識的新框架

2025-05-31 13:35
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-31 13:35 ? 科技行者

在人工智能快速發(fā)展的今天,大語言模型(LLM)如同一位博學(xué)的朋友,可以回答各種各樣的問題。但就像人類一樣,這些模型也有"知識盲區(qū)",有時會因為知識有限而胡編亂造(我們稱之為"幻覺")。2025年5月22日,由中國人民大學(xué)高瓴人工智能學(xué)院的宋華彤、江金浩、田文青等研究團隊發(fā)表在arXiv(arXiv:2505.17005v1)上的研究"R1-Searcher++: Incentivizing the Dynamic Knowledge Acquisition of LLMs via Reinforcement Learning",提出了一個創(chuàng)新的解決方案,幫助大語言模型更智能地平衡使用自身知識和外部信息。

想象一下,當(dāng)你不確定某個問題的答案時,你會怎么做?你可能先嘗試回憶自己所知道的信息,如果發(fā)現(xiàn)知識不足,才會轉(zhuǎn)向谷歌搜索。更重要的是,一旦你通過搜索獲取了新知識,你會把它記在腦子里,下次遇到類似問題就不必再次搜索了。研究團隊希望大語言模型也能像人類一樣擁有這種能力。

目前的大語言模型雖然強大,但它們的知識是"靜態(tài)"的——僅限于訓(xùn)練時學(xué)到的內(nèi)容。研究人員開發(fā)了各種方法讓模型獲取外部信息,這類技術(shù)被稱為"檢索增強生成"(RAG)。然而,現(xiàn)有的RAG方法要么成本高昂、泛化能力差,要么完全忽視模型已有的內(nèi)部知識。就像一個有選擇性失憶的人,明明知道答案卻還要去查資料,既浪費時間又不夠高效。

人民大學(xué)研究團隊開發(fā)的R1-Searcher++框架就像是給大語言模型安裝了一個更智能的"大腦操作系統(tǒng)",它能夠:1)判斷什么時候應(yīng)該使用自己的知識,什么時候需要搜索外部信息;2)像人類一樣,把新獲取的外部知識轉(zhuǎn)化為內(nèi)部記憶,不斷豐富自己的知識庫。這就像是模型不僅學(xué)會了如何更有效地"查資料",還學(xué)會了如何"記筆記"和"溫故知新"。

一、R1-Searcher++的工作原理:兩階段訓(xùn)練策略

R1-Searcher++采用了一個兩階段的訓(xùn)練策略,就像先教會孩子基本的閱讀技能,然后再教他如何在圖書館中查找和記憶信息。

第一階段是"SFT冷啟動"(SFT Cold-start)。在這個階段,研究人員使用精心篩選的數(shù)據(jù)對模型進行初步訓(xùn)練,就像是給模型提供一本"如何正確提問和回答"的教科書。這個階段主要是讓模型學(xué)習(xí)正確的格式,比如什么時候使用內(nèi)部知識(用標(biāo)簽標(biāo)記),什么時候需要檢索外部信息(用標(biāo)簽標(biāo)記)。這就像是教會模型一種新的語言或協(xié)議,讓它明白應(yīng)該怎樣表達(dá)"我知道這個答案"和"我需要查找這個信息"。

第二階段是"動態(tài)知識獲取的強化學(xué)習(xí)"(RL for Dynamic Knowledge Acquisition)。在這個階段,模型就像一個在復(fù)雜環(huán)境中學(xué)習(xí)的探險家,通過不斷嘗試和獲得反饋來優(yōu)化自己的行為。研究人員設(shè)計了一套獎勵機制,當(dāng)模型做出正確決策時(例如,在知識充足時使用內(nèi)部知識,在知識不足時尋求外部幫助)就給予獎勵,引導(dǎo)模型形成更有效的行為模式。

這個階段有兩個關(guān)鍵創(chuàng)新:首先是"內(nèi)部知識利用激勵"(Internal Knowledge Utilization Encouragement),鼓勵模型優(yōu)先使用自己的知識,只有在必要時才求助于外部資源,就像鼓勵學(xué)生先思考再查書;其次是"外部知識記憶機制"(External Knowledge Memorization),讓模型能夠?qū)z索到的外部信息轉(zhuǎn)化為內(nèi)部知識,不斷豐富自己的知識庫,就像人類學(xué)習(xí)新知識后能記在腦子里一樣。

二、R1-Searcher++的具體實現(xiàn):像教孩子學(xué)習(xí)一樣訓(xùn)練AI

讓我們深入了解這個框架是如何一步步實現(xiàn)的。想象一下,R1-Searcher++就像是一個正在學(xué)習(xí)如何高效獲取和使用知識的學(xué)生,研究人員則是設(shè)計課程和評估標(biāo)準(zhǔn)的老師。

在第一階段(SFT冷啟動)中,研究人員使用"拒絕采樣"(reject sampling)方法收集符合格式要求的數(shù)據(jù)。他們只保留那些正確使用了和標(biāo)簽的響應(yīng),教模型使用合適的格式表達(dá)自己的思考過程。這就像是教學(xué)生使用正確的語法和句式來表達(dá)自己的想法。

進入第二階段(強化學(xué)習(xí)),研究人員設(shè)計了一套精巧的獎勵函數(shù),包括三個主要部分:

1. 格式獎勵(Format reward):確保模型的回應(yīng)格式正確。當(dāng)模型需要調(diào)用外部檢索器時,它必須在...標(biāo)簽內(nèi)明確提出查詢,并且不能在沒有先調(diào)用檢索的情況下直接生成文檔內(nèi)容。這就像教導(dǎo)學(xué)生在引用資料時必須注明出處。

2. 答案獎勵(Answer reward):評估最終答案的正確性。研究人員使用了覆蓋精確匹配(Cover Exact Match,CEM)指標(biāo)來計算答案獎勵,并要求答案不超過10個詞,以防止模型通過生成冗長的答案來"欺騙"評估系統(tǒng)。這就像要求學(xué)生的答案既準(zhǔn)確又簡潔。

3. 分組獎勵(Group reward):鼓勵模型減少對外部檢索的依賴,提高推理效率。研究人員計算了同一問題下正確回答中調(diào)用檢索器次數(shù)的標(biāo)準(zhǔn)差,獎勵那些使用最少檢索次數(shù)的正確回答。這就像鼓勵學(xué)生盡可能依靠自己的知識解決問題,而不是過度依賴參考書。

同時,研究人員還實現(xiàn)了一個創(chuàng)新的外部知識記憶機制。當(dāng)模型在訓(xùn)練過程中檢索到正確的外部信息時,這些信息會被轉(zhuǎn)化為內(nèi)部知識的格式,并被用來進一步訓(xùn)練模型。這就像學(xué)生在課外閱讀中學(xué)到的知識,經(jīng)過消化后成為了自己的知識儲備。

三、實驗結(jié)果:更聰明、更高效的AI助手

研究團隊在四個多步驟問答基準(zhǔn)測試上評估了R1-Searcher++的性能:HotpotQA、2WikiMultiHopQA、Musique和Bamboogle。其中前兩個是訓(xùn)練領(lǐng)域內(nèi)的基準(zhǔn)測試,后兩個則是訓(xùn)練領(lǐng)域外的基準(zhǔn)測試,用于評估模型的泛化能力。

實驗結(jié)果令人印象深刻。R1-Searcher++在所有測試中都表現(xiàn)出色,特別是在使用LLM-as-Judge(由GPT-4o-mini評估答案正確性)評估指標(biāo)時,它比基于樹搜索的方法(如CR-Planner)高出25.7%,比最好的普通強化學(xué)習(xí)方法(R1-Searcher)高出4.3%。

更令人驚喜的是,R1-Searcher++在保持強大性能的同時,大幅減少了檢索次數(shù)。與R1-Searcher相比,平均檢索次數(shù)減少了30.0%;與Search-R1相比,減少了52.9%。這就像一個學(xué)生既能考出好成績,又能比其他同學(xué)更快完成作業(yè),因為他知道什么時候應(yīng)該查資料,什么時候可以直接回答。

研究團隊還進行了在線搜索實驗,將R1-Searcher++連接到谷歌搜索API,在Bamboogle和Frames兩個數(shù)據(jù)集上測試其性能。結(jié)果表明,R1-Searcher++在這種實際應(yīng)用場景中也表現(xiàn)出色,既能達(dá)到最佳的F1分?jǐn)?shù)和LLM-as-Judge評分,又能顯著減少檢索調(diào)用次數(shù)。這證明了該方法在真實世界應(yīng)用中的適應(yīng)性和有效性。

四、案例分析:讓我們看看模型如何"思考"

通過一個具體例子,我們可以更直觀地理解R1-Searcher++是如何工作的。假設(shè)有一個問題:"誰是美國花旗銀行創(chuàng)立年份的總統(tǒng)?"

普通的Qwen-2.5-7B-Instruct模型直接給出了錯誤答案:"John Quincy Adams",因為它只依賴自己的內(nèi)部知識,而這些知識可能不準(zhǔn)確或不完整。

Search-R1模型則發(fā)出了過多的查詢,包括一些不必要的查詢,這顯示它過度依賴外部搜索引擎,沒有充分利用其內(nèi)部知識,導(dǎo)致處理時間較長。

而R1-Searcher++表現(xiàn)出了更智能的行為:它首先將復(fù)雜問題分解成子問題,然后動態(tài)調(diào)整其行為。當(dāng)遇到不確定的子問題(例如"花旗銀行什么時候成立?")時,它選擇執(zhí)行外部搜索。但當(dāng)面對更具體的問題(例如"1812年美國總統(tǒng)是誰?")時,它直接利用內(nèi)部知識回答,無需調(diào)用搜索。這種靈活的機制實現(xiàn)了外部搜索和內(nèi)部知識之間的平衡。

五、局限性與未來方向

盡管R1-Searcher++取得了顯著成果,研究團隊也坦誠指出了兩個主要局限性:

首先,受計算資源和資金限制,研究團隊在訓(xùn)練過程中使用了本地密集檢索語料庫,而只在評估階段集成了真實世界的搜索引擎。如果能在訓(xùn)練過程中直接使用真實搜索引擎,可能會通過更真實的監(jiān)督進一步提高性能。

其次,當(dāng)前實驗僅限于7B參數(shù)規(guī)模的模型。在未來的研究中,研究團隊計劃在更大規(guī)模的模型上訓(xùn)練和評估該框架,以進一步驗證其泛化能力和魯棒性。

六、結(jié)論:走向更智能、持續(xù)學(xué)習(xí)的AI

R1-Searcher++框架代表了大語言模型向更智能、更自主學(xué)習(xí)方向發(fā)展的重要一步。它使模型能夠像人類一樣,根據(jù)需要動態(tài)切換內(nèi)部知識和外部檢索,并將新獲取的信息轉(zhuǎn)化為自己的知識,實現(xiàn)持續(xù)學(xué)習(xí)和進步。

簡單來說,這項研究幫助AI系統(tǒng)變得更像人類學(xué)習(xí)者:知道什么時候應(yīng)該依靠自己的知識,什么時候需要查閱外部資源,以及如何記住新學(xué)到的知識以備將來使用。這種能力不僅提高了模型的性能和效率,也使AI系統(tǒng)在實際應(yīng)用中變得更加實用和可靠。

對于我們普通用戶來說,這意味著未來的AI助手將能更準(zhǔn)確、更高效地回答我們的問題,減少不必要的等待時間,同時隨著使用不斷"成長"和"學(xué)習(xí)",就像一個不斷進步的人類助手一樣。

感興趣的讀者可以在https://github.com/RUCAIBox/R1-Searcher-plus查看該項目的源代碼,深入了解這一創(chuàng)新框架的實現(xiàn)細(xì)節(jié)。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-