在人工智能快速發(fā)展的今天,大語言模型(LLM)如同一位博學(xué)的朋友,可以回答各種各樣的問題。但就像人類一樣,這些模型也有"知識盲區(qū)",有時會因?yàn)橹R有限而胡編亂造(我們稱之為"幻覺")。2025年5月22日,由中國人民大學(xué)高瓴人工智能學(xué)院的宋華彤、江金浩、田文青等研究團(tuán)隊(duì)發(fā)表在arXiv(arXiv:2505.17005v1)上的研究"R1-Searcher++: Incentivizing the Dynamic Knowledge Acquisition of LLMs via Reinforcement Learning",提出了一個創(chuàng)新的解決方案,幫助大語言模型更智能地平衡使用自身知識和外部信息。
想象一下,當(dāng)你不確定某個問題的答案時,你會怎么做?你可能先嘗試回憶自己所知道的信息,如果發(fā)現(xiàn)知識不足,才會轉(zhuǎn)向谷歌搜索。更重要的是,一旦你通過搜索獲取了新知識,你會把它記在腦子里,下次遇到類似問題就不必再次搜索了。研究團(tuán)隊(duì)希望大語言模型也能像人類一樣擁有這種能力。
目前的大語言模型雖然強(qiáng)大,但它們的知識是"靜態(tài)"的——僅限于訓(xùn)練時學(xué)到的內(nèi)容。研究人員開發(fā)了各種方法讓模型獲取外部信息,這類技術(shù)被稱為"檢索增強(qiáng)生成"(RAG)。然而,現(xiàn)有的RAG方法要么成本高昂、泛化能力差,要么完全忽視模型已有的內(nèi)部知識。就像一個有選擇性失憶的人,明明知道答案卻還要去查資料,既浪費(fèi)時間又不夠高效。
人民大學(xué)研究團(tuán)隊(duì)開發(fā)的R1-Searcher++框架就像是給大語言模型安裝了一個更智能的"大腦操作系統(tǒng)",它能夠:1)判斷什么時候應(yīng)該使用自己的知識,什么時候需要搜索外部信息;2)像人類一樣,把新獲取的外部知識轉(zhuǎn)化為內(nèi)部記憶,不斷豐富自己的知識庫。這就像是模型不僅學(xué)會了如何更有效地"查資料",還學(xué)會了如何"記筆記"和"溫故知新"。
一、R1-Searcher++的工作原理:兩階段訓(xùn)練策略
R1-Searcher++采用了一個兩階段的訓(xùn)練策略,就像先教會孩子基本的閱讀技能,然后再教他如何在圖書館中查找和記憶信息。
第一階段是"SFT冷啟動"(SFT Cold-start)。在這個階段,研究人員使用精心篩選的數(shù)據(jù)對模型進(jìn)行初步訓(xùn)練,就像是給模型提供一本"如何正確提問和回答"的教科書。這個階段主要是讓模型學(xué)習(xí)正確的格式,比如什么時候使用內(nèi)部知識(用標(biāo)簽標(biāo)記),什么時候需要檢索外部信息(用標(biāo)簽標(biāo)記)。這就像是教會模型一種新的語言或協(xié)議,讓它明白應(yīng)該怎樣表達(dá)"我知道這個答案"和"我需要查找這個信息"。
第二階段是"動態(tài)知識獲取的強(qiáng)化學(xué)習(xí)"(RL for Dynamic Knowledge Acquisition)。在這個階段,模型就像一個在復(fù)雜環(huán)境中學(xué)習(xí)的探險(xiǎn)家,通過不斷嘗試和獲得反饋來優(yōu)化自己的行為。研究人員設(shè)計(jì)了一套獎勵機(jī)制,當(dāng)模型做出正確決策時(例如,在知識充足時使用內(nèi)部知識,在知識不足時尋求外部幫助)就給予獎勵,引導(dǎo)模型形成更有效的行為模式。
這個階段有兩個關(guān)鍵創(chuàng)新:首先是"內(nèi)部知識利用激勵"(Internal Knowledge Utilization Encouragement),鼓勵模型優(yōu)先使用自己的知識,只有在必要時才求助于外部資源,就像鼓勵學(xué)生先思考再查書;其次是"外部知識記憶機(jī)制"(External Knowledge Memorization),讓模型能夠?qū)z索到的外部信息轉(zhuǎn)化為內(nèi)部知識,不斷豐富自己的知識庫,就像人類學(xué)習(xí)新知識后能記在腦子里一樣。
二、R1-Searcher++的具體實(shí)現(xiàn):像教孩子學(xué)習(xí)一樣訓(xùn)練AI
讓我們深入了解這個框架是如何一步步實(shí)現(xiàn)的。想象一下,R1-Searcher++就像是一個正在學(xué)習(xí)如何高效獲取和使用知識的學(xué)生,研究人員則是設(shè)計(jì)課程和評估標(biāo)準(zhǔn)的老師。
在第一階段(SFT冷啟動)中,研究人員使用"拒絕采樣"(reject sampling)方法收集符合格式要求的數(shù)據(jù)。他們只保留那些正確使用了和標(biāo)簽的響應(yīng),教模型使用合適的格式表達(dá)自己的思考過程。這就像是教學(xué)生使用正確的語法和句式來表達(dá)自己的想法。
進(jìn)入第二階段(強(qiáng)化學(xué)習(xí)),研究人員設(shè)計(jì)了一套精巧的獎勵函數(shù),包括三個主要部分:
1. 格式獎勵(Format reward):確保模型的回應(yīng)格式正確。當(dāng)模型需要調(diào)用外部檢索器時,它必須在...標(biāo)簽內(nèi)明確提出查詢,并且不能在沒有先調(diào)用檢索的情況下直接生成文檔內(nèi)容。這就像教導(dǎo)學(xué)生在引用資料時必須注明出處。
2. 答案獎勵(Answer reward):評估最終答案的正確性。研究人員使用了覆蓋精確匹配(Cover Exact Match,CEM)指標(biāo)來計(jì)算答案獎勵,并要求答案不超過10個詞,以防止模型通過生成冗長的答案來"欺騙"評估系統(tǒng)。這就像要求學(xué)生的答案既準(zhǔn)確又簡潔。
3. 分組獎勵(Group reward):鼓勵模型減少對外部檢索的依賴,提高推理效率。研究人員計(jì)算了同一問題下正確回答中調(diào)用檢索器次數(shù)的標(biāo)準(zhǔn)差,獎勵那些使用最少檢索次數(shù)的正確回答。這就像鼓勵學(xué)生盡可能依靠自己的知識解決問題,而不是過度依賴參考書。
同時,研究人員還實(shí)現(xiàn)了一個創(chuàng)新的外部知識記憶機(jī)制。當(dāng)模型在訓(xùn)練過程中檢索到正確的外部信息時,這些信息會被轉(zhuǎn)化為內(nèi)部知識的格式,并被用來進(jìn)一步訓(xùn)練模型。這就像學(xué)生在課外閱讀中學(xué)到的知識,經(jīng)過消化后成為了自己的知識儲備。
三、實(shí)驗(yàn)結(jié)果:更聰明、更高效的AI助手
研究團(tuán)隊(duì)在四個多步驟問答基準(zhǔn)測試上評估了R1-Searcher++的性能:HotpotQA、2WikiMultiHopQA、Musique和Bamboogle。其中前兩個是訓(xùn)練領(lǐng)域內(nèi)的基準(zhǔn)測試,后兩個則是訓(xùn)練領(lǐng)域外的基準(zhǔn)測試,用于評估模型的泛化能力。
實(shí)驗(yàn)結(jié)果令人印象深刻。R1-Searcher++在所有測試中都表現(xiàn)出色,特別是在使用LLM-as-Judge(由GPT-4o-mini評估答案正確性)評估指標(biāo)時,它比基于樹搜索的方法(如CR-Planner)高出25.7%,比最好的普通強(qiáng)化學(xué)習(xí)方法(R1-Searcher)高出4.3%。
更令人驚喜的是,R1-Searcher++在保持強(qiáng)大性能的同時,大幅減少了檢索次數(shù)。與R1-Searcher相比,平均檢索次數(shù)減少了30.0%;與Search-R1相比,減少了52.9%。這就像一個學(xué)生既能考出好成績,又能比其他同學(xué)更快完成作業(yè),因?yàn)樗朗裁磿r候應(yīng)該查資料,什么時候可以直接回答。
研究團(tuán)隊(duì)還進(jìn)行了在線搜索實(shí)驗(yàn),將R1-Searcher++連接到谷歌搜索API,在Bamboogle和Frames兩個數(shù)據(jù)集上測試其性能。結(jié)果表明,R1-Searcher++在這種實(shí)際應(yīng)用場景中也表現(xiàn)出色,既能達(dá)到最佳的F1分?jǐn)?shù)和LLM-as-Judge評分,又能顯著減少檢索調(diào)用次數(shù)。這證明了該方法在真實(shí)世界應(yīng)用中的適應(yīng)性和有效性。
四、案例分析:讓我們看看模型如何"思考"
通過一個具體例子,我們可以更直觀地理解R1-Searcher++是如何工作的。假設(shè)有一個問題:"誰是美國花旗銀行創(chuàng)立年份的總統(tǒng)?"
普通的Qwen-2.5-7B-Instruct模型直接給出了錯誤答案:"John Quincy Adams",因?yàn)樗灰蕾囎约旱膬?nèi)部知識,而這些知識可能不準(zhǔn)確或不完整。
Search-R1模型則發(fā)出了過多的查詢,包括一些不必要的查詢,這顯示它過度依賴外部搜索引擎,沒有充分利用其內(nèi)部知識,導(dǎo)致處理時間較長。
而R1-Searcher++表現(xiàn)出了更智能的行為:它首先將復(fù)雜問題分解成子問題,然后動態(tài)調(diào)整其行為。當(dāng)遇到不確定的子問題(例如"花旗銀行什么時候成立?")時,它選擇執(zhí)行外部搜索。但當(dāng)面對更具體的問題(例如"1812年美國總統(tǒng)是誰?")時,它直接利用內(nèi)部知識回答,無需調(diào)用搜索。這種靈活的機(jī)制實(shí)現(xiàn)了外部搜索和內(nèi)部知識之間的平衡。
五、局限性與未來方向
盡管R1-Searcher++取得了顯著成果,研究團(tuán)隊(duì)也坦誠指出了兩個主要局限性:
首先,受計(jì)算資源和資金限制,研究團(tuán)隊(duì)在訓(xùn)練過程中使用了本地密集檢索語料庫,而只在評估階段集成了真實(shí)世界的搜索引擎。如果能在訓(xùn)練過程中直接使用真實(shí)搜索引擎,可能會通過更真實(shí)的監(jiān)督進(jìn)一步提高性能。
其次,當(dāng)前實(shí)驗(yàn)僅限于7B參數(shù)規(guī)模的模型。在未來的研究中,研究團(tuán)隊(duì)計(jì)劃在更大規(guī)模的模型上訓(xùn)練和評估該框架,以進(jìn)一步驗(yàn)證其泛化能力和魯棒性。
六、結(jié)論:走向更智能、持續(xù)學(xué)習(xí)的AI
R1-Searcher++框架代表了大語言模型向更智能、更自主學(xué)習(xí)方向發(fā)展的重要一步。它使模型能夠像人類一樣,根據(jù)需要動態(tài)切換內(nèi)部知識和外部檢索,并將新獲取的信息轉(zhuǎn)化為自己的知識,實(shí)現(xiàn)持續(xù)學(xué)習(xí)和進(jìn)步。
簡單來說,這項(xiàng)研究幫助AI系統(tǒng)變得更像人類學(xué)習(xí)者:知道什么時候應(yīng)該依靠自己的知識,什么時候需要查閱外部資源,以及如何記住新學(xué)到的知識以備將來使用。這種能力不僅提高了模型的性能和效率,也使AI系統(tǒng)在實(shí)際應(yīng)用中變得更加實(shí)用和可靠。
對于我們普通用戶來說,這意味著未來的AI助手將能更準(zhǔn)確、更高效地回答我們的問題,減少不必要的等待時間,同時隨著使用不斷"成長"和"學(xué)習(xí)",就像一個不斷進(jìn)步的人類助手一樣。
感興趣的讀者可以在https://github.com/RUCAIBox/R1-Searcher-plus查看該項(xiàng)目的源代碼,深入了解這一創(chuàng)新框架的實(shí)現(xiàn)細(xì)節(jié)。
好文章,需要你的鼓勵
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學(xué)習(xí)外觀和運(yùn)動信息,顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運(yùn)動質(zhì)量,在多項(xiàng)測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。