av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<blockquote id="cye76"></blockquote>

<abbr id="cye76"></abbr>

微信掃一掃，關(guān)注公眾號

科技行者
算力行者

見證連接與計(jì)算的「力量」

R1-Searcher++：用強(qiáng)化學(xué)習(xí)激勵大語言模型動態(tài)獲取知識的新框架

大語言模型強(qiáng)化學(xué)習(xí)檢索增強(qiáng)生成

R1-Searcher++：用強(qiáng)化學(xué)習(xí)激勵大語言模型動態(tài)獲取知識的新框架

作者：科技行者

2025-05-31 13:35

分享至：

這項(xiàng)研究提出了R1-Searcher++框架，通過兩階段訓(xùn)練策略使大語言模型能像人類一樣靈活利用內(nèi)部知識和外部信息。該方法創(chuàng)新性地采用強(qiáng)化學(xué)習(xí)激勵模型優(yōu)先使用內(nèi)部知識，并引入記憶機(jī)制將檢索到的信息轉(zhuǎn)化為內(nèi)部知識，實(shí)現(xiàn)動態(tài)知識獲取。實(shí)驗(yàn)表明，R1-Searcher++不僅在多步問答任務(wù)上表現(xiàn)優(yōu)異，還大幅減少了檢索次數(shù)，顯著提高了推理效率。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-05-31 13:35 ? 科技行者

在人工智能快速發(fā)展的今天，大語言模型(LLM)如同一位博學(xué)的朋友，可以回答各種各樣的問題。但就像人類一樣，這些模型也有"知識盲區(qū)"，有時會因?yàn)橹R有限而胡編亂造（我們稱之為"幻覺"）。2025年5月22日，由中國人民大學(xué)高瓴人工智能學(xué)院的宋華彤、江金浩、田文青等研究團(tuán)隊(duì)發(fā)表在arXiv（arXiv:2505.17005v1）上的研究"R1-Searcher++: Incentivizing the Dynamic Knowledge Acquisition of LLMs via Reinforcement Learning"，提出了一個創(chuàng)新的解決方案，幫助大語言模型更智能地平衡使用自身知識和外部信息。

想象一下，當(dāng)你不確定某個問題的答案時，你會怎么做？你可能先嘗試回憶自己所知道的信息，如果發(fā)現(xiàn)知識不足，才會轉(zhuǎn)向谷歌搜索。更重要的是，一旦你通過搜索獲取了新知識，你會把它記在腦子里，下次遇到類似問題就不必再次搜索了。研究團(tuán)隊(duì)希望大語言模型也能像人類一樣擁有這種能力。

目前的大語言模型雖然強(qiáng)大，但它們的知識是"靜態(tài)"的——僅限于訓(xùn)練時學(xué)到的內(nèi)容。研究人員開發(fā)了各種方法讓模型獲取外部信息，這類技術(shù)被稱為"檢索增強(qiáng)生成"（RAG）。然而，現(xiàn)有的RAG方法要么成本高昂、泛化能力差，要么完全忽視模型已有的內(nèi)部知識。就像一個有選擇性失憶的人，明明知道答案卻還要去查資料，既浪費(fèi)時間又不夠高效。

人民大學(xué)研究團(tuán)隊(duì)開發(fā)的R1-Searcher++框架就像是給大語言模型安裝了一個更智能的"大腦操作系統(tǒng)"，它能夠：1）判斷什么時候應(yīng)該使用自己的知識，什么時候需要搜索外部信息；2）像人類一樣，把新獲取的外部知識轉(zhuǎn)化為內(nèi)部記憶，不斷豐富自己的知識庫。這就像是模型不僅學(xué)會了如何更有效地"查資料"，還學(xué)會了如何"記筆記"和"溫故知新"。

一、R1-Searcher++的工作原理：兩階段訓(xùn)練策略

R1-Searcher++采用了一個兩階段的訓(xùn)練策略，就像先教會孩子基本的閱讀技能，然后再教他如何在圖書館中查找和記憶信息。

第一階段是"SFT冷啟動"（SFT Cold-start）。在這個階段，研究人員使用精心篩選的數(shù)據(jù)對模型進(jìn)行初步訓(xùn)練，就像是給模型提供一本"如何正確提問和回答"的教科書。這個階段主要是讓模型學(xué)習(xí)正確的格式，比如什么時候使用內(nèi)部知識（用標(biāo)簽標(biāo)記），什么時候需要檢索外部信息（用標(biāo)簽標(biāo)記）。這就像是教會模型一種新的語言或協(xié)議，讓它明白應(yīng)該怎樣表達(dá)"我知道這個答案"和"我需要查找這個信息"。

第二階段是"動態(tài)知識獲取的強(qiáng)化學(xué)習(xí)"（RL for Dynamic Knowledge Acquisition）。在這個階段，模型就像一個在復(fù)雜環(huán)境中學(xué)習(xí)的探險(xiǎn)家，通過不斷嘗試和獲得反饋來優(yōu)化自己的行為。研究人員設(shè)計(jì)了一套獎勵機(jī)制，當(dāng)模型做出正確決策時（例如，在知識充足時使用內(nèi)部知識，在知識不足時尋求外部幫助）就給予獎勵，引導(dǎo)模型形成更有效的行為模式。

這個階段有兩個關(guān)鍵創(chuàng)新：首先是"內(nèi)部知識利用激勵"（Internal Knowledge Utilization Encouragement），鼓勵模型優(yōu)先使用自己的知識，只有在必要時才求助于外部資源，就像鼓勵學(xué)生先思考再查書；其次是"外部知識記憶機(jī)制"（External Knowledge Memorization），讓模型能夠?qū)z索到的外部信息轉(zhuǎn)化為內(nèi)部知識，不斷豐富自己的知識庫，就像人類學(xué)習(xí)新知識后能記在腦子里一樣。

二、R1-Searcher++的具體實(shí)現(xiàn)：像教孩子學(xué)習(xí)一樣訓(xùn)練AI

讓我們深入了解這個框架是如何一步步實(shí)現(xiàn)的。想象一下，R1-Searcher++就像是一個正在學(xué)習(xí)如何高效獲取和使用知識的學(xué)生，研究人員則是設(shè)計(jì)課程和評估標(biāo)準(zhǔn)的老師。

在第一階段（SFT冷啟動）中，研究人員使用"拒絕采樣"（reject sampling）方法收集符合格式要求的數(shù)據(jù)。他們只保留那些正確使用了和標(biāo)簽的響應(yīng)，教模型使用合適的格式表達(dá)自己的思考過程。這就像是教學(xué)生使用正確的語法和句式來表達(dá)自己的想法。

進(jìn)入第二階段（強(qiáng)化學(xué)習(xí)），研究人員設(shè)計(jì)了一套精巧的獎勵函數(shù)，包括三個主要部分：

1. 格式獎勵（Format reward）：確保模型的回應(yīng)格式正確。當(dāng)模型需要調(diào)用外部檢索器時，它必須在...標(biāo)簽內(nèi)明確提出查詢，并且不能在沒有先調(diào)用檢索的情況下直接生成文檔內(nèi)容。這就像教導(dǎo)學(xué)生在引用資料時必須注明出處。

2. 答案獎勵（Answer reward）：評估最終答案的正確性。研究人員使用了覆蓋精確匹配（Cover Exact Match，CEM）指標(biāo)來計(jì)算答案獎勵，并要求答案不超過10個詞，以防止模型通過生成冗長的答案來"欺騙"評估系統(tǒng)。這就像要求學(xué)生的答案既準(zhǔn)確又簡潔。

3. 分組獎勵（Group reward）：鼓勵模型減少對外部檢索的依賴，提高推理效率。研究人員計(jì)算了同一問題下正確回答中調(diào)用檢索器次數(shù)的標(biāo)準(zhǔn)差，獎勵那些使用最少檢索次數(shù)的正確回答。這就像鼓勵學(xué)生盡可能依靠自己的知識解決問題，而不是過度依賴參考書。

同時，研究人員還實(shí)現(xiàn)了一個創(chuàng)新的外部知識記憶機(jī)制。當(dāng)模型在訓(xùn)練過程中檢索到正確的外部信息時，這些信息會被轉(zhuǎn)化為內(nèi)部知識的格式，并被用來進(jìn)一步訓(xùn)練模型。這就像學(xué)生在課外閱讀中學(xué)到的知識，經(jīng)過消化后成為了自己的知識儲備。

三、實(shí)驗(yàn)結(jié)果：更聰明、更高效的AI助手

研究團(tuán)隊(duì)在四個多步驟問答基準(zhǔn)測試上評估了R1-Searcher++的性能：HotpotQA、2WikiMultiHopQA、Musique和Bamboogle。其中前兩個是訓(xùn)練領(lǐng)域內(nèi)的基準(zhǔn)測試，后兩個則是訓(xùn)練領(lǐng)域外的基準(zhǔn)測試，用于評估模型的泛化能力。

實(shí)驗(yàn)結(jié)果令人印象深刻。R1-Searcher++在所有測試中都表現(xiàn)出色，特別是在使用LLM-as-Judge（由GPT-4o-mini評估答案正確性）評估指標(biāo)時，它比基于樹搜索的方法（如CR-Planner）高出25.7%，比最好的普通強(qiáng)化學(xué)習(xí)方法（R1-Searcher）高出4.3%。

更令人驚喜的是，R1-Searcher++在保持強(qiáng)大性能的同時，大幅減少了檢索次數(shù)。與R1-Searcher相比，平均檢索次數(shù)減少了30.0%；與Search-R1相比，減少了52.9%。這就像一個學(xué)生既能考出好成績，又能比其他同學(xué)更快完成作業(yè)，因?yàn)樗朗裁磿r候應(yīng)該查資料，什么時候可以直接回答。

研究團(tuán)隊(duì)還進(jìn)行了在線搜索實(shí)驗(yàn)，將R1-Searcher++連接到谷歌搜索API，在Bamboogle和Frames兩個數(shù)據(jù)集上測試其性能。結(jié)果表明，R1-Searcher++在這種實(shí)際應(yīng)用場景中也表現(xiàn)出色，既能達(dá)到最佳的F1分?jǐn)?shù)和LLM-as-Judge評分，又能顯著減少檢索調(diào)用次數(shù)。這證明了該方法在真實(shí)世界應(yīng)用中的適應(yīng)性和有效性。

四、案例分析：讓我們看看模型如何"思考"

通過一個具體例子，我們可以更直觀地理解R1-Searcher++是如何工作的。假設(shè)有一個問題："誰是美國花旗銀行創(chuàng)立年份的總統(tǒng)？"

普通的Qwen-2.5-7B-Instruct模型直接給出了錯誤答案："John Quincy Adams"，因?yàn)樗灰蕾囎约旱膬?nèi)部知識，而這些知識可能不準(zhǔn)確或不完整。

Search-R1模型則發(fā)出了過多的查詢，包括一些不必要的查詢，這顯示它過度依賴外部搜索引擎，沒有充分利用其內(nèi)部知識，導(dǎo)致處理時間較長。

而R1-Searcher++表現(xiàn)出了更智能的行為：它首先將復(fù)雜問題分解成子問題，然后動態(tài)調(diào)整其行為。當(dāng)遇到不確定的子問題（例如"花旗銀行什么時候成立？"）時，它選擇執(zhí)行外部搜索。但當(dāng)面對更具體的問題（例如"1812年美國總統(tǒng)是誰？"）時，它直接利用內(nèi)部知識回答，無需調(diào)用搜索。這種靈活的機(jī)制實(shí)現(xiàn)了外部搜索和內(nèi)部知識之間的平衡。

五、局限性與未來方向

盡管R1-Searcher++取得了顯著成果，研究團(tuán)隊(duì)也坦誠指出了兩個主要局限性：

首先，受計(jì)算資源和資金限制，研究團(tuán)隊(duì)在訓(xùn)練過程中使用了本地密集檢索語料庫，而只在評估階段集成了真實(shí)世界的搜索引擎。如果能在訓(xùn)練過程中直接使用真實(shí)搜索引擎，可能會通過更真實(shí)的監(jiān)督進(jìn)一步提高性能。

其次，當(dāng)前實(shí)驗(yàn)僅限于7B參數(shù)規(guī)模的模型。在未來的研究中，研究團(tuán)隊(duì)計(jì)劃在更大規(guī)模的模型上訓(xùn)練和評估該框架，以進(jìn)一步驗(yàn)證其泛化能力和魯棒性。

六、結(jié)論：走向更智能、持續(xù)學(xué)習(xí)的AI

R1-Searcher++框架代表了大語言模型向更智能、更自主學(xué)習(xí)方向發(fā)展的重要一步。它使模型能夠像人類一樣，根據(jù)需要動態(tài)切換內(nèi)部知識和外部檢索，并將新獲取的信息轉(zhuǎn)化為自己的知識，實(shí)現(xiàn)持續(xù)學(xué)習(xí)和進(jìn)步。

簡單來說，這項(xiàng)研究幫助AI系統(tǒng)變得更像人類學(xué)習(xí)者：知道什么時候應(yīng)該依靠自己的知識，什么時候需要查閱外部資源，以及如何記住新學(xué)到的知識以備將來使用。這種能力不僅提高了模型的性能和效率，也使AI系統(tǒng)在實(shí)際應(yīng)用中變得更加實(shí)用和可靠。

對于我們普通用戶來說，這意味著未來的AI助手將能更準(zhǔn)確、更高效地回答我們的問題，減少不必要的等待時間，同時隨著使用不斷"成長"和"學(xué)習(xí)"，就像一個不斷進(jìn)步的人類助手一樣。

感興趣的讀者可以在https://github.com/RUCAIBox/R1-Searcher-plus查看該項(xiàng)目的源代碼，深入了解這一創(chuàng)新框架的實(shí)現(xiàn)細(xì)節(jié)。

大語言模型強(qiáng)化學(xué)習(xí)檢索增強(qiáng)生成

分享至

0贊

好文章，需要你的鼓勵

推薦文章

音頻生成
大語言模型
多模態(tài)AI

2025-09-10 09:47

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng)，首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù)，通過交錯式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練，能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異，為AI音頻創(chuàng)作開辟新方向。
視頻生成
深度學(xué)習(xí)
多模態(tài)學(xué)習(xí)

2025-09-09 13:57

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù)，通過讓AI同時學(xué)習(xí)外觀和運(yùn)動信息，顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運(yùn)動質(zhì)量，在多項(xiàng)測試中超越包括Sora在內(nèi)的商業(yè)模型，為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
多模態(tài)AI
人類價值觀對齊
數(shù)據(jù)集構(gòu)建

2025-09-09 13:56

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價值觀對齊難題

上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究，首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn)，通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法，讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平，為AI價值觀對齊提供了可行技術(shù)路徑。
人工智能
圖神經(jīng)網(wǎng)絡(luò)
天氣預(yù)報(bào)

2025-09-09 10:56

谷歌研究團(tuán)隊(duì)發(fā)布超級預(yù)測模型：讓AI像天氣預(yù)報(bào)員一樣預(yù)測全球大氣變化

谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型，能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào)，準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù)，通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律，在極端天氣預(yù)測方面表現(xiàn)卓越，能耗僅為傳統(tǒng)方法的千分之一，為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

2025-09-10 09:47

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

2025-09-09 13:57

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價值觀對齊難題

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價值觀對齊難題

2025-09-09 13:56

谷歌研究團(tuán)隊(duì)發(fā)布超級預(yù)測模型：讓AI像天氣預(yù)報(bào)員一樣預(yù)測全球大氣變化

谷歌研究團(tuán)隊(duì)發(fā)布超級預(yù)測模型：讓AI像天氣預(yù)報(bào)員一樣預(yù)測全球大氣變化

2025-09-09 10:56

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時代

京ICP證15039648號京ICP備15039648號-9 京公網(wǎng)安備 11010802021500號

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報(bào)電話：010-62641205　涉未成年人舉報(bào)專線：010-62641208 舉報(bào)郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報(bào)專區(qū)：https://www.12377.cn

<tfoot id="lkspx"></tfoot>

<sup id="lkspx"><tfoot id="lkspx"></tfoot></sup>

<abbr id="lkspx"><tr id="lkspx"></tr></abbr>

<thead id="lkspx"></thead>

<table id="lkspx"></table>