av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見(jiàn)證連接與計(jì)算的「力量」

首頁(yè) MASKSEARCH:通過(guò)通用預(yù)訓(xùn)練框架,讓你的AI更會(huì)搜索與思考

MASKSEARCH:通過(guò)通用預(yù)訓(xùn)練框架,讓你的AI更會(huì)搜索與思考

2025-06-06 09:17
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-06 09:17 ? 科技行者

阿里巴巴集團(tuán)與同義實(shí)驗(yàn)室(Tongyi Lab)的研究團(tuán)隊(duì)在2025年5月推出了一項(xiàng)令人矚目的研究成果:MASKSEARCH預(yù)訓(xùn)練框架。這項(xiàng)由吳威琦、關(guān)鑫(共同第一作者)、黃申、姜勇、謝鵬軍、黃飛、曹久新、趙海和周井然共同完成的研究,于2025年5月27日在arXiv預(yù)印本平臺(tái)上發(fā)布(arXiv:2505.20285v2),代碼已在GitHub上開(kāi)源(https://github.com/Alibaba-NLP/MaskSearch)。這篇文章探討了如何讓大型語(yǔ)言模型(LLMs)更智能地使用搜索工具,就像我們?nèi)祟愑龅讲欢膯?wèn)題時(shí)會(huì)打開(kāi)搜索引擎一樣自然。

想象一下,當(dāng)你在寫(xiě)一篇關(guān)于某個(gè)歷史人物的報(bào)告,但突然忘記了他的出生年份或重要成就。你會(huì)怎么做?大多數(shù)人會(huì)立即打開(kāi)搜索引擎,查找所需信息,然后繼續(xù)你的工作。而傳統(tǒng)的AI語(yǔ)言模型則像一個(gè)閉門造車的學(xué)者,只能依靠自己"腦子里"已有的知識(shí)回答問(wèn)題,這就是為什么它們常常會(huì)"胡說(shuō)八道"(在AI領(lǐng)域稱為"幻覺(jué)")。

MASKSEARCH提出了一個(gè)巧妙的想法:通過(guò)特殊的預(yù)訓(xùn)練方式,讓AI學(xué)會(huì)像人類一樣,在需要時(shí)主動(dòng)去搜索信息。這個(gè)過(guò)程就像教一個(gè)小孩子學(xué)習(xí)解決問(wèn)題:不是要求他記住所有答案,而是教他如何在需要時(shí)找到答案。研究團(tuán)隊(duì)設(shè)計(jì)了一種名為"檢索增強(qiáng)掩碼預(yù)測(cè)"(RAMP)的任務(wù),讓AI模型學(xué)習(xí)填補(bǔ)文本中被掩蓋的關(guān)鍵信息,但不是靠猜,而是通過(guò)主動(dòng)搜索和推理來(lái)找到答案。

這項(xiàng)研究的意義不僅在于讓AI變得更"聰明",更在于讓它成為一個(gè)會(huì)思考、會(huì)使用工具的"智能助手",能夠處理更復(fù)雜、更開(kāi)放的問(wèn)題,并提供更可靠的答案。無(wú)論是幫助醫(yī)生查詢最新醫(yī)學(xué)研究,還是協(xié)助學(xué)生進(jìn)行復(fù)雜的知識(shí)探索,MASKSEARCH都展示了AI如何在人類與知識(shí)之間搭建更智能的橋梁。

一、傳統(tǒng)檢索增強(qiáng)模型的局限性

想象一下你有一位非常博學(xué)的朋友,他記憶力驚人,知識(shí)面廣泛。然而,當(dāng)你問(wèn)他一個(gè)超出他知識(shí)范圍的問(wèn)題時(shí),他會(huì)怎么做?一個(gè)真正聰明的人會(huì)說(shuō):"我不確定,讓我查一下",然后去找相關(guān)資料。而不那么聰明的人可能會(huì)硬著頭皮猜測(cè),結(jié)果往往不準(zhǔn)確。

在AI世界中,大型語(yǔ)言模型(LLMs)就像那些博學(xué)的朋友,它們?cè)谟?xùn)練過(guò)程中吸收了海量知識(shí),但面臨同樣的局限性:它們不可能知道所有事情,特別是最新發(fā)生的事件或非常專業(yè)的領(lǐng)域知識(shí)。

傳統(tǒng)的檢索增強(qiáng)語(yǔ)言模型(RALMs)試圖解決這個(gè)問(wèn)題,方法是在AI系統(tǒng)中添加一個(gè)專門的"檢索模塊",就像給AI配備了一個(gè)搜索引擎助手。這確實(shí)提高了模型回答問(wèn)題的準(zhǔn)確性,但存在一個(gè)關(guān)鍵問(wèn)題:檢索(搜索)和生成(回答)是分開(kāi)的,AI不能像人類那樣主動(dòng)決定何時(shí)需要搜索、搜索什么、以及如何利用搜索結(jié)果進(jìn)一步推理。

阿里巴巴的研究團(tuán)隊(duì)指出,這種分離限制了模型的適應(yīng)性,使其無(wú)法在多步驟任務(wù)中主動(dòng)獲取所需信息。比如,回答"哪位導(dǎo)演執(zhí)導(dǎo)了《理性與感性》,他在哪所大學(xué)完成本科學(xué)業(yè)?"這樣的問(wèn)題,需要先查找導(dǎo)演是誰(shuí),再查找這位導(dǎo)演的教育背景,這就是一個(gè)多步驟的搜索推理過(guò)程。

近年來(lái),Agent(代理)技術(shù)的發(fā)展讓大型語(yǔ)言模型能夠自主使用工具進(jìn)行檢索、規(guī)劃和推理。雖然基于提示的工作流(prompt-based workflows)已被廣泛使用,但它們效率低下且缺乏靈活性。而訓(xùn)練基于LLM的搜索代理提供了更有前途的解決方案,但當(dāng)前方法主要依賴特定任務(wù)的數(shù)據(jù),這限制了它們?cè)诟鼜V泛任務(wù)范圍內(nèi)的泛化能力。

二、MASKSEARCH:一種全新的預(yù)訓(xùn)練框架

研究團(tuán)隊(duì)受到了一個(gè)簡(jiǎn)單而有力的想法啟發(fā):通過(guò)預(yù)訓(xùn)練,讓語(yǔ)言模型學(xué)會(huì)"什么時(shí)候該搜索"以及"如何搜索和利用信息"。就像我們教孩子學(xué)習(xí)時(shí),不僅教他們知識(shí),還教他們?nèi)绾尾檎液屠觅Y源。

MASKSEARCH框架的核心是一個(gè)名為"檢索增強(qiáng)掩碼預(yù)測(cè)"(RAMP)的預(yù)訓(xùn)練任務(wù)。這聽(tīng)起來(lái)很復(fù)雜,但其實(shí)非常直觀。想象一本書(shū)中有些關(guān)鍵詞被涂黑了,你需要通過(guò)查閱其他資料來(lái)填補(bǔ)這些空缺。這就是RAMP任務(wù)的本質(zhì):模型需要填補(bǔ)文本中被掩蓋的關(guān)鍵信息,但不是靠猜,而是通過(guò)主動(dòng)搜索外部知識(shí)來(lái)找到答案。

具體來(lái)說(shuō),研究團(tuán)隊(duì)從維基百科文章中提取段落,然后識(shí)別并掩蓋其中的"顯著片段"(如人名、地點(diǎn)、日期、數(shù)字等),創(chuàng)建了大量訓(xùn)練樣本。然后,模型被訓(xùn)練來(lái)填補(bǔ)這些被掩蓋的信息,方法是通過(guò)搜索工具查找相關(guān)信息,并利用這些信息進(jìn)行推理和回答。

這個(gè)過(guò)程培養(yǎng)了模型的多種能力: 1. 任務(wù)分解能力:理解問(wèn)題并將其分解為可管理的子任務(wù) 2. 搜索工具使用能力:知道何時(shí)需要搜索,以及如何構(gòu)建有效的搜索查詢 3. 基于觀察的推理能力:分析搜索結(jié)果并從中提取相關(guān)信息 4. 綜合能力:將多個(gè)信息源整合起來(lái)回答原始問(wèn)題

重要的是,這些能力是高度可遷移的,這意味著在RAMP任務(wù)上訓(xùn)練過(guò)的模型能夠更好地處理各種需要外部知識(shí)的下游任務(wù),如開(kāi)放域問(wèn)答等。

三、訓(xùn)練策略:讓AI學(xué)會(huì)思考和搜索

MASKSEARCH框架采用了兩階段訓(xùn)練方法:首先是RAMP預(yù)訓(xùn)練,然后是下游任務(wù)的微調(diào)。在RAMP預(yù)訓(xùn)練階段,研究團(tuán)隊(duì)采用了兩種主要的訓(xùn)練方法:監(jiān)督微調(diào)(SFT)和強(qiáng)化學(xué)習(xí)(RL)。

### 監(jiān)督微調(diào):教會(huì)AI正確的思考和搜索步驟

想象你在教一個(gè)學(xué)生解決數(shù)學(xué)問(wèn)題。你不僅告訴他答案是什么,還展示解題的每一個(gè)步驟。監(jiān)督微調(diào)就是這樣工作的:為AI提供詳細(xì)的"思考鏈"(Chain-of-Thought,CoT)軌跡,展示如何一步步思考和搜索,直到找到答案。

研究團(tuán)隊(duì)創(chuàng)新性地結(jié)合了基于代理的方法和基于蒸餾的方法來(lái)構(gòu)建CoT數(shù)據(jù):

首先,他們?cè)O(shè)計(jì)了一個(gè)多代理系統(tǒng),包括: - 規(guī)劃代理(Planner Agent):分析任務(wù)并將其分解為子任務(wù),生成初始搜索查詢 - 重寫(xiě)代理(Rewriter Agent):優(yōu)化生成的查詢以提高知識(shí)檢索質(zhì)量,并調(diào)用搜索工具 - 觀察代理(Observer Agent):審查搜索結(jié)果和已采取的步驟,確定任務(wù)是否可以解決或是否需要額外步驟

這些代理協(xié)同工作,產(chǎn)生高質(zhì)量的推理軌跡。每個(gè)生成的軌跡都由"LLM作為評(píng)判"進(jìn)行評(píng)估,只有正確填補(bǔ)所有掩碼的軌跡才會(huì)被收錄到訓(xùn)練數(shù)據(jù)集中。

然后,為了快速擴(kuò)展數(shù)據(jù)集同時(shí)保持高數(shù)據(jù)質(zhì)量,研究團(tuán)隊(duì)采用了迭代生成策略。他們使用已訓(xùn)練的教師模型代替多代理方法。在第j次迭代中,當(dāng)前數(shù)據(jù)集Dj用于微調(diào)模型πθj-1,得到更新的策略πθj。這個(gè)更新的策略融合了從Dj學(xué)到的推理軌跡和搜索策略,然后作為新的教師模型πtj+1用于合成下一輪數(shù)據(jù)集Dj+1。

這種迭代方法確保模型不斷從越來(lái)越復(fù)雜和多樣化的推理軌跡中學(xué)習(xí),每一輪迭代都建立在前一輪能力的基礎(chǔ)上。通過(guò)這種方式,研究團(tuán)隊(duì)構(gòu)建了一個(gè)包含1000萬(wàn)個(gè)CoT樣本(140億個(gè)標(biāo)記)的大規(guī)模數(shù)據(jù)集,驗(yàn)證了MASKSEARCH作為預(yù)訓(xùn)練框架的可擴(kuò)展性。

### 強(qiáng)化學(xué)習(xí):通過(guò)實(shí)踐和反饋不斷改進(jìn)

監(jiān)督微調(diào)有點(diǎn)像按照食譜學(xué)習(xí)烹飪,而強(qiáng)化學(xué)習(xí)則更像是實(shí)際下廚并根據(jù)味道調(diào)整做法。在強(qiáng)化學(xué)習(xí)中,模型通過(guò)嘗試和錯(cuò)誤學(xué)習(xí),根據(jù)其行為的結(jié)果(獎(jiǎng)勵(lì))來(lái)改進(jìn)其策略。

研究團(tuán)隊(duì)采用了動(dòng)態(tài)采樣策略優(yōu)化(DAPO)算法進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練,并設(shè)計(jì)了一個(gè)混合獎(jiǎng)勵(lì)系統(tǒng),包括: - 格式獎(jiǎng)勵(lì):評(píng)估模型響應(yīng)是否符合指定的答案格式 - 答案獎(jiǎng)勵(lì):評(píng)估模型生成的答案與標(biāo)準(zhǔn)答案的一致性

答案獎(jiǎng)勵(lì)有三種變體: 1. 基于標(biāo)記級(jí)別召回率的獎(jiǎng)勵(lì):使用標(biāo)記級(jí)別召回率作為獎(jiǎng)勵(lì)指標(biāo) 2. 帶答案長(zhǎng)度懲罰的標(biāo)記級(jí)別召回率獎(jiǎng)勵(lì):引入對(duì)答案長(zhǎng)度的懲罰以防止獎(jiǎng)勵(lì)黑客行為 3. 基于模型的獎(jiǎng)勵(lì):使用Qwen2.5-72B-Instruct模型作為評(píng)判,評(píng)估生成答案與標(biāo)準(zhǔn)答案的一致性

實(shí)驗(yàn)表明,基于模型的獎(jiǎng)勵(lì)能夠有效解決獎(jiǎng)勵(lì)黑客問(wèn)題,并在RL訓(xùn)練中表現(xiàn)出顯著的穩(wěn)定性和有效性。

### 課程學(xué)習(xí):循序漸進(jìn),從簡(jiǎn)單到復(fù)雜

課程學(xué)習(xí)是一種根據(jù)難度對(duì)訓(xùn)練樣本進(jìn)行排序,并以遞增方式向模型呈現(xiàn)的訓(xùn)練策略。在RAMP任務(wù)中,被掩蓋的片段數(shù)量k被用作難度的主要指標(biāo)。

與隨機(jī)抽樣不同,課程學(xué)習(xí)方法首先從包含較少掩碼片段的簡(jiǎn)單任務(wù)開(kāi)始,然后逐步引入具有更多掩碼片段的復(fù)雜任務(wù)。這種方法使模型能夠首先學(xué)習(xí)基本推理技能,然后逐步建立處理更具挑戰(zhàn)性場(chǎng)景的能力。

實(shí)驗(yàn)證明,這種課程學(xué)習(xí)方法能夠幫助模型更好地適應(yīng)任務(wù)的遞增復(fù)雜性,從而提高性能和培養(yǎng)更強(qiáng)大的推理能力。

四、實(shí)驗(yàn)結(jié)果:MASKSEARCH的強(qiáng)大性能

研究團(tuán)隊(duì)在多個(gè)開(kāi)放域問(wèn)答數(shù)據(jù)集上評(píng)估了MASKSEARCH框架的性能,包括HotpotQA、FanoutQA、Musique、2WikiMultiHopQA、Bamboogle和FreshQA。他們使用了兩個(gè)系列的基礎(chǔ)模型:QWEN2.5(1.5B、3B和7B)和LLAMA3(1B、3B和8B)。

實(shí)驗(yàn)結(jié)果令人印象深刻,主要發(fā)現(xiàn)包括:

### RAMP預(yù)訓(xùn)練顯著提升了搜索代理的性能

將RAMP作為預(yù)訓(xùn)練任務(wù)顯著增強(qiáng)了模型在多個(gè)開(kāi)放域問(wèn)答數(shù)據(jù)集上的表現(xiàn)。在領(lǐng)域內(nèi)數(shù)據(jù)集(如HotpotQA)上,RAMP提供了穩(wěn)定的模型召回率改進(jìn)。在領(lǐng)域外數(shù)據(jù)集上,改進(jìn)更為顯著。例如,在Bamboogle數(shù)據(jù)集上,Qwen2.15-1.5B模型與僅進(jìn)行下游任務(wù)訓(xùn)練相比,實(shí)現(xiàn)了11.78的大幅提升,而LLAMA模型則獲得了令人印象深刻的15.12增益。

此外,較小的模型(如Qwen2.5-1.5B)能夠在各種任務(wù)上表現(xiàn)出與更大模型相當(dāng)?shù)男阅堋_@證明RAMP作為一個(gè)可擴(kuò)展的學(xué)習(xí)信號(hào),可以幫助模型更好地增強(qiáng)其分解問(wèn)題和與搜索工具交互的能力。

### 強(qiáng)化學(xué)習(xí)在RAMP上展現(xiàn)出比監(jiān)督微調(diào)更高的性能提升

盡管監(jiān)督微調(diào)(SFT)被證明能有效提高搜索代理性能,但強(qiáng)化學(xué)習(xí)(RL)展示了在應(yīng)用于RAMP任務(wù)時(shí)實(shí)現(xiàn)更高上限的潛力。RL與RAMP的結(jié)合在下游任務(wù)上比單獨(dú)使用SFT顯示出更好的收益,特別是在領(lǐng)域內(nèi)數(shù)據(jù)集HotpotQA上,在不同規(guī)模的模型上實(shí)現(xiàn)了3到5個(gè)點(diǎn)的改進(jìn)。

這一發(fā)現(xiàn)突顯了探索強(qiáng)化學(xué)習(xí)等高級(jí)訓(xùn)練技術(shù)的重要性,以充分利用RAMP在增強(qiáng)RALM性能方面的優(yōu)勢(shì)。

### 可擴(kuò)展性表現(xiàn)優(yōu)異

為驗(yàn)證MASKSEARCH作為預(yù)訓(xùn)練任務(wù)的擴(kuò)展?jié)摿?,研究團(tuán)隊(duì)進(jìn)行了實(shí)驗(yàn),使用在第一階段訓(xùn)練不同步數(shù)的模型,并評(píng)估它們?cè)陔S后的下游任務(wù)微調(diào)后的性能。

實(shí)驗(yàn)表明,小型模型(1B、1.5B)在經(jīng)過(guò)預(yù)訓(xùn)練階段后表現(xiàn)出顯著的性能提升。這表明RAMP任務(wù)有效增強(qiáng)了模型的代理搜索能力。對(duì)于更大的模型,擴(kuò)大數(shù)據(jù)集規(guī)模也是有效的,但性能增益不如小型模型那么顯著。

這可能是因?yàn)橛糜谟?xùn)練7B模型的數(shù)據(jù)是通過(guò)自我進(jìn)化過(guò)程生成的,相比于其自身的預(yù)測(cè)可能缺乏多樣性和復(fù)雜性。因此,訓(xùn)練數(shù)據(jù)的質(zhì)量和多樣性是決定模型在SFT期間性能上限的關(guān)鍵因素。

### 課程學(xué)習(xí)的有效性

研究深入探討了課程學(xué)習(xí)在RAMP和下游任務(wù)訓(xùn)練中的有效性。從RAMP數(shù)據(jù)中每個(gè)掩碼數(shù)量抽樣10K數(shù)據(jù),從HotpotQA抽樣6K數(shù)據(jù),以保持預(yù)訓(xùn)練和下游任務(wù)之間的適當(dāng)比例。此外,從剩余RAMP數(shù)據(jù)中抽樣500個(gè)QA對(duì)作為驗(yàn)證集,每個(gè)掩碼數(shù)量100個(gè)數(shù)據(jù)點(diǎn)。

研究發(fā)現(xiàn),增加掩碼跨度數(shù)量會(huì)導(dǎo)致驗(yàn)證集上的性能顯著改善。盡管初始性能落后,但課程學(xué)習(xí)方法最終優(yōu)于混合訓(xùn)練策略(默認(rèn)方法是將所有數(shù)據(jù)混合在一起)。在驗(yàn)證集中觀察到的優(yōu)勢(shì)有潛力在微調(diào)后延續(xù)到下游任務(wù)。

五、MASKSEARCH的創(chuàng)新之處

MASKSEARCH框架引入了幾項(xiàng)關(guān)鍵創(chuàng)新,使其在檢索增強(qiáng)語(yǔ)言模型和搜索增強(qiáng)推理模型領(lǐng)域中脫穎而出:

### 與傳統(tǒng)RALMs的根本區(qū)別

相比傳統(tǒng)的檢索增強(qiáng)語(yǔ)言模型(RALMs),MASKSEARCH有幾個(gè)關(guān)鍵優(yōu)勢(shì):

首先,在檢索標(biāo)記數(shù)量方面,MASKSEARCH操作的檢索空間實(shí)際上是無(wú)限的,這與傳統(tǒng)模型受限于預(yù)定義檢索語(yǔ)料庫(kù)大小的情況形成鮮明對(duì)比。

其次,MASKSEARCH采用單模型架構(gòu),而不是傳統(tǒng)RALMs的雙模型設(shè)置。這種簡(jiǎn)化不僅減少了計(jì)算開(kāi)銷,還增強(qiáng)了推理過(guò)程的連貫性和一致性。

通過(guò)以代理方式與搜索引擎交互,MASKSEARCH支持多步推理,這是處理復(fù)雜查詢的關(guān)鍵能力,這些復(fù)雜查詢需要整合來(lái)自多個(gè)來(lái)源的信息,而不能在單個(gè)步驟中解決。

### 與Search-R1的比較與區(qū)別

與MASKSEARCH最相似的工作是Search-R1,但兩者之間存在幾個(gè)關(guān)鍵區(qū)別:

雖然兩個(gè)模型都在有效無(wú)限的檢索空間中運(yùn)行并支持多步推理,但MASKSEARCH采用兩階段端到端訓(xùn)練過(guò)程,可以適應(yīng)SFT和RL。這與Search-R1形成對(duì)比,后者使用單階段強(qiáng)化學(xué)習(xí)方法訓(xùn)練其檢索器。

MASKSEARCH中的兩階段端到端訓(xùn)練允許更一般地優(yōu)化代理能力,從而更好地與LLM集成并提高性能。

六、掩碼策略與獎(jiǎng)勵(lì)設(shè)計(jì)的深入探討

### 掩碼策略的影響

研究團(tuán)隊(duì)深入研究了掩碼方法對(duì)RAMP任務(wù)的影響。除了顯著跨度掩碼外,許多先前研究還調(diào)查了在掩碼語(yǔ)言建模(MLM)中選擇更具挑戰(zhàn)性掩碼的效果,包括使用點(diǎn)互信息(PMI)和困惑度(PPL)來(lái)評(píng)估掩碼跨度的難度。

對(duì)于自回歸模型,研究團(tuán)隊(duì)探索了基于PPL的掩碼策略。他們通過(guò)計(jì)算困惑度(即在原始上下文中恢復(fù)掩碼跨度時(shí)的損失)來(lái)衡量掩碼跨度對(duì)模型的難度。具體來(lái)說(shuō),他們貪婪地選擇所有未掩碼顯著跨度中PPL最高的跨度,直到滿足所需的掩碼數(shù)量。

為了驗(yàn)證這種策略相對(duì)于原始隨機(jī)掩碼策略的有效性,研究團(tuán)隊(duì)使用基于代理的軌跡構(gòu)建方法準(zhǔn)備了一個(gè)40K RAMP數(shù)據(jù)集用于SFT,并抽樣了6K HotPotQA軌跡用于第二階段訓(xùn)練。

實(shí)驗(yàn)結(jié)果表明,基于PPL的掩碼策略在FanoutQA數(shù)據(jù)集上帶來(lái)了性能提升,突顯了選擇更具挑戰(zhàn)性掩碼的有效性。然而,HotpotQA和Bamboogle數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,僅僅增加掩碼跨度的難度可能會(huì)導(dǎo)致性能下降。這表明模型可能沒(méi)有真正掌握任務(wù),因?yàn)殡y度增加了。另一方面,課程學(xué)習(xí)(逐步增加訓(xùn)練任務(wù)的復(fù)雜性)被證明是有益的。在第二階段訓(xùn)練后,模型在所有三個(gè)數(shù)據(jù)集上都表現(xiàn)出增強(qiáng)的性能,突顯了其在增強(qiáng)模型學(xué)習(xí)進(jìn)度以處理復(fù)雜任務(wù)方面的有效性。

### 不同RL獎(jiǎng)勵(lì)的性能

研究團(tuán)隊(duì)研究了不同RL獎(jiǎng)勵(lì)對(duì)模型性能的影響。結(jié)果顯示,使用基于標(biāo)記級(jí)別召回率的獎(jiǎng)勵(lì)訓(xùn)練的模型通過(guò)向答案添加大量不相關(guān)信息來(lái)"黑客攻擊"指標(biāo),顯著增加響應(yīng)長(zhǎng)度。這導(dǎo)致與其他RL獎(jiǎng)勵(lì)相比,實(shí)際性能顯著下降。

雖然基于懲罰的獎(jiǎng)勵(lì)可以顯著減少答案長(zhǎng)度,但性能仍然受到影響,而且模型仍然可以在有限答案長(zhǎng)度的約束內(nèi)通過(guò)使用枚舉來(lái)進(jìn)行黑客攻擊。

基于模型的獎(jiǎng)勵(lì)在其他兩種獎(jiǎng)勵(lì)方法上提供了顯著的改進(jìn)(34.71和19.48),有效解決了獎(jiǎng)勵(lì)黑客問(wèn)題,并在RL訓(xùn)練中展示出顯著的穩(wěn)定性和有效性。這些優(yōu)勢(shì)最終促使研究團(tuán)隊(duì)采用基于模型的獎(jiǎng)勵(lì)方法進(jìn)行訓(xùn)練。

七、案例研究:RAMP如何工作

為了說(shuō)明模型如何通過(guò)檢索增強(qiáng)掩碼預(yù)測(cè)任務(wù)(RAMP)獲得檢索和推理能力,研究提供了一個(gè)案例研究。在這個(gè)例子中,與David Henry Hoelscher相關(guān)的聯(lián)盟、球隊(duì)和大學(xué)信息被掩蓋。模型需要自主使用搜索引擎進(jìn)行推理并填補(bǔ)缺失信息。

開(kāi)始時(shí),模型制定搜索計(jì)劃,包括個(gè)人職業(yè)生涯、球隊(duì)和大學(xué)的詳細(xì)信息。在第一步中,它檢索與他的職業(yè)和球隊(duì)相關(guān)的信息。獲取初始搜索結(jié)果后,模型根據(jù)檢索到的數(shù)據(jù)識(shí)別與該個(gè)人相關(guān)的聯(lián)盟,并啟動(dòng)另一次搜索以確認(rèn)他所效力的球隊(duì)。

在第二次搜索后,模型成功推斷出他的球隊(duì)隸屬關(guān)系,并發(fā)現(xiàn)先前的搜索結(jié)果包含了他的大學(xué)信息。然后它請(qǐng)求另一次搜索來(lái)驗(yàn)證這些數(shù)據(jù)。完成第三次搜索后,搜索代理有效收集了所有必需信息并填補(bǔ)了掩碼。

通過(guò)RAMP任務(wù),模型不僅學(xué)會(huì)了執(zhí)行檢索,還掌握了使用檢索到的信息進(jìn)行進(jìn)一步推理和驗(yàn)證,直到獲得完整答案。這個(gè)案例清晰地展示了MASKSEARCH如何培養(yǎng)模型的多步驟推理和工具使用能力。

八、總結(jié)與未來(lái)展望

MASKSEARCH框架代表了一種創(chuàng)新方法,旨在增強(qiáng)LLM的代理搜索能力,特別是通過(guò)兩階段訓(xùn)練方法?;跈z索增強(qiáng)掩碼預(yù)測(cè)(RAMP)預(yù)訓(xùn)練任務(wù),模型可以通過(guò)SFT或RL進(jìn)行訓(xùn)練,在下游任務(wù)訓(xùn)練前獲取通用能力。

廣泛的分析表明,將RAMP作為預(yù)訓(xùn)練任務(wù)顯著增強(qiáng)了模型在各種開(kāi)放域問(wèn)答數(shù)據(jù)集上的性能。它不僅提供了領(lǐng)域內(nèi)下游任務(wù)召回分?jǐn)?shù)的穩(wěn)定改進(jìn),還在領(lǐng)域外基準(zhǔn)測(cè)試上取得了顯著收益。研究還驗(yàn)證了MASKSEARCH的可擴(kuò)展性,通過(guò)構(gòu)建1000萬(wàn)預(yù)訓(xùn)練數(shù)據(jù)集用于SFT。

此外,盡管RL通常不用于預(yù)訓(xùn)練,但實(shí)驗(yàn)表明它通過(guò)預(yù)訓(xùn)練實(shí)現(xiàn)了顯著的性能增益。它甚至表現(xiàn)出比使用SFT更大的潛力來(lái)優(yōu)化模型性能,在后訓(xùn)練后達(dá)到更高的上限。這些發(fā)現(xiàn)突顯了MASKSEARCH在增強(qiáng)LLM搜索代理的通用代理搜索能力方面的有效性,無(wú)論其大小、類型或采用的特定訓(xùn)練方法如何。

然而,研究也存在一些局限性。盡管實(shí)證成功和直觀動(dòng)機(jī),但仍有幾個(gè)方面需要進(jìn)一步調(diào)查。首先,研究團(tuán)隊(duì)僅使用搜索工具進(jìn)行知識(shí)檢索,以堅(jiān)持RALM的概念。然而,代理能夠利用各種工具,研究團(tuán)隊(duì)相信RAMP任務(wù)可以推廣到包含多種工具的使用。

未來(lái)的工作可以探索工具集的多樣性,潛在地將應(yīng)用范圍擴(kuò)展到開(kāi)放域QA之外的其他場(chǎng)景。此外,雖然方法已經(jīng)證明了有希望的結(jié)果,但需要更深入的理論分析來(lái)充分理解導(dǎo)致其有效性的因素。

總的來(lái)說(shuō),MASKSEARCH提供了一種可擴(kuò)展、可轉(zhuǎn)移的框架,增強(qiáng)了LLM基于搜索代理的能力,為多跳推理和檢索增強(qiáng)任務(wù)領(lǐng)域的進(jìn)展鋪平了道路。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-