av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見(jiàn)證連接與計(jì)算的「力量」

首頁(yè) RARE:一場(chǎng)全面檢測(cè)檢索增強(qiáng)生成系統(tǒng)魯棒性的革命 - 卡內(nèi)基梅隆大學(xué)和亞馬遜聯(lián)合創(chuàng)新

RARE:一場(chǎng)全面檢測(cè)檢索增強(qiáng)生成系統(tǒng)魯棒性的革命 - 卡內(nèi)基梅隆大學(xué)和亞馬遜聯(lián)合創(chuàng)新

2025-06-06 12:22
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-06 12:22 ? 科技行者

在當(dāng)今人工智能快速發(fā)展的時(shí)代,檢索增強(qiáng)生成(RAG)系統(tǒng)已成為提升大語(yǔ)言模型事實(shí)準(zhǔn)確性和實(shí)時(shí)性的關(guān)鍵技術(shù)。然而,這些系統(tǒng)在面對(duì)真實(shí)世界的各種干擾和變化時(shí),表現(xiàn)得如何呢?卡內(nèi)基梅隆大學(xué)與亞馬遜的研究團(tuán)隊(duì)近期在這一領(lǐng)域做出了突破性的貢獻(xiàn)。2025年6月1日,由卡內(nèi)基梅隆大學(xué)的Yixiao Zeng、Tianyu Cao、Danqing Wang、Xinran Zhao以及亞馬遜的Zimeng Qiu和Morteza Ziyadi,與卡內(nèi)基梅隆大學(xué)的Tongshuang Wu和Lei Li共同在arXiv上發(fā)表了題為《RARE: Retrieval-Aware Robustness Evaluation for Retrieval-Augmented Generation Systems》的研究論文,為我們揭示了檢索增強(qiáng)生成系統(tǒng)面對(duì)現(xiàn)實(shí)世界挑戰(zhàn)時(shí)的表現(xiàn)。

為什么我們需要關(guān)注RAG系統(tǒng)的魯棒性?

想象一下,你有一個(gè)非常聰明的朋友,他記憶力超群,能夠回答很多問(wèn)題。但是,如果你的問(wèn)題中有拼寫錯(cuò)誤,或者提供的信息來(lái)源不太可靠,這位朋友還能給出準(zhǔn)確的回答嗎?這就是檢索增強(qiáng)生成(RAG)系統(tǒng)面臨的挑戰(zhàn)。

RAG系統(tǒng)就像是給大語(yǔ)言模型配備了一個(gè)"外部記憶庫(kù)",讓它能夠查閱最新、最相關(guān)的信息來(lái)回答問(wèn)題。理論上,這應(yīng)該讓AI變得更加聰明和可靠。但實(shí)際上,現(xiàn)有的評(píng)估方法很少測(cè)試這些系統(tǒng)在面對(duì)現(xiàn)實(shí)世界中各種"噪音"時(shí)的表現(xiàn)能力。比如,當(dāng)查詢中有拼寫錯(cuò)誤、文檔信息互相矛盾,或者面對(duì)快速變化的事實(shí)時(shí),RAG系統(tǒng)是否依然可靠?

卡內(nèi)基梅隆大學(xué)和亞馬遜的研究團(tuán)隊(duì)意識(shí)到了這個(gè)問(wèn)題的重要性。他們指出,當(dāng)前的評(píng)估基準(zhǔn)大多依賴于靜態(tài)的、時(shí)間不變的數(shù)據(jù)集,這些數(shù)據(jù)集通常包含常識(shí)性或通用知識(shí)的查詢。這種評(píng)估方法無(wú)意中偏向了那些依靠記憶而非真正檢索和綜合新信息的模型,導(dǎo)致評(píng)估結(jié)果過(guò)于樂(lè)觀,忽視了現(xiàn)實(shí)世界中涉及動(dòng)態(tài)、專業(yè)和復(fù)雜信息的關(guān)鍵場(chǎng)景。

RARE:全面檢測(cè)RAG系統(tǒng)魯棒性的新框架

針對(duì)上述問(wèn)題,研究團(tuán)隊(duì)提出了一個(gè)名為"檢索感知魯棒性評(píng)估"(Retrieval-Aware Robustness Evaluation,簡(jiǎn)稱RARE)的統(tǒng)一框架,它從三個(gè)方面全面檢測(cè)RAG系統(tǒng)的魯棒性:

首先是RARE-Met,這是一套全面的魯棒性評(píng)估指標(biāo),用于測(cè)量RAG系統(tǒng)在面對(duì)查詢、文檔和模擬真實(shí)世界檢索結(jié)果擾動(dòng)時(shí)的表現(xiàn)。它能夠提供對(duì)當(dāng)前系統(tǒng)局限性的診斷洞察。

其次是RARE-Get,這是一個(gè)創(chuàng)新的動(dòng)態(tài)綜合管道,通過(guò)知識(shí)圖譜三元組提取和遍歷技術(shù),自動(dòng)構(gòu)建時(shí)間敏感的評(píng)估數(shù)據(jù)。它能夠在不需要人工整理的情況下,以各種復(fù)雜程度創(chuàng)建單跳和多跳的三元組(問(wèn)題、答案、真實(shí)文本塊)。

最后是RARE-Set,這是一個(gè)大規(guī)?;鶞?zhǔn)數(shù)據(jù)集,包含400多個(gè)專業(yè)級(jí)的時(shí)間敏感金融、經(jīng)濟(jì)和政策文檔,以及48,322個(gè)隨著底層信息源變化而演變的問(wèn)題。與以往由通用知識(shí)問(wèn)題主導(dǎo)的數(shù)據(jù)集不同,RARE-Set專注于需要高級(jí)信息綜合的領(lǐng)域特定技術(shù)查詢。

這個(gè)框架就像是為RAG系統(tǒng)設(shè)計(jì)的一系列"壓力測(cè)試",模擬了各種現(xiàn)實(shí)世界中可能遇到的挑戰(zhàn),從而全面評(píng)估系統(tǒng)的適應(yīng)能力和穩(wěn)定性。

三大核心組件詳解

### RARE-Met:精確衡量RAG系統(tǒng)魯棒性的量化標(biāo)準(zhǔn)

RARE-Met定義了一個(gè)魯棒的RAG系統(tǒng)應(yīng)該具備的兩大能力:一是當(dāng)系統(tǒng)擁有內(nèi)部知識(shí)(無(wú)需檢索就能回答正確)時(shí),無(wú)論檢索結(jié)果如何(正確、錯(cuò)誤或無(wú)關(guān)),系統(tǒng)都應(yīng)該始終回答正確;二是當(dāng)系統(tǒng)缺乏相關(guān)內(nèi)部知識(shí)時(shí),應(yīng)該能夠在給予正確檢索信息的情況下回答正確,或者在無(wú)法獲得正確信息時(shí)明確表示不知道,而不是提供幻覺(jué)的答案。

基于這個(gè)定義,RARE-Met引入了三類擾動(dòng)測(cè)試:

首先是查詢擾動(dòng),包括表面級(jí)擾動(dòng)(如字符級(jí)和詞級(jí)錯(cuò)誤,例如拼寫錯(cuò)誤、同義詞替換)和高級(jí)擾動(dòng)(如基于大語(yǔ)言模型的語(yǔ)法變化和無(wú)關(guān)信息添加)。

其次是文檔擾動(dòng),主要考慮兩個(gè)方面:詞匯相關(guān)性和答案相關(guān)性。研究團(tuán)隊(duì)定義了三種文檔擾動(dòng):詞匯相似但答案不同(從真實(shí)文本塊中刪除答案句子/詞匯);詞匯不同但答案相似/相同(基于大語(yǔ)言模型的回譯);以及真實(shí)世界檢索結(jié)果(構(gòu)建真實(shí)世界模擬檢索過(guò)程)。

最后是魯棒性指標(biāo)的計(jì)算,包括總體魯棒性(所有查詢和文檔擾動(dòng)的笛卡爾積上的評(píng)估)、查詢魯棒性(固定真實(shí)文檔,變化查詢擾動(dòng))、文檔魯棒性(固定原始查詢,變化文檔擾動(dòng))和真實(shí)世界檢索魯棒性(原始查詢對(duì)不同嵌入模型返回的多樣文檔集的評(píng)估)。

這套評(píng)估體系就像是對(duì)RAG系統(tǒng)進(jìn)行的全面體檢,從各個(gè)角度檢測(cè)系統(tǒng)在面對(duì)不同類型干擾時(shí)的"免疫力"。

### RARE-Get:自動(dòng)生成高質(zhì)量評(píng)估數(shù)據(jù)的智能引擎

創(chuàng)建高質(zhì)量的RAG基準(zhǔn)數(shù)據(jù)集一直是個(gè)挑戰(zhàn),特別是對(duì)于專業(yè)領(lǐng)域和多跳推理場(chǎng)景,通常需要大量的人力和領(lǐng)域?qū)I(yè)知識(shí)。為解決這個(gè)問(wèn)題,研究團(tuán)隊(duì)開發(fā)了RARE-Get,這是一個(gè)全自動(dòng)的管道,能夠?yàn)轭I(lǐng)域語(yǔ)料庫(kù)構(gòu)建復(fù)雜的RAG基準(zhǔn)。

RARE-Get通過(guò)四個(gè)關(guān)鍵階段轉(zhuǎn)換領(lǐng)域特定文檔為全面的基準(zhǔn)數(shù)據(jù)集:

首先是構(gòu)建真實(shí)文本塊,將文檔處理成約600個(gè)標(biāo)記的可管理塊,平衡信息量和檢索效率。對(duì)于表格,確保單個(gè)表格不會(huì)跨不同塊分割;對(duì)于純文本內(nèi)容,確保段落完整性。

其次是知識(shí)圖譜提取,利用GPT-4.1等大語(yǔ)言模型從連續(xù)文本塊中提取結(jié)構(gòu)化三元組,并使用E5-Mistral-7B-Instruct等先進(jìn)嵌入模型標(biāo)準(zhǔn)化語(yǔ)義相似的關(guān)系。

第三是查詢模式識(shí)別,通過(guò)系統(tǒng)遍歷構(gòu)建的知識(shí)圖譜,識(shí)別一種單跳和三種多跳結(jié)構(gòu)模式作為生成查詢的模板:?jiǎn)翁J讲蹲絻蓚€(gè)實(shí)體之間的直接關(guān)系;鏈?zhǔn)蕉嗵J阶R(shí)別2-3個(gè)連續(xù)關(guān)聯(lián)的三元組;星形多跳模式捕捉中心實(shí)體連接到多個(gè)其他實(shí)體的情況;以及反星形多跳模式識(shí)別多個(gè)不同實(shí)體關(guān)聯(lián)到同一實(shí)體的情況。

最后是查詢生成和質(zhì)量保證,使用特定模式的提示生成基于三元組信息的問(wèn)答對(duì),并實(shí)施嚴(yán)格的質(zhì)量評(píng)估,評(píng)分每個(gè)問(wèn)答對(duì)的合理性、清晰度和正確性,只有在所有維度得分超過(guò)3(滿分5)的查詢才會(huì)被納入最終基準(zhǔn)。

這個(gè)過(guò)程就像是一個(gè)自動(dòng)運(yùn)作的"問(wèn)題工廠",能夠從專業(yè)文檔中提取知識(shí),并將其轉(zhuǎn)化為各種復(fù)雜程度的高質(zhì)量問(wèn)題,大大提高了創(chuàng)建專業(yè)評(píng)估數(shù)據(jù)集的效率。

### RARE-Set:時(shí)間敏感的專業(yè)領(lǐng)域大規(guī)模數(shù)據(jù)集

基于RARE-Get的強(qiáng)大能力,研究團(tuán)隊(duì)構(gòu)建了RARE-Set,這是一個(gè)包含三個(gè)不同領(lǐng)域數(shù)據(jù)集的大規(guī)模集合:金融、經(jīng)濟(jì)和政策。他們收集了一個(gè)異構(gòu)語(yǔ)料庫(kù),包括150份最近的標(biāo)準(zhǔn)普爾500公司SEC 10-k申報(bào)文件、114份經(jīng)合組織經(jīng)濟(jì)調(diào)查以及214份美國(guó)住房和城市發(fā)展部(HUD)資助項(xiàng)目的綜合年度績(jī)效評(píng)估報(bào)告(CAPER)。

為了提高數(shù)據(jù)集質(zhì)量,研究團(tuán)隊(duì)采用了多種處理技術(shù)。對(duì)于金融報(bào)告,他們基于Edgar-Crawler進(jìn)行預(yù)處理,將表格轉(zhuǎn)換為針對(duì)大語(yǔ)言模型輸入優(yōu)化的markdown結(jié)構(gòu),并在金融文檔的知識(shí)圖譜提取中,優(yōu)先考慮涉及績(jī)效指標(biāo)、運(yùn)營(yíng)活動(dòng)和財(cái)務(wù)事件的關(guān)系,重點(diǎn)是可以跨同一行業(yè)的公司應(yīng)用的通用和可重用關(guān)系。對(duì)于經(jīng)濟(jì)調(diào)查,他們?cè)O(shè)計(jì)提示以強(qiáng)調(diào)政策措施、關(guān)鍵經(jīng)濟(jì)指標(biāo)和國(guó)家發(fā)展模式。在政策報(bào)告方面,他們關(guān)注資金分配、項(xiàng)目實(shí)施和受益人數(shù)據(jù)。

最終構(gòu)建的基準(zhǔn)包含單跳查詢和基于知識(shí)圖譜中不同知識(shí)模式的三種多跳查詢。值得一提的是,所有這些數(shù)據(jù)集都是時(shí)間敏感的,可以隨著時(shí)間推移動(dòng)態(tài)擴(kuò)展。

這個(gè)數(shù)據(jù)集就像是為RAG系統(tǒng)準(zhǔn)備的一套"模擬考試題",不僅涵蓋了多個(gè)專業(yè)領(lǐng)域的知識(shí),還能隨著現(xiàn)實(shí)世界信息的更新而不斷演化,確保評(píng)估始終與最新情況保持一致。

實(shí)驗(yàn)與分析:揭示RAG系統(tǒng)的魯棒性表現(xiàn)

研究團(tuán)隊(duì)在RARE-Set上進(jìn)行了廣泛的實(shí)驗(yàn),測(cè)試了不同RAG系統(tǒng)在面對(duì)各種擾動(dòng)時(shí)的魯棒性表現(xiàn)。實(shí)驗(yàn)設(shè)置非常全面,包括對(duì)6000個(gè)問(wèn)答對(duì)(三個(gè)領(lǐng)域各1000個(gè)單跳和1000個(gè)多跳問(wèn)題)的評(píng)估。

在檢索方面,他們使用了MTEB排行榜上排名前三的嵌入模型:E5-Large-Instruct、Jina-Embedding-v3和Stella-En-1.5B-v5。對(duì)于RAG系統(tǒng)的生成器,他們測(cè)試了領(lǐng)先的開源大語(yǔ)言模型(Qwen 3和Llama 3系列)以及通過(guò)API訪問(wèn)的閉源GPT模型。所有生成器都以確定性方式運(yùn)行(溫度=0),最大輸出長(zhǎng)度為1024個(gè)標(biāo)記。

為了衡量RAG系統(tǒng)生成答案與真實(shí)答案之間的差異,研究團(tuán)隊(duì)創(chuàng)建了一個(gè)兩階段評(píng)估器:首先,它對(duì)兩個(gè)字符串進(jìn)行標(biāo)準(zhǔn)化并檢查完全匹配或子字符串匹配;如果沒(méi)有找到詞匯匹配,則使用E5-Mistral-7B-Instruct計(jì)算兩個(gè)文本的句子嵌入表示之間的余弦相似度,當(dāng)相似度超過(guò)0.9時(shí),預(yù)測(cè)被標(biāo)記為正確。這種混合標(biāo)準(zhǔn)既捕捉了逐字匹配的答案,也能識(shí)別語(yǔ)義等價(jià)的回答,同時(shí)對(duì)輕微的改述保持穩(wěn)健。

### 總體模型表現(xiàn)

實(shí)驗(yàn)結(jié)果顯示,大型模型通常表現(xiàn)出更優(yōu)越的魯棒性。例如,Qwen3-14B的魯棒性得分超過(guò)了較小的Qwen3-8B和Qwen3-4B模型。類似的,70億參數(shù)的Llama3-70B表現(xiàn)明顯好于Llama3-8B。

然而,模型大小并不總是決定魯棒性的唯一因素。例如,Qwen3-32B的總體魯棒性得分低于較小的Qwen3-14B模型,GPT-4.1-mini也被更小的GPT-4.1-nano超越。在所有實(shí)驗(yàn)中,Qwen 3系列一直表現(xiàn)出優(yōu)越的魯棒性,甚至Qwen3-8B也超過(guò)了大得多的Llama-3.1-70B。這些發(fā)現(xiàn)強(qiáng)調(diào)了架構(gòu)設(shè)計(jì)和訓(xùn)練方法的決定性作用。

就像是在測(cè)試汽車的越野能力時(shí),并不是車身越大就越強(qiáng)——引擎設(shè)計(jì)、底盤結(jié)構(gòu)和輪胎質(zhì)量往往比單純的尺寸更重要。

### 領(lǐng)域特定和多跳問(wèn)題的魯棒性

不同領(lǐng)域間的顯著性能差異表明,RAG系統(tǒng)的魯棒性受到領(lǐng)域特定因素的強(qiáng)烈影響。這些系統(tǒng)在金融報(bào)告上表現(xiàn)最佳,這類報(bào)告通常具有標(biāo)準(zhǔn)化的術(shù)語(yǔ)和數(shù)值數(shù)據(jù)。然而,它們?cè)诮?jīng)濟(jì)調(diào)查上遇到最大困難,這類調(diào)查通常涉及復(fù)雜的因果關(guān)系和多樣化的術(shù)語(yǔ)。

此外,單跳查詢?cè)诖蠖鄶?shù)領(lǐng)域和擾動(dòng)類型下一致地產(chǎn)生更高的魯棒性得分,相比于多跳查詢。這種趨勢(shì)在較小的模型中更為明顯,表明維持多跳推理能力在擾動(dòng)條件下需要大量的模型容量。

這就像是讓一個(gè)人在熟悉的城市和陌生的城市分別導(dǎo)航——即使是經(jīng)驗(yàn)豐富的向?qū)?,在不熟悉的環(huán)境中也更容易迷路,特別是當(dāng)路標(biāo)模糊不清或地圖有錯(cuò)誤時(shí)。同樣,當(dāng)需要連接多個(gè)信息點(diǎn)(多跳推理)時(shí),即使是強(qiáng)大的模型也會(huì)因?yàn)槿魏我粋€(gè)環(huán)節(jié)的干擾而出錯(cuò)。

### 查詢與文檔擾動(dòng)的影響

實(shí)驗(yàn)結(jié)果表明,RAG系統(tǒng)對(duì)不同類型的擾動(dòng)有著不同程度的敏感性。文檔擾動(dòng)對(duì)RAG系統(tǒng)的魯棒性產(chǎn)生了顯著影響,所有類型的文檔擾動(dòng)相比原始真實(shí)文檔結(jié)果都顯示出明顯的下降。RAG系統(tǒng)在提供的文檔不包含正確答案時(shí),難以準(zhǔn)確利用其內(nèi)部知識(shí)(或拒絕回答)。

相比之下,查詢擾動(dòng)對(duì)RAG系統(tǒng)的魯棒性影響相對(duì)較小。在各種類型的查詢擾動(dòng)中,詞級(jí)擾動(dòng)對(duì)魯棒性的影響明顯大于其他形式。

這種現(xiàn)象就像是我們?cè)讷@取信息時(shí)面臨的不同挑戰(zhàn):如果我們的問(wèn)題表述有點(diǎn)不清晰(查詢擾動(dòng)),但參考資料準(zhǔn)確無(wú)誤(無(wú)文檔擾動(dòng)),我們通常還能找到正確答案;但如果參考資料本身有誤或不完整(文檔擾動(dòng)),即使我們問(wèn)題表述得再清晰,也難以獲得準(zhǔn)確信息。

主要發(fā)現(xiàn)與啟示

通過(guò)RARE框架的全面評(píng)估,研究團(tuán)隊(duì)得出了幾個(gè)關(guān)鍵發(fā)現(xiàn):

首先,RAG系統(tǒng)在文檔擾動(dòng)下非常脆弱,無(wú)論生成器的大小或架構(gòu)如何。這表明,即使是最先進(jìn)的RAG系統(tǒng)也難以在面對(duì)不完美或矛盾的檢索結(jié)果時(shí)保持準(zhǔn)確性。

其次,魯棒性得分并不總是嚴(yán)格隨模型大小增加而提高。某些中型生成器的表現(xiàn)優(yōu)于幾個(gè)更大的同類產(chǎn)品,這表明架構(gòu)設(shè)計(jì)和訓(xùn)練方法對(duì)魯棒性的影響可能比純粹的參數(shù)數(shù)量更重要。

第三,RAG系統(tǒng)在不同領(lǐng)域的魯棒性存在差異,金融領(lǐng)域表現(xiàn)最好,而經(jīng)濟(jì)領(lǐng)域最差。這可能與不同領(lǐng)域文檔的結(jié)構(gòu)化程度、術(shù)語(yǔ)的標(biāo)準(zhǔn)化程度以及信息的復(fù)雜性有關(guān)。

最后,多跳查詢的魯棒性一致低于單跳查詢,這表明當(dāng)需要跨多個(gè)文檔或信息片段進(jìn)行推理時(shí),RAG系統(tǒng)更容易受到擾動(dòng)的影響。

這些發(fā)現(xiàn)突顯了評(píng)估和改進(jìn)RAG系統(tǒng)魯棒性的重要性,特別是在現(xiàn)實(shí)世界應(yīng)用中,系統(tǒng)經(jīng)常需要處理噪聲查詢、不完美文檔和復(fù)雜推理任務(wù)。

結(jié)語(yǔ):通向更可靠RAG系統(tǒng)的道路

RARE框架的提出為檢索增強(qiáng)生成系統(tǒng)的評(píng)估開辟了新的視角,從檢索感知的魯棒性角度全面測(cè)試系統(tǒng)在面對(duì)現(xiàn)實(shí)世界挑戰(zhàn)時(shí)的表現(xiàn)。這項(xiàng)研究不僅提供了一套完整的評(píng)估方法,還創(chuàng)建了一個(gè)能夠自動(dòng)生成高質(zhì)量評(píng)估數(shù)據(jù)的管道和一個(gè)涵蓋多個(gè)專業(yè)領(lǐng)域的大規(guī)模基準(zhǔn)數(shù)據(jù)集。

實(shí)驗(yàn)結(jié)果揭示了當(dāng)前RAG系統(tǒng)在魯棒性方面的局限性,特別是在處理文檔擾動(dòng)和多跳推理任務(wù)時(shí)。這些發(fā)現(xiàn)為未來(lái)的研究和開發(fā)提供了明確的方向,指引我們朝著構(gòu)建更加魯棒、可靠的RAG系統(tǒng)邁進(jìn)。

就像是為自動(dòng)駕駛汽車設(shè)計(jì)更全面的測(cè)試場(chǎng)景,幫助開發(fā)者了解系統(tǒng)在各種極端條件下的表現(xiàn),從而不斷改進(jìn)技術(shù),最終實(shí)現(xiàn)在任何天氣、任何路況下都能安全駕駛的目標(biāo)。同樣,RARE框架的貢獻(xiàn)在于幫助我們構(gòu)建能夠在嘈雜、復(fù)雜、不斷變化的現(xiàn)實(shí)世界中可靠運(yùn)作的RAG系統(tǒng)。

對(duì)于希望深入了解這項(xiàng)研究的讀者,完整論文已在GitHub和HuggingFace上發(fā)布,包含代碼和完整數(shù)據(jù)集。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-