av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見(jiàn)證連接與計(jì)算的「力量」

首頁(yè) 修復(fù)"傷害"模型表現(xiàn)的數(shù)據(jù):級(jí)聯(lián)LLM技術(shù)重標(biāo)注負(fù)面樣本,提升信息檢索的穩(wěn)健性

修復(fù)"傷害"模型表現(xiàn)的數(shù)據(jù):級(jí)聯(lián)LLM技術(shù)重標(biāo)注負(fù)面樣本,提升信息檢索的穩(wěn)健性

2025-05-28 19:54
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-28 19:54 ? 科技行者

本篇研究來(lái)自加拿大滑鐵盧大學(xué)大衛(wèi)·R·切里頓計(jì)算機(jī)科學(xué)學(xué)院的Nandan Thakur、Crystina Zhang(兩位為共同第一作者)、Xueguang Ma和Jimmy Lin團(tuán)隊(duì),發(fā)表于2025年5月22日的arXiv預(yù)印本(arXiv:2505.16967v1)。研究代碼已在GitHub上開(kāi)源(https://github.com/castorini/rlhn),數(shù)據(jù)集可在Hugging Face上獲?。╤ttps://huggingface.co/rlhn)。感興趣的讀者可通過(guò)這些鏈接獲取更多技術(shù)細(xì)節(jié)。

一、研究背景:并非所有訓(xùn)練數(shù)據(jù)都能提升模型表現(xiàn)

想象一下,你在裝修房子時(shí)發(fā)現(xiàn)有些材料不但沒(méi)有提升房子的質(zhì)量,反而讓整體結(jié)構(gòu)變得脆弱。在信息檢索領(lǐng)域,研究人員也發(fā)現(xiàn)了類似的問(wèn)題——訓(xùn)練數(shù)據(jù)集中存在"有害"的部分,反而會(huì)損害模型的表現(xiàn)。

這項(xiàng)研究的起點(diǎn)非常有趣。研究團(tuán)隊(duì)在使用大規(guī)模數(shù)據(jù)集訓(xùn)練檢索和重排模型時(shí)發(fā)現(xiàn),某些數(shù)據(jù)集實(shí)際上會(huì)損害模型的效果。例如,BGE集合包含了來(lái)自不同來(lái)源的160萬(wàn)個(gè)查詢-段落對(duì),但研究人員發(fā)現(xiàn)從中移除15個(gè)數(shù)據(jù)集中的8個(gè)(刪除了約57.5%的數(shù)據(jù)),不但沒(méi)有降低模型效果,反而在BEIR基準(zhǔn)測(cè)試上將nDCG@10分?jǐn)?shù)提高了1.0點(diǎn)。

這個(gè)發(fā)現(xiàn)挑戰(zhàn)了"更多數(shù)據(jù)總是更好"的常見(jiàn)觀念。想象你正在做一鍋湯,但加入某些特定的調(diào)料后,湯的味道不升反降。這種情況促使研究人員更深入地研究訓(xùn)練數(shù)據(jù)的質(zhì)量,特別是"假負(fù)樣本"(false negatives)問(wèn)題——一些實(shí)際上與查詢相關(guān)的段落被錯(cuò)誤地標(biāo)記為不相關(guān)。

二、"假負(fù)樣本":好數(shù)據(jù)被錯(cuò)誤地歸為反例

什么是假負(fù)樣本?想象你在尋找關(guān)于"野獸過(guò)山車"的信息,數(shù)據(jù)集中已經(jīng)標(biāo)記了一個(gè)描述加拿大奇幻樂(lè)園中野獸過(guò)山車的段落為相關(guān)內(nèi)容。但同時(shí),還有一個(gè)描述"Splash Works是加拿大奇幻樂(lè)園內(nèi)20英畝大的水上樂(lè)園"的段落被錯(cuò)誤地標(biāo)為不相關(guān)。實(shí)際上,這個(gè)段落也包含了回答問(wèn)題所需的關(guān)鍵信息(即水上樂(lè)園也在同一個(gè)公園內(nèi)),卻被歸類為"負(fù)樣本"。這就是一個(gè)典型的假負(fù)樣本。

這類錯(cuò)誤在稀疏標(biāo)注的數(shù)據(jù)集中尤為常見(jiàn)。比如,在MS MARCO和NQ等數(shù)據(jù)集中,評(píng)估者通常只會(huì)標(biāo)記少量真正相關(guān)的段落,而其余大量未標(biāo)記的段落則被默認(rèn)為不相關(guān)。這種簡(jiǎn)化的標(biāo)注方式導(dǎo)致了大量的假負(fù)樣本混入訓(xùn)練數(shù)據(jù)。

過(guò)去的研究已經(jīng)注意到這個(gè)問(wèn)題:Qu等人(2021年)嘗試通過(guò)知識(shí)蒸餾來(lái)緩解;Moreira等人(2024年)則基于相關(guān)性分?jǐn)?shù)過(guò)濾潛在的假負(fù)樣本。但這些方法沒(méi)有直接處理假負(fù)樣本數(shù)據(jù)。前者假設(shè)交叉編碼器比檢索模型對(duì)假負(fù)樣本更魯棒,但并沒(méi)有移除假負(fù)樣本本身;后者假設(shè)假負(fù)樣本的相關(guān)性分?jǐn)?shù)系統(tǒng)性地高于95%的正樣本分?jǐn)?shù),但沒(méi)有考慮數(shù)據(jù)樣本層面的差異。

三、RLHN:一種有效的假負(fù)樣本重標(biāo)注方法

研究團(tuán)隊(duì)提出了一種名為RLHN(ReLabeling Hard Negatives,重標(biāo)注硬負(fù)樣本)的簡(jiǎn)單而有效的方法,利用級(jí)聯(lián)大語(yǔ)言模型(LLM)來(lái)識(shí)別和重新標(biāo)注假負(fù)樣本。這就像請(qǐng)兩位專家依次檢查食材的質(zhì)量:第一位專家負(fù)責(zé)初篩,第二位專家對(duì)有疑問(wèn)的食材進(jìn)行更精確的鑒定。

具體來(lái)說(shuō),RLHN分為兩個(gè)主要階段:

首先,他們使用成本較低的GPT-4o-mini對(duì)所有訓(xùn)練樣本中的硬負(fù)樣本進(jìn)行掃描,識(shí)別潛在的假負(fù)樣本。這相當(dāng)于請(qǐng)一位經(jīng)驗(yàn)豐富但收費(fèi)較低的品鑒師先對(duì)所有食材進(jìn)行初步篩選,標(biāo)記出那些可能有問(wèn)題的部分。

然后,對(duì)于被初步識(shí)別為假負(fù)樣本的部分,他們使用更可靠(但也更昂貴)的GPT-4o進(jìn)行第二輪評(píng)估和重新標(biāo)注。這就像請(qǐng)一位頂級(jí)專家對(duì)已經(jīng)被初步篩選出的食材進(jìn)行更專業(yè)的鑒定,確保判斷準(zhǔn)確無(wú)誤。

研究團(tuán)隊(duì)分析了BGE訓(xùn)練集合中的七個(gè)精選數(shù)據(jù)集,發(fā)現(xiàn)MS MARCO中高達(dá)56%的訓(xùn)練對(duì)可能含有假負(fù)樣本,而SCIDOCSRR中這一比例最低,約為3%。在所有檢測(cè)到的假負(fù)樣本對(duì)中,58%只包含一個(gè)假負(fù)樣本,19%包含兩個(gè)假負(fù)樣本,不到1%包含八個(gè)或更多假負(fù)樣本。

識(shí)別出假負(fù)樣本后,研究團(tuán)隊(duì)嘗試了三種不同的處理方法: 1. 完全移除:丟棄包含假負(fù)樣本的整個(gè)訓(xùn)練實(shí)例 2. 移除假負(fù)樣本:僅從硬負(fù)樣本集合中移除假負(fù)樣本,保留其余部分 3. RLHN重標(biāo)注:將假負(fù)樣本重新標(biāo)注為真實(shí)相關(guān)內(nèi)容(即正樣本)

這就像處理一籃子水果時(shí),你可以選擇:扔掉整籃有問(wèn)題的水果(方法1),只挑出壞掉的水果(方法2),或者重新分類那些被錯(cuò)誤歸類的好水果(方法3)。

四、實(shí)驗(yàn)設(shè)置:全面評(píng)估重標(biāo)注效果

研究團(tuán)隊(duì)使用了多種基準(zhǔn)測(cè)試和模型來(lái)評(píng)估RLHN的效果。

他們首先從BGE訓(xùn)練集合中選擇了七個(gè)經(jīng)過(guò)精心篩選的數(shù)據(jù)集,包括MS MARCO、HOTPOTQA、NQ、FEVER、SCIDOCSRR、FIQA-2018和ARGUANA,總計(jì)約68萬(wàn)訓(xùn)練對(duì)。這比原始的160萬(wàn)訓(xùn)練對(duì)減少了約2.35倍。

在模型選擇方面,他們使用了兩種類型的檢索器模型: 1. E5 (base):一個(gè)基于BERT的編碼器模型,包含1.1億參數(shù) 2. Qwen2.5-7B:一個(gè)基于LLM的解碼器模型,包含76.1億參數(shù)

此外,他們還使用Qwen2.5-3B作為重排模型。

評(píng)估基準(zhǔn)包括: 1. BEIR:一個(gè)包含16個(gè)人工構(gòu)建數(shù)據(jù)集的基準(zhǔn)測(cè)試 2. AIR-BENCH:一個(gè)由LLM自動(dòng)生成的零樣本評(píng)估基準(zhǔn),包括英文的五個(gè)特定領(lǐng)域:Arxiv、Finance、Healthcare、Law和News

所有模型評(píng)估均使用nDCG@10(歸一化折扣累積增益@10)作為主要指標(biāo),這是信息檢索領(lǐng)域常用的評(píng)估指標(biāo),衡量模型在返回前10個(gè)結(jié)果時(shí)的排序質(zhì)量。

五、實(shí)驗(yàn)結(jié)果:重標(biāo)注顯著提升模型性能

研究的結(jié)果令人印象深刻,清晰地表明了數(shù)據(jù)質(zhì)量對(duì)模型表現(xiàn)的巨大影響。

首先,在數(shù)據(jù)集篩選實(shí)驗(yàn)中,研究人員發(fā)現(xiàn)從BGE訓(xùn)練集合中移除8個(gè)數(shù)據(jù)集后(僅保留7個(gè)核心數(shù)據(jù)集),E5 (base)模型在BEIR上的平均nDCG@10從0.519提升到0.529。這相當(dāng)于在減少2.35倍訓(xùn)練數(shù)據(jù)量的同時(shí),提高了模型性能。

更重要的是,RLHN方法在所有實(shí)驗(yàn)中都表現(xiàn)出色:

在BEIR基準(zhǔn)測(cè)試中,RLHN處理后的數(shù)據(jù)訓(xùn)練出的E5 (base)和Qwen2.5-7B模型分別達(dá)到0.515和0.518的平均nDCG@10,比默認(rèn)設(shè)置分別提高了0.7和1.4點(diǎn)。這種提升在7個(gè)域外(out-of-domain)數(shù)據(jù)集上尤為明顯,RLHN(第二階段)比默認(rèn)設(shè)置分別提高了3.2點(diǎn)和2.1點(diǎn)。

在AIR-BENCH零樣本評(píng)估中,RLHN同樣帶來(lái)了顯著提升。第一階段RLHN提高了1.1點(diǎn)nDCG@10,第二階段進(jìn)一步提高到2.1點(diǎn)nDCG@10。

重排模型的結(jié)果也很有說(shuō)服力。在BEIR上,使用RLHN處理后的數(shù)據(jù)訓(xùn)練的Qwen2.5-3B重排模型的nDCG@10分?jǐn)?shù)逐步提高了0.5點(diǎn)和0.8點(diǎn)。這種提升在7個(gè)域外數(shù)據(jù)集上更為顯著,分別提高了1.0點(diǎn)和1.8點(diǎn)。

研究人員注意到,重排模型相對(duì)于檢索模型,對(duì)假負(fù)樣本數(shù)據(jù)的魯棒性稍強(qiáng)。但即使如此,使用高質(zhì)量訓(xùn)練數(shù)據(jù)仍然能顯著提升重排模型的效果,尤其是在泛化到未見(jiàn)過(guò)的領(lǐng)域時(shí)。

六、人類驗(yàn)證:確認(rèn)LLM判斷的可靠性

為了驗(yàn)證LLM判斷的準(zhǔn)確性,研究團(tuán)隊(duì)邀請(qǐng)了三位人類評(píng)估者對(duì)670個(gè)隨機(jī)抽樣的查詢-硬負(fù)樣本對(duì)進(jìn)行標(biāo)注。評(píng)估者在Label Studio平臺(tái)上獨(dú)立工作,不知道LLM的預(yù)測(cè)結(jié)果。

結(jié)果表明,GPT-4o的判斷與人類評(píng)估者的一致性(用Cohen's Kappa系數(shù)衡量)比GPT-4o-mini高出約10個(gè)百分點(diǎn)(0.390 vs 0.320)。這印證了使用更強(qiáng)大的LLM作為最終判斷者的合理性,也證實(shí)了級(jí)聯(lián)設(shè)計(jì)的有效性。

七、假負(fù)樣本的類型分析

通過(guò)人工檢查一些訓(xùn)練實(shí)例,研究團(tuán)隊(duì)發(fā)現(xiàn)了幾種不同類型的假負(fù)樣本:

1. 錯(cuò)誤標(biāo)注的不相關(guān)內(nèi)容:有些被檢測(cè)為假負(fù)樣本的段落實(shí)際上與查詢無(wú)關(guān)。例如,對(duì)于詢問(wèn)"哪個(gè)是美食雜志,Latin Mass Magazine還是Saveur?"的問(wèn)題,被檢測(cè)為假負(fù)樣本的Food & Wine和Cocina雜志實(shí)際上都是美食雜志,但與原問(wèn)題無(wú)關(guān)。

2. 可能存在的錯(cuò)誤標(biāo)注:在少數(shù)情況下,真實(shí)標(biāo)注的段落可能包含與假負(fù)樣本矛盾的信息。例如,關(guān)于"職業(yè)冰球聯(lián)盟成立于哪一年"的查詢,真實(shí)標(biāo)注段落提到1997年,但假負(fù)樣本中提到的1917年才是正確答案。

3. 過(guò)于寬泛或模糊的查詢:在MS MARCO中,很多訓(xùn)練查詢本身就比較模糊,導(dǎo)致多個(gè)段落都可能相關(guān)。例如"yin and yang的含義"這樣的查詢,多個(gè)段落都能正確解釋其含義,只是角度不同。

4. 部分正確的假負(fù)樣本:并非所有被檢測(cè)為假負(fù)樣本的段落都完全相關(guān)。例如,對(duì)于"查爾斯王子是多個(gè)組織的贊助人"的查詢,一些假負(fù)樣本可能只部分相關(guān)。

這些分析為未來(lái)改進(jìn)數(shù)據(jù)標(biāo)注和篩選方法提供了寶貴的見(jiàn)解。

八、研究結(jié)論與意義

這項(xiàng)研究最重要的發(fā)現(xiàn)是,大量訓(xùn)練數(shù)據(jù)并不總是意味著更好的模型表現(xiàn)。相反,精心篩選和清理訓(xùn)練數(shù)據(jù)可以在顯著減少數(shù)據(jù)量的同時(shí)提高模型效果。這就像烹飪一樣,使用少量但高質(zhì)量的食材往往比堆砌大量平庸的食材更能做出美味佳肴。

RLHN方法提供了一種簡(jiǎn)單有效的方式來(lái)識(shí)別和重新標(biāo)注訓(xùn)練數(shù)據(jù)中的假負(fù)樣本,從而提高數(shù)據(jù)質(zhì)量。這種方法不需要對(duì)模型架構(gòu)或訓(xùn)練過(guò)程進(jìn)行任何修改,只需要改進(jìn)訓(xùn)練數(shù)據(jù)本身,就能顯著提升模型在各種基準(zhǔn)測(cè)試上的表現(xiàn),尤其是在泛化到未見(jiàn)過(guò)的領(lǐng)域時(shí)。

研究團(tuán)隊(duì)已經(jīng)發(fā)布了經(jīng)過(guò)處理的訓(xùn)練數(shù)據(jù)集和代碼,方便社區(qū)進(jìn)一步研究和應(yīng)用。他們計(jì)劃繼續(xù)清理其他流行的訓(xùn)練數(shù)據(jù)集,以促進(jìn)高質(zhì)量訓(xùn)練數(shù)據(jù)在檢索和重排模型訓(xùn)練中的應(yīng)用。

對(duì)于普通用戶和開(kāi)發(fā)者來(lái)說(shuō),這項(xiàng)研究提醒我們,在追求大規(guī)模數(shù)據(jù)的同時(shí),也要注重?cái)?shù)據(jù)質(zhì)量。在信息檢索領(lǐng)域,正確標(biāo)注的訓(xùn)練數(shù)據(jù)對(duì)于構(gòu)建準(zhǔn)確、高效的搜索系統(tǒng)至關(guān)重要。通過(guò)識(shí)別和修正假負(fù)樣本,我們可以構(gòu)建更加魯棒和準(zhǔn)確的信息檢索系統(tǒng),最終為用戶提供更高質(zhì)量的搜索體驗(yàn)。

總之,這項(xiàng)研究向我們展示了"數(shù)據(jù)質(zhì)量勝于數(shù)量"的重要性,以及如何利用現(xiàn)代大語(yǔ)言模型技術(shù)來(lái)提升數(shù)據(jù)質(zhì)量,從而構(gòu)建更好的信息檢索系統(tǒng)。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-