本篇研究來自加拿大滑鐵盧大學(xué)大衛(wèi)·R·切里頓計(jì)算機(jī)科學(xué)學(xué)院的Nandan Thakur、Crystina Zhang(兩位為共同第一作者)、Xueguang Ma和Jimmy Lin團(tuán)隊(duì),發(fā)表于2025年5月22日的arXiv預(yù)印本(arXiv:2505.16967v1)。研究代碼已在GitHub上開源(https://github.com/castorini/rlhn),數(shù)據(jù)集可在Hugging Face上獲?。╤ttps://huggingface.co/rlhn)。感興趣的讀者可通過這些鏈接獲取更多技術(shù)細(xì)節(jié)。
一、研究背景:并非所有訓(xùn)練數(shù)據(jù)都能提升模型表現(xiàn)
想象一下,你在裝修房子時(shí)發(fā)現(xiàn)有些材料不但沒有提升房子的質(zhì)量,反而讓整體結(jié)構(gòu)變得脆弱。在信息檢索領(lǐng)域,研究人員也發(fā)現(xiàn)了類似的問題——訓(xùn)練數(shù)據(jù)集中存在"有害"的部分,反而會(huì)損害模型的表現(xiàn)。
這項(xiàng)研究的起點(diǎn)非常有趣。研究團(tuán)隊(duì)在使用大規(guī)模數(shù)據(jù)集訓(xùn)練檢索和重排模型時(shí)發(fā)現(xiàn),某些數(shù)據(jù)集實(shí)際上會(huì)損害模型的效果。例如,BGE集合包含了來自不同來源的160萬個(gè)查詢-段落對,但研究人員發(fā)現(xiàn)從中移除15個(gè)數(shù)據(jù)集中的8個(gè)(刪除了約57.5%的數(shù)據(jù)),不但沒有降低模型效果,反而在BEIR基準(zhǔn)測試上將nDCG@10分?jǐn)?shù)提高了1.0點(diǎn)。
這個(gè)發(fā)現(xiàn)挑戰(zhàn)了"更多數(shù)據(jù)總是更好"的常見觀念。想象你正在做一鍋湯,但加入某些特定的調(diào)料后,湯的味道不升反降。這種情況促使研究人員更深入地研究訓(xùn)練數(shù)據(jù)的質(zhì)量,特別是"假負(fù)樣本"(false negatives)問題——一些實(shí)際上與查詢相關(guān)的段落被錯(cuò)誤地標(biāo)記為不相關(guān)。
二、"假負(fù)樣本":好數(shù)據(jù)被錯(cuò)誤地歸為反例
什么是假負(fù)樣本?想象你在尋找關(guān)于"野獸過山車"的信息,數(shù)據(jù)集中已經(jīng)標(biāo)記了一個(gè)描述加拿大奇幻樂園中野獸過山車的段落為相關(guān)內(nèi)容。但同時(shí),還有一個(gè)描述"Splash Works是加拿大奇幻樂園內(nèi)20英畝大的水上樂園"的段落被錯(cuò)誤地標(biāo)為不相關(guān)。實(shí)際上,這個(gè)段落也包含了回答問題所需的關(guān)鍵信息(即水上樂園也在同一個(gè)公園內(nèi)),卻被歸類為"負(fù)樣本"。這就是一個(gè)典型的假負(fù)樣本。
這類錯(cuò)誤在稀疏標(biāo)注的數(shù)據(jù)集中尤為常見。比如,在MS MARCO和NQ等數(shù)據(jù)集中,評估者通常只會(huì)標(biāo)記少量真正相關(guān)的段落,而其余大量未標(biāo)記的段落則被默認(rèn)為不相關(guān)。這種簡化的標(biāo)注方式導(dǎo)致了大量的假負(fù)樣本混入訓(xùn)練數(shù)據(jù)。
過去的研究已經(jīng)注意到這個(gè)問題:Qu等人(2021年)嘗試通過知識蒸餾來緩解;Moreira等人(2024年)則基于相關(guān)性分?jǐn)?shù)過濾潛在的假負(fù)樣本。但這些方法沒有直接處理假負(fù)樣本數(shù)據(jù)。前者假設(shè)交叉編碼器比檢索模型對假負(fù)樣本更魯棒,但并沒有移除假負(fù)樣本本身;后者假設(shè)假負(fù)樣本的相關(guān)性分?jǐn)?shù)系統(tǒng)性地高于95%的正樣本分?jǐn)?shù),但沒有考慮數(shù)據(jù)樣本層面的差異。
三、RLHN:一種有效的假負(fù)樣本重標(biāo)注方法
研究團(tuán)隊(duì)提出了一種名為RLHN(ReLabeling Hard Negatives,重標(biāo)注硬負(fù)樣本)的簡單而有效的方法,利用級聯(lián)大語言模型(LLM)來識別和重新標(biāo)注假負(fù)樣本。這就像請兩位專家依次檢查食材的質(zhì)量:第一位專家負(fù)責(zé)初篩,第二位專家對有疑問的食材進(jìn)行更精確的鑒定。
具體來說,RLHN分為兩個(gè)主要階段:
首先,他們使用成本較低的GPT-4o-mini對所有訓(xùn)練樣本中的硬負(fù)樣本進(jìn)行掃描,識別潛在的假負(fù)樣本。這相當(dāng)于請一位經(jīng)驗(yàn)豐富但收費(fèi)較低的品鑒師先對所有食材進(jìn)行初步篩選,標(biāo)記出那些可能有問題的部分。
然后,對于被初步識別為假負(fù)樣本的部分,他們使用更可靠(但也更昂貴)的GPT-4o進(jìn)行第二輪評估和重新標(biāo)注。這就像請一位頂級專家對已經(jīng)被初步篩選出的食材進(jìn)行更專業(yè)的鑒定,確保判斷準(zhǔn)確無誤。
研究團(tuán)隊(duì)分析了BGE訓(xùn)練集合中的七個(gè)精選數(shù)據(jù)集,發(fā)現(xiàn)MS MARCO中高達(dá)56%的訓(xùn)練對可能含有假負(fù)樣本,而SCIDOCSRR中這一比例最低,約為3%。在所有檢測到的假負(fù)樣本對中,58%只包含一個(gè)假負(fù)樣本,19%包含兩個(gè)假負(fù)樣本,不到1%包含八個(gè)或更多假負(fù)樣本。
識別出假負(fù)樣本后,研究團(tuán)隊(duì)嘗試了三種不同的處理方法: 1. 完全移除:丟棄包含假負(fù)樣本的整個(gè)訓(xùn)練實(shí)例 2. 移除假負(fù)樣本:僅從硬負(fù)樣本集合中移除假負(fù)樣本,保留其余部分 3. RLHN重標(biāo)注:將假負(fù)樣本重新標(biāo)注為真實(shí)相關(guān)內(nèi)容(即正樣本)
這就像處理一籃子水果時(shí),你可以選擇:扔掉整籃有問題的水果(方法1),只挑出壞掉的水果(方法2),或者重新分類那些被錯(cuò)誤歸類的好水果(方法3)。
四、實(shí)驗(yàn)設(shè)置:全面評估重標(biāo)注效果
研究團(tuán)隊(duì)使用了多種基準(zhǔn)測試和模型來評估RLHN的效果。
他們首先從BGE訓(xùn)練集合中選擇了七個(gè)經(jīng)過精心篩選的數(shù)據(jù)集,包括MS MARCO、HOTPOTQA、NQ、FEVER、SCIDOCSRR、FIQA-2018和ARGUANA,總計(jì)約68萬訓(xùn)練對。這比原始的160萬訓(xùn)練對減少了約2.35倍。
在模型選擇方面,他們使用了兩種類型的檢索器模型: 1. E5 (base):一個(gè)基于BERT的編碼器模型,包含1.1億參數(shù) 2. Qwen2.5-7B:一個(gè)基于LLM的解碼器模型,包含76.1億參數(shù)
此外,他們還使用Qwen2.5-3B作為重排模型。
評估基準(zhǔn)包括: 1. BEIR:一個(gè)包含16個(gè)人工構(gòu)建數(shù)據(jù)集的基準(zhǔn)測試 2. AIR-BENCH:一個(gè)由LLM自動(dòng)生成的零樣本評估基準(zhǔn),包括英文的五個(gè)特定領(lǐng)域:Arxiv、Finance、Healthcare、Law和News
所有模型評估均使用nDCG@10(歸一化折扣累積增益@10)作為主要指標(biāo),這是信息檢索領(lǐng)域常用的評估指標(biāo),衡量模型在返回前10個(gè)結(jié)果時(shí)的排序質(zhì)量。
五、實(shí)驗(yàn)結(jié)果:重標(biāo)注顯著提升模型性能
研究的結(jié)果令人印象深刻,清晰地表明了數(shù)據(jù)質(zhì)量對模型表現(xiàn)的巨大影響。
首先,在數(shù)據(jù)集篩選實(shí)驗(yàn)中,研究人員發(fā)現(xiàn)從BGE訓(xùn)練集合中移除8個(gè)數(shù)據(jù)集后(僅保留7個(gè)核心數(shù)據(jù)集),E5 (base)模型在BEIR上的平均nDCG@10從0.519提升到0.529。這相當(dāng)于在減少2.35倍訓(xùn)練數(shù)據(jù)量的同時(shí),提高了模型性能。
更重要的是,RLHN方法在所有實(shí)驗(yàn)中都表現(xiàn)出色:
在BEIR基準(zhǔn)測試中,RLHN處理后的數(shù)據(jù)訓(xùn)練出的E5 (base)和Qwen2.5-7B模型分別達(dá)到0.515和0.518的平均nDCG@10,比默認(rèn)設(shè)置分別提高了0.7和1.4點(diǎn)。這種提升在7個(gè)域外(out-of-domain)數(shù)據(jù)集上尤為明顯,RLHN(第二階段)比默認(rèn)設(shè)置分別提高了3.2點(diǎn)和2.1點(diǎn)。
在AIR-BENCH零樣本評估中,RLHN同樣帶來了顯著提升。第一階段RLHN提高了1.1點(diǎn)nDCG@10,第二階段進(jìn)一步提高到2.1點(diǎn)nDCG@10。
重排模型的結(jié)果也很有說服力。在BEIR上,使用RLHN處理后的數(shù)據(jù)訓(xùn)練的Qwen2.5-3B重排模型的nDCG@10分?jǐn)?shù)逐步提高了0.5點(diǎn)和0.8點(diǎn)。這種提升在7個(gè)域外數(shù)據(jù)集上更為顯著,分別提高了1.0點(diǎn)和1.8點(diǎn)。
研究人員注意到,重排模型相對于檢索模型,對假負(fù)樣本數(shù)據(jù)的魯棒性稍強(qiáng)。但即使如此,使用高質(zhì)量訓(xùn)練數(shù)據(jù)仍然能顯著提升重排模型的效果,尤其是在泛化到未見過的領(lǐng)域時(shí)。
六、人類驗(yàn)證:確認(rèn)LLM判斷的可靠性
為了驗(yàn)證LLM判斷的準(zhǔn)確性,研究團(tuán)隊(duì)邀請了三位人類評估者對670個(gè)隨機(jī)抽樣的查詢-硬負(fù)樣本對進(jìn)行標(biāo)注。評估者在Label Studio平臺上獨(dú)立工作,不知道LLM的預(yù)測結(jié)果。
結(jié)果表明,GPT-4o的判斷與人類評估者的一致性(用Cohen's Kappa系數(shù)衡量)比GPT-4o-mini高出約10個(gè)百分點(diǎn)(0.390 vs 0.320)。這印證了使用更強(qiáng)大的LLM作為最終判斷者的合理性,也證實(shí)了級聯(lián)設(shè)計(jì)的有效性。
七、假負(fù)樣本的類型分析
通過人工檢查一些訓(xùn)練實(shí)例,研究團(tuán)隊(duì)發(fā)現(xiàn)了幾種不同類型的假負(fù)樣本:
1. 錯(cuò)誤標(biāo)注的不相關(guān)內(nèi)容:有些被檢測為假負(fù)樣本的段落實(shí)際上與查詢無關(guān)。例如,對于詢問"哪個(gè)是美食雜志,Latin Mass Magazine還是Saveur?"的問題,被檢測為假負(fù)樣本的Food & Wine和Cocina雜志實(shí)際上都是美食雜志,但與原問題無關(guān)。
2. 可能存在的錯(cuò)誤標(biāo)注:在少數(shù)情況下,真實(shí)標(biāo)注的段落可能包含與假負(fù)樣本矛盾的信息。例如,關(guān)于"職業(yè)冰球聯(lián)盟成立于哪一年"的查詢,真實(shí)標(biāo)注段落提到1997年,但假負(fù)樣本中提到的1917年才是正確答案。
3. 過于寬泛或模糊的查詢:在MS MARCO中,很多訓(xùn)練查詢本身就比較模糊,導(dǎo)致多個(gè)段落都可能相關(guān)。例如"yin and yang的含義"這樣的查詢,多個(gè)段落都能正確解釋其含義,只是角度不同。
4. 部分正確的假負(fù)樣本:并非所有被檢測為假負(fù)樣本的段落都完全相關(guān)。例如,對于"查爾斯王子是多個(gè)組織的贊助人"的查詢,一些假負(fù)樣本可能只部分相關(guān)。
這些分析為未來改進(jìn)數(shù)據(jù)標(biāo)注和篩選方法提供了寶貴的見解。
八、研究結(jié)論與意義
這項(xiàng)研究最重要的發(fā)現(xiàn)是,大量訓(xùn)練數(shù)據(jù)并不總是意味著更好的模型表現(xiàn)。相反,精心篩選和清理訓(xùn)練數(shù)據(jù)可以在顯著減少數(shù)據(jù)量的同時(shí)提高模型效果。這就像烹飪一樣,使用少量但高質(zhì)量的食材往往比堆砌大量平庸的食材更能做出美味佳肴。
RLHN方法提供了一種簡單有效的方式來識別和重新標(biāo)注訓(xùn)練數(shù)據(jù)中的假負(fù)樣本,從而提高數(shù)據(jù)質(zhì)量。這種方法不需要對模型架構(gòu)或訓(xùn)練過程進(jìn)行任何修改,只需要改進(jìn)訓(xùn)練數(shù)據(jù)本身,就能顯著提升模型在各種基準(zhǔn)測試上的表現(xiàn),尤其是在泛化到未見過的領(lǐng)域時(shí)。
研究團(tuán)隊(duì)已經(jīng)發(fā)布了經(jīng)過處理的訓(xùn)練數(shù)據(jù)集和代碼,方便社區(qū)進(jìn)一步研究和應(yīng)用。他們計(jì)劃繼續(xù)清理其他流行的訓(xùn)練數(shù)據(jù)集,以促進(jìn)高質(zhì)量訓(xùn)練數(shù)據(jù)在檢索和重排模型訓(xùn)練中的應(yīng)用。
對于普通用戶和開發(fā)者來說,這項(xiàng)研究提醒我們,在追求大規(guī)模數(shù)據(jù)的同時(shí),也要注重?cái)?shù)據(jù)質(zhì)量。在信息檢索領(lǐng)域,正確標(biāo)注的訓(xùn)練數(shù)據(jù)對于構(gòu)建準(zhǔn)確、高效的搜索系統(tǒng)至關(guān)重要。通過識別和修正假負(fù)樣本,我們可以構(gòu)建更加魯棒和準(zhǔn)確的信息檢索系統(tǒng),最終為用戶提供更高質(zhì)量的搜索體驗(yàn)。
總之,這項(xiàng)研究向我們展示了"數(shù)據(jù)質(zhì)量勝于數(shù)量"的重要性,以及如何利用現(xiàn)代大語言模型技術(shù)來提升數(shù)據(jù)質(zhì)量,從而構(gòu)建更好的信息檢索系統(tǒng)。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。