av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 當上下文成為金子:上下文文檔嵌入模型的評估與訓練

當上下文成為金子:上下文文檔嵌入模型的評估與訓練

2025-06-05 09:34
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-05 09:34 ? 科技行者

這項研究來自由Illuin Technology、Equall.ai、CentraleSupélec和EPFL洛桑的聯(lián)合團隊,由Max Conti、Manuel Faysse、Gautier Viaud、Antoine Bosselut、Céline Hudelot和Pierre Colombo共同完成,發(fā)表于2025年5月30日的arXiv預印本平臺(arXiv:2505.24782v1)。對于想深入了解的讀者,可通過GitHub(https://github.com/illuin-tech/contextual-embeddings)獲取完整研究材料。

一、研究背景:為何文檔上下文如此重要?

想象一下,你正在閱讀一本厚重的百科全書,尋找關于拿破侖的信息。突然,你看到一個孤立的句子:"他在1804年成為皇帝。"沒有任何背景信息,你根本無法確定這個"他"是誰。這正是現(xiàn)代文檔檢索系統(tǒng)面臨的一個核心問題。

當今,從醫(yī)療記錄到法律文件,再到大規(guī)模行政檔案,我們需要快速處理和查詢越來越龐大的文本庫。為了應對這一挑戰(zhàn),檢索增強生成(RAG)系統(tǒng)應運而生。這些系統(tǒng)通常會將長文檔分割成小塊(稱為"chunks"),然后對每個小塊單獨進行嵌入處理,以便于檢索和閱讀。

然而,這種分割方法存在一個致命缺陷:它切斷了文檔各部分之間的語義和概念聯(lián)系。就像前面提到的拿破侖的例子,如果不知道這段文字在談論誰,檢索系統(tǒng)將難以匹配與拿破侖相關的查詢。

研究團隊通過一個生動的實驗展示了這個問題的嚴重性。他們從足球領域的文檔中選取了一組段落,這些段落大多數(shù)是自包含的(意味著段落本身包含足夠的信息)。然后,他們逐步改寫這些段落,刪除與文檔其他部分重復的信息。結果表明,隨著信息冗余的減少,標準檢索系統(tǒng)的性能急劇下降,而具有上下文感知能力的系統(tǒng)則能保持穩(wěn)定。

大型科技公司已經(jīng)注意到這個問題,并試圖通過大型生成語言模型(LLMs)來解決。一些方法嘗試完全繞過檢索步驟,直接在運行時將數(shù)百萬個標記輸入到模型的上下文窗口中。另一些方法則通過連接文檔級摘要和上下文來重新表述單個段落。但這些方法在處理包含成千上萬文檔的語料庫時成本高得令人望而卻步。

二、ConTEB:評估模型對上下文的利用能力

現(xiàn)有的基準測試未能捕捉到上下文相關檢索的挑戰(zhàn)。它們通常依賴于這樣的數(shù)據(jù)集:文檔塊被設計為對查詢的自包含答案,這在現(xiàn)實中是一種理想化的情景。甚至有研究表明,一些廣泛使用的基準測試存在偏見,有利于標準的上下文無關檢索方法。

為了填補這一空白,研究團隊開發(fā)了ConTEB(上下文感知文本嵌入基準),這是一個專門設計用來評估檢索系統(tǒng)在索引和檢索文檔塊時利用整個文檔信息能力的基準測試。

ConTEB基準測試的構建分為三個階段:

首先是分塊階段。研究人員選擇了跨越多個領域的長文檔,并通過結構感知方法將它們分塊。想象這就像是將一本大書根據(jù)章節(jié)和段落分成更小的部分,而不是簡單地每隔固定數(shù)量的文字就切一刀。

其次是配對階段。研究人員使用手動注釋的答案范圍(例如在SQuAD、ESG數(shù)據(jù)集中)或通過大型語言模型合成標記(如在CovidQA、MLDR、NarrativeQA中),將查詢與第一階段獲得的塊匹配起來。在他們的控制實驗任務中,他們手動(保險數(shù)據(jù)集)或通過大型語言模型(足球、地理數(shù)據(jù)集)生成與塊相關的查詢。

最后是"破壞"階段。在保險數(shù)據(jù)集中,問題被設計成在不了解文檔結構的情況下會產(chǎn)生歧義。更進一步,在足球和地理數(shù)據(jù)集中,研究人員在除了每個文檔的第一個塊之外的所有塊中,刪除了對文檔主題的明確提及(而所有查詢都會提到這個主題)。這就像是將拿破侖的名字從大多數(shù)段落中刪除,只在第一段中提及,但所有問題仍然會問"拿破侖做了什么"。

ConTEB包含了各種類型的數(shù)據(jù)集:從MLDR(百科全書式)、NarrativeQA(文學)、SQuAD(問答)等學術數(shù)據(jù)集,到足球、地理、保險、Covid-QA和ESG報告等多樣化領域的數(shù)據(jù)。此外,研究人員還使用NanoBEIR來評估模型在標準非上下文化嵌入任務上的表現(xiàn),確保新方法不會損害基本模型性能。

三、InSeNT:高效的上下文訓練方法

在確定了問題并建立了評估基準后,研究團隊提出了一種新的嵌入后訓練方法——InSeNT(序列內(nèi)負面訓練)。這種方法借鑒了"后期分塊"技術,并進行了創(chuàng)新性的改進。

想象一下拼圖游戲:傳統(tǒng)方法是每個拼圖塊單獨看待,而研究團隊的方法則是先看整幅圖,再決定每個拼圖塊的特征。具體來說,標準檢索系統(tǒng)對文檔的每個塊進行獨立編碼:

φ(d) = [φ(c?), φ(c?), ..., φ(c?)]

而在"后期分塊"方法中,首先將所有塊連接起來,然后在單一前向傳遞中計算整個序列的表示:

H = φ(c? ⊕ c? ⊕ ... ⊕ c?)

接著,在每個原始塊內(nèi)應用平均池化來獲得塊級表示:

φ_LC(c_i) = (1/|c_i|) ∑_{t∈c_i} h_t

這允許每個塊的表示在匯總前從整個文檔的上下文中受益。

研究團隊在此基礎上增加了一個創(chuàng)新的學習目標。他們結合了兩種對比學習損失:

1. 傳統(tǒng)的批內(nèi)對比損失,將來自不同文檔的塊視為"負樣本" 2. 序列內(nèi)對比損失,將來自同一文檔的其他塊視為"硬負樣本"

這種雙重對比學習可以用一個加權的InfoNCE損失來表達:

L = λ_seq * L_seq + (1 - λ_seq) * L_batch

直觀地說,這種訓練方法既鼓勵同一文檔內(nèi)塊之間的信息傳播(通過批內(nèi)對比),又確保每個塊保持其特異性(通過序列內(nèi)對比)。這就像教會模型既要認識到所有關于拿破侖的段落都屬于同一個主題,又要能區(qū)分哪個段落講的是他的童年,哪個講的是他的軍事成就。

研究團隊的訓練策略設計為輕量級的,可以在預訓練的嵌入模型之上進行,而不會降低它們的原有能力。他們使用AdamW優(yōu)化器,余弦衰減學習率調(diào)度器,初始學習率為5e-5,在訓練數(shù)據(jù)集上訓練2個輪次。整個訓練過程在一臺H100 GPU上不到一小時就能完成。

四、實驗結果:上下文是金子

研究結果清晰地表明,利用上下文信息的方法大大優(yōu)于非上下文方法。在ConTEB基準測試中,研究團隊的InSeNT變體顯著優(yōu)于其未訓練的對應物(ModernBERT的nDCG@10提高了14.6,ModernColBERT提高了11.5)。

特別值得注意的是,這種改進不是源于訓練數(shù)據(jù)本身。使用相同數(shù)據(jù)訓練的非上下文ModernBERT模型并沒有比未訓練的基線有所改進。最大的改進出現(xiàn)在那些專門設計用來引出前面段落中給出信息的控制設置任務(保險、足球)上,這些任務與訓練集的領域不同。

研究還發(fā)現(xiàn),當λ_seq參數(shù)(控制序列內(nèi)和批內(nèi)負樣本的相對重要性)從0變化到1時,不同任務的最佳值各不相同。當文檔需要在彼此之間進行區(qū)分時(如NanoBEIR、地理),增加批內(nèi)負樣本的權重似乎是最佳選擇。而在挑戰(zhàn)在于定位給定文檔內(nèi)信息的任務中(如NarrativeQA、CovidQA),序列內(nèi)負樣本起著重要作用,但仍需與批內(nèi)負樣本結合。找到最佳權衡非常依賴于具體用例,研究團隊在驗證集上調(diào)整后選擇了λ_seq = 0.1。

在效率方面,研究團隊的方法在上下文任務上表現(xiàn)出色,同時幾乎不增加計算開銷。事實上,他們發(fā)現(xiàn)索引速度略有提高,這歸因于減少了批內(nèi)不同長度序列的填充需求。相比之下,Anthropic的上下文化方法雖然在ConTEB上取得了類似的性能,但它依賴于成本高昂的基于LLM的摘要和塊重構,難以擴展到大型語料庫(速度慢120倍)。

進一步的實驗表明,上下文化嵌入對塊策略的魯棒性更強。當研究人員將原始的自包含塊分割成越來越小的子塊時,非上下文嵌入的性能急劇下降,而上下文嵌入則保持相對穩(wěn)定。這表明該模型能夠從相鄰塊中提取信息,在較小的子塊中整合上下文信息,從而在各種塊大小下保持更一致的檢索性能。

同樣,當增加語料庫中相似文檔的數(shù)量時,上下文嵌入的擴展方式與獨立嵌入的對應物大不相同。直觀地說,語料庫中相似文檔和塊的數(shù)量越多,檢索系統(tǒng)就越難匹配正確的文檔,但當嵌入模型能夠利用外部上下文時,這種效應會減弱。

五、研究局限性與未來方向

盡管研究團隊的方法在上下文依賴的環(huán)境中顯著提高了檢索性能,但仍存在一些局限性。

首先是上下文長度的限制。該方法應用于支持最多8k標記序列的長上下文編碼器。雖然研究表明他們可以將性能外推到最多32k標記的序列,但使用基于解碼器的模型擴展這種方法以處理百萬級標記的上下文將是一個有趣的研究方向,并且會帶來顯著的計算和內(nèi)存挑戰(zhàn)。此外,這還需要重新思考數(shù)據(jù)構建過程,以確保更長的文檔得到有效利用。

其次是數(shù)據(jù)生成的挑戰(zhàn)。訓練和評估數(shù)據(jù)的創(chuàng)建依賴于現(xiàn)有數(shù)據(jù)集和半合成生成管道。然而,一種完全自動化和可擴展的方法,用于生成能有效誘導非平凡上下文利用的高質(zhì)量查詢,仍然是一個開放的挑戰(zhàn)。

最后,雖然該模型在跨領域表現(xiàn)出色,但在實際應用中進一步驗證其在各種用例、多種語言中的魯棒性和通用性是必要的。

六、結論:上下文改變一切

歸根結底,這項研究清晰地表明,在文檔檢索中整合上下文信息不僅是有益的,而且是必要的。研究團隊通過ConTEB基準測試證明了標準檢索模型在上下文依賴的情境中的局限性,并提出了InSeNT,這是一種結合后期分塊和新型訓練方法的方法,在不增加計算開銷的情況下顯著提升了上下文檢索性能。

對于實際應用,這意味著更智能的文檔搜索系統(tǒng),能夠理解諸如"他在1804年成為皇帝"這樣的句子確實是在談論拿破侖,即使該句子本身并未提及他的名字。這種能力對于處理醫(yī)療記錄、法律文件或任何結構化長文檔的行業(yè)都具有重大價值。

隨著大型語言模型和檢索系統(tǒng)的不斷發(fā)展,研究團隊的工作為未來的嵌入模型指明了方向:不僅要關注單個文本片段的表示,還要考慮它們在更廣泛文檔上下文中的位置和關系。正如研究標題所言,"上下文是金子,能找到金子般的段落"。

有興趣深入了解這項研究的讀者可以訪問GitHub倉庫(https://github.com/illuin-tech/contextual-embeddings),獲取基準測試、模型和訓練數(shù)據(jù)等項目材料。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-