av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<menuitem id="xbi8t"></menuitem>

<abbr id="xbi8t"><tt id="xbi8t"></tt></abbr>

<abbr id="xbi8t"><button id="xbi8t"></button></abbr>

首頁(yè)
對(duì)話創(chuàng)新
對(duì)話科技行者
機(jī)器人新紀(jì)元
AI論文解讀
聯(lián)系我們

微信掃一掃，關(guān)注公眾號(hào)

科技行者
算力行者

見證連接與計(jì)算的「力量」

當(dāng)上下文成為金子：上下文文檔嵌入模型的評(píng)估與訓(xùn)練

文檔檢索上下文嵌入檢索增強(qiáng)生成

當(dāng)上下文成為金子：上下文文檔嵌入模型的評(píng)估與訓(xùn)練

作者：科技行者

2025-06-05 09:34

分享至：

這項(xiàng)研究針對(duì)現(xiàn)代文檔檢索系統(tǒng)中的關(guān)鍵缺陷：獨(dú)立處理文檔片段導(dǎo)致丟失上下文信息。研究團(tuán)隊(duì)開發(fā)了ConTEB基準(zhǔn)測(cè)試來評(píng)估模型利用文檔級(jí)上下文的能力，并提出了InSeNT方法，結(jié)合后期分塊和創(chuàng)新的對(duì)比學(xué)習(xí)策略。實(shí)驗(yàn)表明，上下文感知嵌入顯著提升檢索性能，尤其在處理非自包含文本片段時(shí)，同時(shí)保持計(jì)算效率，對(duì)分塊策略更具魯棒性，并且在語料庫(kù)規(guī)模擴(kuò)大時(shí)表現(xiàn)更佳。這一研究為更智能的文檔檢索系統(tǒng)鋪平了道路。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-06-05 09:34 ? 科技行者

這項(xiàng)研究來自由Illuin Technology、Equall.ai、CentraleSupélec和EPFL洛桑的聯(lián)合團(tuán)隊(duì)，由Max Conti、Manuel Faysse、Gautier Viaud、Antoine Bosselut、Céline Hudelot和Pierre Colombo共同完成，發(fā)表于2025年5月30日的arXiv預(yù)印本平臺(tái)（arXiv:2505.24782v1）。對(duì)于想深入了解的讀者，可通過GitHub（https://github.com/illuin-tech/contextual-embeddings）獲取完整研究材料。

一、研究背景：為何文檔上下文如此重要？

想象一下，你正在閱讀一本厚重的百科全書，尋找關(guān)于拿破侖的信息。突然，你看到一個(gè)孤立的句子："他在1804年成為皇帝。"沒有任何背景信息，你根本無法確定這個(gè)"他"是誰。這正是現(xiàn)代文檔檢索系統(tǒng)面臨的一個(gè)核心問題。

當(dāng)今，從醫(yī)療記錄到法律文件，再到大規(guī)模行政檔案，我們需要快速處理和查詢?cè)絹碓烬嫶蟮奈谋編?kù)。為了應(yīng)對(duì)這一挑戰(zhàn)，檢索增強(qiáng)生成（RAG）系統(tǒng)應(yīng)運(yùn)而生。這些系統(tǒng)通常會(huì)將長(zhǎng)文檔分割成小塊（稱為"chunks"），然后對(duì)每個(gè)小塊單獨(dú)進(jìn)行嵌入處理，以便于檢索和閱讀。

然而，這種分割方法存在一個(gè)致命缺陷：它切斷了文檔各部分之間的語義和概念聯(lián)系。就像前面提到的拿破侖的例子，如果不知道這段文字在談?wù)撜l，檢索系統(tǒng)將難以匹配與拿破侖相關(guān)的查詢。

研究團(tuán)隊(duì)通過一個(gè)生動(dòng)的實(shí)驗(yàn)展示了這個(gè)問題的嚴(yán)重性。他們從足球領(lǐng)域的文檔中選取了一組段落，這些段落大多數(shù)是自包含的（意味著段落本身包含足夠的信息）。然后，他們逐步改寫這些段落，刪除與文檔其他部分重復(fù)的信息。結(jié)果表明，隨著信息冗余的減少，標(biāo)準(zhǔn)檢索系統(tǒng)的性能急劇下降，而具有上下文感知能力的系統(tǒng)則能保持穩(wěn)定。

大型科技公司已經(jīng)注意到這個(gè)問題，并試圖通過大型生成語言模型（LLMs）來解決。一些方法嘗試完全繞過檢索步驟，直接在運(yùn)行時(shí)將數(shù)百萬個(gè)標(biāo)記輸入到模型的上下文窗口中。另一些方法則通過連接文檔級(jí)摘要和上下文來重新表述單個(gè)段落。但這些方法在處理包含成千上萬文檔的語料庫(kù)時(shí)成本高得令人望而卻步。

二、ConTEB：評(píng)估模型對(duì)上下文的利用能力

現(xiàn)有的基準(zhǔn)測(cè)試未能捕捉到上下文相關(guān)檢索的挑戰(zhàn)。它們通常依賴于這樣的數(shù)據(jù)集：文檔塊被設(shè)計(jì)為對(duì)查詢的自包含答案，這在現(xiàn)實(shí)中是一種理想化的情景。甚至有研究表明，一些廣泛使用的基準(zhǔn)測(cè)試存在偏見，有利于標(biāo)準(zhǔn)的上下文無關(guān)檢索方法。

為了填補(bǔ)這一空白，研究團(tuán)隊(duì)開發(fā)了ConTEB（上下文感知文本嵌入基準(zhǔn)），這是一個(gè)專門設(shè)計(jì)用來評(píng)估檢索系統(tǒng)在索引和檢索文檔塊時(shí)利用整個(gè)文檔信息能力的基準(zhǔn)測(cè)試。

ConTEB基準(zhǔn)測(cè)試的構(gòu)建分為三個(gè)階段：

首先是分塊階段。研究人員選擇了跨越多個(gè)領(lǐng)域的長(zhǎng)文檔，并通過結(jié)構(gòu)感知方法將它們分塊。想象這就像是將一本大書根據(jù)章節(jié)和段落分成更小的部分，而不是簡(jiǎn)單地每隔固定數(shù)量的文字就切一刀。

其次是配對(duì)階段。研究人員使用手動(dòng)注釋的答案范圍（例如在SQuAD、ESG數(shù)據(jù)集中）或通過大型語言模型合成標(biāo)記（如在CovidQA、MLDR、NarrativeQA中），將查詢與第一階段獲得的塊匹配起來。在他們的控制實(shí)驗(yàn)任務(wù)中，他們手動(dòng)（保險(xiǎn)數(shù)據(jù)集）或通過大型語言模型（足球、地理數(shù)據(jù)集）生成與塊相關(guān)的查詢。

最后是"破壞"階段。在保險(xiǎn)數(shù)據(jù)集中，問題被設(shè)計(jì)成在不了解文檔結(jié)構(gòu)的情況下會(huì)產(chǎn)生歧義。更進(jìn)一步，在足球和地理數(shù)據(jù)集中，研究人員在除了每個(gè)文檔的第一個(gè)塊之外的所有塊中，刪除了對(duì)文檔主題的明確提及（而所有查詢都會(huì)提到這個(gè)主題）。這就像是將拿破侖的名字從大多數(shù)段落中刪除，只在第一段中提及，但所有問題仍然會(huì)問"拿破侖做了什么"。

ConTEB包含了各種類型的數(shù)據(jù)集：從MLDR（百科全書式）、NarrativeQA（文學(xué)）、SQuAD（問答）等學(xué)術(shù)數(shù)據(jù)集，到足球、地理、保險(xiǎn)、Covid-QA和ESG報(bào)告等多樣化領(lǐng)域的數(shù)據(jù)。此外，研究人員還使用NanoBEIR來評(píng)估模型在標(biāo)準(zhǔn)非上下文化嵌入任務(wù)上的表現(xiàn)，確保新方法不會(huì)損害基本模型性能。

三、InSeNT：高效的上下文訓(xùn)練方法

在確定了問題并建立了評(píng)估基準(zhǔn)后，研究團(tuán)隊(duì)提出了一種新的嵌入后訓(xùn)練方法——InSeNT（序列內(nèi)負(fù)面訓(xùn)練）。這種方法借鑒了"后期分塊"技術(shù)，并進(jìn)行了創(chuàng)新性的改進(jìn)。

想象一下拼圖游戲：傳統(tǒng)方法是每個(gè)拼圖塊單獨(dú)看待，而研究團(tuán)隊(duì)的方法則是先看整幅圖，再?zèng)Q定每個(gè)拼圖塊的特征。具體來說，標(biāo)準(zhǔn)檢索系統(tǒng)對(duì)文檔的每個(gè)塊進(jìn)行獨(dú)立編碼：

φ(d) = [φ(c?), φ(c?), ..., φ(c?)]

而在"后期分塊"方法中，首先將所有塊連接起來，然后在單一前向傳遞中計(jì)算整個(gè)序列的表示：

H = φ(c? ⊕ c? ⊕ ... ⊕ c?)

接著，在每個(gè)原始?jí)K內(nèi)應(yīng)用平均池化來獲得塊級(jí)表示：

φ_LC(c_i) = (1/|c_i|) ∑_{t∈c_i} h_t

這允許每個(gè)塊的表示在匯總前從整個(gè)文檔的上下文中受益。

研究團(tuán)隊(duì)在此基礎(chǔ)上增加了一個(gè)創(chuàng)新的學(xué)習(xí)目標(biāo)。他們結(jié)合了兩種對(duì)比學(xué)習(xí)損失：

1. 傳統(tǒng)的批內(nèi)對(duì)比損失，將來自不同文檔的塊視為"負(fù)樣本" 2. 序列內(nèi)對(duì)比損失，將來自同一文檔的其他塊視為"硬負(fù)樣本"

這種雙重對(duì)比學(xué)習(xí)可以用一個(gè)加權(quán)的InfoNCE損失來表達(dá)：

L = λ_seq * L_seq + (1 - λ_seq) * L_batch

直觀地說，這種訓(xùn)練方法既鼓勵(lì)同一文檔內(nèi)塊之間的信息傳播（通過批內(nèi)對(duì)比），又確保每個(gè)塊保持其特異性（通過序列內(nèi)對(duì)比）。這就像教會(huì)模型既要認(rèn)識(shí)到所有關(guān)于拿破侖的段落都屬于同一個(gè)主題，又要能區(qū)分哪個(gè)段落講的是他的童年，哪個(gè)講的是他的軍事成就。

研究團(tuán)隊(duì)的訓(xùn)練策略設(shè)計(jì)為輕量級(jí)的，可以在預(yù)訓(xùn)練的嵌入模型之上進(jìn)行，而不會(huì)降低它們的原有能力。他們使用AdamW優(yōu)化器，余弦衰減學(xué)習(xí)率調(diào)度器，初始學(xué)習(xí)率為5e-5，在訓(xùn)練數(shù)據(jù)集上訓(xùn)練2個(gè)輪次。整個(gè)訓(xùn)練過程在一臺(tái)H100 GPU上不到一小時(shí)就能完成。

四、實(shí)驗(yàn)結(jié)果：上下文是金子

研究結(jié)果清晰地表明，利用上下文信息的方法大大優(yōu)于非上下文方法。在ConTEB基準(zhǔn)測(cè)試中，研究團(tuán)隊(duì)的InSeNT變體顯著優(yōu)于其未訓(xùn)練的對(duì)應(yīng)物（ModernBERT的nDCG@10提高了14.6，ModernColBERT提高了11.5）。

特別值得注意的是，這種改進(jìn)不是源于訓(xùn)練數(shù)據(jù)本身。使用相同數(shù)據(jù)訓(xùn)練的非上下文ModernBERT模型并沒有比未訓(xùn)練的基線有所改進(jìn)。最大的改進(jìn)出現(xiàn)在那些專門設(shè)計(jì)用來引出前面段落中給出信息的控制設(shè)置任務(wù)（保險(xiǎn)、足球）上，這些任務(wù)與訓(xùn)練集的領(lǐng)域不同。

研究還發(fā)現(xiàn)，當(dāng)λ_seq參數(shù)（控制序列內(nèi)和批內(nèi)負(fù)樣本的相對(duì)重要性）從0變化到1時(shí)，不同任務(wù)的最佳值各不相同。當(dāng)文檔需要在彼此之間進(jìn)行區(qū)分時(shí)（如NanoBEIR、地理），增加批內(nèi)負(fù)樣本的權(quán)重似乎是最佳選擇。而在挑戰(zhàn)在于定位給定文檔內(nèi)信息的任務(wù)中（如NarrativeQA、CovidQA），序列內(nèi)負(fù)樣本起著重要作用，但仍需與批內(nèi)負(fù)樣本結(jié)合。找到最佳權(quán)衡非常依賴于具體用例，研究團(tuán)隊(duì)在驗(yàn)證集上調(diào)整后選擇了λ_seq = 0.1。

在效率方面，研究團(tuán)隊(duì)的方法在上下文任務(wù)上表現(xiàn)出色，同時(shí)幾乎不增加計(jì)算開銷。事實(shí)上，他們發(fā)現(xiàn)索引速度略有提高，這歸因于減少了批內(nèi)不同長(zhǎng)度序列的填充需求。相比之下，Anthropic的上下文化方法雖然在ConTEB上取得了類似的性能，但它依賴于成本高昂的基于LLM的摘要和塊重構(gòu)，難以擴(kuò)展到大型語料庫(kù)（速度慢120倍）。

進(jìn)一步的實(shí)驗(yàn)表明，上下文化嵌入對(duì)塊策略的魯棒性更強(qiáng)。當(dāng)研究人員將原始的自包含塊分割成越來越小的子塊時(shí)，非上下文嵌入的性能急劇下降，而上下文嵌入則保持相對(duì)穩(wěn)定。這表明該模型能夠從相鄰塊中提取信息，在較小的子塊中整合上下文信息，從而在各種塊大小下保持更一致的檢索性能。

同樣，當(dāng)增加語料庫(kù)中相似文檔的數(shù)量時(shí)，上下文嵌入的擴(kuò)展方式與獨(dú)立嵌入的對(duì)應(yīng)物大不相同。直觀地說，語料庫(kù)中相似文檔和塊的數(shù)量越多，檢索系統(tǒng)就越難匹配正確的文檔，但當(dāng)嵌入模型能夠利用外部上下文時(shí)，這種效應(yīng)會(huì)減弱。

五、研究局限性與未來方向

盡管研究團(tuán)隊(duì)的方法在上下文依賴的環(huán)境中顯著提高了檢索性能，但仍存在一些局限性。

首先是上下文長(zhǎng)度的限制。該方法應(yīng)用于支持最多8k標(biāo)記序列的長(zhǎng)上下文編碼器。雖然研究表明他們可以將性能外推到最多32k標(biāo)記的序列，但使用基于解碼器的模型擴(kuò)展這種方法以處理百萬級(jí)標(biāo)記的上下文將是一個(gè)有趣的研究方向，并且會(huì)帶來顯著的計(jì)算和內(nèi)存挑戰(zhàn)。此外，這還需要重新思考數(shù)據(jù)構(gòu)建過程，以確保更長(zhǎng)的文檔得到有效利用。

其次是數(shù)據(jù)生成的挑戰(zhàn)。訓(xùn)練和評(píng)估數(shù)據(jù)的創(chuàng)建依賴于現(xiàn)有數(shù)據(jù)集和半合成生成管道。然而，一種完全自動(dòng)化和可擴(kuò)展的方法，用于生成能有效誘導(dǎo)非平凡上下文利用的高質(zhì)量查詢，仍然是一個(gè)開放的挑戰(zhàn)。

最后，雖然該模型在跨領(lǐng)域表現(xiàn)出色，但在實(shí)際應(yīng)用中進(jìn)一步驗(yàn)證其在各種用例、多種語言中的魯棒性和通用性是必要的。

六、結(jié)論：上下文改變一切

歸根結(jié)底，這項(xiàng)研究清晰地表明，在文檔檢索中整合上下文信息不僅是有益的，而且是必要的。研究團(tuán)隊(duì)通過ConTEB基準(zhǔn)測(cè)試證明了標(biāo)準(zhǔn)檢索模型在上下文依賴的情境中的局限性，并提出了InSeNT，這是一種結(jié)合后期分塊和新型訓(xùn)練方法的方法，在不增加計(jì)算開銷的情況下顯著提升了上下文檢索性能。

對(duì)于實(shí)際應(yīng)用，這意味著更智能的文檔搜索系統(tǒng)，能夠理解諸如"他在1804年成為皇帝"這樣的句子確實(shí)是在談?wù)撃闷苼觯词乖摼渥颖旧聿⑽刺峒八拿?。這種能力對(duì)于處理醫(yī)療記錄、法律文件或任何結(jié)構(gòu)化長(zhǎng)文檔的行業(yè)都具有重大價(jià)值。

隨著大型語言模型和檢索系統(tǒng)的不斷發(fā)展，研究團(tuán)隊(duì)的工作為未來的嵌入模型指明了方向：不僅要關(guān)注單個(gè)文本片段的表示，還要考慮它們?cè)诟鼜V泛文檔上下文中的位置和關(guān)系。正如研究標(biāo)題所言，"上下文是金子，能找到金子般的段落"。

有興趣深入了解這項(xiàng)研究的讀者可以訪問GitHub倉(cāng)庫(kù)（https://github.com/illuin-tech/contextual-embeddings），獲取基準(zhǔn)測(cè)試、模型和訓(xùn)練數(shù)據(jù)等項(xiàng)目材料。

文檔檢索上下文嵌入檢索增強(qiáng)生成

分享至

0贊

好文章，需要你的鼓勵(lì)

推薦文章

音頻生成
大語言模型
多模態(tài)AI

2025-09-10 09:47

如何讓AI像電影配樂師一樣創(chuàng)作完整的長(zhǎng)篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng)，首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù)，通過交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練，能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異，為AI音頻創(chuàng)作開辟新方向。
視頻生成
深度學(xué)習(xí)
多模態(tài)學(xué)習(xí)

2025-09-09 13:57

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動(dòng)起來不再是奢望

Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù)，通過讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息，顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量，在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型，為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
多模態(tài)AI
人類價(jià)值觀對(duì)齊
數(shù)據(jù)集構(gòu)建

2025-09-09 13:56

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價(jià)值觀對(duì)齊難題

上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究，首次系統(tǒng)性解決多模態(tài)大語言模型人性化對(duì)話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn)，通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法，讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平，為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
人工智能
圖神經(jīng)網(wǎng)絡(luò)
天氣預(yù)報(bào)

2025-09-09 10:56

谷歌研究團(tuán)隊(duì)發(fā)布超級(jí)預(yù)測(cè)模型：讓AI像天氣預(yù)報(bào)員一樣預(yù)測(cè)全球大氣變化

谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型，能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào)，準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù)，通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律，在極端天氣預(yù)測(cè)方面表現(xiàn)卓越，能耗僅為傳統(tǒng)方法的千分之一，為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。

如何讓AI像電影配樂師一樣創(chuàng)作完整的長(zhǎng)篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

如何讓AI像電影配樂師一樣創(chuàng)作完整的長(zhǎng)篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

2025-09-10 09:47

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動(dòng)起來不再是奢望

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動(dòng)起來不再是奢望

2025-09-09 13:57

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價(jià)值觀對(duì)齊難題

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價(jià)值觀對(duì)齊難題

2025-09-09 13:56

谷歌研究團(tuán)隊(duì)發(fā)布超級(jí)預(yù)測(cè)模型：讓AI像天氣預(yù)報(bào)員一樣預(yù)測(cè)全球大氣變化

谷歌研究團(tuán)隊(duì)發(fā)布超級(jí)預(yù)測(cè)模型：讓AI像天氣預(yù)報(bào)員一樣預(yù)測(cè)全球大氣變化

2025-09-09 10:56

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時(shí)代

京ICP證15039648號(hào) 京ICP備15039648號(hào)-9 京公網(wǎng)安備 11010802021500號(hào)

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報(bào)電話：010-62641205　涉未成年人舉報(bào)專線：010-62641208 舉報(bào)郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報(bào)專區(qū)：https://www.12377.cn