av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見(jiàn)證連接與計(jì)算的「力量」

首頁(yè) 對(duì)比擴(kuò)散與自回歸語(yǔ)言模型:從文本嵌入角度的深度分析

對(duì)比擴(kuò)散與自回歸語(yǔ)言模型:從文本嵌入角度的深度分析

2025-05-27 14:38
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-27 14:38 ? 科技行者

在2025年5月21日發(fā)表于arXiv的一篇最新研究論文中,來(lái)自南洋理工大學(xué)、耶魯大學(xué)、上海紐約大學(xué)以及新加坡阿里巴巴-南洋理工聯(lián)合研究所的研究團(tuán)隊(duì),包括Siyue Zhang、Yilun Zhao、Liyuan Geng、Arman Cohan、Anh Tuan Luu和Chen Zhao,共同探討了一個(gè)引人深思的問(wèn)題:在生成文本嵌入(即將文本轉(zhuǎn)換為計(jì)算機(jī)可理解的數(shù)字向量)時(shí),擴(kuò)散語(yǔ)言模型是否比傳統(tǒng)的自回歸語(yǔ)言模型更有優(yōu)勢(shì)?這項(xiàng)研究為我們提供了全新的視角,論文編號(hào)為arXiv:2505.15045v1 [cs.CL]。

想象一下兩種閱讀方式的區(qū)別。傳統(tǒng)的自回歸語(yǔ)言模型就像我們從左到右閱讀一本書(shū),每次只能看到當(dāng)前位置之前的內(nèi)容;而擴(kuò)散語(yǔ)言模型則像是我們可以自由地在書(shū)的任何部分來(lái)回翻閱,全面理解上下文。這種根本性的差異,可能對(duì)文本嵌入的質(zhì)量產(chǎn)生重大影響。

研究團(tuán)隊(duì)提出的核心觀點(diǎn)是:基于大型語(yǔ)言模型(LLM)的文本嵌入雖然在一般任務(wù)中表現(xiàn)出色,但它們存在一個(gè)根本性的缺陷——它們使用的是單向注意力機(jī)制,也就是說(shuō),它們只能"看到"句子中前面的詞,而無(wú)法同時(shí)考慮后面的內(nèi)容。這與文本嵌入任務(wù)的雙向性質(zhì)不符。相比之下,擴(kuò)散語(yǔ)言模型天生就采用雙向注意力架構(gòu),理論上更適合捕捉文本的全局語(yǔ)境。

為了驗(yàn)證這一假設(shè),研究人員開(kāi)發(fā)了名為DIFFEMBED的文本嵌入模型,基于最先進(jìn)的擴(kuò)散語(yǔ)言模型DREAM-7B。他們?cè)诙喾N任務(wù)上對(duì)比了這一模型與傳統(tǒng)LLM嵌入模型的表現(xiàn),結(jié)果令人矚目:在長(zhǎng)文檔檢索任務(wù)上,DIFFEMBED比LLM嵌入模型提高了20%的性能;在需要密集推理的檢索任務(wù)上提高了8%;在遵循指令的檢索任務(wù)上提高了2%;同時(shí)在傳統(tǒng)文本嵌入基準(zhǔn)測(cè)試上也達(dá)到了競(jìng)爭(zhēng)性能。

更重要的是,研究團(tuán)隊(duì)通過(guò)實(shí)驗(yàn)證明,雙向注意力確實(shí)是處理長(zhǎng)文本和復(fù)雜內(nèi)容的關(guān)鍵因素。他們甚至開(kāi)發(fā)了一個(gè)名為REASONAUG的新數(shù)據(jù)集,包含近11,000對(duì)邏輯相關(guān)的正例和不相關(guān)的難例,用于訓(xùn)練模型處理需要密集推理的內(nèi)容。

這項(xiàng)研究不僅為文本嵌入領(lǐng)域帶來(lái)了新的技術(shù)路徑,也為我們理解不同類型語(yǔ)言模型的優(yōu)缺點(diǎn)提供了寶貴見(jiàn)解。接下來(lái),讓我們深入了解這項(xiàng)研究的細(xì)節(jié)。

一、研究背景:文本嵌入技術(shù)的現(xiàn)狀與挑戰(zhàn)

文本嵌入是自然語(yǔ)言處理的基礎(chǔ)任務(wù),它將文本轉(zhuǎn)換為數(shù)值向量,使計(jì)算機(jī)能夠理解和處理語(yǔ)言。想象一下,如果我們要教計(jì)算機(jī)理解"貓"和"狗"這兩個(gè)詞的關(guān)系,我們需要將這些詞轉(zhuǎn)換為數(shù)學(xué)上的點(diǎn),讓"貓"和"狗"這兩個(gè)點(diǎn)在空間中的距離比"貓"和"汽車"的距離更近,因?yàn)榍罢哒Z(yǔ)義更相似。

傳統(tǒng)上,研究人員通常使用像BERT和T5這樣的雙向語(yǔ)言模型來(lái)生成文本嵌入。這些模型通過(guò)對(duì)比學(xué)習(xí)進(jìn)行訓(xùn)練,學(xué)習(xí)將語(yǔ)義相似的文本映射到向量空間中的相近位置。最近幾年,隨著大型語(yǔ)言模型(LLM)的崛起,許多研究開(kāi)始嘗試將自回歸LLM(如Llama3、GPT系列等)應(yīng)用于文本嵌入任務(wù),并取得了顯著的效果提升。

然而,自回歸LLM有一個(gè)根本性的局限:它們使用的是單向注意力機(jī)制。打個(gè)比方,這就像是一個(gè)人在閱讀文章時(shí)只能看到當(dāng)前詞之前的內(nèi)容,而無(wú)法預(yù)覽后面的內(nèi)容。在實(shí)際生成文本時(shí),這種機(jī)制是合理的——畢竟我們寫(xiě)作時(shí)也是一個(gè)詞接一個(gè)詞地寫(xiě)下去。但在理解整段文本的語(yǔ)義時(shí),這種單向性就成了限制。

張思岳博士及其團(tuán)隊(duì)指出,這種單向注意力與文本嵌入任務(wù)所需的全局上下文理解存在根本性的不匹配。盡管已有研究如Echo Embeddings和LLM2Vec嘗試通過(guò)不同方法解決這一問(wèn)題,但這些方法或多或少都存在效率低下或需要額外訓(xùn)練的問(wèn)題。

二、擴(kuò)散語(yǔ)言模型:雙向注意力的天然優(yōu)勢(shì)

擴(kuò)散語(yǔ)言模型是近年來(lái)興起的一種新型語(yǔ)言模型,它受到了圖像生成領(lǐng)域擴(kuò)散模型的啟發(fā)。與自回歸語(yǔ)言模型不同,擴(kuò)散語(yǔ)言模型采用了一種全新的生成范式:它們首先將文本"噪聲化"(通過(guò)隨機(jī)掩蓋一些詞),然后學(xué)習(xí)如何逐步恢復(fù)原始文本。

這種方法的關(guān)鍵在于,擴(kuò)散語(yǔ)言模型在預(yù)測(cè)被掩蓋的詞時(shí),可以同時(shí)利用該詞前后的上下文信息。打個(gè)比方,如果句子中"我喜歡吃<掩蓋>因?yàn)樗芴?,模型可以同時(shí)看到"我喜歡吃"和"因?yàn)樗芴?這兩部分信息,從而更準(zhǔn)確地推斷出被掩蓋的詞可能是"蘋(píng)果"或"香蕉"等水果。

研究團(tuán)隊(duì)提出的DIFFEMBED模型就是基于這種擴(kuò)散語(yǔ)言模型。具體來(lái)說(shuō),他們使用了DREAM-7B,這是一個(gè)經(jīng)過(guò)5800億標(biāo)記訓(xùn)練的最先進(jìn)擴(kuò)散語(yǔ)言模型。DIFFEMBED的工作原理很直觀:它從DREAM-7B中提取最后一層的詞表示,然后通過(guò)平均池化(mean pooling)將這些表示聚合為一個(gè)固定大小的向量,再通過(guò)對(duì)比學(xué)習(xí)進(jìn)一步優(yōu)化這些向量,使語(yǔ)義相似的文本在向量空間中更接近。

與自回歸語(yǔ)言模型相比,擴(kuò)散語(yǔ)言模型在文本嵌入任務(wù)上的天然優(yōu)勢(shì)在于: 1. 它們能夠同時(shí)考慮詞的前后上下文,提供更全面的語(yǔ)義理解。 2. 它們的訓(xùn)練目標(biāo)(恢復(fù)被掩蓋的詞)與文本理解的需求更加匹配。 3. 它們不需要像一些自回歸LLM那樣進(jìn)行額外的適應(yīng)性訓(xùn)練就能用于文本嵌入。

三、實(shí)驗(yàn)設(shè)計(jì):全面評(píng)估擴(kuò)散嵌入模型的性能

為了全面評(píng)估DIFFEMBED的性能,研究團(tuán)隊(duì)設(shè)計(jì)了一系列實(shí)驗(yàn),涵蓋四類關(guān)鍵任務(wù):長(zhǎng)文檔檢索、需要密集推理的檢索、遵循指令的檢索,以及傳統(tǒng)文本嵌入任務(wù)。這些任務(wù)共同構(gòu)成了一個(gè)全面的評(píng)估框架,可以從不同角度檢驗(yàn)?zāi)P偷哪芰Α?/p>

在模型選擇方面,研究團(tuán)隊(duì)使用了DREAM-v0-Instruct-7B作為DIFFEMBED的基礎(chǔ)模型。為了進(jìn)行公平比較,他們同時(shí)評(píng)估了規(guī)模相近的自回歸模型,包括Llama-3-8B-Instruct、Mistral-7B-Instruct-v0.2和Qwen2.5-7B-Instruct。此外,他們還實(shí)現(xiàn)了LLM2Vec方法,這是一種通過(guò)額外預(yù)訓(xùn)練使自回歸LLM能夠使用雙向注意力的技術(shù)。

在訓(xùn)練數(shù)據(jù)方面,研究團(tuán)隊(duì)根據(jù)不同任務(wù)使用了不同的數(shù)據(jù)集: - 對(duì)于長(zhǎng)文檔檢索和傳統(tǒng)文本嵌入任務(wù),他們使用了Public E5數(shù)據(jù)集的子集。 - 對(duì)于需要密集推理的檢索任務(wù),他們創(chuàng)建了名為REASONAUG的新數(shù)據(jù)集。 - 對(duì)于遵循指令的檢索任務(wù),他們使用了帶有指令的MS MARCO數(shù)據(jù)集子集。

值得特別關(guān)注的是REASONAUG數(shù)據(jù)集的創(chuàng)建過(guò)程。由于現(xiàn)有數(shù)據(jù)集不足以有效支持需要密集推理的檢索任務(wù),研究團(tuán)隊(duì)使用大型語(yǔ)言模型生成了包含近11,000對(duì)樣本的新數(shù)據(jù)集。這些樣本包括兩類:一類是問(wèn)題到概念的檢索(例如,給定一個(gè)數(shù)學(xué)問(wèn)題,找出解決該問(wèn)題所需的定理);另一類是問(wèn)題到問(wèn)題的檢索(例如,找出可以用相同定理解決的問(wèn)題)。這些問(wèn)題涉及多個(gè)領(lǐng)域,從數(shù)學(xué)和物理定理到編程算法。

四、實(shí)驗(yàn)結(jié)果:擴(kuò)散嵌入模型的顯著優(yōu)勢(shì)

實(shí)驗(yàn)結(jié)果清晰地表明,基于擴(kuò)散語(yǔ)言模型的DIFFEMBED在多項(xiàng)任務(wù)上都優(yōu)于傳統(tǒng)的自回歸LLM嵌入模型。

首先,在長(zhǎng)文檔檢索任務(wù)(LONGEMBED基準(zhǔn))上,DIFFEMBED以62.2%的平均分?jǐn)?shù)顯著超過(guò)了所有自回歸模型。特別是在合成測(cè)試中,DIFFEMBED在文檔長(zhǎng)度不超過(guò)4096個(gè)標(biāo)記的Passkey檢索任務(wù)上達(dá)到了100%的準(zhǔn)確率,在Needle-in-a-haystack檢索任務(wù)上達(dá)到了86.8%的準(zhǔn)確率。這些結(jié)果表明,即使模型訓(xùn)練時(shí)使用的最大輸入長(zhǎng)度為4096個(gè)標(biāo)記,自回歸LLM仍然可能無(wú)法有效編碼關(guān)鍵信息,而DIFFEMBED則能夠很好地處理這一問(wèn)題。

其次,在需要密集推理的檢索任務(wù)(BRIGHT基準(zhǔn))上,DIFFEMBED也展現(xiàn)出顯著優(yōu)勢(shì)。在TheoremQA的定理檢索任務(wù)上,DIFFEMBED的性能比Qwen2.5高出4.2個(gè)百分點(diǎn)(38.9% vs. 34.7%);在問(wèn)題檢索任務(wù)上,差距更是達(dá)到了8.1個(gè)百分點(diǎn)(48.3% vs. 40.2%)。這表明雙向注意力對(duì)于理解復(fù)雜邏輯、定理和方程是至關(guān)重要的。值得注意的是,使用REASONAUG數(shù)據(jù)集訓(xùn)練的DIFFEMBED在TheoremQA任務(wù)上的性能比最先進(jìn)的推理檢索器ReasonIR高出了16.4%。

第三,在遵循指令的檢索任務(wù)(FOLLOWIR基準(zhǔn))上,DIFFEMBED也展現(xiàn)出與Mistral相當(dāng)?shù)闹噶钭裱芰Γǚ謩e為+5.1和+5.7的配對(duì)MRR)。研究人員推測(cè),由于這類任務(wù)中查詢和文檔的長(zhǎng)度有限且復(fù)雜度較低,DIFFEMBED的雙向嵌入方法的優(yōu)勢(shì)可能受到一定限制。

最后,在傳統(tǒng)文本嵌入任務(wù)(MTEB基準(zhǔn)的15個(gè)任務(wù))上,DIFFEMBED的表現(xiàn)與自回歸LLM嵌入模型相當(dāng)。這符合預(yù)期,因?yàn)榇蠖鄶?shù)傳統(tǒng)任務(wù)涉及的輸入較短且推理要求較低。

五、深入分析:雙向注意力的關(guān)鍵作用

為了深入理解雙向注意力對(duì)于不同模型和任務(wù)的重要性,研究團(tuán)隊(duì)對(duì)Mistral和DIFFEMBED進(jìn)行了消融實(shí)驗(yàn),比較了使用完全雙向(前向和反向)注意力與僅使用單向(前向)注意力時(shí)的性能差異。

實(shí)驗(yàn)結(jié)果揭示了一個(gè)顯著的發(fā)現(xiàn):當(dāng)禁用反向注意力時(shí),DIFFEMBED的性能下降幅度遠(yuǎn)大于Mistral。例如,在TheoremQA的問(wèn)題檢索任務(wù)上,DIFFEMBED的性能從48.3%驟降至0.7%(下降47.6個(gè)百分點(diǎn)),而Mistral的性能從33.7%降至9.6%(下降24.1個(gè)百分點(diǎn))。這表明DIFFEMBED更加依賴雙向上下文,這可能是由于其雙向預(yù)訓(xùn)練方式。

此外,不同任務(wù)對(duì)反向注意力的敏感度也存在差異。在LeetCode任務(wù)上,禁用反向注意力后性能相對(duì)穩(wěn)定(甚至在Mistral上有所增加),而在TheoremQA任務(wù)上性能則顯著下降。這表明雙向注意力對(duì)于邏輯推理任務(wù)(如TheoremQA)至關(guān)重要,這也解釋了DIFFEMBED在TheoT和TheoQ任務(wù)上的顯著性能優(yōu)勢(shì)。

六、討論與分析:更深入的理解

研究團(tuán)隊(duì)還對(duì)一系列問(wèn)題進(jìn)行了深入分析,幫助我們更好地理解實(shí)驗(yàn)結(jié)果背后的原因。

首先,他們探討了為什么通用嵌入模型在需要密集推理的檢索任務(wù)上表現(xiàn)不佳。通過(guò)對(duì)REASONAUG文檔嵌入的t-SNE可視化分析,他們發(fā)現(xiàn)E5-Mistral的嵌入更加分散,缺乏清晰的聚類邊界。案例研究還表明,E5-Mistral在匹配問(wèn)題時(shí)往往依賴于表面的詞匯線索(如精確數(shù)字或關(guān)鍵詞)和淺層語(yǔ)義模式,而非深層理解概念關(guān)系。

其次,通過(guò)分析在BRIGHT的LeetCode和AoPS任務(wù)上的表現(xiàn),研究團(tuán)隊(duì)發(fā)現(xiàn)這些任務(wù)中的金標(biāo)準(zhǔn)注釋和語(yǔ)料庫(kù)存在明顯的噪聲,這可能影響了評(píng)估結(jié)果的可靠性。例如,LeetCode子集中的"Trapping Rain Water I"和"Trapping Rain Water II"被標(biāo)記為相關(guān),但它們實(shí)際上需要完全不同的算法解決。

最后,研究團(tuán)隊(duì)還探討了隨著訓(xùn)練數(shù)據(jù)集規(guī)模增加,性能差距是否會(huì)縮小的問(wèn)題。結(jié)果表明,即使在訓(xùn)練規(guī)模從2k增加到10k的范圍內(nèi),DIFFEMBED和Qwen2.5之間的性能差距仍然顯著,這表明基于LLM的模型可能需要大量數(shù)據(jù)才能學(xué)習(xí)有效的雙向注意力,而DIFFEMBED則天生具備這一優(yōu)勢(shì)。

七、研究局限性與未來(lái)方向

盡管這項(xiàng)研究取得了顯著成果,但研究團(tuán)隊(duì)也坦承了一些局限性。首先,他們只評(píng)估了最先進(jìn)的擴(kuò)散語(yǔ)言模型DREAM,而沒(méi)有測(cè)試其他擴(kuò)散模型如LLaDA,后者由于生成能力和推理能力相對(duì)較弱,預(yù)計(jì)在文本嵌入性能上也會(huì)較差。其次,由于資源限制,他們將訓(xùn)練規(guī)模限制在2萬(wàn)個(gè)樣本以內(nèi),而更大規(guī)模的實(shí)驗(yàn)可能會(huì)提供更多見(jiàn)解。此外,在REASONAUG數(shù)據(jù)集中,盡管經(jīng)過(guò)質(zhì)量檢查,但可能仍存在一些不相關(guān)或不正確的文檔。

展望未來(lái),這項(xiàng)研究為文本嵌入領(lǐng)域開(kāi)辟了一條新的技術(shù)路徑。隨著擴(kuò)散語(yǔ)言模型的進(jìn)一步發(fā)展和規(guī)?;?,它們?cè)谖谋厩度牒推渌匀徽Z(yǔ)言處理任務(wù)上的潛力可能會(huì)進(jìn)一步顯現(xiàn)。研究團(tuán)隊(duì)希望這項(xiàng)工作能為文本嵌入社區(qū)和擴(kuò)散語(yǔ)言模型的發(fā)展提供有意義的見(jiàn)解。

總的來(lái)說(shuō),這項(xiàng)研究不僅展示了擴(kuò)散語(yǔ)言模型在文本嵌入任務(wù)上的優(yōu)勢(shì),也深入分析了雙向注意力對(duì)于捕捉長(zhǎng)文本和復(fù)雜內(nèi)容的全局上下文的關(guān)鍵作用。它為我們理解不同類型語(yǔ)言模型的優(yōu)缺點(diǎn)提供了寶貴見(jiàn)解,也為未來(lái)的研究指明了方向。對(duì)于想要深入了解這項(xiàng)研究的讀者,可以通過(guò)arXiv:2505.15045v1 [cs.CL]訪問(wèn)完整論文。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-