近日,ByteDance和浙江大學(xué)的研究團隊聯(lián)合發(fā)表了一篇引人注目的論文《MERIT: Multilingual Semantic Retrieval with Interleaved Multi-Condition Query》,這項研究于2025年6月3日在arXiv平臺上發(fā)布(arXiv:2506.03144v1)。研究團隊由Wei Chow、Yuan Gao、Linfeng Li等多位來自ByteDance和浙江大學(xué)的研究者共同完成。
在我們?nèi)粘Y徫飼r,你是否曾嘗試這樣搜索:"我想找一件和這張圖片顏色相同,但材質(zhì)像那張圖片的T恤"?或者"幫我找一部和這個手機相同品牌,但存儲容量更大的手機"?這種同時指定多個條件(既有文字描述又有圖片參考)的搜索方式,在技術(shù)上被稱為"多條件交錯語義檢索",而這正是MERIT項目的核心研究內(nèi)容。
傳統(tǒng)的搜索系統(tǒng)通常只能處理單一語言、單一圖片或單一條件的查詢,而真實世界中的產(chǎn)品搜索往往復(fù)雜得多。例如,用戶可能需要同時指定產(chǎn)品的顏色、材質(zhì)、風(fēng)格等多個特征,有些特征只能通過圖片來表達。市面上現(xiàn)有的系統(tǒng)在處理這種復(fù)雜查詢時表現(xiàn)不佳,尤其在多語言環(huán)境下更是如此。
為了解決這個問題,研究團隊創(chuàng)建了MERIT數(shù)據(jù)集——首個專為多語言多條件語義檢索設(shè)計的基準(zhǔn)數(shù)據(jù)集。這個龐大的數(shù)據(jù)集包含了320,000條查詢和135,000個產(chǎn)品,覆蓋了5種語言(英語、泰語、印尼語、越南語和馬來語)和7個不同的產(chǎn)品類別(服裝、電子產(chǎn)品、食品、家具等)。
研究團隊在評估現(xiàn)有模型時發(fā)現(xiàn)了一個關(guān)鍵問題:現(xiàn)有模型往往過度關(guān)注全局語義信息,而忽略了查詢中的特定條件元素。簡單來說,這些模型能理解"這是在搜索T恤",但可能無法準(zhǔn)確捕捉"要紅色的"和"要棉質(zhì)的"這些具體條件。
為解決這一問題,研究團隊提出了CORAL(Contrastive-reconstruction for multimodal retrieval)框架,這是一種新型的微調(diào)方法,可以讓預(yù)訓(xùn)練的多模態(tài)大語言模型更好地適應(yīng)檢索任務(wù)。CORAL通過兩個關(guān)鍵機制來提升模型性能:一是"嵌入重建",幫助模型保留查詢中的細(xì)粒度條件元素;二是"對比學(xué)習(xí)",幫助模型提取全面的全局語義信息。
實驗結(jié)果表明,CORAL框架在MERIT數(shù)據(jù)集上比傳統(tǒng)方法性能提升了45.9%,同時在8個已有的檢索基準(zhǔn)上也展現(xiàn)了強大的泛化能力。
研究團隊還發(fā)現(xiàn)了一個有趣的現(xiàn)象:當(dāng)將多個圖片條件拼接成單一輸入圖片時,現(xiàn)有的基于多模態(tài)大語言模型的檢索系統(tǒng)在R@1指標(biāo)(檢索結(jié)果第一個就是正確答案的比例)上表現(xiàn)比順序輸入多個圖片的方式高出約16倍。這與多模態(tài)大語言模型在視覺理解任務(wù)上的表現(xiàn)規(guī)律相悖。研究團隊推測,這可能是因為現(xiàn)有的檢索數(shù)據(jù)集最多只包含一張圖片,導(dǎo)致模型在處理交錯輸入時失去了有效處理能力。而在MERIT數(shù)據(jù)集上訓(xùn)練后,模型處理順序輸入的性能提升了14.3%,進一步驗證了這一假設(shè)。
總的來說,MERIT項目通過提供一個新型數(shù)據(jù)集、識別現(xiàn)有方法的關(guān)鍵局限性,以及提出創(chuàng)新的微調(diào)框架,為多條件交錯語義檢索領(lǐng)域的未來研究奠定了堅實基礎(chǔ)。這項研究不僅推動了技術(shù)進步,也有望在實際應(yīng)用中提升用戶的搜索體驗,尤其是在多語言環(huán)境下的電子商務(wù)平臺。
多語言多條件檢索:為何如此重要?
語義檢索是現(xiàn)代應(yīng)用中的關(guān)鍵任務(wù),它涉及從海量數(shù)據(jù)集合中找出能滿足用戶特定需求的信息。這項任務(wù)隨著人工智能的發(fā)展變得愈發(fā)重要,因為它不僅能夠幫助用戶精確找回所需內(nèi)容,還能減輕多模態(tài)大語言模型生成內(nèi)容中可能出現(xiàn)的不準(zhǔn)確性。
想象一下,你在網(wǎng)上購物時,希望找一件"與這張圖片中衣服相同材質(zhì),但顏色像那張圖片中的"產(chǎn)品。這種包含多個條件、同時涉及文字和圖片的查詢,就是研究團隊所稱的"交錯多條件查詢"。在實際生活中,這類查詢非常常見,但現(xiàn)有技術(shù)卻難以滿足這種需求。
研究團隊提出了兩個基本問題:首先,我們?nèi)绾稳嬖u估現(xiàn)有模型在交錯多條件語義檢索任務(wù)中的能力?其次,是什么因素限制了這些模型的表現(xiàn),我們又該如何提升其效果?
為了解答第一個問題,研究團隊創(chuàng)建了MERIT數(shù)據(jù)集。這個數(shù)據(jù)集的建立并非易事??紤]到獲取這類數(shù)據(jù)的挑戰(zhàn),研究團隊采用了開放式屬性標(biāo)注來增加多樣性,封閉式產(chǎn)品標(biāo)注來提高精確度和召回率,并設(shè)計了三種采樣算法來增強數(shù)據(jù)的豐富性和分布均勻性。經(jīng)過多輪篩選,最終確定了這個包含320,000條查詢的龐大數(shù)據(jù)集,整個標(biāo)注過程投入了10,000小時的人工勞動。
至于第二個問題,研究團隊評估了9種現(xiàn)有檢索模型在MERIT數(shù)據(jù)集上的表現(xiàn),發(fā)現(xiàn)盡管這些方法能有效解決已建立的語義檢索任務(wù),但在MERIT上的召回率仍然遠低于預(yù)期。通過深入分析,研究團隊發(fā)現(xiàn)這些方法忽略了查詢中的特定條件元素,無法正確提取目標(biāo)屬性,并且誤解了視覺內(nèi)容。
這一局限性主要源于現(xiàn)有檢索模型的訓(xùn)練方式。通常,這些模型通過對比學(xué)習(xí)微調(diào)預(yù)訓(xùn)練的多模態(tài)大語言模型,且僅在[EOS]標(biāo)記(句子結(jié)束符)處應(yīng)用監(jiān)督,這導(dǎo)致模型優(yōu)先關(guān)注全局語義信息,而不充分處理特定的條件元素,如產(chǎn)品描述中的材質(zhì)屬性或圖像中的獨特紋理。
為了克服這一限制,研究團隊提出了CORAL框架。這個框架能同時通過多模態(tài)嵌入重建保留詳細(xì)的條件元素,并通過對比學(xué)習(xí)有效提取全局語義。實驗結(jié)果顯示,與傳統(tǒng)方法相比,CORAL在MERIT上的性能提升顯著,達到了45.9%,其有效性在8個已建立的檢索基準(zhǔn)上得到了進一步驗證。
MERIT數(shù)據(jù)集:多語言多條件檢索的基準(zhǔn)
MERIT數(shù)據(jù)集是首個專為交錯多條件語義檢索設(shè)計的多語言數(shù)據(jù)集。它包含135,000個產(chǎn)品,形成320,000個檢索對,覆蓋5種語言和7個不同的產(chǎn)品檢索場景。
每個基本單元是一個產(chǎn)品,包含一張圖片和由GPT-4o生成的相應(yīng)標(biāo)題。數(shù)據(jù)集被分為訓(xùn)練集和測試集,分別包含310,000和10,000個條目。每個搜索查詢至少包含一個正樣本(符合所有條件的產(chǎn)品)。
在數(shù)據(jù)收集過程中,所有數(shù)據(jù)都經(jīng)過了精通這五種語言的標(biāo)注者的人工篩選,并在收集過程中進行了多輪自動篩選。具體而言,數(shù)據(jù)集收集包括以下四個步驟:
首先是高質(zhì)量產(chǎn)品選擇。研究團隊在保持多樣性的同時,從內(nèi)部數(shù)據(jù)集中精心選擇了6個東南亞國家5種語言的熱門產(chǎn)品,每個產(chǎn)品標(biāo)題由GPT-4o生成。每個產(chǎn)品還根據(jù)流行度和美學(xué)評分進行篩選,以形成最終使用的產(chǎn)品庫存。
其次是產(chǎn)品標(biāo)注。為了適應(yīng)多樣化的現(xiàn)實世界搜索需求,研究團隊需要獲取各種細(xì)粒度的產(chǎn)品屬性用于組合。然而,現(xiàn)實世界電子商務(wù)數(shù)據(jù)中的屬性信息往往不足,導(dǎo)致對特定用戶需求的檢索效果欠佳。這一差距源于運營屬性結(jié)構(gòu)的有限屬性豐富度與搜索相關(guān)性系統(tǒng)對精細(xì)、準(zhǔn)確的產(chǎn)品屬性信息需求之間的矛盾。因此,研究團隊采用了開放式標(biāo)注方法,隨后通過統(tǒng)計分析進行屬性劃分,并基于這些派生屬性對產(chǎn)品進行標(biāo)記。
第三是搜索查詢組成。為了同時提高數(shù)據(jù)集質(zhì)量和多樣性,研究團隊實施了一種綜合采樣方法來構(gòu)建檢索對。這種方法整合了三種不同的方式:常規(guī)均勻采樣、屬性均勻采樣和高相似度產(chǎn)品優(yōu)先采樣。此外,研究團隊的管道還支持冷啟動擴展,能夠?qū)?shù)據(jù)集擴展到之前未見的產(chǎn)品類別。
最后是過濾和改進。研究團隊引入了兩階段過濾過程,包括自動過濾和手動策劃。自動過濾階段采用基于規(guī)則的系統(tǒng)和統(tǒng)計方法來消除明顯的不一致性和低質(zhì)量樣本,而手動過濾階段則由專家標(biāo)注者應(yīng)用微妙的判斷來確保語義連貫性和實際相關(guān)性。
研究團隊在MERIT數(shù)據(jù)集上評估了9個最先進的檢索模型,結(jié)果表明,現(xiàn)有檢索方法難以處理交錯多條件語義任務(wù),即使是最好的Recall@1也只有12.05%。此外,研究團隊還識別出幾個關(guān)鍵見解:
首先是視覺條件的必要性。研究團隊在CIRR、FashionIQ和MERIT上使用BGE-VL進行實驗,報告了CIRR的R@1、FashionIQ的R@10和自己數(shù)據(jù)集的結(jié)果。如圖6(a)所示,當(dāng)用相應(yīng)的文字說明替換圖像進行檢索時,F(xiàn)ashionIQ和CIRR的性能沒有顯著下降。相比之下,在MERIT上,無論是替換圖像為相應(yīng)的文字說明(w/o image)還是移除產(chǎn)品標(biāo)題(w/o title),性能都會大幅下降,其中移除圖像導(dǎo)致了特別嚴(yán)重的73.9%的下降。這證明了MERIT數(shù)據(jù)集的有效性,表明圖像和產(chǎn)品標(biāo)題都是不可或缺的組成部分。
其次是交錯支持。如表2所示,將多個圖像連接成單一圖像的方式明顯優(yōu)于順序輸入,如GME-Qwen2VL的連接方式在R@5上比其順序版本提高了119.7%。這與預(yù)訓(xùn)練的多模態(tài)大語言模型支持交錯圖像輸入的事實相矛盾,也與這些模型在視覺理解任務(wù)和零樣本性能上的既定行為不符,在這些任務(wù)中,順序處理通常能通過保留更多的圖像信息而表現(xiàn)更好。研究團隊推測,這種差異可能源于現(xiàn)有檢索數(shù)據(jù)集最多只包含一張圖像,可能導(dǎo)致多模態(tài)大語言模型失去了有效處理交錯輸入的能力。在MERIT上訓(xùn)練后,順序輸入性能提高了14.3%,進一步驗證了這一假設(shè)。這凸顯了MERIT作為首個交錯語義檢索數(shù)據(jù)集的重要性。
最后是分布外場景。研究團隊評估了Qwen2.5-VL在三種分布外場景(類別OOD、語言O(shè)OD和屬性O(shè)OD)上的表現(xiàn),結(jié)果如圖6(b)所示。具體數(shù)值可見附錄中的表7、8、9。特別是在語言O(shè)OD場景中,與全訓(xùn)練(Mixed)相比,性能顯示出明顯的差距;然而,由于激活了多模態(tài)大語言模型的多語言能力,它仍然比零樣本性能有顯著提升。在類別和屬性O(shè)OD場景中,OOD與全訓(xùn)練之間的性能差距相對較小,反映了數(shù)據(jù)集的多樣性。
為什么現(xiàn)有模型表現(xiàn)欠佳?錯誤分析揭示真相
為了深入了解檢索模型在MERIT上表現(xiàn)不佳的原因,研究團隊首先分析了不同語言之間的成功率是否存在相關(guān)性。如圖7(a)所示,統(tǒng)計結(jié)果顯示不同語言之間的差異很小,盡管英語在多模態(tài)大語言模型的初始訓(xùn)練數(shù)據(jù)中占主導(dǎo)地位,但在這里并沒有顯示出明顯優(yōu)勢。
接著,研究團隊隨機選擇了500個查詢,并從Qwen2.5-VL和InternVL 2.5獲取解釋,這兩個模型都經(jīng)過了全參數(shù)對比學(xué)習(xí)訓(xùn)練。專家標(biāo)注者將誤預(yù)測的根本原因分類為五類,詳細(xì)內(nèi)容可見附錄E.5。
這些錯誤類型的分布如圖7(b)所示,揭示屬性和視覺理解錯誤占據(jù)了失敗案例的最大比例。這一分析表明,這些方法忽略了查詢中的條件元素,無法提取特定屬性,并誤解視覺內(nèi)容。這可能源于面向檢索的微調(diào),其中多模態(tài)大語言模型優(yōu)先考慮全局語義信息而非特定語義信息。此外,由于當(dāng)前的檢索數(shù)據(jù)集主要是基于單一圖像的,現(xiàn)有方法無法利用交錯多模態(tài)大語言模型的圖像序列理解能力,正如在第3.3節(jié)中分析的那樣。這種局限性可能導(dǎo)致在理解精確語義方面的失敗,造成屬性提取錯誤(導(dǎo)致屬性錯誤)和視覺特征如圖案的錯誤解釋(導(dǎo)致視覺理解錯誤)。
CORAL:通過對比重建提升多模態(tài)檢索能力
認(rèn)識到忽略查詢中特定條件元素是第3.4節(jié)強調(diào)的錯誤主要來源,研究團隊在第4.1節(jié)中介紹了CORAL框架,以增強基于多模態(tài)大語言模型的檢索器在處理交錯多條件語義檢索任務(wù)時的性能,方法是在將多模態(tài)大語言模型適應(yīng)為檢索模型的微調(diào)過程中整合視覺重建。
在深入CORAL之前,我們先了解一下預(yù)訓(xùn)練的多模態(tài)大語言模型是如何工作的。對于一個常見的多模態(tài)大語言模型,它有圖像和文本輸入。模型首先通過視覺表示骨干網(wǎng)絡(luò)處理圖像,輸出一系列特征。然后,通過學(xué)習(xí)的投影器將這些特征映射為一系列嵌入。最后,將這些嵌入與文本提示嵌入連接起來,傳遞給語言模型。
語言模型生成輸出隱藏狀態(tài),特別是[EOS]位置的隱藏層表示被標(biāo)記為"heos"。最終,這些隱藏狀態(tài)可以轉(zhuǎn)換為文本輸出。多模態(tài)大語言模型的訓(xùn)練目標(biāo)是最小化給定圖像和文本輸入的預(yù)測生成文本的負(fù)對數(shù)似然。
CORAL框架是一種設(shè)計用于將預(yù)訓(xùn)練的多模態(tài)大語言模型適應(yīng)為多模態(tài)檢索模型的微調(diào)方法。它增強了視覺理解能力,同時保留了模型原有的語言理解能力。具體來說,對于一個預(yù)訓(xùn)練的多模態(tài)大語言模型,研究團隊的微調(diào)方法如下:
首先是對比學(xué)習(xí)損失Lcl。研究團隊采用InfoNCE損失進行監(jiān)督對比學(xué)習(xí)。給定N個樣本的批次,其中τ表示溫度系數(shù),qi表示查詢樣本,ki+是對應(yīng)于查詢i的正樣本的編碼向量,對比損失計算如下:
Lcl = -1/N ∑(i=1到N) log(exp(qi·ki+/τ) / ∑(j=1到N) exp(qi·kj/τ))
其次是視覺重建損失Lmse。研究團隊采用一個隨機初始化為BERT層的解碼器。使用完整輸入表示heos作為查詢,計算原始未掩碼嵌入和從解碼器重建的嵌入之間的MSE損失:
Lmse = -1/N ∑(i=1到N) ||E - E||??, 其中E = Fvθ[MASKv(E); heos]
最后是掩碼語言建模損失Lmlm。類似于視覺重建,研究團隊使用解碼器進行重建。為減少可訓(xùn)練參數(shù),解碼器與多模態(tài)大語言模型的語言建模頭共享權(quán)重。掩碼語言建模損失計算如下:
Lmlm = -1/N ∑(i=1到N) log P(xi | X), 其中xi = [Flθ[MASKl(E); heos]](i)
CORAL的整體訓(xùn)練目標(biāo)公式為:
max(θ,θv,θl) L = Lcl + λ1Lreg + λ2Lrec
其中,Lreg和Lrec分別表示使用條件的[EOS]標(biāo)記和目標(biāo)自身的[EOS]標(biāo)記作為注意力查詢對檢索目標(biāo)進行重建。對于這兩個術(shù)語,方程1中引用的注意力鍵和值都來自檢索目標(biāo)的嵌入。每個重建組件都包含圖像重建和語言重建。
為了驗證CORAL的有效性,研究團隊在MERIT和8個已建立的檢索任務(wù)上進行了實驗。MERIT上的主要結(jié)果得出以下結(jié)論:
首先,嵌入重建對檢索性能貢獻顯著。部分特征重建(表3的第6-11行)都能提升模型性能,與僅使用對比學(xué)習(xí)相比,多模態(tài)重建帶來了45.9%的提升。
其次,多模態(tài)重建優(yōu)于部分重建。比較表3的第6-9行和第10-11行,同時重建兩種模態(tài)時性能更好。
第三,順序輸入優(yōu)于圖像連接。根據(jù)第3-5行和第11行的對比,順序輸入實現(xiàn)了更高的性能。研究團隊推測,順序表示比圖像連接保留了更多信息,這與第3.3節(jié)的發(fā)現(xiàn)一致。
最后,全參數(shù)微調(diào)產(chǎn)生最佳結(jié)果。由于檢索任務(wù)與預(yù)訓(xùn)練目標(biāo)之間存在實質(zhì)性差異,全參數(shù)微調(diào)通常產(chǎn)生更好的結(jié)果,這與先前工作的結(jié)論一致。
在八個檢索任務(wù)上的結(jié)果如圖9所示,研究團隊的方法在這些任務(wù)上也實現(xiàn)了一致的改進,特別是在VisDial上,其方法比基線提高了181%。
總結(jié):MERIT為多語言多條件檢索開辟新天地
通過這項研究,ByteDance和浙江大學(xué)的團隊為交錯多條件語義檢索領(lǐng)域帶來了三個重要貢獻:
首先,他們創(chuàng)建了MERIT,這是首個用于交錯多條件語義檢索的多語言數(shù)據(jù)集,并基于它提供了有見地的觀察結(jié)果。
其次,他們識別了現(xiàn)有方法的關(guān)鍵局限性:這些方法僅關(guān)注全局語義信息,而忽略了查詢中的特定條件元素,無法提取特定屬性,并誤解視覺內(nèi)容。
最后,他們提出了CORAL,這個框架結(jié)合了嵌入重建來保留細(xì)粒度條件元素和對比學(xué)習(xí)來提取全面的全局語義,在MERIT數(shù)據(jù)集和八個標(biāo)準(zhǔn)基準(zhǔn)上都展示了強大的性能。
研究還發(fā)現(xiàn)了一個有趣的現(xiàn)象:當(dāng)將多個圖像條件拼接成單一輸入圖像時,現(xiàn)有的基于多模態(tài)大語言模型的檢索系統(tǒng)在R@1上的表現(xiàn)比順序輸入多個圖像高出約16倍,這與多模態(tài)大語言模型在視覺理解任務(wù)上的表現(xiàn)規(guī)律相悖。研究團隊推測,這可能是因為現(xiàn)有的檢索數(shù)據(jù)集最多只包含一張圖片,導(dǎo)致模型在處理交錯輸入時失去了有效處理能力。
總的來說,MERIT項目為交錯多條件語義檢索領(lǐng)域的未來研究奠定了堅實基礎(chǔ),推動了這一領(lǐng)域的技術(shù)進步,也有望在實際應(yīng)用中提升用戶的搜索體驗,尤其是在多語言環(huán)境下的電子商務(wù)平臺。隨著這項技術(shù)的進一步發(fā)展,我們可以期待未來的搜索系統(tǒng)能更好地理解用戶的復(fù)雜查詢意圖,提供更精準(zhǔn)的搜索結(jié)果。
好文章,需要你的鼓勵
新加坡國立大學(xué)研究團隊開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實驗顯示,僅訓(xùn)練AI玩簡單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟大學(xué)團隊開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實現(xiàn)37.9%的精度提升,并在真實設(shè)備上展現(xiàn)出色泛化能力,為機器人、AR和自動駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團隊通過對比實驗發(fā)現(xiàn),經(jīng)過強化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時刻"現(xiàn)象,但這些自我糾錯行為并不能實際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗證差距",即生成答案的能力強于驗證答案質(zhì)量的能力,且模型在自我驗證時無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動態(tài)稀疏性實現(xiàn)大語言模型訓(xùn)練加速1.6倍,計算成本降低2.2倍。該方法使用SVD稀疏性估計器智能選擇重要計算部分,在保持模型性能的同時顯著提升訓(xùn)練效率,已在多個任務(wù)上驗證有效性。