av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 UNITE:東北大學和快手科技合作打造的通用多模態(tài)信息檢索系統(tǒng)

UNITE:東北大學和快手科技合作打造的通用多模態(tài)信息檢索系統(tǒng)

2025-05-31 12:13
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-31 12:13 ? 科技行者

一個團隊帶來了視覺信息檢索領(lǐng)域的重大突破!由東北大學孔帆恒、馮世、楊小翠、王大領(lǐng)與快手科技的張靜源、劉亞輝、張宏志、田宇、Victoria W.、張富正和周國瑞共同完成的這項研究,發(fā)表于2025年5月的arXiv預印本(arXiv:2505.19650v2),為我們帶來了名為UNITE的全新多模態(tài)信息檢索框架。

讓我們先來理解一下這項研究解決的是什么問題。想象你在社交媒體上看到一段有趣的視頻,想找類似內(nèi)容,或者你看到一張圖片,想找與之相關(guān)的文字描述。這類需求被稱為"多模態(tài)信息檢索"(Multimodal Information Retrieval,簡稱MIR)。然而,當前的系統(tǒng)面臨兩大挑戰(zhàn):一是不同類型數(shù)據(jù)(如文字、圖像、視頻)之間存在天然的"模態(tài)差距";二是不同模態(tài)之間的信息對齊十分復雜。雖然以前的研究已經(jīng)發(fā)現(xiàn)這些問題,但還沒有一個系統(tǒng)性的解決方案。

UNITE團隊首次全面分析了模態(tài)特定數(shù)據(jù)屬性如何影響下游任務(wù)表現(xiàn),并提出了"模態(tài)感知掩碼對比學習"(Modal-Aware Masked Contrastive Learning,簡稱MAMCL)技術(shù),有效緩解了不同模態(tài)實例之間的競爭關(guān)系。簡單來說,就像讓不同語言的人在同一個會議室交流時,使用翻譯耳機確保每個人都能正確理解彼此,而不會因語言差異產(chǎn)生誤解。

研究結(jié)果令人振奮!UNITE在多個多模態(tài)檢索基準測試中取得了最先進的成績,超越現(xiàn)有方法達到顯著優(yōu)勢。即使與參數(shù)規(guī)模更大的模型相比,UNITE也表現(xiàn)出色。例如,UNITE的7B參數(shù)版本在MMEB基準測試中達到了70.3%的準確率,超過了擁有26B參數(shù)的IDMR模型(69.2%)。在WebVid-CoVR測試中,UNITE 7B更是達到了72.5%的檢索準確率,遠高于現(xiàn)有最佳方法ECDE的60.1%。

這項研究不僅提升了多模態(tài)信息檢索的性能,還為未來多模態(tài)系統(tǒng)研究提供了基礎(chǔ)藍圖。無論你是研究人員還是對這一領(lǐng)域感興趣的普通讀者,都能從這項工作中獲得對多模態(tài)系統(tǒng)更深入的理解。有興趣深入了解的讀者可以通過論文中提供的項目網(wǎng)站:https://friedrichor.github.io/projects/UNITE 獲取更多信息。

二、多模態(tài)信息檢索的挑戰(zhàn)與UNITE的應(yīng)對之道

多模態(tài)信息檢索就像是一個能同時理解多種語言的翻譯官,需要在文字、圖像和視頻等不同"語言"之間自如切換。然而,這些不同"語言"之間存在著巨大的差異,就像中文和英文有著不同的語法結(jié)構(gòu)一樣,文字和圖像的表達方式也截然不同。

研究團隊發(fā)現(xiàn),當前的方法主要關(guān)注于雙模態(tài)場景(如文本-圖像或文本-視頻檢索),但隨著社交媒體的發(fā)展,用戶需求變得更加復雜,例如希望基于一段視頻和一段文字描述來查找類似視頻。這種復合模態(tài)的檢索任務(wù)被稱為"融合模態(tài)檢索",需要處理交錯的多模態(tài)查詢和候選項,對系統(tǒng)的要求更高。

現(xiàn)有的大型多模態(tài)模型(LMMs)雖然在多種視覺-語言任務(wù)上表現(xiàn)出色,但在檢索任務(wù)方面仍有局限。例如,E5-V通過使用純文本數(shù)據(jù)微調(diào)LLaVA-NeXT,展示了LMMs在多模態(tài)檢索中的潛力;GME通過微調(diào)Qwen2-VL在多種圖像-文本檢索任務(wù)中取得領(lǐng)先成績;InternVideo2則因其上億視頻-文本對的訓練而在文本-視頻檢索中表現(xiàn)突出。然而,這些模型受限于其專注的特定模態(tài),無法充分發(fā)揮LLMs在生成統(tǒng)一多模態(tài)嵌入方面的潛力。

盡管有研究探索了LMMs在MIR中的訓練策略,包括模型架構(gòu)、訓練方法和數(shù)據(jù)集考量,但仍有關(guān)鍵問題未解決:最佳的數(shù)據(jù)組成和比例是什么?不同模態(tài)數(shù)據(jù)配置如何影響各種檢索任務(wù)?研究團隊通過實證調(diào)查發(fā)現(xiàn),不適當?shù)亩嗄B(tài)數(shù)據(jù)組合或訓練序列容易破壞多樣化數(shù)據(jù)模態(tài)的和諧整合,導致模型錯誤理解不同類型信息之間的關(guān)系。

UNITE的創(chuàng)新之處在于,研究團隊通過精心分析不同數(shù)據(jù)組成對檢索結(jié)果的影響,努力在文本、圖像和視頻三種模態(tài)之間取得平衡。特別是,他們發(fā)現(xiàn)在檢索適應(yīng)階段引入少量精細的視頻-文本對可顯著提升LMMs的精細檢索性能。同時,他們提出的MAMCL方法能有效平衡不同模態(tài)實例間的競爭關(guān)系,提高表示學習的質(zhì)量。

三、UNITE的技術(shù)架構(gòu)與工作原理

UNITE的核心是一個能同時處理文本、圖像、視頻及其組合的統(tǒng)一框架。就像一個精通多國語言的翻譯,它能將不同類型的信息轉(zhuǎn)換為一種"通用語言",使它們能夠在同一空間中進行比較和匹配。

在技術(shù)層面,UNITE利用大型多模態(tài)模型(LMM)作為骨干,這些模型由三個關(guān)鍵組件組成:大型語言模型、視覺編碼器和視覺投影器。這種架構(gòu)設(shè)計使UNITE能夠流暢地處理文本、圖像、視頻及其融合形式。當輸入進入系統(tǒng)時,UNITE使用提示模板引導處理過程,例如:

``` \n\nSummarize above in one word: ```

其中``和``是視覺內(nèi)容(圖像、視頻)和文本句子的占位符,``指定輸入模態(tài)類型。比如,對于視頻-文本輸入,會使用以下提示:

```

UNITE的訓練采用兩階段策略:檢索適應(yīng)和指令調(diào)優(yōu)。在第一階段,模型通過各種信息場景學習基本檢索能力,適應(yīng)不同檢索任務(wù)的特性和要求。第二階段通過MMEB等綜合數(shù)據(jù)集進行指令調(diào)優(yōu),引入復雜的融合模態(tài)檢索場景,實現(xiàn)更復雜和細致的檢索理解。

UNITE的一大創(chuàng)新是提出的模態(tài)感知掩碼對比學習(MAMCL)。傳統(tǒng)多模態(tài)檢索模型通常使用標準InfoNCE損失進行對比學習,這種方法忽略了不同模態(tài)組合在檢索任務(wù)中的內(nèi)在差異性。例如,僅從文本派生的嵌入和來自多模態(tài)源的嵌入通常在特征空間中顯示出顯著差異。在聯(lián)合對比學習中,模型難以平衡來自不同模態(tài)的多樣信息,導致無法充分捕捉每種模態(tài)的語義豐富性。

MAMCL通過引入模態(tài)感知約束來緩解各種目標模態(tài)實例之間的競爭關(guān)系。具體來說,它計算批次樣本之間的相似性矩陣,但引入一個模態(tài)掩碼矩陣,確保每個查詢只考慮與其目標候選項具有相同模態(tài)的候選項。這就像在多語言派對中,確保說同一種語言的人首先互相交流,避免因語言障礙產(chǎn)生的誤解。

四、UNITE的實驗設(shè)計與研究成果

研究團隊進行了全面的實驗評估,覆蓋了40多個不同的檢索任務(wù),包括粗粒度、細粒度和基于指令的檢索,橫跨文本、圖像和視頻。他們使用Qwen2-VL作為模型骨干,進行了2B和7B參數(shù)規(guī)模的實驗。

在檢索適應(yīng)階段,團隊精心策劃了一個多樣化的700萬實例數(shù)據(jù)集,涵蓋四類:(1)文本-文本對,來自MSMARCO、NLI等數(shù)據(jù)集;(2)圖像-文本對,來自CapsFusion、LAION-Art和MSCOCO;(3)視頻-文本對,來自InternVid-10M-FLT;(4)細粒度視頻-字幕對,來自Tarsier2-Recap-585K。指令調(diào)優(yōu)階段結(jié)合了MMEB和WebVid-CoVR作為訓練集。

在細粒度檢索任務(wù)上,UNITE展現(xiàn)了令人印象深刻的性能。在CaReBench上,UNITEbase 7B在CaRe-General和CaRe-Spatial任務(wù)中顯著超越現(xiàn)有方法,這得益于在檢索適應(yīng)階段納入細粒度視頻-字幕對,增強了LMMs的特征表示能力。雖然2B模型在一般和空間檢索任務(wù)上優(yōu)于所有基線,但在時間檢索表現(xiàn)中等。擴展到7B后,模型在一般、空間和時間任務(wù)上都獲得顯著提升。值得注意的是,與2B模型相比,7B模型在時間檢索上獲得最大相對提升(如15.7%和10.8%),表明更大規(guī)模的模型在處理視頻時間方面的任務(wù)時更有優(yōu)勢。

在基于指令的檢索任務(wù)上,UNITEinstruct 2B在WebVid-CoVR-Test上大幅超越現(xiàn)有模型,將模型規(guī)模擴展到7B后進一步提升優(yōu)勢。在MMEB基準測試中,UNITEinstruct超越了各種不同參數(shù)規(guī)模的現(xiàn)有模型,包括參數(shù)規(guī)模更大的模型(如mmE5 11B和IDMR 26B)和使用更廣泛數(shù)據(jù)集訓練的模型(如使用2600萬圖像-文本檢索樣本訓練的MMRet)。

研究團隊還進行了詳細的消融研究,驗證了MAMCL的有效性。結(jié)果顯示,當將MMEB訓練集集成到訓練過程中時,在WebVid-CoVR上性能下降,證實了研究團隊的假設(shè):具有不同目標模態(tài)的樣本之間可能發(fā)生跨模態(tài)干擾。MAMCL成功緩解了這些跨模態(tài)效應(yīng),特別是在分布內(nèi)(IND)場景中帶來顯著改進,驗證了其在訓練分布對齊的場景中的有效性。

五、UNITE的數(shù)據(jù)組成分析與洞察

研究團隊對訓練數(shù)據(jù)組成進行了系統(tǒng)性調(diào)查,這是多模態(tài)檢索領(lǐng)域一個尚未充分探索的重要問題。他們使用文本-文本(TT)、文本-圖像(TI)和文本-視頻(TV)數(shù)據(jù)集進行綜合實驗,評估不同數(shù)據(jù)組合對各種檢索任務(wù)的影響。

一個令人驚訝的發(fā)現(xiàn)是,視頻-文本對在通用跨模態(tài)檢索中表現(xiàn)出色。TV-only訓練模式在所有跨模態(tài)檢索任務(wù)中始終優(yōu)于其他配置。值得注意的是,在圖像-文本檢索任務(wù)中,僅使用TV數(shù)據(jù)的訓練表現(xiàn)優(yōu)于僅使用TI數(shù)據(jù)的訓練。這一發(fā)現(xiàn)挑戰(zhàn)了傳統(tǒng)圖像-文本研究中的既定發(fā)現(xiàn),表明需要重新評估傳統(tǒng)數(shù)據(jù)選擇策略。

另一個重要發(fā)現(xiàn)是,文本-文本和文本-圖像對對指令遵循任務(wù)至關(guān)重要。TT+TI訓練總體上在指令檢索任務(wù)中優(yōu)于其他組合,包括在通用跨模態(tài)檢索中表現(xiàn)出色的TV-only配置。這可歸因于兩個關(guān)鍵因素:(1)文本-文本對增強語言理解和邏輯推理能力,為復雜檢索指令的解釋建立堅實基礎(chǔ);(2)文本-圖像對提供精確的多模態(tài)對齊信息,相較于視頻內(nèi)容能形成更專注的語義連接。

研究團隊還探索了高效利用細粒度視頻-字幕數(shù)據(jù)的策略。近期視頻LMMs產(chǎn)生了強大的字幕模型和細粒度數(shù)據(jù)集,如LLaVA-Video-178K。CaRe研究表明,在檢索適應(yīng)前使用這些視頻-字幕對微調(diào)LMMs可顯著提升細粒度視頻檢索性能。但一個限制是,CaRe的檢索適應(yīng)階段僅依賴文本-文本對。

為解決這個問題,研究團隊進行了廣泛實驗,發(fā)現(xiàn):(1)在檢索適應(yīng)過程中利用TV對比細粒度對齊帶來更顯著的性能提升;(2)在檢索適應(yīng)過程中獨家使用細粒度視頻-文本對會在CaReBench上帶來顯著提升,但會嚴重降低模型的粗粒度檢索能力;(3)將細粒度TV對整合到通用TV數(shù)據(jù)中可實現(xiàn)平衡表現(xiàn),使模型在粗粒度和細粒度視頻-文本檢索任務(wù)中都取得競爭性結(jié)果。

這些發(fā)現(xiàn)揭示了一個關(guān)鍵洞察:在檢索適應(yīng)階段,直接整合細粒度視頻-字幕對比實施獨立的細粒度對齊階段更有效。

六、UNITE的實際應(yīng)用與未來展望

UNITE作為一個統(tǒng)一的多模態(tài)嵌入框架,為實際應(yīng)用打開了廣闊的可能性。想象一個社交媒體平臺,用戶可以通過文字描述、圖像截圖或短視頻片段找到感興趣的內(nèi)容;或者一個電子商務(wù)平臺,消費者可以通過產(chǎn)品圖片和文字描述精確定位所需商品;甚至是一個教育平臺,學生可以使用多種形式的查詢找到相關(guān)的學習資源。

UNITE的一個顯著優(yōu)勢是它能同時處理文本、圖像、視頻和它們的組合,這在許多實際場景中非常有價值。例如,當你看到一段視頻中的風景,想找類似場景但具有特定天氣條件的視頻時,可以結(jié)合視頻片段和文字描述(如"多云的")作為查詢條件。傳統(tǒng)系統(tǒng)難以處理這種復合查詢,而UNITE能夠自然地理解和處理這種混合模態(tài)的信息需求。

研究團隊在論文中承認,盡管UNITE在文本、圖像和視頻模態(tài)上表現(xiàn)出色,但將音頻作為另一個潛在模態(tài)納入考慮范圍仍面臨挑戰(zhàn)。隨著社交媒體的發(fā)展,音頻內(nèi)容變得越來越重要,平衡多種模態(tài)仍需要進一步研究。此外,雖然圖像-文本檢索已有全面的基準測試,但開發(fā)一個涵蓋文本、圖像、視頻,甚至可能的音頻模態(tài)的統(tǒng)一基準測試,代表著未來研究的重要方向。

UNITE提供的模態(tài)感知掩碼對比學習(MAMCL)策略可作為一種通用方法,適用于任何擴展模態(tài)場景。這意味著隨著新模態(tài)(如音頻、觸覺等)的引入,MAMCL可以幫助平衡不同模態(tài)間的關(guān)系,確保它們能和諧共存于同一表示空間。

研究團隊的工作不僅提升了多模態(tài)信息檢索的性能,還為未來多模態(tài)系統(tǒng)研究提供了基礎(chǔ)藍圖。通過系統(tǒng)分析訓練數(shù)據(jù)組成如何影響最終檢索性能,他們揭示了以前在圖像-文本和視頻-文本檢索場景中未得到充分探索的新見解。基于這些洞察,他們提出了數(shù)據(jù)組成和分配策略,并引入MAMCL來緩解跨實例競爭,同時保持文本、圖像和視頻之間的表示學習平衡。

七、結(jié)論:UNITE如何改變多模態(tài)信息檢索的未來

歸根結(jié)底,UNITE代表了多模態(tài)信息檢索領(lǐng)域的一次重要突破。通過引入能夠無縫整合文本、圖像和視頻模態(tài)的通用框架,這項研究為我們展示了未來信息檢索系統(tǒng)的發(fā)展方向。

UNITE的成功在于其系統(tǒng)性地解決了兩個核心挑戰(zhàn):數(shù)據(jù)策劃和模態(tài)感知訓練配置。研究團隊通過詳盡分析不同數(shù)據(jù)組成對檢索性能的影響,發(fā)現(xiàn)了視頻-文本對在跨模態(tài)檢索中的優(yōu)勢,以及文本-文本與文本-圖像對在指令遵循任務(wù)中的重要性。他們提出的MAMCL方法有效解決了不同模態(tài)實例間的競爭關(guān)系,使模型能夠更好地理解和表示多種模態(tài)的信息。

實驗結(jié)果令人信服地證明了UNITE的優(yōu)越性。在40多個涵蓋粗粒度、細粒度和基于指令的檢索任務(wù)的測試中,UNITE取得了最先進的成績,甚至超越了參數(shù)規(guī)模更大的模型。這不僅證明了UNITE技術(shù)方案的有效性,也表明了戰(zhàn)略性模態(tài)策劃和定制訓練協(xié)議對穩(wěn)健跨模態(tài)表示學習的關(guān)鍵作用。

對于普通用戶來說,UNITE意味著更直觀、更精確的信息檢索體驗。無論是尋找特定類型的內(nèi)容,還是基于復雜條件進行查詢,UNITE都能提供更好的結(jié)果。對于開發(fā)者和研究人員,UNITE提供了一個強大的框架和寶貴的見解,為構(gòu)建下一代多模態(tài)系統(tǒng)鋪平了道路。

盡管UNITE取得了顯著成功,但仍有改進空間。例如,將音頻納入統(tǒng)一表示空間,以及為更廣泛的模態(tài)組合開發(fā)更全面的基準測試,都是未來值得探索的方向。

總之,UNITE代表了多模態(tài)信息檢索領(lǐng)域的一個重要里程碑,不僅提升了當前系統(tǒng)的性能,還為未來研究提供了堅實基礎(chǔ)。隨著技術(shù)的不斷發(fā)展,我們可以期待像UNITE這樣的系統(tǒng)在信息檢索、內(nèi)容推薦和人機交互等領(lǐng)域帶來更多創(chuàng)新和改進。

對這項研究感興趣的讀者可以通過項目網(wǎng)站(https://friedrichor.github.io/projects/UNITE)了解更多詳細信息,或查閱完整論文(arXiv:2505.19650v2)獲取技術(shù)細節(jié)。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-