一個團隊帶來了視覺信息檢索領(lǐng)域的重大突破!由東北大學孔帆恒、馮世、楊小翠、王大領(lǐng)與快手科技的張靜源、劉亞輝、張宏志、田宇、Victoria W.、張富正和周國瑞共同完成的這項研究,發(fā)表于2025年5月的arXiv預印本(arXiv:2505.19650v2),為我們帶來了名為UNITE的全新多模態(tài)信息檢索框架。
讓我們先來理解一下這項研究解決的是什么問題。想象你在社交媒體上看到一段有趣的視頻,想找類似內(nèi)容,或者你看到一張圖片,想找與之相關(guān)的文字描述。這類需求被稱為"多模態(tài)信息檢索"(Multimodal Information Retrieval,簡稱MIR)。然而,當前的系統(tǒng)面臨兩大挑戰(zhàn):一是不同類型數(shù)據(jù)(如文字、圖像、視頻)之間存在天然的"模態(tài)差距";二是不同模態(tài)之間的信息對齊十分復雜。雖然以前的研究已經(jīng)發(fā)現(xiàn)這些問題,但還沒有一個系統(tǒng)性的解決方案。
UNITE團隊首次全面分析了模態(tài)特定數(shù)據(jù)屬性如何影響下游任務(wù)表現(xiàn),并提出了"模態(tài)感知掩碼對比學習"(Modal-Aware Masked Contrastive Learning,簡稱MAMCL)技術(shù),有效緩解了不同模態(tài)實例之間的競爭關(guān)系。簡單來說,就像讓不同語言的人在同一個會議室交流時,使用翻譯耳機確保每個人都能正確理解彼此,而不會因語言差異產(chǎn)生誤解。
研究結(jié)果令人振奮!UNITE在多個多模態(tài)檢索基準測試中取得了最先進的成績,超越現(xiàn)有方法達到顯著優(yōu)勢。即使與參數(shù)規(guī)模更大的模型相比,UNITE也表現(xiàn)出色。例如,UNITE的7B參數(shù)版本在MMEB基準測試中達到了70.3%的準確率,超過了擁有26B參數(shù)的IDMR模型(69.2%)。在WebVid-CoVR測試中,UNITE 7B更是達到了72.5%的檢索準確率,遠高于現(xiàn)有最佳方法ECDE的60.1%。
這項研究不僅提升了多模態(tài)信息檢索的性能,還為未來多模態(tài)系統(tǒng)研究提供了基礎(chǔ)藍圖。無論你是研究人員還是對這一領(lǐng)域感興趣的普通讀者,都能從這項工作中獲得對多模態(tài)系統(tǒng)更深入的理解。有興趣深入了解的讀者可以通過論文中提供的項目網(wǎng)站:https://friedrichor.github.io/projects/UNITE 獲取更多信息。
二、多模態(tài)信息檢索的挑戰(zhàn)與UNITE的應(yīng)對之道
多模態(tài)信息檢索就像是一個能同時理解多種語言的翻譯官,需要在文字、圖像和視頻等不同"語言"之間自如切換。然而,這些不同"語言"之間存在著巨大的差異,就像中文和英文有著不同的語法結(jié)構(gòu)一樣,文字和圖像的表達方式也截然不同。
研究團隊發(fā)現(xiàn),當前的方法主要關(guān)注于雙模態(tài)場景(如文本-圖像或文本-視頻檢索),但隨著社交媒體的發(fā)展,用戶需求變得更加復雜,例如希望基于一段視頻和一段文字描述來查找類似視頻。這種復合模態(tài)的檢索任務(wù)被稱為"融合模態(tài)檢索",需要處理交錯的多模態(tài)查詢和候選項,對系統(tǒng)的要求更高。
現(xiàn)有的大型多模態(tài)模型(LMMs)雖然在多種視覺-語言任務(wù)上表現(xiàn)出色,但在檢索任務(wù)方面仍有局限。例如,E5-V通過使用純文本數(shù)據(jù)微調(diào)LLaVA-NeXT,展示了LMMs在多模態(tài)檢索中的潛力;GME通過微調(diào)Qwen2-VL在多種圖像-文本檢索任務(wù)中取得領(lǐng)先成績;InternVideo2則因其上億視頻-文本對的訓練而在文本-視頻檢索中表現(xiàn)突出。然而,這些模型受限于其專注的特定模態(tài),無法充分發(fā)揮LLMs在生成統(tǒng)一多模態(tài)嵌入方面的潛力。
盡管有研究探索了LMMs在MIR中的訓練策略,包括模型架構(gòu)、訓練方法和數(shù)據(jù)集考量,但仍有關(guān)鍵問題未解決:最佳的數(shù)據(jù)組成和比例是什么?不同模態(tài)數(shù)據(jù)配置如何影響各種檢索任務(wù)?研究團隊通過實證調(diào)查發(fā)現(xiàn),不適當?shù)亩嗄B(tài)數(shù)據(jù)組合或訓練序列容易破壞多樣化數(shù)據(jù)模態(tài)的和諧整合,導致模型錯誤理解不同類型信息之間的關(guān)系。
UNITE的創(chuàng)新之處在于,研究團隊通過精心分析不同數(shù)據(jù)組成對檢索結(jié)果的影響,努力在文本、圖像和視頻三種模態(tài)之間取得平衡。特別是,他們發(fā)現(xiàn)在檢索適應(yīng)階段引入少量精細的視頻-文本對可顯著提升LMMs的精細檢索性能。同時,他們提出的MAMCL方法能有效平衡不同模態(tài)實例間的競爭關(guān)系,提高表示學習的質(zhì)量。
三、UNITE的技術(shù)架構(gòu)與工作原理
UNITE的核心是一個能同時處理文本、圖像、視頻及其組合的統(tǒng)一框架。就像一個精通多國語言的翻譯,它能將不同類型的信息轉(zhuǎn)換為一種"通用語言",使它們能夠在同一空間中進行比較和匹配。
在技術(shù)層面,UNITE利用大型多模態(tài)模型(LMM)作為骨干,這些模型由三個關(guān)鍵組件組成:大型語言模型、視覺編碼器和視覺投影器。這種架構(gòu)設(shè)計使UNITE能夠流暢地處理文本、圖像、視頻及其融合形式。當輸入進入系統(tǒng)時,UNITE使用提示模板引導處理過程,例如:
``` \n\nSummarize above in one word: ```
其中``和``是視覺內(nèi)容(圖像、視頻)和文本句子的占位符,``指定輸入模態(tài)類型。比如,對于視頻-文本輸入,會使用以下提示:
```
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機制和漸進式訓練,能夠?qū)碗s指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學習外觀和運動信息,顯著解決了當前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓練數(shù)據(jù)集和MM-AlignBench評測基準,通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預報,準確性超越傳統(tǒng)方法90%的指標。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學習40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學領(lǐng)域帶來了效率和精度的雙重突破。