這項由Salesforce研究院聯(lián)合加州大學圣芭芭拉分校、滑鐵盧大學以及清華大學的研究團隊完成的重要研究發(fā)表于2025年7月,研究論文可通過arXiv:2507.04590獲取。研究團隊提出了VLM2Vec-V2這一突破性的多模態(tài)嵌入模型,并構(gòu)建了全新的MMEB-V2評估基準。這項研究首次實現(xiàn)了對文本、圖片、視頻和可視化文檔的統(tǒng)一理解和處理,為人工智能在多媒體內(nèi)容理解方面帶來了重大進展。
人工智能理解多媒體內(nèi)容就像人類學習語言一樣復雜。當嬰兒開始認識世界時,他們不僅要學會理解文字,還要學會看懂圖片,理解視頻中的動作,甚至讀懂各種文檔。然而現(xiàn)有的人工智能模型大多只擅長其中一兩種能力,就好比有些人擅長閱讀文字,有些人善于看圖,但很少有人能同時精通所有這些技能。
研究團隊發(fā)現(xiàn)了一個關(guān)鍵問題:目前的多模態(tài)人工智能模型主要專注于理解靜態(tài)的自然圖片,比如風景照片或者日常生活場景,但對于視頻和各種格式的文檔卻力不從心。這就像一個只會看靜態(tài)圖片的人突然要去看電影或者閱讀復雜的圖表文檔一樣困難。在現(xiàn)實生活中,我們需要處理的視覺信息遠比靜態(tài)圖片豐富得多,包括動態(tài)的視頻內(nèi)容、結(jié)構(gòu)化的文檔、演示文稿等等。
為了解決這個問題,研究團隊開發(fā)了VLM2Vec-V2模型。這個模型的工作原理可以用學習多種語言的過程來類比。就像一個語言天才能夠同時掌握中文、英文、法文和日文,并且能夠在這些語言之間自由切換和翻譯一樣,VLM2Vec-V2能夠同時理解文本、圖片、視頻和文檔這四種不同的"語言",并且能夠在它們之間建立聯(lián)系。
同時,研究團隊還創(chuàng)建了MMEB-V2這個全新的評估體系。如果說現(xiàn)有的評估標準就像只考察學生閱讀理解能力的單一考試,那么MMEB-V2就像是一個全面的綜合能力測試,不僅要考察閱讀理解,還要測試看圖說話、視頻分析、文檔理解等多方面的能力。這個評估體系包含了78個不同的任務,覆蓋了9個主要的能力類別,確保能夠全面檢驗人工智能模型的多媒體理解能力。
一、突破傳統(tǒng)局限:從單一模態(tài)到全方位理解
傳統(tǒng)的多模態(tài)人工智能模型就像專門學科的專家,每個人只精通自己的領域。比如有專門的圖片識別專家,有專門的文本理解專家,還有專門的視頻分析專家,但是讓他們合作處理復雜的多媒體任務時,就會出現(xiàn)各種協(xié)調(diào)問題。
現(xiàn)有的評估數(shù)據(jù)集也存在類似的問題。它們主要關(guān)注的是像MSCOCO、Flickr這樣的自然圖片數(shù)據(jù)集,這些數(shù)據(jù)集就像是一個只收錄風景照和生活照的相冊,雖然涵蓋了很多美麗的圖片,但是缺少了現(xiàn)實世界中更豐富的視覺內(nèi)容類型?,F(xiàn)實生活中,我們每天都要處理各種類型的視覺信息:觀看YouTube視頻、閱讀PDF文檔、瀏覽網(wǎng)頁、查看演示文稿等等。
VLM2Vec-V2的出現(xiàn)就像是培養(yǎng)了一個全能型的人才。這個模型基于Qwen2-VL架構(gòu),選擇這個架構(gòu)的原因很有趣,就像選擇一個有良好基礎的學生來培養(yǎng)多項技能一樣。Qwen2-VL具有幾個關(guān)鍵特性:它能夠處理不同分辨率的輸入內(nèi)容,就像一個視力很好的人能夠同時看清遠處的大屏幕和近處的小字;它還具有多模態(tài)旋轉(zhuǎn)位置編碼技術(shù),這就像給模型裝上了一個精準的定位系統(tǒng),能夠理解內(nèi)容在空間和時間上的關(guān)系;最重要的是,它采用了統(tǒng)一的架構(gòu)來處理2D圖片和3D視頻,就像用同一套思維框架來理解靜態(tài)畫面和動態(tài)影像。
二、創(chuàng)新的統(tǒng)一表示學習:讓不同媒體說同一種語言
VLM2Vec-V2的核心創(chuàng)新在于它的統(tǒng)一表示學習方法,這個過程就像是教會不同國家的人說同一種世界語。在現(xiàn)實世界中,文本、圖片、視頻和文檔雖然形式不同,但它們都承載著信息,VLM2Vec-V2要做的就是找到一種通用的"翻譯方法",讓計算機能夠用同一套"語言"來理解這些不同形式的內(nèi)容。
這個統(tǒng)一表示的過程采用了對比學習的方法??梢园堰@個過程想象成學習配對游戲:給定一段文字描述和一個視頻片段,模型需要判斷它們是否在講同一件事情。通過大量這樣的配對練習,模型逐漸學會了如何在不同媒體之間建立聯(lián)系。比如,當模型看到"一只貓在追球"這段文字時,它需要能夠從眾多視頻中準確找出真正展示貓咪追球的那個視頻。
為了實現(xiàn)這個目標,研究團隊設計了一套巧妙的數(shù)據(jù)格式化方法。每個訓練樣本都被重新包裝成指令-查詢的形式,就像給每個學習任務都配上了詳細的說明書。比如,對于視頻檢索任務,指令可能是"找到包含以下視覺內(nèi)容的視頻",然后跟上具體的查詢內(nèi)容。這種設計讓模型能夠理解不同任務的具體要求,從而做出更準確的判斷。
模型的訓練過程采用了InfoNCE損失函數(shù),這個技術(shù)名詞聽起來很復雜,但實際原理很簡單。就像是在玩一個"找不同"的游戲:給模型展示一個正確的配對(比如一段文字和匹配的圖片),同時給出很多錯誤的配對作為干擾項,模型需要學會從眾多選項中挑出正確的那一個。通過反復練習這樣的游戲,模型的判斷能力逐漸提高。
三、數(shù)據(jù)采樣的藝術(shù):平衡不同來源的訓練營養(yǎng)
訓練VLM2Vec-V2就像是為一個成長中的孩子制定營養(yǎng)均衡的飲食計劃。不同類型的數(shù)據(jù)就像不同的營養(yǎng)成分,需要合理搭配才能確保模型健康成長。研究團隊設計了一套精心的數(shù)據(jù)采樣策略來解決這個問題。
首先是批量混合策略,這就像是在每頓飯中都要包含蛋白質(zhì)、碳水化合物和維生素一樣。研究團隊建立了一個采樣權(quán)重表,規(guī)定從不同數(shù)據(jù)集中抽取樣本的概率,確保模型在訓練過程中能夠接觸到各種類型的任務,不會因為某一類數(shù)據(jù)過多而產(chǎn)生偏好。
更有趣的是交錯子批次策略。傳統(tǒng)的訓練方法就像是讓學生連續(xù)幾個小時只學數(shù)學,然后連續(xù)幾個小時只學語文,這樣容易造成學習疲勞和知識偏向。而交錯子批次策略則像是讓學生在一堂課中輪流學習不同科目:先學一點數(shù)學,再學一點語文,然后學一點英語,這樣既保持了學習的新鮮感,又確保了各科目的均衡發(fā)展。
具體來說,研究團隊將一個大的訓練批次分成若干個小的子批次,每個子批次內(nèi)的樣本來自同一個數(shù)據(jù)源,這樣增加了對比學習的難度(因為相似的樣本更難區(qū)分),但多個子批次交錯在一起又保持了訓練的多樣性。這種策略在實驗中被證明能夠顯著提升模型的性能,特別是在視覺文檔和視頻任務上。
四、MMEB-V2:史上最全面的多模態(tài)理解考試
如果說訓練模型是教育過程,那么評估就是考試。MMEB-V2可以說是迄今為止最全面的多模態(tài)人工智能"高考",它不僅要考察模型的基礎能力,還要測試其在各種復雜場景下的應用能力。
這個評估體系的設計理念就像是設計一個全能運動員的選拔賽。不僅要測試跑步、跳躍這些基礎運動能力,還要考察游泳、球類運動、體操等各種專項技能。MMEB-V2包含了78個不同的任務,分為9個主要類別,每個類別都對應著現(xiàn)實世界中的重要應用場景。
在視頻理解方面,MMEB-V2設計了五個不同的測試環(huán)節(jié)。視頻檢索任務就像是在一個巨大的視頻庫中找到特定內(nèi)容,模型需要根據(jù)文字描述準確定位相關(guān)視頻。時刻檢索則更加精細,要求模型不僅找到正確的視頻,還要定位到視頻中的特定時間段,就像在一部兩小時的電影中找到某個特定的5分鐘片段。視頻分類任務考察的是模型對視頻內(nèi)容的理解能力,需要判斷視頻展示的是什么活動或場景。視頻問答則測試模型的推理能力,要求它根據(jù)視頻內(nèi)容回答相關(guān)問題。
在視覺文檔理解方面,MMEB-V2涵蓋了現(xiàn)代工作和學習中最常見的文檔類型。這包括學術(shù)論文、技術(shù)報告、演示文稿、圖表、表格等各種形式的文檔。模型需要能夠理解這些文檔的結(jié)構(gòu)和內(nèi)容,并根據(jù)用戶的查詢找到相關(guān)信息。這就像是測試一個人是否能夠快速閱讀和理解各種工作文件的能力。
評估過程中使用的指標也很有針對性。對于大多數(shù)任務,研究團隊使用Hit@1作為主要評估指標,這意味著模型的第一個答案必須是正確的,就像考試中的選擇題一樣,沒有第二次機會。對于文檔檢索任務,則使用NDCG@5指標,這個指標不僅關(guān)注準確性,還關(guān)注結(jié)果的排序質(zhì)量,就像搜索引擎需要把最相關(guān)的結(jié)果排在前面一樣。
五、實驗結(jié)果:全面領先的性能表現(xiàn)
當VLM2Vec-V2接受MMEB-V2的全面測試時,其表現(xiàn)可以用"全面領先"來形容。在78個不同的測試任務中,VLM2Vec-V2獲得了58.0的總體平均分,這個成績明顯超過了所有對比的基線模型。
更令人印象深刻的是,VLM2Vec-V2雖然只有20億個參數(shù)(相對較小),但在圖像任務上的表現(xiàn)卻能夠匹敵擁有70億參數(shù)的大型模型。這就像是一個輕量級拳擊手在重量級比賽中獲得了優(yōu)秀成績,充分說明了模型設計的優(yōu)越性。
在具體的任務類別上,VLM2Vec-V2在圖像相關(guān)任務中表現(xiàn)出色,平均得分64.9,在圖像分類、視覺問答、圖像檢索和視覺定位等各個子任務上都取得了競爭性的結(jié)果。特別值得注意的是,在一些具有挑戰(zhàn)性的數(shù)據(jù)集上,比如ImageNet-A(對抗樣本)和ImageNet-R(真實世界變體),VLM2Vec-V2都表現(xiàn)出了良好的魯棒性。
在視頻理解任務上,雖然VLM2Vec-V2的訓練數(shù)據(jù)中視頻內(nèi)容相對較少,但仍然取得了34.6的平均分,這在視頻分類、視頻問答、視頻檢索和時刻檢索等各個子任務上都體現(xiàn)了模型的通用性。這就像一個主要學習靜態(tài)圖片的學生在動態(tài)視頻理解考試中也能取得不錯的成績,說明了模型良好的知識遷移能力。
在視覺文檔理解方面,VLM2Vec-V2取得了65.4的平均分,雖然仍然落后于專門為文檔檢索設計的ColPali模型,但相比其他通用模型已經(jīng)有了顯著提升。這個結(jié)果說明統(tǒng)一的多模態(tài)訓練確實能夠提升模型在各個領域的表現(xiàn),而不需要為每個特定任務單獨設計模型。
六、深入分析:模態(tài)組合的科學藝術(shù)
為了更深入地理解不同類型數(shù)據(jù)對模型性能的影響,研究團隊進行了系統(tǒng)的消融實驗。這些實驗就像是營養(yǎng)學研究中分析不同食物成分對健康影響的實驗一樣,通過控制變量來找出最優(yōu)的"配方"。
研究團隊分別訓練了只使用單一模態(tài)數(shù)據(jù)的模型、使用兩種模態(tài)組合的模型,以及使用全部三種模態(tài)的模型。結(jié)果顯示,在單一模態(tài)訓練中,使用圖像數(shù)據(jù)訓練的模型獲得了最高的平均性能,這可能是因為圖像數(shù)據(jù)的質(zhì)量和數(shù)量都比較優(yōu)秀。
更有趣的發(fā)現(xiàn)是,當組合不同模態(tài)的數(shù)據(jù)時,性能并不是簡單的疊加關(guān)系。圖像加視頻的組合在圖像任務上略微優(yōu)于圖像加文檔的組合,但在文檔任務上則相反。而當三種模態(tài)全部結(jié)合時,模型在視覺文檔任務上獲得了最佳性能,總體平均分也達到了最高。
這個結(jié)果告訴我們,多模態(tài)學習中存在著微妙的相互促進關(guān)系。就像學習音樂的人往往在數(shù)學方面也表現(xiàn)出色一樣,訓練模型理解不同類型的視覺內(nèi)容能夠相互促進,提升整體的理解能力。
研究團隊還測試了不同的子批次大小對訓練效果的影響。結(jié)果顯示,適中的子批次大?。?4)在圖像任務上表現(xiàn)最佳,而較大的子批次大小對視頻和文檔任務更有利。這個發(fā)現(xiàn)為未來的多模態(tài)模型訓練提供了重要的參考依據(jù)。
在模型設置方面,研究團隊發(fā)現(xiàn)LoRA rank為16時模型性能最佳,過大或過小的rank都會影響性能。同時,隨著訓練步數(shù)的增加,所有三個模態(tài)的性能都在持續(xù)提升,特別是視覺文檔和視頻任務,這暗示著更長時間的訓練可能會帶來進一步的性能提升。
七、技術(shù)創(chuàng)新的深層機制
VLM2Vec-V2的成功不是偶然的,而是多項技術(shù)創(chuàng)新協(xié)同作用的結(jié)果。其中最核心的創(chuàng)新是統(tǒng)一的多模態(tài)數(shù)據(jù)格式化方法。這種方法就像是發(fā)明了一種通用的"翻譯器",能夠?qū)⒉煌问降妮斎朕D(zhuǎn)換成模型能夠理解的統(tǒng)一格式。
具體來說,研究團隊為每種輸入類型設計了特殊的標記符號。圖像輸入使用<|image_pad|>標記,視頻輸入使用<|video_pad|>標記,這些標記就像是告訴模型"接下來的內(nèi)容是什么類型"的路標。同時,每個訓練樣本都被包裝成指令-查詢的形式,指令部分告訴模型要完成什么任務,查詢部分提供具體的輸入內(nèi)容。
另一個重要創(chuàng)新是基于溫度縮放的余弦相似度計算。這個技術(shù)聽起來復雜,但原理很直觀。就像調(diào)節(jié)空調(diào)溫度一樣,通過調(diào)節(jié)"溫度"參數(shù),模型可以控制其判斷的"敏感度"。溫度較低時,模型會做出更加confident的判斷;溫度較高時,模型的判斷會更加平滑和保守。
在處理長視頻和多頁文檔時,VLM2Vec-V2采用了統(tǒng)一的采樣策略。對于視頻,模型會均勻采樣8幀來代表整個視頻的內(nèi)容;對于多頁文檔,模型會根據(jù)需要處理相關(guān)的頁面。這種處理方式既保證了信息的完整性,又控制了計算復雜度。
八、現(xiàn)實應用的廣闊前景
VLM2Vec-V2的技術(shù)突破為現(xiàn)實世界的應用開啟了許多新的可能性。在教育領域,這個模型可以幫助開發(fā)更智能的學習輔助系統(tǒng)。學生可以上傳任何形式的學習資料——無論是課本PDF、教學視頻還是課堂照片,系統(tǒng)都能理解內(nèi)容并回答相關(guān)問題。
在企業(yè)應用方面,VLM2Vec-V2可以極大地提升信息檢索和知識管理的效率。員工可以通過自然語言描述來搜索公司內(nèi)部的各種文檔、演示文稿和培訓視頻,而不需要記住具體的文件名或關(guān)鍵詞。這就像是擁有了一個能夠理解各種材料的智能助手。
在內(nèi)容創(chuàng)作和媒體行業(yè),這項技術(shù)可以幫助自動化許多繁瑣的工作。比如,自動為視頻生成字幕和摘要,自動分類和標記媒體資產(chǎn),或者根據(jù)文本描述找到合適的視覺素材。
在醫(yī)療健康領域,VLM2Vec-V2可以幫助處理多模態(tài)的醫(yī)療數(shù)據(jù),包括醫(yī)學影像、病歷文檔和患者記錄視頻,為醫(yī)生提供更全面的診斷支持。
在法律和合規(guī)領域,模型可以幫助律師快速檢索和分析大量的法律文檔、證據(jù)材料和視頻記錄,提高工作效率和準確性。
九、面臨的挑戰(zhàn)與未來發(fā)展
盡管VLM2Vec-V2取得了顯著的成果,但研究團隊也坦率地指出了當前面臨的挑戰(zhàn)和限制。首先是在視頻理解方面,由于訓練數(shù)據(jù)相對有限,模型在一些復雜的視頻推理任務上仍有提升空間。這就像是一個主要通過閱讀學習的學生在觀察和分析動態(tài)事物時還需要更多練習。
在視覺文檔理解方面,雖然VLM2Vec-V2相比之前的通用模型有了很大提升,但仍然落后于專門為文檔檢索設計的模型。這說明在特定領域的專業(yè)化和通用化之間還需要找到更好的平衡點。
計算資源的需求也是一個現(xiàn)實的挑戰(zhàn)。處理高分辨率的圖像、長時間的視頻和多頁的文檔需要大量的計算資源,這可能限制了模型在一些資源有限環(huán)境中的應用。
研究團隊指出,未來的發(fā)展方向包括幾個重要方面。首先是擴大訓練數(shù)據(jù)的規(guī)模和多樣性,特別是視頻數(shù)據(jù)。其次是優(yōu)化模型架構(gòu),在保持通用性的同時提升在特定任務上的性能。還有就是探索更高效的訓練和推理方法,降低計算成本。
另一個重要的發(fā)展方向是增強模型的推理能力。目前的模型主要專注于內(nèi)容匹配和檢索,未來需要在理解基礎上加強邏輯推理和常識推理能力,使其能夠處理更復雜的多模態(tài)推理任務。
十、對人工智能發(fā)展的深遠意義
VLM2Vec-V2的成功不僅僅是一個技術(shù)進步,更代表了人工智能發(fā)展的一個重要趨勢:從專門化走向通用化。傳統(tǒng)的人工智能系統(tǒng)往往需要為每個特定任務單獨設計和訓練模型,這就像是培養(yǎng)很多專門技能的專家。而VLM2Vec-V2展示了訓練通用型"全才"的可能性。
這種通用化的趨勢對整個人工智能領域具有深遠的影響。首先,它大大降低了開發(fā)和部署人工智能系統(tǒng)的成本。過去需要分別開發(fā)圖像理解、視頻分析、文檔處理等多個系統(tǒng),現(xiàn)在一個統(tǒng)一的模型就能處理所有這些任務。
其次,通用化的模型具有更好的適應性和遷移能力。當面對新的任務或領域時,不需要從零開始訓練,而是可以基于已有的通用能力快速適應。這就像是一個受過全面教育的人更容易學習新的技能。
從技術(shù)發(fā)展的角度來看,VLM2Vec-V2也為構(gòu)建更高級的人工智能系統(tǒng)提供了重要的基礎。多模態(tài)理解能力是通向人工通用智能的重要一步,因為真正的智能需要能夠整合和理解來自不同感官的信息。
在評估標準方面,MMEB-V2的建立也為整個領域提供了重要的參考。一個全面、標準化的評估體系對于推動技術(shù)進步和比較不同方法的性能至關(guān)重要。這就像是為運動員建立了統(tǒng)一的比賽規(guī)則和評分標準。
說到底,VLM2Vec-V2的意義遠超出了技術(shù)本身。它展示了人工智能正在向著更加智能、更加實用的方向發(fā)展。當我們能夠用自然語言與計算機交流,讓它理解我們周圍的各種視覺信息時,人機交互將變得更加自然和高效。這不僅會改變我們的工作方式,也會影響我們的學習、娛樂和生活的方方面面。
歸根結(jié)底,這項研究代表了人工智能技術(shù)向著真正理解和處理人類多樣化信息需求方向邁出的重要一步。雖然距離完美的人工智能助手還有距離,但VLM2Vec-V2已經(jīng)為我們展示了一個充滿可能性的未來圖景。對于那些對這項技術(shù)細節(jié)感興趣的讀者,完整的研究論文可以通過arXiv:2507.04590獲取,其中包含了更詳細的技術(shù)說明和實驗數(shù)據(jù)。
Q&A
Q1:VLM2Vec-V2是什么?它能做什么? A:VLM2Vec-V2是Salesforce開發(fā)的多模態(tài)理解模型,它的核心能力是同時理解文本、圖片、視頻和各種文檔。就像一個全能助手,它可以根據(jù)文字描述找視頻,分析文檔內(nèi)容,回答關(guān)于圖片的問題等,是首個真正統(tǒng)一處理這四種媒體類型的AI模型。
Q2:這個技術(shù)會不會很快應用到我們的日常生活中? A:很有可能。這種技術(shù)特別適合搜索引擎、教育平臺、企業(yè)知識管理等場景。未來我們可能可以用自然語言搜索任何類型的內(nèi)容,比如說"找個做蛋糕的視頻"就能準確找到相關(guān)視頻,或者上傳學習資料讓AI幫忙解答問題。
Q3:VLM2Vec-V2相比其他AI模型有什么優(yōu)勢? A:最大優(yōu)勢是"一個模型搞定所有媒體類型"。以前需要分別用不同的AI處理圖片、視頻、文檔,現(xiàn)在一個VLM2Vec-V2就夠了。而且它在保持通用性的同時,在各個專項任務上的表現(xiàn)都很出色,特別是只有20億參數(shù)卻能達到70億參數(shù)模型的效果。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機制和漸進式訓練,能夠?qū)碗s指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學習外觀和運動信息,顯著解決了當前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實用化應用奠定了重要基礎。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓練數(shù)據(jù)集和MM-AlignBench評測基準,通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預報,準確性超越傳統(tǒng)方法90%的指標。該模型采用圖神經(jīng)網(wǎng)絡技術(shù),通過學習40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學領域帶來了效率和精度的雙重突破。