av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 MMR-V:視頻多模態(tài)深度推理的新基準——探究視頻中未被言明的內(nèi)容

MMR-V:視頻多模態(tài)深度推理的新基準——探究視頻中未被言明的內(nèi)容

2025-06-09 07:22
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-09 07:22 ? 科技行者

北京時間2025年6月4日,來自中國科學院自動化研究所認知與智能決策復雜系統(tǒng)重點實驗室和中國科學院大學人工智能學院的朱柯健、金卓然、袁宏邦、李佳淳等研究團隊,聯(lián)合清華大學的涂尚清,在arXiv預印本平臺發(fā)布了一項名為"MMR-V: What's Left Unsaid? A Benchmark for Multimodal Deep Reasoning in Videos"的研究成果。這項研究針對當前多模態(tài)大語言模型在視頻推理能力上的不足,提出了一個全新的基準測試集。有興趣深入了解的讀者可以通過arXiv:2506.04141v1 [cs.CV]訪問完整論文。

想象一下,當你看一部懸疑電影時,導演往往不會直接告訴你誰是兇手,而是通過各種線索引導你自己推理?,F(xiàn)在,人工智能面臨著類似的挑戰(zhàn)——它能否像人類一樣,通過分析視頻中分散在不同時間點的線索,得出合理的結(jié)論?這正是這項研究要解決的核心問題。

近年來,人工智能在文本推理方面取得了顯著進步。OpenAI的o1和Deepseek-R1等模型通過強化學習大幅提升了文本推理能力。與此同時,像o3和o4-mini這樣的模型在圖像推理任務上也表現(xiàn)出色,它們能夠?qū)⒁曈X信息整合到推理過程中,進行深度反思和證據(jù)挖掘。然而,當前的研究主要集中在圖像上,對更具挑戰(zhàn)性的視頻推理任務探索有限。

視頻天然包含連續(xù)且更豐富的多模態(tài)信息,需要模型在長距離、多幀之間進行推理和證據(jù)挖掘??紤]到這種能力對實際應用如具身智能和智能安防監(jiān)控至關重要,研究團隊提出了一個關鍵問題:當前的多模態(tài)大語言模型能否像在圖像任務上那樣,在復雜視頻上進行深度多模態(tài)推理和證據(jù)挖掘?

現(xiàn)有的視頻基準測試集主要關注感知和理解任務,這些任務通常只需要定位問題中提到的幀(稱為"問題幀")并理解相鄰幀。例如,注意到男孩被金屬框架撞到就足以理解為什么他會撞到女孩。這類任務不足以評估多模態(tài)推理能力。研究團隊總結(jié)了現(xiàn)有基準測試集的局限性:一是即使對于長視頻,現(xiàn)有任務通常只依賴于幾個相鄰幀,未能充分利用視頻的長距離序列結(jié)構(gòu);二是缺乏推理,許多問題可以通過直接感知回答;三是任務不現(xiàn)實,簡單的感知和相鄰幀理解任務不符合對AI系統(tǒng)強大能力的實際需求。

為了彌補這些不足,研究團隊提出了MMR-V基準測試集,它具有以下特點:一是長距離、多幀推理,任務涉及在非相鄰視頻幀上進行多模態(tài)推理,以定位和分析多個證據(jù);二是超越感知,問題不能通過問題幀的直接感知來回答,需要推理和提取隱含含義;三是可靠性,所有任務都經(jīng)過人工標注,并通過參考最受歡迎的視頻評論來降低主觀偏見;四是迷惑性,研究團隊采用精心設計的標注策略,創(chuàng)建模型對齊的干擾選項,確保測試的挑戰(zhàn)性。

研究團隊受認知和心理學理論的啟發(fā),將MMR-V中的任務分為隱式推理和顯式推理兩大類。兩者的關鍵區(qū)別在于問題是否需要超越表面信息來推斷潛在含義。顯式推理被定義為可以使用視頻中可感知信息解決的問題,比如注意到手中隱藏了兩個打火機。隱式推理則需要提取和解釋視覺信息背后的潛臺詞,例如,推斷女孩房間號碼7象征好運。這更像是對情商(EQ)的評估,測試模型是否能像人類一樣,利用對世界知識的深刻理解進行隱式和潛意識推理。

MMR-V包含317個視頻和1257個任務。視頻跨越六個主要類別,長度從7秒到3771秒不等,平均為277秒。任務進一步分為10個類別和子類別,每個任務采用多項選擇格式,平均約有10個選項。任務通常需要推理平均12個視頻幀,覆蓋約60%的視頻時長。所有問題和正確答案都經(jīng)過人工標注和審核,干擾項則使用精心設計的標注策略生成。

研究團隊評估了9個專有模型和11個開源模型在MMR-V上的表現(xiàn)。結(jié)果顯示,即使表現(xiàn)最好的模型o4-mini也只達到了52.5%的準確率,突顯了MMR-V對當前多模態(tài)大語言模型的重大挑戰(zhàn)。主要發(fā)現(xiàn)包括:一是多模態(tài)推理挑戰(zhàn),研究發(fā)現(xiàn)推理增強策略(如思維鏈和擴展測試時計算)帶來的改進有限,表明MMR-V對當前多模態(tài)推理模型提出了更大的挑戰(zhàn);二是更多模態(tài)會帶來好處,研究發(fā)現(xiàn)對于支持所有模態(tài)的模型,添加額外的音頻模態(tài)會提高性能;三是人類-模型差距,在人類實驗中,研究團隊發(fā)現(xiàn)雖然模型在文本推理任務上表現(xiàn)出人類水平的性能,但在多模態(tài)特別是視頻推理任務上,模型與人類之間仍存在顯著差距。

現(xiàn)在,讓我們深入了解MMR-V的任務類別和具體內(nèi)容。

一、隱式推理任務:探尋表象背后的含義

隱式推理關注的是如何將視覺信息背后的隱藏含義納入推理過程。在這些任務中,表面的視覺線索往往隱藏著更深層次的含義,如隱喻。對人類來說,隱式推理往往基于經(jīng)驗和世界知識自動快速完成,幾乎不需要刻意的注意力資源。

隱式推理任務分為五個主要類別:隱喻理解、主題理解、情感識別、評論匹配和隱式符號。

隱喻理解任務要求模型理解實體或環(huán)境的隱喻。例如,在一個視頻中,模型需要解釋棕色外套象征什么。正確的答案是它象征著父親在困難時期保護家人。

主題理解任務評估模型推斷作者通過整個視頻傳達的主要觀點和態(tài)度的能力。例如,模型需要回答視頻暗示的社會問題是什么,正確答案可能是"人們在購買房屋時面臨巨大壓力,因為在他們存錢的同時房價不斷上漲"。

情感識別任務評估模型分析視頻中人物情感狀態(tài)的能力,以及更高層次的情感,如作者的態(tài)度和觀眾的情感反應。例如,分析一個失去工作的男人最終是否快樂,需要通過觀察他在不同時間點的表情和行為來推斷。

評論匹配任務測試模型是否能預測視頻最合適的觀眾評論。例如,根據(jù)觀看視頻后選擇哪條評論最幽默。這要求模型理解幽默等隱含信息,這對人類來說很容易但對AI模型卻很具挑戰(zhàn)性。

隱式符號任務測試模型是否能推斷和分析視頻表面視覺元素下隱藏的文化特征,如國籍、節(jié)日、習俗或宗教等。例如,推斷視頻拍攝地點的民族特征。

二、顯式推理任務:挖掘視頻中的客觀證據(jù)

顯式推理評估模型是否能基于跨越視頻長距離、多幀明確呈現(xiàn)的多模態(tài)細節(jié)進行推理。雖然解決這些任務需要精細的感知和嚴格的邏輯推理,但所有信息都是客觀存在的,不像隱式推理那樣需要理解潛在含義。

顯式推理任務包括因果推理、序列結(jié)構(gòu)推理、反直覺推理、跨模態(tài)轉(zhuǎn)移推理以及視頻類型和意圖等五個類別。

因果推理任務評估模型推理視頻中因果關系的能力。比如,在一個視頻中推斷女孩制作賀卡的原因,可能是為了探望生病的男友并祝他早日康復。

序列結(jié)構(gòu)推理任務評估對視頻編輯和敘事結(jié)構(gòu)的推理。例如,判斷視頻是否倒放,或者分析視頻中的關鍵連接元素。這類任務往往需要跨多個視頻片段進行分析比較。

反直覺推理任務評估分析與常識相悖信息的能力,需要詳細的跨幀分析。例如,分析魔術師如何使物體消失的原理,這往往涉及魔術技巧或特效編輯。

跨模態(tài)轉(zhuǎn)移推理任務測試將推理從視頻轉(zhuǎn)移到文本、音頻、視頻或圖像的能力。例如,找出與視頻主題具有相同含義的名言。

視頻類型和意圖任務測試分析視頻類型(如商業(yè)廣告、科幻電影、喜劇等)的能力,以及推斷視頻制作意圖。

三、MMR-V的構(gòu)建過程:確?;鶞蕼y試的質(zhì)量與挑戰(zhàn)性

為確保MMR-V能有效評估多模態(tài)推理能力,研究團隊遵循三個原則:一是多幀,問題需要參考長距離、多幀信息,促使模型跨多個視覺線索進行推理;二是深度推理,答案不應從視頻中直接感知,而應要求理解潛臺詞或多模態(tài)推理,反映對內(nèi)容的深刻理解;三是現(xiàn)實性,任務應與現(xiàn)實世界問答需求一致,確保答案符合普通用戶理解,不受個人認知偏見或偏見的影響。

在視頻收集方面,研究團隊手動篩選了多樣化的原創(chuàng)視頻,并設計了以下檢查清單:避免線性、描述性內(nèi)容,如日常記錄或體育廣播;選擇創(chuàng)意和主題豐富的視頻,這些視頻通常由創(chuàng)作者有意設計和編輯,往往傳達精心設計的主題;與現(xiàn)實世界對齊,優(yōu)先選擇具有活躍評論區(qū)和觀眾參與度的高人氣視頻;多樣化覆蓋,確保基準測試在視頻類型、主題和時長方面具有廣泛覆蓋,反映真實世界視頻內(nèi)容的多樣性。

在數(shù)據(jù)標注方面,MMR-V中的所有任務都采用多項選擇格式設計,每個任務有一個正確選項和多個錯誤選項。為確保這些干擾項的質(zhì)量和合理性,研究團隊設計了三種不同的干擾項標注策略:策略1,提示強大的模型GPT-4o直接回答人工標注的問題,如果模型生成不正確答案(經(jīng)人工驗證),則保留為高質(zhì)量干擾項;策略2,給定人工標注的問題和正確答案,提示GPT-4o生成干擾項;策略3,人工標注者手動構(gòu)建干擾項。

研究團隊對100個問題進行了測試,使用三種策略形成三個測試集。結(jié)果顯示,策略1生成的干擾項最具迷惑性,顯著增加了任務的難度和質(zhì)量。值得注意的是,在上述測試過程中,當GPT-4o直接回答100個任務時,經(jīng)人類驗證的準確率僅為17%,這反映了當前模型在多模態(tài)推理能力上的局限性。

為確保高質(zhì)量,研究團隊還根據(jù)構(gòu)建原則開發(fā)了一個檢查清單,并邀請人類標注者使用該清單驗證任務的準確性和難度。研究團隊邀請了至少具有學士學位的五名標注者參與標注和審查過程。

四、實驗結(jié)果與分析:揭示當前模型的局限與未來方向

在實驗設置方面,研究團隊對9個專有模型和11個開源模型進行了廣泛評估。主要實驗在兩種設置下進行:零樣本和零樣本+思維鏈(CoT),以檢驗推理是否能提高性能。此外,研究團隊還引入了以下類別的比較模型:不同規(guī)模的模型,以及"思考"模型及其基礎版本(如Gemini-2.0-Flash和Gemini-2.0-Flash-Thinking)。

對于支持全模態(tài)輸入的模型(如Gemini-2.0-flash),研究團隊進一步比較了它們有無音頻輸入的性能,以評估音頻對推理結(jié)果的影響。在幀選擇方面,由于某些模型僅支持多個圖像或短視頻剪輯,研究團隊標準化了輸入幀的數(shù)量,并在附錄中提供了幀采樣的詳細信息。

為了提供MMR-V的有意義上限并檢驗人類-模型差距,研究團隊邀請了至少具有學士學位的參與者進行人類實驗。研究團隊抽樣了GPT-4o回答錯誤的100個任務和回答正確的100個任務進行實驗。

主要實驗結(jié)果表明,MMR-V基準測試對當前多模態(tài)大語言模型提出了重大挑戰(zhàn)。即使表現(xiàn)最好的模型o4-mini也只達到52.5%的準確率。在開源模型中,Gemma-3-27b-it表現(xiàn)最佳,展示了相對較強的性能,但與專有模型相比仍存在差距。

研究還發(fā)現(xiàn),當前在文本領域相對有效的推理增強策略,如CoT提示推理和擴展測試時計算(即"思考"模型),在MMR-V上提供的收益有限。CoT僅帶來0.57%的平均增益,而"思考"模型僅提高2.4%。這表明MMR-V對現(xiàn)有模型的多模態(tài)推理能力提出了重大挑戰(zhàn)。

通過對抽樣模型響應的分析,研究團隊發(fā)現(xiàn)視覺分析僅占CoT的約10%。這表明當前模型的推理過程主要基于文本(對問題和選項的推理),依賴于對問題幀的視覺感知,而非將視覺推理和證據(jù)挖掘整合到CoT中。這種局限阻礙了整體推理性能。

模型在MMR-V基準測試上的表現(xiàn)展現(xiàn)出明顯的擴展法則效應。在相同架構(gòu)下,較小的模型在需要復雜推理的任務上表現(xiàn)較差。例如,較大的模型如Qwen2.5-VL-72B(39.1%)和GPT-4o(44%)優(yōu)于它們的較小版本Qwen2.5-VL-7B(30.1%)和GPT-4o-mini(34.8%),相對增益分別為9%和9.2%。

在不同任務類型上,研究團隊發(fā)現(xiàn)模型在隱式任務上的表現(xiàn)優(yōu)于顯式任務(平均增益+7.9%)。通過對任務和模型響應的分析,研究團隊發(fā)現(xiàn)在隱式任務中,視頻創(chuàng)作者通常在整個視頻中嵌入隱含含義,產(chǎn)生豐富的視覺線索支持推理。這減少了對多模態(tài)推理和線索定位的要求。相比之下,顯式任務需要更精細的推理和識別特定證據(jù)的能力。

模型在反直覺推理(CIR)、序列結(jié)構(gòu)推理(SSR)和評論匹配(CM)任務上表現(xiàn)特別差。對于CIR和SSR任務,糟糕的表現(xiàn)主要源于當前模型執(zhí)行多幀推理的能力有限。這兩類任務需要模型在長距離視頻上進行推理,而非依賴內(nèi)部知識。然而,模型往往依賴問題幀的表面視覺感知,然后對問題和選項進行文本推理,而非分析定位其他幀中的證據(jù)。對于CM任務,結(jié)果突顯了模型與人類在隱式推理能力上的顯著差距。雖然人類可以在最少認知努力的情況下推斷幽默和情感等潛在信息,但當前模型始終無法捕捉這些微妙之處。

人類實驗結(jié)果顯示,人類平均得分為86%,這突顯了人類-模型之間的顯著差距。雖然研究表明模型在文本任務上達到了人類水平的表現(xiàn),但在多模態(tài)推理任務上,模型仍然落后。人類可以輕松識別視頻中的線索,而模型往往專注于問題幀,而不是探索其他證據(jù)幀。特別是,與模型不同,人類在隱式任務上表現(xiàn)略差,這主要是由于藝術和哲學中高度抽象的隱式理解所帶來的挑戰(zhàn)。

在輸入幀數(shù)量的影響方面,研究團隊對支持長視頻輸入的Gemini-2.0-Flash評估了隨著幀數(shù)增加而性能變化的情況。如圖4所示,準確率隨幀數(shù)增加而提高,但改善率逐漸放緩。通過對CoT的采樣和觀察,研究團隊發(fā)現(xiàn)初始增益來自添加證據(jù)幀,而放緩主要是由于模型多幀推理能力有限。隱式任務的性能在后期階段繼續(xù)提高,因為此類任務的視覺線索通常分散在整個視頻中;更多幀往往提供更多線索。相比之下,顯式線索更少且更局部化。

對于支持全模態(tài)輸入的模型,研究團隊比較了它們在添加音頻模態(tài)前后的性能。如表4所示,整體性能隨著音頻的添加而提高。具體來說,Gemini 2.0-Flash、Gemini 2.0-Flash-Thinking和Phi-4-multimodal-instruct分別提高了1.4%、1.0%和1.0%。這表明推進全多模態(tài)模型研究是一個有前景的方向。

為了深入了解模型的錯誤來源,研究團隊對GPT-4o的100個錯誤響應進行了采樣分析。錯誤的主要來源可歸類為:缺乏視覺推理,模型常常無法定位正確的證據(jù)幀,缺乏長距離、多幀視覺推理;隱式誤解,揭示了模型與人類認知之間的顯著理解差距;知識不足,模型缺乏一些內(nèi)在知識;推理錯誤,在多步推理過程中出現(xiàn)錯誤;輸出格式問題,模型拒絕或格式錯誤阻止了答案提??;幻覺,模型引入了虛假或不支持的信息。

在錯誤案例中,缺乏視覺推理占比最大。這表明當前模型仍然缺乏真正的多模態(tài)推理能力。它們往往在簡單感知問題幀相鄰幀后依賴于基于文本的推理,而不是進行深度、長距離、多幀視頻推理。大多數(shù)現(xiàn)有推理模型在將多模態(tài)信息整合到推理過程中并進行全面分析方面仍然不足。相比之下,o4-mini展示了更好的推理范式。

研究團隊進一步分析了模型的CoT,將每個步驟分類為視頻或文本分析(如選項),視頻分析又分為問題幀和其他幀分析。研究團隊從模型中采樣了500個CoT,將每個CoT分為10個等長片段,并使用GPT-4.1標記每個片段。如圖6所示,MMR-V上表現(xiàn)更好的模型(圖中右側(cè))顯示更多的視頻分析,特別是對其他幀(紅線)的分析。值得注意的是,4o-mini以其對非問題幀的強大分析能力脫穎而出,突顯了增強視覺推理和工具使用在多幀視頻推理任務中的價值。

五、MMR-V在現(xiàn)有研究中的定位與貢獻

現(xiàn)有的視頻基準測試主要關注評估模型對視頻中視覺元素的感知和直觀理解,如動作識別和視頻描述。近期的重要工作,如Video-MME、MVBench和MMBench-Video,已經(jīng)將視頻理解擴展到多種任務類型和視頻類型,實現(xiàn)了對視頻理解能力的更全面評估。此外,LVBench和LongVideoBench等基準測試引入了長視頻問答任務。然而,這些任務主要評估模型是否能根據(jù)給定問題準確提取長視頻中的相關信息,而后續(xù)步驟仍然主要是感知導向的。MMR-V的設計目的是評估模型是否能夠基于給定問題在視頻上執(zhí)行多幀、長距離、多模態(tài)自主推理。

近期的研究大大提升了LLM的推理能力。許多頂級LLM在復雜推理任務上表現(xiàn)良好,但它們的評估主要集中在基于文本的推理上。MLLM在這方面仍缺乏全面評估。當前的多模態(tài)推理基準測試主要涉及以圖像形式呈現(xiàn)的數(shù)學或編碼任務,這主要測試視覺識別后的文本推理。真正的多模態(tài)推理需要整合深度、紋理和音頻等細節(jié)進行復雜推理。MMR-V基準測試旨在評估視頻任務中的多模態(tài)序列推理。

六、結(jié)論與未來展望

研究團隊提出的MMR-V:視頻多模態(tài)深度推理基準測試為評估模型在視頻內(nèi)容上的推理能力提供了一個新的視角。所有任務都由人類專家標注,并設計用于評估多模態(tài)推理能力。MMR-V對當前模型提出了重大挑戰(zhàn),最佳模型性能仍比人類低33.5%的準確率。這突顯了人類和模型在解釋和推理視頻信息方面的差距。

值得注意的是,o4-mini在MMR-V上取得了最佳結(jié)果,這表明將視覺推理整合到CoT中并利用工具使用是解決視頻推理任務的有前景方向。研究團隊希望MMR-V能作為評估MLLM發(fā)展的可靠基準測試,并為推進多模態(tài)推理研究提供有價值的見解。

這項研究不僅揭示了當前模型在視頻多模態(tài)推理方面的局限性,也為未來的研究指明了方向。隨著技術的發(fā)展,我們可以期待AI系統(tǒng)在理解和推理復雜視頻內(nèi)容方面取得更大突破,最終縮小與人類認知能力之間的差距。

分享至
1贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-