近日,北卡羅來納大學教堂山分校的Ce Zhang、Yan-Bo Lin、Ziyang Wang、Mohit Bansal和Gedas Bertasius教授團隊提出了一種名為SiLVR(Simple Language-based Video Reasoning)的視頻推理框架。這項研究發(fā)表于2025年5月30日的arXiv預印本平臺,論文編號為2505.24869v1,有興趣深入了解的讀者可以通過https://sites.google.com/cs.unc.edu/silvr或GitHub倉庫https://github.com/CeeZh/SILVR查看更多詳情。
一、研究背景:當大語言模型遇見視頻理解的挑戰(zhàn)
想象一下,你在看一段長達一小時的紀錄片,然后有人問你:"影片中行星出現(xiàn)的順序是什么?"或者"視頻中展示的實驗用了哪些材料?"要回答這些問題,你需要記住視頻中的關(guān)鍵內(nèi)容,理解事件發(fā)生的順序,甚至需要推理出畫面背后隱含的意義。對人類來說,這種視頻理解能力似乎很自然,但對人工智能系統(tǒng)來說卻是一項巨大挑戰(zhàn)。
近年來,大語言模型(LLM)在數(shù)學和編程等領(lǐng)域展現(xiàn)出了驚人的推理能力。例如,通過"測試時優(yōu)化"技術(shù),模型可以解決復雜的數(shù)學題和編程難題。然而,當這些技術(shù)應用到視頻理解領(lǐng)域時,多模態(tài)大語言模型(MLLM)的表現(xiàn)卻遠遠落后,尤其是在處理復雜的視頻-語言任務時。
現(xiàn)有的視頻理解模型雖然在視頻問答(VideoQA)、文本-視頻檢索和時序定位等任務上取得了不錯的進展,但在處理需要強大推理能力的復雜視頻理解任務時仍顯得力不從心。這些任務可能涉及時序推理(理解事件發(fā)生的先后順序)、因果推理(理解事件之間的因果關(guān)系)、長上下文推理(從冗長的視頻中提取關(guān)鍵信息)以及外部知識獲?。▽⒁曨l內(nèi)容與外部知識結(jié)合)等。
雖然一些研究團隊嘗試開發(fā)專門的視頻推理框架,但這些方法通常依賴于高質(zhì)量的"思維鏈"(Chain-of-Thought,CoT)數(shù)據(jù)集(收集成本高昂且耗時)或特定任務的獎勵設(shè)計(導致泛化性能差)。此外,基于強化學習的多模態(tài)推理方法往往難以優(yōu)化,需要大量計算資源進行訓練,而且有時甚至會導致性能下降。
二、SiLVR:一種簡單而高效的視頻推理框架
受到最新大語言模型強大推理能力的啟發(fā),研究團隊提出了SiLVR——一種簡單、模塊化且無需訓練的基于語言的框架,用于解決復雜的視頻-語言推理任務。這個框架的核心思想是將視頻理解分解為兩個階段:
第一階段:將原始視頻轉(zhuǎn)換為基于語言的表示。想象一下,你正在為一個盲人朋友描述一段視頻的內(nèi)容。你會盡可能詳細地描述每一個場景,包括人物、動作、物體和環(huán)境等。SiLVR就是這樣工作的——它從輸入視頻中密集采樣短片段,然后使用預訓練的視覺描述模型(如NVILA)為每個片段提取描述性文本。同時,它還使用自動語音識別(ASR)工具將視頻中的語音轉(zhuǎn)換為文本描述。這樣,原始視頻就被轉(zhuǎn)換成了一系列語言描述,包含了視頻的視覺內(nèi)容和語音內(nèi)容。
第二階段:將語言描述輸入強大的推理大語言模型。就像你拿到了一份詳盡的視頻文字描述,然后開始分析和回答問題一樣,SiLVR將第一階段生成的豐富語言描述輸入到強大的推理大語言模型(如DeepSeek-R1)中,用于解決復雜的視頻-語言理解任務。
對于可能長達數(shù)小時的視頻,如何處理大量的文本token是一個挑戰(zhàn)。研究團隊提出了一種簡單的自適應token削減方案,它可以動態(tài)確定采樣語音和視頻token的時間粒度。通俗地說,就像你在總結(jié)一部電影時,對精彩部分會詳細描述,而對情節(jié)緩慢的部分則簡要帶過一樣,這種方案能夠顯著減少輸入token的數(shù)量,使其適應LLM的上下文長度限制,同時保持強大的推理性能。
與之前基于多模態(tài)大語言模型的視頻推理框架相比,SiLVR具有幾個顯著優(yōu)勢:簡單(沒有復雜的設(shè)計選擇)、模塊化(易于集成不同組件)、無需訓練(避免了耗時的訓練過程)以及高性能(在多個基準測試上取得最先進的結(jié)果)。
三、實驗結(jié)果:SiLVR展現(xiàn)出色的視頻理解能力
研究團隊在多個視頻理解基準測試上評估了SiLVR的性能,包括專注于推理能力的基準測試(Video-MMMU、Video-MMLU、MMVU、MMWorld)和通用視頻基準測試(Video-MME、CGBench、EgoLife、CinePile)。
在視頻推理基準測試中,SiLVR在Video-MMMU(理解)和Video-MMLU上取得了最佳性能。具體來說,在Video-MMMU上,SiLVR以82.7%的準確率超過了之前最好的方法Kimi-k1.6(76.7%)6個百分點,并顯著優(yōu)于其他強大的專有模型,如Gemini 1.5 Pro(超過29.2%)和GPT-4o(超過22.7%)。在Video-MMLU上,SiLVR以83.1%的準確率超過了之前最先進的模型Claude 3.5 Sonnet(71.3%)11.8個百分點。
在通用視頻基準測試中,SiLVR在Video-MME(長片段,帶字幕)、CGBench和EgoLife上取得了最先進的性能。特別是在CGBench上,SiLVR實現(xiàn)了51.8%的準確率,超過了之前最好的方法Qwen-2-VL-72B(45.3%)6.5個百分點。值得注意的是,Video-MME(長片段)、EgoLife和CGBench專門設(shè)計用于超長視頻理解,平均視頻時長超過60分鐘,SiLVR在這些長視頻理解任務上的出色表現(xiàn)展示了其強大的能力。
此外,研究團隊還在知識獲取和時間定位任務上評估了SiLVR的性能。在Video-MMMU的知識獲取任務中,SiLVR實現(xiàn)了17.2%的知識增益(?knowledge),超過了之前最好的方法GPT-4o(15.6%)。在CGBench的時間定位任務中,SiLVR以11.84%的mIoU(平均交并比)顯著超過了當前最先進的方法VideoMind(7.10%)。這些結(jié)果表明,SiLVR不僅能夠正確回答復雜問題,還能夠準確定位視頻中與問題相關(guān)的片段,提高了視頻推理的可解釋性。
四、深入分析:推理型與非推理型LLM的性能對比
研究團隊進行了一系列實驗,深入分析了SiLVR的視頻推理能力。首先,他們比較了使用推理型LLM(DeepSeek-R1)和非推理型LLM(Llama 4)的性能差異。結(jié)果表明,DeepSeek-R1在所有基準測試上都優(yōu)于Llama 4,特別是在視頻推理基準測試上,DeepSeek-R1平均提升了15.7%,而在通用視頻基準測試上平均提升了6.5%。這種差異表明,強大的推理能力對于解決復雜的視頻推理任務至關(guān)重要。
進一步分析Video-MME上不同問題類別的性能,研究團隊發(fā)現(xiàn)與Llama 4相比,使用DeepSeek-R1在推理類問題(如時間推理、空間推理、對象推理和動作推理)上的平均提升(11.1%)顯著高于非推理類問題(如動作識別、OCR等)的平均提升(4.9%)。這一結(jié)果再次證實了強大推理能力對于解決復雜視頻推理任務的重要性。
五、消融實驗:理解SiLVR的各個組件
研究團隊還進行了一系列消融實驗,以更好地理解SiLVR各個組件的貢獻。
首先,他們研究了語音和視覺描述token的相對重要性。在Video-MME上的實驗表明,減少50-75%的語音token(保留所有視覺描述token)會導致性能顯著下降(11.4%-20.7%)。相比之下,減少同等比例的視覺描述token(保留所有語音token)導致的性能下降要小得多(7.8%-9.0%)。這表明,在提供的視頻數(shù)據(jù)集中,語音token比視覺描述token提供了更多的信息。
接著,研究團隊分析了自適應token削減方案的有效性。與使用固定視頻片段長度的基線相比,自適應token削減方案在Video-MME上實現(xiàn)了最高的整體準確率,超過了最佳固定長度基線(8秒)2.5個百分點。這表明自適應token削減方案能夠有效減少冗余token,同時保持強大的性能。
最后,研究團隊研究了不同視覺描述模型和不同LLM的影響。在視覺描述模型方面,Qwen-2.5-VL 72B實現(xiàn)了最高的整體準確率,但研究團隊選擇使用NVILA 7B作為默認模型,因為它提供了最佳的準確率-成本權(quán)衡。在LLM方面,DeepSeek-R1作為LLM骨干實現(xiàn)了最高的整體準確率,超過專有的GPT-4.1 0.8%,超過DeepSeek V3 3.5%。
六、SiLVR的實際應用:從分子結(jié)構(gòu)到行星順序的推理
為了更直觀地展示SiLVR的能力,研究團隊分享了幾個實際推理案例。例如,當被問及"根據(jù)視頻,藝術(shù)品中沒有使用哪種成分?"時,SiLVR能夠通過自我糾正過程,正確識別出貝殼是作為裝飾品而非功能性成分使用的。再比如,當被問及"視頻中行星出現(xiàn)的順序是什么?"時,SiLVR能夠準確識別出正確的行星順序,并通過邏輯推理排除不正確的選項。
這些案例展示了SiLVR能夠整合視覺和語音模態(tài)的信息,執(zhí)行復雜的視頻推理步驟,包括逐步推理、自我糾正、自我驗證,甚至利用LLM的相關(guān)先驗知識來回答給定問題。例如,在一個關(guān)于汽車后觸摸屏顯示尺寸的問題中,盡管視覺描述模塊未能捕捉到觸摸屏的詳細信息,SiLVR仍然能夠通過識別車輛類型和利用LLM的外部知識推斷出正確答案。在另一個關(guān)于分子結(jié)構(gòu)的復雜化學問題中,SiLVR能夠通過逐步推理,解決問題并驗證生成答案的正確性。
七、結(jié)論與未來展望
SiLVR代表了視頻理解領(lǐng)域的一個簡單但強大的解決方案。它將視頻理解分解為兩個階段——將原始視頻轉(zhuǎn)換為語言表示,然后使用強大的推理LLM進行復雜推理,這種方法避免了耗時的訓練過程和復雜的模型設(shè)計,同時在多個基準測試上取得了最先進的性能。
盡管SiLVR基于簡單的設(shè)計原則,但它的性能令人印象深刻,甚至超過了一些復雜的專有模型。這表明,有時簡單的解決方案可能比復雜的方法更有效。研究團隊希望SiLVR的簡單而有效的設(shè)計能夠幫助研究社區(qū)建立更強大的視頻-語言推理模型。
不過,SiLVR也存在一些局限性。作為一個模塊化框架,其性能依賴于各個組件的質(zhì)量。在視覺感知方面,SiLVR依賴于視覺描述模型,這些模型可能會產(chǎn)生幻覺或缺少精細的視覺細節(jié)。然而,由于SiLVR對特定視覺描述模型的使用是不可知的,未來視覺描述模型的進步將有助于緩解這個問題。在推理方面,當LLM生成的推理軌跡不正確時,SiLVR的性能可能會下降。但這是當前LLM的一個更廣泛的限制,未來在長上下文建模和LLM推理方面的進展將進一步提升SiLVR的性能。
總的來說,SiLVR為復雜的視頻-語言理解任務提供了一個簡單、模塊化、無需訓練且高性能的解決方案。它的成功表明,我們可以利用現(xiàn)有LLM的強大推理能力來解決復雜的視頻理解問題,而無需進行昂貴的多模態(tài)訓練。隨著LLM和視覺描述模型的不斷進步,我們可以期待SiLVR及其后繼者在未來取得更好的性能。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機制和漸進式訓練,能夠?qū)碗s指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學習外觀和運動信息,顯著解決了當前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實用化應用奠定了重要基礎(chǔ)。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓練數(shù)據(jù)集和MM-AlignBench評測基準,通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預報,準確性超越傳統(tǒng)方法90%的指標。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學習40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學領(lǐng)域帶來了效率和精度的雙重突破。