近日,北卡羅來(lái)納大學(xué)教堂山分校的Ce Zhang、Yan-Bo Lin、Ziyang Wang、Mohit Bansal和Gedas Bertasius教授團(tuán)隊(duì)提出了一種名為SiLVR(Simple Language-based Video Reasoning)的視頻推理框架。這項(xiàng)研究發(fā)表于2025年5月30日的arXiv預(yù)印本平臺(tái),論文編號(hào)為2505.24869v1,有興趣深入了解的讀者可以通過(guò)https://sites.google.com/cs.unc.edu/silvr或GitHub倉(cāng)庫(kù)https://github.com/CeeZh/SILVR查看更多詳情。
一、研究背景:當(dāng)大語(yǔ)言模型遇見(jiàn)視頻理解的挑戰(zhàn)
想象一下,你在看一段長(zhǎng)達(dá)一小時(shí)的紀(jì)錄片,然后有人問(wèn)你:"影片中行星出現(xiàn)的順序是什么?"或者"視頻中展示的實(shí)驗(yàn)用了哪些材料?"要回答這些問(wèn)題,你需要記住視頻中的關(guān)鍵內(nèi)容,理解事件發(fā)生的順序,甚至需要推理出畫(huà)面背后隱含的意義。對(duì)人類來(lái)說(shuō),這種視頻理解能力似乎很自然,但對(duì)人工智能系統(tǒng)來(lái)說(shuō)卻是一項(xiàng)巨大挑戰(zhàn)。
近年來(lái),大語(yǔ)言模型(LLM)在數(shù)學(xué)和編程等領(lǐng)域展現(xiàn)出了驚人的推理能力。例如,通過(guò)"測(cè)試時(shí)優(yōu)化"技術(shù),模型可以解決復(fù)雜的數(shù)學(xué)題和編程難題。然而,當(dāng)這些技術(shù)應(yīng)用到視頻理解領(lǐng)域時(shí),多模態(tài)大語(yǔ)言模型(MLLM)的表現(xiàn)卻遠(yuǎn)遠(yuǎn)落后,尤其是在處理復(fù)雜的視頻-語(yǔ)言任務(wù)時(shí)。
現(xiàn)有的視頻理解模型雖然在視頻問(wèn)答(VideoQA)、文本-視頻檢索和時(shí)序定位等任務(wù)上取得了不錯(cuò)的進(jìn)展,但在處理需要強(qiáng)大推理能力的復(fù)雜視頻理解任務(wù)時(shí)仍顯得力不從心。這些任務(wù)可能涉及時(shí)序推理(理解事件發(fā)生的先后順序)、因果推理(理解事件之間的因果關(guān)系)、長(zhǎng)上下文推理(從冗長(zhǎng)的視頻中提取關(guān)鍵信息)以及外部知識(shí)獲取(將視頻內(nèi)容與外部知識(shí)結(jié)合)等。
雖然一些研究團(tuán)隊(duì)嘗試開(kāi)發(fā)專門的視頻推理框架,但這些方法通常依賴于高質(zhì)量的"思維鏈"(Chain-of-Thought,CoT)數(shù)據(jù)集(收集成本高昂且耗時(shí))或特定任務(wù)的獎(jiǎng)勵(lì)設(shè)計(jì)(導(dǎo)致泛化性能差)。此外,基于強(qiáng)化學(xué)習(xí)的多模態(tài)推理方法往往難以優(yōu)化,需要大量計(jì)算資源進(jìn)行訓(xùn)練,而且有時(shí)甚至?xí)?dǎo)致性能下降。
二、SiLVR:一種簡(jiǎn)單而高效的視頻推理框架
受到最新大語(yǔ)言模型強(qiáng)大推理能力的啟發(fā),研究團(tuán)隊(duì)提出了SiLVR——一種簡(jiǎn)單、模塊化且無(wú)需訓(xùn)練的基于語(yǔ)言的框架,用于解決復(fù)雜的視頻-語(yǔ)言推理任務(wù)。這個(gè)框架的核心思想是將視頻理解分解為兩個(gè)階段:
第一階段:將原始視頻轉(zhuǎn)換為基于語(yǔ)言的表示。想象一下,你正在為一個(gè)盲人朋友描述一段視頻的內(nèi)容。你會(huì)盡可能詳細(xì)地描述每一個(gè)場(chǎng)景,包括人物、動(dòng)作、物體和環(huán)境等。SiLVR就是這樣工作的——它從輸入視頻中密集采樣短片段,然后使用預(yù)訓(xùn)練的視覺(jué)描述模型(如NVILA)為每個(gè)片段提取描述性文本。同時(shí),它還使用自動(dòng)語(yǔ)音識(shí)別(ASR)工具將視頻中的語(yǔ)音轉(zhuǎn)換為文本描述。這樣,原始視頻就被轉(zhuǎn)換成了一系列語(yǔ)言描述,包含了視頻的視覺(jué)內(nèi)容和語(yǔ)音內(nèi)容。
第二階段:將語(yǔ)言描述輸入強(qiáng)大的推理大語(yǔ)言模型。就像你拿到了一份詳盡的視頻文字描述,然后開(kāi)始分析和回答問(wèn)題一樣,SiLVR將第一階段生成的豐富語(yǔ)言描述輸入到強(qiáng)大的推理大語(yǔ)言模型(如DeepSeek-R1)中,用于解決復(fù)雜的視頻-語(yǔ)言理解任務(wù)。
對(duì)于可能長(zhǎng)達(dá)數(shù)小時(shí)的視頻,如何處理大量的文本token是一個(gè)挑戰(zhàn)。研究團(tuán)隊(duì)提出了一種簡(jiǎn)單的自適應(yīng)token削減方案,它可以動(dòng)態(tài)確定采樣語(yǔ)音和視頻token的時(shí)間粒度。通俗地說(shuō),就像你在總結(jié)一部電影時(shí),對(duì)精彩部分會(huì)詳細(xì)描述,而對(duì)情節(jié)緩慢的部分則簡(jiǎn)要帶過(guò)一樣,這種方案能夠顯著減少輸入token的數(shù)量,使其適應(yīng)LLM的上下文長(zhǎng)度限制,同時(shí)保持強(qiáng)大的推理性能。
與之前基于多模態(tài)大語(yǔ)言模型的視頻推理框架相比,SiLVR具有幾個(gè)顯著優(yōu)勢(shì):簡(jiǎn)單(沒(méi)有復(fù)雜的設(shè)計(jì)選擇)、模塊化(易于集成不同組件)、無(wú)需訓(xùn)練(避免了耗時(shí)的訓(xùn)練過(guò)程)以及高性能(在多個(gè)基準(zhǔn)測(cè)試上取得最先進(jìn)的結(jié)果)。
三、實(shí)驗(yàn)結(jié)果:SiLVR展現(xiàn)出色的視頻理解能力
研究團(tuán)隊(duì)在多個(gè)視頻理解基準(zhǔn)測(cè)試上評(píng)估了SiLVR的性能,包括專注于推理能力的基準(zhǔn)測(cè)試(Video-MMMU、Video-MMLU、MMVU、MMWorld)和通用視頻基準(zhǔn)測(cè)試(Video-MME、CGBench、EgoLife、CinePile)。
在視頻推理基準(zhǔn)測(cè)試中,SiLVR在Video-MMMU(理解)和Video-MMLU上取得了最佳性能。具體來(lái)說(shuō),在Video-MMMU上,SiLVR以82.7%的準(zhǔn)確率超過(guò)了之前最好的方法Kimi-k1.6(76.7%)6個(gè)百分點(diǎn),并顯著優(yōu)于其他強(qiáng)大的專有模型,如Gemini 1.5 Pro(超過(guò)29.2%)和GPT-4o(超過(guò)22.7%)。在Video-MMLU上,SiLVR以83.1%的準(zhǔn)確率超過(guò)了之前最先進(jìn)的模型Claude 3.5 Sonnet(71.3%)11.8個(gè)百分點(diǎn)。
在通用視頻基準(zhǔn)測(cè)試中,SiLVR在Video-MME(長(zhǎng)片段,帶字幕)、CGBench和EgoLife上取得了最先進(jìn)的性能。特別是在CGBench上,SiLVR實(shí)現(xiàn)了51.8%的準(zhǔn)確率,超過(guò)了之前最好的方法Qwen-2-VL-72B(45.3%)6.5個(gè)百分點(diǎn)。值得注意的是,Video-MME(長(zhǎng)片段)、EgoLife和CGBench專門設(shè)計(jì)用于超長(zhǎng)視頻理解,平均視頻時(shí)長(zhǎng)超過(guò)60分鐘,SiLVR在這些長(zhǎng)視頻理解任務(wù)上的出色表現(xiàn)展示了其強(qiáng)大的能力。
此外,研究團(tuán)隊(duì)還在知識(shí)獲取和時(shí)間定位任務(wù)上評(píng)估了SiLVR的性能。在Video-MMMU的知識(shí)獲取任務(wù)中,SiLVR實(shí)現(xiàn)了17.2%的知識(shí)增益(?knowledge),超過(guò)了之前最好的方法GPT-4o(15.6%)。在CGBench的時(shí)間定位任務(wù)中,SiLVR以11.84%的mIoU(平均交并比)顯著超過(guò)了當(dāng)前最先進(jìn)的方法VideoMind(7.10%)。這些結(jié)果表明,SiLVR不僅能夠正確回答復(fù)雜問(wèn)題,還能夠準(zhǔn)確定位視頻中與問(wèn)題相關(guān)的片段,提高了視頻推理的可解釋性。
四、深入分析:推理型與非推理型LLM的性能對(duì)比
研究團(tuán)隊(duì)進(jìn)行了一系列實(shí)驗(yàn),深入分析了SiLVR的視頻推理能力。首先,他們比較了使用推理型LLM(DeepSeek-R1)和非推理型LLM(Llama 4)的性能差異。結(jié)果表明,DeepSeek-R1在所有基準(zhǔn)測(cè)試上都優(yōu)于Llama 4,特別是在視頻推理基準(zhǔn)測(cè)試上,DeepSeek-R1平均提升了15.7%,而在通用視頻基準(zhǔn)測(cè)試上平均提升了6.5%。這種差異表明,強(qiáng)大的推理能力對(duì)于解決復(fù)雜的視頻推理任務(wù)至關(guān)重要。
進(jìn)一步分析Video-MME上不同問(wèn)題類別的性能,研究團(tuán)隊(duì)發(fā)現(xiàn)與Llama 4相比,使用DeepSeek-R1在推理類問(wèn)題(如時(shí)間推理、空間推理、對(duì)象推理和動(dòng)作推理)上的平均提升(11.1%)顯著高于非推理類問(wèn)題(如動(dòng)作識(shí)別、OCR等)的平均提升(4.9%)。這一結(jié)果再次證實(shí)了強(qiáng)大推理能力對(duì)于解決復(fù)雜視頻推理任務(wù)的重要性。
五、消融實(shí)驗(yàn):理解SiLVR的各個(gè)組件
研究團(tuán)隊(duì)還進(jìn)行了一系列消融實(shí)驗(yàn),以更好地理解SiLVR各個(gè)組件的貢獻(xiàn)。
首先,他們研究了語(yǔ)音和視覺(jué)描述token的相對(duì)重要性。在Video-MME上的實(shí)驗(yàn)表明,減少50-75%的語(yǔ)音token(保留所有視覺(jué)描述token)會(huì)導(dǎo)致性能顯著下降(11.4%-20.7%)。相比之下,減少同等比例的視覺(jué)描述token(保留所有語(yǔ)音token)導(dǎo)致的性能下降要小得多(7.8%-9.0%)。這表明,在提供的視頻數(shù)據(jù)集中,語(yǔ)音token比視覺(jué)描述token提供了更多的信息。
接著,研究團(tuán)隊(duì)分析了自適應(yīng)token削減方案的有效性。與使用固定視頻片段長(zhǎng)度的基線相比,自適應(yīng)token削減方案在Video-MME上實(shí)現(xiàn)了最高的整體準(zhǔn)確率,超過(guò)了最佳固定長(zhǎng)度基線(8秒)2.5個(gè)百分點(diǎn)。這表明自適應(yīng)token削減方案能夠有效減少冗余token,同時(shí)保持強(qiáng)大的性能。
最后,研究團(tuán)隊(duì)研究了不同視覺(jué)描述模型和不同LLM的影響。在視覺(jué)描述模型方面,Qwen-2.5-VL 72B實(shí)現(xiàn)了最高的整體準(zhǔn)確率,但研究團(tuán)隊(duì)選擇使用NVILA 7B作為默認(rèn)模型,因?yàn)樗峁┝俗罴训臏?zhǔn)確率-成本權(quán)衡。在LLM方面,DeepSeek-R1作為L(zhǎng)LM骨干實(shí)現(xiàn)了最高的整體準(zhǔn)確率,超過(guò)專有的GPT-4.1 0.8%,超過(guò)DeepSeek V3 3.5%。
六、SiLVR的實(shí)際應(yīng)用:從分子結(jié)構(gòu)到行星順序的推理
為了更直觀地展示SiLVR的能力,研究團(tuán)隊(duì)分享了幾個(gè)實(shí)際推理案例。例如,當(dāng)被問(wèn)及"根據(jù)視頻,藝術(shù)品中沒(méi)有使用哪種成分?"時(shí),SiLVR能夠通過(guò)自我糾正過(guò)程,正確識(shí)別出貝殼是作為裝飾品而非功能性成分使用的。再比如,當(dāng)被問(wèn)及"視頻中行星出現(xiàn)的順序是什么?"時(shí),SiLVR能夠準(zhǔn)確識(shí)別出正確的行星順序,并通過(guò)邏輯推理排除不正確的選項(xiàng)。
這些案例展示了SiLVR能夠整合視覺(jué)和語(yǔ)音模態(tài)的信息,執(zhí)行復(fù)雜的視頻推理步驟,包括逐步推理、自我糾正、自我驗(yàn)證,甚至利用LLM的相關(guān)先驗(yàn)知識(shí)來(lái)回答給定問(wèn)題。例如,在一個(gè)關(guān)于汽車后觸摸屏顯示尺寸的問(wèn)題中,盡管視覺(jué)描述模塊未能捕捉到觸摸屏的詳細(xì)信息,SiLVR仍然能夠通過(guò)識(shí)別車輛類型和利用LLM的外部知識(shí)推斷出正確答案。在另一個(gè)關(guān)于分子結(jié)構(gòu)的復(fù)雜化學(xué)問(wèn)題中,SiLVR能夠通過(guò)逐步推理,解決問(wèn)題并驗(yàn)證生成答案的正確性。
七、結(jié)論與未來(lái)展望
SiLVR代表了視頻理解領(lǐng)域的一個(gè)簡(jiǎn)單但強(qiáng)大的解決方案。它將視頻理解分解為兩個(gè)階段——將原始視頻轉(zhuǎn)換為語(yǔ)言表示,然后使用強(qiáng)大的推理LLM進(jìn)行復(fù)雜推理,這種方法避免了耗時(shí)的訓(xùn)練過(guò)程和復(fù)雜的模型設(shè)計(jì),同時(shí)在多個(gè)基準(zhǔn)測(cè)試上取得了最先進(jìn)的性能。
盡管SiLVR基于簡(jiǎn)單的設(shè)計(jì)原則,但它的性能令人印象深刻,甚至超過(guò)了一些復(fù)雜的專有模型。這表明,有時(shí)簡(jiǎn)單的解決方案可能比復(fù)雜的方法更有效。研究團(tuán)隊(duì)希望SiLVR的簡(jiǎn)單而有效的設(shè)計(jì)能夠幫助研究社區(qū)建立更強(qiáng)大的視頻-語(yǔ)言推理模型。
不過(guò),SiLVR也存在一些局限性。作為一個(gè)模塊化框架,其性能依賴于各個(gè)組件的質(zhì)量。在視覺(jué)感知方面,SiLVR依賴于視覺(jué)描述模型,這些模型可能會(huì)產(chǎn)生幻覺(jué)或缺少精細(xì)的視覺(jué)細(xì)節(jié)。然而,由于SiLVR對(duì)特定視覺(jué)描述模型的使用是不可知的,未來(lái)視覺(jué)描述模型的進(jìn)步將有助于緩解這個(gè)問(wèn)題。在推理方面,當(dāng)LLM生成的推理軌跡不正確時(shí),SiLVR的性能可能會(huì)下降。但這是當(dāng)前LLM的一個(gè)更廣泛的限制,未來(lái)在長(zhǎng)上下文建模和LLM推理方面的進(jìn)展將進(jìn)一步提升SiLVR的性能。
總的來(lái)說(shuō),SiLVR為復(fù)雜的視頻-語(yǔ)言理解任務(wù)提供了一個(gè)簡(jiǎn)單、模塊化、無(wú)需訓(xùn)練且高性能的解決方案。它的成功表明,我們可以利用現(xiàn)有LLM的強(qiáng)大推理能力來(lái)解決復(fù)雜的視頻理解問(wèn)題,而無(wú)需進(jìn)行昂貴的多模態(tài)訓(xùn)練。隨著LLM和視覺(jué)描述模型的不斷進(jìn)步,我們可以期待SiLVR及其后繼者在未來(lái)取得更好的性能。
好文章,需要你的鼓勵(lì)
新加坡國(guó)立大學(xué)研究團(tuán)隊(duì)開(kāi)發(fā)了SPIRAL框架,通過(guò)讓AI與自己對(duì)弈零和游戲來(lái)提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡(jiǎn)單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無(wú)需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開(kāi)發(fā)的GIGA-ToF技術(shù)通過(guò)融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問(wèn)題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺(jué)解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過(guò)對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺(jué)語(yǔ)言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無(wú)法有效利用視覺(jué)信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過(guò)動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語(yǔ)言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。