av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 拆解視頻大語言模型評測基準(zhǔn):知識、空間感知還是真正的時序理解?蘋果公司研究團隊帶來新分析框架

拆解視頻大語言模型評測基準(zhǔn):知識、空間感知還是真正的時序理解?蘋果公司研究團隊帶來新分析框架

2025-06-03 20:42
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-03 20:42 ? 科技行者

在人工智能快速發(fā)展的今天,評估視頻大語言模型(Video LLMs)的能力變得越來越重要。然而,當(dāng)我們看到某個模型在視頻理解測試中獲得了高分時,這真的意味著它理解了視頻中的動態(tài)內(nèi)容嗎?2025年5月,蘋果公司的研究團隊發(fā)表了一篇引人深思的論文,對現(xiàn)有的視頻評測基準(zhǔn)進行了深入分析,揭示了許多令人意外的發(fā)現(xiàn)。

這項由蘋果公司的Bo Feng、Zhengfeng Lai、Shiyu Li、Zizhen Wang、Simon Wang、Ping Huang和Meng Cao共同完成的研究,發(fā)表于arXiv預(yù)印本平臺(arXiv:2505.14321v1)。他們指出,現(xiàn)有的視頻理解評測往往將知識型問題和純圖像型問題混為一談,而沒有明確地測試模型對視頻獨有的時序理解能力。

想象一下,如果你看一部電影,只看幾個靜止畫面和看完整的動態(tài)影片是完全不同的體驗。同樣,真正的視頻理解應(yīng)該依賴于對畫面序列變化的理解,而不僅僅是識別幾個關(guān)鍵幀中的內(nèi)容。然而,研究團隊發(fā)現(xiàn),許多所謂的"視頻理解測試"實際上可以在不看視頻的情況下回答,或者即使打亂視頻幀的順序也能得到正確答案!

這就像是給學(xué)生一個關(guān)于歷史事件順序的考試,卻發(fā)現(xiàn)不管歷史事件如何排列,學(xué)生都能答對——這顯然無法測試學(xué)生對歷史發(fā)展脈絡(luò)的理解。研究團隊針對這一問題,提出了一個名為VBenchComp的分析框架,它能自動將視頻理解問題分為四類:語言模型可回答型(不需要看視頻)、語義型(即使打亂視頻幀也能回答)、時序型(必須理解正確的時間順序)以及其他類型。

研究團隊用這個框架分析了市面上流行的視頻評測基準(zhǔn),發(fā)現(xiàn)了許多令人吃驚的結(jié)果。例如,在一些知名的視頻問答基準(zhǔn)中,高達30%的問題可以完全不看視頻就能回答正確!這就像是一場"開卷考試"被當(dāng)作了測試實際能力的"閉卷考試",自然無法真實反映模型的視頻理解能力。

讓我們一起深入探索這項研究的發(fā)現(xiàn),看看它如何幫助我們重新思考視頻人工智能的評估方式,以及未來應(yīng)該如何設(shè)計更好的評測基準(zhǔn)。

一、視頻大語言模型評測的現(xiàn)狀與挑戰(zhàn)

當(dāng)前的視頻大語言模型評測面臨著兩大關(guān)鍵挑戰(zhàn):計算資源消耗巨大和評測內(nèi)容存在偏差。

想象一下,如果你需要測試一款新手機的性能,卻發(fā)現(xiàn)測試過程要耗費數(shù)百小時并占用大量電力,這顯然是不可持續(xù)的。視頻模型評測也面臨類似問題。研究團隊統(tǒng)計發(fā)現(xiàn),要在七個常用的視頻問答基準(zhǔn)上評測一個參數(shù)量為2B的Qwen2-VL模型,需要消耗190.6個A100 GPU小時!如果是更大的72B模型,這個數(shù)字會飆升至491.9小時。這相當(dāng)于一臺高性能計算機不間斷工作20多天,消耗的電力足以供一個小型社區(qū)使用一天。

更令人擔(dān)憂的是評測內(nèi)容本身的問題。研究團隊發(fā)現(xiàn)了兩個主要缺陷:一是強語言先驗偏差,二是對順序打亂的不敏感性。

強語言先驗偏差指的是模型可以不看視頻,僅依靠問題中的文字信息就能回答正確。比如,當(dāng)問到"奧運會游泳比賽中,哪個項目最年長的運動員獲得了金牌?"這類問題,模型可能根據(jù)自身訓(xùn)練時獲得的知識就能推測答案,根本不需要分析視頻內(nèi)容。這就像是在測試學(xué)生的歷史知識,卻沒有檢查他們是否真的看了指定的歷史紀(jì)錄片。

對順序打亂的不敏感性則更加有趣。研究團隊做了一個巧妙的實驗:他們將視頻的幀順序完全打亂,然后再讓模型回答問題。令人驚訝的是,對于很多問題,模型的表現(xiàn)幾乎不受影響!這表明這些問題主要測試的是對靜態(tài)內(nèi)容的理解,而非視頻獨有的時序信息。就像給你看一部電影的所有場景截圖,但完全打亂順序,你仍然能說出電影中有什么人物和物體,但很難理解故事情節(jié)的發(fā)展脈絡(luò)。

這些問題導(dǎo)致了一個嚴(yán)重的后果:現(xiàn)有的評測基準(zhǔn)可能顯著高估了模型的視頻理解能力。一個在這些基準(zhǔn)上得分很高的模型,可能實際上只是擅長靜態(tài)圖像識別和利用語言知識,而非真正理解視頻的動態(tài)內(nèi)容。這就像是評價一個人的游泳能力,卻只測試他的理論知識和岸上動作,而不是真正讓他下水游泳。

二、VBenchComp:一個新的分析框架

為了解決上述問題,研究團隊提出了VBenchComp,這是一個自動化的分析框架,可以將視頻問答基準(zhǔn)中的問題分為四個不同類別。這個框架就像是一個分類系統(tǒng),能夠揭示每個問題真正在測試什么能力。

首先是"語言模型可回答型"問題。想象你問一個人"太陽系中最大的行星是什么?",即使不看任何視頻或圖片,只要有基本知識,就能回答是"木星"。VBenchComp通過向GPT-4o和Gemini-1.5-Pro這樣的大型語言模型提問(不提供視頻)來識別這類問題。如果兩個模型都能正確回答,那么這個問題就被歸類為語言模型可回答型,意味著它主要測試的是語言知識而非視頻理解能力。

第二類是"語義型"問題。這類問題即使視頻幀順序被打亂也能回答正確。比如"視頻中的汽車儀表盤顯示的速度是多少?"只需要看清某一幀中的速度顯示,而不需要理解前后幀的關(guān)系。VBenchComp通過對視頻幀進行隨機打亂,然后觀察模型回答是否保持一致來識別這類問題。

第三類是"時序型"問題,這才是真正測試視頻理解的核心部分。例如"視頻中物體是按什么順序出現(xiàn)的?"或"人物先做了什么動作,然后做了什么?"。這類問題在視頻幀被打亂后,模型的回答會顯著改變。就像看一部劇情片,如果場景順序被打亂,你就無法理解故事的發(fā)展。

最后,那些不屬于前三類的問題被歸為"其他"類別。這可能包括需要音頻信息的問題,或者對當(dāng)前技術(shù)而言過于復(fù)雜的問題。

研究團隊用這個框架分析了七個廣泛使用的視頻問答基準(zhǔn),包括LongVideoBench、Egoschema、NextQA、VideoMME、MLVU、LVBench和PerceptionTest。結(jié)果令人震驚:在NextQA基準(zhǔn)中,34.79%的問題屬于語言模型可回答型,37.63%屬于語義型,只有8.75%的問題真正測試了時序理解能力!這意味著超過70%的問題實際上沒有測試真正的視頻理解能力。

這就像是我們以為在評測一個人的游泳技術(shù),但實際上70%的測試項目是關(guān)于服裝選擇和游泳池邊站姿的知識,只有不到10%真正測試了水中的游泳能力。這顯然不能全面反映一個人的游泳水平,同樣,這些基準(zhǔn)也不能真實反映模型的視頻理解能力。

三、驚人的實驗發(fā)現(xiàn):沒看視頻也能答對?

研究團隊進行了一系列實驗,揭示了當(dāng)前視頻評測基準(zhǔn)的局限性。這些實驗結(jié)果就像是魔術(shù)師揭秘表演的秘密,讓我們看到了臺面下的真相。

在第一個實驗中,研究人員嘗試讓語言模型(如GPT-4o和Gemini-1.5-Pro)在完全沒有視頻輸入的情況下回答問題。結(jié)果發(fā)現(xiàn),這些模型在VideoMME和NExT-QA這樣的基準(zhǔn)上,竟然能達到高達50%的準(zhǔn)確率!這就像是一個從未看過足球比賽的人,卻能猜對一半關(guān)于比賽細節(jié)的問題,顯然不正常。

更令人吃驚的是,即使是開源的模型如PLLaVA-34B,也能在不看視頻的情況下在VideoMME上達到37.0%的準(zhǔn)確率。對于專門設(shè)計用來測試長視頻理解的LongVideoBench,這些模型不看視頻也能達到35%以上的準(zhǔn)確率。

這些結(jié)果清晰地表明,很多所謂的"視頻理解問題"實際上可以通過語言知識或常識推理來回答,根本不需要分析視頻內(nèi)容。就像問"足球場上有幾名球員?",即使不看比賽,有基本常識的人也知道是22名。

在第二個實驗中,研究團隊測試了視頻幀打亂對模型表現(xiàn)的影響。他們選擇了多種代表性的視頻大語言模型,包括GPT-4o和Gemini-1.5-Pro這樣的閉源模型,SlowFast-LLaVA這樣的訓(xùn)練自由模型,PLLaVA這樣的LoRA微調(diào)模型,以及LLaVA-OneVision這樣的視頻專門訓(xùn)練模型。

實驗結(jié)果再次令人震驚:無論是大型閉源模型還是開源模型,它們的表現(xiàn)在視頻幀被打亂后幾乎沒有變化!有時候,打亂幀順序后模型的表現(xiàn)反而提高了。例如,Gemini-1.5-Pro在幀打亂后在EgoSchema上的得分更高,GPT-4o在NExT-QA上也是如此。

這就好比你把一部電影的場景完全打亂順序放映,觀眾卻仍然能準(zhǔn)確回答關(guān)于電影內(nèi)容的問題,甚至比正常放映時回答得更好——這顯然說明這些問題主要測試的是對靜態(tài)內(nèi)容的理解,而非對情節(jié)發(fā)展的理解。

這些實驗結(jié)果共同表明,當(dāng)前的視頻評測基準(zhǔn)可能會產(chǎn)生誤導(dǎo)性的結(jié)論。一個在這些基準(zhǔn)上得分很高的模型,可能主要是因為它有強大的語言知識和靜態(tài)圖像理解能力,而非真正掌握了視頻的時序理解能力。這就像用識別食材的能力來評價一個廚師,而不是看他實際烹飪出的菜肴品質(zhì)。

四、用VBenchComp評測現(xiàn)有模型:揭示真相

當(dāng)研究團隊使用VBenchComp框架對現(xiàn)有的視頻大語言模型進行評測時,他們發(fā)現(xiàn)了傳統(tǒng)評分無法反映的細微差異。這就像是用高精度儀器重新測量運動員的成績,揭示出了計時表無法捕捉的微小差距。

以Qwen2-VL-7B和LLaVA-Video-7B兩個模型在Egoschema基準(zhǔn)上的表現(xiàn)為例。從傳統(tǒng)的總體得分來看,Qwen2-VL-7B略微領(lǐng)先(65.8%對61.8%)。但是,當(dāng)我們使用VBenchComp分類后查看詳細得分,真相浮出水面:Qwen2-VL-7B在語言模型可回答型問題上的表現(xiàn)明顯優(yōu)于LLaVA-Video-7B(85.0%對72.2%),而在語義問題上兩者表現(xiàn)相似。然而,在最關(guān)鍵的時序型問題上,Qwen2-VL-7B反而落后于LLaVA-Video-7B(37.8%對46.7%)。

這表明Qwen2-VL-7B的總體優(yōu)勢主要來自其更強的語言模型能力,而非更好的視頻理解能力。這就像兩位運動員進行全能比賽,一位因為在理論知識環(huán)節(jié)的出色表現(xiàn)而獲得總冠軍,但在實際運動技能環(huán)節(jié)卻表現(xiàn)不如對手。

在VideoMME基準(zhǔn)上,情況則完全相反。LLaVA-Video-7B不僅在總體得分上領(lǐng)先(63.9%對60.6%),而且在視覺相關(guān)的兩個維度上都表現(xiàn)更好:語義理解(82.0%對78.4%)和時序理解(42.6%對36.7%)。這表明LLaVA-Video-7B確實擁有更強的視覺和時序理解能力,而不僅僅是語言知識。

這些分析結(jié)果揭示了傳統(tǒng)單一總分評價方式的局限性。就像一個學(xué)生的總分可能掩蓋了他在某些關(guān)鍵科目上的不足,傳統(tǒng)的視頻理解評分也可能掩蓋模型在時序理解等核心能力上的差距。只有通過VBenchComp這樣的細粒度分析,我們才能發(fā)現(xiàn)這些關(guān)鍵差異,從而更好地指導(dǎo)下一代視頻大語言模型的開發(fā)。

研究團隊還基于上述分析,提出了一個簡化的評測方法:VBenchComp分數(shù)。這個分數(shù)只考慮語義型和時序型問題,忽略那些語言模型可回答型和其他類型的問題。盡管這樣減少了近50%的問題數(shù)量,但模型的排名與使用全部問題時幾乎保持一致。這表明這些精選的問題足以保留基準(zhǔn)的區(qū)分能力,同時大大減少了評測的計算成本。

這就像是從一套完整的考試中篩選出最具代表性的題目,既能準(zhǔn)確反映學(xué)生的能力水平,又能節(jié)省考試時間和資源。這對于資源有限的研究團隊和企業(yè)來說,無疑是一個實用的解決方案。

五、對未來視頻理解評測的啟示

這項研究不僅揭示了當(dāng)前視頻評測基準(zhǔn)的問題,還為未來設(shè)計更好的評測提供了寶貴啟示。就像醫(yī)生不僅指出疾病,還提供治療方案一樣,研究團隊不僅分析了問題,還提出了改進建議。

首先,未來的視頻評測基準(zhǔn)應(yīng)該更加注重時序理解能力的測試。這意味著設(shè)計更多真正需要理解視頻動態(tài)內(nèi)容的問題,例如事件順序、因果關(guān)系、狀態(tài)變化等。這就像測試一個人的閱讀理解能力,應(yīng)該問"故事情節(jié)如何發(fā)展",而不是"文章中提到了哪些人名"。

其次,評測基準(zhǔn)應(yīng)該減少對語言先驗知識的依賴。問題應(yīng)該設(shè)計成無法僅憑常識或背景知識回答,必須依靠視頻內(nèi)容才能得出正確答案。這就像設(shè)計一個化學(xué)實驗考試,問題應(yīng)該基于學(xué)生實際觀察到的實驗現(xiàn)象,而不是能從教科書中直接找到答案的理論知識。

第三,評測結(jié)果應(yīng)該提供更細粒度的分析,而不僅僅是一個總分。像VBenchComp這樣的框架可以幫助研究人員了解模型在不同類型問題上的表現(xiàn),從而更有針對性地改進模型設(shè)計。這就像一份詳細的健康報告,不僅告訴你整體健康狀況,還詳細列出各項指標(biāo),幫助你有針對性地改善。

最后,研究團隊建議未來的視頻評測應(yīng)考慮計算效率。通過精心設(shè)計問題集,可以在減少計算資源消耗的同時,保持評測的區(qū)分能力。這就像設(shè)計一個簡短但高效的體能測試,能在短時間內(nèi)準(zhǔn)確評估一個人的整體體能水平。

值得注意的是,VBenchComp雖然是一個強大的分析工具,但也有其局限性。它嚴(yán)重依賴GPT-4o和Gemini等大型語言模型的判斷,這可能引入這些模型自身的偏見。此外,VBenchComp主要關(guān)注問答任務(wù),如何將這一框架擴展到其他視頻理解任務(wù)(如視頻描述、檢索或標(biāo)注)仍是未來研究的重要方向。

六、結(jié)論:重新思考視頻AI的評測方式

這項由蘋果公司研究團隊完成的工作,為我們重新思考視頻AI的評測方式提供了重要啟示。就像重新校準(zhǔn)測量儀器一樣,這項研究幫助我們看清了當(dāng)前評測系統(tǒng)的盲點和偏差。

歸根結(jié)底,真正的視頻理解應(yīng)該包括對動態(tài)內(nèi)容的理解,而不僅僅是靜態(tài)圖像的識別或基于語言知識的推理。當(dāng)前的評測基準(zhǔn)在這方面存在明顯不足,往往高估了模型的視頻理解能力。VBenchComp框架通過將問題分為語言模型可回答型、語義型、時序型和其他類型,幫助我們更清晰地了解模型的真實能力。

這項研究的意義不僅在于揭示問題,更在于推動解決方案。通過提供一個更細致、更準(zhǔn)確的評測框架,研究團隊為開發(fā)更強大的視頻理解模型鋪平了道路。未來的視頻大語言模型不應(yīng)只專注于提高總體得分,而應(yīng)該更加重視時序理解能力的提升。

對于普通用戶來說,這項研究提醒我們在使用視頻AI工具時保持理性判斷。當(dāng)AI助手聲稱能"理解"視頻內(nèi)容時,它可能主要是在識別視頻中的靜態(tài)元素和利用語言知識進行推理,而非真正理解視頻的動態(tài)內(nèi)容。

最后,這項研究也啟示我們,技術(shù)評估需要不斷進化和完善。隨著AI技術(shù)的飛速發(fā)展,我們的評測方法也需要持續(xù)更新,才能準(zhǔn)確反映技術(shù)的真實水平。就像體育比賽規(guī)則會隨著運動員水平的提高而調(diào)整一樣,AI評測基準(zhǔn)也需要隨著技術(shù)進步而升級。

未來,我們可以期待看到更多像VBenchComp這樣的創(chuàng)新評測框架,幫助我們更準(zhǔn)確地了解AI系統(tǒng)的能力和局限,從而推動AI技術(shù)朝著更有意義的方向發(fā)展。

想深入了解這項研究的讀者,可以通過arXiv:2505.14321v1查閱完整論文。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-