在當(dāng)今人工智能快速發(fā)展的時(shí)代,大型多模態(tài)模型(LMMs)在視頻理解領(lǐng)域取得了顯著進(jìn)展。一個(gè)特別引人注目的挑戰(zhàn)是長視頻理解(LVU),即讓AI系統(tǒng)分析、理解并推理時(shí)長較長的視頻內(nèi)容。這項(xiàng)由多倫多大學(xué)的Wentao Ma、滑鐵盧大學(xué)的Weiming Ren等研究人員領(lǐng)導(dǎo)的研究發(fā)表于2025年5月,他們?cè)谘芯窟^程中發(fā)現(xiàn)了一個(gè)令人警醒的問題:目前評(píng)估長視頻理解能力的基準(zhǔn)測(cè)試存在嚴(yán)重缺陷。
想象一下,你正在準(zhǔn)備一場(chǎng)重要考試,但你突然發(fā)現(xiàn)考試是多選題形式,而且即使你完全不學(xué)習(xí),隨機(jī)猜測(cè)也能得到不錯(cuò)的分?jǐn)?shù)。這就是研究者們發(fā)現(xiàn)的問題所在?,F(xiàn)有的長視頻理解基準(zhǔn)測(cè)試主要依賴多選題(MCQs),而這種評(píng)估方式存在兩個(gè)明顯缺陷:一是模型可以通過猜測(cè)獲得高分;二是許多問題存在強(qiáng)烈的先驗(yàn)偏好,使模型甚至不需要真正理解視頻內(nèi)容就能回答正確。
舉個(gè)例子,谷歌的Gemini-1.5-Pro模型僅看一幀隨機(jī)抽取的視頻畫面,就能在Video-MME測(cè)試中達(dá)到超過50%的準(zhǔn)確率。這就像你在電視節(jié)目中只看了一個(gè)片段,卻能猜出整個(gè)故事情節(jié)一樣不合理。更讓人費(fèi)解的是,當(dāng)增加輸入視頻的幀數(shù)時(shí),模型性能并沒有如預(yù)期那樣提高,有時(shí)反而下降。這完全違背了我們的直覺,因?yàn)楦嗟囊曨l信息應(yīng)該提供更豐富的上下文,理應(yīng)幫助模型做出更準(zhǔn)確的判斷。
為了解決這些問題,研究團(tuán)隊(duì)提出了一個(gè)更加穩(wěn)健和真實(shí)的評(píng)估基準(zhǔn)——VIDEOEVAL-PRO。與現(xiàn)有基準(zhǔn)不同,VIDEOEVAL-PRO采用開放式短答案形式的問題,這些問題真正需要模型理解整個(gè)視頻內(nèi)容才能回答正確。就像從填空題或選擇題轉(zhuǎn)變?yōu)閱柎痤},大大增加了作弊和猜測(cè)的難度。
研究者們從四個(gè)現(xiàn)有的長視頻理解基準(zhǔn)(Video-MME、MLVU、LVBench和LongVideoBench)中收集問題,并將它們轉(zhuǎn)換為開放式問題。經(jīng)過嚴(yán)格的篩選,最終的基準(zhǔn)包含465個(gè)視頻,平均時(shí)長38分鐘,共1,289個(gè)問答對(duì)。這些問題評(píng)估模型對(duì)視頻片段和完整視頻的理解能力,涉及感知和推理兩大類任務(wù)。
研究團(tuán)隊(duì)對(duì)21個(gè)專有和開源視頻LMM進(jìn)行了評(píng)估,結(jié)果令人深思:首先,在開放式問題上,模型性能與多選題相比下降了超過25%;其次,令人驚訝的是,在多選題上得分較高的模型并不一定在開放式問題上表現(xiàn)更好;第三,與其他多選題基準(zhǔn)相比,增加輸入幀數(shù)對(duì)VIDEOEVAL-PRO的性能提升更為顯著。
這項(xiàng)研究猶如給長視頻理解領(lǐng)域潑了一盆冷水,揭示了當(dāng)前評(píng)估方法的局限性。同時(shí),它也為未來研究提供了更可靠的評(píng)估工具,幫助我們更準(zhǔn)確地衡量AI系統(tǒng)理解長視頻的真實(shí)能力。
看完這項(xiàng)研究,我忍不住想到:在人工智能的其他領(lǐng)域,是否也存在類似的評(píng)估問題?我們是否過于樂觀地評(píng)估了當(dāng)前AI系統(tǒng)的能力?當(dāng)技術(shù)進(jìn)步如此迅速時(shí),確保我們的評(píng)估方法能真實(shí)反映AI能力的重要性怎么強(qiáng)調(diào)都不為過。
接下來,讓我們深入了解VIDEOEVAL-PRO是如何構(gòu)建的,以及它揭示了哪些關(guān)于當(dāng)前視頻理解模型的真相。
一、研究背景:為什么長視頻理解如此重要?
想象一下,你是一名保安,需要通過監(jiān)控系統(tǒng)檢測(cè)異常行為;或者你是自動(dòng)駕駛系統(tǒng)的設(shè)計(jì)者,需要預(yù)測(cè)行人的行為;又或者你是一名學(xué)生,想從一堂長達(dá)一小時(shí)的視頻講座中提取關(guān)鍵信息。這些場(chǎng)景都需要AI系統(tǒng)能夠理解和推理長視頻內(nèi)容。
長視頻理解(LVU)正是指讓AI系統(tǒng)處理、解析并推理長時(shí)間視頻內(nèi)容的任務(wù)。它在視頻監(jiān)控中的事件和異常檢測(cè)、自動(dòng)駕駛中的時(shí)間推理和行為預(yù)測(cè),以及教學(xué)視頻中的內(nèi)容總結(jié)或關(guān)鍵信息檢索等領(lǐng)域有著廣泛的應(yīng)用。因此,設(shè)計(jì)能夠理解和推理長視頻的AI系統(tǒng)是人工智能領(lǐng)域的一個(gè)基礎(chǔ)挑戰(zhàn)。
近年來,大型多模態(tài)模型(LMMs)作為解決長視頻理解問題的潛在方案涌現(xiàn)出來。研究人員通過多種方式增強(qiáng)LMMs處理長視頻的能力,包括擴(kuò)展上下文長度、丟棄或合并視頻令牌,以及利用高效的線性復(fù)雜度模型。除了模型架構(gòu)的改進(jìn)外,研究人員還在探索更好的訓(xùn)練數(shù)據(jù)和強(qiáng)化學(xué)習(xí)方法,以提升針對(duì)LVU任務(wù)的LMMs性能。
這些努力取得了顯著成果:最初的嘗試如Video-LLaVA(2023年11月)只能處理包含八幀畫面的短視頻,而今天,像Vamba、Video-XL-Pro和InternVideo2.5(2025年初)這樣的LMMs已經(jīng)能夠編碼數(shù)千幀畫面并推理長達(dá)一小時(shí)的視頻。
為了嚴(yán)格評(píng)估視頻LMMs的進(jìn)展,研究人員引入了專門的長視頻理解基準(zhǔn)測(cè)試,這些測(cè)試提供標(biāo)準(zhǔn)化的分?jǐn)?shù)來量化和比較不同模型推理長視頻的能力。然而,深入研究這些基準(zhǔn)測(cè)試后,研究團(tuán)隊(duì)發(fā)現(xiàn)了一些令人擔(dān)憂的問題。
二、現(xiàn)有長視頻評(píng)估基準(zhǔn)的問題
如果你參加過選擇題考試,你可能知道有時(shí)候即使不完全理解問題,也能通過排除法或運(yùn)氣猜對(duì)答案。這正是研究團(tuán)隊(duì)在現(xiàn)有長視頻理解基準(zhǔn)中發(fā)現(xiàn)的問題。
第一個(gè)主要問題是,大多數(shù)現(xiàn)有的LVU基準(zhǔn)幾乎完全依賴多選題(MCQs)。這種格式無意中可能為模型提供線索,使其能夠通過猜測(cè)正確答案。想象一下,如果你被問"視頻中的主角穿著什么顏色的衣服?",并給出選項(xiàng)"紅色"、"藍(lán)色"、"綠色"和"黃色",即使模型對(duì)視頻內(nèi)容理解有限,也有25%的機(jī)會(huì)猜對(duì)。
研究結(jié)果令人震驚:當(dāng)同一組問題從多選題轉(zhuǎn)換為開放式問題回答時(shí),模型準(zhǔn)確率平均下降超過20%。這一巨大差距表明,基于MCQ的準(zhǔn)確率可能被大大夸大,無法可靠地反映模型對(duì)視頻內(nèi)容的真實(shí)理解。
第二個(gè)問題更加微妙但同樣嚴(yán)重。許多現(xiàn)有LVU基準(zhǔn)中的問題存在強(qiáng)烈的先驗(yàn)偏好,允許模型在沒有真正處理輸入視頻的情況下正確回答。例如,在Video-MME基準(zhǔn)測(cè)試中,專有模型(如Gemini-1.5-Pro)和開源模型(如Qwen2.5-VL-7B)僅使用一幀輸入畫面就能達(dá)到約50%的準(zhǔn)確率。
這就像你不用看電影,只看電影海報(bào)就能猜出電影的主要情節(jié)一樣荒謬。這些問題導(dǎo)致了一個(gè)違反直覺的現(xiàn)象:隨著輸入幀數(shù)的增加,模型性能趨于平穩(wěn)甚至下降,而不是如我們所期望的那樣提高。這完全違背了常理,因?yàn)楦嗟膸瑧?yīng)該提供更豐富的上下文信息,理應(yīng)改善長視頻理解。
這些發(fā)現(xiàn)引發(fā)了兩個(gè)核心問題: 1. 現(xiàn)有的長視頻基準(zhǔn)是否真實(shí)反映了模型理解長視頻內(nèi)容的實(shí)際能力? 2. 由較新模型報(bào)告的性能提升是否真正轉(zhuǎn)化為更強(qiáng)的長視頻理解能力,或者這些提升只是幻象?
為了探索這些問題,研究團(tuán)隊(duì)提出了VIDEOEVAL-PRO,一個(gè)更加穩(wěn)健和真實(shí)的長視頻理解評(píng)估基準(zhǔn)。
三、VIDEOEVAL-PRO:一個(gè)更公平的評(píng)估基準(zhǔn)
VIDEOEVAL-PRO就像是一場(chǎng)不允許作弊的考試,它要求參與者真正理解所學(xué)內(nèi)容,而非僅僅依靠選擇題的猜測(cè)。這個(gè)基準(zhǔn)包含開放式、短答案形式的問答問題,這些問題真正需要理解整個(gè)視頻內(nèi)容才能回答正確。
### 數(shù)據(jù)收集與篩選流程
研究團(tuán)隊(duì)首先從四個(gè)公開可用的長視頻理解基準(zhǔn)中收集源問答對(duì):Video-MME、MLVU、LVBench和LongVideoBench。這些基準(zhǔn)覆蓋了多樣化的視頻內(nèi)容和問題類型,為長視頻理解任務(wù)提供了豐富的素材。初始種子問題集包含5,562個(gè)問題,全部采用包含4-6個(gè)選項(xiàng)的MCQ格式。
為了創(chuàng)建開放式評(píng)估基準(zhǔn),研究者將每個(gè)多選題轉(zhuǎn)換為自由形式的問題:正確的MCQ選項(xiàng)成為參考答案,而干擾項(xiàng)則被丟棄。在評(píng)估過程中,模型只接收問題本身,迫使其基于輸入視頻生成答案,而不是利用不同選項(xiàng)中的提示。
收集初始問題池后,研究團(tuán)隊(duì)?wèi)?yīng)用了多階段篩選過程,確保最終數(shù)據(jù)集強(qiáng)調(diào)長期視頻理解并為當(dāng)前模型提供有意義的挑戰(zhàn):
**視頻時(shí)長篩選**:首先,研究者過濾掉所有與短于10分鐘視頻相關(guān)的樣本。較短的片段通常包含較少的復(fù)雜長期時(shí)間依賴關(guān)系,可能降低視頻感知和推理任務(wù)的難度。為了保持VIDEOEVAL-PRO的難度和可靠性,研究者只選擇了與中長視頻(>10分鐘)相關(guān)的問題。
**問題和答案類型篩選**:在第二階段,研究者移除了原始MCQ格式中答案選項(xiàng)平均詞數(shù)超過五個(gè)詞的問題。例如,"這個(gè)視頻是關(guān)于什么的?"這類問題通常會(huì)產(chǎn)生過于詳細(xì)的回答,這會(huì)使答案評(píng)估變得復(fù)雜。這一詞數(shù)限制減少了過于冗長的選項(xiàng)帶來的不確定性,確保轉(zhuǎn)換后的開放式問題有簡(jiǎn)潔但有意義的答案,從而更容易讓LLM評(píng)判模型響應(yīng),提高基準(zhǔn)的整體有效性和準(zhǔn)確性。
**可回答性篩選**:在第三階段,研究者評(píng)估每個(gè)多選題是否可以合理地重新表述為自由形式問題,而不失去清晰度或可回答性。從收集的問題池中,研究者注意到三類可回答性較低的問題: 1. 選項(xiàng)評(píng)估或比較問題,要求模型比較不同選項(xiàng)并選擇最合理的選項(xiàng); 2. 時(shí)間戳依賴問題,要求模型回答給定數(shù)字時(shí)間戳的問題; 3. 字幕依賴問題,查詢僅出現(xiàn)在字幕中的信息。
研究者使用Gemini-2.0-Flash模型對(duì)問題(不包括答案選項(xiàng))進(jìn)行判斷,確定該問題是否僅基于視頻內(nèi)容就可以回答。這一步幫助識(shí)別并丟棄嚴(yán)重依賴檢查MCQ選項(xiàng)的問題,這些問題不適合開放式評(píng)估。
**難度篩選**:最后,研究者過濾掉了太容易回答的問題。為了識(shí)別這類情況,研究者從每個(gè)輸入視頻中隨機(jī)采樣一幀,并提示Gemini-2.0-Flash使用該幀生成對(duì)應(yīng)MCQ和開放式問題的答案。然后使用Gemini-2.0-Flash判斷開放式答案。對(duì)于Gemini-2.0-Flash在MCQ和開放式格式都能產(chǎn)生正確答案的問題,將從基準(zhǔn)中排除。這一篩選步驟確保剩余問題需要更廣泛的時(shí)間理解,不能僅使用最少的視覺上下文解決。
經(jīng)過這一嚴(yán)格的數(shù)據(jù)收集和篩選流程,最終的基準(zhǔn)問題需要更深入的時(shí)間理解和推理,超越表面線索。最終數(shù)據(jù)集包括1,289個(gè)問答對(duì),每對(duì)都基于一個(gè)時(shí)長超過10分鐘的長視頻。如表1所示,VIDEOEVAL-PRO包括總共465個(gè)視頻,平均長度為38.25分鐘。其中,204個(gè)視頻在10到30分鐘之間,261個(gè)視頻超過30分鐘。對(duì)于基準(zhǔn)中使用的1,289個(gè)問題,371個(gè)與10-30分鐘范圍內(nèi)的視頻相關(guān),而918個(gè)基于長度超過30分鐘的視頻。答案的平均長度為2.1個(gè)詞。這些設(shè)計(jì)選擇確保評(píng)估專注于模型從長視頻內(nèi)容中檢索簡(jiǎn)潔準(zhǔn)確信息的能力。
### 任務(wù)定義與分布
研究團(tuán)隊(duì)提出了一個(gè)統(tǒng)一且可推廣的任務(wù)分類法,將基準(zhǔn)問題分為四種主要類型和15種子類型。這些任務(wù)類型涵蓋了對(duì)本地視頻片段和整體長視頻理解任務(wù)的感知和推理需求。四種主要任務(wù)類型是:
**局部感知(LP)**:LP專注于從長視頻中的短視頻片段中識(shí)別和檢索視覺元素或動(dòng)作。該類別包括片段問答、大海撈針問答、屬性感知、動(dòng)作識(shí)別、物體識(shí)別、實(shí)體識(shí)別、關(guān)鍵信息檢索和組合的其他子類型。
**局部推理(LR)**:LR專注于短時(shí)間窗口內(nèi)的推理,如推斷因果關(guān)系、時(shí)間順序或在本地事件序列中發(fā)生的變化。該類別中的四個(gè)子類型是自我中心視頻推理、物體推理、時(shí)間推理和動(dòng)作推理。
**整體感知(HP)**:HP涉及對(duì)統(tǒng)計(jì)、結(jié)構(gòu)或空間信息的全局和整體理解,通常需要視覺聚合。在VIDEOEVAL-PRO中,HP由視覺計(jì)數(shù)問題組成。
**整體推理(HR)**:HR需要跨事件或場(chǎng)景對(duì)長視頻進(jìn)行抽象或高層次理解,通常涉及敘事或意圖理解。HR的兩個(gè)子類型是事件理解和情節(jié)推理。
這種分類法使得能夠?qū)﹂L視頻理解所需的不同認(rèn)知需求進(jìn)行細(xì)粒度評(píng)估。基于這種分類法,數(shù)據(jù)集中問題的分布如圖2b所示。大多數(shù)問題(59%)屬于局部感知類別,反映了VIDEOEVAL-PRO對(duì)細(xì)粒度跟蹤和理解視覺動(dòng)態(tài)的強(qiáng)調(diào)。整體推理占問題的21%,而局部推理和整體感知分別占數(shù)據(jù)集問題的11%和10%。
四、評(píng)估流程:如何測(cè)試模型性能
評(píng)估過程就像是一場(chǎng)公平、標(biāo)準(zhǔn)化的考試,確保所有參與的AI模型都在相同條件下接受測(cè)試。具體來說,評(píng)估流程是這樣的:
對(duì)于基準(zhǔn)中的每個(gè)問題,研究團(tuán)隊(duì)從相應(yīng)視頻中均勻采樣固定數(shù)量的幀。如果可用幀的總數(shù)少于所需幀數(shù),則使用所有幀。采樣的幀與開放式問題一起傳遞給被評(píng)估的模型以生成答案。
為了評(píng)估每個(gè)模型響應(yīng)的正確性,研究團(tuán)隊(duì)采用了SimpleQA和Video-SimpleQA中引入的評(píng)估標(biāo)準(zhǔn)。具體來說,每個(gè)模型響應(yīng)被分類為以下類別之一:
**正確**:預(yù)測(cè)答案全面包含參考答案中的所有基本信息,且不包含任何矛盾內(nèi)容。
**不正確**:預(yù)測(cè)答案包含與參考答案矛盾的陳述,或提供不確定的回應(yīng),如"可能"或"我認(rèn)為"。
**未嘗試**:預(yù)測(cè)答案省略了參考答案的關(guān)鍵元素,但不與之矛盾,或模型拒絕回答問題。
研究團(tuán)隊(duì)遵循"LLM作為評(píng)判"范式,采用GPT-4o-0806作為評(píng)估模型來評(píng)估生成的短答案的準(zhǔn)確性。最后,團(tuán)隊(duì)報(bào)告整體正確率,即標(biāo)記為"正確"的響應(yīng)在整個(gè)數(shù)據(jù)集中的比例。這一指標(biāo)反映了模型提供準(zhǔn)確、忠實(shí)的答案(基于視覺內(nèi)容)的能力。
五、實(shí)驗(yàn)結(jié)果:揭示視頻理解模型的真實(shí)能力
研究團(tuán)隊(duì)對(duì)21個(gè)專有和開源LMMs進(jìn)行了全面評(píng)估,結(jié)果令人深思。以下是主要發(fā)現(xiàn):
### MCQ與VIDEOEVAL-PRO對(duì)比
如表2所示,與MCQ準(zhǔn)確率相比,所有模型在開放式問題上的性能都有顯著下降。此外,從MCQ和開放式問題獲得的分?jǐn)?shù)不一定相關(guān)。例如,雖然InternVL2.5和InternVL3在MCQ準(zhǔn)確率上優(yōu)于Qwen2.5-VL,但它們?cè)陂_放式問答分?jǐn)?shù)上卻低于Qwen2.5-VL。這些發(fā)現(xiàn)表明,基于MCQ的準(zhǔn)確率可能高估了模型性能,無法捕捉模型理解長視頻的真實(shí)能力。因此,MCQ結(jié)果可能不是對(duì)視頻LMMs進(jìn)行排名的可靠指標(biāo)。
### 局部與整體任務(wù)對(duì)比
在比較局部與整體理解任務(wù)的性能時(shí),研究者觀察到大多數(shù)模型在局部任務(wù)上表現(xiàn)更好,表明整體任務(wù)通常更具挑戰(zhàn)性。這種差異是預(yù)期的,因?yàn)檎w任務(wù)要求模型處理整個(gè)視頻并推理跨越長時(shí)間的復(fù)雜時(shí)間動(dòng)態(tài)。相反,局部任務(wù)限于短視頻片段,其中動(dòng)作或事件通常更簡(jiǎn)單且更具時(shí)間局限性,使其更容易識(shí)別和解釋。
### 感知與推理任務(wù)對(duì)比
比較感知與推理任務(wù)的結(jié)果,研究者發(fā)現(xiàn)雖然模型在兩種任務(wù)類型上常常獲得相似的MCQ準(zhǔn)確率,但它們?cè)陂_放式問題上的表現(xiàn)卻顯著不同。具體來說,模型在開放式設(shè)置中往往在感知任務(wù)上表現(xiàn)顯著好于推理任務(wù)。例如,Gemini-2.5-Flash在局部感知任務(wù)和局部推理任務(wù)上的MCQ準(zhǔn)確率相當(dāng),分別為64.1%和65.3%。然而,其開放式問答準(zhǔn)確率在局部推理任務(wù)上降至30.6%,而在局部感知任務(wù)上則保持較高的42.4%。這種差異突顯了長視頻推理任務(wù)的增加難度,這一點(diǎn)可以通過VIDEOEVAL-PRO正確反映出來。
### 專有與開源模型對(duì)比
研究團(tuán)隊(duì)比較了專有和開源模型在多個(gè)基準(zhǔn)上的表現(xiàn),觀察到一個(gè)有趣的現(xiàn)象。如表3所示,雖然最佳開源視頻LMMs(如InternVideo2.5或InternVL3)已經(jīng)在現(xiàn)有長視頻理解基準(zhǔn)上超過GPT-4o/Gemini-1.5-Pro高達(dá)14%,但它們?cè)赩IDEOEVAL-PRO上的表現(xiàn)仍落后于GPT-4o/Gemini-1.5-Pro 13%。這一顯著對(duì)比揭示了開源模型在更具挑戰(zhàn)性的長視頻理解任務(wù)上的脆弱性。
### VIDEOEVAL-PRO的幀縮放屬性
研究團(tuán)隊(duì)還檢查了VIDEOEVAL-PRO在不同輸入幀數(shù)下的性能變化。如圖3a所示,評(píng)估了兩個(gè)專有模型(Gemini-1.5-Flash和Gemini-1.5-Pro)和三個(gè)開源模型(Qwen2-VL、Qwen2.5-VL和InternVideo2.5)。
研究者的第一個(gè)觀察是,現(xiàn)有基準(zhǔn)如Video-MME即使只向模型提供一幀,也能產(chǎn)生相對(duì)較高的準(zhǔn)確率。如圖3b所示,專有和開源模型在這種設(shè)置下都能達(dá)到約45%的準(zhǔn)確率,Gemini-1.5-Pro甚至超過50%。這些結(jié)果表明,當(dāng)前的長視頻基準(zhǔn)可能包含不夠具有挑戰(zhàn)性的問題,允許模型即使在大部分視頻信息缺失的情況下也能正確回答。相比之下,當(dāng)僅提供一幀輸入幀時(shí),所有模型在VIDEOEVAL-PRO上的準(zhǔn)確率僅為10%左右,如圖3a所示。這一性能下降突顯了VIDEOEVAL-PRO不能在沒有結(jié)合輸入視頻中更豐富的視覺線索的情況下輕易解決,證明VIDEOEVAL-PRO是一個(gè)更具挑戰(zhàn)性和更具辨別力的長視頻理解評(píng)估基準(zhǔn)。
研究者還發(fā)現(xiàn),在現(xiàn)有長視頻基準(zhǔn)上的性能往往隨著輸入幀數(shù)的增加而飽和或甚至下降。如圖3b所示,所有模型在使用256個(gè)輸入幀時(shí)在Video-MME上達(dá)到最高準(zhǔn)確率,但當(dāng)輸入延長到512幀時(shí),性能開始平穩(wěn)或下降。這是一個(gè)反直覺的發(fā)現(xiàn),因?yàn)槿藗冾A(yù)期提供更多輸入幀會(huì)提供額外的上下文信息,模型可以利用這些信息來提高性能。另一方面,五個(gè)測(cè)試模型在VIDEOEVAL-PRO上隨著輸入幀數(shù)的增加表現(xiàn)出一致的準(zhǔn)確率提升。這種差異表明,VIDEOEVAL-PRO是評(píng)估長視頻任務(wù)的更穩(wěn)健基準(zhǔn),提供了對(duì)模型整合和推理更長視頻上下文能力的更忠實(shí)評(píng)估。
六、案例分析:模型真的理解視頻內(nèi)容嗎?
通過使用Gemini-2.0-Flash的結(jié)果進(jìn)行定性分析,研究團(tuán)隊(duì)更深入地了解了VIDEOEVAL-PRO帶來的挑戰(zhàn)。他們識(shí)別了幾個(gè)有趣的案例,模型在MCQ設(shè)置中選擇了正確答案,但在自由形式響應(yīng)中未能產(chǎn)生準(zhǔn)確的事實(shí)細(xì)節(jié)。
在第一個(gè)例子中,問題詢問多倫多紀(jì)念戰(zhàn)爭(zhēng)紀(jì)念館的外觀。雖然Gemini在多選題(MCQ)格式中正確選擇了答案"數(shù)千面加拿大國旗",但在開放式設(shè)置中未能給出正確回應(yīng)。這表明,當(dāng)MCQ選項(xiàng)可用時(shí),模型可能依賴常識(shí)(多倫多和加拿大相關(guān)聯(lián)),而不是進(jìn)行詳細(xì)的視頻分析。
在第二個(gè)例子中,雖然模型在MCQ格式中正確識(shí)別了選項(xiàng)"牛車",但在開放式回應(yīng)中錯(cuò)誤地將內(nèi)容描述為"那是一匹馬"。這表明,長視頻中的細(xì)粒度視覺識(shí)別仍然是LMMs的重大挑戰(zhàn),MCQ選項(xiàng)可能提供線索幫助模型規(guī)避這一困難。
類似地,在第三個(gè)例子中,問題詢問視頻中出現(xiàn)的人數(shù),模型在MCQ格式中正確選擇了"15",但在開放式版本中回應(yīng)"20"。這種差異表明,正確的MCQ答案可能是通過猜測(cè)或消除策略選擇的,而不是通過對(duì)視頻內(nèi)容的精確分析。
這些案例凸顯了開放式問題在評(píng)估模型真實(shí)理解能力方面的價(jià)值,而不僅僅依賴多選題形式的評(píng)估。
七、結(jié)論與未來展望
這項(xiàng)研究介紹了VIDEOEVAL-PRO,一個(gè)穩(wěn)健而真實(shí)的LVU基準(zhǔn),旨在忠實(shí)評(píng)估LMM對(duì)長視頻的理解和推理能力。與現(xiàn)有的LVU基準(zhǔn)相比,VIDEOEVAL-PRO將MCQ問題重新表述為開放式問題,防止模型利用選項(xiàng)中固有的捷徑,減少M(fèi)CQ格式導(dǎo)致的性能變化。VIDEOEVAL-PRO還采用嚴(yán)格的數(shù)據(jù)篩選流程,消除具有強(qiáng)烈先驗(yàn)偏好的問題,這些問題允許LMMs基于常識(shí)或刻板印象關(guān)聯(lián)回答,而無需真正閱讀視頻。
通過評(píng)估21個(gè)專有和開源模型,研究團(tuán)隊(duì)發(fā)現(xiàn)VIDEOEVAL-PRO對(duì)當(dāng)前的視頻LMMs提出了重大挑戰(zhàn),表現(xiàn)最好的模型GPT-4.1也僅達(dá)到40.8%的準(zhǔn)確率。他們還觀察到,與其他LVU基準(zhǔn)不同,在那些基準(zhǔn)中,隨著輸入幀數(shù)的增加,模型性能趨于飽和,而在VIDEOEVAL-PRO上,隨著提供更多幀,性能持續(xù)提高。這些觀察表明,VIDEOEVAL-PRO是一個(gè)更可靠的基準(zhǔn),能夠追蹤長視頻理解的進(jìn)展。
這項(xiàng)研究為我們敲響了警鐘:在評(píng)估AI系統(tǒng)的能力時(shí),我們需要更加嚴(yán)格和真實(shí)的方法。它提醒我們,表面上的高分可能掩蓋了模型理解能力的實(shí)際局限性。同時(shí),它也為未來研究提供了一條清晰的道路,指向開發(fā)真正能理解和推理復(fù)雜視頻內(nèi)容的系統(tǒng)。
隨著視頻內(nèi)容在我們生活中的不斷增長,從社交媒體到監(jiān)控系統(tǒng),從教育到娛樂,能夠準(zhǔn)確理解長視頻的AI系統(tǒng)將變得越來越重要。VIDEOEVAL-PRO提供了一個(gè)更可靠的方法來衡量我們?cè)谶@一關(guān)鍵領(lǐng)域的進(jìn)展,確保未來的技術(shù)進(jìn)步是真實(shí)的,而不僅僅是基準(zhǔn)測(cè)試中的幻象。
好文章,需要你的鼓勵(lì)
新加坡國立大學(xué)研究團(tuán)隊(duì)開發(fā)了SPIRAL框架,通過讓AI與自己對(duì)弈零和游戲來提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡(jiǎn)單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。