在當(dāng)今人工智能快速發(fā)展的時代,大型多模態(tài)模型(LMMs)在視頻理解領(lǐng)域取得了顯著進展。一個特別引人注目的挑戰(zhàn)是長視頻理解(LVU),即讓AI系統(tǒng)分析、理解并推理時長較長的視頻內(nèi)容。這項由多倫多大學(xué)的Wentao Ma、滑鐵盧大學(xué)的Weiming Ren等研究人員領(lǐng)導(dǎo)的研究發(fā)表于2025年5月,他們在研究過程中發(fā)現(xiàn)了一個令人警醒的問題:目前評估長視頻理解能力的基準(zhǔn)測試存在嚴重缺陷。
想象一下,你正在準(zhǔn)備一場重要考試,但你突然發(fā)現(xiàn)考試是多選題形式,而且即使你完全不學(xué)習(xí),隨機猜測也能得到不錯的分數(shù)。這就是研究者們發(fā)現(xiàn)的問題所在。現(xiàn)有的長視頻理解基準(zhǔn)測試主要依賴多選題(MCQs),而這種評估方式存在兩個明顯缺陷:一是模型可以通過猜測獲得高分;二是許多問題存在強烈的先驗偏好,使模型甚至不需要真正理解視頻內(nèi)容就能回答正確。
舉個例子,谷歌的Gemini-1.5-Pro模型僅看一幀隨機抽取的視頻畫面,就能在Video-MME測試中達到超過50%的準(zhǔn)確率。這就像你在電視節(jié)目中只看了一個片段,卻能猜出整個故事情節(jié)一樣不合理。更讓人費解的是,當(dāng)增加輸入視頻的幀數(shù)時,模型性能并沒有如預(yù)期那樣提高,有時反而下降。這完全違背了我們的直覺,因為更多的視頻信息應(yīng)該提供更豐富的上下文,理應(yīng)幫助模型做出更準(zhǔn)確的判斷。
為了解決這些問題,研究團隊提出了一個更加穩(wěn)健和真實的評估基準(zhǔn)——VIDEOEVAL-PRO。與現(xiàn)有基準(zhǔn)不同,VIDEOEVAL-PRO采用開放式短答案形式的問題,這些問題真正需要模型理解整個視頻內(nèi)容才能回答正確。就像從填空題或選擇題轉(zhuǎn)變?yōu)閱柎痤},大大增加了作弊和猜測的難度。
研究者們從四個現(xiàn)有的長視頻理解基準(zhǔn)(Video-MME、MLVU、LVBench和LongVideoBench)中收集問題,并將它們轉(zhuǎn)換為開放式問題。經(jīng)過嚴格的篩選,最終的基準(zhǔn)包含465個視頻,平均時長38分鐘,共1,289個問答對。這些問題評估模型對視頻片段和完整視頻的理解能力,涉及感知和推理兩大類任務(wù)。
研究團隊對21個專有和開源視頻LMM進行了評估,結(jié)果令人深思:首先,在開放式問題上,模型性能與多選題相比下降了超過25%;其次,令人驚訝的是,在多選題上得分較高的模型并不一定在開放式問題上表現(xiàn)更好;第三,與其他多選題基準(zhǔn)相比,增加輸入幀數(shù)對VIDEOEVAL-PRO的性能提升更為顯著。
這項研究猶如給長視頻理解領(lǐng)域潑了一盆冷水,揭示了當(dāng)前評估方法的局限性。同時,它也為未來研究提供了更可靠的評估工具,幫助我們更準(zhǔn)確地衡量AI系統(tǒng)理解長視頻的真實能力。
看完這項研究,我忍不住想到:在人工智能的其他領(lǐng)域,是否也存在類似的評估問題?我們是否過于樂觀地評估了當(dāng)前AI系統(tǒng)的能力?當(dāng)技術(shù)進步如此迅速時,確保我們的評估方法能真實反映AI能力的重要性怎么強調(diào)都不為過。
接下來,讓我們深入了解VIDEOEVAL-PRO是如何構(gòu)建的,以及它揭示了哪些關(guān)于當(dāng)前視頻理解模型的真相。
一、研究背景:為什么長視頻理解如此重要?
想象一下,你是一名保安,需要通過監(jiān)控系統(tǒng)檢測異常行為;或者你是自動駕駛系統(tǒng)的設(shè)計者,需要預(yù)測行人的行為;又或者你是一名學(xué)生,想從一堂長達一小時的視頻講座中提取關(guān)鍵信息。這些場景都需要AI系統(tǒng)能夠理解和推理長視頻內(nèi)容。
長視頻理解(LVU)正是指讓AI系統(tǒng)處理、解析并推理長時間視頻內(nèi)容的任務(wù)。它在視頻監(jiān)控中的事件和異常檢測、自動駕駛中的時間推理和行為預(yù)測,以及教學(xué)視頻中的內(nèi)容總結(jié)或關(guān)鍵信息檢索等領(lǐng)域有著廣泛的應(yīng)用。因此,設(shè)計能夠理解和推理長視頻的AI系統(tǒng)是人工智能領(lǐng)域的一個基礎(chǔ)挑戰(zhàn)。
近年來,大型多模態(tài)模型(LMMs)作為解決長視頻理解問題的潛在方案涌現(xiàn)出來。研究人員通過多種方式增強LMMs處理長視頻的能力,包括擴展上下文長度、丟棄或合并視頻令牌,以及利用高效的線性復(fù)雜度模型。除了模型架構(gòu)的改進外,研究人員還在探索更好的訓(xùn)練數(shù)據(jù)和強化學(xué)習(xí)方法,以提升針對LVU任務(wù)的LMMs性能。
這些努力取得了顯著成果:最初的嘗試如Video-LLaVA(2023年11月)只能處理包含八幀畫面的短視頻,而今天,像Vamba、Video-XL-Pro和InternVideo2.5(2025年初)這樣的LMMs已經(jīng)能夠編碼數(shù)千幀畫面并推理長達一小時的視頻。
為了嚴格評估視頻LMMs的進展,研究人員引入了專門的長視頻理解基準(zhǔn)測試,這些測試提供標(biāo)準(zhǔn)化的分數(shù)來量化和比較不同模型推理長視頻的能力。然而,深入研究這些基準(zhǔn)測試后,研究團隊發(fā)現(xiàn)了一些令人擔(dān)憂的問題。
二、現(xiàn)有長視頻評估基準(zhǔn)的問題
如果你參加過選擇題考試,你可能知道有時候即使不完全理解問題,也能通過排除法或運氣猜對答案。這正是研究團隊在現(xiàn)有長視頻理解基準(zhǔn)中發(fā)現(xiàn)的問題。
第一個主要問題是,大多數(shù)現(xiàn)有的LVU基準(zhǔn)幾乎完全依賴多選題(MCQs)。這種格式無意中可能為模型提供線索,使其能夠通過猜測正確答案。想象一下,如果你被問"視頻中的主角穿著什么顏色的衣服?",并給出選項"紅色"、"藍色"、"綠色"和"黃色",即使模型對視頻內(nèi)容理解有限,也有25%的機會猜對。
研究結(jié)果令人震驚:當(dāng)同一組問題從多選題轉(zhuǎn)換為開放式問題回答時,模型準(zhǔn)確率平均下降超過20%。這一巨大差距表明,基于MCQ的準(zhǔn)確率可能被大大夸大,無法可靠地反映模型對視頻內(nèi)容的真實理解。
第二個問題更加微妙但同樣嚴重。許多現(xiàn)有LVU基準(zhǔn)中的問題存在強烈的先驗偏好,允許模型在沒有真正處理輸入視頻的情況下正確回答。例如,在Video-MME基準(zhǔn)測試中,專有模型(如Gemini-1.5-Pro)和開源模型(如Qwen2.5-VL-7B)僅使用一幀輸入畫面就能達到約50%的準(zhǔn)確率。
這就像你不用看電影,只看電影海報就能猜出電影的主要情節(jié)一樣荒謬。這些問題導(dǎo)致了一個違反直覺的現(xiàn)象:隨著輸入幀數(shù)的增加,模型性能趨于平穩(wěn)甚至下降,而不是如我們所期望的那樣提高。這完全違背了常理,因為更多的幀應(yīng)該提供更豐富的上下文信息,理應(yīng)改善長視頻理解。
這些發(fā)現(xiàn)引發(fā)了兩個核心問題: 1. 現(xiàn)有的長視頻基準(zhǔn)是否真實反映了模型理解長視頻內(nèi)容的實際能力? 2. 由較新模型報告的性能提升是否真正轉(zhuǎn)化為更強的長視頻理解能力,或者這些提升只是幻象?
為了探索這些問題,研究團隊提出了VIDEOEVAL-PRO,一個更加穩(wěn)健和真實的長視頻理解評估基準(zhǔn)。
三、VIDEOEVAL-PRO:一個更公平的評估基準(zhǔn)
VIDEOEVAL-PRO就像是一場不允許作弊的考試,它要求參與者真正理解所學(xué)內(nèi)容,而非僅僅依靠選擇題的猜測。這個基準(zhǔn)包含開放式、短答案形式的問答問題,這些問題真正需要理解整個視頻內(nèi)容才能回答正確。
### 數(shù)據(jù)收集與篩選流程
研究團隊首先從四個公開可用的長視頻理解基準(zhǔn)中收集源問答對:Video-MME、MLVU、LVBench和LongVideoBench。這些基準(zhǔn)覆蓋了多樣化的視頻內(nèi)容和問題類型,為長視頻理解任務(wù)提供了豐富的素材。初始種子問題集包含5,562個問題,全部采用包含4-6個選項的MCQ格式。
為了創(chuàng)建開放式評估基準(zhǔn),研究者將每個多選題轉(zhuǎn)換為自由形式的問題:正確的MCQ選項成為參考答案,而干擾項則被丟棄。在評估過程中,模型只接收問題本身,迫使其基于輸入視頻生成答案,而不是利用不同選項中的提示。
收集初始問題池后,研究團隊?wèi)?yīng)用了多階段篩選過程,確保最終數(shù)據(jù)集強調(diào)長期視頻理解并為當(dāng)前模型提供有意義的挑戰(zhàn):
**視頻時長篩選**:首先,研究者過濾掉所有與短于10分鐘視頻相關(guān)的樣本。較短的片段通常包含較少的復(fù)雜長期時間依賴關(guān)系,可能降低視頻感知和推理任務(wù)的難度。為了保持VIDEOEVAL-PRO的難度和可靠性,研究者只選擇了與中長視頻(>10分鐘)相關(guān)的問題。
**問題和答案類型篩選**:在第二階段,研究者移除了原始MCQ格式中答案選項平均詞數(shù)超過五個詞的問題。例如,"這個視頻是關(guān)于什么的?"這類問題通常會產(chǎn)生過于詳細的回答,這會使答案評估變得復(fù)雜。這一詞數(shù)限制減少了過于冗長的選項帶來的不確定性,確保轉(zhuǎn)換后的開放式問題有簡潔但有意義的答案,從而更容易讓LLM評判模型響應(yīng),提高基準(zhǔn)的整體有效性和準(zhǔn)確性。
**可回答性篩選**:在第三階段,研究者評估每個多選題是否可以合理地重新表述為自由形式問題,而不失去清晰度或可回答性。從收集的問題池中,研究者注意到三類可回答性較低的問題: 1. 選項評估或比較問題,要求模型比較不同選項并選擇最合理的選項; 2. 時間戳依賴問題,要求模型回答給定數(shù)字時間戳的問題; 3. 字幕依賴問題,查詢僅出現(xiàn)在字幕中的信息。
研究者使用Gemini-2.0-Flash模型對問題(不包括答案選項)進行判斷,確定該問題是否僅基于視頻內(nèi)容就可以回答。這一步幫助識別并丟棄嚴重依賴檢查MCQ選項的問題,這些問題不適合開放式評估。
**難度篩選**:最后,研究者過濾掉了太容易回答的問題。為了識別這類情況,研究者從每個輸入視頻中隨機采樣一幀,并提示Gemini-2.0-Flash使用該幀生成對應(yīng)MCQ和開放式問題的答案。然后使用Gemini-2.0-Flash判斷開放式答案。對于Gemini-2.0-Flash在MCQ和開放式格式都能產(chǎn)生正確答案的問題,將從基準(zhǔn)中排除。這一篩選步驟確保剩余問題需要更廣泛的時間理解,不能僅使用最少的視覺上下文解決。
經(jīng)過這一嚴格的數(shù)據(jù)收集和篩選流程,最終的基準(zhǔn)問題需要更深入的時間理解和推理,超越表面線索。最終數(shù)據(jù)集包括1,289個問答對,每對都基于一個時長超過10分鐘的長視頻。如表1所示,VIDEOEVAL-PRO包括總共465個視頻,平均長度為38.25分鐘。其中,204個視頻在10到30分鐘之間,261個視頻超過30分鐘。對于基準(zhǔn)中使用的1,289個問題,371個與10-30分鐘范圍內(nèi)的視頻相關(guān),而918個基于長度超過30分鐘的視頻。答案的平均長度為2.1個詞。這些設(shè)計選擇確保評估專注于模型從長視頻內(nèi)容中檢索簡潔準(zhǔn)確信息的能力。
### 任務(wù)定義與分布
研究團隊提出了一個統(tǒng)一且可推廣的任務(wù)分類法,將基準(zhǔn)問題分為四種主要類型和15種子類型。這些任務(wù)類型涵蓋了對本地視頻片段和整體長視頻理解任務(wù)的感知和推理需求。四種主要任務(wù)類型是:
**局部感知(LP)**:LP專注于從長視頻中的短視頻片段中識別和檢索視覺元素或動作。該類別包括片段問答、大海撈針問答、屬性感知、動作識別、物體識別、實體識別、關(guān)鍵信息檢索和組合的其他子類型。
**局部推理(LR)**:LR專注于短時間窗口內(nèi)的推理,如推斷因果關(guān)系、時間順序或在本地事件序列中發(fā)生的變化。該類別中的四個子類型是自我中心視頻推理、物體推理、時間推理和動作推理。
**整體感知(HP)**:HP涉及對統(tǒng)計、結(jié)構(gòu)或空間信息的全局和整體理解,通常需要視覺聚合。在VIDEOEVAL-PRO中,HP由視覺計數(shù)問題組成。
**整體推理(HR)**:HR需要跨事件或場景對長視頻進行抽象或高層次理解,通常涉及敘事或意圖理解。HR的兩個子類型是事件理解和情節(jié)推理。
這種分類法使得能夠?qū)﹂L視頻理解所需的不同認知需求進行細粒度評估。基于這種分類法,數(shù)據(jù)集中問題的分布如圖2b所示。大多數(shù)問題(59%)屬于局部感知類別,反映了VIDEOEVAL-PRO對細粒度跟蹤和理解視覺動態(tài)的強調(diào)。整體推理占問題的21%,而局部推理和整體感知分別占數(shù)據(jù)集問題的11%和10%。
四、評估流程:如何測試模型性能
評估過程就像是一場公平、標(biāo)準(zhǔn)化的考試,確保所有參與的AI模型都在相同條件下接受測試。具體來說,評估流程是這樣的:
對于基準(zhǔn)中的每個問題,研究團隊從相應(yīng)視頻中均勻采樣固定數(shù)量的幀。如果可用幀的總數(shù)少于所需幀數(shù),則使用所有幀。采樣的幀與開放式問題一起傳遞給被評估的模型以生成答案。
為了評估每個模型響應(yīng)的正確性,研究團隊采用了SimpleQA和Video-SimpleQA中引入的評估標(biāo)準(zhǔn)。具體來說,每個模型響應(yīng)被分類為以下類別之一:
**正確**:預(yù)測答案全面包含參考答案中的所有基本信息,且不包含任何矛盾內(nèi)容。
**不正確**:預(yù)測答案包含與參考答案矛盾的陳述,或提供不確定的回應(yīng),如"可能"或"我認為"。
**未嘗試**:預(yù)測答案省略了參考答案的關(guān)鍵元素,但不與之矛盾,或模型拒絕回答問題。
研究團隊遵循"LLM作為評判"范式,采用GPT-4o-0806作為評估模型來評估生成的短答案的準(zhǔn)確性。最后,團隊報告整體正確率,即標(biāo)記為"正確"的響應(yīng)在整個數(shù)據(jù)集中的比例。這一指標(biāo)反映了模型提供準(zhǔn)確、忠實的答案(基于視覺內(nèi)容)的能力。
五、實驗結(jié)果:揭示視頻理解模型的真實能力
研究團隊對21個專有和開源LMMs進行了全面評估,結(jié)果令人深思。以下是主要發(fā)現(xiàn):
### MCQ與VIDEOEVAL-PRO對比
如表2所示,與MCQ準(zhǔn)確率相比,所有模型在開放式問題上的性能都有顯著下降。此外,從MCQ和開放式問題獲得的分數(shù)不一定相關(guān)。例如,雖然InternVL2.5和InternVL3在MCQ準(zhǔn)確率上優(yōu)于Qwen2.5-VL,但它們在開放式問答分數(shù)上卻低于Qwen2.5-VL。這些發(fā)現(xiàn)表明,基于MCQ的準(zhǔn)確率可能高估了模型性能,無法捕捉模型理解長視頻的真實能力。因此,MCQ結(jié)果可能不是對視頻LMMs進行排名的可靠指標(biāo)。
### 局部與整體任務(wù)對比
在比較局部與整體理解任務(wù)的性能時,研究者觀察到大多數(shù)模型在局部任務(wù)上表現(xiàn)更好,表明整體任務(wù)通常更具挑戰(zhàn)性。這種差異是預(yù)期的,因為整體任務(wù)要求模型處理整個視頻并推理跨越長時間的復(fù)雜時間動態(tài)。相反,局部任務(wù)限于短視頻片段,其中動作或事件通常更簡單且更具時間局限性,使其更容易識別和解釋。
### 感知與推理任務(wù)對比
比較感知與推理任務(wù)的結(jié)果,研究者發(fā)現(xiàn)雖然模型在兩種任務(wù)類型上常常獲得相似的MCQ準(zhǔn)確率,但它們在開放式問題上的表現(xiàn)卻顯著不同。具體來說,模型在開放式設(shè)置中往往在感知任務(wù)上表現(xiàn)顯著好于推理任務(wù)。例如,Gemini-2.5-Flash在局部感知任務(wù)和局部推理任務(wù)上的MCQ準(zhǔn)確率相當(dāng),分別為64.1%和65.3%。然而,其開放式問答準(zhǔn)確率在局部推理任務(wù)上降至30.6%,而在局部感知任務(wù)上則保持較高的42.4%。這種差異突顯了長視頻推理任務(wù)的增加難度,這一點可以通過VIDEOEVAL-PRO正確反映出來。
### 專有與開源模型對比
研究團隊比較了專有和開源模型在多個基準(zhǔn)上的表現(xiàn),觀察到一個有趣的現(xiàn)象。如表3所示,雖然最佳開源視頻LMMs(如InternVideo2.5或InternVL3)已經(jīng)在現(xiàn)有長視頻理解基準(zhǔn)上超過GPT-4o/Gemini-1.5-Pro高達14%,但它們在VIDEOEVAL-PRO上的表現(xiàn)仍落后于GPT-4o/Gemini-1.5-Pro 13%。這一顯著對比揭示了開源模型在更具挑戰(zhàn)性的長視頻理解任務(wù)上的脆弱性。
### VIDEOEVAL-PRO的幀縮放屬性
研究團隊還檢查了VIDEOEVAL-PRO在不同輸入幀數(shù)下的性能變化。如圖3a所示,評估了兩個專有模型(Gemini-1.5-Flash和Gemini-1.5-Pro)和三個開源模型(Qwen2-VL、Qwen2.5-VL和InternVideo2.5)。
研究者的第一個觀察是,現(xiàn)有基準(zhǔn)如Video-MME即使只向模型提供一幀,也能產(chǎn)生相對較高的準(zhǔn)確率。如圖3b所示,專有和開源模型在這種設(shè)置下都能達到約45%的準(zhǔn)確率,Gemini-1.5-Pro甚至超過50%。這些結(jié)果表明,當(dāng)前的長視頻基準(zhǔn)可能包含不夠具有挑戰(zhàn)性的問題,允許模型即使在大部分視頻信息缺失的情況下也能正確回答。相比之下,當(dāng)僅提供一幀輸入幀時,所有模型在VIDEOEVAL-PRO上的準(zhǔn)確率僅為10%左右,如圖3a所示。這一性能下降突顯了VIDEOEVAL-PRO不能在沒有結(jié)合輸入視頻中更豐富的視覺線索的情況下輕易解決,證明VIDEOEVAL-PRO是一個更具挑戰(zhàn)性和更具辨別力的長視頻理解評估基準(zhǔn)。
研究者還發(fā)現(xiàn),在現(xiàn)有長視頻基準(zhǔn)上的性能往往隨著輸入幀數(shù)的增加而飽和或甚至下降。如圖3b所示,所有模型在使用256個輸入幀時在Video-MME上達到最高準(zhǔn)確率,但當(dāng)輸入延長到512幀時,性能開始平穩(wěn)或下降。這是一個反直覺的發(fā)現(xiàn),因為人們預(yù)期提供更多輸入幀會提供額外的上下文信息,模型可以利用這些信息來提高性能。另一方面,五個測試模型在VIDEOEVAL-PRO上隨著輸入幀數(shù)的增加表現(xiàn)出一致的準(zhǔn)確率提升。這種差異表明,VIDEOEVAL-PRO是評估長視頻任務(wù)的更穩(wěn)健基準(zhǔn),提供了對模型整合和推理更長視頻上下文能力的更忠實評估。
六、案例分析:模型真的理解視頻內(nèi)容嗎?
通過使用Gemini-2.0-Flash的結(jié)果進行定性分析,研究團隊更深入地了解了VIDEOEVAL-PRO帶來的挑戰(zhàn)。他們識別了幾個有趣的案例,模型在MCQ設(shè)置中選擇了正確答案,但在自由形式響應(yīng)中未能產(chǎn)生準(zhǔn)確的事實細節(jié)。
在第一個例子中,問題詢問多倫多紀(jì)念戰(zhàn)爭紀(jì)念館的外觀。雖然Gemini在多選題(MCQ)格式中正確選擇了答案"數(shù)千面加拿大國旗",但在開放式設(shè)置中未能給出正確回應(yīng)。這表明,當(dāng)MCQ選項可用時,模型可能依賴常識(多倫多和加拿大相關(guān)聯(lián)),而不是進行詳細的視頻分析。
在第二個例子中,雖然模型在MCQ格式中正確識別了選項"牛車",但在開放式回應(yīng)中錯誤地將內(nèi)容描述為"那是一匹馬"。這表明,長視頻中的細粒度視覺識別仍然是LMMs的重大挑戰(zhàn),MCQ選項可能提供線索幫助模型規(guī)避這一困難。
類似地,在第三個例子中,問題詢問視頻中出現(xiàn)的人數(shù),模型在MCQ格式中正確選擇了"15",但在開放式版本中回應(yīng)"20"。這種差異表明,正確的MCQ答案可能是通過猜測或消除策略選擇的,而不是通過對視頻內(nèi)容的精確分析。
這些案例凸顯了開放式問題在評估模型真實理解能力方面的價值,而不僅僅依賴多選題形式的評估。
七、結(jié)論與未來展望
這項研究介紹了VIDEOEVAL-PRO,一個穩(wěn)健而真實的LVU基準(zhǔn),旨在忠實評估LMM對長視頻的理解和推理能力。與現(xiàn)有的LVU基準(zhǔn)相比,VIDEOEVAL-PRO將MCQ問題重新表述為開放式問題,防止模型利用選項中固有的捷徑,減少MCQ格式導(dǎo)致的性能變化。VIDEOEVAL-PRO還采用嚴格的數(shù)據(jù)篩選流程,消除具有強烈先驗偏好的問題,這些問題允許LMMs基于常識或刻板印象關(guān)聯(lián)回答,而無需真正閱讀視頻。
通過評估21個專有和開源模型,研究團隊發(fā)現(xiàn)VIDEOEVAL-PRO對當(dāng)前的視頻LMMs提出了重大挑戰(zhàn),表現(xiàn)最好的模型GPT-4.1也僅達到40.8%的準(zhǔn)確率。他們還觀察到,與其他LVU基準(zhǔn)不同,在那些基準(zhǔn)中,隨著輸入幀數(shù)的增加,模型性能趨于飽和,而在VIDEOEVAL-PRO上,隨著提供更多幀,性能持續(xù)提高。這些觀察表明,VIDEOEVAL-PRO是一個更可靠的基準(zhǔn),能夠追蹤長視頻理解的進展。
這項研究為我們敲響了警鐘:在評估AI系統(tǒng)的能力時,我們需要更加嚴格和真實的方法。它提醒我們,表面上的高分可能掩蓋了模型理解能力的實際局限性。同時,它也為未來研究提供了一條清晰的道路,指向開發(fā)真正能理解和推理復(fù)雜視頻內(nèi)容的系統(tǒng)。
隨著視頻內(nèi)容在我們生活中的不斷增長,從社交媒體到監(jiān)控系統(tǒng),從教育到娛樂,能夠準(zhǔn)確理解長視頻的AI系統(tǒng)將變得越來越重要。VIDEOEVAL-PRO提供了一個更可靠的方法來衡量我們在這一關(guān)鍵領(lǐng)域的進展,確保未來的技術(shù)進步是真實的,而不僅僅是基準(zhǔn)測試中的幻象。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機制和漸進式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學(xué)習(xí)外觀和運動信息,顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報,準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。