av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 清華大學發(fā)現:當前頂級AI視頻模型連"跳躍"都看不懂!MotionBench揭示視頻理解盲區(qū)

清華大學發(fā)現:當前頂級AI視頻模型連"跳躍"都看不懂!MotionBench揭示視頻理解盲區(qū)

2025-09-16 10:31
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-09-16 10:31 ? 科技行者

這項由清華大學洪文軼、程燁安等研究者與智譜AI團隊合作完成的研究,發(fā)表于2025年1月6日的arXiv預印本平臺(論文編號:arXiv:2501.02955v1),有興趣深入了解的讀者可以通過論文標題"MotionBench: Benchmarking and Improving Fine-grained Video Motion Understanding for Vision Language Models"搜索獲取完整論文。

你是否曾經好奇,那些能夠描述視頻內容、回答視頻問題的AI模型,究竟能多準確地"看懂"視頻?當我們看到一個人跳躍、兩個棒球運動員在空中相撞慶祝時,這些看似簡單的動作,對于目前最先進的AI視頻理解模型來說,居然是極大的挑戰(zhàn)。清華大學的研究團隊通過一項突破性研究發(fā)現,即使是GPT-4o、Qwen2-VL這樣的頂級模型,在理解視頻中的精細動作時,準確率竟然連60%都達不到。

這個發(fā)現讓人意外,因為我們平時看到的AI視頻分析似乎已經相當出色。研究團隊深入分析后發(fā)現,現有的視頻理解評估體系存在一個巨大的盲區(qū)——幾乎所有現存的視頻評估基準都專注于故事情節(jié)理解和事件識別,卻忽略了最基礎的動作層面理解。就像我們評估一個人的閱讀能力時,只測試他能否理解整本書的主題思想,卻從未測試過他是否認識每個字一樣。

為了填補這個關鍵空白,研究團隊開發(fā)了MotionBench——一個專門測試AI模型精細動作理解能力的全新評估體系。這套評估系統(tǒng)包含了8052個精心設計的問答對,覆蓋5385個視頻片段,這些視頻來源極其豐富:從網絡平臺Pexels和Panda-70M數據集收集的日常生活視頻、從MedVid醫(yī)學視頻數據庫獲取的醫(yī)療教學片段、從SportsSloMo獲得的體育慢鏡頭、從Ha-ViD收集的工業(yè)場景視頻,甚至包括研究團隊使用Unity引擎專門制作的虛擬場景視頻。

MotionBench的評估維度設計得極其精巧,涵蓋了六個關鍵的動作理解類別。第一類是動作識別,測試模型能否準確識別視頻中出現的具體動作類型。第二類是位置相關動作,檢驗模型是否能理解物體或人物在空間中的移動軌跡和位置變化。第三類是動作順序,評估模型能否正確理解復雜動作的先后順序。第四類是重復計數,這可能是最困難的一類,要求模型準確計算某個動作重復了多少次。第五類是動作相關物體,測試模型能否識別參與動作的小物件。第六類是攝像機運動,評估模型對鏡頭移動的理解能力。

當研究團隊用這套評估體系測試當前最先進的視頻理解模型時,結果令人震驚。即使是業(yè)界公認表現最好的Qwen2-VL-72B模型,在MotionBench上的綜合表現也僅達到58%的準確率。更令人擔憂的是,在重復計數這個類別中,幾乎所有模型的表現都接近隨機猜測的水平,準確率徘徊在25%左右。這意味著當你問一個AI"視頻中的人跳了幾次"時,它的回答可能還不如拋硬幣來得準確。

為了深入理解這個問題的根源,研究團隊進行了詳細分析。他們發(fā)現,精細動作理解的困難主要來自兩個方面。首先是技術限制:要準確捕捉動作細節(jié)需要高幀率的視頻輸入,但高幀率意味著巨大的計算成本。目前的視頻理解模型受限于計算資源,只能處理非常有限的幀數。以Intern-VL2為例,它只能處理16到64幀,這意味著對于一個5分鐘的視頻,它只能以0.2幀每秒的極低采樣率進行處理——相當于每5秒鐘只看一張圖片,想要理解其中的精細動作變化幾乎是不可能的。

第二個根本原因是現有模型缺乏精細動作理解的基礎能力。研究發(fā)現,即使提供更高的幀率輸入,模型的表現提升也相當有限,這表明問題不僅僅在于"看得不夠多",更在于"看了也不懂"。

針對這些發(fā)現的問題,研究團隊提出了一個創(chuàng)新的解決方案——通過編碼器融合技術(Through-Encoder Fusion,簡稱TE Fusion)。傳統(tǒng)的視頻壓縮方法就像是先把每張圖片分別理解,然后再試圖找出它們之間的聯系,這種"淺層融合"的方式很難捕捉到動作的連續(xù)性和細節(jié)變化。TE Fusion則采用了一種"深度融合"的策略,讓相鄰的視頻幀在處理的整個過程中都保持緊密的信息交流,就像一個團隊在協(xié)作完成任務時保持實時溝通一樣。

具體來說,TE Fusion將相鄰的k幀視頻組成一個群組,在視覺編碼的整個過程中,這些幀之間會進行群組級別的自注意力計算,使得模型能夠在更深層次上理解幀間的時間依賴關系。這種方法的優(yōu)勢在于能夠在相同的計算資源約束下,實現更好的視頻特征表示,特別是在高壓縮比的場景下表現尤為突出。

實驗結果證明了TE Fusion的有效性。在MotionBench上,使用TE Fusion的模型達到了58%的準確率,不僅在所有六個動作理解類別中都有顯著提升,而且在其他視頻理解基準測試(如MVBench、LVBench、VideoMME)中也表現出色。特別值得注意的是,TE Fusion在處理高壓縮比視頻時的優(yōu)勢最為明顯,當壓縮比達到16倍時,其性能下降幅度遠小于其他方法。

為了進一步推動這個領域的發(fā)展,研究團隊還發(fā)布了一個包含5000個視頻的精細動作描述數據集。這些視頻都經過了人工標注,提供了詳細的動作信息描述,標注密度達到每秒12.63個單詞,為研究者提供了寶貴的訓練資源。

研究團隊對所有測試失敗的案例進行了深入分析,發(fā)現了一些有趣的模式。在動作識別方面,失敗案例中最大的比例涉及精細動作的區(qū)分,說明某些動作及其相關描述在訓練數據中可能存在不足。從視頻時長的角度分析,即使是0到4秒的短視頻,所有模型都答錯的問題仍占11%到14%,這突顯了模型在區(qū)分某些動作時的固有困難。隨著視頻時長的增加,失敗率顯著上升,18秒以上的視頻失敗率達到18%。

一個典型的失敗案例很好地說明了問題所在:在一個視頻中,一只手從汽車頂部移動到左下方,但大多數模型都認為這是"輕拍汽車表面"的動作。從單幀圖像的角度看,這種判斷似乎合理,但在視頻時序中,手實際上是滑過汽車表面而不是拍打,這個例子完美展示了單幀預測與時序理解之間的差異,也說明了創(chuàng)建專注于動作層面評估基準的價值。

這項研究的意義遠不止于揭示現有模型的不足。在實際應用中,精細動作理解對于異常檢測、開放域動作分析、詳細視頻字幕生成等任務都至關重要。在醫(yī)療教學中,準確理解手術動作的細節(jié)關系到醫(yī)學生的學習效果;在體育分析中,對運動員技術動作的精確識別影響著訓練效果的評估;在工業(yè)安全監(jiān)控中,對危險動作的及時識別可能關系到工人的生命安全。

研究團隊也坦誠地指出了這項工作的局限性。首先,盡管他們努力包含了多樣化的視頻內容,但數據集可能仍然存在地理、文化和情境方面的偏見,這可能限制了研究結果在不同環(huán)境下的普適性。其次,雖然進行了大規(guī)模的標注工作,但由于人工標注和自動化工具的限制,偶爾的不準確或不一致在所難免。

從更廣闊的視角來看,這項研究為視頻理解領域指明了一個重要的發(fā)展方向。當前的AI視頻理解研究大多關注于高層次的語義理解,而忽略了基礎的動作感知能力。就像建造高樓大廈需要堅實的地基一樣,要實現真正智能的視頻理解,我們必須首先解決最基礎的動作理解問題。

MotionBench的發(fā)布為這個領域提供了一個重要的評估工具和研究起點。通過這個基準測試,研究者們可以更準確地評估和改進自己的模型,推動整個領域向更加精細、更加準確的方向發(fā)展。同時,TE Fusion技術的提出也為解決視頻理解中的計算效率和準確性平衡問題提供了新的思路。

歸根結底,這項研究告訴我們,在AI視頻理解的道路上,我們還有很長的路要走。雖然現有的模型在某些高層次任務上表現出色,但在最基礎的動作理解方面仍然存在巨大的改進空間。這個發(fā)現不僅讓我們更清楚地認識到當前技術的局限,也為未來的研究指明了方向。隨著MotionBench這樣的專業(yè)評估工具的出現,以及TE Fusion這樣創(chuàng)新技術的發(fā)展,我們有理由相信,AI模型在精細動作理解方面的能力將會得到顯著提升,最終實現真正智能的視頻理解。

Q&A

Q1:MotionBench是什么?它和其他視頻評估有什么不同?

A:MotionBench是清華大學開發(fā)的專門測試AI模型精細動作理解能力的評估體系,包含8052個問答對和5385個視頻。與其他主要關注故事情節(jié)和事件理解的視頻評估不同,MotionBench專注于最基礎的動作層面理解,就像測試AI是否真的"看懂"了人跳躍、物體移動這些基本動作。

Q2:為什么頂級AI模型在MotionBench上表現這么差?

A:主要有兩個原因。首先是技術限制:理解精細動作需要高幀率輸入,但現有模型受計算資源限制只能處理很少幀數,相當于每5秒只看一張圖片。其次是基礎能力缺失:即使提供更多幀數,模型的表現提升也有限,說明它們缺乏理解動作連續(xù)性和細節(jié)變化的根本能力。

Q3:通過編碼器融合技術TE Fusion是如何改進視頻理解的?

A:TE Fusion采用"深度融合"策略,讓相鄰視頻幀在整個處理過程中保持緊密信息交流,而不是傳統(tǒng)的先分別理解再尋找聯系的"淺層融合"。這就像團隊協(xié)作時保持實時溝通一樣,能更好地捕捉動作的連續(xù)性,特別在高壓縮比場景下優(yōu)勢明顯。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-