av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁 AI"看"視頻推理有了新突破:中大團(tuán)隊(duì)讓機(jī)器像人一樣理解視頻中的時(shí)間關(guān)系

AI"看"視頻推理有了新突破:中大團(tuán)隊(duì)讓機(jī)器像人一樣理解視頻中的時(shí)間關(guān)系

2025-08-01 14:45
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-08-01 14:45 ? 科技行者

這篇由香港中文大學(xué)多媒體實(shí)驗(yàn)室的馮楷拓、龔凱雄和岳祥宇教授團(tuán)隊(duì),聯(lián)合中文大學(xué)深圳分校、清華大學(xué)、中科院大學(xué)等機(jī)構(gòu)研究人員共同完成的突破性研究,發(fā)表于2025年5月的arXiv預(yù)印本平臺(tái)。這項(xiàng)名為"Video-R1: Reinforcing Video Reasoning in MLLMs"的研究首次將DeepSeek-R1的推理范式成功應(yīng)用到視頻理解領(lǐng)域,有興趣深入了解的讀者可以通過https://github.com/tulerfeng/Video-R1訪問完整的代碼、模型和數(shù)據(jù)集。

當(dāng)你觀看一段視頻時(shí),你的大腦不僅能識(shí)別畫面中的物體,還能理解故事的前因后果,推斷角色的動(dòng)機(jī),甚至預(yù)測(cè)接下來可能發(fā)生什么。這種能力看似平常,實(shí)際上是人類智能中極其復(fù)雜的一項(xiàng)技能?,F(xiàn)在,人工智能領(lǐng)域正在努力讓機(jī)器也具備這樣的"視頻推理"能力。

近年來,隨著ChatGPT等大語言模型的興起,AI在文字推理方面已經(jīng)展現(xiàn)出令人驚嘆的能力。特別是DeepSeek-R1這樣的模型,能夠像人類一樣進(jìn)行長篇幅的邏輯思考,解決復(fù)雜的數(shù)學(xué)和推理問題。然而,當(dāng)涉及到視頻理解時(shí),現(xiàn)有的AI模型往往只能停留在表面的識(shí)別層面,比如告訴你畫面中有什么物體,卻無法深入理解視頻中事件的時(shí)間順序、因果關(guān)系和內(nèi)在邏輯。

研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)關(guān)鍵問題:現(xiàn)有的AI模型在處理視頻時(shí)經(jīng)常"走捷徑"。就像一個(gè)偷懶的學(xué)生在考試時(shí)只看題目的關(guān)鍵詞就匆忙作答,而不仔細(xì)理解整道題的邏輯一樣,這些模型往往只關(guān)注視頻中的某一幀畫面,就匆忙給出答案,完全忽略了時(shí)間序列中蘊(yùn)含的重要信息。

為了解決這個(gè)問題,研究團(tuán)隊(duì)開發(fā)了一個(gè)名為Video-R1的新型AI系統(tǒng)。這個(gè)系統(tǒng)的核心創(chuàng)新在于一種叫做T-GRPO(時(shí)序組相對(duì)策略優(yōu)化)的訓(xùn)練方法。這種方法就像訓(xùn)練一個(gè)偵探一樣:研究人員會(huì)給AI展示同一段視頻的兩個(gè)版本,一個(gè)是按正常時(shí)間順序播放的,另一個(gè)是將畫面隨機(jī)打亂的。然后他們會(huì)問同樣的問題,看AI能否在正常版本中給出更好的答案。

這種訓(xùn)練方式的巧妙之處在于,它迫使AI必須真正理解時(shí)間順序的重要性。如果AI只是簡(jiǎn)單地識(shí)別畫面中的物體,那么無論畫面順序如何,它的答案都會(huì)一樣。但如果它要在正常版本中表現(xiàn)更好,就必須學(xué)會(huì)利用時(shí)間信息進(jìn)行推理。

研究團(tuán)隊(duì)構(gòu)建了兩個(gè)專門的數(shù)據(jù)集來訓(xùn)練這個(gè)系統(tǒng)。第一個(gè)數(shù)據(jù)集Video-R1-CoT-165k包含了16.5萬個(gè)帶有詳細(xì)推理過程的問答對(duì),就像為AI準(zhǔn)備了一本詳細(xì)的"推理教材"。第二個(gè)數(shù)據(jù)集Video-R1-260k則包含了26萬個(gè)更廣泛的訓(xùn)練樣本,其中巧妙地混合了圖像和視頻數(shù)據(jù)。

你可能會(huì)疑惑,為什么要在視頻訓(xùn)練中加入圖像數(shù)據(jù)?研究團(tuán)隊(duì)的想法很實(shí)用:雖然高質(zhì)量的視頻推理數(shù)據(jù)相對(duì)稀缺,但圖像推理數(shù)據(jù)卻相當(dāng)豐富。他們發(fā)現(xiàn),AI可以先在圖像上學(xué)會(huì)基本的推理技能,比如空間關(guān)系理解、邏輯推理等,然后再將這些技能遷移到更復(fù)雜的視頻理解任務(wù)中。這就像學(xué)習(xí)游泳時(shí),先在淺水區(qū)掌握基本動(dòng)作,再到深水區(qū)練習(xí)一樣。

訓(xùn)練過程分為兩個(gè)階段。第一階段是"冷啟動(dòng)",AI在Video-R1-CoT-165k數(shù)據(jù)集上學(xué)習(xí)基本的推理模式,就像學(xué)生先熟悉教科書中的標(biāo)準(zhǔn)解題方法。第二階段則使用強(qiáng)化學(xué)習(xí)的方式,讓AI在更大的數(shù)據(jù)集上自由探索更好的推理策略,就像讓學(xué)生在實(shí)際考試中不斷試錯(cuò)和改進(jìn)。

為了讓AI的推理更加深入,研究團(tuán)隊(duì)還設(shè)計(jì)了一個(gè)"長度獎(jiǎng)勵(lì)"機(jī)制。這個(gè)機(jī)制鼓勵(lì)A(yù)I給出長度適中的推理過程,既不能過于簡(jiǎn)短草率,也不能無謂地冗長。就像老師在批改作文時(shí),既不喜歡只有幾句話的敷衍答案,也不欣賞廢話連篇的冗長文章,而是希望看到思路清晰、論證充分的適度篇幅。

Video-R1展現(xiàn)出了令人驚喜的"頓悟時(shí)刻"能力。在處理復(fù)雜問題時(shí),它會(huì)像人類一樣進(jìn)行自我反思,重新審視之前的判斷,甚至推翻原來的想法得出更準(zhǔn)確的結(jié)論。比如在一個(gè)空間導(dǎo)航任務(wù)中,Video-R1最初可能基于局部信息給出一個(gè)答案,但隨后它會(huì)重新分析整個(gè)視頻序列,發(fā)現(xiàn)之前的判斷有誤,然后給出更正確的結(jié)果。

研究團(tuán)隊(duì)在六個(gè)不同的視頻理解測(cè)試集上評(píng)估了Video-R1的性能。結(jié)果顯示,這個(gè)系統(tǒng)在各項(xiàng)測(cè)試中都取得了顯著的改進(jìn)。特別值得一提的是,在VSI-Bench這個(gè)專門測(cè)試空間推理能力的困難基準(zhǔn)上,Video-R1-7B達(dá)到了37.1%的準(zhǔn)確率,甚至超過了OpenAI的商業(yè)模型GPT-4o。這個(gè)成績雖然看起來不算很高,但要知道這類空間推理任務(wù)對(duì)AI來說極其困難,能夠超越目前最先進(jìn)的商業(yè)模型已經(jīng)是了不起的成就。

更有趣的是,研究團(tuán)隊(duì)發(fā)現(xiàn)增加視頻幀數(shù)確實(shí)能提升推理效果。當(dāng)從16幀增加到64幀時(shí),模型在幾乎所有測(cè)試中的表現(xiàn)都有所改善。這說明更豐富的時(shí)間信息確實(shí)有助于AI進(jìn)行更好的推理,就像偵探掌握的線索越多,破案的可能性就越大。

為了驗(yàn)證各個(gè)設(shè)計(jì)選擇的重要性,研究團(tuán)隊(duì)進(jìn)行了詳細(xì)的對(duì)比實(shí)驗(yàn)。他們發(fā)現(xiàn),去掉圖像數(shù)據(jù)的訓(xùn)練會(huì)導(dǎo)致性能明顯下降,證明了圖像-視頻混合訓(xùn)練策略的有效性。同樣,如果不使用T-GRPO算法而采用傳統(tǒng)方法,模型的時(shí)序推理能力也會(huì)大打折扣。這些實(shí)驗(yàn)結(jié)果充分證明了每個(gè)設(shè)計(jì)組件的必要性。

通過對(duì)訓(xùn)練過程的分析,研究團(tuán)隊(duì)發(fā)現(xiàn)了一些有趣的現(xiàn)象。在強(qiáng)化學(xué)習(xí)訓(xùn)練的初期,AI的回答長度會(huì)先下降,然后再上升并趨于穩(wěn)定。他們推測(cè)這可能反映了AI的學(xué)習(xí)轉(zhuǎn)變過程:首先摒棄原有的不夠優(yōu)化的推理模式,然后逐步建立起新的、更有效的推理策略。

研究團(tuán)隊(duì)還專門測(cè)量了AI進(jìn)行時(shí)序推理的比例。結(jié)果顯示,使用T-GRPO訓(xùn)練的Video-R1在需要時(shí)序推理的問題上,有75%的回答都體現(xiàn)了對(duì)時(shí)間信息的利用,而沒有使用這種訓(xùn)練方法的模型只有60.2%。這個(gè)差距清楚地表明了T-GRPO在鼓勵(lì)時(shí)序推理方面的有效性。

這項(xiàng)研究的意義不僅在于技術(shù)突破,更在于它為AI理解動(dòng)態(tài)世界開辟了新的道路。在現(xiàn)實(shí)生活中,我們面對(duì)的信息大多是動(dòng)態(tài)變化的,無論是觀看新聞、理解他人行為,還是做出決策,都需要理解事件的時(shí)間順序和因果關(guān)系。Video-R1展示的能力讓我們看到了AI在這方面的巨大潛力。

當(dāng)然,這項(xiàng)研究也有一些局限性。目前的模型只能處理相對(duì)較短的視頻(16幀),對(duì)于需要理解長時(shí)間依賴關(guān)系的任務(wù)還有待改進(jìn)。同時(shí),T-GRPO算法雖然有效,但計(jì)算開銷相對(duì)較大,需要為每個(gè)視頻生成兩個(gè)版本進(jìn)行對(duì)比訓(xùn)練。

研究團(tuán)隊(duì)對(duì)未來的發(fā)展方向也有清晰的規(guī)劃。他們希望能夠處理更長的視頻序列,開發(fā)更高效的時(shí)序建模方法,并探索更靈活的回答長度控制機(jī)制。他們還提出了構(gòu)建通用視頻獎(jiǎng)勵(lì)模型的想法,這樣就不需要為每種任務(wù)單獨(dú)設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù),而可以用一個(gè)統(tǒng)一的系統(tǒng)來評(píng)估各種視頻推理任務(wù)的質(zhì)量。

說到底,Video-R1代表了AI視頻理解領(lǐng)域的一個(gè)重要里程碑。它不僅展示了如何讓AI真正理解視頻中的時(shí)間信息,更為我們展現(xiàn)了一個(gè)未來的可能性:AI不再只是被動(dòng)地識(shí)別和分類,而是能夠像人類一樣進(jìn)行主動(dòng)的推理和思考。雖然目前的技術(shù)還有許多需要改進(jìn)的地方,但這個(gè)方向的探索為構(gòu)建更智能、更人性化的AI系統(tǒng)奠定了重要基礎(chǔ)。對(duì)于普通人來說,這意味著未來的AI助手可能真的能夠理解你給它看的視頻內(nèi)容,并給出深入、有見地的分析和建議。

Q&A

Q1:Video-R1是什么?它能做什么? A:Video-R1是香港中文大學(xué)團(tuán)隊(duì)開發(fā)的AI視頻推理系統(tǒng),它的核心能力是像人類一樣理解視頻中的時(shí)間順序和因果關(guān)系。不同于傳統(tǒng)AI只能識(shí)別畫面物體,Video-R1能分析視頻中事件的前因后果,理解角色動(dòng)機(jī),進(jìn)行復(fù)雜的邏輯推理。在空間推理測(cè)試中,它甚至超越了GPT-4o等商業(yè)模型。

Q2:T-GRPO訓(xùn)練方法是怎么工作的? A:T-GRPO就像訓(xùn)練偵探一樣工作。系統(tǒng)會(huì)給AI展示同一視頻的兩個(gè)版本:正常時(shí)序版本和隨機(jī)打亂的版本,然后問同樣的問題。只有當(dāng)AI在正常版本中表現(xiàn)更好時(shí)才給獎(jiǎng)勵(lì),這迫使AI必須學(xué)會(huì)利用時(shí)間信息進(jìn)行推理,而不是簡(jiǎn)單地識(shí)別畫面物體。

Q3:這項(xiàng)技術(shù)會(huì)如何影響我們的日常生活? A:未來這項(xiàng)技術(shù)可能讓AI助手真正理解你展示的視頻內(nèi)容,提供深入分析和建議。比如幫助分析監(jiān)控視頻中的異常行為,理解教學(xué)視頻的邏輯結(jié)構(gòu),或者協(xié)助視頻內(nèi)容創(chuàng)作者優(yōu)化敘事效果。不過目前技術(shù)還在發(fā)展階段,廣泛應(yīng)用還需要時(shí)間。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-