av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 ReFoCUS:KAIST研究團隊開創(chuàng)視頻理解新方法,讓AI更懂你想問什么

ReFoCUS:KAIST研究團隊開創(chuàng)視頻理解新方法,讓AI更懂你想問什么

2025-06-07 08:28
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-07 08:28 ? 科技行者

論文與研究團隊介紹

這項名為"ReFoCUS: Reinforcement-guided Frame Optimization for Contextual Understanding"(基于強化學(xué)習(xí)的幀優(yōu)化技術(shù)提升上下文理解)的研究,由韓國科學(xué)技術(shù)院(KAIST)集成視覺與語言實驗室的Lee Hosu、Kim Junho、Kim Hyunjun和Ro Yong Man教授共同完成。該研究于2025年6月在arXiv上發(fā)表(arXiv:2506.01274v1),目前正處于審核階段。

研究背景:視頻AI面臨的關(guān)鍵挑戰(zhàn)

想象一下,當(dāng)你觀看一部電影時,并不需要盯著每一幀畫面才能理解劇情。你的大腦會自動選擇關(guān)鍵的場景和時刻,忽略那些重復(fù)或不重要的部分。然而,現(xiàn)今的視頻人工智能系統(tǒng)在這方面卻遠不如人類靈活。

近年來,大型多模態(tài)模型(LMMs)在處理圖像和文本方面取得了長足進步,但它們在視頻理解領(lǐng)域仍面臨著重大挑戰(zhàn)。就像一個人如果被要求觀看一部長達兩小時的電影,卻只能隨機挑選32個畫面來理解整個故事情節(jié)一樣,這些模型往往采用簡單的均勻采樣策略,難以捕捉視頻中復(fù)雜的時空信息。

"大多數(shù)現(xiàn)有的視頻大語言模型(video-LLMs)如Video-LLaVA和ShareGPT4Video等,通常將視頻簡單地視為圖像幀序列,而且由于語言模型的上下文長度限制,它們無法確保模態(tài)間的良好對齊,尤其是在復(fù)雜或長篇視頻內(nèi)容中,這導(dǎo)致上下文理解能力不佳,"KAIST的研究團隊解釋道。

雖然一些研究嘗試通過輔助檢索模塊或基于記憶增強的策略來選擇性地提取相關(guān)視頻片段,但這些方法通常難以整合多個部分線索,限制了它們在需要高層次推理的場景中的有效性。此外,最近的一些研究也提出了無需訓(xùn)練的搜索算法來選擇信息豐富的幀,但這些幀選擇方法與模型的內(nèi)部推理過程仍然脫節(jié),常常無法捕獲與其語義和時間焦點對齊的幀。

ReFoCUS:重新思考視頻理解的基本方法

KAIST的研究團隊提出了一個創(chuàng)新的問題:如果我們不是讓AI改進它的回答,而是讓它學(xué)會選擇更好的"視覺證據(jù)"來回答問題呢?這就是ReFoCUS(強化學(xué)習(xí)引導(dǎo)的幀優(yōu)化技術(shù)提升上下文理解)的核心思想。

想象一下,給AI看一段視頻并問:"人在視頻中做了什么?"傳統(tǒng)模型可能會均勻地采樣一些幀,但如果這些關(guān)鍵動作只發(fā)生在特定時刻,模型很可能會錯過重要信息。ReFoCUS通過強化學(xué)習(xí),訓(xùn)練模型選擇那些對回答特定問題最有幫助的幀,就像教會一個孩子知道在觀看一部電影時應(yīng)該特別注意哪些關(guān)鍵場景。

與現(xiàn)有的偏好優(yōu)化方法不同,ReFoCUS將策略優(yōu)化從文本響應(yīng)轉(zhuǎn)移到幀選擇過程。傳統(tǒng)方法主要專注于根據(jù)人類偏好或由大語言模型生成的獎勵信號優(yōu)化生成的文本響應(yīng),而ReFoCUS使模型能夠通過選擇為給定用戶查詢提供信息先驗的幀來內(nèi)部化其自身對視覺證據(jù)的偏好。這種創(chuàng)新方法不僅減少了輸入冗余,還通過合成對齊的空間時間線索,顯著提升了模型的視頻理解能力。

技術(shù)挑戰(zhàn)與創(chuàng)新解決方案

實現(xiàn)這一目標(biāo)面臨兩大技術(shù)挑戰(zhàn)。首先,收集幀級偏好數(shù)據(jù)比收集文本信息要困難得多,因為在長視頻中存在組合爆炸問題。其次,視頻內(nèi)容的幀選擇涉及的廣泛搜索空間使強化學(xué)習(xí)優(yōu)化變得復(fù)雜。

對于第一個挑戰(zhàn),研究團隊創(chuàng)新性地使用了一個參考大型多模態(tài)模型(LMM)來評估采樣的幀子集。這使得他們能夠在候選幀之間進行組間相對獎勵建模,并通過有效的優(yōu)勢函數(shù)引導(dǎo)策略模型進行策略優(yōu)化。簡單來說,就是利用現(xiàn)有的強大AI模型來評判不同幀組合的好壞,從而為學(xué)習(xí)過程提供指導(dǎo)。

針對第二個挑戰(zhàn),他們提出了一種基于自回歸(條件)幀選擇機制的架構(gòu)設(shè)計。通過逐步識別相關(guān)幀(基于之前選擇的幀作為條件),該方法顯著減少了幀搜索開銷,同時確保了選擇過程的連貫性。這就像教會AI一步步地構(gòu)建線索鏈,而不是盲目地在海量幀中隨機選擇。

ReFoCUS的技術(shù)實現(xiàn)細節(jié)

ReFoCUS的核心是一個由兩個主要組件組成的強化學(xué)習(xí)框架:策略模型和獎勵模型。

策略模型接收視頻序列和查詢,并學(xué)習(xí)選擇最能支持上下文理解和推理的幀子集。研究團隊采用了基于Mamba架構(gòu)的輕量級LMM(Video-MA?mba)來處理長幀序列。與簡單采樣固定數(shù)量幀(通常是16或32幀)的方法不同,這使得在策略優(yōu)化期間能夠更廣泛、更精細地探索幀選擇空間。

而獎勵模型則充當(dāng)參考評估器,為每個候選幀子集提供學(xué)習(xí)信號。具體來說,研究團隊使用InternVL3作為獎勵模型,利用其在答案預(yù)測中的置信度來計算獎勵。對于一個給定的幀子集,獎勵被定義為正確答案和最具競爭力的錯誤選擇之間的歸一化置信度差異。這種基于邊際的獎勵有效地反映了模型在相互競爭的選擇之間的殘余不確定性,引導(dǎo)策略偏好那些能夠消除答案歧義的幀子集。

在自回歸幀選擇過程中,策略模型以特殊標(biāo)記開始,并讓模型自回歸地生成一系列潛在輸出。在每一步,先前選擇的幀用作查詢,通過縮放點積注意力機制對候選幀嵌入池進行注意,從而產(chǎn)生下一幀采樣的概率分布。這個過程按照條件策略重復(fù),直到選擇了足夠數(shù)量的幀。

實驗結(jié)果與驗證

研究團隊在多個視頻問答基準(zhǔn)測試上評估了ReFoCUS的性能,包括Video-MME、LongVideoBench、MLVU和Video-MMMU。結(jié)果表明,整合ReFoCUS框架持續(xù)提升了不同基準(zhǔn)測試和模型規(guī)模(從輕量級到標(biāo)準(zhǔn)大小)的性能。

例如,在Video-MME基準(zhǔn)測試上,為InternVL3-8B模型增加ReFoCUS后,整體性能從64.7%提升到66.0%,其中在"中等長度"和"長"視頻子集上的提升尤為顯著(分別從64.7%到66.9%和從53.4%到55.9%)。這表明ReFoCUS在處理包含多個事件的復(fù)雜場景時特別有效。

在Video-MMMU基準(zhǔn)測試上,ReFoCUS增強的模型在"適應(yīng)"任務(wù)中表現(xiàn)出色,證明了所學(xué)習(xí)的幀選擇策略可以支持模型處理復(fù)雜和知識密集型場景。

為了驗證ReFoCUS學(xué)習(xí)的選擇分布是否真正捕獲了語義上有意義的幀,研究團隊對策略模型預(yù)測的幀似然進行了深入分析。結(jié)果表明,預(yù)測準(zhǔn)確率隨著使用低似然度幀(實線)的減少而穩(wěn)步下降,而高似然度子集(虛線)通常優(yōu)于其互補的低似然度對應(yīng)部分,即使在小樣本空間內(nèi)也能超過基線。這種對稱結(jié)果證實了從ReFoCUS中學(xué)習(xí)的幀分布足以回答查詢,表明策略模型已經(jīng)內(nèi)化了與模型行為一致的有用評分模式。

V-NIAH實驗:ReFoCUS能否找到關(guān)鍵證據(jù)?

研究團隊還進行了一項名為V-NIAH(視覺大海撈針)的精細分析,以檢驗ReFoCUS是否能夠準(zhǔn)確定位任務(wù)相關(guān)的視覺證據(jù)。實驗結(jié)果顯示,均勻采樣策略(如InternVL3-8B)無法捕獲時間上稀疏但至關(guān)重要的信號(即"針"幀),因為它在整個序列中均勻選擇幀,而不考慮內(nèi)容相關(guān)性。相比之下,基于ReFoCUS的選擇在不同時間位置上對真正的"針"幀表現(xiàn)出強烈的集中性,這突顯了ReFoCUS精確定位查詢相關(guān)視覺證據(jù)的能力。

為了驗證ReFoCUS不僅僅學(xué)習(xí)了時間偏向的幀選擇策略,研究團隊分析了不同視頻-查詢對的選擇分布之間的差異。使用分布度量(JS散度、對稱KL散度和Wasserstein距離)計算Video-MME中不同視頻-查詢對之間的幀選擇分布的成對距離。結(jié)果表明,無論視頻片段長度如何,該模型在各對之間都表現(xiàn)出高度多樣性,表明學(xué)習(xí)的策略根據(jù)查詢語義調(diào)整其選擇策略,而不是依賴一致的時間先驗。

ReFoCUS的局限性與未來發(fā)展方向

盡管ReFoCUS開辟了將策略優(yōu)化從輸出級文本對齊轉(zhuǎn)向輸入級視覺基礎(chǔ)的有趣方向,但仍存在一些局限性。與其他強化學(xué)習(xí)過程一樣,訓(xùn)練涉及相當(dāng)大的計算成本,需要重復(fù)的自回歸采樣和獎勵估計。此外,學(xué)習(xí)的策略在很大程度上依賴于獎勵模型的偏好,如果獎勵模型存在次優(yōu)偏好,策略可能會繼承這些偏好。

然而,ReFoCUS展示了建模輸入級視覺偏好可以產(chǎn)生語義上信息豐富的幀選擇。研究人員認為,未來的工作可以探索更多樣化的獎勵形式,以及集成多模態(tài)知識或人類反饋來進一步完善策略。此外,擴展這種方法到開放式問答和更長的視頻內(nèi)容也是有價值的研究方向。

結(jié)論:重新思考AI如何"看"世界

歸根結(jié)底,ReFoCUS代表了視頻大語言模型的一個范式轉(zhuǎn)變。傳統(tǒng)方法主要關(guān)注如何提高模型的輸出質(zhì)量,而ReFoCUS則從根本上改變了模型獲取視覺信息的方式,讓AI學(xué)會選擇對特定問題最相關(guān)的視覺證據(jù)。

就像一個優(yōu)秀的偵探知道應(yīng)該關(guān)注犯罪現(xiàn)場的哪些細節(jié)一樣,配備ReFoCUS的視頻AI能夠在視頻的海量信息中精確定位與用戶查詢相關(guān)的關(guān)鍵幀。這種能力不僅提高了模型的準(zhǔn)確性,還減少了處理冗余信息的計算負擔(dān)。

這項研究清晰地表明,未來的視頻理解AI不僅需要知道如何"回答"問題,還需要學(xué)會如何更智能地"觀看"視頻。對于關(guān)注AI發(fā)展的普通人來說,這意味著未來的視頻助手將能更精準(zhǔn)地理解您的意圖,并從長視頻中提取出真正重要的信息,為您節(jié)省時間和精力。

如果您對這項研究感興趣,可以通過arXiv:2506.01274v1訪問完整論文,了解更多技術(shù)細節(jié)。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-