av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 視覺"動感眼":南京大學(xué)團隊打造的多模態(tài)大模型細(xì)粒度動作理解增強系統(tǒng)

視覺"動感眼":南京大學(xué)團隊打造的多模態(tài)大模型細(xì)粒度動作理解增強系統(tǒng)

2025-06-06 14:15
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-06 14:15 ? 科技行者

近日,由南京大學(xué)杜一鵬、范鐵函、南柯盼,字節(jié)跳動南柯盼、謝瑞、周鵬昊、楊震恒,以及南開大學(xué)的李翔共同完成的研究"MotionSight: 提升多模態(tài)大語言模型中的細(xì)粒度動作理解"成為了計算機視覺領(lǐng)域的一大亮點。這項研究雖然還在預(yù)印本階段,但已經(jīng)在arXiv上公開,論文編號為2506.01674v1。有興趣深入閱讀的讀者可以通過南京大學(xué)研究團隊的項目網(wǎng)站(https://nju-pcalab.github.io/projects/MotionSight)獲取更多信息。

想象一下這個場景:你在看一段視頻,想知道畫面中的警察在做什么,攝像機是如何移動的。如果你問現(xiàn)有的人工智能模型,比如谷歌的Gemini,它可能會告訴你"警察似乎在充當(dāng)門衛(wèi)或控制通往白色西裝男子前進區(qū)域的通道。攝像機正在向右平移。"但實際上,警察只是站在人群附近,而攝像機是在對著白色西裝男子進行放大。這種誤解恰恰反映了當(dāng)前多模態(tài)大語言模型(MLLMs)在理解視頻動作細(xì)節(jié)方面的局限性。

雖然現(xiàn)有的多模態(tài)大語言模型在處理圖像和文本方面表現(xiàn)出色,但它們在視頻領(lǐng)域,特別是理解細(xì)粒度動作方面卻顯得力不從心。這些模型往往缺乏對幀間差異的感知能力,容易忽略或平均化細(xì)微的視覺線索。簡單來說,它們看視頻就像看一堆靜態(tài)圖片,沒能真正捕捉到動作的連貫性和細(xì)節(jié)變化。

南京大學(xué)團隊提出的MotionSight系統(tǒng)正是為了解決這一問題。它是一種零樣本(不需要額外訓(xùn)練數(shù)據(jù))的創(chuàng)新方法,通過引入對象中心的"視覺聚光燈"和"動態(tài)模糊"作為視覺提示,顯著提升了多模態(tài)大語言模型理解細(xì)粒度動作的能力。想象一下,如果我們觀看魔術(shù)表演,MotionSight就像是一個會自動幫我們聚焦到魔術(shù)師手部動作的智能助手,同時還能告訴我們攝像機是如何移動來捕捉這些動作的。

除了提出創(chuàng)新方法,研究團隊還構(gòu)建了名為MotionVid-QA的大規(guī)模數(shù)據(jù)集,這是首個專注于細(xì)粒度視頻動作理解的開源數(shù)據(jù)集。它包含約4萬個視頻片段和8.7萬個問答對,覆蓋了豐富的場景和高質(zhì)量的視頻素材。這些數(shù)據(jù)被精心組織成層次化的注釋,包括用于監(jiān)督微調(diào)(SFT)和人類偏好(DPO)的數(shù)據(jù),為未來的研究提供了寶貴資源。

實驗結(jié)果表明,MotionSight在業(yè)界標(biāo)準(zhǔn)基準(zhǔn)測試(如MotionBench和FAVOR-Bench)上取得了令人印象深刻的性能。它不僅超越了現(xiàn)有的開源方法,甚至在某些方面與商業(yè)模型相媲美。最重要的是,這一切都是在不需要額外訓(xùn)練的情況下實現(xiàn)的,充分釋放了多模態(tài)大語言模型的潛在能力。

讓我們一起深入了解這項創(chuàng)新研究的細(xì)節(jié),看看它如何改變我們對視頻理解的認(rèn)知。

一、視頻中的動態(tài)世界:為什么細(xì)粒度動作理解如此重要?

想象你正在看一段芭蕾舞視頻。作為觀眾,你不僅能看到舞者在舞臺上移動,還能捕捉到每個微妙的手勢、跳躍的輕盈度、旋轉(zhuǎn)的速度變化。這些細(xì)節(jié)共同構(gòu)成了一段優(yōu)美的表演。但如果你問現(xiàn)有的AI模型描述這段視頻,它可能只會告訴你"有人在跳舞",忽略了所有讓這段表演獨特而美麗的細(xì)節(jié)。

視頻與靜態(tài)圖像的根本區(qū)別在于其時間維度。這種時間維度體現(xiàn)為幀與幀之間的連續(xù)變化,形成了豐富多樣的動作。這些變化可能來自畫面中的物體,也可能來自攝像機本身,正是這些變化使視頻生動有敘事性,將其與靜態(tài)圖像區(qū)分開來。

現(xiàn)有的多模態(tài)大語言模型雖然在圖像理解方面取得了長足進步,但在細(xì)粒度動作理解方面卻面臨重大挑戰(zhàn)。這些模型在大規(guī)模數(shù)據(jù)預(yù)訓(xùn)練中獲取了廣泛的語義知識,但由于它們傾向于以統(tǒng)一的重要性處理空間區(qū)域,且缺乏明確辨別細(xì)微幀間變化的內(nèi)在機制,直接應(yīng)用于細(xì)粒度動作理解往往效果不佳。

南京大學(xué)研究團隊提出了兩個關(guān)鍵問題:

首先,如何提升多模態(tài)大語言模型源自大規(guī)模數(shù)據(jù)的潛在能力,使其能夠?qū)崿F(xiàn)細(xì)粒度動作理解,捕捉局部動作線索并增強對細(xì)微幀間動態(tài)的建模?

其次,即使我們成功增強了模型的細(xì)粒度動作理解能力,這種增強的理解和洞察主要以隱式表示形式存在。那么,如何明確且有結(jié)構(gòu)地提取這些知識,將其轉(zhuǎn)化為有價值的數(shù)據(jù)資產(chǎn)?這些資產(chǎn)對于訓(xùn)練其他模型和研究者的深入分析至關(guān)重要。

研究團隊進行了大量實驗和探索,尋找不依賴額外訓(xùn)練數(shù)據(jù)的零樣本方法來提升模型的固有細(xì)粒度動作理解能力。他們發(fā)現(xiàn),雖然圖像理解領(lǐng)域的視覺提示技術(shù)(visual prompting)顯示出很大潛力,但這些技術(shù)尚未有效擴展到視頻的復(fù)雜時間特性,特別是在細(xì)粒度動作理解方面。

研究團隊在最近的專門針對動作的基準(zhǔn)測試上進行了直接遷移評估,發(fā)現(xiàn)即使是在靜態(tài)圖像中表現(xiàn)最佳的背景模糊(blur reverse mask)視覺提示,在細(xì)粒度動作理解中反而表現(xiàn)最差。這種方法由于丟失了上下文信息,反而降低了模型在細(xì)粒度動作理解中的能力。

這促使研究團隊設(shè)計了一種針對視頻動作理解領(lǐng)域獨特需求的新型視覺提示方法——MotionSight。

二、MotionSight:讓AI的"動態(tài)視覺"更敏銳的創(chuàng)新方法

MotionSight的核心思想可以比作給AI裝上了一副特殊的"動態(tài)眼鏡",幫助它更好地識別和理解視頻中的動作細(xì)節(jié)。這種方法首先將物體動作和攝像機動作分離,然后針對每種動作類型采用不同的增強策略。

對于物體動作,系統(tǒng)會根據(jù)多模態(tài)大語言模型的初步感知選擇動作組。想象你在看一個雜技表演視頻,系統(tǒng)會自動識別出"雜技演員"、"球"、"平衡木"等關(guān)鍵元素。接著,系統(tǒng)利用外部知識模塊進行物體跟蹤,識別出與所查詢動作高度相關(guān)的一系列邊界框。這就像給雜技演員畫上了一個會跟隨其移動的熒光標(biāo)記。隨后,系統(tǒng)會平滑這系列邊界框,應(yīng)用類似聚光燈的視覺提示,將其反饋給多模態(tài)大語言模型,增強其細(xì)粒度物體動作感知能力。

對于攝像機動作,由于需要多模態(tài)大語言模型感知細(xì)微的場景變化(這是模型通常表現(xiàn)不佳的能力),研究團隊設(shè)計了一種方法,在視頻幀中人為引入運動模糊。有趣的是,實驗表明,這種運動模糊的添加顯著有利于攝像機動作的判斷。就像當(dāng)你快速搖晃相機拍照時,照片會出現(xiàn)模糊,這種模糊恰恰成為識別攝像機動作的重要線索。

最后,系統(tǒng)通過精心設(shè)計的配置獲取增強結(jié)果,多模態(tài)大語言模型推理產(chǎn)生最終答案。整個過程無需額外訓(xùn)練,完全是零樣本的,這意味著它可以直接應(yīng)用于現(xiàn)有的模型,無需花費大量資源進行重新訓(xùn)練。

MotionSight的工作流程可以分為三個主要步驟:

1. 對象定位(Object Referring):當(dāng)用戶詢問視頻中的動作時,系統(tǒng)首先分析問題,確定需要關(guān)注的對象類別。然后使用GroundingDINO這樣的工具在關(guān)鍵幀中定位這些對象,并通過SAM2等跟蹤算法在后續(xù)幀中追蹤它們的軌跡。為了處理對象頻繁進出畫面的情況,系統(tǒng)會在固定間隔重新檢測對象,確保全面捕捉對象的移動。

2. 動作聚焦(Action Focusing):獲取對象軌跡后,系統(tǒng)使用動態(tài)時間聚合器合并和穩(wěn)定邊界框,抵抗抖動。這個聚合器會根據(jù)軌跡內(nèi)位置變化自適應(yīng)調(diào)整其時間窗口——當(dāng)對象幾乎靜止時,使用較長的時間跨度;當(dāng)對象快速移動時,聚焦于較短時間內(nèi)的局部區(qū)域。然后,系統(tǒng)應(yīng)用"視覺聚光燈"技術(shù),暗化邊界框外的背景,同時保持檢測到的對象在原始位置,增強對相關(guān)移動元素的關(guān)注。

3. 動作模糊(Motion Blur):為了克服現(xiàn)有模型感知幀間變化(尤其是細(xì)微的攝像機動作)的固有限制,系統(tǒng)引入了動作模糊轉(zhuǎn)換。這種技術(shù)對每一幀進行時間加權(quán)聚合,使用其前N幀的信息,并應(yīng)用衰減因子,使最近的幀貢獻(xiàn)更大。這種聚合在整個視頻序列中產(chǎn)生運動模糊效果,增強模型感知和解釋細(xì)微攝像機移動的能力。

這三個組件協(xié)同工作,形成了一個強大的系統(tǒng),能夠大幅提升多模態(tài)大語言模型對視頻中細(xì)粒度動作的理解能力。最重要的是,這一切都是在不需要額外訓(xùn)練的情況下實現(xiàn)的,充分釋放了模型的潛在能力。

三、MotionVid-QA:為細(xì)粒度動作理解打造的高質(zhì)量數(shù)據(jù)集

要評估和改進AI模型的細(xì)粒度動作理解能力,高質(zhì)量的數(shù)據(jù)集至關(guān)重要。然而,現(xiàn)有的數(shù)據(jù)集在這方面存在明顯不足。早期的動作識別數(shù)據(jù)集(如UCF101、ActivityNet、Kinetics-700)由于簡單的分類標(biāo)簽,在細(xì)粒度動作理解方面受到限制。雖然近期有研究使用多模態(tài)大語言模型進行自動標(biāo)注,但其粒度仍然有限。結(jié)構(gòu)化視頻字幕雖然響應(yīng)了對細(xì)粒度語義的需求,但在動作語義劃分方面仍存在不足,因為缺乏獲取細(xì)粒度語義表示的設(shè)計良好的方法。

為了解決這一問題,研究團隊構(gòu)建了MotionVid-QA,這是首個專注于細(xì)粒度動作理解的大規(guī)模數(shù)據(jù)集。該數(shù)據(jù)集具有以下特點:

1. 規(guī)模與多樣性:包含約4萬個視頻片段和8.7萬個問答對,覆蓋了多種場景和高質(zhì)量視頻素材。

2. 層次化注釋:數(shù)據(jù)集被組織成兩個子集——用于監(jiān)督微調(diào)(SFT)的約3.5萬個視頻和8萬個問答對,以及用于人類偏好對齊(DPO)的約5千個視頻和7千個問答對。

3. 嚴(yán)格的質(zhì)量控制:研究團隊?wèi)?yīng)用了嚴(yán)格的過濾機制來提高注釋數(shù)據(jù)的質(zhì)量。使用VQAScore和人工設(shè)定的閾值進行分類,高質(zhì)量片段成為偏好數(shù)據(jù)集候選,低質(zhì)量片段被淘汰,其余部分形成指令數(shù)據(jù)集。

4. 細(xì)粒度問題類型:數(shù)據(jù)集包含三類問題——以對象為中心的問題(關(guān)注物體的移動、動作和交互)、以攝像機為中心的問題(探討攝像機的移動、技術(shù)和視角)以及混合焦點問題(需要對物體動作和攝像機工作之間的相互作用有全面理解)。

這個數(shù)據(jù)集的創(chuàng)建過程也非常嚴(yán)謹(jǐn)。研究團隊首先從多個來源(包括ActivityNet、Kinetics-700、Charades、Charades-Ego、Tarsier2-Recap-585K、OpenVid-1M和MotionBench-train)收集視頻,然后應(yīng)用初始數(shù)據(jù)處理管道進行過濾,只保留滿足特定質(zhì)量指標(biāo)的片段。接著,使用MotionSight為選定的片段進行標(biāo)注,并根據(jù)注釋質(zhì)量將其分為三類:高質(zhì)量片段(用于DPO數(shù)據(jù)集)、低質(zhì)量片段(被淘汰)和指令數(shù)據(jù)集片段(用于SFT)。

對于DPO數(shù)據(jù)集,研究團隊重新標(biāo)注了高質(zhì)量片段,并引入了人類偏好信號。人類標(biāo)注者根據(jù)準(zhǔn)確性、粒度、時間動態(tài)、攝像機移動和事實正確性等標(biāo)準(zhǔn)選擇首選的文本描述。這一過程由多個受過良好教育的個體完成,確保數(shù)據(jù)質(zhì)量和多樣性。

MotionVid-QA數(shù)據(jù)集的構(gòu)建不僅為細(xì)粒度視頻動作理解提供了寶貴資源,還為未來的模型訓(xùn)練和評估奠定了堅實基礎(chǔ)。

四、實驗結(jié)果:MotionSight的卓越表現(xiàn)

研究團隊在兩個主要基準(zhǔn)測試上評估了MotionSight的性能:MotionBench和FAVOR-Bench。

MotionBench是一個大規(guī)模、細(xì)粒度的動作級基準(zhǔn)測試,包含5,385個視頻和8,052個問答對。其問題類型包括六個細(xì)粒度動作導(dǎo)向任務(wù)類別:動作識別(MR)、位置相關(guān)動作(LM)、動作順序(AO)、重復(fù)計數(shù)(RC)、動作相關(guān)對象(MO)和攝像機動作(CM)。

FAVOR-Bench是一個細(xì)粒度視頻動作理解基準(zhǔn)測試,包含1,776個視頻,具有各種動作的結(jié)構(gòu)化手動注釋。測試包括六種問答對:動作序列(AS)、整體動作分類(HAC)、單一動作細(xì)節(jié)(SAD)、多動作細(xì)節(jié)(MAD)、攝像機動作(CM)和非主體動作(NSM)。

在MotionBench上,MotionSight顯著提升了基礎(chǔ)模型的性能。當(dāng)使用Qwen2.5VL作為骨干網(wǎng)絡(luò)時,該方法在類別平均值上實現(xiàn)了3.4%的提升,而攝像機動作改進了驚人的14.3%。更令人印象深刻的是,當(dāng)與InternVL3-78B結(jié)合使用時,MotionSight在開源模型中取得了最先進的結(jié)果,甚至在某些方面與領(lǐng)先的商業(yè)模型(如GLM-4V-Plus-0111)相媲美。

在FAVOR-Bench上,結(jié)果同樣令人鼓舞。Qwen2.5VL-7B與MotionSight結(jié)合,在類別平均值上提高了3.0%,在整體指標(biāo)上提高了2.5%。同樣,將MotionSight與InternVL3-78B集成,在AS、HAC和MAD等類別中取得了顯著提升,展示了該方法的一致有效性。

研究團隊還進行了深入的消融研究,評估不同視覺提示策略對物體動作和攝像機動作理解的影響。對于物體動作理解,他們比較了視覺聚光燈、物體裁剪、背景模糊、物體動作模糊和姿態(tài)估計等技術(shù)。結(jié)果表明,提出的視覺聚光燈技術(shù)在物體動作平均分?jǐn)?shù)上表現(xiàn)最佳,而背景模糊則產(chǎn)生了負(fù)面影響,與其在靜態(tài)圖像提示中的有效性形成對比。

對于攝像機動作理解,研究重點評估了應(yīng)用于整個視頻幀的全局動作模糊。結(jié)果顯示,這種動作模糊合成方法顯著提高了模型感知細(xì)微幀間差異的能力,從而大幅提升了基線性能。

此外,研究團隊還在其數(shù)據(jù)集上進行了微調(diào)實驗,創(chuàng)建了名為MotionChat的模型。在FAVORBench和MotionBench上,完整的MotionChat模型取得了整體性能提升,證明了數(shù)據(jù)集和微調(diào)方法對細(xì)粒度動作理解的積極影響。質(zhì)性比較顯示,MotionChat展示了增強的細(xì)粒度動作感知,比基線模型更準(zhǔn)確地解釋復(fù)雜的動作敘述。

五、MotionSight的創(chuàng)新和局限

MotionSight的創(chuàng)新之處在于它采用了零樣本方法來增強多模態(tài)大語言模型的細(xì)粒度動作理解能力,而不需要額外的訓(xùn)練數(shù)據(jù)。它通過引入對象中心的視覺聚光燈和動作模糊作為視覺提示,有效改善了細(xì)粒度動作理解。

對于物體動作,研究團隊發(fā)現(xiàn)視覺聚光燈技術(shù)優(yōu)于其他視覺提示方法,如物體裁剪、背景模糊、物體動作模糊和姿態(tài)估計。這表明,通過突出相關(guān)移動元素并保持其上下文,可以顯著提升模型對物體動作的理解。

對于攝像機動作,研究團隊的動作模糊技術(shù)通過在視頻幀中合成運動模糊,成功增強了模型感知細(xì)微場景變化的能力。這一發(fā)現(xiàn)特別有趣,因為它表明添加人為的視覺線索可以幫助模型更好地理解動態(tài)內(nèi)容。

除了方法創(chuàng)新,研究團隊還構(gòu)建了MotionVid-QA數(shù)據(jù)集,這是首個專注于細(xì)粒度視頻動作理解的大規(guī)模開源數(shù)據(jù)集。該數(shù)據(jù)集不僅規(guī)模大,而且質(zhì)量高,為未來的研究提供了寶貴資源。

然而,MotionSight也存在一些局限性。首先,其性能與底層多模態(tài)大語言模型緊密相關(guān),可能繼承模型的偏見。其次,與所有視頻分析技術(shù)一樣,該方法和數(shù)據(jù)集也存在被濫用的風(fēng)險(例如,在監(jiān)控中)。研究團隊倡導(dǎo)道德使用,設(shè)計工作時考慮了透明度,以便于審查和減輕誤用。

盡管如此,MotionSight和MotionVid-QA為細(xì)粒度視頻動作理解領(lǐng)域做出了重要貢獻(xiàn),為未來研究奠定了堅實基礎(chǔ)。

六、結(jié)論:視覺的未來與細(xì)粒度動作理解的意義

歸根結(jié)底,南京大學(xué)研究團隊的MotionSight為多模態(tài)大語言模型的細(xì)粒度視頻動作理解開辟了新的可能性。通過創(chuàng)新的零樣本方法和高質(zhì)量數(shù)據(jù)集,他們成功釋放了這些模型的潛在能力,使其能夠更好地理解和解釋視頻中的細(xì)微動作。

MotionSight的核心創(chuàng)新在于將物體動作和攝像機動作解耦,并為每種動作類型設(shè)計專門的增強策略——對象中心的視覺聚光燈和動態(tài)模糊。這些技術(shù)不需要額外訓(xùn)練,卻能顯著提升模型性能,在業(yè)界標(biāo)準(zhǔn)基準(zhǔn)測試上取得了令人印象深刻的結(jié)果。

同時,MotionVid-QA作為首個專注于細(xì)粒度視頻動作理解的大規(guī)模開源數(shù)據(jù)集,為未來的研究提供了寶貴資源。它不僅規(guī)模大,而且質(zhì)量高,包含層次化注釋,能夠支持多種訓(xùn)練策略。

細(xì)粒度動作理解的進步對許多領(lǐng)域都有深遠(yuǎn)影響,從視頻監(jiān)控和安全系統(tǒng),到輔助技術(shù)、自動駕駛、體育分析和電影制作。隨著這些技術(shù)的發(fā)展,我們可以期待AI系統(tǒng)能夠更好地理解和解釋人類和環(huán)境的動態(tài)交互,為人類提供更有價值的服務(wù)。

未來的研究方向可能包括進一步改進視覺提示技術(shù),探索更多類型的動作理解任務(wù),以及將MotionSight的方法擴展到更多領(lǐng)域。隨著多模態(tài)大語言模型的持續(xù)發(fā)展,細(xì)粒度動作理解將成為其關(guān)鍵能力之一,為人機交互開辟新的可能性。

對于有興趣深入了解的讀者,可以通過南京大學(xué)研究團隊的項目網(wǎng)站獲取更多信息和資源,包括代碼和數(shù)據(jù)集。這項研究不僅是技術(shù)進步,也是對人類如何感知和理解動態(tài)世界的深刻探索。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-