當你在網(wǎng)上看到C羅標志性的慶祝動作時,你的大腦會立刻識別出這是那個熟悉的"SIU"姿勢,即使做這個動作的不是C羅本人。這種根據(jù)動作模式而非外貌來識別對象的能力,正是復(fù)旦大學(xué)研究團隊最新開發(fā)的人工智能系統(tǒng)所具備的核心技能。
這項由復(fù)旦大學(xué)計算機科學(xué)與人工智能學(xué)院的應(yīng)開寧、胡恒瑞和丁恒慧等研究者共同完成的研究,發(fā)表于2025年7月的國際計算機視覺大會(ICCV),論文標題為"MOVE: Motion-Guided Few-Shot Video Object Segmentation"。感興趣的讀者可以通過https://henghuiding.com/MOVE/訪問完整的研究資料和數(shù)據(jù)集。
過去的視頻識別系統(tǒng)就像一個只會認臉的門衛(wèi),它們主要關(guān)注"這是什么東西",比如識別出畫面中有貓、有人或有車。但現(xiàn)實生活中,我們經(jīng)常需要根據(jù)"在做什么動作"來找到我們想要的內(nèi)容。就好比你想在海量視頻中找到所有"擁抱"的場景,傳統(tǒng)系統(tǒng)可能只能幫你找到特定的人或動物,卻無法理解擁抱這個動作本身的含義。
復(fù)旦大學(xué)的研究團隊意識到了這個問題的重要性。他們發(fā)現(xiàn),當我們在網(wǎng)上搜索視頻時,往往是想找到某種特定的動作或行為,而不僅僅是某個特定的物體。比如,你可能想找到所有踢足球的視頻片段,不管踢球的是成人還是兒童,是在草地上還是在沙灘上。這種需求在視頻編輯、體育分析、安防監(jiān)控等領(lǐng)域都非常常見。
為了解決這個挑戰(zhàn),研究團隊開發(fā)了一個名為MOVE的全新數(shù)據(jù)集和相應(yīng)的人工智能模型。這個系統(tǒng)的工作原理可以用一個生動的比喻來解釋:就像一個經(jīng)驗豐富的舞蹈老師,能夠通過觀看幾個學(xué)生的示范動作,然后在一群人中準確識別出哪些人在做同樣的舞蹈動作,即使這些人的身材、衣著和面貌完全不同。
一、突破傳統(tǒng)認知框架的全新方法
傳統(tǒng)的視頻識別系統(tǒng)面臨的最大問題,就像是一個只會通過外貌識別人的系統(tǒng)。這種方法在很多情況下都會遇到困難。考慮這樣一個場景:你有兩段視頻,一段是一只貓在彈鋼琴,另一段是一個人在吹長笛。傳統(tǒng)系統(tǒng)會認為這兩段視頻完全不相關(guān),因為一個是貓,一個是人。但在人類看來,這兩段視頻其實都展現(xiàn)了"演奏樂器"這個共同的動作模式。
復(fù)旦大學(xué)團隊的創(chuàng)新之處在于,他們讓人工智能系統(tǒng)學(xué)會了像人類一樣思考。他們的系統(tǒng)不再只關(guān)注"是什么",而是重點關(guān)注"在做什么"。這就好比訓(xùn)練一個偵探,不是讓他記住每個罪犯的長相,而是讓他學(xué)會識別各種犯罪行為的模式和特征。
這種方法的革命性在于它改變了我們思考視頻理解的基本框架。過去,我們總是先識別物體,再分析行為?,F(xiàn)在,這個系統(tǒng)直接從動作模式入手,把動作本身當作識別的核心特征。這就像是從"認人"轉(zhuǎn)向了"認行為",從靜態(tài)識別轉(zhuǎn)向了動態(tài)理解。
研究團隊還發(fā)現(xiàn)了傳統(tǒng)方法的另一個重要局限:現(xiàn)有的視頻理解系統(tǒng)主要依賴靜態(tài)圖像的分析,就像通過一張張照片來理解一部電影的情節(jié)。這種方法顯然無法捕捉到動作的時間特性和連續(xù)性。真正的動作理解需要考慮時間維度,需要理解動作的發(fā)展過程和變化規(guī)律。
二、構(gòu)建動作理解的數(shù)據(jù)基礎(chǔ)
為了訓(xùn)練這樣一個能夠理解動作的人工智能系統(tǒng),研究團隊面臨的第一個挑戰(zhàn)就是缺乏合適的訓(xùn)練數(shù)據(jù)?,F(xiàn)有的數(shù)據(jù)集就像是為傳統(tǒng)識別任務(wù)量身定做的教科書,對于動作理解這個新任務(wù)來說遠遠不夠。
于是,研究團隊著手構(gòu)建了一個名為MOVE的大規(guī)模數(shù)據(jù)集。這個數(shù)據(jù)集的規(guī)模令人印象深刻:包含224個不同的動作類別,涵蓋4300個視頻片段,總共261920幀畫面,以及314619個精確標注的分割掩碼。這些數(shù)字背后代表著研究團隊巨大的工作量和嚴謹?shù)膶W(xué)術(shù)態(tài)度。
MOVE數(shù)據(jù)集的構(gòu)建過程就像是編寫一本動作百科全書。研究團隊將動作分為四個主要領(lǐng)域:日常行為、體育運動、娛樂活動和特殊動作。每個類別都遵循三個重要原則:細粒度區(qū)分、互相排斥(有清晰的語義邊界)、以及新穎性(在現(xiàn)有數(shù)據(jù)集中覆蓋不足)。
這種分類方法的巧妙之處在于它考慮了動作的層次性和復(fù)雜性。比如在體育運動類別中,不僅包括踢足球、打籃球這樣的大類動作,還細分到運球、射門、防守等具體的子動作。這種精細化的分類使得人工智能系統(tǒng)能夠?qū)W習(xí)到更加準確和具體的動作模式。
數(shù)據(jù)收集的過程同樣嚴謹。研究團隊從兩個主要來源獲取視頻:一是公開的動作識別數(shù)據(jù)集,二是符合創(chuàng)作共用許可協(xié)議的網(wǎng)絡(luò)視頻。在選擇過程中,他們嚴格遵循三個標準:視頻必須有清晰的動作邊界、場景要多樣化、主體類別要豐富。這樣的標準確保了數(shù)據(jù)集的質(zhì)量和多樣性。
對于沒有現(xiàn)成標注的視頻,研究團隊還招募了訓(xùn)練有素的標注員,在交互式標注平臺上借助先進的視頻分割模型來制作高質(zhì)量的掩碼標注。這個過程就像是為每個動作制作精確的"身份證",讓人工智能系統(tǒng)能夠準確理解什么是目標動作,什么不是。
三、解耦動作與外觀的創(chuàng)新算法
有了豐富的訓(xùn)練數(shù)據(jù),下一個挑戰(zhàn)就是如何設(shè)計一個能夠真正理解動作的算法。這里的核心難題在于如何讓系統(tǒng)區(qū)分物體的外觀特征和動作特征。這就好比教一個學(xué)生區(qū)分一個人的長相和這個人的行為方式,雖然兩者都很重要,但在不同的任務(wù)中重要性不同。
研究團隊提出的解決方案是一個名為"解耦動作-外觀網(wǎng)絡(luò)"(DMA)的創(chuàng)新算法。這個算法的基本思想是將視頻中的信息分解為兩個獨立的部分:一部分專門負責(zé)理解物體的外觀特征,另一部分專門負責(zé)理解動作特征。
這種解耦的方法可以用一個生動的比喻來理解。在一個舞蹈教室里,有經(jīng)驗的舞蹈老師能夠同時關(guān)注兩個方面:學(xué)生的外形特征(身高、體型、衣著)和舞蹈動作本身(步伐、節(jié)奏、姿態(tài))。當老師需要評價舞蹈技巧時,會重點關(guān)注動作特征而相對忽略外形差異。DMA算法正是模擬了這種人類的認知過程。
在技術(shù)實現(xiàn)上,DMA算法采用了一種巧妙的設(shè)計。對于外觀特征的提取,系統(tǒng)使用傳統(tǒng)的掩碼池化方法,就像拍攝一張靜態(tài)照片來記錄物體的外觀。而對于動作特征的提取,系統(tǒng)則計算相鄰幀之間的時間差異,通過3D卷積網(wǎng)絡(luò)來捕捉動作的時間演變過程。這就像制作一個動態(tài)的"動作指紋",記錄下動作的時間特征。
為了確保這兩種特征真正獨立且互補,研究團隊還設(shè)計了兩個輔助的分類頭。一個分類頭專門負責(zé)物體類別的識別,引導(dǎo)外觀特征學(xué)習(xí)物體的靜態(tài)屬性。另一個分類頭專門負責(zé)動作類別的識別,引導(dǎo)動作特征學(xué)習(xí)時間動態(tài)信息。這種設(shè)計就像給兩個學(xué)生分配不同的學(xué)習(xí)任務(wù),確保他們各自專精于不同的領(lǐng)域。
算法的另一個創(chuàng)新點是使用了Transformer架構(gòu)來進一步細化動作原型。這個過程包括多層的交叉注意力機制和自注意力機制,能夠捕捉動作特征之間的復(fù)雜關(guān)系。簡單來說,這就像一個經(jīng)驗豐富的教練,能夠從復(fù)雜的動作序列中提取出最關(guān)鍵的動作要素,形成標準化的動作模板。
四、驗證效果的綜合實驗
為了驗證MOVE數(shù)據(jù)集和DMA算法的有效性,研究團隊進行了大規(guī)模的對比實驗。他們選擇了來自三個不同研究領(lǐng)域的六種最先進的方法進行比較,包括指稱視頻目標分割方法、少樣本圖像分割方法和少樣本視頻目標分割方法。
實驗設(shè)計采用了兩種不同的數(shù)據(jù)分割策略。重疊分割策略允許訓(xùn)練集和測試集在動作的高層類別上有一定重疊,這模擬了相對簡單的泛化場景。非重疊分割策略則要求測試集中的動作類別與訓(xùn)練集完全不同,這代表了更加嚴格的泛化測試。
實驗結(jié)果令人印象深刻。在重疊分割的2路1樣本設(shè)置下,DMA算法在ResNet50骨干網(wǎng)絡(luò)上達到了50.1%的J&F得分,相比第二名的45.4%有顯著提升。當使用更強的VideoSwin-T骨干網(wǎng)絡(luò)時,性能進一步提升到51.5%。在更困難的5路1樣本設(shè)置下,DMA同樣保持了顯著的領(lǐng)先優(yōu)勢,達到了40.2%的得分。
這些數(shù)字背后的意義可以這樣理解:如果把視頻分割的準確性比作射箭比賽,那么DMA算法就像一個經(jīng)驗豐富的射手,即使在不同的風(fēng)向和距離條件下,仍然能夠保持穩(wěn)定的高命中率。特別是在更困難的非重疊分割設(shè)置下,DMA仍然能夠達到46.0%的得分,證明了其強大的泛化能力。
研究團隊還進行了詳細的消融實驗來驗證算法各個組件的貢獻。他們發(fā)現(xiàn),基于幀差分的動作提取方法比簡單的掩碼池化方法效果更好,將性能從41.3%提升到46.8%。同時,外觀和動作特征的結(jié)合比單獨使用任一種特征都更有效,證明了解耦設(shè)計的合理性。
五、算法的深層工作機制
為了更好地理解DMA算法的工作原理,研究團隊還進行了可視化分析。他們使用t-SNE技術(shù)將高維的特征向量投影到二維空間,就像制作一張?zhí)卣鞯貓D來展示不同樣本之間的關(guān)系。
可視化結(jié)果顯示了一個有趣的現(xiàn)象:在沒有使用DMA解耦技術(shù)時,相同物體類別的樣本傾向于聚集在一起,不管它們執(zhí)行什么動作。這就像一個只認識人臉的系統(tǒng),會把同一個人的所有照片放到一起,不管這個人在做什么。
而使用DMA技術(shù)后,情況發(fā)生了根本性的改變?,F(xiàn)在,執(zhí)行相同動作的樣本開始聚集在一起,即使它們來自不同的物體類別。這證明了算法成功地學(xué)會了基于動作而非外觀來組織和理解視頻內(nèi)容。這種變化就像一個學(xué)會了按照行為而非外貌來分類的智能系統(tǒng)。
研究團隊還提供了一些具體的應(yīng)用案例來展示算法的實際效果。在一個特別有挑戰(zhàn)性的例子中,支持集包含一只貓彈鋼琴和一個人吹長笛的視頻,而查詢視頻顯示一個人在彈鋼琴。傳統(tǒng)方法會錯誤地將查詢視頻與支持集中的"人吹長笛"匹配,因為它們都涉及人類。但DMA算法能夠正確識別出"彈鋼琴"這個共同的動作模式,實現(xiàn)準確的分割。
另一個有趣的案例涉及時間相關(guān)的動作。支持集顯示手指從捏合到張開的動作,而查詢視頻顯示相反的過程(從張開到捏合)。雖然動作方向相反,但DMA算法仍然能夠識別出這種細粒度的手部動作模式,展現(xiàn)了其對時間動態(tài)的深度理解能力。
六、實際應(yīng)用前景與挑戰(zhàn)
這項研究的實際應(yīng)用前景非常廣闊。在視頻編輯領(lǐng)域,MOVE技術(shù)可以幫助編輯人員快速找到特定動作的鏡頭,大大提高工作效率。比如,在制作一部關(guān)于足球的紀錄片時,編輯可以通過提供幾個"射門"動作的示例,讓系統(tǒng)自動從海量素材中找出所有相關(guān)鏡頭。
在體育分析方面,教練和分析師可以使用這個系統(tǒng)來研究運動員的技術(shù)動作。通過輸入標準動作的示例,系統(tǒng)可以自動識別和分析運動員在比賽中的相應(yīng)動作,為技術(shù)改進提供客觀依據(jù)。這就像有了一個永不疲倦的助理教練,能夠從無數(shù)比賽錄像中找出值得研究的關(guān)鍵時刻。
在安防監(jiān)控領(lǐng)域,MOVE技術(shù)可以用于行為分析和異常檢測。通過學(xué)習(xí)正常行為模式,系統(tǒng)可以自動識別出可疑或異常的行為,提高安全監(jiān)控的效率和準確性。這種應(yīng)用就像給監(jiān)控系統(tǒng)配備了一個經(jīng)驗豐富的安保專家的眼睛和判斷力。
不過,研究團隊也誠實地指出了當前技術(shù)的一些局限性。首先,對于背景信息的處理仍然有改進空間。當查詢視頻的背景環(huán)境與支持集差異很大時,系統(tǒng)有時會受到干擾。比如,在籃球場上踢足球這種場景下,系統(tǒng)可能會被背景環(huán)境誤導(dǎo)。
其次,對于非常細粒度的動作區(qū)分,系統(tǒng)的表現(xiàn)還有提升余地。雖然它能夠區(qū)分大的動作類別,但對于同一大類下的細微差異,識別準確性還需要進一步提高。這就像一個剛?cè)腴T的舞蹈學(xué)生,雖然能夠區(qū)分不同的舞種,但對于同一舞種內(nèi)的不同風(fēng)格還需要更多練習(xí)。
七、技術(shù)創(chuàng)新的深層意義
從更深層的角度來看,這項研究代表了人工智能在視頻理解領(lǐng)域的一個重要范式轉(zhuǎn)變。傳統(tǒng)的視頻分析方法主要繼承了圖像處理的思路,將視頻視為靜態(tài)圖像的序列。而MOVE的方法真正把時間維度作為第一公民來對待,這種思路上的轉(zhuǎn)變具有深遠的意義。
這種范式轉(zhuǎn)變可以類比為從拍照到攝影的進步。拍照關(guān)注的是某個瞬間的靜態(tài)美,而攝影則要考慮時間的流逝、動作的連貫性和故事的敘述。MOVE技術(shù)正是讓人工智能從"拍照"的思維模式進化到了"攝影"的理解層次。
研究團隊的工作也為少樣本學(xué)習(xí)領(lǐng)域帶來了新的思路。傳統(tǒng)的少樣本學(xué)習(xí)主要關(guān)注如何從少量樣本中學(xué)習(xí)物體的視覺特征,而MOVE展示了如何從少量樣本中學(xué)習(xí)行為模式。這種從"學(xué)習(xí)看"到"學(xué)習(xí)理解"的轉(zhuǎn)變,為人工智能的發(fā)展開辟了新的方向。
更重要的是,這項研究展示了跨領(lǐng)域知識融合的威力。研究團隊巧妙地結(jié)合了計算機視覺、模式識別、時間序列分析等多個領(lǐng)域的技術(shù),創(chuàng)造出了解決新問題的有效方案。這種跨領(lǐng)域的創(chuàng)新思路值得其他研究者借鑒和學(xué)習(xí)。
八、未來發(fā)展方向與展望
研究團隊在論文中也描繪了這個領(lǐng)域未來可能的發(fā)展方向。首先是復(fù)雜動作的分解問題?,F(xiàn)實中的很多動作都是由多個基本動作組合而成的,如何將復(fù)雜動作分解為更基本的"元動作",將是一個有趣且重要的研究方向。這就像學(xué)習(xí)語言時,我們先學(xué)會基本的詞匯,然后組合成復(fù)雜的句子和段落。
其次是關(guān)系動作的建模。很多有意義的動作都涉及多個對象之間的交互,比如擁抱、握手、傳球等。如何讓系統(tǒng)理解這種多對象的關(guān)系動作,將是另一個重要的挑戰(zhàn)。這需要系統(tǒng)不僅能理解單個對象的動作,還要理解對象之間的空間和時間關(guān)系。
長時間動作的建模也是一個值得探索的方向。目前的系統(tǒng)主要針對相對短暫的動作片段,但現(xiàn)實中很多有意義的行為都是長時間的過程,比如做飯、整理房間等。如何在計算效率和理解深度之間找到平衡,將是技術(shù)發(fā)展的重要課題。
背景理解的改進也是未來工作的重點。當前系統(tǒng)在處理復(fù)雜背景時還有不足,如何更好地區(qū)分前景動作和背景噪聲,將直接影響系統(tǒng)的實用性。這就像訓(xùn)練一個在嘈雜環(huán)境中仍能專注于重要信息的專家。
最后,研究團隊還提到了計算效率的優(yōu)化問題。雖然當前的算法在準確性上表現(xiàn)出色,但在實際部署時還需要考慮計算資源的限制。如何在保持性能的同時提高運行效率,將是工程化應(yīng)用的關(guān)鍵挑戰(zhàn)。
說到底,復(fù)旦大學(xué)團隊的這項研究為我們打開了一扇通向更智能視頻理解的大門。他們不僅創(chuàng)建了一個寶貴的數(shù)據(jù)資源,更重要的是提出了一種全新的思考方式:讓機器像人類一樣理解動作的本質(zhì),而不僅僅是記住外表的特征。
這種從"看得見"到"看得懂"的進步,可能會在不久的將來改變我們與視頻內(nèi)容交互的方式。從更加智能的視頻搜索,到更精準的體育分析,再到更可靠的安防監(jiān)控,這項技術(shù)的影響將會滲透到我們生活的方方面面。當然,就像任何科學(xué)研究一樣,這只是一個開始,真正的應(yīng)用還需要更多研究者的共同努力和持續(xù)改進。
對于那些對這個領(lǐng)域感興趣的讀者,可以通過訪問https://henghuiding.com/MOVE/獲取更詳細的技術(shù)資料和開源代碼,親自體驗這項技術(shù)的魅力??茖W(xué)的進步正是在這種開放共享的精神下不斷前行的。
Q&A
Q1:MOVE數(shù)據(jù)集跟現(xiàn)有的視頻數(shù)據(jù)集有什么不同? A:MOVE數(shù)據(jù)集的最大不同在于它關(guān)注的是動作模式而不是物體類別。傳統(tǒng)數(shù)據(jù)集會標注"這是貓"、"這是人",而MOVE標注的是"在跳舞"、"在擁抱"。它包含224個動作類別、4300個視頻、26萬多幀畫面,專門為訓(xùn)練能理解動作的AI系統(tǒng)而設(shè)計。
Q2:這個技術(shù)能不能用在日常的視頻剪輯中? A:完全可以。這項技術(shù)最直接的應(yīng)用就是智能視頻剪輯。你只需要給系統(tǒng)展示幾個"跳躍"動作的例子,它就能從你的海量素材中自動找出所有跳躍的鏡頭,不管是人跳、動物跳還是在什么場景下跳。這會大大提高視頻編輯的效率,特別適合制作體育、舞蹈或動作類內(nèi)容。
Q3:DMA算法的"解耦"是什么意思?為什么要這樣設(shè)計? A:解耦就像教兩個學(xué)生分工合作:一個專門記住物體長什么樣(外觀特征),另一個專門記住物體在做什么動作(動作特征)。這樣設(shè)計的好處是,當我們需要找相同動作時,系統(tǒng)會主要聽"動作專家"的意見,而不會被外觀差異干擾。比如找"踢球"動作時,不管是大人踢還是小孩踢,系統(tǒng)都能準確識別。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機制和漸進式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學(xué)習(xí)外觀和運動信息,顯著解決了當前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準,通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報,準確性超越傳統(tǒng)方法90%的指標。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。