在智能城市、安全監(jiān)控和災害預警系統(tǒng)中,快速準確地理解視頻中的異常事件至關重要。但是,要讓人工智能系統(tǒng)不僅能發(fā)現(xiàn)"什么地方不對勁",還能解釋"為什么不對勁",一直是個難題。2025年5月,澳大利亞國立大學和廣灣大學的研究團隊(作者包括Liyun Zhu、Qixiang Chen、Xi Shen和Xiaodong Cun)在arXiv上發(fā)表了一篇題為《VAU-R1: Advancing Video Anomaly Understanding via Reinforcement Fine-Tuning》的論文,提出了一種全新的解決方案。有興趣的讀者可以通過https://github.com/GVCLab/VAU-R1訪問完整代碼。
想象一下,你是一名安保人員,通過監(jiān)控屏幕觀察商場的情況。突然,你注意到兩個人在爭吵,這可能只是朋友間的小矛盾,也可能是即將升級的暴力沖突。僅僅知道"有異常"是不夠的,你需要理解事件的性質(zhì)、可能的原因和發(fā)展趨勢,才能做出正確的反應。這正是視頻異常理解(Video Anomaly Understanding,簡稱VAU)技術要解決的問題。
傳統(tǒng)的視頻異常檢測系統(tǒng)就像一個只會喊"有狼來了"的牧童,只能告訴你"這里有異常",卻無法解釋為什么異?;虍惓5木唧w性質(zhì)。而新提出的VAU-R1系統(tǒng)更像一位經(jīng)驗豐富的偵探,不僅能發(fā)現(xiàn)異常,還能分析事件發(fā)生的時間、原因,并給出合理的解釋。
這項研究的創(chuàng)新之處在于,研究團隊不僅開發(fā)了一個新的模型(VAU-R1),還創(chuàng)建了第一個專門用于視頻異常理解的綜合基準數(shù)據(jù)集(VAU-Bench)。這個數(shù)據(jù)集包含了詳細的問答對、時間標注和推理鏈,使得模型能夠?qū)W習如何像人類一樣思考和解釋視頻中的異常事件。
一、視頻異常理解的新方法:強化學習來提升推理能力
想象你在教一個孩子識別交通事故。傳統(tǒng)方法相當于反復告訴他"這是事故,這不是事故",希望他自己歸納出規(guī)律。而VAU-R1采用的強化學習方法則像是在教學過程中不斷給予具體反饋:"你看對了,這確實是事故,因為車輛碰撞了";"你說的部分對,但時間點不準確";"你的解釋很有道理,但還可以更詳細一些"。
研究團隊使用了一種名為"群組相對策略優(yōu)化"(Group Relative Policy Optimization,簡稱GRPO)的強化學習方法。這聽起來很復雜,但其實原理很簡單:系統(tǒng)每次生成多個不同的答案,然后根據(jù)這些答案的質(zhì)量計算出獎勵分數(shù),并據(jù)此調(diào)整模型,讓它逐漸學會生成更好的答案。
具體來說,這個過程有點像烹飪比賽。想象一個廚師(模型)在學習如何烹飪一道新菜:
1. 廚師先嘗試做出幾個版本的菜肴(生成多個答案) 2. 評委(獎勵系統(tǒng))根據(jù)幾個方面給每個菜肴打分:是否遵循食譜(格式正確性)、味道是否符合預期(準確性)、擺盤是否精確(時間標注的準確性) 3. 廚師根據(jù)評分反饋調(diào)整自己的烹飪方法(更新模型參數(shù)) 4. 不斷重復這個過程,廚師的烹飪技能會越來越好(模型表現(xiàn)不斷提升)
VAU-R1設計了三種特定的獎勵規(guī)則來引導模型的學習:
首先是"格式獎勵",確保模型的回答符合預設的格式。就像你要求孩子在作業(yè)本上畫格子,答案必須寫在格子里一樣,這種規(guī)范能讓后續(xù)的評估更加方便。
其次是"準確性獎勵",用來評估模型的答案是否正確。這很好理解,就是檢查答案對不對。
最后是"時間交叉比獎勵"(Temporal IoU Reward),這是評估模型對異常事件發(fā)生時間段預測準確度的指標。想象你在看一段10分鐘的視頻,模型需要指出"異常發(fā)生在第3分鐘到第5分鐘",這個獎勵就是檢查模型預測的時間段與實際異常發(fā)生的時間段有多大的重合。
通過這種方式,VAU-R1能夠同時提升答案的準確性、時間定位的精確度和推理的連貫性,最終實現(xiàn)對視頻異常的全面理解。
二、VAU-Bench:首個視頻異常理解的思維鏈基準數(shù)據(jù)集
有了好的學習方法,還需要好的學習材料。就像你需要足夠多樣化的例子才能教會孩子識別各種交通事故一樣,人工智能系統(tǒng)也需要大量高質(zhì)量的標注數(shù)據(jù)才能學會視頻異常理解。
研究團隊構建了VAU-Bench基準數(shù)據(jù)集,這是第一個專門為視頻異常理解而設計的思維鏈(Chain-of-Thought)基準數(shù)據(jù)集。該數(shù)據(jù)集從三個公開數(shù)據(jù)集(MSAD、UCF-Crime和ECVA)整合而來,包含4,602個視頻,涵蓋19種主要異常類型,總時長達169.1小時。每個視頻都配有詳細的文本注釋,平均每個視頻有337個單詞的描述,包括詳細解釋、推理理由和多項選擇題。
這個數(shù)據(jù)集就像一本詳盡的教科書,不僅告訴你"這是什么",還解釋"為什么是這樣"。例如,對于一個偷竊場景,數(shù)據(jù)集不僅標注了"這是偷竊行為",還提供了詳細的分析:"兩個持槍男子在夜間闖入他人住宅,悠閑地在臥室搜尋物品,就像在超市購物一樣。整個過程被監(jiān)控攝像頭記錄下來。在拿走想要的物品后,兩人離開了住宅。"
VAU-Bench將視頻異常理解任務分解為四個階段:
第一階段是"感知",模型需要識別場景和相關物體,可以通過自由文本描述或引導式多項選擇題來實現(xiàn)。比如:"視頻中最明顯的異常跡象是什么?A.顧客與收銀員爭吵;B.超市環(huán)境中的突然破壞和混亂;C.入口附近起火;D.員工意外將現(xiàn)金掉在地上。"
第二階段是"定位",模型需要精確定位異常發(fā)生的時間段。例如,模型需要回答:"視頻中是否有異常?如果有,請回答'異常'并給出精確的異常時間段。如果沒有,請回答'正常'。"
第三階段是"推理",模型需要通過分析因果因素、時間動態(tài)和上下文線索來解釋事件。比如:"請解釋為什么會發(fā)生異常。"模型需要生成類似"異常發(fā)生是因為奧特曼和怪獸在超市中意外相撞,用混亂、不合時宜的戰(zhàn)斗行為打擾了正常環(huán)境"這樣的解釋。
第四階段是"結論",模型需要總結事件并做出最終判斷,如將事件歸類為特定類別(如打架與搶劫)。例如:"視頻中存在什么類型的異常?如果沒有異常,請回答'正常'。"
通過這四個階段的分解,VAU-Bench為模型提供了一個清晰的學習框架,使其能夠逐步建立對視頻異常的全面理解。
三、VAU-R1的優(yōu)越性:比較與實驗結果
那么,VAU-R1的表現(xiàn)如何呢?研究團隊進行了廣泛的實驗,比較了VAU-R1與現(xiàn)有方法在多項任務上的表現(xiàn)。
在多項選擇題任務中,VAU-R1在MSAD數(shù)據(jù)集上實現(xiàn)了87.08%的準確率(使用思維鏈),比基線模型提高了4.58%。在UCF-Crime數(shù)據(jù)集上,其準確率達到91.63%,提高了8.36%。這意味著,當面對"視頻中最明顯的異常跡象是什么?"這類問題時,VAU-R1能夠更準確地選出正確答案。
在時間異常定位任務中,VAU-R1在MSAD數(shù)據(jù)集上將平均交叉比(mIoU)提高到30.70%,在ECVA數(shù)據(jù)集上提高到33.25%。這表明,當被問到"異常發(fā)生在什么時間段?"時,VAU-R1能夠更精確地指出異常事件的開始和結束時間。
更重要的是,VAU-R1展示了出色的泛化能力。在跨數(shù)據(jù)集評估中(例如,在UCF-Crime數(shù)據(jù)集上作為分布外測試),VAU-R1保持了強大的性能,而傳統(tǒng)的監(jiān)督微調(diào)(SFT)方法表現(xiàn)出有限的泛化能力。這就像一個在北京學會識別交通事故的系統(tǒng),也能在上海正確識別交通事故,展示了真正的理解能力而非簡單記憶。
此外,研究團隊設計了一個名為VAU-Eval的評估指標,用于評估模型生成的異常推理質(zhì)量。VAU-Eval使用DeepSeek-V3大型語言模型作為評判,從五個維度評估推理質(zhì)量:分類準確性、關鍵概念對齊、語言流暢性、信息豐富性和事實一致性。在這一評估中,VAU-R1在MSAD數(shù)據(jù)集上獲得了33.38分(滿分50分),在UCF-Crime數(shù)據(jù)集上獲得了25.49分,遠高于傳統(tǒng)方法。
有趣的是,研究還發(fā)現(xiàn),不同任務之間存在互補效應。例如,時間異常定位(TAG)任務對異常分類任務有顯著幫助,使用TAG訓練的模型在思維鏈設置下實現(xiàn)了74.14%的二分類準確率和46.14%的多分類準確率。這表明,了解"異常發(fā)生在什么時候"有助于判斷"這是什么類型的異常"。
四、案例研究:VAU-R1的實際效果
為了更直觀地理解VAU-R1的效果,讓我們看幾個具體例子。
在多項選擇題任務中,當被問到"視頻中草地上躺著的人最可能的解釋是什么?"時,傳統(tǒng)的監(jiān)督微調(diào)(SFT)模型錯誤地選擇了"正常活動"的解釋,基于表面線索。而VAU-R1則正確地推斷出這是一個人摔倒的異常,通過識別姿勢和行為不規(guī)則性。這就像一個經(jīng)驗豐富的保安能看出一個人是在草地上休息,還是因為突發(fā)疾病倒下需要幫助。
在時間異常定位任務中,當被要求指出視頻中異常的時間段時,SFT模型只能輸出一個粗略的時間范圍(0.0-30.0秒),沒有提供理由。而VAU-R1不僅能更精確地定位異常(0.0-13.6秒),還提供了可解釋的因果鏈:"涉及一個高大的圓柱形結構...處于各種倒塌或破壞狀態(tài)...從視頻開始直到結構完全倒塌。"這就像一個專業(yè)調(diào)查員不僅能告訴你事故發(fā)生的確切時間,還能解釋事故的整個過程。
在異常推理任務中,當被要求解釋視頻中是否發(fā)生異常時,SFT模型錯誤地將場景描述為"政治爭論",而實際上是自動扶梯故障。它也未能提及任何關鍵視覺證據(jù)或相關位置。相比之下,VAU-R1生成了更符合上下文的回答,識別出地鐵站中的緊急情況,包括受傷人員和緊急車輛。盡管回答更多關注表面級別的緊急情況而非根本原因,但它展示了更好的流暢性和相關性。
這些例子清晰地展示了VAU-R1的優(yōu)勢:它能夠進行更深入的推理,提供更準確的時間定位,并生成更合理、更連貫的解釋。
五、VAU-R1的局限性與未來方向
盡管VAU-R1取得了顯著進展,但研究團隊也坦誠地指出了其局限性。
首先,當前研究主要關注了多項選擇題回答、時間定位、異常推理和異常分類四項任務,雖然這些任務為視頻異常理解奠定了堅實基礎,但仍有擴展空間。未來工作可以納入空間定位等額外任務,實現(xiàn)更精細的事件理解。例如,不僅知道"什么時候發(fā)生了搶劫",還能準確指出"誰是搶劫者,他站在哪里,拿走了什么物品"。
其次,當前的方法專注于視覺信息,但在實際應用中,音頻等其他模態(tài)可能提供補充線索。想象一下,在一個搶劫場景中,尖叫聲或破碎聲可能是重要的異常指標。未來的研究可以整合這些多模態(tài)信號,構建更全面的異常理解框架。
研究團隊還發(fā)現(xiàn),思維鏈(Chain-of-Thought)推理并不總是能提高視覺理解任務的性能。與數(shù)學或邏輯任務不同,視覺理解涉及固有多樣化的推理路徑。因此,設計更簡單的子任務和明確定義的獎勵信號來有效引導推理仍有待探索。直接應用復雜任務(如多分類異常分類)而不進行任務協(xié)同訓練往往會導致次優(yōu)結果。
總的來說,VAU-R1開創(chuàng)了視頻異常理解的新篇章,但要實現(xiàn)真正的人類水平理解,還有很長的路要走。
六、研究的潛在影響與應用
VAU-R1的研究不僅推進了學術前沿,還有廣泛的實際應用前景。
在智能城市和公共安全領域,準確、可解釋的異常理解系統(tǒng)可以協(xié)助監(jiān)控人員更快地識別潛在威脅,減少誤報,提高響應效率。例如,在擁擠的火車站,系統(tǒng)可以區(qū)分正常的人群擁擠和可能導致踩踏事故的異常擁擠,并解釋其判斷依據(jù)。
在醫(yī)療監(jiān)護領域,VAU-R1類似的系統(tǒng)可以監(jiān)測病人的異常行為,如摔倒或癲癇發(fā)作,并提供詳細的事件描述,幫助醫(yī)護人員做出更準確的診斷和治療決策。
在自動駕駛領域,理解道路上的異常事件(如交通事故、道路阻塞)對于安全導航至關重要。VAU-R1的方法可以幫助自動駕駛系統(tǒng)不僅檢測到異常,還能理解其性質(zhì)和潛在風險。
在災害預警系統(tǒng)中,能夠理解和解釋異常事件(如火災、洪水)的系統(tǒng)可以提供更有價值的預警信息,幫助相關部門做出更有效的應對措施。
最重要的是,VAU-R1的可解釋性使其成為人類-AI協(xié)作的理想工具。與其僅僅告訴人類操作員"檢測到異常",VAU-R1類似的系統(tǒng)可以提供詳細的解釋:"在超市的第三走道檢測到搶劫行為,因為一個戴口罩的人正在威脅收銀員,可能持有武器,時間是13:45到13:47。"這種詳細信息使人類能夠做出更明智的決策。
七、總結與展望
"看得見"和"看得懂"是兩個截然不同的能力層次。VAU-R1研究團隊通過結合強化學習和多模態(tài)大型語言模型,成功地將視頻異常檢測提升到了理解的層次。
通過引入VAU-R1框架和VAU-Bench基準數(shù)據(jù)集,研究團隊為視頻異常理解領域提供了堅實的基礎。VAU-R1在準確率、時間定位和推理連貫性方面的表現(xiàn)都明顯優(yōu)于傳統(tǒng)方法,特別是在跨數(shù)據(jù)集泛化能力上展現(xiàn)出色表現(xiàn)。
未來的研究方向包括整合更多模態(tài)信息、擴展到更復雜的任務、設計更有效的推理獎勵信號,以及探索更強大的多步推理框架。隨著這些進展,我們有理由期待未來的視頻監(jiān)控系統(tǒng)不僅能告訴我們"發(fā)生了什么",還能解釋"為什么發(fā)生"以及"可能會怎樣發(fā)展"。
對于普通人來說,這項研究意味著未來的安全系統(tǒng)將變得更加智能和人性化。它們不僅能夠檢測潛在威脅,還能提供清晰的解釋,幫助我們更好地理解和應對復雜的安全情境。在一個越來越依賴自動化系統(tǒng)的世界里,像VAU-R1這樣兼具高性能和可解釋性的技術,將成為連接人工智能和人類理解的重要橋梁。
好文章,需要你的鼓勵
新加坡國立大學研究團隊開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實驗顯示,僅訓練AI玩簡單撲克游戲就能讓其數(shù)學推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學題目作為訓練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學解題中,為AI訓練提供了新思路。
同濟大學團隊開發(fā)的GIGA-ToF技術通過融合多幀圖像的"圖結構"信息,創(chuàng)新性地解決了3D相機噪聲問題。該技術利用圖像間的不變幾何關系,結合深度學習和數(shù)學優(yōu)化方法,在合成數(shù)據(jù)集上實現(xiàn)37.9%的精度提升,并在真實設備上展現(xiàn)出色泛化能力,為機器人、AR和自動駕駛等領域提供更可靠的3D視覺解決方案。
伊利諾伊大學研究團隊通過對比實驗發(fā)現(xiàn),經(jīng)過強化學習訓練的視覺語言模型雖然表現(xiàn)出"頓悟時刻"現(xiàn)象,但這些自我糾錯行為并不能實際提升推理準確率。研究揭示了AI模型存在"生成-驗證差距",即生成答案的能力強于驗證答案質(zhì)量的能力,且模型在自我驗證時無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機構聯(lián)合提出SparseLoRA技術,通過動態(tài)稀疏性實現(xiàn)大語言模型訓練加速1.6倍,計算成本降低2.2倍。該方法使用SVD稀疏性估計器智能選擇重要計算部分,在保持模型性能的同時顯著提升訓練效率,已在多個任務上驗證有效性。