在這個短視頻橫行的時代,AI看懂幾秒鐘的視頻片段已經(jīng)不算什么新鮮事了。但是,讓AI準確理解一段長達幾分鐘甚至幾十分鐘的視頻,并且能夠精確回答"在第30秒的時候,那只紅色的狗做了什么"這樣的問題,這可就是個技術難題了。華南理工大學的研究團隊最近在這個領域取得了重要突破,他們開發(fā)出一個名為"Grounded-VideoDiT"的AI系統(tǒng),讓機器具備了像人類一樣精細理解長視頻的能力。
這項由華南理工大學的方鵬程、陳雨霞和郭瑞等研究人員領導的研究成果,發(fā)表在2025年8月的《IEEE計算機視覺與模式識別會議論文集》上。對于想要深入了解技術細節(jié)的讀者,可以通過論文編號arXiv:2508.15641v1訪問完整的研究報告。這項研究之所以引人注目,是因為它解決了當前AI視頻理解中的一個關鍵問題:如何讓機器不僅能看懂視頻在說什么,還能準確知道每個事件發(fā)生的具體時間,并且能夠持續(xù)跟蹤視頻中的特定物體。
目前的AI視頻理解系統(tǒng)就像一個看電影時經(jīng)常走神的觀眾。它們可能知道電影的大概情節(jié),但如果你問它們"主角在電影開始后第15分鐘做了什么",或者"那輛紅色汽車最后去了哪里",它們往往給不出準確答案。這是因為現(xiàn)有的AI系統(tǒng)在處理長視頻時存在三個核心問題:首先,它們對時間的感知比較模糊,就像一個沒有手表的人很難準確說出具體時間;其次,它們很難持續(xù)跟蹤視頻中的特定物體,經(jīng)常會把不同的物體搞混;最后,它們在理解視頻內(nèi)容與文字描述之間的精確對應關系方面還不夠準確。
華南理工大學的研究團隊意識到,要解決這些問題,就需要重新設計AI理解視頻的方式。他們的解決方案可以比作為AI配備了一副高精度的"時間眼鏡"、一個專門的"物體追蹤雷達",以及一套精密的"語言-視覺對照表"。通過這三樣"裝備",AI就能像一個專業(yè)的電影評論家一樣,不僅能理解電影的內(nèi)容,還能準確記住每個細節(jié)發(fā)生的時間,并且始終清楚地知道畫面中每個角色和物體的動向。
一、像預測天氣一樣理解視頻時間變化
要讓AI精確理解視頻中的時間變化,研究團隊借鑒了一個意想不到的靈感來源:天氣預報系統(tǒng)中的擴散模型。這聽起來可能有些奇怪,但實際上非常巧妙。天氣預報需要分析大氣中無數(shù)微小變化如何隨時間演進,而視頻理解同樣需要捕捉畫面中細微變化如何在時間軸上展開。
擴散模型的工作原理就像一個反向的"畫面模糊過程"。正如你在有霧的早晨看風景,霧氣會讓清晰的畫面變得模糊,而擴散模型則是從模糊的畫面開始,逐步"去霧"直到看清真實場景。在視頻理解中,研究團隊讓AI先對視頻幀添加"人工噪聲"(相當于人為制造霧氣),然后訓練AI學會去除這些噪聲。這個過程讓AI學會了識別視頻中哪些變化是真正有意義的時間變化,哪些只是無關緊要的隨機波動。
這種方法的巧妙之處在于,當AI學會了從模糊畫面中恢復清晰圖像的過程,它實際上也學會了理解畫面變化的內(nèi)在規(guī)律。就像一個經(jīng)驗豐富的氣象學家能夠從云彩的細微變化預測未來天氣一樣,經(jīng)過訓練的AI可以從視頻的微小變化中準確把握事件發(fā)生的時間節(jié)點。研究團隊將這個創(chuàng)新的模塊稱為"擴散時間潛在編碼器"(DTL),它能夠生成一系列專門描述時間變化的特征信號,這些信號就像視頻的"時間指紋",能夠幫助AI精確定位每個事件的發(fā)生時刻。
傳統(tǒng)的AI視頻理解系統(tǒng)通常只是簡單地為每一幀畫面打上時間戳,這就像給每張照片寫上拍攝時間一樣粗糙。而新的擴散時間編碼器能夠理解幀與幀之間的連續(xù)變化關系,它能夠感知到"這一幀相比上一幀發(fā)生了什么樣的變化",從而構建出更加精細的時間理解能力。這種差異就像傳統(tǒng)方法只能告訴你"這是第10秒",而新方法能夠理解"從第9秒到第10秒之間發(fā)生了什么具體的變化過程"。
二、給AI裝上專門的物體跟蹤雷達
理解長視頻的另一個關鍵挑戰(zhàn)是持續(xù)跟蹤視頻中的特定物體。這就像在擁擠的人群中始終跟著你的朋友一樣困難,特別是當視頻場景復雜、物體經(jīng)常被遮擋或者視角發(fā)生變化時。研究團隊為此開發(fā)了一套創(chuàng)新的"實體感知分割"系統(tǒng),可以把它想象成給AI配備了一個專業(yè)的物體跟蹤雷達。
這個跟蹤系統(tǒng)的工作流程非常有趣。當用戶提出一個關于視頻的問題時,比如"那只紅色的狗什么時候碰到了飛盤?",AI首先會像一個語言專家一樣分析這個問題,提取出關鍵的名詞——在這個例子中就是"狗"和"飛盤"。這個過程就像給AI提供了一個"尋找清單",明確告訴它需要在視頻中尋找什么物體。
接下來,AI會使用一個叫做"Grounded-SAM2"的高級視覺識別工具,這個工具就像一個經(jīng)驗豐富的野生動物觀察員,能夠在復雜的畫面中準確識別和定位特定物體。但僅僅識別還不夠,更重要的是要能夠持續(xù)跟蹤。為了確保跟蹤的準確性,研究團隊設計了一個巧妙的"AND門"機制。這個機制要求所有相關物體都必須同時出現(xiàn)在畫面中,并且這種狀態(tài)必須持續(xù)一定時間,AI才開始正式的跟蹤過程。這就像拍攝野生動物時,攝影師會等待所有目標動物都進入鏡頭并保持穩(wěn)定狀態(tài)后才開始記錄。
一旦開始跟蹤,AI就會為每個物體創(chuàng)建一個獨特的"身份檔案",包含該物體的視覺特征、形狀輪廓、顏色信息等。這些檔案會隨著視頻的播放不斷更新,就像維護一份動態(tài)的個人檔案一樣。即使物體暫時被遮擋或者改變了角度,AI也能夠根據(jù)這些檔案重新識別和定位它們。這種跟蹤能力讓AI能夠回答諸如"紅色的車在整個視頻中的行駛路線"這樣復雜的問題。
三、創(chuàng)造AI專屬的混合語言系統(tǒng)
為了讓AI能夠同時處理視頻圖像、時間信息和文字描述,研究團隊開發(fā)了一套創(chuàng)新的"混合標記策略"。這個策略的核心思想是創(chuàng)造一種AI專屬的混合語言,讓AI能夠在同一個思維過程中同時理解文字、圖像和時間概念。
這種混合語言系統(tǒng)就像一個多功能的翻譯器。在傳統(tǒng)的AI系統(tǒng)中,文字、圖像和時間信息往往被分別處理,就像三個不同的人在用不同的語言交流,互相理解起來非常困難。而新的混合標記系統(tǒng)將這三種信息轉(zhuǎn)換成統(tǒng)一的"AI語言",讓它們能夠在同一個對話中無縫交流。
具體來說,這個系統(tǒng)會將普通的文字轉(zhuǎn)換成標準的文字標記,將視頻畫面轉(zhuǎn)換成視覺標記,將時間信息轉(zhuǎn)換成時間標記,將物體跟蹤信息轉(zhuǎn)換成物體標記。更巧妙的是,它還引入了一些特殊的標記符號,比如用"<24>"這樣的符號來精確表示第24秒的時間點,用"<dog>"這樣的符號來標記狗這個物體。這樣,AI在處理一個問題時,就能夠同時"看到"相關的畫面內(nèi)容、理解對應的時間節(jié)點、識別涉及的物體,并且將這些信息與問題中的文字描述進行精確匹配。
這種混合語言的優(yōu)勢在于它能夠支持非常精細的時間推理。傳統(tǒng)的AI可能只能給出"狗在視頻中追逐飛盤"這樣的籠統(tǒng)回答,而使用混合標記系統(tǒng)的AI能夠給出"狗在第24秒首次碰到飛盤,然后在第48秒到第72秒之間一直叼著飛盤跑動"這樣精確的回答。這種精確性對于需要詳細分析視頻內(nèi)容的應用場景非常重要,比如體育比賽分析、安防監(jiān)控、醫(yī)療診斷等領域。
四、訓練一個視頻理解專家
要讓AI掌握這些復雜的技能,研究團隊采用了一種類似培養(yǎng)專業(yè)醫(yī)生的訓練方法。就像醫(yī)學院學生需要先學習基礎理論,再通過大量臨床實踐逐步成為專家一樣,AI也需要經(jīng)過系統(tǒng)的訓練過程。
訓練過程的第一階段是"基礎知識學習"。研究團隊使用了一個已經(jīng)具備強大語言理解能力的AI模型作為基礎,這個模型叫做Phi-3.5-Vision-Instruct,相當于一個已經(jīng)掌握了語言和基礎視覺理解能力的"AI大學生"。在這個基礎上,團隊開始教授它專門的視頻理解技能。
訓練的核心策略是使用"低秩適應"(LoRA)技術,這種技術的巧妙之處在于它不會完全改變AI原有的知識結構,而是在保持原有能力的基礎上增加新的專業(yè)技能。這就像給一個已經(jīng)掌握多種語言的翻譯官教授一種新的專業(yè)術語,而不需要讓他重新學習整個語言系統(tǒng)。這種方法不僅效率更高,而且能夠避免新技能與原有能力之間的沖突。
為了確保訓練效果,研究團隊還開發(fā)了一套特殊的"特征對齊"機制。這個機制使用了一種叫做KL散度的數(shù)學工具,它的作用是確保AI在學習新的視頻理解能力時,新技能與已有的視覺理解能力保持一致性。這就像確保一個學習新樂器的音樂家不會忘記原來掌握的音樂理論一樣。通過這種對齊機制,AI能夠更穩(wěn)定地整合各種技能,避免出現(xiàn)技能之間相互干擾的問題。
整個訓練過程使用了先進的AdamW優(yōu)化算法,采用余弦學習率調(diào)度策略,在8塊H800 GPU上進行了3個完整周期的訓練。訓練數(shù)據(jù)包括了大量的長視頻樣本,每個視頻都被采樣成96幀,并分成12個時間段進行處理。這種精心設計的訓練過程確保了AI能夠在保持原有語言理解能力的基礎上,獲得強大的視頻時間推理和物體跟蹤能力。
五、在真實世界中檢驗AI的視頻理解能力
為了驗證這套AI系統(tǒng)的實際效果,研究團隊進行了一系列嚴格的測試,這些測試可以比作給AI進行"駕照考試",涵蓋了各種復雜的視頻理解場景。
第一類測試被稱為"時間視頻定位",就像考驗AI能否準確回答"某個特定事件在視頻中的什么時候發(fā)生"。研究團隊使用了兩個著名的測試數(shù)據(jù)集:Charades-STA和DiDeMo。在Charades-STA測試中,AI需要觀看日常生活場景的視頻,然后回答諸如"人物拿起杯子的具體時間段"這樣的問題。測試結果顯示,新的AI系統(tǒng)在精確定位方面表現(xiàn)優(yōu)異,平均定位準確度(mIoU)達到了39.5分,相比之前的最佳系統(tǒng)提升了約3分。更重要的是,在最嚴格的測試條件下(要求定位精度達到70%以上),新系統(tǒng)的成功率達到了21.0%,比之前的最佳系統(tǒng)高出約6個百分點。
第二類測試是"有根據(jù)的視頻問答",這類測試不僅要求AI回答問題,還要求它能夠指出答案的具體依據(jù)在視頻的哪個位置。這就像要求學生不僅要給出答案,還要說明推理過程和證據(jù)來源。在NExT-GQA數(shù)據(jù)集上的測試結果顯示,新系統(tǒng)在這類任務上的綜合得分達到了28.4分,超過了之前的最佳系統(tǒng)。特別值得注意的是,在證據(jù)定位準確性方面,新系統(tǒng)表現(xiàn)尤為突出,能夠準確指出答案依據(jù)所在的時間段。
第三類測試是"開放式視頻問答",這是最具挑戰(zhàn)性的測試類型,因為問題和答案都沒有固定格式,完全模擬真實世界中人們對視頻內(nèi)容的各種疑問。在NExT-QA等多個數(shù)據(jù)集上的測試結果顯示,新系統(tǒng)在各類問題上都表現(xiàn)優(yōu)秀,總體準確率達到了56.9%,在時間推理、因果關系理解、計數(shù)和實體關系等各個方面都超越了現(xiàn)有的最佳系統(tǒng)。
為了更直觀地展示系統(tǒng)能力,研究團隊還進行了一些實際應用場景的演示。比如,給AI播放一段小孩騎紅色自行車的視頻,然后問"小孩什么時候經(jīng)過那棵樹并出現(xiàn)在開闊路面上?"傳統(tǒng)AI系統(tǒng)的回答往往比較模糊或者不準確,而新系統(tǒng)能夠給出精確的回答:"小孩從32.0秒到58.0秒騎車經(jīng)過那棵樹。"這種精確度對于需要詳細視頻分析的應用場景,如體育賽事分析、安防監(jiān)控、教學視頻制作等,具有重要的實用價值。
六、深入剖析:AI系統(tǒng)的關鍵創(chuàng)新點
為了更好地理解這套AI系統(tǒng)的創(chuàng)新之處,研究團隊進行了詳細的"解剖分析",逐一驗證每個組件的作用效果。這個過程就像汽車工程師逐一測試發(fā)動機、剎車系統(tǒng)、導航系統(tǒng)的性能一樣,確保每個部件都發(fā)揮最佳效果。
首先是擴散時間潛在編碼器(DTL)的效果驗證。研究團隊通過對比實驗發(fā)現(xiàn),加入這個組件后,AI在精確時間定位方面的能力顯著提升。具體表現(xiàn)為在最嚴格的定位精度要求下(R@0.7指標),性能從19.7%提升到21.0%,這個提升雖然看似微小,但在AI領域代表著相當顯著的進步。這說明擴散模型確實能夠幫助AI更好地理解視頻中的時間變化規(guī)律。
其次是物體分割跟蹤系統(tǒng)的貢獻分析。當研究團隊在基礎系統(tǒng)上加入物體級分割和跟蹤功能后,AI在處理多物體場景時的準確率明顯提升。特別是在需要區(qū)分不同物體并回答相關問題時,新系統(tǒng)的錯誤率大幅降低。這證明了專門的物體跟蹤機制對于復雜視頻理解的重要性。
混合標記策略的效果也得到了驗證。研究團隊發(fā)現(xiàn),當AI能夠同時處理文字、視覺、時間和物體信息時,它在復雜推理任務上的表現(xiàn)最佳。但有趣的是,標記數(shù)量的平衡非常重要:使用4個物體標記和8個時間標記能夠達到最佳的性能平衡,既保證了理解精度,又維持了合理的計算效率。標記過多會導致信息冗余和計算負擔,標記過少則無法提供足夠的細節(jié)信息。
研究團隊還特別測試了擴散模型的參數(shù)設置。他們發(fā)現(xiàn),使用4步去噪過程、余弦調(diào)度策略和1.0的引導強度能夠達到最佳效果。這些看似技術性的細節(jié)實際上對系統(tǒng)性能有著重要影響,就像調(diào)音師需要精確調(diào)節(jié)每個音符的音高和時長才能創(chuàng)造出完美的和聲一樣。
七、展望未來:AI視頻理解的更廣闊天地
這項研究的成功不僅解決了當前AI視頻理解中的關鍵問題,更重要的是為未來的發(fā)展指明了方向??梢灶A見,這種精確的視頻時間理解能力將在多個領域產(chǎn)生深遠影響。
在教育領域,這項技術可以幫助開發(fā)更智能的在線學習平臺。設想一下,學生在觀看教學視頻時可以隨時提問"老師在第幾分鐘解釋了這個公式?"或者"實驗的關鍵步驟出現(xiàn)在什么時候?"AI助手能夠立即給出精確的時間定位和詳細解答,讓學習變得更加高效和個性化。
在安防監(jiān)控領域,這項技術的應用前景更加廣闊。傳統(tǒng)的監(jiān)控系統(tǒng)只能記錄視頻,需要人工花費大量時間查找關鍵信息。而具備精確時間理解能力的AI可以自動分析監(jiān)控錄像,快速定位特定事件發(fā)生的時間,識別可疑行為的詳細過程,甚至預測潛在風險。這將大大提升安防系統(tǒng)的效率和可靠性。
在醫(yī)療診斷領域,這項技術也有著重要應用價值。醫(yī)生在分析手術錄像或醫(yī)療影像時,AI可以幫助精確定位關鍵診斷信息出現(xiàn)的時間點,分析病變發(fā)展的時間進程,為醫(yī)療決策提供更準確的依據(jù)。
體育分析是另一個充滿潛力的應用方向。教練和分析師可以利用這項技術詳細分析比賽錄像,精確找到每個戰(zhàn)術執(zhí)行的時間點,分析運動員在不同時間段的表現(xiàn)變化,為訓練和比賽策略制定提供科學依據(jù)。
娛樂產(chǎn)業(yè)同樣可以從這項技術中受益。視頻制作者可以使用AI助手快速定位素材中的特定內(nèi)容,自動生成視頻摘要和精彩片段,大大提升內(nèi)容創(chuàng)作的效率。觀眾也可以通過自然語言查詢快速找到感興趣的視頻片段,享受更加個性化的觀看體驗。
當然,這項技術的發(fā)展還面臨一些挑戰(zhàn)。如何處理更加復雜的多人多物體場景,如何在保持精確度的同時提升處理速度,如何適應不同類型和風格的視頻內(nèi)容,這些都是需要進一步研究和改進的方向。
另外,隨著技術的不斷完善,我們也需要考慮相關的倫理和隱私問題。強大的視頻理解能力可能被用于過度監(jiān)控或侵犯隱私的場景,因此在技術發(fā)展的同時,建立相應的使用規(guī)范和倫理準則同樣重要。
總體而言,華南理工大學團隊的這項研究為AI視頻理解領域開啟了一個新的章節(jié)。它證明了通過巧妙地結合擴散模型、物體跟蹤和多模態(tài)融合技術,AI可以獲得前所未有的視頻理解能力。這不僅是技術上的突破,更是向著真正智能的視頻理解系統(tǒng)邁出的重要一步。隨著這項技術的進一步發(fā)展和完善,我們有理由相信,AI將能夠像人類一樣自如地理解和分析各種復雜的視頻內(nèi)容,為我們的生活和工作帶來更多便利和可能性。
對于普通人來說,這項技術的發(fā)展意味著我們很快就能擁有一個真正理解視頻內(nèi)容的AI助手。無論是查找家庭錄像中的特殊時刻,分析在線課程的重點內(nèi)容,還是快速瀏覽長時間的會議錄像,AI都能夠提供精確、高效的幫助。這將讓我們與視頻內(nèi)容的互動方式發(fā)生根本性改變,從被動的觀看者變成主動的內(nèi)容探索者。
這項突破性研究的詳細技術內(nèi)容已經(jīng)公開發(fā)表,感興趣的讀者可以通過arXiv:2508.15641v1獲取完整的研究論文,深入了解其中的技術細節(jié)和創(chuàng)新思路。隨著更多研究者在這個基礎上繼續(xù)探索和改進,我們可以期待AI視頻理解技術在不久的將來實現(xiàn)更大的突破,為數(shù)字化時代的視頻應用開創(chuàng)更加廣闊的前景。
Q&A
Q1:Grounded-VideoDiT是什么?它有什么特別之處?
A:Grounded-VideoDiT是華南理工大學開發(fā)的AI視頻理解系統(tǒng),它的特別之處在于能夠像人類一樣精確理解長視頻內(nèi)容,不僅能回答視頻講了什么,還能準確告訴你每個事件發(fā)生在第幾秒,并且可以持續(xù)跟蹤視頻中的特定物體,這是目前其他AI系統(tǒng)很難做到的。
Q2:擴散時間潛在編碼器是如何幫助AI理解視頻時間的?
A:這個編碼器借鑒了天氣預報中的擴散模型原理,通過先給視頻畫面添加"人工噪聲"然后學會去除噪聲的過程,讓AI學會識別視頻中真正有意義的時間變化。就像從模糊的畫面中逐步看清細節(jié)一樣,AI因此獲得了精確把握事件發(fā)生時間的能力。
Q3:這項技術在日常生活中有什么實際用途?
A:這項技術的應用前景很廣泛。在教育方面,可以幫助學生快速找到教學視頻中的關鍵知識點;在安防監(jiān)控中,能自動分析錄像并精確定位可疑事件發(fā)生時間;在娛樂領域,觀眾可以通過自然語言快速搜索視頻中的精彩片段;在醫(yī)療診斷中,可以幫助醫(yī)生精確分析手術錄像和醫(yī)療影像。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結合大語言模型的敘事推理能力與音頻生成技術,通過交錯式推理生成、解耦橋接機制和漸進式訓練,能夠?qū)碗s指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學聯(lián)合研發(fā)的VideoJAM技術,通過讓AI同時學習外觀和運動信息,顯著解決了當前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術僅需添加兩個線性層就能大幅提升運動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實用化應用奠定了重要基礎。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓練數(shù)據(jù)集和MM-AlignBench評測基準,通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預報,準確性超越傳統(tǒng)方法90%的指標。該模型采用圖神經(jīng)網(wǎng)絡技術,通過學習40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學領域帶來了效率和精度的雙重突破。