av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 延慶大學聯(lián)合多家機構(gòu)發(fā)布視頻大模型加速新技術(shù):讓AI看視頻快三倍不掉鏈子

延慶大學聯(lián)合多家機構(gòu)發(fā)布視頻大模型加速新技術(shù):讓AI看視頻快三倍不掉鏈子

2025-07-21 09:12
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-07-21 09:12 ? 科技行者

這項由延慶大學金勝卓教授團隊聯(lián)合卡內(nèi)基梅隆大學、NAVER Cloud和Adobe研究院共同完成的研究發(fā)表于2025年7月,論文標題為"Multi-Granular Spatio-Temporal Token Merging for Training-Free Acceleration of Video LLMs"。有興趣深入了解的讀者可以通過arXiv:2507.07990訪問完整論文。

當我們用ChatGPT這樣的AI助手分析一段視頻時,背后發(fā)生了什么?就像一個人要理解一部電影,需要逐幀觀看每個畫面一樣,AI也需要把視頻切分成無數(shù)個小片段來分析。但這里有個大問題:視頻包含的信息量實在太龐大了。一個一小時的視頻可能需要AI處理數(shù)萬個"小片段"(專業(yè)術(shù)語叫"token"),這就像讓一個人同時記住一萬張照片的所有細節(jié)一樣困難。

更要命的是,處理這些片段的計算量會呈指數(shù)級增長。如果有一千個片段需要處理,那么計算量可能達到一千的平方,也就是一百萬倍的復雜度。這就好比你要整理一千張照片,不僅要看每張照片,還要把每張照片都和其他所有照片做比較,工作量瞬間爆炸。

現(xiàn)在,研究團隊找到了一個巧妙的解決方案,他們開發(fā)了一種叫做"多粒度時空token合并"的技術(shù)。這個技術(shù)的核心思想就像整理家里的物品一樣:把相似的東西歸類放在一起,沒必要每個小物件都單獨占用一個柜子。

這項技術(shù)的創(chuàng)新之處在于它能夠識別視頻中的冗余信息。想象你在看一部電影,其中有一個場景是主人公在海邊靜靜地坐著,鏡頭持續(xù)了十秒鐘。在這十秒鐘里,除了海浪輕微的波動,背景幾乎沒有變化。傳統(tǒng)的AI需要把這十秒鐘的每一幀都當作全新的信息來處理,而新技術(shù)能夠識別出這些幀之間的相似性,將它們合并成一個"超級幀"來處理。

研究團隊采用了一個分層處理的策略,就像搭積木一樣從粗到細。首先,他們使用一種叫做"四叉樹"的數(shù)據(jù)結(jié)構(gòu)來分析每一幀畫面。這個過程就像用放大鏡看一幅畫:先看整體,如果發(fā)現(xiàn)某個區(qū)域比較單調(diào)(比如一大片藍天),就用一個粗糙的描述來代表;如果發(fā)現(xiàn)某個區(qū)域很復雜(比如人物的面部表情),就用更精細的描述來保留細節(jié)。

在空間維度上,技術(shù)會智能地決定畫面的哪些部分需要精細處理,哪些部分可以粗糙處理。就像你在畫素描時,重要的部分會畫得很細致,而背景可能只用幾筆帶過。這樣既保證了重要信息不丟失,又大大減少了需要處理的數(shù)據(jù)量。

在時間維度上,技術(shù)會比較相鄰幀之間的相似性。如果發(fā)現(xiàn)連續(xù)幾幀的某個區(qū)域基本沒有變化,就會將這些信息合并到最早出現(xiàn)的那一幀中。這就像寫日記時,如果連續(xù)幾天都是同樣的天氣,你可能會寫"這一周都是晴天"而不是每天都重復寫一遍"今天晴天"。

這種合并策略帶來了顯著的性能提升。在實驗中,當AI需要處理的數(shù)據(jù)量減少到原來的一半時,新技術(shù)能夠讓處理速度提升兩倍,而準確率只下降了0.5%。當數(shù)據(jù)量減少到原來的30%時,速度提升了三倍,準確率也只下降了2%。這就好比你原來需要看一萬張照片來理解一個故事,現(xiàn)在只需要看三千張就能理解同樣的內(nèi)容,而且理解的準確度幾乎沒有下降。

更重要的是,這項技術(shù)具有一個獨特的優(yōu)勢:它不需要知道用戶要問什么問題就能進行優(yōu)化。傳統(tǒng)的方法需要根據(jù)具體的問題來決定保留哪些信息,這就像一個圖書管理員必須知道讀者要找什么書才能整理書架。而新技術(shù)能夠提前整理好信息,不管用戶問什么問題都能快速響應(yīng)。這種特性使得同一個視頻的處理結(jié)果可以被重復使用,大大提高了實際應(yīng)用中的效率。

研究團隊在六個不同的視頻問答數(shù)據(jù)集上測試了他們的技術(shù)。這些數(shù)據(jù)集涵蓋了各種類型的視頻:有短視頻(幾分鐘),有長視頻(一小時以上),還有特殊的"大海撈針"類型視頻。所謂"大海撈針",就是在很長的視頻中隱藏一些微小但重要的信息,測試AI是否能夠準確找到這些信息。

在短視頻任務(wù)中,新技術(shù)表現(xiàn)出色,能夠準確理解視頻內(nèi)容并回答相關(guān)問題。在長視頻任務(wù)中,技術(shù)的優(yōu)勢更加明顯,因為長視頻中往往包含更多的冗余信息,為合并提供了更大的空間。最令人印象深刻的是在"大海撈針"任務(wù)中的表現(xiàn):當其他方法的準確率大幅下降時,新技術(shù)仍能保持相對較高的準確率,這說明它在壓縮數(shù)據(jù)的同時能夠很好地保留關(guān)鍵信息。

技術(shù)的實現(xiàn)細節(jié)也很有趣。在空間合并階段,系統(tǒng)會計算圖像塊之間的相似度,如果相似度超過某個閾值,就會將它們合并。這個過程就像玩拼圖游戲,當你發(fā)現(xiàn)兩塊拼圖的顏色和紋理非常相似時,就知道它們可能屬于同一個區(qū)域。

在時間合并階段,系統(tǒng)會跨時間比較相同空間位置的內(nèi)容。如果發(fā)現(xiàn)某個區(qū)域在連續(xù)幾幀中都很相似,就會建立一個"合并鏈",將后面的幀都合并到最早的幀中。這就像追蹤一個物體的運動軌跡,當發(fā)現(xiàn)物體在某個時間段內(nèi)基本靜止時,就用一個狀態(tài)來描述這整個時間段。

研究團隊還解決了一個技術(shù)難題:如何處理不同精度級別的信息合并。有時候,某個區(qū)域在前一幀中用粗糙的描述就夠了,但在后一幀中需要精細的描述,或者相反。這就像兩個人在描述同一個場景,一個人說"那里有棵樹",另一個人說"那里有一棵長滿綠葉的大橡樹"。系統(tǒng)需要決定如何將這兩種不同精度的描述合并起來。

為了解決這個問題,研究團隊采用了一種簡化的策略:當出現(xiàn)多個可能的合并目標時,系統(tǒng)會選擇位置最靠左上角的那個目標。雖然這不是最理想的選擇,但它能夠保證算法的效率,而且在實際應(yīng)用中效果很好。

這項技術(shù)的另一個創(chuàng)新點是它不需要重新訓練AI模型。傳統(tǒng)的優(yōu)化方法通常需要對整個AI系統(tǒng)進行重新訓練,這個過程既耗時又昂貴。新技術(shù)是一個"即插即用"的模塊,可以直接插入現(xiàn)有的AI系統(tǒng)中,就像給電腦安裝一個新的軟件一樣簡單。

研究團隊還驗證了技術(shù)在不同規(guī)模AI模型上的效果。他們測試了從70億參數(shù)到720億參數(shù)的各種模型,發(fā)現(xiàn)新技術(shù)在所有規(guī)模上都能帶來顯著的性能提升。這說明技術(shù)的適用性很廣,不僅適用于小型模型,也適用于大型模型。

在實際部署方面,這項技術(shù)特別適合視頻聊天機器人這樣的應(yīng)用場景。當用戶上傳一個視頻并想要進行多輪對話時,系統(tǒng)只需要在第一次處理時進行token合并,之后的所有問題都可以基于這個壓縮后的表示來快速回答。這就像先把一本厚厚的書整理成一個詳細的目錄,之后不管讀者問什么問題,都能快速找到相關(guān)章節(jié)。

技術(shù)的可視化效果也很有說服力。研究團隊展示了合并前后的對比圖,可以清楚地看到系統(tǒng)是如何智能地保留重要信息而合并冗余信息的。比如,在一個視頻畫面中,人物面部被保留了很多細節(jié),而背景的大片天空被合并成了幾個大塊。這種選擇性的處理方式體現(xiàn)了技術(shù)的智能性。

從更廣泛的角度來看,這項技術(shù)解決了當前視頻AI面臨的一個關(guān)鍵瓶頸。隨著視頻內(nèi)容的增長和AI應(yīng)用的普及,如何高效處理視頻數(shù)據(jù)成為了一個越來越重要的問題。這項技術(shù)提供了一個實用的解決方案,既能保證處理質(zhì)量,又能顯著提高處理速度。

值得注意的是,這項技術(shù)在不同類型的視頻上表現(xiàn)差異很大。對于內(nèi)容變化較少的視頻(比如新聞播報),技術(shù)能夠?qū)崿F(xiàn)很高的壓縮比而幾乎不損失準確性。但對于內(nèi)容變化很快的視頻(比如動作片),壓縮比會相對較低,但仍然能夠帶來顯著的性能提升。

研究團隊還發(fā)現(xiàn),技術(shù)在處理長視頻時的優(yōu)勢特別明顯。這是因為長視頻中通常包含更多的重復內(nèi)容和冗余信息,為合并提供了更大的空間。這個發(fā)現(xiàn)對于未來的視頻AI應(yīng)用具有重要意義,因為用戶上傳的視頻往往越來越長。

技術(shù)的另一個優(yōu)勢是它對不同類型的AI模型都有效。研究團隊測試了多種主流的視頻AI模型,包括LLaVA-Video、LLaVA-OneVision和Qwen2VL等,發(fā)現(xiàn)新技術(shù)在所有這些模型上都能帶來一致的性能提升。這種通用性使得技術(shù)的應(yīng)用前景更加廣闊。

從實施角度來看,這項技術(shù)的部署相對簡單。它不需要對現(xiàn)有的AI系統(tǒng)進行大幅修改,只需要在適當?shù)奈恢貌迦牒喜⒛K即可。這種設(shè)計使得技術(shù)能夠快速被現(xiàn)有的AI服務(wù)提供商采用,加速整個行業(yè)的發(fā)展。

說到底,這項技術(shù)的本質(zhì)是一種智能的信息壓縮方法。它能夠在保持信息完整性的同時顯著減少計算負擔,這對于視頻AI的實際應(yīng)用具有重要價值。隨著視頻內(nèi)容的爆炸式增長和AI應(yīng)用的普及,這類技術(shù)將變得越來越重要。

歸根結(jié)底,這項研究展示了如何通過智能算法設(shè)計來解決實際工程問題。它不僅提供了一個具體的解決方案,還為未來的相關(guān)研究提供了有價值的思路。對于普通用戶來說,這意味著未來的視頻AI應(yīng)用會變得更快、更便宜,同時保持高質(zhì)量的服務(wù)。這種技術(shù)進步最終會惠及每一個使用AI產(chǎn)品的人,讓我們能夠更好地利用人工智能來理解和處理視頻內(nèi)容。

Q&A

Q1:這個新技術(shù)具體是怎么讓AI處理視頻變快的? A:就像整理房間一樣,技術(shù)把視頻中相似的畫面和重復的內(nèi)容"打包"在一起處理,而不是每個細節(jié)都單獨分析。比如一段十秒鐘的海灘靜景,傳統(tǒng)方法要分析300幀畫面,新技術(shù)可能只需要分析幾十幀就夠了,自然就快了。

Q2:這種加速會不會影響AI理解視頻的準確性? A:影響很小。實驗顯示,即使處理速度提升2-3倍,準確率也只下降0.5-2%。這就像看電影時跳過一些重復鏡頭,你仍然能完整理解故事情節(jié)。關(guān)鍵信息都被保留了,只是去掉了冗余內(nèi)容。

Q3:普通人能用到這項技術(shù)嗎?什么時候能用上? A:這項技術(shù)主要面向AI開發(fā)者和服務(wù)提供商,普通用戶不需要直接使用。但當視頻AI應(yīng)用(如視頻聊天機器人、視頻內(nèi)容分析工具)采用這項技術(shù)后,用戶就能享受到更快的響應(yīng)速度和更低的使用成本。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-