av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見(jiàn)證連接與計(jì)算的「力量」

首頁(yè) 計(jì)算機(jī)視覺(jué)新突破:斯坦福大學(xué)讓視頻生成模型學(xué)會(huì)"追蹤"物體運(yùn)動(dòng)

計(jì)算機(jī)視覺(jué)新突破:斯坦福大學(xué)讓視頻生成模型學(xué)會(huì)"追蹤"物體運(yùn)動(dòng)

2025-07-22 13:23
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-07-22 13:23 ? 科技行者

這項(xiàng)由斯坦福大學(xué)的Kim Seungwoo、Aw Khai Loong、Kotar Klemen等研究人員領(lǐng)導(dǎo)的研究發(fā)表于2025年7月的arXiv預(yù)印本平臺(tái),有興趣深入了解的讀者可以通過(guò)arXiv:2507.09082v1訪問(wèn)完整論文。研究團(tuán)隊(duì)開(kāi)發(fā)了一種名為"KL-tracing"的創(chuàng)新方法,能夠讓原本用于生成視頻的AI模型在不經(jīng)過(guò)任何專門(mén)訓(xùn)練的情況下,準(zhǔn)確追蹤視頻中物體的運(yùn)動(dòng)軌跡。

在我們的數(shù)字時(shí)代,視頻中的物體追蹤技術(shù)就像是給計(jì)算機(jī)安裝了一雙"眼睛",讓它能夠理解畫(huà)面中的物體是如何移動(dòng)的。這種技術(shù)被廣泛應(yīng)用于自動(dòng)駕駛汽車、體育比賽分析、醫(yī)學(xué)影像診斷等領(lǐng)域。傳統(tǒng)的方法就像是給計(jì)算機(jī)提供了一本"教科書(shū)",需要大量的標(biāo)注數(shù)據(jù)來(lái)訓(xùn)練模型識(shí)別物體的運(yùn)動(dòng)規(guī)律。然而,斯坦福大學(xué)的研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)巧妙的方法:他們發(fā)現(xiàn)那些原本用來(lái)生成視頻的AI模型,實(shí)際上已經(jīng)在學(xué)習(xí)過(guò)程中自發(fā)地掌握了物體運(yùn)動(dòng)的規(guī)律,就像一個(gè)天生具有藝術(shù)天賦的人,即使沒(méi)有專門(mén)學(xué)過(guò)繪畫(huà),也能憑直覺(jué)畫(huà)出不錯(cuò)的作品。

這項(xiàng)研究的核心創(chuàng)新在于,研究團(tuán)隊(duì)沒(méi)有像傳統(tǒng)方法那樣從零開(kāi)始訓(xùn)練一個(gè)專門(mén)的物體追蹤模型,而是發(fā)現(xiàn)了如何"喚醒"已有視頻生成模型中隱藏的追蹤能力。他們的方法就像是在一張白紙上滴一滴墨水,然后觀察這滴墨水在水流中是如何擴(kuò)散和移動(dòng)的。具體來(lái)說(shuō),他們?cè)谝曨l的第一幀中添加一個(gè)微小的白色光點(diǎn)作為"追蹤標(biāo)記",然后讓視頻生成模型預(yù)測(cè)下一幀的畫(huà)面,通過(guò)比較有標(biāo)記和無(wú)標(biāo)記的預(yù)測(cè)結(jié)果,就能精確地找到物體移動(dòng)到了哪里。

這種方法的美妙之處在于它的通用性和零成本特性。傳統(tǒng)的物體追蹤方法需要大量的人工標(biāo)注數(shù)據(jù),就像是需要請(qǐng)很多老師來(lái)教一個(gè)學(xué)生如何識(shí)別物體的運(yùn)動(dòng)。而這項(xiàng)研究的方法則完全不需要額外的訓(xùn)練數(shù)據(jù),就像是發(fā)現(xiàn)了一個(gè)學(xué)生原來(lái)早就會(huì)這項(xiàng)技能,只需要用對(duì)方法來(lái)激發(fā)它。更令人驚喜的是,這種方法在處理一些傳統(tǒng)方法難以應(yīng)對(duì)的復(fù)雜場(chǎng)景時(shí)表現(xiàn)出色,比如物體被遮擋、快速運(yùn)動(dòng)、或者在紋理單一的背景中移動(dòng)等情況。

一、傳統(tǒng)物體追蹤方法的困境與挑戰(zhàn)

物體追蹤技術(shù)的發(fā)展歷程就像是人類學(xué)習(xí)觀察世界的過(guò)程。最初,計(jì)算機(jī)就像一個(gè)剛學(xué)會(huì)看東西的嬰兒,需要依靠最基本的視覺(jué)特征來(lái)識(shí)別物體。傳統(tǒng)的物體追蹤方法主要分為兩大類:一類是有監(jiān)督學(xué)習(xí)方法,另一類是無(wú)監(jiān)督學(xué)習(xí)方法。

有監(jiān)督學(xué)習(xí)方法就像是給學(xué)生提供了標(biāo)準(zhǔn)答案的練習(xí)冊(cè)。研究人員需要制作大量的訓(xùn)練數(shù)據(jù),在每一幀視頻中精確標(biāo)注物體的位置,然后讓AI模型通過(guò)不斷練習(xí)來(lái)學(xué)會(huì)識(shí)別物體的運(yùn)動(dòng)規(guī)律。這類方法的代表有RAFT和SEA-RAFT等模型。然而,這種方法面臨一個(gè)根本性的問(wèn)題:現(xiàn)實(shí)世界中的視頻數(shù)據(jù)極其復(fù)雜多樣,人工標(biāo)注的成本非常高昂,而且?guī)缀醪豢赡芎w所有可能的情況。更重要的是,這些方法通常在合成數(shù)據(jù)集上訓(xùn)練,就像是讓學(xué)生只做教科書(shū)上的練習(xí)題,當(dāng)面對(duì)真實(shí)考試時(shí)往往表現(xiàn)不佳。

無(wú)監(jiān)督學(xué)習(xí)方法試圖解決這個(gè)問(wèn)題,它們就像是讓學(xué)生通過(guò)觀察自然現(xiàn)象來(lái)自學(xué)。這類方法利用一些基本的物理假設(shè),比如相鄰幀之間的物體外觀應(yīng)該保持一致,或者物體的運(yùn)動(dòng)應(yīng)該是平滑連續(xù)的。代表性的方法包括Doduo和SMURF等。這些方法雖然不需要人工標(biāo)注,但它們依賴的基本假設(shè)在復(fù)雜的真實(shí)場(chǎng)景中往往不成立。當(dāng)光照條件發(fā)生變化、物體被遮擋、或者出現(xiàn)快速運(yùn)動(dòng)時(shí),這些假設(shè)就會(huì)失效,導(dǎo)致追蹤精度大幅下降。

更深層次的問(wèn)題在于,無(wú)論是有監(jiān)督還是無(wú)監(jiān)督方法,它們都是專門(mén)為物體追蹤任務(wù)設(shè)計(jì)的,模型的能力相對(duì)有限。就像是用專門(mén)的工具只能做特定的事情,這些方法在面對(duì)新的場(chǎng)景類型或者極端情況時(shí),往往缺乏足夠的泛化能力。特別是在處理一些需要物理推理的場(chǎng)景時(shí),比如牛頓擺實(shí)驗(yàn)中球的碰撞,傳統(tǒng)方法很難理解球與球之間的相互作用關(guān)系。

研究團(tuán)隊(duì)發(fā)現(xiàn),現(xiàn)有方法的這些局限性本質(zhì)上源于它們對(duì)世界理解的不完整性。傳統(tǒng)的物體追蹤方法更像是在學(xué)習(xí)表面的視覺(jué)模式,而不是真正理解物體運(yùn)動(dòng)的內(nèi)在規(guī)律。正是基于這樣的認(rèn)識(shí),研究團(tuán)隊(duì)開(kāi)始思考:是否存在一種已經(jīng)對(duì)世界有更深入理解的AI模型,能夠被用來(lái)解決物體追蹤問(wèn)題?

二、大型視頻生成模型的潛在追蹤能力

近年來(lái),大型視頻生成模型的發(fā)展就像是AI領(lǐng)域的一場(chǎng)革命。這些模型通過(guò)觀看海量的網(wǎng)絡(luò)視頻,學(xué)會(huì)了生成逼真的動(dòng)態(tài)畫(huà)面。它們就像是一個(gè)看過(guò)無(wú)數(shù)電影的導(dǎo)演,能夠憑直覺(jué)創(chuàng)造出符合物理規(guī)律和視覺(jué)常識(shí)的視頻片段。研究團(tuán)隊(duì)敏銳地意識(shí)到,這些模型在學(xué)習(xí)生成視頻的過(guò)程中,必然也學(xué)會(huì)了理解物體是如何運(yùn)動(dòng)的。

這種直覺(jué)并非空穴來(lái)風(fēng)。當(dāng)一個(gè)視頻生成模型能夠準(zhǔn)確預(yù)測(cè)一個(gè)球從桌子上滾落的下一幀畫(huà)面時(shí),它實(shí)際上已經(jīng)掌握了重力、慣性、碰撞等物理概念。當(dāng)它能夠生成一個(gè)人走路的連續(xù)動(dòng)作時(shí),它已經(jīng)理解了人體運(yùn)動(dòng)的基本規(guī)律。這些知識(shí)以某種隱式的方式儲(chǔ)存在模型的參數(shù)中,就像是一個(gè)經(jīng)驗(yàn)豐富的畫(huà)家,即使不能用語(yǔ)言準(zhǔn)確描述透視原理,也能憑直覺(jué)畫(huà)出具有正確空間關(guān)系的畫(huà)面。

然而,如何從這些視頻生成模型中提取出物體追蹤的能力,卻是一個(gè)全新的挑戰(zhàn)。傳統(tǒng)的做法可能是對(duì)這些模型進(jìn)行微調(diào),就像是給一個(gè)會(huì)畫(huà)畫(huà)的藝術(shù)家專門(mén)教授攝影技巧。但這種方法存在明顯的問(wèn)題:首先,微調(diào)需要大量的標(biāo)注數(shù)據(jù),這又回到了傳統(tǒng)方法的老問(wèn)題;其次,微調(diào)可能會(huì)破壞模型原有的生成能力,就像是為了學(xué)習(xí)新技能而忘記了原來(lái)的特長(zhǎng)。

研究團(tuán)隊(duì)采用了一種更加巧妙的方法,他們沒(méi)有試圖改變模型本身,而是設(shè)計(jì)了一種特殊的"提示"方法來(lái)激發(fā)模型已有的追蹤能力。這種方法的靈感來(lái)自于反事實(shí)世界模型(Counterfactual World Model, CWM)的概念。簡(jiǎn)單來(lái)說(shuō),就是通過(guò)比較兩個(gè)略有不同的情況,來(lái)推斷事物的因果關(guān)系。

具體的做法是這樣的:研究團(tuán)隊(duì)在視頻的第一幀中添加一個(gè)微小的白色光點(diǎn),就像是在一張照片上點(diǎn)一個(gè)小亮點(diǎn)。然后讓視頻生成模型分別預(yù)測(cè)原始視頻和帶有光點(diǎn)視頻的下一幀。通過(guò)比較這兩個(gè)預(yù)測(cè)結(jié)果的差異,就能找到光點(diǎn)在下一幀中的位置,從而實(shí)現(xiàn)物體追蹤。這種方法的巧妙之處在于,它利用了模型對(duì)世界的深層理解,而不是依賴表面的視覺(jué)特征匹配。

這種方法的理論基礎(chǔ)是,一個(gè)真正理解物體運(yùn)動(dòng)規(guī)律的模型,應(yīng)該能夠準(zhǔn)確預(yù)測(cè)一個(gè)微小擾動(dòng)(光點(diǎn))在下一幀中的位置。如果一個(gè)球正在向右滾動(dòng),那么球表面的任何標(biāo)記都應(yīng)該隨著球一起向右移動(dòng)。如果一個(gè)人正在走路,那么人身上的任何標(biāo)記都應(yīng)該隨著人體的運(yùn)動(dòng)而移動(dòng)。這種方法本質(zhì)上是在測(cè)試模型對(duì)物理世界的理解程度。

三、不同生成模型的追蹤能力評(píng)估

研究團(tuán)隊(duì)并沒(méi)有盲目地認(rèn)為所有的視頻生成模型都具有相同的追蹤能力。相反,他們系統(tǒng)地評(píng)估了不同類型的模型,就像是測(cè)試不同品牌的汽車在同一條路上的表現(xiàn)。這個(gè)評(píng)估過(guò)程揭示了一些有趣的發(fā)現(xiàn),并最終指向了一個(gè)重要的結(jié)論:模型的架構(gòu)設(shè)計(jì)對(duì)其追蹤能力有著決定性的影響。

首先,他們測(cè)試了確定性模型的表現(xiàn)。這類模型的代表是反事實(shí)世界模型(CWM),它就像是一個(gè)只能給出標(biāo)準(zhǔn)答案的學(xué)生。當(dāng)面對(duì)一個(gè)場(chǎng)景時(shí),它只能預(yù)測(cè)一個(gè)確定的結(jié)果,而不能表達(dá)不確定性。這種特性在處理復(fù)雜場(chǎng)景時(shí)就會(huì)出現(xiàn)問(wèn)題。比如,當(dāng)一個(gè)球可能向左滾也可能向右滾時(shí),確定性模型會(huì)預(yù)測(cè)一個(gè)"平均"的結(jié)果,導(dǎo)致球看起來(lái)停在中間,產(chǎn)生模糊的圖像。這種模糊性不僅影響了視覺(jué)效果,更重要的是,它會(huì)"稀釋"研究團(tuán)隊(duì)添加的追蹤標(biāo)記,使得標(biāo)記在預(yù)測(cè)圖像中變得不明顯,難以準(zhǔn)確定位。

研究團(tuán)隊(duì)發(fā)現(xiàn),CWM在處理追蹤任務(wù)時(shí)就像是一個(gè)視力不好的人試圖跟蹤一個(gè)快速移動(dòng)的物體。由于模型輸出的圖像本身就是模糊的,添加的白色光點(diǎn)標(biāo)記也變得模糊不清,這大大降低了追蹤的精度。更嚴(yán)重的是,在那些沒(méi)有添加標(biāo)記的區(qū)域,模糊性也會(huì)導(dǎo)致微小的顏色變化,這些變化在計(jì)算差異時(shí)會(huì)產(chǎn)生噪聲,干擾真實(shí)的追蹤信號(hào)。

接下來(lái),他們測(cè)試了擴(kuò)散模型的表現(xiàn),代表是穩(wěn)定視頻擴(kuò)散(Stable Video Diffusion, SVD)。這類模型就像是一個(gè)能夠產(chǎn)生多種創(chuàng)意想法的藝術(shù)家,它能夠生成清晰、多樣化的圖像。然而,SVD面臨著另一個(gè)問(wèn)題:控制粒度過(guò)于粗糙。這就像是用一把大刷子去畫(huà)精密的細(xì)節(jié)畫(huà)。SVD的工作原理是通過(guò)一個(gè)全局的編碼向量來(lái)控制整個(gè)視頻的生成過(guò)程,這個(gè)向量就像是一個(gè)總的"指令",告訴模型要生成什么樣的視頻。

當(dāng)研究團(tuán)隊(duì)試圖在SVD中添加一個(gè)微小的追蹤標(biāo)記時(shí),他們發(fā)現(xiàn)這個(gè)標(biāo)記會(huì)影響整個(gè)全局編碼向量,進(jìn)而影響整個(gè)畫(huà)面的生成。這就像是試圖在一幅已經(jīng)完成的油畫(huà)上添加一個(gè)小細(xì)節(jié),結(jié)果卻導(dǎo)致整幅畫(huà)的風(fēng)格都發(fā)生了變化。由于SVD無(wú)法進(jìn)行精確的局部控制,添加的標(biāo)記往往會(huì)在生成過(guò)程中被"重新解釋"或"重新安排",導(dǎo)致標(biāo)記出現(xiàn)在錯(cuò)誤的位置,或者產(chǎn)生不相關(guān)的視覺(jué)變化。

研究團(tuán)隊(duì)還測(cè)試了自回歸模型的表現(xiàn),代表是Cosmos模型。這類模型就像是一個(gè)按照固定順序工作的裝配線工人,它必須按照從左到右、從上到下的順序來(lái)生成圖像的每一個(gè)部分。這種工作方式在處理追蹤任務(wù)時(shí)存在天然的局限性。

Cosmos模型的問(wèn)題在于它的"視野"受限。當(dāng)模型開(kāi)始生成一幀圖像時(shí),它只能看到已經(jīng)生成的部分,就像是一個(gè)只能看到拼圖左上角的人試圖完成整個(gè)拼圖。研究團(tuán)隊(duì)嘗試了三種不同的方法來(lái)使用Cosmos進(jìn)行追蹤:第一種是只提供目標(biāo)幀左上角10%的信息,第二種是在生成過(guò)程中隨機(jī)提供10%的正確信息,第三種是提供完整的目標(biāo)幀信息。

結(jié)果發(fā)現(xiàn),第一種方法完全失敗了,因?yàn)樽笊辖堑男畔?duì)于理解整個(gè)畫(huà)面來(lái)說(shuō)太少了,就像是只看到汽車的一個(gè)輪子就要猜測(cè)整輛車的運(yùn)動(dòng)方向。第二種方法也表現(xiàn)不佳,因?yàn)榉稚⒌男畔⑵螣o(wú)法形成連貫的理解。第三種方法雖然能夠生成正確的圖像,但由于模型已經(jīng)"知道"了答案,追蹤標(biāo)記反而消失了,失去了追蹤的意義。

通過(guò)這一系列的測(cè)試,研究團(tuán)隊(duì)總結(jié)出了一個(gè)成功的追蹤模型應(yīng)該具備的三個(gè)關(guān)鍵特性:首先,模型必須能夠預(yù)測(cè)概率分布而不是確定性結(jié)果,這樣才能避免模糊性問(wèn)題;其次,模型必須采用局部編碼方式,每個(gè)圖像區(qū)域都有獨(dú)立的表示,這樣才能進(jìn)行精細(xì)的局部控制;最后,模型必須支持隨機(jī)訪問(wèn)解碼,能夠根據(jù)任意的局部信息來(lái)生成對(duì)應(yīng)的圖像區(qū)域。

這三個(gè)特性就像是一個(gè)完美追蹤系統(tǒng)的三個(gè)支柱,缺一不可。研究團(tuán)隊(duì)驚喜地發(fā)現(xiàn),最近提出的局部隨機(jī)訪問(wèn)序列(Local Random Access Sequence, LRAS)模型恰好同時(shí)具備了這三個(gè)特性,這為他們的研究提供了理想的實(shí)驗(yàn)平臺(tái)。

四、LRAS模型與KL-tracing方法的創(chuàng)新設(shè)計(jì)

當(dāng)研究團(tuán)隊(duì)發(fā)現(xiàn)LRAS模型具備理想的追蹤能力基礎(chǔ)時(shí),他們意識(shí)到找到了一個(gè)完美的工具。LRAS模型就像是一個(gè)既有藝術(shù)天賦又有技術(shù)精度的工匠,它能夠生成高質(zhì)量的視頻,同時(shí)還能進(jìn)行精確的局部控制。然而,即使是這樣優(yōu)秀的模型,在實(shí)際應(yīng)用中仍然面臨一個(gè)微妙但重要的問(wèn)題:采樣隨機(jī)性。

LRAS模型的工作原理就像是一個(gè)能夠同時(shí)處理多個(gè)任務(wù)的多面手。它將每一幀圖像分割成許多小塊,每個(gè)小塊都有自己獨(dú)立的表示和生成過(guò)程。這種設(shè)計(jì)使得模型能夠根據(jù)需要只更新圖像的特定區(qū)域,而不影響其他區(qū)域。更重要的是,模型能夠根據(jù)任意給定的圖像片段來(lái)推斷和生成其他區(qū)域的內(nèi)容,這種"隨機(jī)訪問(wèn)"的能力正是追蹤任務(wù)所需要的。

當(dāng)研究團(tuán)隊(duì)將傳統(tǒng)的追蹤方法應(yīng)用到LRAS模型上時(shí),他們發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象。雖然LRAS能夠生成高質(zhì)量的預(yù)測(cè)圖像,但即使是相同的輸入,模型每次生成的結(jié)果都會(huì)略有不同。這種差異就像是同一個(gè)畫(huà)家畫(huà)同一幅畫(huà),每次都會(huì)有微小的筆觸變化。這種隨機(jī)性在正常的視頻生成任務(wù)中是有益的,因?yàn)樗黾恿松蓛?nèi)容的多樣性。但在追蹤任務(wù)中,這種隨機(jī)性會(huì)產(chǎn)生噪聲,干擾真實(shí)的追蹤信號(hào)。

具體來(lái)說(shuō),當(dāng)研究團(tuán)隊(duì)比較有標(biāo)記和無(wú)標(biāo)記的兩個(gè)預(yù)測(cè)圖像時(shí),他們發(fā)現(xiàn)即使在沒(méi)有標(biāo)記的區(qū)域,兩個(gè)圖像也會(huì)有微小的差異。這些差異純粹是由于采樣隨機(jī)性造成的,與物體運(yùn)動(dòng)無(wú)關(guān)。但在計(jì)算圖像差異時(shí),這些隨機(jī)噪聲會(huì)與真實(shí)的追蹤信號(hào)混在一起,就像是在一個(gè)嘈雜的環(huán)境中試圖聽(tīng)清楚特定的聲音。

為了解決這個(gè)問(wèn)題,研究團(tuán)隊(duì)開(kāi)發(fā)了一種名為KL-tracing的創(chuàng)新方法。這種方法的核心思想是繞過(guò)圖像層面的比較,直接在模型的"思考"層面進(jìn)行比較。具體來(lái)說(shuō),不是比較最終生成的圖像,而是比較模型在生成過(guò)程中的內(nèi)部預(yù)測(cè)分布。

KL-tracing方法的工作原理就像是比較兩個(gè)人的"想法"而不是他們的"行為"。當(dāng)一個(gè)人在思考時(shí),他的大腦中會(huì)有各種可能的想法和判斷。即使最終的行為可能看起來(lái)相似,但內(nèi)在的思考過(guò)程可能會(huì)有顯著差異。同樣,當(dāng)LRAS模型預(yù)測(cè)下一幀圖像時(shí),它會(huì)為每個(gè)圖像區(qū)域計(jì)算一個(gè)概率分布,表示該區(qū)域可能呈現(xiàn)的各種顏色和紋理。

KL-tracing方法通過(guò)計(jì)算這些概率分布之間的KL散度(Kullback-Leibler divergence)來(lái)量化差異。KL散度是一個(gè)數(shù)學(xué)概念,用來(lái)衡量?jī)蓚€(gè)概率分布之間的差異程度。在追蹤任務(wù)中,如果一個(gè)區(qū)域的概率分布發(fā)生了顯著變化,說(shuō)明追蹤標(biāo)記很可能移動(dòng)到了該區(qū)域。相反,如果一個(gè)區(qū)域的概率分布幾乎沒(méi)有變化,說(shuō)明該區(qū)域不太可能是標(biāo)記的目標(biāo)位置。

這種方法的優(yōu)勢(shì)在于它能夠捕捉到非常微妙的信號(hào)變化。有時(shí)候,添加的追蹤標(biāo)記在最終的RGB圖像中可能看起來(lái)很微弱,甚至肉眼都難以察覺(jué)。但在概率分布層面,這種變化會(huì)被顯著地放大。就像是一個(gè)經(jīng)驗(yàn)豐富的醫(yī)生能夠通過(guò)聽(tīng)診器聽(tīng)到患者心臟的微小異常,即使這些異常在外表上完全看不出來(lái)。

KL-tracing方法還有另一個(gè)重要優(yōu)勢(shì):它能夠自然地處理遮擋問(wèn)題。當(dāng)一個(gè)物體被遮擋時(shí),對(duì)應(yīng)區(qū)域的概率分布會(huì)變得更加不確定,KL散度值會(huì)相應(yīng)降低。通過(guò)設(shè)置合適的閾值,系統(tǒng)就能夠自動(dòng)判斷一個(gè)點(diǎn)是否被遮擋,而不需要專門(mén)的遮擋檢測(cè)算法。

整個(gè)KL-tracing的工作流程簡(jiǎn)潔而優(yōu)雅:首先,在原始視頻的第一幀中添加一個(gè)微小的白色高斯光點(diǎn)作為追蹤標(biāo)記;然后,讓LRAS模型分別預(yù)測(cè)原始視頻和帶標(biāo)記視頻的下一幀,但不生成最終的RGB圖像,而是保留中間的概率分布;最后,計(jì)算每個(gè)圖像區(qū)域的KL散度,取散度最大的區(qū)域作為追蹤目標(biāo)的新位置。

這種方法的美妙之處在于它完全是零樣本的,不需要任何額外的訓(xùn)練數(shù)據(jù)或模型調(diào)整。它就像是發(fā)現(xiàn)了一個(gè)天然存在的能力,只需要用對(duì)方法就能激發(fā)出來(lái)。更重要的是,由于LRAS模型是在大規(guī)模真實(shí)視頻數(shù)據(jù)上訓(xùn)練的,它對(duì)復(fù)雜的真實(shí)世界場(chǎng)景有著深入的理解,這使得KL-tracing方法在處理各種挑戰(zhàn)性場(chǎng)景時(shí)都能保持出色的性能。

五、實(shí)驗(yàn)結(jié)果與性能表現(xiàn)

研究團(tuán)隊(duì)對(duì)KL-tracing方法進(jìn)行了全面而嚴(yán)格的實(shí)驗(yàn)驗(yàn)證,就像是讓一個(gè)新發(fā)明的工具在各種不同的工作環(huán)境中接受測(cè)試。他們選擇了兩個(gè)具有代表性的數(shù)據(jù)集:TAP-Vid DAVIS和TAP-Vid Kubric。這兩個(gè)數(shù)據(jù)集就像是兩個(gè)不同的考試,一個(gè)考察在真實(shí)世界中的表現(xiàn),另一個(gè)考察在理想條件下的表現(xiàn)。

TAP-Vid DAVIS數(shù)據(jù)集包含了真實(shí)世界的視頻片段,這些視頻涵蓋了各種復(fù)雜的場(chǎng)景:有快速移動(dòng)的物體、復(fù)雜的光照變化、物體遮擋、運(yùn)動(dòng)模糊等挑戰(zhàn)性情況。這個(gè)數(shù)據(jù)集就像是一個(gè)包含各種復(fù)雜路況的駕駛考試場(chǎng)地,能夠真實(shí)反映算法在實(shí)際應(yīng)用中可能遇到的各種困難。相比之下,TAP-Vid Kubric是一個(gè)合成數(shù)據(jù)集,雖然場(chǎng)景設(shè)置相對(duì)簡(jiǎn)單,但提供了完美的標(biāo)注信息,可以用來(lái)測(cè)試算法的基本性能。

實(shí)驗(yàn)結(jié)果令人振奮。在TAP-Vid DAVIS數(shù)據(jù)集上,KL-tracing方法在關(guān)鍵指標(biāo)上取得了顯著的改進(jìn)。具體來(lái)說(shuō),在端點(diǎn)誤差(即預(yù)測(cè)位置與真實(shí)位置之間的距離)方面,KL-tracing方法比現(xiàn)有最好的方法提高了16.6%。這個(gè)改進(jìn)幅度就像是一個(gè)射手的命中率從80%提升到93%,看似不大的百分比提升,在實(shí)際應(yīng)用中卻意味著質(zhì)的飛躍。

更令人印象深刻的是,這種改進(jìn)是在完全沒(méi)有針對(duì)性訓(xùn)練的情況下實(shí)現(xiàn)的。傳統(tǒng)的方法需要在相關(guān)數(shù)據(jù)集上進(jìn)行訓(xùn)練或微調(diào),而KL-tracing方法使用的LRAS模型從未見(jiàn)過(guò)任何追蹤任務(wù)的訓(xùn)練數(shù)據(jù)。這就像是一個(gè)從未專門(mén)練習(xí)過(guò)射箭的人,僅憑對(duì)物理規(guī)律的理解就能在射箭比賽中擊敗專業(yè)選手。

在TAP-Vid Kubric數(shù)據(jù)集上,KL-tracing方法同樣表現(xiàn)出色,端點(diǎn)誤差相比最佳基線方法提高了4.7%。雖然改進(jìn)幅度相對(duì)較小,但考慮到這是在合成數(shù)據(jù)集上的結(jié)果,而LRAS模型是在真實(shí)數(shù)據(jù)上訓(xùn)練的,這個(gè)結(jié)果實(shí)際上證明了方法的強(qiáng)大泛化能力。

為了更直觀地展示方法的有效性,研究團(tuán)隊(duì)還展示了一系列具有挑戰(zhàn)性的實(shí)際案例。在牛頓擺實(shí)驗(yàn)的例子中,傳統(tǒng)的視覺(jué)匹配方法很難理解球與球之間的物理相互作用。當(dāng)中間的球被碰撞時(shí),傳統(tǒng)方法可能會(huì)認(rèn)為球只是消失了,因?yàn)閺囊曈X(jué)上看,前后兩幀中同一位置的球看起來(lái)完全一樣。但KL-tracing方法能夠理解這種物理過(guò)程,正確地追蹤到球的運(yùn)動(dòng)軌跡,即使球在視覺(jué)上看起來(lái)沒(méi)有變化。

在地球儀旋轉(zhuǎn)的例子中,傳統(tǒng)方法面臨著紋理匱乏的挑戰(zhàn)。海洋區(qū)域基本上是均勻的藍(lán)色,沒(méi)有明顯的視覺(jué)特征可以用來(lái)追蹤。但KL-tracing方法能夠利用模型對(duì)三維旋轉(zhuǎn)的理解,即使在紋理單一的區(qū)域也能準(zhǔn)確追蹤點(diǎn)的位置。這種能力就像是一個(gè)對(duì)地理非常熟悉的人,即使在茫茫大海中也能憑借對(duì)地球結(jié)構(gòu)的理解來(lái)判斷方向。

在快速運(yùn)動(dòng)和運(yùn)動(dòng)模糊的場(chǎng)景中,KL-tracing方法也展現(xiàn)了顯著的優(yōu)勢(shì)。傳統(tǒng)方法在處理運(yùn)動(dòng)模糊時(shí)往往會(huì)失敗,因?yàn)槟:茐牧艘曈X(jué)特征的連續(xù)性。但KL-tracing方法能夠利用模型對(duì)運(yùn)動(dòng)物理學(xué)的理解,即使在模糊的情況下也能推斷出物體的運(yùn)動(dòng)軌跡。

特別值得注意的是,KL-tracing方法在處理遮擋問(wèn)題時(shí)表現(xiàn)出了獨(dú)特的優(yōu)勢(shì)。當(dāng)一個(gè)物體被遮擋時(shí),傳統(tǒng)方法往往會(huì)丟失追蹤目標(biāo)或產(chǎn)生錯(cuò)誤的預(yù)測(cè)。但KL-tracing方法能夠通過(guò)概率分布的變化來(lái)判斷遮擋的發(fā)生,并在物體重新出現(xiàn)時(shí)準(zhǔn)確地重新獲取追蹤目標(biāo)。這種能力就像是一個(gè)經(jīng)驗(yàn)豐富的偵探,即使目標(biāo)暫時(shí)消失在視野中,也能根據(jù)周圍環(huán)境的變化來(lái)推斷目標(biāo)的可能位置。

研究團(tuán)隊(duì)還發(fā)現(xiàn),KL-tracing方法在長(zhǎng)時(shí)間追蹤任務(wù)中表現(xiàn)穩(wěn)定。許多傳統(tǒng)方法在短時(shí)間內(nèi)表現(xiàn)良好,但隨著時(shí)間推移,誤差會(huì)逐漸累積,最終導(dǎo)致追蹤失敗。而KL-tracing方法由于依賴的是模型對(duì)物理世界的深層理解,而不是表面的視覺(jué)特征匹配,因此能夠在長(zhǎng)時(shí)間追蹤中保持穩(wěn)定的性能。

六、方法局限性與未來(lái)發(fā)展方向

盡管KL-tracing方法取得了令人矚目的成果,但研究團(tuán)隊(duì)也坦誠(chéng)地討論了方法的局限性和潛在的改進(jìn)方向。這種誠(chéng)實(shí)的態(tài)度就像是一個(gè)優(yōu)秀的工程師,在展示新發(fā)明的同時(shí)也指出了需要進(jìn)一步完善的地方。

首先,計(jì)算效率是一個(gè)需要關(guān)注的問(wèn)題。KL-tracing方法需要對(duì)每個(gè)追蹤點(diǎn)運(yùn)行兩次LRAS模型推理,這比傳統(tǒng)的專門(mén)化追蹤方法要慢得多。就像是用一臺(tái)功能強(qiáng)大但體積龐大的超級(jí)計(jì)算機(jī)來(lái)完成一個(gè)簡(jiǎn)單的計(jì)算任務(wù),雖然結(jié)果準(zhǔn)確,但效率不高。LRAS模型有70億個(gè)參數(shù),每次推理都需要大量的計(jì)算資源。相比之下,專門(mén)的追蹤模型通常只有幾百萬(wàn)個(gè)參數(shù),能夠?qū)崟r(shí)處理視頻流。

這個(gè)問(wèn)題在實(shí)際應(yīng)用中可能會(huì)成為一個(gè)障礙。比如,在自動(dòng)駕駛汽車中,系統(tǒng)需要實(shí)時(shí)追蹤道路上的各種物體,任何延遲都可能帶來(lái)安全風(fēng)險(xiǎn)。目前的KL-tracing方法雖然準(zhǔn)確度高,但難以滿足實(shí)時(shí)性的要求。不過(guò),研究團(tuán)隊(duì)提出了一個(gè)有趣的解決方案:可以將KL-tracing方法作為一個(gè)"老師",用它生成高質(zhì)量的追蹤標(biāo)簽,然后訓(xùn)練一個(gè)更小、更快的"學(xué)生"模型來(lái)執(zhí)行實(shí)時(shí)追蹤任務(wù)。

其次,方法的泛化能力雖然強(qiáng),但仍然受限于底層模型的訓(xùn)練數(shù)據(jù)。LRAS模型是在網(wǎng)絡(luò)視頻數(shù)據(jù)上訓(xùn)練的,雖然這些數(shù)據(jù)涵蓋了廣泛的場(chǎng)景,但仍然可能存在一些盲點(diǎn)。比如,在一些極端的科學(xué)實(shí)驗(yàn)場(chǎng)景中,或者在一些非常規(guī)的視覺(jué)效果中,模型可能無(wú)法正確理解物理規(guī)律。這就像是一個(gè)見(jiàn)多識(shí)廣的人,在面對(duì)完全陌生的情況時(shí)仍然可能出現(xiàn)誤判。

另外,當(dāng)前的方法主要專注于二維圖像平面上的追蹤,對(duì)于三維空間中的深度變化處理還不夠完善。雖然LRAS模型具有一定的三維理解能力,但在處理復(fù)雜的三維運(yùn)動(dòng)時(shí),仍然存在改進(jìn)的空間。這個(gè)問(wèn)題在處理快速靠近或遠(yuǎn)離攝像機(jī)的物體時(shí)尤為明顯。

研究團(tuán)隊(duì)還指出,當(dāng)前的方法需要手動(dòng)設(shè)置一些參數(shù),比如追蹤標(biāo)記的大小和強(qiáng)度。雖然這些參數(shù)在大多數(shù)情況下表現(xiàn)良好,但在某些特殊場(chǎng)景中可能需要調(diào)整。一個(gè)更理想的系統(tǒng)應(yīng)該能夠自動(dòng)適應(yīng)不同的場(chǎng)景條件,就像是一個(gè)智能的相機(jī)能夠自動(dòng)調(diào)整焦距和曝光設(shè)置。

盡管存在這些局限性,研究團(tuán)隊(duì)對(duì)方法的未來(lái)發(fā)展充滿信心。他們認(rèn)為,隨著視頻生成模型的不斷改進(jìn),KL-tracing方法的性能也會(huì)相應(yīng)提升。特別是,隨著新的模型架構(gòu)的出現(xiàn),可能會(huì)有更多具備理想特性的模型可供選擇。

更重要的是,這項(xiàng)研究開(kāi)創(chuàng)了一個(gè)新的研究方向:如何從大型生成模型中提取特定的視覺(jué)能力。研究團(tuán)隊(duì)認(rèn)為,類似的方法可能適用于其他視覺(jué)任務(wù),比如深度估計(jì)、表面法線預(yù)測(cè)、物體分割等。這就像是發(fā)現(xiàn)了一個(gè)寶藏,里面可能還有更多有價(jià)值的東西等待發(fā)掘。

研究團(tuán)隊(duì)還提到了將這種方法擴(kuò)展到更復(fù)雜任務(wù)的可能性。比如,可以同時(shí)追蹤多個(gè)物體,或者進(jìn)行長(zhǎng)期的軌跡預(yù)測(cè)。這些擴(kuò)展將進(jìn)一步證明大型生成模型在理解物理世界方面的潛力。

七、技術(shù)創(chuàng)新的更深層意義

KL-tracing方法的成功不僅僅是一個(gè)技術(shù)突破,更代表了計(jì)算機(jī)視覺(jué)領(lǐng)域思維方式的重要轉(zhuǎn)變。這種轉(zhuǎn)變就像是從傳統(tǒng)的"專業(yè)化分工"模式轉(zhuǎn)向"通用智能"模式,反映了人工智能發(fā)展的一個(gè)重要趨勢(shì)。

傳統(tǒng)的計(jì)算機(jī)視覺(jué)方法遵循著"一個(gè)任務(wù)一個(gè)模型"的思路,就像是工廠流水線上的專業(yè)工人,每個(gè)人只負(fù)責(zé)一個(gè)特定的工序。這種方法在特定任務(wù)上可能表現(xiàn)很好,但缺乏靈活性和適應(yīng)性。當(dāng)面對(duì)新的場(chǎng)景或任務(wù)時(shí),往往需要重新設(shè)計(jì)算法或收集新的訓(xùn)練數(shù)據(jù)。

KL-tracing方法展示了另一種可能性:利用具有通用理解能力的大型模型來(lái)解決特定任務(wù)。這就像是請(qǐng)一個(gè)博學(xué)的學(xué)者來(lái)解決各種不同的問(wèn)題,雖然他可能不是每個(gè)領(lǐng)域的專家,但他的廣泛知識(shí)和深入理解使他能夠快速適應(yīng)新的挑戰(zhàn)。

這種方法的哲學(xué)基礎(chǔ)是,真正的智能應(yīng)該具有遷移學(xué)習(xí)的能力。人類在學(xué)會(huì)走路之后,不需要重新學(xué)習(xí)就能騎自行車,因?yàn)檫@兩種技能都涉及平衡和協(xié)調(diào)。同樣,一個(gè)真正理解物理世界的AI模型,應(yīng)該能夠?qū)⑦@種理解應(yīng)用到各種相關(guān)任務(wù)中。

從技術(shù)實(shí)現(xiàn)的角度來(lái)看,KL-tracing方法也展示了一種新的模型利用方式。傳統(tǒng)的做法是通過(guò)微調(diào)或重訓(xùn)練來(lái)適應(yīng)新任務(wù),這種方法就像是改造一個(gè)工具來(lái)適應(yīng)新的用途。而KL-tracing方法則是通過(guò)巧妙的提示工程來(lái)激發(fā)模型的潛在能力,就像是發(fā)現(xiàn)了工具的新用法,而不需要改變工具本身。

這種方法的優(yōu)勢(shì)在于它的通用性和可擴(kuò)展性。一旦找到了合適的提示方法,就可以立即應(yīng)用到任何具有相應(yīng)能力的模型上,而不需要額外的訓(xùn)練。這大大降低了應(yīng)用新技術(shù)的門(mén)檻,也為快速原型開(kāi)發(fā)提供了可能。

更重要的是,這種方法揭示了大型生成模型中隱藏的豐富知識(shí)。就像是考古學(xué)家發(fā)現(xiàn)了一個(gè)埋藏的寶庫(kù),KL-tracing方法表明,這些看似只會(huì)生成圖像的模型,實(shí)際上蘊(yùn)含著對(duì)物理世界的深刻理解。這種理解不是通過(guò)明確的教學(xué)獲得的,而是通過(guò)觀察大量數(shù)據(jù)自然涌現(xiàn)出來(lái)的。

這個(gè)發(fā)現(xiàn)對(duì)人工智能的發(fā)展具有深遠(yuǎn)的意義。它表明,隨著模型規(guī)模的增大和訓(xùn)練數(shù)據(jù)的增加,AI系統(tǒng)可能會(huì)自發(fā)地學(xué)會(huì)許多我們沒(méi)有明確教授的技能。這就像是一個(gè)孩子通過(guò)觀察世界自然地學(xué)會(huì)了許多常識(shí),而不需要每個(gè)概念都單獨(dú)教授。

從更廣闊的視角來(lái)看,KL-tracing方法也體現(xiàn)了"涌現(xiàn)智能"的概念。當(dāng)一個(gè)系統(tǒng)足夠復(fù)雜,并且接受了足夠多樣化的訓(xùn)練時(shí),它可能會(huì)表現(xiàn)出超出設(shè)計(jì)者預(yù)期的能力。這些能力不是被明確編程進(jìn)去的,而是在學(xué)習(xí)過(guò)程中自然涌現(xiàn)出來(lái)的。

這種現(xiàn)象在生物智能中也很常見(jiàn)。人類的大腦并不是專門(mén)為解決數(shù)學(xué)問(wèn)題而進(jìn)化的,但我們卻能夠進(jìn)行復(fù)雜的數(shù)學(xué)推理。這是因?yàn)榇竽X在進(jìn)化過(guò)程中發(fā)展出了一般性的認(rèn)知能力,這些能力可以被應(yīng)用到各種不同的任務(wù)中。

KL-tracing方法的成功也為我們理解智能的本質(zhì)提供了新的視角。它表明,智能可能不是由大量專門(mén)化的模塊組成的,而是由一個(gè)能夠靈活適應(yīng)不同任務(wù)的通用系統(tǒng)構(gòu)成的。這種觀點(diǎn)與傳統(tǒng)的模塊化智能理論形成了有趣的對(duì)比。

說(shuō)到底,KL-tracing方法的真正價(jià)值不僅在于它解決了物體追蹤問(wèn)題,更在于它開(kāi)啟了一扇通往更廣闊智能世界的大門(mén)。它向我們展示了,當(dāng)我們學(xué)會(huì)正確地"詢問(wèn)"AI系統(tǒng)時(shí),我們可能會(huì)發(fā)現(xiàn)它們知道的遠(yuǎn)比我們想象的要多。這種發(fā)現(xiàn)不僅推動(dòng)了技術(shù)的發(fā)展,也深化了我們對(duì)智能本質(zhì)的理解。

正如研究團(tuán)隊(duì)所說(shuō),這項(xiàng)工作代表了從傳統(tǒng)的監(jiān)督學(xué)習(xí)或基于光度損失的方法向可控生成模型的零樣本提示方法的轉(zhuǎn)變。這種轉(zhuǎn)變可能會(huì)在計(jì)算機(jī)視覺(jué)領(lǐng)域引發(fā)更廣泛的變革,就像大型語(yǔ)言模型改變了自然語(yǔ)言處理領(lǐng)域一樣。未來(lái),我們可能會(huì)看到更多類似的方法被應(yīng)用到其他視覺(jué)任務(wù)中,推動(dòng)整個(gè)人工智能領(lǐng)域向著更加通用、更加智能的方向發(fā)展。

Q&A

Q1:KL-tracing是什么?它與傳統(tǒng)物體追蹤方法有什么不同? A:KL-tracing是一種讓視頻生成AI模型進(jìn)行物體追蹤的新方法,就像在視頻第一幀添加一個(gè)小光點(diǎn),然后讓AI預(yù)測(cè)這個(gè)光點(diǎn)在下一幀的位置。與傳統(tǒng)方法不同,它不需要專門(mén)訓(xùn)練,而是利用AI模型在學(xué)習(xí)生成視頻時(shí)自然獲得的物理理解能力。傳統(tǒng)方法需要大量標(biāo)注數(shù)據(jù)訓(xùn)練,而KL-tracing是零樣本的,完全不需要額外訓(xùn)練。

Q2:為什么視頻生成模型能夠用來(lái)追蹤物體?它們不是用來(lái)創(chuàng)造視頻的嗎? A:視頻生成模型在學(xué)習(xí)創(chuàng)造視頻的過(guò)程中,必須理解物體是如何運(yùn)動(dòng)的,比如球如何滾動(dòng)、人如何走路等物理規(guī)律。這些知識(shí)隱含在模型中,就像一個(gè)會(huì)畫(huà)畫(huà)的人雖然沒(méi)專門(mén)學(xué)過(guò)物理,但畫(huà)運(yùn)動(dòng)場(chǎng)景時(shí)會(huì)憑直覺(jué)遵循物理規(guī)律。研究團(tuán)隊(duì)發(fā)現(xiàn)了如何"喚醒"這些隱藏的追蹤能力。

Q3:KL-tracing方法有什么局限性?普通人能用嗎? A:目前KL-tracing方法計(jì)算量很大,需要強(qiáng)大的計(jì)算資源,還不能實(shí)時(shí)處理視頻。就像用超級(jí)計(jì)算機(jī)做簡(jiǎn)單計(jì)算,雖然準(zhǔn)確但效率不高。研究團(tuán)隊(duì)建議可以用它生成高質(zhì)量追蹤數(shù)據(jù),然后訓(xùn)練更小更快的模型。目前這還是研究階段的技術(shù),普通人暫時(shí)無(wú)法直接使用,但未來(lái)可能會(huì)有更實(shí)用的版本。

分享至
1贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-