這項(xiàng)由卡耐基梅隆大學(xué)林志秋教授領(lǐng)導(dǎo),聯(lián)合馬薩諸塞大學(xué)阿默斯特分校、南加州大學(xué)、愛(ài)默生學(xué)院、Adobe公司、哈佛大學(xué)和MIT-IBM等多家機(jī)構(gòu)的研究發(fā)表于2025年4月的arXiv預(yù)印本,論文編號(hào)arXiv:2504.15376v1。有興趣深入了解的讀者可以通過(guò)該編號(hào)在arXiv網(wǎng)站上訪問(wèn)完整論文。
當(dāng)我們觀看電影時(shí),往往會(huì)被精彩的鏡頭運(yùn)動(dòng)所震撼。希區(qū)柯克標(biāo)志性的"眩暈鏡頭",斯皮爾伯格在《侏羅紀(jì)公園》中展現(xiàn)恐龍時(shí)的仰拍,諾蘭在《盜夢(mèng)空間》中的旋轉(zhuǎn)鏡頭,這些攝像頭運(yùn)動(dòng)不僅僅是技術(shù)手段,更是導(dǎo)演表達(dá)情感和敘事的重要工具。然而對(duì)于計(jì)算機(jī)來(lái)說(shuō),理解這些看似簡(jiǎn)單的攝像頭運(yùn)動(dòng)卻是一個(gè)巨大的挑戰(zhàn)。
研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:人類天生就能理解攝像頭的運(yùn)動(dòng),因?yàn)槲覀冎庇X(jué)地理解了"看不見(jiàn)的主體"——那個(gè)操控?cái)z像頭的人。當(dāng)我們看到一個(gè)搖擺不定的手持鏡頭跟蹤孩子學(xué)走路時(shí),我們能感受到父母的激動(dòng)和喜悅。但是,現(xiàn)有的計(jì)算機(jī)視覺(jué)系統(tǒng)卻難以做到這一點(diǎn)。
當(dāng)前的計(jì)算機(jī)視覺(jué)方法主要分為兩類。一類是基于結(jié)構(gòu)運(yùn)動(dòng)恢復(fù)技術(shù)的幾何方法,它們?cè)噲D通過(guò)分析畫(huà)面中可見(jiàn)的特征點(diǎn)來(lái)推算攝像頭的運(yùn)動(dòng)軌跡。另一類是大型視頻語(yǔ)言模型,它們雖然在許多任務(wù)上表現(xiàn)出色,但在理解攝像頭運(yùn)動(dòng)方面的能力卻很少被系統(tǒng)性地測(cè)試過(guò)。這就像讓一個(gè)從未學(xué)過(guò)電影制作的人去分析導(dǎo)演的鏡頭語(yǔ)言一樣困難。
為了解決這個(gè)問(wèn)題,研究團(tuán)隊(duì)開(kāi)發(fā)了一個(gè)全新的數(shù)據(jù)集和評(píng)測(cè)基準(zhǔn),叫做CameraBench。這個(gè)項(xiàng)目最特別的地方在于,它是第一個(gè)由計(jì)算機(jī)視覺(jué)研究者和專業(yè)電影攝影師共同合作開(kāi)發(fā)的攝像頭運(yùn)動(dòng)理解系統(tǒng)。
研究團(tuán)隊(duì)首先面臨的挑戰(zhàn)是如何準(zhǔn)確定義和標(biāo)注攝像頭運(yùn)動(dòng)。這比想象中要復(fù)雜得多。當(dāng)一個(gè)攝像頭從鳥(niǎo)瞰視角向下移動(dòng)時(shí),普通人可能會(huì)說(shuō)攝像頭在"向下"移動(dòng),但嚴(yán)格來(lái)說(shuō),攝像頭實(shí)際上是在沿著自己的光軸"向前"移動(dòng)。這種參考系的混亂經(jīng)常導(dǎo)致標(biāo)注錯(cuò)誤。
為了解決這個(gè)問(wèn)題,研究團(tuán)隊(duì)與專業(yè)電影攝影師密切合作,花費(fèi)三個(gè)月時(shí)間建立了一套精確的攝像頭運(yùn)動(dòng)分類體系。這套體系考慮了三種不同的參考坐標(biāo)系:以攝像頭為中心的坐標(biāo)系、以地面為參考的坐標(biāo)系,以及以物體為中心的坐標(biāo)系。同時(shí),他們?cè)敿?xì)定義了攝像頭的各種運(yùn)動(dòng)類型,包括平移運(yùn)動(dòng)如推拉鏡頭、升降鏡頭、橫移鏡頭,旋轉(zhuǎn)運(yùn)動(dòng)如搖鏡頭、傾斜鏡頭、滾動(dòng)鏡頭,內(nèi)參變化如變焦,以及復(fù)雜的物體跟蹤運(yùn)動(dòng)等。
在數(shù)據(jù)收集方面,研究團(tuán)隊(duì)從互聯(lián)網(wǎng)上精心挑選了約3000個(gè)多樣化的視頻片段,涵蓋了自然風(fēng)光、人類活動(dòng)、電影片段、廣告、游戲畫(huà)面等各種類型。這些視頻不僅類型豐富,拍攝設(shè)備也多種多樣,從專業(yè)攝影機(jī)到手機(jī)拍攝,從無(wú)人機(jī)航拍到運(yùn)動(dòng)相機(jī),應(yīng)有盡有。更重要的是,他們手動(dòng)將這些視頻分割成單一連續(xù)的鏡頭,確保每個(gè)片段都有明確定義的攝像頭運(yùn)動(dòng)。
標(biāo)注過(guò)程的質(zhì)量控制是這項(xiàng)研究的另一個(gè)重要?jiǎng)?chuàng)新。研究團(tuán)隊(duì)發(fā)現(xiàn),即使是計(jì)算機(jī)視覺(jué)領(lǐng)域的專家,在標(biāo)注攝像頭運(yùn)動(dòng)時(shí)也經(jīng)常出錯(cuò)。通過(guò)大規(guī)模的人類標(biāo)注實(shí)驗(yàn),他們發(fā)現(xiàn)具有電影攝影經(jīng)驗(yàn)的專家比普通人的標(biāo)注準(zhǔn)確率高出15%以上。更有趣的是,通過(guò)設(shè)計(jì)詳細(xì)的培訓(xùn)教程和反饋機(jī)制,普通標(biāo)注者的準(zhǔn)確率可以提升10-15%,幾乎達(dá)到專家水平。
這個(gè)培訓(xùn)系統(tǒng)包含了文字定義、視頻示例和復(fù)雜邊界情況的詳細(xì)說(shuō)明。標(biāo)注者需要完成五輪訓(xùn)練,每輪包含30個(gè)視頻的標(biāo)注任務(wù),完成后會(huì)收到詳細(xì)的錯(cuò)誤分析報(bào)告。只有成功完成所有培訓(xùn)的標(biāo)注者才能參與正式的數(shù)據(jù)標(biāo)注工作。這種嚴(yán)格的質(zhì)量控制確保了最終數(shù)據(jù)集的高質(zhì)量。
研究團(tuán)隊(duì)還設(shè)計(jì)了一套"先標(biāo)注后描述"的標(biāo)注框架。對(duì)于運(yùn)動(dòng)清晰一致的視頻,標(biāo)注者需要對(duì)每個(gè)運(yùn)動(dòng)維度進(jìn)行分類。對(duì)于運(yùn)動(dòng)模糊或存在沖突的復(fù)雜視頻,標(biāo)注者只需要標(biāo)注他們確信的部分,并提供自然語(yǔ)言描述來(lái)解釋復(fù)雜的運(yùn)動(dòng)模式。這種靈活的標(biāo)注方式既保證了數(shù)據(jù)的準(zhǔn)確性,又能處理現(xiàn)實(shí)世界中復(fù)雜多變的攝像頭運(yùn)動(dòng)。
在模型評(píng)測(cè)方面,研究團(tuán)隊(duì)設(shè)計(jì)了九種不同的評(píng)測(cè)任務(wù),涵蓋81個(gè)具體的子任務(wù)。這些任務(wù)不僅測(cè)試模型對(duì)基本運(yùn)動(dòng)類型的識(shí)別能力,還考察了它們對(duì)容易混淆的運(yùn)動(dòng)類型的辨別能力。比如,能否區(qū)分變焦(改變鏡頭焦距)和推拉鏡頭(攝像頭物理移動(dòng))?能否分辨搖鏡頭(攝像頭旋轉(zhuǎn))和橫移鏡頭(攝像頭平移)?這些看似微妙的差別對(duì)于理解導(dǎo)演的拍攝意圖至關(guān)重要。
測(cè)試結(jié)果揭示了當(dāng)前技術(shù)的局限性。傳統(tǒng)的結(jié)構(gòu)運(yùn)動(dòng)恢復(fù)方法在動(dòng)態(tài)場(chǎng)景或低視差場(chǎng)景中表現(xiàn)不佳,經(jīng)常無(wú)法收斂或產(chǎn)生錯(cuò)誤的運(yùn)動(dòng)估計(jì)。它們?cè)跈z測(cè)語(yǔ)義層面的運(yùn)動(dòng)模式時(shí)尤其困難,比如識(shí)別跟蹤鏡頭的拍攝意圖。相比之下,大型視頻語(yǔ)言模型在語(yǔ)義理解方面表現(xiàn)更好,但在精確的幾何運(yùn)動(dòng)估計(jì)上還有待提升。
特別值得注意的是,研究團(tuán)隊(duì)發(fā)現(xiàn)學(xué)習(xí)型的結(jié)構(gòu)運(yùn)動(dòng)恢復(fù)方法如MegaSAM比傳統(tǒng)的COLMAP方法表現(xiàn)好得多,準(zhǔn)確率提升了1-2倍。這說(shuō)明深度學(xué)習(xí)技術(shù)在處理復(fù)雜動(dòng)態(tài)場(chǎng)景方面確實(shí)有顯著優(yōu)勢(shì)。但即使是最好的方法,整體準(zhǔn)確率也只有約50%,說(shuō)明這個(gè)問(wèn)題的挑戰(zhàn)性。
在視頻語(yǔ)言模型方面,研究團(tuán)隊(duì)發(fā)現(xiàn)生成式模型如GPT-4o比判別式模型表現(xiàn)更好。這促使他們嘗試在自己的數(shù)據(jù)集上微調(diào)視頻語(yǔ)言模型。令人驚喜的是,即使只使用約1400個(gè)高質(zhì)量標(biāo)注視頻進(jìn)行微調(diào),模型性能就能提升1-2倍,在某些任務(wù)上甚至達(dá)到了與最好的幾何方法相當(dāng)?shù)乃健?/p>
這個(gè)微調(diào)過(guò)程也揭示了一些有趣的發(fā)現(xiàn)。比如,使用更高的幀率采樣能夠持續(xù)提升模型性能,說(shuō)明時(shí)間信息對(duì)于運(yùn)動(dòng)理解的重要性。同時(shí),完整的模型微調(diào)比參數(shù)高效的LoRA微調(diào)效果更好,雖然計(jì)算成本更高,但能夠更好地學(xué)習(xí)復(fù)雜的運(yùn)動(dòng)模式。
研究團(tuán)隊(duì)還發(fā)現(xiàn),某些類型的運(yùn)動(dòng)對(duì)所有模型來(lái)說(shuō)都特別困難。比如滾動(dòng)鏡頭,由于在互聯(lián)網(wǎng)視頻中出現(xiàn)頻率很低,即使是大型預(yù)訓(xùn)練模型也難以準(zhǔn)確識(shí)別。這說(shuō)明數(shù)據(jù)分布的長(zhǎng)尾特性是這個(gè)領(lǐng)域面臨的普遍挑戰(zhàn)。
為了驗(yàn)證微調(diào)模型的實(shí)際效果,研究團(tuán)隊(duì)在多個(gè)下游任務(wù)上進(jìn)行了測(cè)試,包括視頻描述生成、視頻文本檢索和視頻問(wèn)答。結(jié)果顯示,經(jīng)過(guò)攝像頭運(yùn)動(dòng)理解訓(xùn)練的模型在這些任務(wù)上都有顯著提升,說(shuō)明攝像頭運(yùn)動(dòng)理解能力確實(shí)有助于更全面的視頻理解。
在視頻描述任務(wù)中,微調(diào)后的模型能夠生成更準(zhǔn)確、更專業(yè)的攝像頭運(yùn)動(dòng)描述。比如,對(duì)于一個(gè)復(fù)雜的無(wú)人機(jī)拍攝場(chǎng)景,普通模型可能只會(huì)說(shuō)"攝像頭在移動(dòng)",而微調(diào)后的模型能夠準(zhǔn)確描述"攝像頭以逆時(shí)針?lè)较颦h(huán)繞拍攝,同時(shí)保持對(duì)中心人物的跟蹤"。
這項(xiàng)研究的意義不僅在于技術(shù)突破,更在于它為未來(lái)的視頻理解和生成技術(shù)奠定了基礎(chǔ)。隨著AI視頻生成技術(shù)的快速發(fā)展,能夠理解和控制攝像頭運(yùn)動(dòng)將成為創(chuàng)建高質(zhì)量、具有電影感視頻內(nèi)容的關(guān)鍵能力。
研究團(tuán)隊(duì)已經(jīng)將完整的數(shù)據(jù)集、模型代碼、標(biāo)注指南和分析結(jié)果開(kāi)源,希望推動(dòng)整個(gè)領(lǐng)域的發(fā)展。他們相信,通過(guò)結(jié)合幾何方法和語(yǔ)言模型的互補(bǔ)優(yōu)勢(shì),未來(lái)的系統(tǒng)將能夠像人類一樣自然地理解視頻中的攝像頭運(yùn)動(dòng),并將這種理解應(yīng)用到更廣泛的視頻分析和創(chuàng)作任務(wù)中。
這項(xiàng)研究也為電影制作、視頻編輯、虛擬現(xiàn)實(shí)等應(yīng)用領(lǐng)域帶來(lái)了新的可能性。未來(lái),AI系統(tǒng)可能能夠自動(dòng)分析電影的鏡頭語(yǔ)言,為新手導(dǎo)演提供拍攝建議,或者在視頻游戲中創(chuàng)造更有電影感的鏡頭運(yùn)動(dòng)。隨著技術(shù)的進(jìn)一步發(fā)展,我們有望看到AI在視覺(jué)敘事方面達(dá)到新的高度。
Q&A
Q1:CameraBench是什么?它能做什么? A:CameraBench是由卡耐基梅隆大學(xué)等機(jī)構(gòu)開(kāi)發(fā)的首個(gè)專門(mén)用于評(píng)測(cè)AI理解視頻中攝像頭運(yùn)動(dòng)能力的數(shù)據(jù)集和基準(zhǔn)測(cè)試。它包含約3000個(gè)標(biāo)注視頻,可以測(cè)試AI模型是否能像人類一樣理解推拉鏡頭、搖攝、跟蹤拍攝等各種攝像頭運(yùn)動(dòng)類型,為改進(jìn)視頻理解和生成技術(shù)提供重要工具。
Q2:現(xiàn)有的AI模型會(huì)不會(huì)理解攝像頭運(yùn)動(dòng)? A:目前的AI模型在理解攝像頭運(yùn)動(dòng)方面還存在明顯局限。傳統(tǒng)的幾何方法準(zhǔn)確率只有約50%,在動(dòng)態(tài)場(chǎng)景中經(jīng)常失效。大型視頻語(yǔ)言模型雖然在語(yǔ)義理解方面較好,但幾何精度不足。不過(guò),通過(guò)專門(mén)的訓(xùn)練,模型性能可以提升1-2倍,說(shuō)明這個(gè)問(wèn)題是可以解決的。
Q3:這項(xiàng)研究有什么實(shí)際應(yīng)用價(jià)值? A:這項(xiàng)研究為多個(gè)領(lǐng)域帶來(lái)實(shí)際價(jià)值:在電影制作中可以自動(dòng)分析鏡頭語(yǔ)言、為導(dǎo)演提供拍攝建議;在視頻編輯中可以智能識(shí)別和分類不同類型的鏡頭;在AI視頻生成中可以更好地控制攝像頭運(yùn)動(dòng),創(chuàng)造更有電影感的內(nèi)容;在虛擬現(xiàn)實(shí)和游戲中可以設(shè)計(jì)更自然的鏡頭運(yùn)動(dòng)。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語(yǔ)言模型的敘事推理能力與音頻生成技術(shù),通過(guò)交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開(kāi)辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過(guò)讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問(wèn)題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語(yǔ)言模型人性化對(duì)話問(wèn)題。該研究創(chuàng)建了包含20萬(wàn)高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過(guò)創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開(kāi)發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過(guò)學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來(lái)了效率和精度的雙重突破。