這項(xiàng)由英國(guó)布里斯托大學(xué)和Memories.ai Research共同完成的研究發(fā)表于2025年7月,研究團(tuán)隊(duì)包括吳佩然、劉云澤、朱正棟、周恩民和沈肖恩。論文標(biāo)題為"UGC-VideoCaptioner: An Omni UGC Video Detail Caption Model and New Benchmarks",對(duì)于想要深入了解技術(shù)細(xì)節(jié)的讀者,可以通過arXiv:2507.11336v1訪問完整論文。
每當(dāng)你刷TikTok時(shí),是否想過為什么有些視頻即使沒有字幕,你也能完全理解其中的精彩內(nèi)容?這是因?yàn)槲覀兊拇竽X能夠同時(shí)處理視覺和聽覺信息,將看到的畫面和聽到的聲音完美融合在一起。然而,對(duì)于人工智能來說,這卻是一個(gè)極大的挑戰(zhàn)。
想象一下,你讓一個(gè)只會(huì)看圖片的人去描述一段音樂視頻,他可能會(huì)說"我看到一個(gè)人在動(dòng)嘴,背景有樂器",但完全錯(cuò)過了音樂的節(jié)奏感和情緒表達(dá)。這就是目前大多數(shù)AI視頻理解系統(tǒng)面臨的困境——它們就像"聾子"一樣,只能通過視覺信息來理解視頻內(nèi)容。
當(dāng)前的AI視頻理解技術(shù)就像一個(gè)色盲的畫家,只能看到黑白世界卻要描述彩色畫作?,F(xiàn)有的視頻分析系統(tǒng)主要依賴視覺信息,完全忽略了音頻在視頻理解中的關(guān)鍵作用。這種局限性在用戶生成內(nèi)容(UGC)平臺(tái)上尤為明顯,因?yàn)門ikTok、YouTube等平臺(tái)上的視頻往往音畫并茂,缺少任何一個(gè)維度都無法完整理解視頻內(nèi)容。
研究團(tuán)隊(duì)發(fā)現(xiàn),現(xiàn)有的視頻理解基準(zhǔn)測(cè)試就像只考語文不考數(shù)學(xué)的綜合考試,無法全面評(píng)估AI的真實(shí)能力。即使是最先進(jìn)的大型語言模型,在處理音頻和視頻結(jié)合的內(nèi)容時(shí)也顯得力不從心。更重要的是,市面上缺乏專門針對(duì)短視頻場(chǎng)景的高質(zhì)量數(shù)據(jù)集,這就像想要訓(xùn)練一個(gè)廚師卻沒有提供任何食譜一樣。
為了解決這個(gè)問題,研究團(tuán)隊(duì)開發(fā)了一個(gè)名為"UGC-VideoCap"的全新基準(zhǔn)測(cè)試系統(tǒng),同時(shí)創(chuàng)建了一個(gè)能夠同時(shí)理解音頻和視頻的AI模型"UGC-VideoCaptioner"。這就像為AI裝上了一雙"慧眼"和一對(duì)"靈耳",讓它能夠像人類一樣全面理解視頻內(nèi)容。
一、重新定義視頻理解的標(biāo)準(zhǔn)
傳統(tǒng)的視頻理解評(píng)估就像只看菜品外觀不品嘗味道的美食評(píng)審,無法全面評(píng)判作品質(zhì)量。研究團(tuán)隊(duì)構(gòu)建的UGC-VideoCap基準(zhǔn)測(cè)試系統(tǒng)徹底改變了這種局面,它包含了1000個(gè)精心選擇的TikTok短視頻,每個(gè)視頻都不超過60秒,但包含至少5秒的有意義音頻內(nèi)容。
這個(gè)基準(zhǔn)測(cè)試的構(gòu)建過程就像制作一道精美的料理,需要經(jīng)過三個(gè)精心設(shè)計(jì)的步驟。首先是"音頻調(diào)味"階段,研究人員專門分析視頻中的音頻元素,包括說話人的數(shù)量、性別、語音語調(diào)、背景音樂類型和音效等。接著是"視覺擺盤"階段,團(tuán)隊(duì)詳細(xì)標(biāo)注視頻中的視覺元素,包括文字內(nèi)容、背景變化、動(dòng)作動(dòng)態(tài)和物體類型等。最后是"綜合品鑒"階段,將音頻和視覺信息完美融合,生成一個(gè)完整而連貫的視頻描述。
整個(gè)標(biāo)注過程耗費(fèi)了超過350個(gè)小時(shí)的人工工作,就像手工制作一件藝術(shù)品一樣精細(xì)。每批50個(gè)視頻樣本都要經(jīng)過兩位專家的獨(dú)立審核,如果錯(cuò)誤率超過3%,整批樣本就會(huì)被退回重新標(biāo)注。這種嚴(yán)格的質(zhì)量控制確保了數(shù)據(jù)的準(zhǔn)確性和可靠性。
基準(zhǔn)測(cè)試包含了約4000個(gè)高質(zhì)量的問答對(duì),涵蓋三個(gè)主要類別。視覺問答關(guān)注場(chǎng)景動(dòng)態(tài)、物體存在、文字內(nèi)容和背景變化。音頻問答包括說話人特征、聲學(xué)特性和環(huán)境聲音。綜合問答則要求AI系統(tǒng)能夠綜合音頻和視覺信息,生成完整的視頻描述。
二、突破性的雙模態(tài)AI模型
UGC-VideoCaptioner就像一個(gè)同時(shí)具備藝術(shù)家眼光和音樂家聽覺的全能創(chuàng)作者。這個(gè)模型基于30億參數(shù)的Qwen2.5-Omni架構(gòu),通過創(chuàng)新的兩階段訓(xùn)練策略實(shí)現(xiàn)了卓越的性能。
模型的訓(xùn)練過程就像培養(yǎng)一個(gè)全能的視頻解說員。第一階段采用"知識(shí)蒸餾"方法,讓小模型向大模型學(xué)習(xí)。研究團(tuán)隊(duì)使用強(qiáng)大的Gemini-2.5-Flash模型作為"老師",為20000個(gè)TikTok視頻生成詳細(xì)的描述,然后讓UGC-VideoCaptioner這個(gè)"學(xué)生"模型學(xué)習(xí)如何生成類似質(zhì)量的內(nèi)容。
第二階段采用了一種叫做"群體相對(duì)策略優(yōu)化"(GRPO)的強(qiáng)化學(xué)習(xí)方法。這個(gè)過程就像讓AI參加一個(gè)視頻描述比賽,每次生成多個(gè)候選答案,然后根據(jù)質(zhì)量評(píng)分來調(diào)整生成策略。研究團(tuán)隊(duì)設(shè)計(jì)了專門的獎(jiǎng)勵(lì)機(jī)制,包括基于大語言模型的綜合評(píng)分和長(zhǎng)度控制獎(jiǎng)勵(lì)。
獎(jiǎng)勵(lì)機(jī)制的設(shè)計(jì)極其精細(xì),就像制定一個(gè)完美的考試評(píng)分標(biāo)準(zhǔn)。LLM獎(jiǎng)勵(lì)從五個(gè)維度評(píng)估視頻描述的質(zhì)量:場(chǎng)景背景的準(zhǔn)確性、人物對(duì)象的描述、音頻線索的捕捉、屏幕文字的識(shí)別和整體主題的把握。長(zhǎng)度獎(jiǎng)勵(lì)則確保生成的描述既不過于簡(jiǎn)短也不過于冗長(zhǎng),達(dá)到最佳的信息密度。
三、令人矚目的實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)結(jié)果就像一場(chǎng)精彩的體育競(jìng)賽,展現(xiàn)了不同AI模型在視頻理解任務(wù)上的表現(xiàn)差異。Gemini系列模型仍然占據(jù)領(lǐng)先地位,其中Gemini-2.5 Flash達(dá)到了76.73的綜合得分,而Gemini-2.5-pro緊隨其后,得分為73.78。
開源模型的表現(xiàn)則呈現(xiàn)出有趣的分化現(xiàn)象。Qwen2.5-Omni-7B在音頻理解方面表現(xiàn)出色,得分達(dá)到86.6,但在視覺細(xì)節(jié)識(shí)別上相對(duì)較弱。MiniCPM-o-2.6-8B在視覺任務(wù)上表現(xiàn)不錯(cuò),得分為70.4,但音頻理解能力有限。這種現(xiàn)象就像不同的專業(yè)運(yùn)動(dòng)員在各自擅長(zhǎng)的項(xiàng)目上表現(xiàn)突出,但在綜合項(xiàng)目上就顯得力不從心。
最令人印象深刻的是訓(xùn)練效率的突破。傳統(tǒng)方法需要20000個(gè)樣本才能達(dá)到的性能,新的兩階段訓(xùn)練策略僅用2000個(gè)樣本(1000個(gè)用于監(jiān)督學(xué)習(xí),1000個(gè)用于強(qiáng)化學(xué)習(xí))就能實(shí)現(xiàn)相近的效果。這就像找到了一條學(xué)習(xí)的捷徑,大大提高了訓(xùn)練效率。
具體來說,使用1000個(gè)樣本進(jìn)行監(jiān)督學(xué)習(xí)的模型比基線模型提高了6.78分,使用10000個(gè)樣本提高了7.69分,使用20000個(gè)樣本提高了8.32分。但更重要的是,結(jié)合1000個(gè)樣本的監(jiān)督學(xué)習(xí)和1000個(gè)樣本的強(qiáng)化學(xué)習(xí),模型性能提高了7.83分,幾乎達(dá)到了使用20000個(gè)樣本的效果。
四、技術(shù)創(chuàng)新的深層解讀
這項(xiàng)研究的技術(shù)創(chuàng)新就像在傳統(tǒng)的單聲道音響系統(tǒng)上升級(jí)到了立體聲環(huán)繞音響。傳統(tǒng)的視頻理解系統(tǒng)只能"看"不能"聽",而新系統(tǒng)實(shí)現(xiàn)了真正的音畫同步理解。
模型架構(gòu)的設(shè)計(jì)采用了端到端的學(xué)習(xí)方式,就像訓(xùn)練一個(gè)同時(shí)會(huì)看、會(huì)聽、會(huì)說的機(jī)器人。輸入的視頻以每秒1幀的速率處理,最多32幀,每幀像素不超過100176。音頻和視頻信號(hào)經(jīng)過特殊的編碼器處理后,被送入統(tǒng)一的語言模型進(jìn)行理解和生成。
強(qiáng)化學(xué)習(xí)部分的設(shè)計(jì)特別巧妙,采用了無需價(jià)值函數(shù)的策略優(yōu)化方法。這就像讓AI自己學(xué)會(huì)判斷什么是好的視頻描述,而不需要額外的"評(píng)審團(tuán)"。模型為每個(gè)輸入視頻生成多個(gè)候選描述,然后通過比較它們的質(zhì)量來調(diào)整生成策略。
獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)考慮了視頻描述的多個(gè)維度。場(chǎng)景背景獎(jiǎng)勵(lì)確保AI能準(zhǔn)確識(shí)別視頻的主要場(chǎng)景和背景設(shè)置。人物對(duì)象獎(jiǎng)勵(lì)關(guān)注關(guān)鍵人物或物品及其行為互動(dòng)。音頻線索獎(jiǎng)勵(lì)評(píng)估對(duì)語音、背景音樂、音效及其情感色彩的理解。文字識(shí)別獎(jiǎng)勵(lì)針對(duì)屏幕上的文字內(nèi)容及其語境作用。主題目的獎(jiǎng)勵(lì)則評(píng)估對(duì)視頻整體主題或目的的把握。
五、實(shí)際應(yīng)用的廣闊前景
這項(xiàng)技術(shù)的應(yīng)用前景就像打開了一扇通往未來的大門。在社交媒體平臺(tái)上,這種技術(shù)可以自動(dòng)為大量用戶生成的視頻添加詳細(xì)的描述和字幕,大大提高內(nèi)容的可訪問性。對(duì)于視障人士來說,這更是一個(gè)福音,他們可以通過AI生成的詳細(xì)描述來"觀看"視頻內(nèi)容。
在教育領(lǐng)域,這種技術(shù)可以自動(dòng)分析在線課程視頻,生成詳細(xì)的內(nèi)容摘要和關(guān)鍵點(diǎn)提煉。想象一下,學(xué)生可以快速了解一個(gè)小時(shí)的講座內(nèi)容,而不需要完整觀看整個(gè)視頻。在企業(yè)培訓(xùn)中,這種技術(shù)也可以幫助快速分析和分類大量的培訓(xùn)視頻。
內(nèi)容創(chuàng)作者可以利用這種技術(shù)來優(yōu)化他們的視頻內(nèi)容。AI可以分析視頻的音頻和視覺元素,提供改進(jìn)建議,幫助創(chuàng)作者制作更吸引人的內(nèi)容。平臺(tái)方也可以使用這種技術(shù)來改進(jìn)推薦算法,更準(zhǔn)確地理解用戶偏好。
在娛樂產(chǎn)業(yè),這種技術(shù)可以用于電影和電視劇的自動(dòng)字幕生成、內(nèi)容分析和觀眾反饋收集。制片人可以通過AI分析來了解哪些場(chǎng)景最吸引觀眾,哪些對(duì)話最有影響力。
六、面臨的挑戰(zhàn)與未來發(fā)展
盡管這項(xiàng)研究取得了顯著進(jìn)展,但仍面臨一些挑戰(zhàn),就像攀登高山時(shí)遇到的各種障礙。首先是計(jì)算資源的需求。訓(xùn)練這樣一個(gè)復(fù)雜的模型需要大量的計(jì)算資源,實(shí)驗(yàn)使用了8塊H200-144GB GPU,這對(duì)于普通研究機(jī)構(gòu)來說是一個(gè)不小的投入。
數(shù)據(jù)質(zhì)量和標(biāo)注成本也是一個(gè)重要考慮因素。雖然研究團(tuán)隊(duì)已經(jīng)建立了嚴(yán)格的質(zhì)量控制流程,但人工標(biāo)注仍然是一個(gè)耗時(shí)且昂貴的過程。如何在保證質(zhì)量的同時(shí)降低標(biāo)注成本,是未來需要解決的問題。
模型的泛化能力也需要進(jìn)一步提升。目前的模型主要在TikTok類型的短視頻上訓(xùn)練,對(duì)于其他類型的視頻內(nèi)容,如長(zhǎng)視頻、紀(jì)錄片或電影,可能需要額外的適應(yīng)性訓(xùn)練。
隱私和倫理問題也不容忽視。AI系統(tǒng)能夠詳細(xì)分析視頻內(nèi)容,包括識(shí)別人物、理解對(duì)話內(nèi)容等,這可能涉及用戶隱私保護(hù)問題。如何在提供有用服務(wù)的同時(shí)保護(hù)用戶隱私,是技術(shù)發(fā)展過程中必須考慮的重要議題。
研究團(tuán)隊(duì)已經(jīng)提出了幾個(gè)未來發(fā)展方向。首先是集成自動(dòng)音頻事件檢測(cè)和聲音分離技術(shù),這可以進(jìn)一步豐富音頻分析的深度。其次是增加多語言音頻和文本處理能力,使系統(tǒng)能夠處理更廣泛的全球內(nèi)容。最后是探索自適應(yīng)推理策略和模態(tài)感知注意機(jī)制,以更好地處理UGC內(nèi)容的嘈雜和異構(gòu)特性。
說到底,這項(xiàng)研究就像為AI裝上了一雙"慧眼"和一對(duì)"靈耳",讓機(jī)器能夠像人類一樣全面理解視頻內(nèi)容。雖然目前的技術(shù)還不能完全替代人類的理解能力,但它已經(jīng)在很多方面展現(xiàn)出了超越傳統(tǒng)方法的潛力。
對(duì)于普通用戶來說,這意味著未來的視頻平臺(tái)將變得更加智能和人性化。你可能不再需要手動(dòng)添加字幕或標(biāo)簽,AI會(huì)自動(dòng)理解你的視頻內(nèi)容并提供相應(yīng)的服務(wù)。對(duì)于內(nèi)容創(chuàng)作者來說,這是一個(gè)強(qiáng)大的工具,可以幫助他們更好地分析和優(yōu)化自己的作品。
這項(xiàng)研究的意義不僅在于技術(shù)本身的突破,更在于它為整個(gè)人工智能領(lǐng)域開辟了一個(gè)新的研究方向。隨著短視頻內(nèi)容的爆發(fā)式增長(zhǎng),能夠真正理解音畫結(jié)合內(nèi)容的AI系統(tǒng)將變得越來越重要。這不僅是技術(shù)的進(jìn)步,更是向真正智能化的重要一步。
對(duì)于那些對(duì)技術(shù)細(xì)節(jié)感興趣的讀者,完整的研究論文可以通過arXiv:2507.11336v1獲取,其中包含了詳細(xì)的實(shí)驗(yàn)數(shù)據(jù)、技術(shù)實(shí)現(xiàn)細(xì)節(jié)和更深入的分析。這項(xiàng)研究為我們展示了人工智能在多模態(tài)理解方面的巨大潛力,也為未來的相關(guān)研究提供了寶貴的基礎(chǔ)。
Q&A
Q1:UGC-VideoCaptioner能處理什么類型的視頻? A:UGC-VideoCaptioner主要針對(duì)1分鐘以內(nèi)的短視頻,特別是TikTok類型的用戶生成內(nèi)容。它要求視頻包含至少5秒的有意義音頻內(nèi)容,能夠同時(shí)分析視覺畫面和音頻信息,生成詳細(xì)的視頻描述。
Q2:這個(gè)AI模型會(huì)不會(huì)取代人工視頻標(biāo)注? A:目前不會(huì)完全取代,但會(huì)大大提高效率。研究顯示,使用AI輔助標(biāo)注可以減少人工工作量,但仍需要人工參與質(zhì)量控制。這更像是讓AI成為人類的助手,而不是完全替代人類的判斷。
Q3:普通用戶如何使用這項(xiàng)技術(shù)? A:目前這項(xiàng)技術(shù)主要面向研究和企業(yè)應(yīng)用,普通用戶還不能直接使用。但隨著技術(shù)的發(fā)展,未來可能會(huì)集成到視頻平臺(tái)的自動(dòng)字幕生成、內(nèi)容推薦等功能中,讓用戶在不知不覺中享受到技術(shù)帶來的便利。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對(duì)話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。