av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁 新加坡國(guó)大團(tuán)隊(duì)重磅突破:讓AI學(xué)會(huì)看直播解說,5百萬視頻打造史上最強(qiáng)實(shí)時(shí)視頻評(píng)論員

新加坡國(guó)大團(tuán)隊(duì)重磅突破:讓AI學(xué)會(huì)看直播解說,5百萬視頻打造史上最強(qiáng)實(shí)時(shí)視頻評(píng)論員

2025-07-14 09:46
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-07-14 09:46 ? 科技行者

這項(xiàng)由新加坡國(guó)立大學(xué)Show Lab實(shí)驗(yàn)室的Joya Chen、Ziyun Zeng、Yiqi Lin以及字節(jié)跳動(dòng)的Wei Li、Zejun Ma、Mike Zheng Shou領(lǐng)導(dǎo)的研究發(fā)表于2025年,論文標(biāo)題為"Live: Learning Video LLM with Streaming Speech Transcription at Scale"。這項(xiàng)研究開創(chuàng)了一個(gè)全新的領(lǐng)域——讓人工智能學(xué)會(huì)像人類解說員一樣實(shí)時(shí)觀看視頻并提供精彩解說,有興趣深入了解的讀者可以通過項(xiàng)目網(wǎng)站showlab.github.io/livecc訪問完整資料。

想象這樣一個(gè)場(chǎng)景:當(dāng)你打開電視觀看奧運(yùn)會(huì)籃球決賽時(shí),屏幕上不僅有精彩的比賽畫面,還有一位AI解說員正在實(shí)時(shí)解說比賽的每一個(gè)細(xì)節(jié)。這位AI解說員能夠準(zhǔn)確識(shí)別出是誰在投籃,能夠捕捉到每一次傳球的精妙時(shí)機(jī),甚至能夠預(yù)測(cè)接下來可能發(fā)生的戰(zhàn)術(shù)變化。這聽起來像科幻電影的情節(jié),但新加坡國(guó)立大學(xué)的研究團(tuán)隊(duì)已經(jīng)把這個(gè)想象變成了現(xiàn)實(shí)。

傳統(tǒng)的AI視頻理解就像是讓一個(gè)人看完整部電影后才能說出觀后感,而這項(xiàng)新研究則讓AI學(xué)會(huì)了邊看邊說,就像真正的體育解說員一樣。這個(gè)突破的關(guān)鍵在于,研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)被大多數(shù)人忽視的寶藏——YouTube視頻中的字幕數(shù)據(jù)。這些字幕不僅包含了說話的內(nèi)容,更重要的是它們精確記錄了每句話對(duì)應(yīng)的時(shí)間戳,就像是給AI準(zhǔn)備了一本超級(jí)詳細(xì)的"觀看指南"。

研究團(tuán)隊(duì)面臨的第一個(gè)挑戰(zhàn)就像是要在汪洋大海中尋找珍珠。他們需要從YouTube上千萬個(gè)視頻中篩選出真正有價(jià)值的訓(xùn)練材料。這個(gè)過程就像是一個(gè)超級(jí)嚴(yán)格的美食評(píng)委,需要對(duì)每一個(gè)視頻"品嘗"后才能決定是否合格。他們?cè)O(shè)置了極其嚴(yán)格的篩選標(biāo)準(zhǔn):視頻畫質(zhì)必須達(dá)到480p以上,時(shí)長(zhǎng)在30秒到10分鐘之間,必須有英文字幕和標(biāo)題,而且字幕內(nèi)容必須與視頻畫面高度相關(guān)。

經(jīng)過這番精挑細(xì)選,研究團(tuán)隊(duì)最終從570萬個(gè)候選視頻中篩選出了500萬個(gè)高質(zhì)量視頻,構(gòu)建了名為L(zhǎng)ive-CC-5M的超大規(guī)模訓(xùn)練數(shù)據(jù)集。這就像是為AI準(zhǔn)備了一個(gè)包含500萬集不同節(jié)目的"視頻大學(xué)",涵蓋了體育賽事、科學(xué)教育、新聞報(bào)道、汽車、游戲等七大類別的內(nèi)容。

這個(gè)AI模型的訓(xùn)練過程可以比作教一個(gè)孩子學(xué)說話的過程,但是要復(fù)雜得多。傳統(tǒng)的AI學(xué)習(xí)方式就像是讓孩子先看完一整本圖畫書,然后一口氣把故事復(fù)述出來。而這個(gè)新方法則是讓AI學(xué)會(huì)一邊翻頁一邊講故事,每看到新的一頁就能立即說出相應(yīng)的內(nèi)容。

具體來說,研究團(tuán)隊(duì)將視頻按每秒2幀的速度分解,然后將每一幀圖像與對(duì)應(yīng)時(shí)間段內(nèi)的解說詞精確配對(duì)。這個(gè)過程就像是制作一本精密的連環(huán)畫,每一格畫面都配有對(duì)應(yīng)的文字說明,而且時(shí)間精確到毫秒級(jí)別。AI需要學(xué)會(huì)的就是看到畫面后立即說出恰當(dāng)?shù)慕庹f詞,就像人類解說員那樣反應(yīng)迅速。

為了讓AI學(xué)得更好,研究團(tuán)隊(duì)還加入了"上下文記憶"功能。這就像是給AI配備了一個(gè)小筆記本,讓它能夠記住之前說過的話和視頻的標(biāo)題,這樣在解說時(shí)就能保持邏輯連貫性,不會(huì)出現(xiàn)前言不搭后語的尷尬情況。

訓(xùn)練完成的LiveCC-7B模型展現(xiàn)出了驚人的能力。在巴黎奧運(yùn)會(huì)男籃決賽的視頻中,這個(gè)AI解說員能夠準(zhǔn)確識(shí)別出法國(guó)隊(duì)和美國(guó)隊(duì)的球員,實(shí)時(shí)報(bào)告比分變化,捕捉到庫里的后撤步三分球,甚至能夠描述防守戰(zhàn)術(shù)的變化。整個(gè)解說過程的延遲不到0.5秒,幾乎達(dá)到了人類解說員的水平。

但是研究團(tuán)隊(duì)并沒有止步于此。他們意識(shí)到需要一個(gè)專門的評(píng)估標(biāo)準(zhǔn)來衡量AI實(shí)時(shí)解說的質(zhì)量,因?yàn)閭鹘y(tǒng)的視頻理解評(píng)估方法并不適用于這種新型的應(yīng)用場(chǎng)景。就像評(píng)價(jià)廚師的水平不能只看菜的外觀,還要品嘗味道一樣,評(píng)價(jià)AI解說員也需要專門設(shè)計(jì)的評(píng)估體系。

于是,他們創(chuàng)建了LiveSports-3K基準(zhǔn)測(cè)試,這是一個(gè)專門針對(duì)實(shí)時(shí)視頻解說能力的評(píng)估系統(tǒng)。這個(gè)測(cè)試包含了3000個(gè)體育視頻片段,涵蓋49種不同的體育項(xiàng)目,從籃球、足球到射箭、攀巖,應(yīng)有盡有。每個(gè)視頻片段都經(jīng)過人工篩選,確保解說內(nèi)容與畫面高度相關(guān)。

評(píng)估過程采用了一種創(chuàng)新的"AI裁判"機(jī)制。研究團(tuán)隊(duì)讓GPT-4o扮演專業(yè)評(píng)委的角色,對(duì)不同AI模型生成的解說進(jìn)行盲評(píng),就像奧運(yùn)會(huì)的體操比賽評(píng)分一樣公正客觀。評(píng)委會(huì)從語義準(zhǔn)確性和風(fēng)格一致性兩個(gè)維度進(jìn)行評(píng)判,確保評(píng)估結(jié)果的可靠性。

為了進(jìn)一步驗(yàn)證AI的理解能力,研究團(tuán)隊(duì)還設(shè)計(jì)了一套問答測(cè)試。這套測(cè)試將每個(gè)體育事件分解為三個(gè)基本要素:誰(Who)、何時(shí)(When)、何事(What)。通過交叉提問的方式,比如"當(dāng)34號(hào)球員等待時(shí),是誰在投籃?""紅帽子選手是什么時(shí)候舉手的?""紅帽子選手投籃后做了什么?",來全面檢驗(yàn)AI對(duì)視頻內(nèi)容的理解深度。

實(shí)驗(yàn)結(jié)果令人振奮。LiveCC-7B模型在實(shí)時(shí)解說質(zhì)量上達(dá)到了41.5%的勝率,這意味著在與GPT-4o生成的解說進(jìn)行對(duì)比時(shí),有超過四成的情況下人類評(píng)委認(rèn)為L(zhǎng)iveCC的解說更優(yōu)秀。更令人驚訝的是,即使是沒有經(jīng)過指令微調(diào)的基礎(chǔ)版本LiveCC-7B-Base,其解說質(zhì)量也達(dá)到了43.2%的勝率,這說明僅僅通過觀看大量帶字幕的視頻,AI就能學(xué)會(huì)相當(dāng)不錯(cuò)的實(shí)時(shí)解說能力。

在傳統(tǒng)視頻問答任務(wù)上,LiveCC同樣表現(xiàn)出色。在VideoMME、MVBench、OVOBench等多個(gè)權(quán)威測(cè)試中,LiveCC-7B-Instruct都取得了同等參數(shù)規(guī)模模型中的最優(yōu)成績(jī),甚至在某些測(cè)試中超越了參數(shù)量高達(dá)72B的大型模型。這就像是一個(gè)7歲的天才兒童在智力競(jìng)賽中擊敗了成年人一樣令人印象深刻。

特別值得一提的是,LiveCC模型的響應(yīng)速度極快。當(dāng)其他模型需要20秒才能完成一段視頻的解說時(shí),LiveCC只需要0.17秒就能給出回應(yīng)。這種閃電般的反應(yīng)速度使得真正的實(shí)時(shí)應(yīng)用成為可能,用戶幾乎感覺不到任何延遲。

研究團(tuán)隊(duì)還發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:AI解說員生成的內(nèi)容在風(fēng)格和節(jié)奏上更接近人類解說員。傳統(tǒng)的視頻描述AI往往會(huì)生成冗長(zhǎng)而正式的描述,就像在寫學(xué)術(shù)報(bào)告一樣;而LiveCC生成的解說則更加口語化、節(jié)奏感更強(qiáng),更符合人類聽眾的期待。這是因?yàn)樗鼘W(xué)習(xí)的素材本身就是人類解說員的真實(shí)語言,而不是書面描述文本。

這項(xiàng)研究的創(chuàng)新之處不僅在于技術(shù)突破,更在于它開辟了一個(gè)全新的應(yīng)用領(lǐng)域。想象一下,這種技術(shù)可以應(yīng)用到多種場(chǎng)景中:為聽障人士提供實(shí)時(shí)的視頻內(nèi)容解說,為體育比賽制作多語言解說,為教育視頻生成個(gè)性化的講解,甚至為老年人觀看電視節(jié)目時(shí)提供額外的背景信息。

在數(shù)據(jù)處理方面,研究團(tuán)隊(duì)展現(xiàn)了工程師般的嚴(yán)謹(jǐn)態(tài)度。他們不僅要處理海量的視頻數(shù)據(jù),還要確保每一個(gè)訓(xùn)練樣本的質(zhì)量。比如,他們使用了先進(jìn)的說話人檢測(cè)技術(shù)來過濾掉那些主要是"對(duì)著鏡頭說話"的視頻,因?yàn)檫@類視頻的解說往往與畫面內(nèi)容關(guān)聯(lián)度不高。他們還通過語言模型來評(píng)估字幕文本的質(zhì)量,確保訓(xùn)練數(shù)據(jù)既不會(huì)太簡(jiǎn)單(讓AI學(xué)不到東西)也不會(huì)太復(fù)雜(讓AI學(xué)不會(huì))。

為了進(jìn)一步提升數(shù)據(jù)質(zhì)量,研究團(tuán)隊(duì)還專門構(gòu)建了Live-WhisperX-526K數(shù)據(jù)集,這是一個(gè)用于模型精調(diào)的高質(zhì)量數(shù)據(jù)集。與使用原始YouTube字幕的訓(xùn)練數(shù)據(jù)不同,這個(gè)數(shù)據(jù)集使用了更先進(jìn)的WhisperX語音識(shí)別技術(shù)重新生成字幕,確保了時(shí)間戳的精確性和文本的準(zhǔn)確性。

模型的架構(gòu)設(shè)計(jì)也頗具巧思。LiveCC基于Qwen2-VL模型進(jìn)行改進(jìn),就像是在一臺(tái)高性能跑車的基礎(chǔ)上安裝了專業(yè)的賽車套件。它采用了密集交錯(cuò)的序列處理方式,將視頻幀和對(duì)應(yīng)的解說詞按時(shí)間順序精密排列,這種設(shè)計(jì)使得模型能夠?qū)W習(xí)到視覺內(nèi)容和語言之間精確的時(shí)序?qū)?yīng)關(guān)系。

在推理階段,LiveCC采用了一種類似"邊看邊說"的機(jī)制。它會(huì)緩存之前處理過的視覺幀和生成的文本,這樣在處理新的視頻幀時(shí)就能保持上下文的連貫性。為了處理長(zhǎng)視頻,模型還具備了"遺忘"機(jī)制,會(huì)定期清理過于久遠(yuǎn)的視覺信息,但保留重要的文本上下文,確保既不會(huì)因?yàn)樾畔⑦^載而變慢,也不會(huì)因?yàn)檫z忘重要信息而出錯(cuò)。

研究團(tuán)隊(duì)進(jìn)行了大量的對(duì)比實(shí)驗(yàn)來驗(yàn)證他們方法的有效性。他們發(fā)現(xiàn),傳統(tǒng)的"先看完再說"的訓(xùn)練方式雖然在一般視頻問答任務(wù)上表現(xiàn)不錯(cuò),但在實(shí)時(shí)解說任務(wù)上卻力不從心。而他們提出的"邊看邊說"訓(xùn)練方式則在兩個(gè)任務(wù)上都取得了優(yōu)異的表現(xiàn),這說明了新方法的優(yōu)越性。

他們還探索了不同數(shù)據(jù)規(guī)模對(duì)模型性能的影響。實(shí)驗(yàn)結(jié)果顯示,在解說質(zhì)量方面,數(shù)據(jù)規(guī)模越大效果越好,但在傳統(tǒng)視頻問答任務(wù)上,數(shù)據(jù)規(guī)模超過500萬后性能開始下降。這個(gè)發(fā)現(xiàn)提醒我們,AI訓(xùn)練中的"多多益善"原則并不總是成立,需要在不同任務(wù)之間找到平衡點(diǎn)。

上下文信息的作用也得到了充分驗(yàn)證。當(dāng)模型能夠獲得視頻標(biāo)題和之前的解說內(nèi)容作為背景信息時(shí),生成的解說質(zhì)量顯著提升。這就像人類解說員在開始解說前會(huì)先了解比賽背景和前面發(fā)生的事情一樣,背景信息對(duì)于生成連貫、準(zhǔn)確的解說至關(guān)重要。

在實(shí)際應(yīng)用的演示中,LiveCC展現(xiàn)了令人印象深刻的多樣性。在足球比賽中,它能準(zhǔn)確識(shí)別犯規(guī)動(dòng)作和戰(zhàn)術(shù)變化;在天文科普視頻中,它能正確讀出大數(shù)字并解釋天體現(xiàn)象;在天氣預(yù)報(bào)中,它能細(xì)致描述氣象圖上的變化;在技術(shù)教程中,它甚至能充當(dāng)虛擬老師,指導(dǎo)用戶進(jìn)行操作。

這種多樣性反映了模型訓(xùn)練數(shù)據(jù)的豐富性。由于訓(xùn)練數(shù)據(jù)涵蓋了YouTube上各種類型的視頻內(nèi)容,LiveCC學(xué)會(huì)了適應(yīng)不同場(chǎng)景和風(fēng)格的解說需求。它不是一個(gè)專門針對(duì)某種特定內(nèi)容的AI,而是一個(gè)具有廣泛適應(yīng)性的通用實(shí)時(shí)解說系統(tǒng)。

研究團(tuán)隊(duì)還特別關(guān)注了模型的公平性和安全性。他們?cè)跀?shù)據(jù)收集過程中注意避免可能存在偏見的內(nèi)容,并在模型訓(xùn)練中加入了相應(yīng)的約束機(jī)制。雖然論文中沒有詳細(xì)描述這些措施,但從他們嚴(yán)格的數(shù)據(jù)篩選流程可以看出,研究團(tuán)隊(duì)對(duì)這些問題給予了充分重視。

從技術(shù)發(fā)展的角度來看,這項(xiàng)研究標(biāo)志著視頻AI從"被動(dòng)理解"向"主動(dòng)解說"的重要轉(zhuǎn)變。過去的視頻AI更像是一個(gè)默默觀察的學(xué)生,只有在被問到問題時(shí)才會(huì)回答;而現(xiàn)在的LiveCC更像是一個(gè)主動(dòng)的解說員,能夠持續(xù)不斷地提供有價(jià)值的信息和觀點(diǎn)。

這種轉(zhuǎn)變的意義不僅僅在于技術(shù)層面,更在于它改變了人機(jī)交互的模式。以往用戶需要主動(dòng)詢問AI來獲取信息,現(xiàn)在AI能夠主動(dòng)提供實(shí)時(shí)的解說和分析。這種模式更符合人類在觀看視頻時(shí)的自然需求——我們往往希望有人能夠解釋正在發(fā)生的事情,提供背景信息,或者分享有趣的觀點(diǎn)。

當(dāng)然,這項(xiàng)技術(shù)也面臨著一些挑戰(zhàn)和限制。首先是計(jì)算資源的需求。雖然LiveCC的響應(yīng)速度很快,但處理高質(zhì)量視頻仍然需要相當(dāng)?shù)挠?jì)算能力。其次是語言和文化的局限性。目前的模型主要基于英文內(nèi)容訓(xùn)練,對(duì)其他語言和文化背景的適應(yīng)性還有待驗(yàn)證。

此外,實(shí)時(shí)解說的準(zhǔn)確性雖然已經(jīng)相當(dāng)不錯(cuò),但仍然可能出現(xiàn)錯(cuò)誤,特別是在復(fù)雜場(chǎng)景或快速變化的情況下。這就要求在實(shí)際應(yīng)用中需要有適當(dāng)?shù)募m錯(cuò)機(jī)制和用戶反饋系統(tǒng)。

盡管存在這些挑戰(zhàn),這項(xiàng)研究的前景依然令人興奮。隨著技術(shù)的不斷改進(jìn)和應(yīng)用場(chǎng)景的擴(kuò)展,我們可以期待看到更多基于這項(xiàng)技術(shù)的創(chuàng)新應(yīng)用。比如,智能教育系統(tǒng)可以為學(xué)生提供個(gè)性化的視頻解說,幫助他們更好地理解學(xué)習(xí)內(nèi)容;體育轉(zhuǎn)播可以提供多種風(fēng)格的解說選擇,滿足不同觀眾的喜好;甚至在醫(yī)療培訓(xùn)中,AI解說員可以為醫(yī)學(xué)生解釋手術(shù)視頻中的關(guān)鍵步驟和技巧。

從商業(yè)角度來看,這項(xiàng)技術(shù)也具有巨大的市場(chǎng)潛力。視頻內(nèi)容的爆炸式增長(zhǎng)催生了對(duì)自動(dòng)化內(nèi)容解說的強(qiáng)烈需求。無論是視頻平臺(tái)、教育機(jī)構(gòu)還是媒體公司,都可能成為這項(xiàng)技術(shù)的潛在用戶。特別是在全球化的今天,能夠自動(dòng)生成多語言解說的AI系統(tǒng)將具有極高的商業(yè)價(jià)值。

說到底,這項(xiàng)研究最重要的貢獻(xiàn)在于它打開了AI實(shí)時(shí)視頻理解的新篇章。它不僅證明了通過大規(guī)模ASR數(shù)據(jù)訓(xùn)練的可行性,更重要的是展示了AI在實(shí)時(shí)多模態(tài)理解方面的巨大潛力。就像當(dāng)年智能手機(jī)的出現(xiàn)徹底改變了人們的生活方式一樣,實(shí)時(shí)視頻解說AI也可能在不久的將來成為我們數(shù)字生活中不可或缺的一部分。

這個(gè)研究讓我們看到了一個(gè)未來的可能性:AI不再只是一個(gè)被動(dòng)的工具,而是一個(gè)能夠主動(dòng)理解、解釋和分享信息的智能伙伴。當(dāng)你觀看一場(chǎng)精彩的比賽、學(xué)習(xí)一門新技能或者欣賞一部紀(jì)錄片時(shí),身邊都可能有一個(gè)知識(shí)淵博、反應(yīng)迅速的AI解說員陪伴,讓每一次觀看體驗(yàn)都變得更加豐富和有意義。有興趣深入了解技術(shù)細(xì)節(jié)的讀者,可以訪問項(xiàng)目官網(wǎng)showlab.github.io/livecc獲取更多資料和演示視頻。

Q&A

Q1:LiveCC是什么?它能做什么? A:LiveCC是新加坡國(guó)立大學(xué)開發(fā)的AI實(shí)時(shí)視頻解說系統(tǒng),它能像人類解說員一樣邊看視頻邊提供解說。它可以實(shí)時(shí)識(shí)別視頻中的人物、動(dòng)作和事件,并以不到0.5秒的延遲生成相應(yīng)的解說內(nèi)容,適用于體育賽事、教育視頻、新聞報(bào)道等多種場(chǎng)景。

Q2:LiveCC會(huì)不會(huì)取代人類解說員? A:目前不會(huì)完全取代,但會(huì)成為強(qiáng)有力的輔助工具。LiveCC更適合提供基礎(chǔ)的實(shí)時(shí)解說和信息補(bǔ)充,而人類解說員在情感表達(dá)、專業(yè)分析和創(chuàng)意解說方面仍有不可替代的優(yōu)勢(shì)。兩者結(jié)合使用能提供更好的觀看體驗(yàn)。

Q3:普通人如何使用LiveCC技術(shù)? A:目前LiveCC還處于研究階段,普通用戶暫時(shí)無法直接使用。不過研究團(tuán)隊(duì)已經(jīng)開源了相關(guān)代碼和數(shù)據(jù),開發(fā)者可以通過項(xiàng)目網(wǎng)站showlab.github.io/livecc獲取資源。未來可能會(huì)有基于這項(xiàng)技術(shù)的商業(yè)產(chǎn)品出現(xiàn)在視頻平臺(tái)或教育應(yīng)用中。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-