這項(xiàng)由新加坡南洋理工大學(xué)S-Lab實(shí)驗(yàn)室的胡開(kāi)睿、吳鵬昊等研究團(tuán)隊(duì),聯(lián)合卡內(nèi)基梅隆大學(xué)的岳翔教授共同完成的研究,于2025年1月23日發(fā)表在arXiv預(yù)印本平臺(tái)上。有興趣深入了解的讀者可以通過(guò)論文編號(hào)arXiv:2501.13826v1或訪問(wèn)項(xiàng)目主頁(yè)https://videommmu.github.io/獲取完整研究?jī)?nèi)容。
當(dāng)我們?nèi)祟愑^看一段教學(xué)視頻時(shí),大腦會(huì)自然而然地經(jīng)歷三個(gè)階段:首先感知視頻中的關(guān)鍵信息,然后理解其中蘊(yùn)含的知識(shí)概念,最后將學(xué)到的知識(shí)應(yīng)用到全新的問(wèn)題中。就像學(xué)習(xí)做菜一樣,我們先觀察廚師的每個(gè)動(dòng)作細(xì)節(jié),接著理解背后的烹飪?cè)恚詈竽軌蚺e一反三地制作出不同口味的菜肴。
然而,當(dāng)前被譽(yù)為"智能"的大型多模態(tài)模型在觀看教學(xué)視頻時(shí),是否也能像人類一樣真正掌握并運(yùn)用新知識(shí)呢?這個(gè)看似簡(jiǎn)單的問(wèn)題,實(shí)際上觸及了人工智能發(fā)展的核心挑戰(zhàn)。
為了回答這個(gè)問(wèn)題,研究團(tuán)隊(duì)構(gòu)建了一個(gè)名為Video-MMMU的大規(guī)模評(píng)測(cè)基準(zhǔn)。這就像為AI學(xué)生準(zhǔn)備了一場(chǎng)全面的期末考試,考試內(nèi)容涵蓋藝術(shù)、商業(yè)、科學(xué)、醫(yī)學(xué)、人文和工程六大學(xué)科領(lǐng)域,總共包含300個(gè)專家級(jí)別的教學(xué)視頻和900道精心設(shè)計(jì)的問(wèn)題。
每個(gè)視頻都配備了三種不同難度的問(wèn)題,對(duì)應(yīng)人類學(xué)習(xí)的三個(gè)認(rèn)知階段。感知類問(wèn)題就像問(wèn)學(xué)生"視頻中老師寫在黑板上的公式是什么",考查的是基礎(chǔ)信息提取能力。理解類問(wèn)題則更深入一些,比如"根據(jù)視頻中的解題方法,如果將角度從25度改為30度,結(jié)果會(huì)是什么",這需要真正理解解題原理。而適應(yīng)類問(wèn)題最具挑戰(zhàn)性,要求AI將視頻中學(xué)到的知識(shí)應(yīng)用到全新的情境中,就像學(xué)會(huì)了一種數(shù)學(xué)公式后,能夠解決完全不同的實(shí)際問(wèn)題。
研究團(tuán)隊(duì)還提出了一個(gè)創(chuàng)新的"知識(shí)增益"指標(biāo),用來(lái)量化AI在觀看視頻前后的表現(xiàn)提升程度。這個(gè)指標(biāo)就像測(cè)量一個(gè)學(xué)生上課前后的進(jìn)步幅度,能夠客觀反映視頻教學(xué)的實(shí)際效果。
當(dāng)研究人員將這套評(píng)測(cè)系統(tǒng)應(yīng)用到當(dāng)前最先進(jìn)的AI模型上時(shí),結(jié)果令人深思。人類專家在觀看視頻后,知識(shí)增益達(dá)到了33.1%,展現(xiàn)出強(qiáng)大的學(xué)習(xí)能力。相比之下,表現(xiàn)最好的GPT-4o模型只達(dá)到了15.6%的知識(shí)增益,而Claude-3.5-Sonnet模型僅為11.4%。更令人意外的是,一些模型甚至出現(xiàn)了負(fù)增長(zhǎng),意味著觀看視頻后的表現(xiàn)反而不如之前。
這種現(xiàn)象背后隱藏著深層的原因。研究團(tuán)隊(duì)通過(guò)詳細(xì)分析發(fā)現(xiàn),AI模型在處理視頻信息時(shí)存在兩個(gè)顯著問(wèn)題。首先是"對(duì)答案轉(zhuǎn)換率"與"錯(cuò)答案轉(zhuǎn)換率"之間的失衡。雖然模型能夠?qū)⒁恍┰敬疱e(cuò)的題目改正過(guò)來(lái),但同時(shí)也會(huì)將原本答對(duì)的題目改錯(cuò),而且后者的比例往往更高。這就像一個(gè)學(xué)生在復(fù)習(xí)過(guò)程中,雖然弄懂了一些之前不會(huì)的題目,但卻把原本掌握的知識(shí)搞混了。
其次,模型在適應(yīng)新場(chǎng)景時(shí)表現(xiàn)出明顯的局限性。研究人員發(fā)現(xiàn),64%的錯(cuò)誤屬于"方法適應(yīng)錯(cuò)誤",即模型能夠正確回憶視頻中的知識(shí)點(diǎn),但無(wú)法靈活地將這些知識(shí)運(yùn)用到新的問(wèn)題情境中。這就像一個(gè)學(xué)生雖然記住了老師講的例題解法,但面對(duì)變式題目時(shí)卻無(wú)法舉一反三。
為了更深入地理解這些問(wèn)題,研究團(tuán)隊(duì)還探索了音頻信息對(duì)模型表現(xiàn)的影響。結(jié)果發(fā)現(xiàn),添加音頻轉(zhuǎn)錄確實(shí)能夠改善感知和理解任務(wù)的表現(xiàn),但在適應(yīng)任務(wù)上反而出現(xiàn)了下降。這種矛盾現(xiàn)象表明,音頻信息雖然能夠豐富模型對(duì)視頻內(nèi)容的理解,但可能會(huì)干擾模型將知識(shí)應(yīng)用到新情境的能力。
在具體的學(xué)科表現(xiàn)上,AI模型在藝術(shù)和人文學(xué)科中的表現(xiàn)相對(duì)較好,這些領(lǐng)域主要涉及概念性知識(shí)的理解。然而,在科學(xué)、工程、商業(yè)和醫(yī)學(xué)等需要定量推理和復(fù)雜視覺(jué)分析的學(xué)科中,模型的表現(xiàn)明顯下降。這反映了當(dāng)前AI技術(shù)在處理抽象概念與具體應(yīng)用之間轉(zhuǎn)換方面的不足。
研究還揭示了一個(gè)有趣的現(xiàn)象:模型在處理不同類型的視頻內(nèi)容時(shí)表現(xiàn)差異很大。對(duì)于概念介紹類視頻,模型能夠較好地提取和理解核心信息。但面對(duì)問(wèn)題解決類視頻時(shí),特別是那些展示具體解題步驟的內(nèi)容,模型往往難以準(zhǔn)確掌握其中的邏輯過(guò)程并應(yīng)用到新問(wèn)題中。
為了驗(yàn)證這些發(fā)現(xiàn)的普遍性,研究團(tuán)隊(duì)測(cè)試了包括開(kāi)源和商業(yè)模型在內(nèi)的多種AI系統(tǒng)。從輕量級(jí)的LLaVA-OneVision到大型的GPT-4o,幾乎所有模型都表現(xiàn)出相似的模式:隨著認(rèn)知要求的增加,性能逐步下降,適應(yīng)能力始終是最大的短板。
這項(xiàng)研究的意義遠(yuǎn)不止于揭示當(dāng)前AI的局限性。它為我們理解人工智能的學(xué)習(xí)機(jī)制提供了新的視角,同時(shí)也指出了未來(lái)發(fā)展的方向。研究結(jié)果表明,雖然AI模型在信息處理和模式識(shí)別方面已經(jīng)達(dá)到了很高的水平,但在知識(shí)的靈活運(yùn)用和創(chuàng)新應(yīng)用方面仍有很大的提升空間。
從技術(shù)角度來(lái)看,這項(xiàng)研究為改進(jìn)大型多模態(tài)模型的訓(xùn)練方法提供了重要參考。當(dāng)前的模型訓(xùn)練更多關(guān)注的是信息的準(zhǔn)確獲取和存儲(chǔ),但如何讓模型真正"理解"知識(shí)并靈活運(yùn)用,仍然是一個(gè)待解決的挑戰(zhàn)。
從教育應(yīng)用的角度來(lái)看,這項(xiàng)研究也提醒我們,雖然AI技術(shù)在教育領(lǐng)域展現(xiàn)出巨大潛力,但要讓AI真正成為有效的學(xué)習(xí)助手,還需要在知識(shí)遷移和應(yīng)用能力方面取得突破。目前的AI更像是一個(gè)記憶力超強(qiáng)但缺乏靈活性的學(xué)生,能夠準(zhǔn)確復(fù)述老師講過(guò)的內(nèi)容,但在面對(duì)新問(wèn)題時(shí)往往顯得手足無(wú)措。
這項(xiàng)研究的另一個(gè)重要貢獻(xiàn)是建立了一個(gè)標(biāo)準(zhǔn)化的評(píng)測(cè)框架。Video-MMMU基準(zhǔn)不僅為當(dāng)前AI模型的能力評(píng)估提供了工具,也為未來(lái)的技術(shù)改進(jìn)指明了方向。通過(guò)這個(gè)基準(zhǔn),研究人員可以更準(zhǔn)確地衡量模型在視頻理解和知識(shí)應(yīng)用方面的真實(shí)水平,避免被表面的高分?jǐn)?shù)所誤導(dǎo)。
值得注意的是,人類在這項(xiàng)評(píng)測(cè)中表現(xiàn)出的卓越能力再次證明了人類學(xué)習(xí)的獨(dú)特之處。人類不僅能夠從視頻中高效提取信息,還能夠?qū)W(xué)到的知識(shí)與已有經(jīng)驗(yàn)結(jié)合,創(chuàng)造性地解決新問(wèn)題。這種能力的背后是數(shù)十年教育經(jīng)驗(yàn)和認(rèn)知發(fā)展的積累,而當(dāng)前的AI模型顯然還沒(méi)有達(dá)到這樣的水平。
從更廣闊的視角來(lái)看,這項(xiàng)研究觸及了人工智能發(fā)展中的一個(gè)核心問(wèn)題:如何讓機(jī)器真正具備類人的學(xué)習(xí)能力。雖然當(dāng)前的AI在許多特定任務(wù)上已經(jīng)超越了人類,但在通用學(xué)習(xí)能力方面仍有很大差距。Video-MMMU的研究成果提醒我們,真正的人工智能不僅要能夠處理信息,更要能夠像人類一樣從經(jīng)驗(yàn)中學(xué)習(xí),并將知識(shí)靈活應(yīng)用到新的情境中。
說(shuō)到底,這項(xiàng)研究為我們描繪了一個(gè)清晰的現(xiàn)狀:雖然AI技術(shù)發(fā)展迅速,但在真正的知識(shí)學(xué)習(xí)和應(yīng)用方面,我們?nèi)匀惶幱谄鸩诫A段。Video-MMMU基準(zhǔn)的建立不僅是對(duì)當(dāng)前技術(shù)水平的客觀評(píng)估,更是對(duì)未來(lái)發(fā)展方向的重要指引。隨著技術(shù)的不斷進(jìn)步,我們有理由相信,AI終將具備更強(qiáng)的學(xué)習(xí)和適應(yīng)能力,真正成為人類學(xué)習(xí)和工作的得力助手。對(duì)于有興趣深入了解這項(xiàng)開(kāi)創(chuàng)性研究的讀者,可以通過(guò)上述鏈接訪問(wèn)完整的研究論文和相關(guān)資源。
Q&A
Q1:Video-MMMU評(píng)測(cè)基準(zhǔn)包含哪些內(nèi)容?
A:Video-MMMU是一個(gè)大規(guī)模多學(xué)科視頻理解評(píng)測(cè)基準(zhǔn),包含300個(gè)專家級(jí)教學(xué)視頻和900道問(wèn)題,覆蓋藝術(shù)、商業(yè)、科學(xué)、醫(yī)學(xué)、人文、工程六大學(xué)科。每個(gè)視頻配備三種類型問(wèn)題:感知類(提取關(guān)鍵信息)、理解類(掌握概念原理)、適應(yīng)類(應(yīng)用到新場(chǎng)景),全面評(píng)估AI從視頻中學(xué)習(xí)知識(shí)的能力。
Q2:當(dāng)前AI模型在視頻學(xué)習(xí)方面表現(xiàn)如何?
A:研究發(fā)現(xiàn)AI模型存在明顯局限。人類專家觀看視頻后知識(shí)增益達(dá)33.1%,而表現(xiàn)最好的GPT-4o僅為15.6%,Claude-3.5-Sonnet為11.4%。AI在適應(yīng)新場(chǎng)景時(shí)尤其困難,64%的錯(cuò)誤屬于方法適應(yīng)錯(cuò)誤,即能記住視頻內(nèi)容但無(wú)法靈活運(yùn)用到新問(wèn)題中。
Q3:這項(xiàng)研究對(duì)AI技術(shù)發(fā)展有什么意義?
A:這項(xiàng)研究揭示了當(dāng)前AI技術(shù)的核心缺陷,為改進(jìn)方向提供了指引。它表明AI雖然在信息處理方面表現(xiàn)出色,但在知識(shí)的靈活運(yùn)用和創(chuàng)新應(yīng)用方面仍有很大提升空間。Video-MMMU基準(zhǔn)為評(píng)估和改進(jìn)AI的真實(shí)學(xué)習(xí)能力提供了標(biāo)準(zhǔn)化工具,推動(dòng)AI向更接近人類的通用學(xué)習(xí)能力發(fā)展。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語(yǔ)言模型的敘事推理能力與音頻生成技術(shù),通過(guò)交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開(kāi)辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過(guò)讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問(wèn)題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語(yǔ)言模型人性化對(duì)話問(wèn)題。該研究創(chuàng)建了包含20萬(wàn)高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過(guò)創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開(kāi)發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過(guò)學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來(lái)了效率和精度的雙重突破。