這項(xiàng)由耶魯大學(xué)的趙一倫、謝路靜、張浩維等研究團(tuán)隊(duì)領(lǐng)導(dǎo)的研究發(fā)表于2025年1月,研究成果已在arXiv平臺發(fā)布(arXiv:2501.12380v1),有興趣深入了解的讀者可以通過項(xiàng)目主頁mmvu-benchmark.github.io訪問完整資料。
想象一下,如果我們要測試一個學(xué)霸朋友是否真的掌握了各個學(xué)科的知識,我們會怎么做?可能會拿出化學(xué)實(shí)驗(yàn)視頻問他反應(yīng)過程,或者播放醫(yī)學(xué)手術(shù)視頻考察他的診斷能力?,F(xiàn)在,耶魯大學(xué)的研究團(tuán)隊(duì)就是用這種方式來"考試"人工智能的。
他們創(chuàng)建了一個叫MMVU的測試系統(tǒng),就像是專門為AI設(shè)計(jì)的"高考"。這個測試不同于普通的選擇題,而是讓AI觀看各種專業(yè)領(lǐng)域的視頻,然后回答需要真正理解和推理的問題。這就好比讓一個醫(yī)學(xué)生觀看真實(shí)的手術(shù)視頻來判斷病毒類型,或者讓工程系學(xué)生通過觀看機(jī)械運(yùn)轉(zhuǎn)視頻來識別算法原理。
這項(xiàng)研究之所以重要,是因?yàn)槟壳暗腁I雖然在文字和圖片理解方面表現(xiàn)不錯,但在觀看專業(yè)視頻并進(jìn)行深度推理方面還存在很大挑戰(zhàn)。研究團(tuán)隊(duì)想要搞清楚,當(dāng)前最先進(jìn)的AI模型在面對需要專業(yè)知識的視頻理解任務(wù)時,到底表現(xiàn)如何,距離人類專家還有多大差距。
研究團(tuán)隊(duì)測試了32個目前最先進(jìn)的AI模型,包括大家熟知的GPT-4o、Claude等,結(jié)果發(fā)現(xiàn)即使是表現(xiàn)最好的模型,在這個專業(yè)視頻理解測試中的表現(xiàn)也遠(yuǎn)低于人類專家。這個發(fā)現(xiàn)對于AI的未來發(fā)展具有重要意義,特別是在醫(yī)療、工程、科學(xué)研究等需要高度專業(yè)知識的領(lǐng)域。
一、搭建AI的"專業(yè)技能考場"
MMVU就像是為AI量身定制的專業(yè)能力測試場。研究團(tuán)隊(duì)精心設(shè)計(jì)了這個測試系統(tǒng),包含了3000道由人類專家親自出題的問題,覆蓋了科學(xué)、醫(yī)療保健、人文社科和工程四大領(lǐng)域的27個具體學(xué)科。
這個測試的設(shè)計(jì)理念就像是真實(shí)的專業(yè)考試。當(dāng)我們想測試一個化學(xué)專業(yè)學(xué)生的能力時,不會只問他化學(xué)方程式,而是會讓他觀看實(shí)際的化學(xué)反應(yīng)過程,然后詢問反應(yīng)機(jī)理、產(chǎn)物預(yù)測等需要深度理解的問題。MMVU正是采用了這種思路,讓AI觀看真實(shí)的專業(yè)領(lǐng)域視頻,然后回答需要專業(yè)知識和推理能力的問題。
研究團(tuán)隊(duì)為了確保測試的質(zhì)量,采用了嚴(yán)格的"課本指導(dǎo)"方式來出題。專家們首先從各學(xué)科的權(quán)威教科書中選取核心概念,然后尋找能夠展現(xiàn)這些概念的視頻,最后設(shè)計(jì)出相應(yīng)的問題。這就好比老師在準(zhǔn)備期末考試時,會根據(jù)教學(xué)大綱的重點(diǎn)內(nèi)容來設(shè)計(jì)試題,確??荚嚹軌蛉婵疾閷W(xué)生的掌握情況。
每道題目都配有詳細(xì)的解答過程和相關(guān)的專業(yè)知識背景。這不僅僅是為了給出標(biāo)準(zhǔn)答案,更重要的是為研究人員提供了分析AI模型錯誤原因的依據(jù)。當(dāng)一個AI模型答錯題時,研究人員可以通過這些詳細(xì)信息分析到底是視覺理解出了問題,還是專業(yè)知識不足,或者是推理邏輯有誤。
測試中的視頻都來自于具有創(chuàng)意共用許可證的YouTube內(nèi)容,這確保了使用的合法性。研究團(tuán)隊(duì)還特意排除了那些包含大量文字或語音解釋的視頻,因?yàn)樗麄兿霚y試的是AI對視覺信息的理解能力,而不是文字閱讀能力。這就好比在測試學(xué)生的觀察能力時,我們會選擇那些需要仔細(xì)觀看才能理解的實(shí)驗(yàn)視頻,而不是那些有詳細(xì)旁白解釋的教學(xué)視頻。
二、人類專家的"手把手"出題過程
為了確保測試題目的質(zhì)量和專業(yè)性,研究團(tuán)隊(duì)采用了一種非常嚴(yán)格的專家參與模式。他們招募了67位來自各個專業(yè)領(lǐng)域的專家,包括研究生、博士生和資深研究者,這些人就像是各個學(xué)科的"金牌教師"。
整個出題過程就像是精心設(shè)計(jì)一道道"壓軸題"。專家們首先需要深入研讀各自領(lǐng)域的權(quán)威教科書,找出那些最適合通過視頻展現(xiàn)的核心概念。比如在化學(xué)領(lǐng)域,專家會選擇那些有明顯視覺變化的化學(xué)反應(yīng),如沉淀的形成、顏色的改變等;在工程領(lǐng)域,則會選擇機(jī)械運(yùn)轉(zhuǎn)、算法演示等動態(tài)過程。
找到合適的概念后,專家們需要在YouTube上搜尋相關(guān)的教學(xué)視頻或演示視頻。這個過程就像是在浩如煙海的資料中尋找最佳的教學(xué)素材。不過,他們有一個重要的限制條件:只能使用具有創(chuàng)意共用許可證的視頻,這確保了研究的合法性和可復(fù)制性。
接下來是最關(guān)鍵的出題環(huán)節(jié)。專家們需要為每個視頻設(shè)計(jì)2-3道題目,這些題目不能是簡單的事實(shí)性問答,而必須要求觀看者具備相關(guān)的專業(yè)知識并進(jìn)行深度思考。舉個例子,對于一個顯示化學(xué)反應(yīng)的視頻,題目不會問"視頻中發(fā)生了什么",而是會問"假設(shè)有2.24升氣體在標(biāo)準(zhǔn)狀態(tài)下完全參與反應(yīng),會產(chǎn)生多少克沉淀物",這就需要觀察者不僅要看懂視頻中的反應(yīng)過程,還要運(yùn)用化學(xué)計(jì)算知識。
每道題目完成后,專家還需要提供詳細(xì)的解答過程和相關(guān)的專業(yè)知識背景。這就像是老師不僅要給出標(biāo)準(zhǔn)答案,還要解釋每一個推理步驟,甚至要列出相關(guān)的知識點(diǎn)和參考資料。這些信息對于后續(xù)分析AI模型的表現(xiàn)至關(guān)重要。
為了保證質(zhì)量,每個題目在正式納入測試集之前,還要經(jīng)過另一位專家的審核。審核者需要確認(rèn)題目確實(shí)需要觀看視頻才能回答,不能僅憑文字或常識就能解決。如果發(fā)現(xiàn)問題,題目會被返回給原作者修改,甚至可能被完全排除。
三、給AI模型來一場"專業(yè)能力大比拼"
研究團(tuán)隊(duì)將32個目前最先進(jìn)的AI模型都拉來參加了這場"專業(yè)視頻理解大考"。這些模型來自17個不同的機(jī)構(gòu),包括大家熟知的OpenAI、Google、Anthropic等科技巨頭,也有一些開源模型。就像是邀請了各個學(xué)校的尖子生來參加競賽一樣。
這場測試采用了兩種不同的答題方式。第一種叫做"思維鏈推理",就是讓AI模型像人類學(xué)生一樣,先解釋自己的思考過程,然后給出最終答案。第二種是"直接回答",要求模型立即給出答案,不需要展示推理過程。這就好比考試時有些題目要求"寫出解題步驟",有些題目只需要填寫最終結(jié)果。
測試結(jié)果讓人既驚訝又深思。表現(xiàn)最好的是OpenAI的o1模型,準(zhǔn)確率達(dá)到了80%,這已經(jīng)接近人類專家在開卷考試中的表現(xiàn)了。不過,這個成績是在一個較小的樣本上測得的,因?yàn)閛1模型的多模態(tài)版本當(dāng)時還沒有完全開放。緊隨其后的是Google的Gemini 2.0 Flash Thinking模型,準(zhǔn)確率約為69.3%。
大多數(shù)其他模型的表現(xiàn)都相對較差。比如廣受關(guān)注的GPT-4o,準(zhǔn)確率只有66.7%,遠(yuǎn)低于人類專家在開卷考試中86.8%的準(zhǔn)確率。這個差距相當(dāng)明顯,說明當(dāng)前的AI模型在專業(yè)視頻理解方面還有很大的提升空間。
特別值得注意的是,那些能夠進(jìn)行長時間"思考"的模型表現(xiàn)更好。o1和Gemini 2.0 Flash Thinking都屬于這種類型,它們在回答問題時會經(jīng)歷更長時間的推理過程,就像人類專家會仔細(xì)思考后再回答問題一樣。這提示我們,讓AI有更多時間"思考"可能是提高其專業(yè)推理能力的重要方向。
開源模型的表現(xiàn)雖然整體不如商業(yè)模型,但也有一些亮點(diǎn)。Qwen2-VL-72B和DeepSeek-VL2等模型的表現(xiàn)已經(jīng)超過了人類在閉卷考試中的水平,這對開源AI的發(fā)展來說是個積極信號。
四、AI犯錯的"五宗罪"
為了深入了解AI模型在專業(yè)視頻理解中的問題,研究團(tuán)隊(duì)進(jìn)行了詳細(xì)的錯誤分析。他們發(fā)現(xiàn)AI模型主要在五個方面容易出錯,這些錯誤類型就像是學(xué)生考試中常見的失分點(diǎn)。
第一類錯誤是"視覺感知錯誤",占所有錯誤的18%。這就好比學(xué)生看走了眼,把題目中的關(guān)鍵信息看錯了。比如在一個演示二叉樹遍歷算法的視頻中,AI模型明明看到的是深度優(yōu)先搜索的過程,卻錯誤地識別成了廣度優(yōu)先搜索,完全顛倒了遍歷順序。還有一個有趣的例子是,在一個電磁學(xué)實(shí)驗(yàn)視頻中,AI模型把逐漸變透明的設(shè)備外殼誤認(rèn)為是水,導(dǎo)致對整個實(shí)驗(yàn)過程的理解完全錯誤。
第二類是"視覺感知中的專業(yè)知識誤用",占20%。這類錯誤更加復(fù)雜,AI模型雖然能看到視頻中的內(nèi)容,但缺乏相應(yīng)的專業(yè)知識來正確解釋所看到的現(xiàn)象。例如,在一個計(jì)算機(jī)算法演示視頻中,AI模型看到了屏幕上不斷變化的數(shù)字,但錯誤地將這些數(shù)組索引當(dāng)作了要排序的數(shù)值,從而得出了錯誤的算法類型判斷。
第三類是"推理中的專業(yè)知識誤用",這是最常見的錯誤類型,占27%。在這種情況下,AI模型能夠正確理解視頻內(nèi)容,但在運(yùn)用專業(yè)知識進(jìn)行推理時出現(xiàn)了偏差。一個典型例子是在生物學(xué)視頻分析中,模型雖然正確觀察到了物種分布的變化,但錯誤地將其歸因于物種遷移,而實(shí)際上應(yīng)該是大陸漂移導(dǎo)致的地理隔離。
第四類錯誤是"過度依賴文字信息",占20%。這就像是學(xué)生只看題目文字,完全忽略了配圖或?qū)嶒?yàn)現(xiàn)象。一些AI模型在回答問題時,主要基于問題中的文字描述進(jìn)行推理,而忽視了視頻中的關(guān)鍵信息。比如在一個醫(yī)學(xué)案例中,視頻清楚地展示了水代謝異常的過程,但AI模型卻基于問題中提到的細(xì)胞功能,選擇了與鈉鉀泵相關(guān)的答案,完全偏離了視頻的核心內(nèi)容。
第五類是"邏輯推理錯誤",占6%。這類錯誤表現(xiàn)為AI模型在推理過程中出現(xiàn)自相矛盾或邏輯不一致的情況。例如,在一個機(jī)械工程問題中,AI模型在分析過程中既承認(rèn)了彈性勢能和動能之間可以相互轉(zhuǎn)換,也承認(rèn)了重力勢能和動能之間的轉(zhuǎn)換關(guān)系,但在最終結(jié)論中卻否認(rèn)了重力勢能向彈性勢能的轉(zhuǎn)換可能性,這顯然是邏輯上的矛盾。
最后還有9%的錯誤歸類為"其他類型",包括拒絕回答、輸出超長或重復(fù)等技術(shù)性問題。
這些錯誤分析為AI模型的改進(jìn)指明了方向。顯然,當(dāng)前的AI模型需要在專業(yè)知識的整合運(yùn)用、復(fù)雜視覺場景的理解,以及邏輯一致性等方面進(jìn)行重點(diǎn)改進(jìn)。
五、人類專家的表現(xiàn)標(biāo)桿
為了給AI模型的表現(xiàn)提供一個對比標(biāo)準(zhǔn),研究團(tuán)隊(duì)還測試了人類專家在相同任務(wù)上的表現(xiàn)。他們邀請了5位專業(yè)人士,包括生物學(xué)、麻醉學(xué)和東亞文學(xué)等領(lǐng)域的研究生,以及部分論文作者,來回答隨機(jī)抽取的120道題目。
測試分為三個階段,就像是模擬不同難度等級的考試環(huán)境。第一階段是"閉卷考試",參與者只能依靠自己的知識儲備,在3.5小時內(nèi)完成答題,不允許查閱任何外部資料。結(jié)果人類專家的平均準(zhǔn)確率是49.7%,這個成績雖然不算很高,但考慮到題目的跨學(xué)科性質(zhì)和專業(yè)難度,這個結(jié)果是可以理解的。畢竟,讓一個生物學(xué)專家去回答工程學(xué)問題,或者讓文學(xué)專家解答醫(yī)學(xué)問題,確實(shí)具有挑戰(zhàn)性。
第二階段是"開卷考試",參與者可以使用互聯(lián)網(wǎng)、教科書等外部資源來輔助答題,時間限制為4小時。這種情況下,人類專家的平均準(zhǔn)確率大幅提升到86.8%。這個結(jié)果反映了專業(yè)知識的重要性,也說明當(dāng)人類能夠查閱相關(guān)資料時,他們的表現(xiàn)會顯著改善。這種提升幅度也從側(cè)面證明了MMVU測試題目的專業(yè)性和挑戰(zhàn)性。
第三階段是"標(biāo)準(zhǔn)答案指導(dǎo)下的修正",參與者可以參考標(biāo)準(zhǔn)答案中提供的專業(yè)知識和在線資源來修正自己的答案。在這種"開卷+有提示"的情況下,人類專家的準(zhǔn)確率達(dá)到了95.3%。這個結(jié)果表明,當(dāng)獲得適當(dāng)?shù)闹R支持時,人類專家基本能夠正確理解和分析這些專業(yè)視頻內(nèi)容。
這三個階段的結(jié)果為AI模型的表現(xiàn)提供了重要的參考標(biāo)準(zhǔn)。目前表現(xiàn)最好的o1模型達(dá)到80%的準(zhǔn)確率,已經(jīng)非常接近人類專家在開卷考試中的表現(xiàn),這是一個相當(dāng)令人印象深刻的成績。但大多數(shù)其他AI模型的表現(xiàn)還遠(yuǎn)低于人類專家的開卷考試水平,說明在專業(yè)視頻理解方面還有很大的提升空間。
這個對比也揭示了一個有趣的現(xiàn)象:人類專家在有外部知識支持的情況下表現(xiàn)顯著提升,這提示我們未來的AI系統(tǒng)可能也需要更好地整合外部知識庫和實(shí)時信息檢索能力。
六、測試結(jié)果的深層含義
MMVU測試的結(jié)果揭示了當(dāng)前AI技術(shù)發(fā)展中的一些重要趨勢和挑戰(zhàn)。首先,系統(tǒng)級思維能力的重要性得到了明確體現(xiàn)。那些能夠進(jìn)行長時間推理的模型,如o1和Gemini 2.0 Flash Thinking,在測試中表現(xiàn)明顯優(yōu)于其他模型。這就好比在解決復(fù)雜問題時,那些愿意花時間仔細(xì)思考、多角度分析的學(xué)生往往能取得更好的成績。
鏈?zhǔn)剿季S推理也顯示出了明顯的優(yōu)勢。當(dāng)AI模型被要求先展示推理過程再給出答案時,它們的準(zhǔn)確率普遍高于直接給答案的方式。這個發(fā)現(xiàn)其實(shí)符合人類學(xué)習(xí)和思維的規(guī)律:當(dāng)我們把思考過程說出來或?qū)懗鰜頃r,往往能發(fā)現(xiàn)自己推理中的錯誤,從而得到更準(zhǔn)確的結(jié)果。
開源模型的進(jìn)步也值得關(guān)注。雖然整體表現(xiàn)還不如商業(yè)模型,但一些開源模型如Qwen2-VL-72B和DeepSeek-VL2已經(jīng)達(dá)到了相當(dāng)不錯的水平,甚至在某些方面超過了人類的閉卷考試表現(xiàn)。這表明開源AI社區(qū)的技術(shù)發(fā)展速度很快,未來可能會在某些應(yīng)用領(lǐng)域與商業(yè)模型形成競爭。
測試還揭示了當(dāng)前AI模型在專業(yè)領(lǐng)域應(yīng)用中的局限性。即使是表現(xiàn)最好的模型,在面對需要深度專業(yè)知識的視頻理解任務(wù)時,仍然與人類專家存在明顯差距。這提醒我們,在醫(yī)療診斷、工程設(shè)計(jì)、科學(xué)研究等關(guān)鍵領(lǐng)域,AI系統(tǒng)還需要更多的改進(jìn)才能真正勝任專業(yè)工作。
從錯誤分析中我們可以看到,當(dāng)前AI模型的問題不僅僅是技術(shù)層面的,更涉及到知識整合、邏輯推理和上下文理解等深層認(rèn)知能力。這些發(fā)現(xiàn)為未來的AI研究指明了方向:需要更加注重多模態(tài)信息的綜合處理、專業(yè)知識的有效整合,以及推理能力的提升。
說到底,MMVU不僅僅是一個測試工具,更像是一面鏡子,映照出當(dāng)前AI技術(shù)在專業(yè)應(yīng)用領(lǐng)域的真實(shí)水平。它告訴我們,雖然AI在很多方面已經(jīng)非常先進(jìn),但在需要深度專業(yè)知識和復(fù)雜推理的任務(wù)中,仍然有很長的路要走。這個發(fā)現(xiàn)對于那些期望在近期內(nèi)看到AI完全替代專業(yè)人士的預(yù)期來說,提供了一個更加現(xiàn)實(shí)的參考。
同時,這項(xiàng)研究也為AI技術(shù)的未來發(fā)展提供了一個清晰的路線圖。隨著模型能力的不斷提升,特別是在系統(tǒng)級思維和專業(yè)知識整合方面的改進(jìn),我們有理由相信未來的AI系統(tǒng)將能夠在更多專業(yè)領(lǐng)域發(fā)揮重要作用。MMVU作為一個持續(xù)的評估標(biāo)準(zhǔn),將幫助我們追蹤這一進(jìn)步過程,并為相關(guān)技術(shù)的發(fā)展提供重要指導(dǎo)。
Q&A
Q1:MMVU是什么?它與普通的AI測試有什么不同?
A:MMVU是耶魯大學(xué)開發(fā)的專門測試AI模型專業(yè)視頻理解能力的評估系統(tǒng)。與普通AI測試不同,MMVU要求AI觀看真實(shí)的專業(yè)領(lǐng)域視頻(如化學(xué)實(shí)驗(yàn)、醫(yī)學(xué)手術(shù)、工程演示等),然后回答需要專業(yè)知識和推理能力的問題,就像讓AI參加各個專業(yè)的"高考"一樣。
Q2:目前最先進(jìn)的AI模型在MMVU測試中表現(xiàn)如何?
A:表現(xiàn)最好的是OpenAI的o1模型,準(zhǔn)確率達(dá)到80%,接近人類專家開卷考試的水平。其他模型如GPT-4o的準(zhǔn)確率為66.7%,遠(yuǎn)低于人類專家86.8%的開卷考試成績。這說明當(dāng)前AI在專業(yè)視頻理解方面還有很大提升空間。
Q3:AI模型在專業(yè)視頻理解中主要犯哪些錯誤?
A:研究發(fā)現(xiàn)AI主要犯五類錯誤:視覺感知錯誤(18%,如看錯關(guān)鍵信息)、視覺感知中的專業(yè)知識誤用(20%)、推理中的專業(yè)知識誤用(27%,最常見)、過度依賴文字信息而忽視視頻內(nèi)容(20%),以及邏輯推理錯誤(6%)。這些錯誤揭示了AI在專業(yè)知識整合和復(fù)雜推理方面的不足。
好文章,需要你的鼓勵
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學(xué)習(xí)外觀和運(yùn)動信息,顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運(yùn)動質(zhì)量,在多項(xiàng)測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報,準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。