近日,由浙江大學(xué)、阿里巴巴達(dá)摩院和湖畔實(shí)驗(yàn)室聯(lián)合研究團(tuán)隊(duì)發(fā)表了一項(xiàng)突破性研究,探討了多模態(tài)大語言模型(MLLMs)在第一人稱場景中對物體的認(rèn)知能力。這篇題為《EOC-Bench: Can MLLMs Identify, Recall, and Forecast Objects in an Egocentric World?》的論文于2025年6月5日在arXiv上發(fā)表(arXiv:2506.05287v1),由袁宇乾、黨榮浩、李龍、李文通、焦典等學(xué)者共同完成。研究團(tuán)隊(duì)開發(fā)了一個(gè)名為EOC-Bench的創(chuàng)新基準(zhǔn)測試,用于評估模型在動態(tài)第一人稱場景中對物體的理解能力。
我們的日常生活中,當(dāng)我們戴上AR眼鏡或使用機(jī)器人助手時(shí),這些智能系統(tǒng)需要理解我們所看到的物體。想象一下,你正在廚房準(zhǔn)備晚餐,你的智能助手需要識別出哪個(gè)是刀,哪個(gè)是砧板,它們現(xiàn)在的狀態(tài)如何,以及剛才你把胡蘿卜放在了哪里。這種情境下的物體認(rèn)知與普通的圖像識別有很大不同,因?yàn)槲矬w會不斷移動、被遮擋,甚至狀態(tài)會發(fā)生變化。
現(xiàn)有的評估基準(zhǔn)主要關(guān)注靜態(tài)場景探索,強(qiáng)調(diào)物體的外觀和空間屬性,但忽略了用戶交互引起的動態(tài)變化。EOC-Bench正是為解決這一問題而生,它從三個(gè)時(shí)間維度評估模型對物體的認(rèn)知能力:過去、現(xiàn)在和未來。
過去維度考察模型是否記得物體之前的狀態(tài)、位置和關(guān)系。就像你問朋友:"記得我剛才把眼鏡放在哪里了嗎?"或"這個(gè)水杯是什么時(shí)候被清洗的?"這類問題測試模型的記憶能力?,F(xiàn)在維度則關(guān)注當(dāng)前場景中物體的狀態(tài)和關(guān)系識別,比如"這個(gè)物體是什么?""它的功能是什么?"未來維度則考察模型預(yù)測物體變化的能力,例如"如果我移開這個(gè)支撐物,盤子會怎么樣?"這對避免潛在危險(xiǎn)至關(guān)重要。
研究團(tuán)隊(duì)創(chuàng)新性地使用了混合格式標(biāo)注框架,包括四種問題類型:是非題、單選題、多選題和開放式問題。特別是對于時(shí)間感知的開放式問題,他們設(shè)計(jì)了一種多尺度時(shí)間準(zhǔn)確性指標(biāo),可以在不同的誤差容忍度下評估模型的時(shí)間感知能力。此外,為了解決動態(tài)場景中物體指代的問題,研究者引入了視覺提示方法(點(diǎn)、框、掩碼),確保模型能準(zhǔn)確理解問題涉及的是哪個(gè)物體。
最終的EOC-Bench包含3,277個(gè)問答對,涵蓋11個(gè)細(xì)粒度評估維度和3種視覺物體引用類型。研究團(tuán)隊(duì)對市場上主流的專有模型(如GPT-4o)、開源模型(如Qwen2.5-VL)以及物體級別的模型進(jìn)行了全面評估,發(fā)現(xiàn)即使是最先進(jìn)的模型在物體級時(shí)間感知方面也存在明顯不足,特別是在絕對時(shí)間感知方面,顯著落后于人類水平。
這項(xiàng)研究為多模態(tài)大語言模型在第一人稱場景中理解物體提供了重要基準(zhǔn),也為未來智能系統(tǒng)在AR眼鏡、機(jī)器人等領(lǐng)域的應(yīng)用奠定了基礎(chǔ)。接下來,讓我們深入了解EOC-Bench的設(shè)計(jì)理念、評估方法和研究發(fā)現(xiàn)。
一、為什么我們需要新的基準(zhǔn)測試?
想象一下你正在廚房準(zhǔn)備一道復(fù)雜的菜肴。你的手上沾滿面粉,但需要查看下一步的烹飪步驟。你對智能眼鏡說:"那個(gè)胡蘿卜切好了嗎?"或者"我?guī)追昼娗鞍雅D谭旁谀睦锪耍?這種第一人稱視角下的物體認(rèn)知能力對未來的智能助手至關(guān)重要。
現(xiàn)有的基準(zhǔn)測試存在哪些不足呢?就像一個(gè)只會識別靜止物體的助手,它能告訴你"這是一把刀",但無法回答"這把刀剛才被用來切什么了?"或"如果我把刀放在這個(gè)不穩(wěn)定的表面上會怎樣?"市場上的測試如ScanQA、SQA3D主要關(guān)注封閉詞匯的靜態(tài)場景理解,而更新的OpenEQA、VSI-Bench和ECBench雖然支持開放詞匯,但仍主要集中于靜態(tài)場景探索,如家庭參觀,很少評估動態(tài)交互環(huán)境中的物體認(rèn)知能力。
EOC-Bench的創(chuàng)新之處在于,它專注于評估模型在動態(tài)第一人稱場景中對物體的全方位認(rèn)知能力。這就像從"認(rèn)識物體"升級到"理解物體的過去、現(xiàn)在和未來"。研究團(tuán)隊(duì)從四個(gè)公開數(shù)據(jù)集(EPIC-KITCHENS、Ego4D、Charades-ego和MECCANO)和自錄視頻中精心挑選了656個(gè)真實(shí)場景視頻,涵蓋廚房、起居室、餐廳等多種環(huán)境。
在這些動態(tài)場景中,物體展現(xiàn)出三個(gè)關(guān)鍵特性:
1. 瞬時(shí)可見性:由于頻繁的遮擋和視角變化,物體的狀態(tài)和位置會動態(tài)變化。就像你轉(zhuǎn)身拿鹽時(shí),鍋里的食物繼續(xù)在烹飪。
2. 視覺模糊性:相似外觀的物品在空間上靠近,很容易混淆。想象一下廚房臺面上擺著幾個(gè)相似的碗和杯子。
3. 時(shí)間依賴性:當(dāng)前狀態(tài)依賴于歷史交互并影響未來結(jié)果。例如,剛從冰箱拿出的牛奶溫度會隨時(shí)間變化。
這些特性使得第一人稱場景下的物體認(rèn)知變得極具挑戰(zhàn)性,需要模型能夠維持持續(xù)的視覺定位,同時(shí)處理空間和時(shí)間細(xì)節(jié)。EOC-Bench正是為系統(tǒng)評估這種能力而設(shè)計(jì)的。
二、EOC-Bench如何構(gòu)建?
想象EOC-Bench是一個(gè)精心設(shè)計(jì)的考試系統(tǒng),用來測試智能助手在第一人稱視角下"看懂"物體的能力。這個(gè)考試不僅測試"你看到了什么",還會問"之前發(fā)生了什么"和"接下來會怎樣"。
首先,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)系統(tǒng)性的能力分類法,將第一人稱場景下的物體認(rèn)知能力分為三個(gè)時(shí)間維度:
過去維度關(guān)注模型對物體歷史狀態(tài)的記憶能力,包括: - 物體狀態(tài)回顧:評估模型監(jiān)測物體屬性變化的能力,如顏色、形狀、大小、姿態(tài)、溫度和運(yùn)動。 - 物體位置回顧:測量歷史定位準(zhǔn)確性,從宏觀層面(房間尺度)到微觀層面(精確位置)。 - 物體關(guān)系演變:考察物體關(guān)系變化,包括空間關(guān)系、運(yùn)動狀態(tài)動態(tài)和時(shí)間序列關(guān)系。 - 絕對時(shí)間感知:評估通過兩個(gè)方面的絕對時(shí)間認(rèn)知精度,包括指定特定時(shí)間點(diǎn)和理解時(shí)間持續(xù)時(shí)間。
現(xiàn)在維度測試模型理解當(dāng)前場景的能力: - 即時(shí)狀態(tài)識別:評估模型識別物體當(dāng)前狀態(tài)的能力,包括材料、形狀、功能狀態(tài)、表面條件等。 - 物體關(guān)系:分析物體之間的動態(tài)關(guān)系,包括空間、功能或比較關(guān)系。 - 目的和功能推斷:要求根據(jù)物體的外部特征、材料、配置和場景推斷其潛在用途。 - 異常感知:測量模型檢測異?;虿粎f(xié)調(diào)視覺輸入的能力,特別是在不尋常的組合場景中。
未來維度考察模型的預(yù)測能力: - 軌跡和運(yùn)動預(yù)測:預(yù)測物體基于當(dāng)前運(yùn)動和位置的未來路徑或動態(tài)運(yùn)動變化。 - 狀態(tài)變化預(yù)測:預(yù)測物體由于持續(xù)動作或環(huán)境波動而發(fā)生的未來狀態(tài)變化。 - 動態(tài)關(guān)系預(yù)測:預(yù)見物體間關(guān)系的潛在變化,幫助預(yù)防即將發(fā)生的碰撞或其他交互。
為確保評估的全面性,研究團(tuán)隊(duì)開發(fā)了一個(gè)混合格式的人工標(biāo)注框架。這就像設(shè)計(jì)一套考試題目,包括是非題、單選題、多選題和開放式問題。對于開放式問題,特別是涉及時(shí)間感知的問題,他們創(chuàng)新地設(shè)計(jì)了一個(gè)多尺度時(shí)間準(zhǔn)確性指標(biāo)(MSTA)。
具體來說,假設(shè)有一個(gè)問題:"物體A多久前被清洗了?"標(biāo)準(zhǔn)答案是10秒,一個(gè)模型回答8秒,另一個(gè)回答25秒,我們?nèi)绾闻袛嗄膫€(gè)更準(zhǔn)確?傳統(tǒng)方法可能簡單比較絕對誤差,但這忽略了時(shí)間尺度的影響。研究團(tuán)隊(duì)分析了人類對不同時(shí)間尺度的誤差容忍度,設(shè)計(jì)了{(lán)1%、10%、20%、30%}四個(gè)相對誤差閾值。這就像說,對于10秒的時(shí)間,1%的閾值意味著允許0.1秒的誤差,而30%的閾值允許3秒的誤差。模型的最終得分是在這四個(gè)閾值下的平均表現(xiàn)。
另一個(gè)重要創(chuàng)新是視覺物體引用方法。在動態(tài)場景中,文本描述如"最左邊的碗"或"那個(gè)勺子"往往難以準(zhǔn)確指代物體。當(dāng)物體在洗滌過程中重新排列,或廚房中有多個(gè)相似的勺子時(shí),這些描述失去了明確性。為解決這個(gè)問題,研究團(tuán)隊(duì)引入了視覺引用提示,包括點(diǎn)、框和掩碼,它們提供了持久、明確的物體引用,同時(shí)保留了理解物體所需的空間時(shí)間上下文。
最終的EOC-Bench包含3,277個(gè)問答對,涵蓋11個(gè)細(xì)粒度評估維度和3種視覺物體引用類型。數(shù)據(jù)集包含廣泛的物體類別,從廚房用具到電子設(shè)備,涵蓋各種使用場景。視頻長度從幾秒到六分鐘不等,確保了測試的多樣性和全面性。
三、主流模型表現(xiàn)如何?
研究團(tuán)隊(duì)對市場上的主流多模態(tài)大語言模型進(jìn)行了全面評估,包括專有模型(GPT-4o、GPT-4o-mini和Gemini-2.0-flash),開源模型(Qwen2.5-VL、InternVL2.5、VideoLLaMA2&3等)以及專注于物體理解的模型(VideoRefer、ViP-LLaVA等)。測試采用零樣本推理方式,使用模型的默認(rèn)設(shè)置進(jìn)行評估。
人類在EOC-Bench上的平均準(zhǔn)確率達(dá)到了驚人的94.63%,展示了人類在物體理解和時(shí)間感知方面的卓越能力。相比之下,即使是頂尖的專有模型GPT-4o也只達(dá)到了61.83%的準(zhǔn)確率,與人類水平存在顯著差距。
GPT-4o在各個(gè)子任務(wù)中表現(xiàn)相對均衡,但在過去維度的任務(wù),特別是絕對時(shí)間感知(34.46%)和物體關(guān)系演變(46.56%)方面,即使提供了每幀的時(shí)間戳,模型的表現(xiàn)也不盡如人意。這表明模型在感知和記憶時(shí)間變化方面存在明顯局限。
頂級開源模型如InternVL2.5-78B與閉源模型相比存在明顯差距,比GPT-4o低9.5%。其他在現(xiàn)有基準(zhǔn)測試上表現(xiàn)良好的視頻大語言模型,如Qwen2.5-VL、VideoLLaMA3和NVILA,在我們的任務(wù)上表現(xiàn)欠佳,特別是在物體關(guān)系演變和絕對時(shí)間感知方面。許多這些模型在記憶回憶能力上存在顯著限制。
物體級別的多模態(tài)模型,如最近的VideoRefer,表現(xiàn)優(yōu)于許多競爭模型,突顯了物體級別表示學(xué)習(xí)的有效性。然而,它們在處理復(fù)雜操作場景中的密集相似物體時(shí),以及在動態(tài)時(shí)間變化的絕對時(shí)間感知任務(wù)中仍面臨挑戰(zhàn)。
研究團(tuán)隊(duì)還進(jìn)行了不同問題類型的分析,發(fā)現(xiàn)許多模型在回答多選題方面面臨挑戰(zhàn),得分低于隨機(jī)猜測。這個(gè)問題在參數(shù)較少(7B或更少)的小型模型中尤為明顯。研究者推測,這些小型模型可能在訓(xùn)練過程中過度擬合了簡單的單選題,影響了它們處理多選項(xiàng)問題的能力。
此外,時(shí)間敏感度分析表明,許多模型(21個(gè)中的9個(gè))在感知過去時(shí)間方面的表現(xiàn)低于隨機(jī)猜測水平。即使是最強(qiáng)大的開源模型也只比隨機(jī)機(jī)會高出13.1%,這凸顯了當(dāng)前大多數(shù)模型缺乏但對體感AI至關(guān)重要的能力。
隨著模型規(guī)模的增加,它們處理未來導(dǎo)向問題的能力顯著提升。例如,Qwen2.5-VL和VideoLLaMA3的不同參數(shù)版本在這些任務(wù)上展示了明顯的性能提升。這表明較大的模型更善于處理需要前瞻性思維和預(yù)測推理的問題。
相比之下,過去導(dǎo)向的問題對模型構(gòu)成了更大的挑戰(zhàn)。雖然較小的模型可能在未來導(dǎo)向問題上掙扎,但較大的模型在處理過去導(dǎo)向問題時(shí)往往表現(xiàn)不佳。這種準(zhǔn)確回憶和處理過去信息的困難是當(dāng)前多模態(tài)大語言模型中的普遍問題,表明這是改進(jìn)設(shè)計(jì)和訓(xùn)練的重要方向。
研究團(tuán)隊(duì)還評估了多幀輸入對模型性能的提升。頂級專有模型GPT-4o和Gemini-2.0-flash在從單幀輸入轉(zhuǎn)向32幀輸入時(shí)獲得了顯著性能提升,分別提高了24.6%和20.1%。這種改進(jìn)在過去導(dǎo)向任務(wù)中尤為顯著,分別提高了49.2%和60.2%。這些發(fā)現(xiàn)凸顯了多幀推理在EOC-Bench中的關(guān)鍵作用,特別是對于記憶回憶任務(wù)。能夠訪問先前幀的信息可以顯著增強(qiáng)當(dāng)前和未來的理解。
四、錯(cuò)誤分析揭示了什么問題?
為了深入了解模型的困難所在,研究團(tuán)隊(duì)對表現(xiàn)最佳的GPT-4o進(jìn)行了全面的錯(cuò)誤分析,檢查了選擇題和開放式問題的表現(xiàn)。
對于選擇題,研究者隨機(jī)抽樣了300個(gè)錯(cuò)誤案例,覆蓋各個(gè)任務(wù)類別,并將錯(cuò)誤分為四類:
1. 感知錯(cuò)誤:這類錯(cuò)誤與當(dāng)前幀的感知問題有關(guān),包括來自先前幀的干擾、對細(xì)節(jié)的不足關(guān)注、計(jì)數(shù)錯(cuò)誤和幀內(nèi)干擾。
2. 記憶錯(cuò)誤:這類錯(cuò)誤反映了對先前幀信息的錯(cuò)誤觀察或回憶,包括當(dāng)前幀的干擾和缺失觀察,表明32個(gè)采樣幀可能不足以回答與記憶相關(guān)的問題。
3. 關(guān)系推理錯(cuò)誤:這類錯(cuò)誤涉及感知或推斷物體之間簡單關(guān)系的困難。
4. 知識錯(cuò)誤:這類錯(cuò)誤包括推理、常識和計(jì)算方面的問題。
在過去類別中,記憶錯(cuò)誤占主導(dǎo)地位,占錯(cuò)誤的93%。這些主要是由于對歷史幀的處理不足(73%)和當(dāng)前幀的干擾(17%)所致。剩余10%是缺失觀察錯(cuò)誤,這突顯了固定幀采樣策略的內(nèi)在限制。這些發(fā)現(xiàn)指向GPT-4o在時(shí)間上下文建模方面的顯著弱點(diǎn),特別是在有效保留和使用跨幀信息以理解視頻方面的困難。
在現(xiàn)在類別中,感知錯(cuò)誤占61%,其次是知識錯(cuò)誤(22%)和記憶錯(cuò)誤(7%)。值得注意的是,幀內(nèi)干擾構(gòu)成了感知錯(cuò)誤的顯著部分,揭示了模型在區(qū)域級視覺感知方面的局限性及其對幻覺偽影的敏感性。這些觀察表明空間感知仍然是一個(gè)持續(xù)挑戰(zhàn)。
在未來類別中,約59%的錯(cuò)誤與知識相關(guān),表明推理能力和常識理解方面的局限性。
對于開放式問題,特別是與時(shí)間感知準(zhǔn)確性相關(guān)的問題,研究者進(jìn)行了基于密度的分析,比較了地面真相時(shí)間戳與模型生成響應(yīng)之間的偏差。人類響應(yīng)的分布表現(xiàn)出顯著的峰值,隨后是快速衰減,表明大多數(shù)人類答案實(shí)現(xiàn)了最小的誤差比率,只有零星的較高不準(zhǔn)確性。相比之下,五個(gè)表現(xiàn)最佳的模型(GPT-4o、LLaVA-Video-72B、VideoLLaMA3-7B、Qwen2.5-VL-72B和NVILA-8B)表現(xiàn)出更平坦的分布,更廣泛的擴(kuò)散。這種模式表明,這些模型在時(shí)間感知方面表現(xiàn)出更大的變異性,頻繁產(chǎn)生特定情況下的更大錯(cuò)誤。
這種差異突顯了當(dāng)前多模態(tài)大語言模型與人類水平時(shí)間感知之間的顯著差距,暗示一些模型預(yù)測可能依賴于隨機(jī)估計(jì)而非精確的時(shí)間理解。研究者還分析了模型在不同時(shí)間閾值(0.01、0.1、0.2和0.3)下的準(zhǔn)確性,進(jìn)一步證實(shí)了這一差距。
五、EOC-Bench的價(jià)值與展望
EOC-Bench為理解和改進(jìn)多模態(tài)大語言模型在第一人稱場景中的物體認(rèn)知能力提供了一個(gè)重要工具。它系統(tǒng)地評估了模型在三個(gè)時(shí)間維度(過去、現(xiàn)在和未來)下識別、回憶和預(yù)測物體的能力,揭示了當(dāng)前模型在時(shí)間感知和物體級理解方面的重要差距。
這些發(fā)現(xiàn)對開發(fā)更強(qiáng)大的體感認(rèn)知系統(tǒng)具有重要意義。例如,在增強(qiáng)現(xiàn)實(shí)眼鏡和機(jī)器人應(yīng)用中,系統(tǒng)需要持續(xù)跟蹤和理解物體的狀態(tài)和位置變化,以便提供及時(shí)、相關(guān)的幫助。理解"咖啡杯在哪里"、"面包是什么時(shí)候烤好的"以及"如果我現(xiàn)在移動這個(gè)盤子會發(fā)生什么"這類問題對于創(chuàng)建真正有用的智能助手至關(guān)重要。
未來的研究方向可能包括:
1. 改進(jìn)模型的時(shí)間感知能力,特別是絕對時(shí)間感知,這是當(dāng)前模型表現(xiàn)最差的領(lǐng)域之一。
2. 增強(qiáng)多幀處理能力,使模型能更有效地利用視頻中的時(shí)間信息。
3. 開發(fā)更專注于物體級理解的模型架構(gòu),可能結(jié)合更高效的視覺提示方法。
4. 擴(kuò)展評估范圍,包括更長視頻中的長期記憶能力測試。
盡管EOC-Bench主要關(guān)注物體認(rèn)知,但其設(shè)計(jì)原則和評估方法可以擴(kuò)展到更廣泛的體感理解任務(wù),如行為識別、意圖理解和場景變化預(yù)測。
總之,EOC-Bench不僅是一個(gè)評估工具,更是推動多模態(tài)大語言模型向更全面、更實(shí)用的體感認(rèn)知方向發(fā)展的催化劑。隨著這些模型能力的提升,我們可以期待看到更智能、更有用的體感AI系統(tǒng)在我們的日常生活中發(fā)揮作用。
好文章,需要你的鼓勵
新加坡國立大學(xué)研究團(tuán)隊(duì)開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過對比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動態(tài)稀疏性實(shí)現(xiàn)大語言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。