av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 ByteDance團(tuán)隊開發(fā)出首個多模態(tài)網(wǎng)頁瀏覽AI測試基準(zhǔn):MM-BrowseComp,能看懂圖像和視頻的智能助手評估標(biāo)準(zhǔn)終于來了

ByteDance團(tuán)隊開發(fā)出首個多模態(tài)網(wǎng)頁瀏覽AI測試基準(zhǔn):MM-BrowseComp,能看懂圖像和視頻的智能助手評估標(biāo)準(zhǔn)終于來了

2025-09-09 10:55
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-09-09 10:55 ? 科技行者

這項由ByteDance(字節(jié)跳動)、南京大學(xué)、M-A-P研究機(jī)構(gòu)、中科院以及浙江大學(xué)等多家機(jī)構(gòu)聯(lián)合開展的研究,發(fā)表于2025年8月20日的arXiv預(yù)印本論文庫,論文標(biāo)題為"MM-BrowseComp: A Comprehensive Benchmark for Multimodal Browsing Agents"。有興趣深入了解技術(shù)細(xì)節(jié)的讀者可以通過GitHub項目頁面(https://github.com/MMBrowseComp/MM-BrowseComp)訪問完整的研究資料和代碼。

當(dāng)我們在網(wǎng)上搜索信息時,往往需要瀏覽大量網(wǎng)頁,查看各種圖片、視頻和文本,然后綜合分析得出答案?,F(xiàn)在的AI助手雖然很聰明,但在這方面還存在明顯短板。就像一個只會讀書不會看圖的學(xué)生,面對圖文并茂的考試題目時就會束手無策。

為了解決這個問題,研究團(tuán)隊開發(fā)了一個全新的評估體系,叫做MM-BrowseComp。這就像是為AI助手設(shè)計的一套綜合能力測試題,不僅要求它們能理解文字,還要能看懂圖片和視頻,更重要的是要能在互聯(lián)網(wǎng)的海量信息中找到正確答案。

這個測試系統(tǒng)包含224道精心設(shè)計的題目,每道題都像是一個小偵探案件。AI助手需要像福爾摩斯一樣,從網(wǎng)絡(luò)上的各種線索中找出真相。有些線索藏在文字里,有些隱藏在圖片中,還有些埋在視頻里。只有真正聰明的AI才能把這些不同類型的信息串聯(lián)起來,得出正確答案。

研究團(tuán)隊測試了目前最先進(jìn)的AI模型,包括OpenAI的o3、谷歌的Gemini-2.5-Pro等頂級產(chǎn)品。結(jié)果讓人意外:即使是最強(qiáng)的o3模型,在這套測試中也只能達(dá)到29.02%的正確率。這就像是讓頂尖學(xué)生參加一場全新類型的考試,結(jié)果發(fā)現(xiàn)大家都只能勉強(qiáng)及格。

一、為什么需要這樣的測試

在日常生活中,當(dāng)我們想了解某個復(fù)雜問題時,往往需要查閱多個網(wǎng)站,看各種圖片和視頻資料。比如,如果你想知道某個歷史建筑的詳細(xì)信息,可能需要看建筑的照片、閱讀相關(guān)文章、觀看紀(jì)錄片片段,然后綜合這些信息才能得出完整的答案。

目前的AI助手雖然在單純的文本理解方面已經(jīng)非常厲害,但在處理這種多媒體信息搜索任務(wù)時還存在明顯不足。就像一個只會閱讀文字書籍的圖書管理員,當(dāng)讀者需要查找包含圖片和視頻的綜合資料時,就會顯得力不從心。

現(xiàn)有的評測標(biāo)準(zhǔn),比如OpenAI推出的BrowseComp,雖然能測試AI的深度搜索能力,但只關(guān)注文本信息,忽略了網(wǎng)絡(luò)上大量的視覺內(nèi)容。這就像是在測試一個人的駕駛技能時,只考察他能否看懂路標(biāo)文字,卻不測試他能否識別交通信號燈和路況標(biāo)識一樣片面。

研究團(tuán)隊意識到,隨著網(wǎng)絡(luò)內(nèi)容越來越豐富多樣,AI助手必須具備處理圖像、視頻和文本的綜合能力,才能真正勝任現(xiàn)代信息檢索的需求。因此,他們決定開發(fā)一套全新的評測體系,專門檢驗AI的多模態(tài)瀏覽能力。

二、測試題目的精心設(shè)計

MM-BrowseComp的224道題目分布在22個不同的子任務(wù)中,涵蓋了媒體娛樂、科技產(chǎn)品、社會文化、地理位置和學(xué)術(shù)研究五大領(lǐng)域。每道題目都像是一個精巧的拼圖游戲,需要AI從互聯(lián)網(wǎng)的不同角落收集線索,然后拼出完整的答案。

這些題目有一個重要特點:關(guān)鍵信息往往藏在圖像或視頻中,而不是文字里。就像在偵探小說中,最重要的線索往往不是證人的證詞,而是現(xiàn)場的一張照片或一段監(jiān)控錄像。這樣設(shè)計的目的是確保AI不能僅僅依靠文本搜索就輕松過關(guān),必須真正具備多模態(tài)理解能力。

比如,有一道題目會展示一張在某個餐廳附近拍攝的照片,然后問附近植物園里某個雕塑人物手中拿著什么物品。要回答這個問題,AI首先需要識別照片中的地標(biāo),確定具體位置,然后搜索該區(qū)域的植物園信息,找到相關(guān)雕塑,最后分析雕塑圖片得出答案。整個過程就像是一場跨越現(xiàn)實和虛擬世界的尋寶游戲。

另一道題目可能會要求AI根據(jù)某個游戲角色的描述,找到該角色武器上寶石的顏色。這需要AI不僅理解游戲背景,還要能從游戲截圖或視頻中準(zhǔn)確識別細(xì)節(jié)特征。

為了確保測試的公平性和嚴(yán)格性,研究團(tuán)隊為每道題目都設(shè)計了詳細(xì)的檢查清單。這個清單記錄了解答問題的完整推理路徑,包括每一個必要的步驟。就像是給每個偵探案件準(zhǔn)備了一份標(biāo)準(zhǔn)答案,不僅要求最終結(jié)論正確,還要確保推理過程合乎邏輯。

三、多層次的評估標(biāo)準(zhǔn)

傳統(tǒng)的AI測試通常只看最終答案是否正確,就像只關(guān)心學(xué)生考試的分?jǐn)?shù),不在意他們是怎么得出答案的。但MM-BrowseComp采用了更加細(xì)致的評估方法,不僅要看結(jié)果,還要看過程。

研究團(tuán)隊設(shè)計了三個不同層次的評估指標(biāo)。第一個是總體準(zhǔn)確率,就是傳統(tǒng)的"答對了多少題"。第二個是嚴(yán)格準(zhǔn)確率,不僅要求答案正確,還要求AI完成了所有必要的推理步驟。第三個是平均檢查單完成度,衡量AI在解題過程中完成了多少必要步驟。

這種評估方式就像是在判斷一個廚師的水平時,不僅要嘗菜品的味道,還要觀察他的料理過程是否規(guī)范,食材處理是否得當(dāng)。只有在所有環(huán)節(jié)都表現(xiàn)出色,才能被認(rèn)為是真正的高手。

通過這種多層次評估,研究團(tuán)隊發(fā)現(xiàn)了一個有趣的現(xiàn)象:有些AI模型能偶然答對題目,但推理過程完全錯誤。這就像是學(xué)生在多選題中蒙對了答案,但解題思路完全偏離正軌。嚴(yán)格準(zhǔn)確率指標(biāo)能有效識別這種"幸運答對"的情況,確保評估結(jié)果更加可靠。

四、令人意外的測試結(jié)果

當(dāng)研究團(tuán)隊用這套標(biāo)準(zhǔn)測試目前最先進(jìn)的AI模型時,結(jié)果讓所有人都感到意外。即使是公認(rèn)最強(qiáng)大的OpenAI o3模型,在總體準(zhǔn)確率上也只達(dá)到29.02%,嚴(yán)格準(zhǔn)確率更是只有19.64%。其他模型的表現(xiàn)更是慘不忍睹,大多數(shù)都在10%以下。

這個結(jié)果就像是讓一群頂尖的象棋高手去參加圍棋比賽,雖然他們在各自擅長的領(lǐng)域都是大師級別,但面對全新的挑戰(zhàn)時卻顯得力不從心。這并不意味著這些AI模型能力不行,而是說明多模態(tài)瀏覽這個領(lǐng)域確實存在巨大的技術(shù)挑戰(zhàn)。

研究團(tuán)隊進(jìn)一步分析發(fā)現(xiàn),當(dāng)涉及到需要理解圖像和視頻內(nèi)容的題目時,AI模型的表現(xiàn)會明顯下降。就像是一個優(yōu)秀的文學(xué)評論家,當(dāng)他需要分析電影畫面而不僅僅是劇本時,就會遇到困難。

更有趣的是,研究團(tuán)隊還測試了時間擴(kuò)展效應(yīng),讓AI對同一道題目嘗試多次,看能否通過增加嘗試次數(shù)來提高成功率。結(jié)果發(fā)現(xiàn),雖然總體答對率有所提升,但嚴(yán)格準(zhǔn)確率幾乎沒有改善。這說明額外的嘗試次數(shù)更多的是增加了"蒙對"的概率,而不是真正提升了推理能力。

五、技術(shù)瓶頸的深度分析

通過對AI模型失敗案例的詳細(xì)分析,研究團(tuán)隊識別出了幾個關(guān)鍵的技術(shù)瓶頸。最主要的問題是視覺幻覺,也就是AI對圖像內(nèi)容的錯誤理解。就像是一個近視眼的人在沒戴眼鏡的情況下看路標(biāo),經(jīng)常會把相似的字母搞混,導(dǎo)致整個導(dǎo)航過程出錯。

另一個重要問題是工具執(zhí)行失敗。現(xiàn)在的AI助手通常需要調(diào)用各種外部工具來完成復(fù)雜任務(wù),比如搜索引擎、圖像分析工具等。但這些工具之間的配合并不總是順利,就像是一個樂團(tuán)中不同樂器的演奏者沒有很好地協(xié)調(diào),導(dǎo)致整體演出效果大打折扣。

研究還發(fā)現(xiàn),許多開源AI系統(tǒng)主要依賴圖像描述工具來理解視覺內(nèi)容,而不是直接分析圖像。這種間接的方法就像是通過別人的轉(zhuǎn)述來了解一部電影的內(nèi)容,必然會丟失很多重要細(xì)節(jié),導(dǎo)致理解偏差。

相比之下,OpenAI的o3模型表現(xiàn)相對較好,主要是因為它能夠直接處理多種類型的信息,不需要通過中間轉(zhuǎn)換。這就像是一個既能閱讀文字又能理解圖像的全能型專家,在處理綜合性問題時具有明顯優(yōu)勢。

六、研究的實際意義和應(yīng)用前景

這項研究的價值不僅僅在于提供了一個新的測試標(biāo)準(zhǔn),更重要的是指出了AI發(fā)展的重要方向。隨著網(wǎng)絡(luò)內(nèi)容越來越豐富多樣,能夠綜合處理文本、圖像和視頻信息的AI助手將成為必然趨勢。

在實際應(yīng)用中,這種多模態(tài)瀏覽能力有著廣泛的用途。比如,在教育領(lǐng)域,AI助手可以幫助學(xué)生查找和理解包含圖表、視頻的復(fù)雜學(xué)習(xí)資料。在商業(yè)分析中,AI可以從各種報告、圖表和演示視頻中提取關(guān)鍵信息,為決策提供支持。在新聞領(lǐng)域,AI可以快速分析事件相關(guān)的文字報道、現(xiàn)場照片和視頻資料,提供全面的事件解析。

更重要的是,這項研究為AI系統(tǒng)的訓(xùn)練提供了新思路。傳統(tǒng)的AI訓(xùn)練主要關(guān)注單一模態(tài)的能力提升,而MM-BrowseComp提供的詳細(xì)推理路徑檢查單,可以作為訓(xùn)練信號,幫助AI系統(tǒng)學(xué)習(xí)更加合理的多模態(tài)推理過程。這就像是為學(xué)生提供了詳細(xì)的解題步驟模板,讓他們能夠逐步掌握正確的思維方法。

七、未來發(fā)展的啟示

這項研究揭示了當(dāng)前AI技術(shù)發(fā)展中的一個重要趨勢:單純提升某個方面的能力已經(jīng)不夠,真正的突破需要在多個能力維度上的協(xié)調(diào)發(fā)展。就像是培養(yǎng)一個優(yōu)秀的運動員,不能只練力量而忽略協(xié)調(diào)性,也不能只練速度而忽略耐力。

研究結(jié)果表明,未來的AI系統(tǒng)需要在三個方面實現(xiàn)突破。首先是原生多模態(tài)理解能力,能夠直接處理各種類型的信息,而不是依賴外部工具的轉(zhuǎn)換。其次是強(qiáng)大的推理能力,能夠在復(fù)雜的信息環(huán)境中保持清晰的邏輯思路。最后是可靠的工具協(xié)調(diào)能力,能夠有效整合各種外部資源完成復(fù)雜任務(wù)。

研究團(tuán)隊還指出,現(xiàn)有的測試時間擴(kuò)展策略效果有限,這提醒我們不能簡單地通過增加計算資源來解決能力問題,而需要從根本上提升AI的推理質(zhì)量。這就像是在提醒我們,解決問題的關(guān)鍵不在于嘗試的次數(shù)多少,而在于思路是否正確。

說到底,MM-BrowseComp不僅僅是一個測試標(biāo)準(zhǔn),更是一個指向未來的路標(biāo)。它告訴我們,真正智能的AI助手不應(yīng)該只是一個會聊天的文本機(jī)器人,而應(yīng)該是一個能夠像人類一樣綜合處理各種信息的智能伙伴。雖然目前的AI系統(tǒng)在這方面還有很大提升空間,但這項研究為我們指明了發(fā)展方向,相信在不久的將來,我們會看到更加智能、更加全面的AI助手出現(xiàn)在我們的生活中。這種能夠真正理解多媒體世界的AI助手,將會極大地改變我們獲取和處理信息的方式,讓我們在面對復(fù)雜問題時有更得力的幫手。研究團(tuán)隊表示,他們會繼續(xù)完善這個評估體系,并希望它能成為推動AI技術(shù)發(fā)展的重要工具,最終讓每個人都能享受到更智能、更貼心的AI服務(wù)。

Q&A

Q1:MM-BrowseComp測試和現(xiàn)有AI測試有什么區(qū)別?

A:MM-BrowseComp最大的不同是它要求AI不僅能理解文字,還要能看懂圖片和視頻,并且能綜合這些不同類型的信息來回答問題。就像傳統(tǒng)考試只考文字理解,而這個測試是圖文并茂的綜合能力考察,需要AI像人類一樣在網(wǎng)上搜索各種資料來找答案。

Q2:為什么連最先進(jìn)的AI模型在MM-BrowseComp上表現(xiàn)都不好?

A:因為這項測試真正考驗的是多模態(tài)綜合能力,而不是單一的文本理解。即使是OpenAI的o3這樣的頂級模型,正確率也只有29%。這說明讓AI真正像人類那樣綜合處理文字、圖像、視頻信息還有很大難度,就像讓只會讀書的學(xué)生去參加需要看圖分析的考試一樣困難。

Q3:MM-BrowseComp對普通用戶有什么實際意義?

A:這個測試標(biāo)準(zhǔn)會推動AI助手變得更智能更實用。未來的AI助手將能更好地幫你查找和理解網(wǎng)上的各種資料,無論是包含圖表的學(xué)習(xí)材料、新聞事件的圖片視頻,還是產(chǎn)品介紹的多媒體內(nèi)容,AI都能綜合分析給你準(zhǔn)確答案,讓信息查找變得更簡單高效。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-