av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁 AI測試比人類更難的搜索任務(wù):ByteDance研究揭示搜索代理的致命弱點(diǎn)

AI測試比人類更難的搜索任務(wù):ByteDance研究揭示搜索代理的致命弱點(diǎn)

2025-08-14 12:13
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-08-14 12:13 ? 科技行者

這項(xiàng)由ByteDance Seed團(tuán)隊(duì)的Ryan Wong、Jiawei Wang、Junjie Zhao等多名研究人員共同完成的研究發(fā)表于2025年1月,論文標(biāo)題為《WideSearch: Benchmarking Agentic Broad Info-Seeking》。有興趣深入了解的讀者可以通過項(xiàng)目主頁https://widesearch-seed.github.io/獲取完整論文和相關(guān)資源。

當(dāng)我們?cè)诰W(wǎng)上搜索信息時(shí),通常只需要找到一兩個(gè)答案就夠了。比如查詢"今天的天氣怎么樣",得到一個(gè)準(zhǔn)確答案就滿足需求了。但現(xiàn)實(shí)生活中存在另一類截然不同的搜索任務(wù)——需要收集大量、全面、結(jié)構(gòu)化信息的任務(wù)。設(shè)想你正在為孩子選擇大學(xué),需要找到所有常春藤盟校的最低GPA要求、申請(qǐng)截止日期和學(xué)費(fèi)信息,并將這些信息整理成完整的表格。這種任務(wù)就像拼一幅巨大的拼圖,每一塊都必須準(zhǔn)確無誤地放在正確位置,缺少任何一片或放錯(cuò)任何一片,整幅圖就是不完整的。

隨著ChatGPT、Claude等AI助手的普及,人們開始期待這些智能代理能夠自動(dòng)完成這類繁重的信息收集工作。畢竟,讓AI花幾分鐘做完人類需要幾個(gè)小時(shí)才能完成的工作,聽起來是個(gè)完美的解決方案。然而,ByteDance的這項(xiàng)研究卻揭示了一個(gè)令人震驚的事實(shí):即使是最先進(jìn)的AI搜索代理,在這類看似簡單的任務(wù)上也表現(xiàn)得極其糟糕。

研究團(tuán)隊(duì)創(chuàng)建了一個(gè)名為WideSearch的測試平臺(tái),專門用來評(píng)估AI代理在大規(guī)模信息收集任務(wù)上的表現(xiàn)。這個(gè)平臺(tái)就像是給AI代理們出的一套"超級(jí)難題集",包含了200個(gè)精心設(shè)計(jì)的任務(wù),涵蓋從金融分析到求職、從學(xué)術(shù)研究到旅行規(guī)劃等15個(gè)不同領(lǐng)域。每個(gè)任務(wù)都要求代理收集大量具體信息,并將其整理成完整、準(zhǔn)確的表格形式。

研究團(tuán)隊(duì)測試了超過10個(gè)當(dāng)前最先進(jìn)的AI搜索系統(tǒng),包括單一代理系統(tǒng)、多代理協(xié)作框架,以及OpenAI、Google、Anthropic等公司的商業(yè)端到端系統(tǒng)。測試結(jié)果令人震驚:幾乎所有系統(tǒng)的成功率都接近0%,即使是表現(xiàn)最好的多代理系統(tǒng),成功率也僅有5.1%。更令人意外的是,即使是人類,在單獨(dú)完成這些任務(wù)時(shí),成功率也只有20%。

這些數(shù)字背后隱藏著什么問題呢?研究團(tuán)隊(duì)深入分析發(fā)現(xiàn),問題并不在于AI無法找到單個(gè)信息片段——實(shí)際上,在有足夠重試次數(shù)的情況下,AI能夠達(dá)到80%的單項(xiàng)信息查找準(zhǔn)確率。真正的癥結(jié)在于,這類任務(wù)要求絕對(duì)的完整性和準(zhǔn)確性。就像制作一道精密的菜品,每一個(gè)步驟都必須完美執(zhí)行,任何一個(gè)環(huán)節(jié)出錯(cuò),整道菜就失敗了。對(duì)于包含數(shù)千個(gè)數(shù)據(jù)點(diǎn)的任務(wù)來說,哪怕只是多了一條信息、少了一條信息,或者某一條信息不準(zhǔn)確,整個(gè)任務(wù)就被判定為失敗。

一、搜索代理遭遇的認(rèn)知挑戰(zhàn)

在傳統(tǒng)的搜索任務(wù)中,AI就像一個(gè)專門的圖書管理員,你問什么問題,它就給你找到相應(yīng)的答案。這種"深度搜索"模式擅長挖掘特定信息,比如找到某個(gè)罕見問題的準(zhǔn)確答案。另一種是"綜合研究"模式,AI像一個(gè)研究生助手,能夠收集各種信息并寫成一篇報(bào)告。

但WideSearch代表的是第三種完全不同的搜索模式——"廣度信息收集"。這就像要求AI成為一個(gè)超級(jí)高效的數(shù)據(jù)收集員,不僅要找到所有相關(guān)信息,還要確保信息的完整性、準(zhǔn)確性和結(jié)構(gòu)化呈現(xiàn)。這種任務(wù)的核心挑戰(zhàn)不在于信息有多難找,而在于信息量巨大且要求零錯(cuò)誤。

為了讓讀者更好理解這種差異,可以用餐廳類比來說明。深度搜索就像顧客點(diǎn)了一道特色菜,廚師需要精心制作這一道菜;綜合研究像是要求廚師設(shè)計(jì)一套完整的晚餐菜單并解釋每道菜的特色;而廣度信息收集則像是要求廚師準(zhǔn)確列出餐廳所有食材的供應(yīng)商、價(jià)格、保質(zhì)期和營養(yǎng)成分,并制作成一張完整無誤的表格。

研究團(tuán)隊(duì)發(fā)現(xiàn),當(dāng)前的AI代理在執(zhí)行這類任務(wù)時(shí)暴露出四個(gè)根本性缺陷。首先是規(guī)劃不完整的問題。當(dāng)AI面對(duì)復(fù)雜的多方面搜索任務(wù)時(shí),往往無法將大任務(wù)完整分解為所有必要的子任務(wù)。比如要求收集大學(xué)申請(qǐng)信息時(shí),AI可能想到要找GPA要求和學(xué)費(fèi),但忘記查詢申請(qǐng)截止日期和聯(lián)系方式。這就像一個(gè)新手廚師準(zhǔn)備大餐時(shí),可能記得買肉買菜,但忘記準(zhǔn)備調(diào)料和餐具。

其次是缺乏反思和迭代改進(jìn)機(jī)制。當(dāng)初次搜索沒有找到需要的信息時(shí),優(yōu)秀的人類搜索者會(huì)思考為什么沒找到,然后調(diào)整搜索策略。但現(xiàn)在的AI代理往往在首次嘗試失敗后就放棄了,或者直接用不完整的信息給出答案。這就像一個(gè)人找鑰匙,第一次沒在口袋里找到就認(rèn)為鑰匙丟了,而不會(huì)想到去包里、桌子上或者車?yán)镎艺摇?/p>

第三個(gè)問題是證據(jù)使用失誤。AI有時(shí)能找到正確的信息,但在理解和應(yīng)用這些信息時(shí)出現(xiàn)錯(cuò)誤。典型的情況是AI找到了某個(gè)大學(xué)的GPA要求是3.0,但這個(gè)信息實(shí)際上來自休斯頓大學(xué)的網(wǎng)頁,AI卻錯(cuò)誤地將其歸屬于哈佛大學(xué)。這就像一個(gè)人在超市看到價(jià)格標(biāo)簽,但沒注意到標(biāo)簽貼在了旁邊商品上,結(jié)果買錯(cuò)了東西。

最后是知識(shí)幻覺問題。當(dāng)搜索引擎沒有返回有用信息時(shí),AI有時(shí)會(huì)憑借內(nèi)部訓(xùn)練數(shù)據(jù)"編造"答案。比如被要求查詢2025年某國家公園的門票價(jià)格時(shí),由于這是未來信息,搜索結(jié)果為空,但AI卻給出了一個(gè)看似合理的具體價(jià)格,實(shí)際上這個(gè)價(jià)格是完全虛構(gòu)的。

二、史上最嚴(yán)格的AI搜索能力測試

為了系統(tǒng)性地評(píng)估AI代理在大規(guī)模信息收集任務(wù)上的能力,研究團(tuán)隊(duì)設(shè)計(jì)了WideSearch基準(zhǔn)測試。這個(gè)測試的設(shè)計(jì)理念就像給AI代理們?cè)O(shè)置了一道"終極考驗(yàn)",不是看它們能不能找到信息,而是看它們能不能像最專業(yè)的研究助手那樣,完美無缺地完成大規(guī)模信息收集工作。

這個(gè)基準(zhǔn)測試包含200個(gè)精心挑選和設(shè)計(jì)的任務(wù),平均分為中英文各100個(gè)。每個(gè)任務(wù)都來源于真實(shí)的用戶需求,涵蓋了法律、地理、游戲、醫(yī)療、交通、學(xué)術(shù)、旅游、政府政策、體育、教育、社會(huì)學(xué)、技術(shù)、商業(yè)金融、藝術(shù)文化等18個(gè)不同領(lǐng)域。這種多元化設(shè)計(jì)確保了測試的全面性,就像一場綜合性考試,不僅測試特定知識(shí)點(diǎn),更考察綜合應(yīng)用能力。

每個(gè)任務(wù)的設(shè)計(jì)都遵循六個(gè)嚴(yán)格標(biāo)準(zhǔn)。首先是高搜索量和廣度要求,任務(wù)必須需要大量不同的信息點(diǎn),需要進(jìn)行多輪搜索和長時(shí)間的處理過程。這就像要求考生不是回答一個(gè)問題,而是完成一整套調(diào)研報(bào)告。其次是時(shí)間和情境不變性,答案必須相對(duì)穩(wěn)定,不會(huì)因?yàn)闀r(shí)間、地理位置或文化背景變化而改變,確保測試的長期有效性。

第三個(gè)標(biāo)準(zhǔn)是客觀可驗(yàn)證性,每個(gè)任務(wù)都有確定的正確答案,可以進(jìn)行客觀、一致的評(píng)分。第四是公開可獲取性,所有必需信息都能通過標(biāo)準(zhǔn)搜索引擎公開獲得,確保任務(wù)的可解決性。第五是對(duì)外部工具的依賴性,任務(wù)被特意設(shè)計(jì)為超出AI內(nèi)部知識(shí)范圍,必須通過有效搜索才能完成。最后是場景多樣性,確保測試涵蓋多個(gè)行業(yè)領(lǐng)域,評(píng)估的是通用搜索能力而不是特定領(lǐng)域知識(shí)。

研究團(tuán)隊(duì)建立了一個(gè)五階段的嚴(yán)格質(zhì)量控制流程。這個(gè)流程就像一個(gè)多重篩選系統(tǒng),確保每個(gè)進(jìn)入最終測試集的任務(wù)都達(dá)到最高標(biāo)準(zhǔn)。首先是原始問題的篩選和重構(gòu)階段,人工注釋員從大量真實(shí)用戶查詢中篩選出有潛力的問題,并將其重構(gòu)為清晰、無歧義的測試任務(wù)。

接下來是黃金標(biāo)準(zhǔn)答案創(chuàng)建階段,每個(gè)任務(wù)都被分配給人工注釋員進(jìn)行詳盡的網(wǎng)絡(luò)搜索,創(chuàng)建完整準(zhǔn)確的標(biāo)準(zhǔn)答案。在這個(gè)過程中,注釋員需要記錄完成任務(wù)所需的時(shí)間、搜索查詢次數(shù)、使用的關(guān)鍵詞和查閱的網(wǎng)頁數(shù)量等關(guān)鍵指標(biāo)。

第三階段是參數(shù)化知識(shí)過濾,確保任務(wù)確實(shí)需要使用搜索工具。研究團(tuán)隊(duì)將每個(gè)候選問題提交給多個(gè)強(qiáng)大的非工具增強(qiáng)AI模型,如果任何模型能僅憑內(nèi)部知識(shí)完成任務(wù),該問題就被排除。第四階段是基于難度的篩選,利用人工注釋員收集的性能指標(biāo)進(jìn)行定量難度評(píng)估。任何人類注釋員在10分鐘內(nèi)或查閱少于10個(gè)網(wǎng)頁就能完成的任務(wù)都被認(rèn)為過于簡單而被排除。

最后一個(gè)階段是迭代優(yōu)化和驗(yàn)證循環(huán),形成臨時(shí)基準(zhǔn)集后,研究團(tuán)隊(duì)使用現(xiàn)有商業(yè)AI代理系統(tǒng)生成響應(yīng),然后用自動(dòng)評(píng)估系統(tǒng)評(píng)分。同時(shí),人工專家對(duì)相同響應(yīng)進(jìn)行評(píng)分。如果自動(dòng)評(píng)估和人工評(píng)估結(jié)果相似度低于95%,任務(wù)就被標(biāo)記需要修訂。這個(gè)循環(huán)持續(xù)進(jìn)行直到自動(dòng)評(píng)估能夠可靠反映人工判斷。

為了量化這些任務(wù)的復(fù)雜性,研究團(tuán)隊(duì)對(duì)100個(gè)任務(wù)進(jìn)行了詳細(xì)的人工標(biāo)注研究。結(jié)果顯示,即使是經(jīng)驗(yàn)豐富的研究人員,平均也需要2.33小時(shí)才能完成一個(gè)任務(wù),需要查閱平均44.10個(gè)不同的網(wǎng)頁。這些數(shù)字清楚地表明了任務(wù)的高復(fù)雜性和所需的巨大時(shí)間投入。

三、評(píng)估系統(tǒng)的創(chuàng)新設(shè)計(jì)

為了準(zhǔn)確評(píng)估AI代理在這些復(fù)雜任務(wù)上的表現(xiàn),研究團(tuán)隊(duì)開發(fā)了一個(gè)創(chuàng)新的混合自動(dòng)評(píng)估系統(tǒng)。傳統(tǒng)的AI評(píng)估往往只看最終答案是否正確,但WideSearch需要評(píng)估的是結(jié)構(gòu)化的表格輸出,這就像評(píng)判一份完整的研究報(bào)告,需要檢查每個(gè)細(xì)節(jié)的準(zhǔn)確性。

評(píng)估系統(tǒng)的工作流程就像一個(gè)嚴(yán)格的審稿過程。首先進(jìn)行數(shù)據(jù)準(zhǔn)備和語法驗(yàn)證,如果AI生成的不是有效的Markdown表格,或者列標(biāo)題與標(biāo)準(zhǔn)答案不匹配,就直接得零分。這就像論文投稿時(shí),如果格式不符合要求,編輯可能直接拒稿。

通過語法檢查后,系統(tǒng)進(jìn)行標(biāo)準(zhǔn)化和對(duì)齊處理。由于AI可能用略有不同的表述來描述同一實(shí)體(比如用"哈佛"代替"哈佛大學(xué)"),系統(tǒng)使用智能映射算法將語義相同但表述不同的內(nèi)容對(duì)齊。然后通過預(yù)定義的主鍵將預(yù)測表格與標(biāo)準(zhǔn)答案表格進(jìn)行連接,識(shí)別匹配行以及誤報(bào)和漏報(bào)情況。

最核心的是混合項(xiàng)目級(jí)評(píng)分系統(tǒng)。對(duì)于每對(duì)對(duì)齊的行,系統(tǒng)逐一檢查對(duì)應(yīng)單元格,根據(jù)列的預(yù)標(biāo)注類型選擇相應(yīng)評(píng)估方法。對(duì)于需要絕對(duì)精確的字符串使用完全匹配;對(duì)于數(shù)字使用數(shù)值近似匹配,允許微小的浮點(diǎn)數(shù)或格式變化;對(duì)于日期使用語義比較,能夠識(shí)別不同格式但等價(jià)的日期表示;對(duì)于URL進(jìn)行標(biāo)準(zhǔn)化驗(yàn)證;對(duì)于復(fù)雜情況(如翻譯名稱或細(xì)致描述)則使用大語言模型作為評(píng)判員,進(jìn)行語義理解評(píng)估。

評(píng)估結(jié)果被匯總成多個(gè)互補(bǔ)的指標(biāo)。主要指標(biāo)是成功率,只有當(dāng)生成的表格與標(biāo)準(zhǔn)答案完全匹配時(shí)任務(wù)才算成功。雖然這個(gè)指標(biāo)提供了明確的整體任務(wù)完成度衡量,但其二元性質(zhì)往往過于嚴(yán)格,特別是對(duì)于包含大量數(shù)據(jù)點(diǎn)的任務(wù)。

為了提供更細(xì)致的分析,系統(tǒng)還計(jì)算行級(jí)F1分?jǐn)?shù),將每行視為一個(gè)信息記錄單元,以及項(xiàng)目級(jí)F1分?jǐn)?shù),將每個(gè)單元格視為基本比較單位。這種多層次評(píng)估就像評(píng)價(jià)一個(gè)學(xué)生的綜合表現(xiàn),不僅看總體成績,還要分析各科目和各知識(shí)點(diǎn)的掌握情況。

為了提供更全面的性能評(píng)估,系統(tǒng)對(duì)每個(gè)任務(wù)進(jìn)行N次獨(dú)立運(yùn)行并報(bào)告三種聚合策略的結(jié)果。平均值衡量代理的平均表現(xiàn),通過值衡量代理的峰值能力(至少一次成功的任務(wù)百分比),最大值報(bào)告多次嘗試中的最高分?jǐn)?shù)。這種多角度分析就像評(píng)估運(yùn)動(dòng)員表現(xiàn)時(shí),不僅看平均成績,還要看最佳成績和穩(wěn)定性。

四、令人震驚的測試結(jié)果

當(dāng)研究團(tuán)隊(duì)將這個(gè)嚴(yán)格的測試應(yīng)用于當(dāng)前最先進(jìn)的AI搜索系統(tǒng)時(shí),結(jié)果令所有人感到震驚。即使是技術(shù)巨頭開發(fā)的最新AI代理,在這些看似常規(guī)的信息收集任務(wù)面前也顯得束手無策。

在單一代理模式測試中,表現(xiàn)最好的是OpenAI的o3模型,成功率僅為4.5%。Claude Sonnet 4和ByteDance的Doubao-Seed-1.6分別達(dá)到2.3%和2.6%的成功率。其他知名模型如Gemini 2.5 Pro、Kimi K2和DeepSeek-R1的成功率都在1.5%以下。這些數(shù)字意味著,即使是最優(yōu)秀的AI代理,在100個(gè)任務(wù)中也只能完美完成不到5個(gè)。

多代理協(xié)作框架的表現(xiàn)稍好一些,但仍然極其有限。OpenAI o3在多代理模式下達(dá)到了5.1%的最高成功率,Claude Sonnet 4為3.6%,Kimi K2為3.0%。雖然多代理模式普遍比單代理模式表現(xiàn)更好,但提升幅度相對(duì)較小,整體成功率仍然極低。

更令人意外的是商業(yè)端到端系統(tǒng)的表現(xiàn)。這些系統(tǒng)理論上經(jīng)過了更多優(yōu)化和調(diào)優(yōu),但在WideSearch測試中的表現(xiàn)甚至不如研究團(tuán)隊(duì)構(gòu)建的簡單代理框架。Gemini 2.5 Pro的端到端模式成功率為4.3%,OpenAI o3為3.0%,Claude Sonnet 4僅為2.5%。

為了驗(yàn)證這些任務(wù)對(duì)人類的難度,研究團(tuán)隊(duì)邀請(qǐng)了額外的人工注釋員進(jìn)行測試。令人驚訝的是,即使給人類充足時(shí)間并允許使用任何工具(包括現(xiàn)有AI助手),單個(gè)人的成功率也只有20%。這個(gè)結(jié)果說明了WideSearch任務(wù)確實(shí)具有極高的內(nèi)在難度。

然而,通過多人協(xié)作和交叉驗(yàn)證(這正是創(chuàng)建標(biāo)準(zhǔn)答案時(shí)采用的方法),人類團(tuán)隊(duì)能夠達(dá)到接近100%的成功率。這個(gè)對(duì)比揭示了一個(gè)重要洞察:這類任務(wù)需要的不僅僅是搜索能力,還需要協(xié)作、驗(yàn)證和迭代改進(jìn)的能力。

研究團(tuán)隊(duì)還進(jìn)行了測試時(shí)間擴(kuò)展實(shí)驗(yàn),讓同一個(gè)AI模型(Kimi K2)對(duì)每個(gè)任務(wù)嘗試不同次數(shù),從1次到128次。結(jié)果顯示,項(xiàng)目級(jí)F1分?jǐn)?shù)隨著嘗試次數(shù)增加而顯著提升,在128次嘗試后甚至達(dá)到了近80分。這表明AI確實(shí)能夠找到單個(gè)信息片段,問題在于無法在單次嘗試中收集到所有必需信息。

但是,即使經(jīng)過128次嘗試,表格級(jí)成功率仍然只達(dá)到不到20分。這個(gè)結(jié)果清楚地表明,問題的關(guān)鍵不在于找不到信息,而在于要求絕對(duì)的完整性和準(zhǔn)確性。對(duì)于包含5000個(gè)原子信息的任務(wù),即使找到了4999個(gè)正確信息,只要多一個(gè)、少一個(gè)或錯(cuò)一個(gè),整個(gè)任務(wù)就失敗了。

五、深層問題的根源分析

通過對(duì)大量失敗案例的深入分析,研究團(tuán)隊(duì)識(shí)別出了當(dāng)前AI搜索代理面臨的根本性問題。這些問題就像疾病的癥狀表象背后隱藏的病因,需要深入診斷才能找到治療方案。

最突出的問題是查詢分解不完整。當(dāng)AI面對(duì)復(fù)雜的多方面搜索任務(wù)時(shí),往往無法將大任務(wù)完整分解為所有必要的子查詢。比如要求收集大學(xué)排名前五的五個(gè)學(xué)科領(lǐng)域大學(xué)信息時(shí),AI可能成功識(shí)別出需要查詢各個(gè)學(xué)科的頂尖大學(xué),但卻忘記后續(xù)需要收集每所大學(xué)的官網(wǎng)、申請(qǐng)截止日期和費(fèi)用等附加信息。這就像一個(gè)人計(jì)劃做一頓大餐,想到了要買主菜食材,但忘記了配菜、調(diào)料和餐具的采購清單。

第二個(gè)關(guān)鍵問題是缺乏反思和迭代改進(jìn)機(jī)制。當(dāng)初始工具調(diào)用返回空結(jié)果或信息不足時(shí),理想的代理應(yīng)該能夠反思失敗原因并主動(dòng)調(diào)整搜索策略。比如重新表述關(guān)鍵詞、擴(kuò)大或縮小搜索范圍、嘗試不同的搜索引擎等。但研究發(fā)現(xiàn),即使是高級(jí)推理模型也缺乏這種動(dòng)態(tài)調(diào)整機(jī)制。它們往往在初次嘗試失敗后就放棄搜索,轉(zhuǎn)而基于不完整信息或內(nèi)部知識(shí)給出答案,反映出批判性思維和適應(yīng)性規(guī)劃的不足。

證據(jù)利用失誤是另一個(gè)嚴(yán)重問題。這種失誤出現(xiàn)在代理無法正確將最終答案建立在檢索到的證據(jù)基礎(chǔ)上的情況。典型表現(xiàn)有兩種:要么代理誤解或忽視相關(guān)來源的內(nèi)容,要么未能驗(yàn)證來源的背景和相關(guān)性,從而錯(cuò)誤應(yīng)用事實(shí)正確但情境不當(dāng)?shù)男畔?。比如在查詢哈佛大學(xué)土木工程碩士GPA要求時(shí),AI找到了"GPA要求3.0/4.0"的信息,但這個(gè)信息實(shí)際來自休斯頓大學(xué)網(wǎng)站,AI卻將其錯(cuò)誤歸屬給哈佛大學(xué)。

知識(shí)幻覺和事實(shí)不一致問題同樣嚴(yán)重。當(dāng)搜索引擎無法返回相關(guān)信息時(shí),AI有時(shí)會(huì)使用內(nèi)部知識(shí)填補(bǔ)空白,這經(jīng)常導(dǎo)致"幻覺"現(xiàn)象,即模型編造不存在的事實(shí)或提供與既定知識(shí)沖突的不正確信息。比如在查詢2025年6月美國國家公園門票價(jià)格這種未來信息時(shí),搜索正確返回空結(jié)果,但AI卻給大沼澤地國家公園編造了15美元的具體票價(jià)。

除了這些高級(jí)認(rèn)知缺陷,研究還發(fā)現(xiàn)了一些基礎(chǔ)執(zhí)行失誤。工具調(diào)用錯(cuò)誤是最常見的失誤之一,通常由模型生成錯(cuò)誤的參數(shù)格式、遺漏必要參數(shù)或試圖調(diào)用不存在的工具引起。輸出格式錯(cuò)誤指部分AI無法嚴(yán)格遵守指令中規(guī)定的輸出格式要求,比如無法生成Markdown表格或生成格式錯(cuò)誤的表格。

上下文長度超限問題也較為突出,任務(wù)因模型生成過度冗長的中間步驟或陷入無效循環(huán)而提前終止。響應(yīng)拒絕行為在一些查詢中也有出現(xiàn),主要表現(xiàn)為兩種模式:模型認(rèn)為用戶問題存在歧義并要求進(jìn)一步澄清以縮小查詢范圍,或者模型認(rèn)為所需信息過于廣泛而直接拒絕響應(yīng)。

六、揭示AI能力邊界的深層含義

WideSearch測試結(jié)果揭示了當(dāng)前AI技術(shù)發(fā)展中一個(gè)重要但被忽視的能力缺陷。這個(gè)發(fā)現(xiàn)就像在AI能力地圖上標(biāo)出了一塊"未知領(lǐng)域",提醒我們AI技術(shù)的發(fā)展還有很長的路要走。

測試結(jié)果最引人深思的方面是精確度與召回率之間的嚴(yán)重失衡。在所有測試子集中,AI的召回率都明顯低于精確度。這意味著AI更容易找到正確的信息,但很難找到所有需要的信息。這種模式揭示了當(dāng)前模型在全面信息獲取能力上的關(guān)鍵缺陷,它們無法進(jìn)行足夠徹底的搜索來收集完成任務(wù)所需的所有信息。

這種能力缺陷的根源可能在于當(dāng)前AI訓(xùn)練和設(shè)計(jì)的根本假設(shè)。大多數(shù)AI系統(tǒng)被訓(xùn)練來快速給出"足夠好"的答案,而不是追求絕對(duì)完整和準(zhǔn)確的信息收集。這就像訓(xùn)練一個(gè)學(xué)生在考試中快速答題拿到及格分?jǐn)?shù),而不是教他們?nèi)绾芜M(jìn)行詳盡的學(xué)術(shù)研究。

多代理框架雖然在性能上有所提升,但改進(jìn)幅度有限,這表明問題可能不僅僅是架構(gòu)層面的,更可能是基礎(chǔ)能力層面的缺陷。即使通過"分工合作"的方式,如果每個(gè)代理都存在基礎(chǔ)能力不足的問題,整體系統(tǒng)的改進(jìn)也會(huì)受到限制。

測試時(shí)間擴(kuò)展實(shí)驗(yàn)的結(jié)果特別有啟發(fā)性。當(dāng)允許AI進(jìn)行多次嘗試時(shí),單項(xiàng)信息查找能力可以接近80%,但整體任務(wù)成功率仍然很低。這個(gè)對(duì)比清楚地表明,問題不在于AI找不到信息,而在于無法在單次執(zhí)行中系統(tǒng)性地收集和整合所有必需信息。這就像一個(gè)人具備開車的基本技能,但無法規(guī)劃和執(zhí)行一次復(fù)雜的長途旅行。

人類在單獨(dú)執(zhí)行這些任務(wù)時(shí)也只有20%的成功率,但通過多人協(xié)作可以達(dá)到近100%的成功率,這個(gè)對(duì)比揭示了協(xié)作和交叉驗(yàn)證在處理大規(guī)模信息任務(wù)中的重要性。這提示我們,未來的AI系統(tǒng)可能需要更好地模擬人類的協(xié)作模式,而不僅僅是個(gè)體智能。

研究結(jié)果還暴露了當(dāng)前商業(yè)AI助手設(shè)計(jì)中的一個(gè)盲區(qū)。這些系統(tǒng)通常優(yōu)化用戶體驗(yàn)和對(duì)話流暢性,但在需要嚴(yán)格精度和完整性的專業(yè)任務(wù)上表現(xiàn)不佳。有些所謂的"深度研究"系統(tǒng)甚至難以遵循精確指令,傾向于生成冗長報(bào)告而不是所需的結(jié)構(gòu)化表格。這說明當(dāng)前AI助手的設(shè)計(jì)目標(biāo)和實(shí)際應(yīng)用需求之間存在錯(cuò)位。

七、技術(shù)發(fā)展的啟示與展望

WideSearch研究的發(fā)現(xiàn)為AI技術(shù)的未來發(fā)展指明了幾個(gè)重要方向。這些發(fā)現(xiàn)就像給AI研發(fā)人員提供了一張"能力缺陷地圖",明確標(biāo)出了需要重點(diǎn)攻克的技術(shù)難點(diǎn)。

首先,研究強(qiáng)烈暗示多代理架構(gòu)是解決大規(guī)模信息任務(wù)的有前途方向。雖然當(dāng)前多代理系統(tǒng)的改進(jìn)幅度有限,但這可能是因?yàn)榈讓幽P湍芰Σ蛔?,而不是架?gòu)方向錯(cuò)誤。未來的多代理系統(tǒng)需要實(shí)現(xiàn)真正的并行搜索和交叉驗(yàn)證,模擬專業(yè)研究團(tuán)隊(duì)的協(xié)作模式。這就像從單個(gè)廚師做菜轉(zhuǎn)向?qū)I(yè)廚房團(tuán)隊(duì)合作,每個(gè)人負(fù)責(zé)不同環(huán)節(jié),通過協(xié)調(diào)配合完成復(fù)雜的大餐制作。

其次,需要開發(fā)更強(qiáng)的元認(rèn)知和反思能力。當(dāng)前AI缺乏對(duì)自身搜索過程的監(jiān)控和調(diào)整能力,這是一個(gè)需要優(yōu)先解決的基礎(chǔ)問題。未來的AI系統(tǒng)需要能夠評(píng)估搜索結(jié)果的質(zhì)量和完整性,識(shí)別信息缺口,并動(dòng)態(tài)調(diào)整搜索策略。這種能力就像一個(gè)經(jīng)驗(yàn)豐富的偵探,不僅會(huì)收集線索,還會(huì)分析線索的質(zhì)量和關(guān)聯(lián)性,發(fā)現(xiàn)遺漏之處并調(diào)整調(diào)查方向。

第三,證據(jù)驗(yàn)證和歸因機(jī)制需要根本性改進(jìn)。AI必須學(xué)會(huì)嚴(yán)格驗(yàn)證信息來源的相關(guān)性和可靠性,避免將錯(cuò)誤來源的正確信息歸屬給錯(cuò)誤實(shí)體。這需要開發(fā)更sophisticated的信息溯源和驗(yàn)證算法,確保每個(gè)數(shù)據(jù)點(diǎn)都能準(zhǔn)確追溯到其原始來源。

規(guī)劃能力的系統(tǒng)性提升也是關(guān)鍵需求。當(dāng)前AI在任務(wù)分解時(shí)容易遺漏重要子任務(wù),需要開發(fā)更全面和系統(tǒng)的規(guī)劃算法。這種算法應(yīng)該能夠從多個(gè)角度分析任務(wù)需求,生成完整的子任務(wù)清單,并在執(zhí)行過程中動(dòng)態(tài)調(diào)整計(jì)劃。

此外,研究結(jié)果表明需要重新思考AI系統(tǒng)的訓(xùn)練目標(biāo)和評(píng)估標(biāo)準(zhǔn)。當(dāng)前大多數(shù)AI系統(tǒng)針對(duì)"足夠好"的快速響應(yīng)進(jìn)行優(yōu)化,但某些應(yīng)用場景需要絕對(duì)的準(zhǔn)確性和完整性。這需要開發(fā)新的訓(xùn)練方法和評(píng)估指標(biāo),專門針對(duì)高精度、高完整性的任務(wù)需求。

從實(shí)際應(yīng)用角度看,這項(xiàng)研究也提示我們需要重新評(píng)估AI助手在專業(yè)工作流程中的角色定位。在需要高精度信息收集的場景中,AI可能更適合作為人類專家的增強(qiáng)工具,而不是完全替代方案。這種人機(jī)協(xié)作模式可能比完全自動(dòng)化更加實(shí)用和可靠。

研究還揭示了基準(zhǔn)測試設(shè)計(jì)的重要性。WideSearch通過關(guān)注實(shí)際應(yīng)用場景中的關(guān)鍵能力缺陷,為AI研究提供了新的評(píng)估視角。這種以實(shí)際需求為導(dǎo)向的基準(zhǔn)測試方法,對(duì)于指導(dǎo)AI技術(shù)向更實(shí)用的方向發(fā)展具有重要價(jià)值。

從更廣闊的視角看,WideSearch研究提醒我們,AI能力的發(fā)展并非均勻的。在某些任務(wù)上表現(xiàn)出色的AI系統(tǒng),可能在其他看似簡單的任務(wù)上表現(xiàn)糟糕。這種能力分布的不均勻性需要在設(shè)計(jì)AI應(yīng)用時(shí)充分考慮,避免過高估計(jì)AI在特定場景下的可靠性。

說到底,這項(xiàng)研究最大的價(jià)值在于誠實(shí)地承認(rèn)了當(dāng)前AI技術(shù)的局限性,并為未來改進(jìn)指明了具體方向。正如研究團(tuán)隊(duì)所指出的,解決WideSearch任務(wù)需要的不僅僅是更強(qiáng)大的模型,更需要從根本上重新思考AI系統(tǒng)的設(shè)計(jì)理念和架構(gòu)模式。只有這樣,我們才能開發(fā)出真正可靠的AI助手,在專業(yè)任務(wù)中為人類提供有意義的幫助。

這項(xiàng)研究也提醒我們,AI技術(shù)的進(jìn)步不應(yīng)該只追求在標(biāo)準(zhǔn)測試中的高分,更應(yīng)該關(guān)注在真實(shí)應(yīng)用場景中的實(shí)用性和可靠性。WideSearch基準(zhǔn)測試的價(jià)值就在于它源于真實(shí)需求,反映了用戶在實(shí)際工作中遇到的挑戰(zhàn)。這種以實(shí)用為導(dǎo)向的研究方法,對(duì)于推動(dòng)AI技術(shù)走向成熟具有重要意義。

Q&A

Q1:WideSearch是什么?它和普通的搜索測試有什么區(qū)別?

A:WideSearch是ByteDance開發(fā)的專門測試AI搜索代理大規(guī)模信息收集能力的基準(zhǔn)平臺(tái)。它不同于普通搜索測試,不是找一兩個(gè)答案就行,而是要求AI收集大量信息并整理成完整表格,任何信息缺失或錯(cuò)誤都算失敗。就像要求AI成為完美的研究助手,必須找到所有相關(guān)信息且不能有任何錯(cuò)漏。

Q2:為什么最先進(jìn)的AI在WideSearch測試中表現(xiàn)這么差?

A:主要有四個(gè)原因:規(guī)劃不完整(無法將復(fù)雜任務(wù)分解為所有必要的子任務(wù))、缺乏反思機(jī)制(搜索失敗后不會(huì)調(diào)整策略)、證據(jù)使用錯(cuò)誤(找到信息但歸屬錯(cuò)誤)、知識(shí)幻覺(搜索不到時(shí)會(huì)編造答案)。這些問題導(dǎo)致即使最好的AI成功率也只有5%左右。

Q3:WideSearch測試的結(jié)果對(duì)AI技術(shù)發(fā)展有什么啟示?

A:研究結(jié)果表明需要重點(diǎn)發(fā)展多代理協(xié)作系統(tǒng)、增強(qiáng)AI的反思和規(guī)劃能力、改進(jìn)證據(jù)驗(yàn)證機(jī)制。同時(shí)提醒我們AI技術(shù)發(fā)展不均勻,在某些看似簡單的任務(wù)上AI可能表現(xiàn)很差,需要重新評(píng)估AI在專業(yè)工作中的角色定位,更多考慮人機(jī)協(xié)作而非完全替代。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-