當我們在網(wǎng)上搜索復雜問題時,比如"找一本2023年前發(fā)表的關(guān)于文化傳統(tǒng)、科學過程和烹飪創(chuàng)新的研究論文,作者中有一位是西孟加拉邦的助理教授,另一位擁有博士學位",普通搜索引擎往往力不從心。而最新的AI搜索智能體卻能像資深研究員一樣,通過多輪搜索、推理和驗證來解答這類復雜問題。然而,如何公平準確地評測這些AI搜索智能體的能力,卻成了一個令人頭疼的難題。
這項由加拿大滑鐵盧大學陳子健、馬學光、莊盛瑤等研究人員領導的國際合作研究,發(fā)表于2025年8月的arXiv預印本平臺,研究編號為2508.06600v1。團隊還包括來自澳大利亞科學與工業(yè)研究組織、卡內(nèi)基梅隆大學、昆士蘭大學等多個知名機構(gòu)的研究者。有興趣深入了解的讀者可以通過https://texttron.github.io/BrowseComp-Plus/訪問完整的研究資料和數(shù)據(jù)集。
目前評測AI搜索智能體主要依靠BrowseComp這樣的基準測試,它就像一場實時的開卷考試,讓AI在真實的網(wǎng)絡環(huán)境中搜索信息來回答復雜問題。聽起來很合理,但實際上卻存在著三個致命問題。首先是公平性問題,就像讓兩個學生在不同時間、使用不同搜索引擎參加考試一樣,網(wǎng)絡內(nèi)容和搜索結(jié)果的動態(tài)變化讓比較變得毫無意義。其次是透明度問題,研究人員無法控制搜索到的文檔內(nèi)容,就像評判一場辯論賽卻不知道參賽者獲得了什么資料一樣。最后是可及性問題,依賴商業(yè)搜索API不僅成本高昂,還會因為服務質(zhì)量波動影響評測結(jié)果。
為了解決這些問題,研究團隊開發(fā)了BrowseComp-Plus這個全新的評測基準。如果說原來的評測方式像是在一個不斷變化的圖書館里考試,那么BrowseComp-Plus就是為每道題精心準備了一個固定的、經(jīng)過人工驗證的資料庫。這個資料庫不僅包含支持正確答案的證據(jù)文檔,還故意加入了一些看似相關(guān)但實際上會誤導AI的"陷阱文檔",讓評測更具挑戰(zhàn)性和代表性。
一、深度搜索智能體的工作原理
要理解這項研究的重要性,我們先來看看深度搜索智能體是如何工作的。傳統(tǒng)的搜索就像走進圖書館問管理員一個問題,得到幾本書后就滿足了。而深度搜索智能體更像是一位執(zhí)著的研究生,它會根據(jù)第一輪搜索結(jié)果調(diào)整策略,提出新的搜索詞,反復搜索和思考,直到收集到足夠的證據(jù)來回答復雜問題。
舉個例子,當AI需要找到前面提到的那本關(guān)于烹飪創(chuàng)新的研究論文時,它可能首先搜索"2023年前文化傳統(tǒng)科學過程論文",然后根據(jù)初步結(jié)果進一步搜索"西孟加拉邦助理教授食品研究",接著可能還會搜索特定作者的學術(shù)背景。每一步搜索都會讓AI更接近正確答案,這個過程需要強大的推理能力和搜索策略。
目前市面上最先進的深度搜索智能體包括OpenAI的o3、GPT-5,以及開源項目如Search-R1等。這些系統(tǒng)在處理復雜查詢時展現(xiàn)出了驚人的能力,但它們的表現(xiàn)差異巨大。研究發(fā)現(xiàn),最先進的GPT-5配合優(yōu)秀的檢索系統(tǒng)能達到70.1%的準確率,而開源模型Search-R1配合基礎檢索系統(tǒng)的準確率僅為3.86%。這種巨大差異不僅來自AI推理能力的不同,也與所使用的檢索技術(shù)密切相關(guān)。
二、構(gòu)建公平透明的評測環(huán)境
研究團隊面臨的首要挑戰(zhàn)是如何為每個復雜問題構(gòu)建一個完整而平衡的文檔集合。這就像為每道考題準備一個專門的圖書館,既要包含所有必要的答題資料,又要有足夠的干擾項來測試AI的鑒別能力。
整個構(gòu)建過程分為兩個主要階段。第一階段是證據(jù)文檔收集,研究團隊首先讓OpenAI的o3模型針對每個問題在網(wǎng)上搜索支持性證據(jù),并要求它以表格形式整理出線索、網(wǎng)址和證據(jù)內(nèi)容。隨后,14名大學生標注員花費400多小時對這些自動收集的證據(jù)進行人工驗證,確保每條證據(jù)確實能支撐相應的推理鏈條。
第二階段是困難負樣本挖掘,這個步驟特別巧妙。團隊讓GPT-4o將每個復雜問題分解為多個簡單子問題,然后用這些子問題去搜索相關(guān)但不完全正確的文檔。比如對于前面的論文查找問題,系統(tǒng)會分別搜索"文化傳統(tǒng)研究"、"科學過程論文"、"烹飪創(chuàng)新"等關(guān)鍵詞,這樣收集到的文檔看起來很相關(guān),但實際上可能來自完全不同的研究領域或時間范圍。
經(jīng)過精心篩選和去重后,最終的BrowseComp-Plus數(shù)據(jù)集包含830個問題和100,195個文檔。平均而言,每個問題對應6.1個證據(jù)文檔、76.28個負樣本文檔和2.9個直接包含答案的黃金文檔。每個文檔平均包含5179.2個單詞,為AI提供了豐富的信息來源。
三、檢索系統(tǒng)對AI表現(xiàn)的關(guān)鍵影響
研究團隊測試了多種檢索系統(tǒng),從傳統(tǒng)的BM25到最新的神經(jīng)網(wǎng)絡檢索器,結(jié)果令人震驚。檢索系統(tǒng)的質(zhì)量直接決定了AI搜索智能體的表現(xiàn)上限。這就像給同一位廚師提供不同質(zhì)量的食材,即使烹飪技藝相同,最終菜品的質(zhì)量也會天差地別。
傳統(tǒng)的BM25檢索系統(tǒng)基于關(guān)鍵詞匹配,就像用字典查單詞一樣直接但有限。當GPT-5配合BM25檢索時,準確率只有55.9%,平均需要23.23次搜索調(diào)用。而當同樣的GPT-5配合先進的Qwen3-Embedding-8B檢索系統(tǒng)時,準確率躍升至70.1%,搜索調(diào)用次數(shù)反而降低到21.74次。這說明更好的檢索不僅提高了答案質(zhì)量,還提升了搜索效率。
更有趣的發(fā)現(xiàn)是,即使是相對較弱的AI模型,在配備優(yōu)秀檢索系統(tǒng)后也能顯著改善表現(xiàn)。Claude Sonnet 4配合BM25時準確率僅為14.34%,但配合Qwen3-Embedding-8B后準確率翻倍達到36.75%。這種現(xiàn)象在所有測試模型中都很一致,說明檢索質(zhì)量是深度搜索系統(tǒng)的關(guān)鍵瓶頸。
研究還發(fā)現(xiàn)了一個有趣的權(quán)衡關(guān)系:表現(xiàn)更好的AI模型往往需要更多的搜索輪次,但配備更好的檢索系統(tǒng)后,同樣的AI可以用更少的搜索次數(shù)達到更高的準確率。這就像熟練的司機在好路上能開得既快又穩(wěn),而在爛路上即使技術(shù)再好也要小心翼翼。
四、開源與閉源模型的巨大鴻溝
實驗結(jié)果揭示了當前AI領域一個令人擔憂的現(xiàn)象:開源和閉源模型在復雜推理任務上的表現(xiàn)差距極其懸殊。最先進的商業(yè)模型如GPT-5、o3能達到60%以上的準確率,而開源模型如Qwen3-32B、SearchR1-32B即使配備同樣的檢索系統(tǒng),準確率也徘徊在10%左右。
這種差距不僅體現(xiàn)在最終答案的準確性上,更體現(xiàn)在工具使用的熟練程度上。商業(yè)模型平均每個問題會進行20多次搜索,表現(xiàn)出積極主動的探索行為。而開源模型即使在提示中被明確要求使用搜索工具,平均搜索次數(shù)也不到2次,顯示出明顯的工具使用能力不足。
然而,當研究團隊進行"神諭檢索"實驗時,情況發(fā)生了有趣的變化。所謂神諭檢索,就是直接給AI提供所有相關(guān)的證據(jù)文檔,不需要它自己搜索。在這種情況下,GPT-4.1的準確率達到93.49%,而Qwen3-32B也能達到83.25%。這說明開源模型在純粹的閱讀理解和推理能力上與商業(yè)模型差距并不懸殊,主要差距在于搜索策略和工具使用能力。
五、推理深度與搜索效率的平衡藝術(shù)
研究團隊還探索了AI推理深度對搜索行為的影響。他們測試了GPT-OSS系列模型在不同推理強度設置下的表現(xiàn),發(fā)現(xiàn)了一個有趣的規(guī)律:更深入的推理確實能帶來更高的準確率,但代價是顯著增加的搜索成本。
以GPT-OSS-20B模型為例,在低推理強度下配合Qwen3-Embed-8B檢索系統(tǒng),準確率為13.37%,平均搜索1.87次。當推理強度調(diào)至最高時,準確率提升到34.58%,但平均搜索次數(shù)激增至23.87次。這就像深思熟慮的學者能得出更準確的結(jié)論,但需要查閱更多資料。
這個發(fā)現(xiàn)對實際應用具有重要意義。在追求高準確率的場景下,可以允許AI進行更深入的推理和更多輪的搜索。而在成本敏感的應用中,則需要在準確率和效率之間找到合適的平衡點。
六、文檔獲取策略的微妙影響
在實際應用中,AI搜索智能體通常只能看到每個文檔的前幾百個字符,這是由于計算成本和處理效率的考慮。研究團隊測試了一個改進策略:為AI提供一個"全文閱讀"工具,讓它可以在需要時獲取完整文檔內(nèi)容。
實驗結(jié)果顯示,這個看似簡單的改進對不同AI的影響差異很大。GPT-4.1在獲得全文閱讀能力后,準確率從35.42%提升到43.61%,提升幅度達到8個百分點。而Qwen3-32B的提升相對有限,從10.36%提升到11.69%,僅提升1.3個百分點。
更有趣的是工具使用頻率的差異。GPT-4.1平均每個問題會調(diào)用1.85次全文閱讀工具,說明它能準確判斷何時需要更多信息。而Qwen3-32B平均只調(diào)用0.27次,說明它要么不知道何時需要更多信息,要么不知道如何有效使用這個工具。
七、規(guī)模化驗證的重要發(fā)現(xiàn)
為了驗證BrowseComp-Plus數(shù)據(jù)集規(guī)模的合理性,研究團隊進行了一個有趣的擴展實驗。他們將原本10萬文檔的數(shù)據(jù)集擴展到近千萬文檔,模擬真實網(wǎng)絡環(huán)境的規(guī)模。
實驗結(jié)果令人意外。對于傳統(tǒng)的BM25檢索,更大的文檔集合確實帶來了更好的檢索效果,這是因為更多文檔提供了更好的統(tǒng)計信息用于計算相關(guān)性。但對于神經(jīng)網(wǎng)絡檢索器,情況恰恰相反。在大規(guī)模數(shù)據(jù)集上,神經(jīng)檢索器的性能反而下降了,因為更多無關(guān)文檔的引入增加了檢索難度。
從最終的問答準確率來看,擴展數(shù)據(jù)集規(guī)模并沒有改變不同AI模型和檢索系統(tǒng)之間的相對排名,這證明了BrowseComp-Plus數(shù)據(jù)集在當前規(guī)模下已經(jīng)具備了足夠的代表性和挑戰(zhàn)性。
八、研究局限與未來展望
盡管BrowseComp-Plus在很多方面改進了現(xiàn)有的評測方法,但研究團隊也坦誠地指出了一些局限性。首先,固定的文檔集合雖然提高了評測的公平性和可重復性,但可能無法完全反映真實網(wǎng)絡搜索的動態(tài)性和開放性。其次,當前的評測主要關(guān)注英文內(nèi)容,對多語言搜索能力的評估還不夠充分。
研究團隊提出了幾個有前景的未來研究方向。一個有趣的想法是研究檢索器在AI訓練過程中的作用:用不同質(zhì)量的檢索器訓練AI搜索智能體,可能會產(chǎn)生不同的學習效果。另一個方向是研究AI的工具使用泛化能力:用一種檢索系統(tǒng)訓練的AI,在切換到另一種檢索系統(tǒng)時表現(xiàn)如何。
更具挑戰(zhàn)性的研究方向是讓AI學會協(xié)調(diào)多個搜索工具,就像現(xiàn)實中的商業(yè)搜索引擎實際上是多種搜索技術(shù)的復雜組合。此外,專門為AI搜索智能體設計的檢索系統(tǒng)也是一個有趣的研究方向,因為AI和人類在信息處理方式上存在根本差異。
最終,這項研究不僅提供了一個更好的評測工具,更重要的是為整個AI搜索領域建立了一個公平、透明、可重復的研究基礎。正如研究團隊在論文中所說,他們希望BrowseComp-Plus能像當年的Natural Questions和HotpotQA數(shù)據(jù)集一樣,成為推動領域發(fā)展的重要基礎設施。
說到底,評測AI搜索智能體就像評判一位圖書管理員的專業(yè)水平,不僅要看他能否找到正確的書,還要看他的搜索策略是否高效、推理過程是否嚴謹。BrowseComp-Plus為這樣的評判提供了一個標準化的圖書館環(huán)境,讓研究者們能夠?qū)W⒂谔嵘鼳I的真正能力,而不是被評測環(huán)境的不確定性所困擾。隨著這個工具的廣泛使用,我們有理由期待AI搜索智能體在不久的將來能夠成為我們處理復雜信息查詢時的得力助手。
Q&A
Q1:BrowseComp-Plus與傳統(tǒng)的BrowseComp評測有什么區(qū)別?
A:BrowseComp-Plus最大的區(qū)別是使用固定的、人工驗證的文檔集合替代了動態(tài)的網(wǎng)絡搜索。這就像從在不斷變化的圖書館考試改為在標準化的資料庫考試,確保了評測的公平性和可重復性,同時大大降低了成本。
Q2:為什么開源AI模型在深度搜索任務上表現(xiàn)這么差?
A:主要差距在于搜索策略和工具使用能力,而非純粹的推理能力。開源模型平均每題只搜索不到2次,而商業(yè)模型會搜索20多次。在直接提供所有證據(jù)的情況下,兩者的準確率差距大大縮小,說明問題主要出在如何有效使用搜索工具上。
Q3:檢索系統(tǒng)的質(zhì)量對AI搜索智能體有多重要?
A:檢索系統(tǒng)質(zhì)量是決定性因素。同樣的GPT-5模型,配合基礎的BM25檢索準確率只有55.9%,但配合先進的神經(jīng)網(wǎng)絡檢索器準確率能達到70.1%。更好的檢索不僅提高準確率,還能減少搜索次數(shù),提升整體效率。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機制和漸進式訓練,能夠?qū)碗s指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學習外觀和運動信息,顯著解決了當前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實用化應用奠定了重要基礎。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓練數(shù)據(jù)集和MM-AlignBench評測基準,通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預報,準確性超越傳統(tǒng)方法90%的指標。該模型采用圖神經(jīng)網(wǎng)絡技術(shù),通過學習40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學領域帶來了效率和精度的雙重突破。