av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見(jiàn)證連接與計(jì)算的「力量」

首頁(yè) 中科大團(tuán)隊(duì)推出深度研究智能體新基準(zhǔn):機(jī)器也能像博士生一樣寫(xiě)研究報(bào)告了?

中科大團(tuán)隊(duì)推出深度研究智能體新基準(zhǔn):機(jī)器也能像博士生一樣寫(xiě)研究報(bào)告了?

2025-06-20 09:29
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-20 09:29 ? 科技行者

這項(xiàng)由中國(guó)科學(xué)技術(shù)大學(xué)杜明軒、許本峰、朱馳偉等研究者與北京元石科技合作完成的研究發(fā)表于2025年6月,論文題目為《DeepResearch Bench: A Comprehensive Benchmark for Deep Research Agents》。感興趣的讀者可以通過(guò)arXiv:2506.11763v1訪(fǎng)問(wèn)完整論文,相關(guān)代碼和數(shù)據(jù)集也已在GitHub開(kāi)源。

你有沒(méi)有想過(guò),人工智能能不能像一個(gè)勤奮的研究生一樣,自己在網(wǎng)上搜索資料,整理信息,最后寫(xiě)出一份像模像樣的研究報(bào)告?答案是肯定的,而且現(xiàn)在已經(jīng)有不少這樣的AI助手在為人們服務(wù)了。但問(wèn)題是,我們?cè)趺粗肋@些AI助手的研究能力到底有多強(qiáng)呢?

就像給學(xué)生出考試題一樣,研究人員需要設(shè)計(jì)一套標(biāo)準(zhǔn)化的測(cè)試來(lái)評(píng)估這些"深度研究智能體"的真實(shí)水平。這就是中科大團(tuán)隊(duì)要解決的核心問(wèn)題。他們開(kāi)發(fā)了一個(gè)名為"DeepResearch Bench"的評(píng)測(cè)基準(zhǔn),專(zhuān)門(mén)用來(lái)測(cè)試AI在進(jìn)行深度研究方面的能力。

這個(gè)研究的重要性就像給汽車(chē)設(shè)計(jì)駕照考試一樣關(guān)鍵。如果沒(méi)有統(tǒng)一的評(píng)測(cè)標(biāo)準(zhǔn),我們就無(wú)法判斷哪款A(yù)I研究助手更可靠,也無(wú)法推動(dòng)整個(gè)領(lǐng)域的進(jìn)步。更重要的是,這些AI研究助手正在被越來(lái)越多的人使用,從學(xué)者到商業(yè)分析師,從記者到投資顧問(wèn),大家都希望能有一個(gè)得力的數(shù)字助手來(lái)幫忙處理繁重的信息收集和分析工作。

研究團(tuán)隊(duì)面臨的挑戰(zhàn)其實(shí)很像給廚師設(shè)計(jì)一場(chǎng)終極烹飪比賽。首先,比賽題目必須足夠真實(shí),要反映真正的研究需求,而不能只是紙上談兵。其次,評(píng)判標(biāo)準(zhǔn)要公平合理,既要看菜品的味道(研究質(zhì)量),又要看制作過(guò)程(信息收集能力),還要考慮呈現(xiàn)效果(報(bào)告可讀性)。最關(guān)鍵的是,這套評(píng)判體系必須得到專(zhuān)業(yè)評(píng)委(人類(lèi)專(zhuān)家)的認(rèn)可。

為了構(gòu)建這套評(píng)測(cè)基準(zhǔn),研究團(tuán)隊(duì)首先做了一項(xiàng)"市場(chǎng)調(diào)研"。他們收集了超過(guò)9萬(wàn)6千條真實(shí)用戶(hù)查詢(xún)記錄,通過(guò)AI篩選出了4萬(wàn)4千多條真正需要深度研究的問(wèn)題。這就像餐廳老板統(tǒng)計(jì)顧客最常點(diǎn)的菜品一樣,要了解人們真正需要什么樣的研究服務(wù)。

基于這些真實(shí)需求,他們最終精心挑選了100個(gè)研究任務(wù),覆蓋22個(gè)不同領(lǐng)域,從科技前沿到商業(yè)分析,從社會(huì)熱點(diǎn)到學(xué)術(shù)探索。每個(gè)任務(wù)都經(jīng)過(guò)相關(guān)領(lǐng)域博士級(jí)專(zhuān)家的精心設(shè)計(jì)和反復(fù)打磨,確保既有挑戰(zhàn)性又貼近實(shí)際需求。這個(gè)過(guò)程就像策劃一場(chǎng)包含各種菜系的美食節(jié),每道菜都要經(jīng)過(guò)米其林大廚的認(rèn)證。

一、雙重評(píng)測(cè)框架:既看"做菜過(guò)程"又品"最終味道"

評(píng)估一個(gè)AI研究助手的能力,就像評(píng)判一位廚師的水平一樣,既要看他做菜的過(guò)程,又要品嘗最終的成品。研究團(tuán)隊(duì)巧妙地設(shè)計(jì)了兩套互補(bǔ)的評(píng)測(cè)框架,分別對(duì)應(yīng)這兩個(gè)方面。

第一套框架叫做RACE(Reference-based Adaptive Criteria-driven Evaluation),專(zhuān)門(mén)用來(lái)評(píng)判AI生成的研究報(bào)告質(zhì)量。這就像美食比賽中的"成品評(píng)分"環(huán)節(jié)。傳統(tǒng)的評(píng)分方法往往過(guò)于死板,就像用同一套標(biāo)準(zhǔn)評(píng)判川菜和粵菜一樣不合理。RACE框架的創(chuàng)新之處在于它能夠根據(jù)不同的研究任務(wù)動(dòng)態(tài)調(diào)整評(píng)分標(biāo)準(zhǔn)。

RACE框架的工作原理可以用高級(jí)餐廳的品鑒過(guò)程來(lái)類(lèi)比。首先,系統(tǒng)會(huì)根據(jù)具體的研究任務(wù)確定四個(gè)主要評(píng)分維度的權(quán)重:全面性(是否涵蓋了所有重要信息)、深度洞察(分析是否深入透徹)、任務(wù)匹配度(是否完全回答了問(wèn)題)和可讀性(表達(dá)是否清晰流暢)。就像評(píng)判一道菜時(shí),有時(shí)更注重口味,有時(shí)更看重?cái)[盤(pán),有時(shí)則優(yōu)先考慮營(yíng)養(yǎng)搭配。

接著,系統(tǒng)會(huì)為每個(gè)維度生成具體的評(píng)分標(biāo)準(zhǔn)。這個(gè)過(guò)程就像為每種菜系制定專(zhuān)門(mén)的評(píng)判細(xì)則一樣精細(xì)。比如評(píng)估一份關(guān)于人工智能發(fā)展趨勢(shì)的報(bào)告時(shí),全面性可能要求涵蓋技術(shù)發(fā)展、市場(chǎng)應(yīng)用、監(jiān)管政策等多個(gè)角度;而評(píng)估投資建議報(bào)告時(shí),可能更關(guān)注數(shù)據(jù)支撐和風(fēng)險(xiǎn)分析的質(zhì)量。

最巧妙的是,RACE不會(huì)讓AI在真空中給自己打分,而是采用"對(duì)比評(píng)分"的方式。系統(tǒng)會(huì)拿一份公認(rèn)的高質(zhì)量報(bào)告作為參照標(biāo)準(zhǔn),然后比較待評(píng)估報(bào)告與參照?qǐng)?bào)告在各個(gè)方面的表現(xiàn)。這就像品酒師總是需要一瓶標(biāo)準(zhǔn)酒作為基準(zhǔn)來(lái)校正自己的味覺(jué)判斷。通過(guò)這種相對(duì)評(píng)分機(jī)制,系統(tǒng)能夠更準(zhǔn)確地識(shí)別不同報(bào)告之間的質(zhì)量差異。

第二套框架叫做FACT(Factual Abundance and Citation Trustworthiness),專(zhuān)門(mén)評(píng)估AI在信息收集和引用方面的能力。這就像觀察廚師選材和處理食材的過(guò)程。一個(gè)優(yōu)秀的研究助手不僅要能找到大量相關(guān)信息,更重要的是要確保引用的準(zhǔn)確性和可靠性。

FACT框架的評(píng)估過(guò)程就像質(zhì)檢員檢查食材來(lái)源一樣嚴(yán)格。系統(tǒng)首先會(huì)從AI生成的報(bào)告中提取出所有的"陳述-鏈接"配對(duì),也就是每一個(gè)具體的論斷和它對(duì)應(yīng)的信息來(lái)源。然后,系統(tǒng)會(huì)逐一驗(yàn)證這些引用是否準(zhǔn)確:訪(fǎng)問(wèn)原始網(wǎng)頁(yè),檢查頁(yè)面內(nèi)容是否真的支持AI所聲稱(chēng)的論斷。

這個(gè)驗(yàn)證過(guò)程可以想象成這樣一個(gè)場(chǎng)景:如果AI聲稱(chēng)"某項(xiàng)研究顯示XYZ",F(xiàn)ACT框架就會(huì)去查看AI引用的那個(gè)網(wǎng)頁(yè),看看是否真的包含這樣的研究結(jié)果。如果網(wǎng)頁(yè)內(nèi)容確實(shí)支持這個(gè)說(shuō)法,就算一次"有效引用";如果網(wǎng)頁(yè)根本沒(méi)有相關(guān)內(nèi)容,或者內(nèi)容與AI的表述不符,就被標(biāo)記為"無(wú)效引用"。

通過(guò)統(tǒng)計(jì)有效引用的數(shù)量和比例,F(xiàn)ACT框架能夠計(jì)算出兩個(gè)關(guān)鍵指標(biāo):引用準(zhǔn)確率(多少比例的引用是可靠的)和平均有效引用數(shù)(每份報(bào)告平均包含多少條可驗(yàn)證的有價(jià)值信息)。這就像評(píng)估一位廚師既看他選擇食材的品質(zhì),又看他使用食材的豐富程度。

二、人機(jī)對(duì)決:誰(shuí)是最強(qiáng)研究助手

研究團(tuán)隊(duì)將目前市面上最知名的四個(gè)深度研究AI系統(tǒng)放在了同一個(gè)擂臺(tái)上:谷歌的Gemini深度研究助手、OpenAI的深度研究助手、xAI的Grok深度搜索,以及Perplexity的深度研究功能。這場(chǎng)對(duì)決就像舉辦一場(chǎng)"AI廚神爭(zhēng)霸賽",每個(gè)參賽者都要完成同樣的100道考題。

比賽的結(jié)果頗有意思。在報(bào)告質(zhì)量方面,谷歌的Gemini系統(tǒng)表現(xiàn)最為出色,總分達(dá)到48.88分(滿(mǎn)分100分的相對(duì)評(píng)分系統(tǒng)),就像一位全面發(fā)展的主廚,在各個(gè)方面都表現(xiàn)均衡。OpenAI的系統(tǒng)緊隨其后,得分46.98分,特別是在"任務(wù)匹配度"這個(gè)維度上甚至超過(guò)了Gemini,說(shuō)明它在理解和回應(yīng)用戶(hù)需求方面有獨(dú)特優(yōu)勢(shì)。

Perplexity的表現(xiàn)也不錯(cuò),得分42.25分,而Grok稍顯遜色,得分40.24分。這個(gè)結(jié)果并不意外,因?yàn)椴煌腁I系統(tǒng)在設(shè)計(jì)理念和優(yōu)化重點(diǎn)上本就存在差異,就像不同風(fēng)格的廚師各有所長(zhǎng)。

在信息收集能力的較量中,結(jié)果更加引人深思。Gemini系統(tǒng)在"有效引用數(shù)"方面遙遙領(lǐng)先,平均每份報(bào)告包含111.21條有效引用,這個(gè)數(shù)字相當(dāng)驚人。要知道,一般的學(xué)術(shù)論文也就幾十條參考文獻(xiàn),而Gemini能夠在自動(dòng)化的過(guò)程中收集并正確引用超過(guò)百條相關(guān)信息,展現(xiàn)了強(qiáng)大的信息整合能力。

然而,在引用準(zhǔn)確率方面,Perplexity表現(xiàn)最佳,準(zhǔn)確率達(dá)到90.24%,而Gemini的準(zhǔn)確率為81.44%。這種對(duì)比就像一位廚師用料豐富但偶爾會(huì)放錯(cuò)調(diào)料,而另一位廚師用料相對(duì)保守但每樣都恰到好處。OpenAI的系統(tǒng)在兩個(gè)指標(biāo)上都表現(xiàn)中等,平均有效引用數(shù)40.79條,準(zhǔn)確率77.96%,屬于比較均衡的表現(xiàn)。

研究團(tuán)隊(duì)還測(cè)試了一些傳統(tǒng)的搜索增強(qiáng)型AI系統(tǒng),比如配備搜索功能的Claude、GPT等。這些系統(tǒng)的表現(xiàn)明顯不如專(zhuān)門(mén)的深度研究助手,就像讓普通廚師和專(zhuān)業(yè)大廚同臺(tái)競(jìng)技,差距立刻顯現(xiàn)出來(lái)。其中表現(xiàn)最好的是Claude-3.7-Sonnet,總分40.67分,雖然比不上專(zhuān)業(yè)的研究助手,但也展現(xiàn)了不錯(cuò)的潛力。

三、人類(lèi)專(zhuān)家的認(rèn)可:AI評(píng)分與人類(lèi)判斷高度一致

任何評(píng)測(cè)系統(tǒng)最終都需要經(jīng)過(guò)"人類(lèi)專(zhuān)家"這道關(guān)卡的檢驗(yàn)。研究團(tuán)隊(duì)招募了70多位擁有碩士學(xué)位和相關(guān)領(lǐng)域?qū)I(yè)經(jīng)驗(yàn)的評(píng)估者,讓他們對(duì)50個(gè)中文研究任務(wù)的結(jié)果進(jìn)行人工評(píng)分。這個(gè)過(guò)程就像邀請(qǐng)資深美食家來(lái)驗(yàn)證AI評(píng)委的打分是否靠譜。

人工評(píng)估的工作量相當(dāng)龐大。每位專(zhuān)家需要仔細(xì)閱讀AI生成的研究報(bào)告,這些報(bào)告往往有幾十頁(yè)的內(nèi)容,包含大量技術(shù)細(xì)節(jié)和復(fù)雜分析。一份報(bào)告的完整評(píng)估通常需要30到60分鐘,整個(gè)項(xiàng)目總共消耗了225個(gè)小時(shí)的人工評(píng)估時(shí)間。這個(gè)數(shù)字聽(tīng)起來(lái)可能不算大,但考慮到每小時(shí)都是高質(zhì)量的專(zhuān)業(yè)判斷,其價(jià)值不言而喻。

驗(yàn)證結(jié)果讓人欣慰。RACE框架的評(píng)分與人類(lèi)專(zhuān)家的判斷呈現(xiàn)出非常強(qiáng)的相關(guān)性,在多個(gè)指標(biāo)上的一致性都超過(guò)了70%。特別是在"配對(duì)比較準(zhǔn)確率"這個(gè)指標(biāo)上,RACE框架與人類(lèi)專(zhuān)家的判斷一致性達(dá)到71.33%,甚至超過(guò)了人類(lèi)專(zhuān)家之間的一致性(68.44%)。這就好比AI評(píng)委的判斷比人類(lèi)評(píng)委之間的判斷還要一致。

這個(gè)結(jié)果有著重要的實(shí)際意義。它證明了AI確實(shí)可以在一定程度上替代人工評(píng)估,這為大規(guī)模、持續(xù)的系統(tǒng)評(píng)測(cè)提供了可能。畢竟,招募大量專(zhuān)家進(jìn)行人工評(píng)估不僅成本高昂,而且難以保證評(píng)估標(biāo)準(zhǔn)的一致性。有了可靠的自動(dòng)化評(píng)測(cè)系統(tǒng),研究人員就能更快速地迭代改進(jìn),推動(dòng)整個(gè)領(lǐng)域的進(jìn)步。

研究團(tuán)隊(duì)還進(jìn)行了細(xì)致的對(duì)比實(shí)驗(yàn),測(cè)試了不同評(píng)估方法的效果。他們發(fā)現(xiàn),簡(jiǎn)單粗暴的"一刀切"評(píng)分方法效果很差,而RACE框架的各個(gè)組件都發(fā)揮了重要作用。比如,去掉"參照?qǐng)?bào)告對(duì)比"這個(gè)環(huán)節(jié)后,評(píng)估準(zhǔn)確性明顯下降;去掉"任務(wù)適應(yīng)性權(quán)重"后,評(píng)估的針對(duì)性也會(huì)受損。這進(jìn)一步證實(shí)了整套評(píng)估體系設(shè)計(jì)的科學(xué)性。

四、橫跨22個(gè)領(lǐng)域的全面考驗(yàn)

DeepResearch Bench的100個(gè)測(cè)試任務(wù)覆蓋了22個(gè)不同領(lǐng)域,這種設(shè)計(jì)就像舉辦一場(chǎng)包含各種菜系的國(guó)際烹飪大賽。研究團(tuán)隊(duì)通過(guò)分析9萬(wàn)多條真實(shí)用戶(hù)查詢(xún),統(tǒng)計(jì)出人們?cè)诓煌I(lǐng)域的研究需求分布,然后按比例設(shè)計(jì)測(cè)試任務(wù),確?;鶞?zhǔn)測(cè)試能夠反映真實(shí)世界的使用場(chǎng)景。

科技和商業(yè)領(lǐng)域占據(jù)了最大的比重,這并不令人意外。在信息爆炸的時(shí)代,人們最需要AI幫助的往往是追蹤技術(shù)發(fā)展趨勢(shì)、分析市場(chǎng)動(dòng)態(tài)、評(píng)估投資機(jī)會(huì)等任務(wù)。比如,一個(gè)典型的科技類(lèi)任務(wù)可能是"分析當(dāng)前無(wú)人機(jī)在物流配送領(lǐng)域的應(yīng)用現(xiàn)狀和發(fā)展前景",而商業(yè)類(lèi)任務(wù)可能是"評(píng)估電動(dòng)汽車(chē)充電基礎(chǔ)設(shè)施在郊區(qū)投資的可行性"。

教育、健康、法律等傳統(tǒng)重要領(lǐng)域也有相當(dāng)?shù)姆至俊_@些領(lǐng)域的研究任務(wù)往往更加復(fù)雜,需要AI不僅能收集信息,還要能理解專(zhuān)業(yè)概念,處理政策法規(guī)等結(jié)構(gòu)化信息。比如一個(gè)教育領(lǐng)域的任務(wù)可能是"分析遠(yuǎn)程教育對(duì)不同年齡段學(xué)習(xí)效果的影響",需要AI整合教育心理學(xué)、技術(shù)應(yīng)用、實(shí)證研究等多方面的信息。

有趣的是,一些相對(duì)小眾的領(lǐng)域如宗教研究、社會(huì)生活等也被納入測(cè)試范圍。這種全面性設(shè)計(jì)確保了評(píng)測(cè)基準(zhǔn)的普適性,畢竟AI研究助手的潛在用戶(hù)群體非常廣泛,不應(yīng)該只服務(wù)于某些特定領(lǐng)域。

從測(cè)試結(jié)果來(lái)看,不同AI系統(tǒng)在各個(gè)領(lǐng)域的表現(xiàn)相對(duì)穩(wěn)定,這說(shuō)明目前的深度研究AI已經(jīng)具備了一定的通用性。不過(guò),研究團(tuán)隊(duì)也發(fā)現(xiàn)了一些有趣的規(guī)律。比如,在交通運(yùn)輸領(lǐng)域的中文任務(wù)上,所有AI系統(tǒng)的表現(xiàn)都低于平均水平,這可能反映了該領(lǐng)域中文信息資源的相對(duì)稀缺,或者該類(lèi)問(wèn)題的特殊復(fù)雜性。

五、技術(shù)細(xì)節(jié):如何讓機(jī)器像人類(lèi)專(zhuān)家一樣思考

RACE評(píng)估框架的技術(shù)實(shí)現(xiàn)頗具巧思,整個(gè)過(guò)程就像訓(xùn)練一位AI評(píng)委逐步掌握專(zhuān)業(yè)評(píng)估技能。首先,系統(tǒng)需要理解每個(gè)具體研究任務(wù)的特點(diǎn)和要求,這就像評(píng)委需要了解比賽規(guī)則和評(píng)分標(biāo)準(zhǔn)。

權(quán)重生成過(guò)程采用了"多輪平均"的策略來(lái)提高穩(wěn)定性。系統(tǒng)會(huì)針對(duì)同一個(gè)任務(wù)多次生成權(quán)重分配方案,然后取平均值作為最終權(quán)重。這種做法就像邀請(qǐng)多位專(zhuān)家分別給出意見(jiàn),然后綜合決策,能夠有效減少單次判斷的偶然性誤差。

標(biāo)準(zhǔn)生成環(huán)節(jié)更加精細(xì)化。對(duì)于每個(gè)評(píng)估維度,系統(tǒng)不是簡(jiǎn)單地使用固定標(biāo)準(zhǔn),而是根據(jù)任務(wù)特點(diǎn)動(dòng)態(tài)生成具體的評(píng)分細(xì)則。比如評(píng)估一份關(guān)于人工智能倫理的報(bào)告時(shí),"全面性"維度可能要求涵蓋技術(shù)發(fā)展、社會(huì)影響、監(jiān)管政策、倫理爭(zhēng)議等多個(gè)方面;而評(píng)估投資分析報(bào)告時(shí),可能更關(guān)注市場(chǎng)數(shù)據(jù)、財(cái)務(wù)指標(biāo)、風(fēng)險(xiǎn)評(píng)估等內(nèi)容。

參照?qǐng)?bào)告的選擇策略也經(jīng)過(guò)精心設(shè)計(jì)。研究團(tuán)隊(duì)使用高性能的Gemini-2.5-Pro系統(tǒng)生成參照?qǐng)?bào)告,這些報(bào)告質(zhì)量較高且風(fēng)格相對(duì)統(tǒng)一,為后續(xù)的對(duì)比評(píng)估提供了可靠的基準(zhǔn)。這就像在烹飪比賽中設(shè)置一道標(biāo)準(zhǔn)菜品,讓評(píng)委能夠通過(guò)對(duì)比來(lái)判斷參賽作品的優(yōu)劣。

FACT框架的技術(shù)挑戰(zhàn)主要在于如何準(zhǔn)確地提取和驗(yàn)證大量的引用信息。系統(tǒng)首先使用自然語(yǔ)言處理技術(shù)從報(bào)告中識(shí)別所有的陳述性?xún)?nèi)容,并找到對(duì)應(yīng)的URL鏈接。然后使用Jina Reader API獲取網(wǎng)頁(yè)內(nèi)容,再通過(guò)AI判斷網(wǎng)頁(yè)內(nèi)容是否支持相關(guān)陳述。

這個(gè)過(guò)程的準(zhǔn)確性至關(guān)重要。研究團(tuán)隊(duì)通過(guò)人工標(biāo)注驗(yàn)證發(fā)現(xiàn),Gemini-2.5-Flash在這類(lèi)判斷任務(wù)上的準(zhǔn)確率相當(dāng)高:對(duì)于"支持"類(lèi)判斷的準(zhǔn)確率達(dá)到96%,對(duì)于"不支持"類(lèi)判斷的準(zhǔn)確率達(dá)到92%。這種高準(zhǔn)確率為自動(dòng)化評(píng)估提供了可靠的技術(shù)基礎(chǔ)。

六、成本效益:讓AI評(píng)估變得既準(zhǔn)又省

開(kāi)發(fā)這套評(píng)估系統(tǒng)的一個(gè)重要考量是成本控制。畢竟,如果評(píng)估成本過(guò)高,就很難實(shí)現(xiàn)大規(guī)模應(yīng)用。研究團(tuán)隊(duì)在設(shè)計(jì)時(shí)充分考慮了性能與成本的平衡,就像設(shè)計(jì)一套既能保證質(zhì)量又能控制成本的生產(chǎn)流水線(xiàn)。

在RACE框架中,研究團(tuán)隊(duì)測(cè)試了多種不同性能的AI模型作為評(píng)判者。結(jié)果顯示,Gemini-2.5-Pro在性能上表現(xiàn)最佳,平均每次評(píng)估成本約0.13美元,性?xún)r(jià)比相當(dāng)不錯(cuò)。相比之下,最新的GPT-o3模型雖然性能也不錯(cuò),但成本高達(dá)0.37美元,不太適合大規(guī)模使用。而GPT-4-mini雖然成本最低(0.04美元),但性能稍有不足。

FACT框架的成本控制更加精妙。由于需要處理大量的網(wǎng)頁(yè)內(nèi)容和引用驗(yàn)證,token消耗量相當(dāng)龐大。研究團(tuán)隊(duì)選擇了Gemini-2.5-Flash作為判斷模型,雖然性能略低于Pro版本,但在引用驗(yàn)證這類(lèi)相對(duì)簡(jiǎn)單的任務(wù)上表現(xiàn)依然出色,而成本卻大幅降低。

這種成本控制策略的實(shí)際意義很大。按照當(dāng)前的成本水平,評(píng)估一份研究報(bào)告的總成本大約在幾美分到幾角錢(qián)之間,這個(gè)成本水平使得大規(guī)模、持續(xù)的系統(tǒng)評(píng)測(cè)成為可能。相比之下,人工評(píng)估的成本至少是AI評(píng)估的幾十倍,而且還面臨一致性和規(guī)?;奶魬?zhàn)。

七、現(xiàn)實(shí)意義:推動(dòng)AI研究助手的進(jìn)步

這項(xiàng)研究的價(jià)值遠(yuǎn)超學(xué)術(shù)范疇,它為整個(gè)AI研究助手行業(yè)提供了一個(gè)重要的"質(zhì)量標(biāo)尺"。就像汽車(chē)行業(yè)有了統(tǒng)一的安全測(cè)試標(biāo)準(zhǔn)后,各家廠(chǎng)商都會(huì)努力提升產(chǎn)品質(zhì)量以在測(cè)試中獲得好成績(jī),AI研究助手領(lǐng)域也需要這樣的標(biāo)準(zhǔn)化評(píng)測(cè)體系。

從評(píng)測(cè)結(jié)果可以看出,目前最先進(jìn)的AI研究助手在信息收集和整合方面已經(jīng)相當(dāng)出色,但在準(zhǔn)確性方面仍有提升空間。這為未來(lái)的技術(shù)發(fā)展指明了方向:如何在保持信息豐富性的同時(shí)提高引用準(zhǔn)確率,如何更好地理解復(fù)雜的研究需求,如何生成更具洞察力的分析內(nèi)容等。

對(duì)于普通用戶(hù)而言,這項(xiàng)研究也提供了選擇AI研究助手的參考依據(jù)。不同的AI系統(tǒng)各有特色:如果你需要收集大量信息進(jìn)行全面分析,Gemini可能是更好的選擇;如果你更看重信息的準(zhǔn)確性和可靠性,Perplexity可能更適合;如果你希望AI能更好地理解你的具體需求,OpenAI的系統(tǒng)可能表現(xiàn)更佳。

研究團(tuán)隊(duì)將整套評(píng)測(cè)基準(zhǔn)和評(píng)估工具開(kāi)源,這意味著其他研究者和開(kāi)發(fā)者都可以使用這套工具來(lái)評(píng)估自己的系統(tǒng),或者在此基礎(chǔ)上進(jìn)一步改進(jìn)。這種開(kāi)放式的發(fā)展模式有助于整個(gè)領(lǐng)域的快速進(jìn)步,就像開(kāi)源軟件推動(dòng)了整個(gè)軟件產(chǎn)業(yè)的發(fā)展一樣。

值得注意的是,這項(xiàng)研究也揭示了當(dāng)前AI研究助手存在的一些局限性。比如,在處理某些特定領(lǐng)域的中文內(nèi)容時(shí)表現(xiàn)不夠理想,在引用準(zhǔn)確性方面還有提升空間等。這些發(fā)現(xiàn)為未來(lái)的技術(shù)改進(jìn)提供了明確的方向。

八、未來(lái)展望:更智能的研究伙伴

隨著AI技術(shù)的快速發(fā)展,深度研究助手正在變得越來(lái)越強(qiáng)大。但正如這項(xiàng)研究所顯示的,我們?nèi)匀恍枰煽康脑u(píng)估方法來(lái)跟蹤技術(shù)進(jìn)步,確保AI系統(tǒng)真正服務(wù)于人類(lèi)的研究需求。

未來(lái)的AI研究助手可能會(huì)在多個(gè)方面實(shí)現(xiàn)突破。首先是多模態(tài)能力的增強(qiáng),不僅能處理文本信息,還能分析圖表、視頻等多種類(lèi)型的內(nèi)容。其次是推理能力的提升,能夠進(jìn)行更深層次的邏輯分析和創(chuàng)新性思考。再次是個(gè)性化適應(yīng),能夠根據(jù)用戶(hù)的專(zhuān)業(yè)背景和偏好調(diào)整輸出風(fēng)格和深度。

評(píng)估方法本身也需要不斷演進(jìn)。隨著AI能力的提升,評(píng)測(cè)任務(wù)的難度和復(fù)雜性也需要相應(yīng)提高。同時(shí),評(píng)估維度可能需要擴(kuò)展,比如加入創(chuàng)新性、邏輯一致性、跨領(lǐng)域整合能力等新的評(píng)價(jià)標(biāo)準(zhǔn)。

更重要的是,我們需要確保AI研究助手的發(fā)展始終以服務(wù)人類(lèi)為根本目標(biāo)。技術(shù)進(jìn)步不應(yīng)該是為了炫技,而是要真正幫助人們更高效地獲取知識(shí)、分析問(wèn)題、做出決策。這就需要像DeepResearch Bench這樣的評(píng)測(cè)基準(zhǔn)來(lái)持續(xù)監(jiān)督和引導(dǎo)技術(shù)發(fā)展的方向。

說(shuō)到底,AI研究助手的真正價(jià)值在于能否成為人類(lèi)思考的得力伙伴,而不是簡(jiǎn)單的信息搬運(yùn)工。當(dāng)我們面臨復(fù)雜的研究問(wèn)題時(shí),優(yōu)秀的AI助手應(yīng)該能夠像一位博學(xué)的同事一樣,不僅提供全面準(zhǔn)確的信息,還能提出有價(jià)值的見(jiàn)解和建議。要實(shí)現(xiàn)這個(gè)目標(biāo),我們還有很長(zhǎng)的路要走,但像這樣的基礎(chǔ)性研究工作為我們指明了前進(jìn)的方向。

歸根結(jié)底,這項(xiàng)研究的最大貢獻(xiàn)可能不在于具體的技術(shù)細(xì)節(jié),而在于它為整個(gè)領(lǐng)域建立了一套科學(xué)、公正、實(shí)用的評(píng)估標(biāo)準(zhǔn)。有了這樣的標(biāo)準(zhǔn),AI研究助手的開(kāi)發(fā)者們就有了明確的努力方向,用戶(hù)們也有了選擇產(chǎn)品的可靠依據(jù),整個(gè)行業(yè)的發(fā)展也會(huì)更加健康有序。對(duì)于我們普通人來(lái)說(shuō),這意味著未來(lái)會(huì)有更好用、更可靠的AI研究助手來(lái)幫助我們應(yīng)對(duì)信息時(shí)代的各種挑戰(zhàn)。如果你對(duì)這個(gè)研究的技術(shù)細(xì)節(jié)感興趣,不妨訪(fǎng)問(wèn)一下他們的開(kāi)源項(xiàng)目,說(shuō)不定會(huì)有意想不到的收獲。

Q&A

Q1:DeepResearch Bench是什么?它能做什么? A:DeepResearch Bench是中科大團(tuán)隊(duì)開(kāi)發(fā)的AI研究助手評(píng)測(cè)基準(zhǔn),包含100個(gè)跨22個(gè)領(lǐng)域的研究任務(wù)。它的核心功能是測(cè)試AI系統(tǒng)能否像人類(lèi)研究者一樣進(jìn)行信息收集、分析和報(bào)告撰寫(xiě),為不同AI研究助手的能力提供客觀的評(píng)分和排名。

Q2:目前哪個(gè)AI研究助手表現(xiàn)最好? A:從測(cè)試結(jié)果看,谷歌的Gemini深度研究助手綜合表現(xiàn)最佳,特別是在信息收集方面能平均引用111條有效信息。OpenAI的系統(tǒng)在理解用戶(hù)需求方面更強(qiáng),而Perplexity在引用準(zhǔn)確性方面表現(xiàn)最好,準(zhǔn)確率達(dá)90.24%。不同系統(tǒng)各有特色,適合不同的使用需求。

Q3:這個(gè)評(píng)測(cè)系統(tǒng)準(zhǔn)確嗎?會(huì)不會(huì)比人工評(píng)估差? A:研究團(tuán)隊(duì)通過(guò)225小時(shí)的人工驗(yàn)證發(fā)現(xiàn),他們的RACE評(píng)估框架與人類(lèi)專(zhuān)家判斷的一致性達(dá)71.33%,甚至超過(guò)了人類(lèi)專(zhuān)家之間的一致性(68.44%)。這說(shuō)明AI評(píng)估在保證準(zhǔn)確性的同時(shí),還能提供更一致的評(píng)判標(biāo)準(zhǔn),成本也遠(yuǎn)低于人工評(píng)估。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-