av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 WebChoreArena:東京大學(xué)研究團(tuán)隊推出更具挑戰(zhàn)性的網(wǎng)頁代理任務(wù)評估基準(zhǔn)

WebChoreArena:東京大學(xué)研究團(tuán)隊推出更具挑戰(zhàn)性的網(wǎng)頁代理任務(wù)評估基準(zhǔn)

2025-06-05 15:25
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-05 15:25 ? 科技行者

這項由東京大學(xué)的Atsuyuki Miyai、Zaiying Zhao、Kazuki Egashira、Atsuki Sato、Tatsumi Sunada、Shota Onohara、Hiromasa Yamanishi、Mashiro Toyooka、Kunato Nishina、Ryoma Maeda以及Kiyoharu Aizawa和Toshihiko Yamasaki教授共同完成的研究,于2025年6月2日以預(yù)印本形式發(fā)布在arXiv平臺(arXiv:2506.01952v1 [cs.CL]),研究成果及相關(guān)資源可通過https://webchorearena.github.io/獲取。

一、網(wǎng)頁代理:人工智能的新使者

想象一下,當(dāng)你面對一堆繁瑣的網(wǎng)頁任務(wù)時,比如整理訂單數(shù)據(jù)、計算多個產(chǎn)品的評分,或者在社交媒體上查找特定內(nèi)容,通常需要耗費大量時間和精力。如果有一個"數(shù)字助手"能替你完成這些工作,是不是會讓生活輕松許多?這正是"網(wǎng)頁代理"(web browsing agent)的目標(biāo)。

網(wǎng)頁代理是由大型語言模型(LLM)驅(qū)動的人工智能系統(tǒng),它們能像人類一樣操作網(wǎng)頁瀏覽器,點擊按鈕、填寫表單、閱讀內(nèi)容并作出決策。與普通編程方式相比,網(wǎng)頁代理的優(yōu)勢在于它能直接與任何網(wǎng)頁界面交互,不需要專門的API(應(yīng)用程序接口),而且整個操作過程對人類來說非常透明,容易理解和監(jiān)督。

隨著科技的發(fā)展,這些網(wǎng)頁代理變得越來越聰明,能夠順利完成常規(guī)的網(wǎng)頁瀏覽任務(wù)。但這引發(fā)了一個關(guān)鍵問題:它們能否超越基礎(chǔ)瀏覽,處理那些更復(fù)雜、更繁瑣,甚至是人類自己都不愿做的"網(wǎng)頁雜務(wù)"呢?

二、從WebArena到WebChoreArena:挑戰(zhàn)升級

在網(wǎng)頁代理的評估領(lǐng)域,WebArena已經(jīng)成為了一個公認(rèn)的標(biāo)準(zhǔn)測試平臺。它提供了四個模擬網(wǎng)站:電子商務(wù)平臺(OneStopShop)、社交論壇(Reddit)、協(xié)作軟件開發(fā)平臺(GitLab)和在線數(shù)據(jù)管理系統(tǒng)(在線商店管理)。許多研究者和公司都用它來測試自己開發(fā)的網(wǎng)頁代理。

然而,隨著大型語言模型的進(jìn)步,WebArena暴露出兩個主要局限性:

首先,它的任務(wù)主要集中在普通的網(wǎng)頁瀏覽上。當(dāng)AI模型變得更強(qiáng)大時,這些基礎(chǔ)任務(wù)已經(jīng)不足以準(zhǔn)確測量它們的能力極限。

其次,WebArena中的一些任務(wù)存在模糊的指令或評估錯誤。當(dāng)代理性能較低時,這些問題影響不大,但隨著代理能力的提高,這些缺陷限制了測試平臺能夠準(zhǔn)確評估的上限。

為了解決這些問題,東京大學(xué)的研究團(tuán)隊開發(fā)了WebChoreArena,一個基于WebArena但更具挑戰(zhàn)性的測試平臺。想象一下,WebArena就像是駕駛考試中的基礎(chǔ)路考,而WebChoreArena則相當(dāng)于高級路考,包含了更復(fù)雜的路況和駕駛技巧測試。

三、WebChoreArena的核心設(shè)計:模擬真實世界的繁瑣任務(wù)

WebChoreArena包含532個精心設(shè)計的任務(wù),這些任務(wù)可以分為四大類:

**海量記憶任務(wù)**:這類任務(wù)要求代理能夠準(zhǔn)確記住大量的觀察信息。想象你走進(jìn)一個裝滿商品的倉庫,需要記住每個商品的位置、價格和庫存數(shù)量,然后根據(jù)這些信息回答問題。例如,代理需要從產(chǎn)品分類頁面收集所有評論分?jǐn)?shù),這需要它能夠提取和保留頁面上的全部必要信息。

**計算任務(wù)**:這類任務(wù)需要代理基于之前觀察到的內(nèi)容進(jìn)行數(shù)學(xué)推理。就像你需要計算購物清單上所有商品的總價一樣。在一個具體例子中,代理需要追蹤并求和論壇中前40個帖子的評論數(shù)量,這考驗了它執(zhí)行算術(shù)運算的能力。

**長期記憶任務(wù)**:這類任務(wù)要求代理能夠在多個網(wǎng)頁之間保持長期記憶和推理。就像你需要先查看菜譜,了解所需食材,然后去超市購物,回家后還能記得所有步驟一樣。例如,代理需要先從一個頁面檢索定價規(guī)則,然后在與訂單頁面交互時應(yīng)用這些規(guī)則,這測試了它在多次導(dǎo)航后記憶和正確使用先前信息的能力。

**其他特殊任務(wù)**:這類任務(wù)涉及不常見或特定于某些網(wǎng)站的操作,比如在GitLab中分配標(biāo)簽。這些問題測試代理處理不常見UI元素或操作的能力。

這些任務(wù)跨越了四個網(wǎng)站:購物平臺(Shopping)、購物管理系統(tǒng)(Shopping Admin)、社交論壇(Reddit)和協(xié)作開發(fā)平臺(GitLab),還包括需要在多個網(wǎng)站之間導(dǎo)航的跨站任務(wù)。每個任務(wù)都經(jīng)過了精心設(shè)計,以確保它們既有現(xiàn)實意義,又具有適當(dāng)?shù)奶魬?zhàn)性。

四、精心打造的測評系統(tǒng)

為了確保測評的公平性和有效性,研究團(tuán)隊投入了大量精力來構(gòu)建和完善WebChoreArena:

研究團(tuán)隊為每個模擬網(wǎng)站分配了三名注釋員(從作者中選擇),其中一名注釋員被分配到所有四個網(wǎng)站,以確保不同網(wǎng)站之間任務(wù)質(zhì)量的一致性??偣灿惺⑨寙T參與了任務(wù)創(chuàng)建過程。

注釋員首先會探索網(wǎng)站,熟悉內(nèi)容和功能,然后根據(jù)特定標(biāo)準(zhǔn)制定任務(wù)。他們特別強(qiáng)調(diào)了以下幾點:

首先是專注于記憶密集型分析任務(wù)?,F(xiàn)實世界中常見但在現(xiàn)有基準(zhǔn)測試中未得到充分代表的任務(wù)類型。為避免過于簡單的任務(wù),團(tuán)隊使用基于Claude的代理對早期任務(wù)進(jìn)行了評估,以識別模型的局限性并完善任務(wù)設(shè)計。

其次是減少任務(wù)規(guī)范和評估中的歧義。雖然處理模糊指令對于現(xiàn)實世界中的代理很重要,但為了可靠的評估,團(tuán)隊優(yōu)先考慮了明確的可評估性。在WebArena中,模糊的指令常常導(dǎo)致代理產(chǎn)生的合理答案被錯誤地標(biāo)記為失敗。

第三是基于模板的任務(wù)構(gòu)建和擴(kuò)展。注釋員創(chuàng)建任務(wù)模板并將其擴(kuò)展為多個任務(wù)實例,每個變量都有多個實例化。這種設(shè)計使得評估更加穩(wěn)健和系統(tǒng)化。

總共創(chuàng)建了117個任務(wù)模板:購物網(wǎng)站25個,購物管理29個,Reddit 20個,GitLab 28個,跨站任務(wù)15個。平均每個模板產(chǎn)生了約4.5個任務(wù)實例。

為確保每個任務(wù)的質(zhì)量和正確性,團(tuán)隊進(jìn)行了交叉檢查,每個網(wǎng)站有三名注釋員參與。由于許多歧義只有在實際任務(wù)執(zhí)行過程中才會顯現(xiàn),團(tuán)隊進(jìn)行了多輪推理、錯誤分析和修訂。這個注釋過程既細(xì)致又耗時,總共花費了300多小時的精心完善。

五、評估方法:如何判斷AI的表現(xiàn)

評估網(wǎng)頁代理的表現(xiàn)不是一件簡單的事情。想象一下,如果讓不同的老師用不同的標(biāo)準(zhǔn)來評判學(xué)生的答案,結(jié)果很可能會不一致。為了確保評估的一致性和公平性,WebChoreArena采用了三種主要的評估指標(biāo):

**文本匹配(string_match)**:這種方法用于評估代理輸出的文本是否符合預(yù)期。它又分為三類: - 精確匹配(exact_match):只有當(dāng)輸出與標(biāo)準(zhǔn)答案完全一致時,才算成功。 - 必須包含(must_include):只要標(biāo)準(zhǔn)答案包含在輸出中的任何位置,就算成功。 - 模糊匹配(fuzzy_match):利用語言模型(在實現(xiàn)中使用GPT-4o)來評估輸出是否在語義上等同于標(biāo)準(zhǔn)答案。

**網(wǎng)頁交互評估(program_html)**:這種方法驗證代理的操作是否在網(wǎng)頁上產(chǎn)生了預(yù)期的狀態(tài)變化。具體來說,會從代理操作后的網(wǎng)頁上指定元素中提取信息,并與標(biāo)準(zhǔn)答案進(jìn)行比較,以確定功能上的正確性。

通過這些評估方法,研究人員可以全面評估網(wǎng)頁代理在不同類型任務(wù)上的表現(xiàn),從而更準(zhǔn)確地了解它們的能力和局限性。

六、實驗設(shè)置:各路AI選手的較量

為了全面評估不同語言模型在WebChoreArena上的表現(xiàn),研究團(tuán)隊選擇了三個代表性的大型語言模型(LLM):

**GPT-4o**:這是學(xué)術(shù)研究中常用的代表性語言模型,由OpenAI開發(fā)。

**Claude 3.7 Sonnet**:這是Anthropic公司開發(fā)的一款先進(jìn)的大容量語言模型。

**Gemini 2.5 Pro**:這是Google開發(fā)的最新一代大型語言模型,擁有強(qiáng)大的推理能力。

這些語言模型被用于兩個先進(jìn)的網(wǎng)頁代理系統(tǒng)中進(jìn)行測試:

**AgentOccam**:這是一個專為WebArena基準(zhǔn)測試設(shè)計的代理,它采用了經(jīng)過優(yōu)化的觀察和行動空間,以更好地與語言模型的預(yù)訓(xùn)練數(shù)據(jù)保持一致。此外,它還采用了支持分支和剪枝的規(guī)劃策略,允許代理生成替代計劃,并根據(jù)中間結(jié)果消除次優(yōu)計劃,從而實現(xiàn)更高效、更適應(yīng)性強(qiáng)的決策過程。

**BrowserGym**:這是一個統(tǒng)一、可擴(kuò)展的環(huán)境,用于在各種基準(zhǔn)測試中開發(fā)和評估網(wǎng)頁代理,具有標(biāo)準(zhǔn)化的觀察和行動空間。

這些不同組合的測試讓研究人員能夠全面了解各種模型和代理系統(tǒng)在復(fù)雜網(wǎng)頁任務(wù)上的能力差異。

七、實驗結(jié)果:新舊基準(zhǔn)下的AI表現(xiàn)對比

實驗結(jié)果展示了令人深思的發(fā)現(xiàn)。首先,讓我們看看各個模型在WebArena和WebChoreArena上的整體表現(xiàn):

在WebArena上,使用AgentOccam代理時,GPT-4o達(dá)到了42.8%的準(zhǔn)確率,Claude 3.7 Sonnet達(dá)到了52.0%,而Gemini 2.5 Pro達(dá)到了54.8%。使用BrowserGym代理時,GPT-4o達(dá)到了36.4%,Claude 3.7 Sonnet達(dá)到了51.5%,Gemini 2.5 Pro達(dá)到了59.2%。

相比之下,在更具挑戰(zhàn)性的WebChoreArena上,所有模型的表現(xiàn)都有顯著下降:

使用AgentOccam代理時,GPT-4o的準(zhǔn)確率僅為6.8%(相比WebArena下降了36.0個百分點),Claude 3.7 Sonnet為23.5%(下降28.5個百分點),Gemini 2.5 Pro為37.8%(下降17.0個百分點)。

使用BrowserGym代理時,GPT-4o的準(zhǔn)確率僅為2.6%(下降33.8個百分點),Claude 3.7 Sonnet為23.1%(下降28.4個百分點),Gemini 2.5 Pro為44.9%(下降14.3個百分點)。

這些結(jié)果帶來了幾個關(guān)鍵發(fā)現(xiàn):

**GPT-4o在WebChoreArena上表現(xiàn)掙扎**:雖然GPT-4o在WebArena上表現(xiàn)尚可,但在更具挑戰(zhàn)性的WebChoreArena上表現(xiàn)顯著下降,這表明WebChoreArena確實提供了更嚴(yán)峻的挑戰(zhàn),需要更先進(jìn)的語言模型才能應(yīng)對。

**最新的語言模型雖有進(jìn)步但仍有很大提升空間**:隨著語言模型的演進(jìn),如Claude 3.7 Sonnet和Gemini 2.5 Pro,在WebChoreArena上的表現(xiàn)有所提高,但即使是最先進(jìn)的Gemini 2.5 Pro,相比于WebArena,在WebChoreArena上仍有顯著的性能下降,這表明即使是最先進(jìn)的模型在處理更復(fù)雜的網(wǎng)頁任務(wù)時仍有很大的提升空間。

**WebChoreArena能更清晰地測量模型性能差異**:與WebArena相比,WebChoreArena能夠更清晰地展示不同模型之間的性能差異。在WebArena上,BrowserGym的性能范圍從GPT-4o的36.4%到Gemini 2.5 Pro的59.2%,而在WebChoreArena上,這一范圍從GPT-4o的2.6%擴(kuò)大到Gemini 2.5 Pro的44.9%,提供了更廣闊的評估譜系,有助于模型開發(fā)者和評估者更清晰地了解各個模型的優(yōu)勢和劣勢。

**WebChoreArena能進(jìn)行細(xì)粒度的任務(wù)類型分析**:通過對不同任務(wù)類型的性能分析,研究發(fā)現(xiàn)代理架構(gòu)(不僅僅是語言模型的類型)對不同類型任務(wù)的性能有顯著影響。例如,Gemini 2.5 Pro在BrowserGym中對海量記憶任務(wù)表現(xiàn)最佳,而AgentOccam在這一類別中表現(xiàn)最差。這種差異可歸因于它們在記憶管理策略上的根本差異。

八、深入分析:不同模態(tài)和工具的影響

研究團(tuán)隊還進(jìn)行了一系列額外的分析,以更深入地了解不同因素對代理性能的影響:

**輸入模態(tài)的影響**:研究者調(diào)查了輸入數(shù)據(jù)模態(tài)(即文本和圖像)對代理性能的影響。主要實驗主要使用基于文本的輸入(即可訪問性樹),以減輕視覺幻覺,只有三個模板需要圖像輸入。然而,分析如何在加入圖像輸入時性能變化提供了重要見解。

研究發(fā)現(xiàn),加入圖像輸入通常會導(dǎo)致整體性能下降。特別是購物等某些網(wǎng)站類別在包含視覺信息時表現(xiàn)出顯著的性能變化。進(jìn)一步的分析表明,對于需要僅文本信息的任務(wù)(即視覺和文本信息之間存在差距的情況),特別是對于Gemini這樣的模型,表現(xiàn)出明顯的性能下降。因此,探索如何在減輕幻覺的同時利用視覺信息代表了未來研究的一個關(guān)鍵方向。

**工具使用的影響**:研究者還調(diào)查了使用外部工具,特別是計算器,是否能增強(qiáng)代理性能。為此,他們使用了WebArena團(tuán)隊開發(fā)的基于網(wǎng)絡(luò)的計算器,該計算器提供了基于GUI的界面,允許代理無縫執(zhí)行算術(shù)運算。他們明確給代理以下指令:"如果你需要進(jìn)行一些計算,可以使用位于<計算器URL>的計算器。"

從WebChoreArena中提取了215個特定于計算的任務(wù)來評估工具使用的有效性。結(jié)果顯示,整體性能基本保持不變。主要原因是模型很少嘗試使用工具。在215個任務(wù)中,使用工具的任務(wù)數(shù)量不到總數(shù)的28%。代理似乎更喜歡直接解決問題,因為當(dāng)它們認(rèn)為問題可以自行解決時,直接解決比使用工具更高效。因此,研究發(fā)現(xiàn)僅僅使用計算器工具并不一定能提高WebChoreArena的性能。

九、錯誤分析:AI的常見失誤

為了更好地理解現(xiàn)有系統(tǒng)的局限性,研究團(tuán)隊詳細(xì)分析了Gemini 2.5 Pro(與BrowserGym結(jié)合)的失敗案例,并識別了幾種常見的錯誤類型:

**計數(shù)錯誤**:在海量記憶任務(wù)中,雖然代理能夠準(zhǔn)確計數(shù)單個網(wǎng)頁內(nèi)的項目,但當(dāng)任務(wù)需要在多個頁面之間導(dǎo)航和匯總信息時,它們常常遇到困難并犯下計數(shù)錯誤。

**計算錯誤**:研究沒有觀察到在簡單的加法或乘法任務(wù)中的錯誤。然而,當(dāng)Gemini 2.5 Pro需要加或乘十五個以上的數(shù)字時,明顯開始更頻繁地出現(xiàn)計算錯誤。

**忽略指令**:研究觀察到幾個指令被忽視的實例。例如,代理有時會忽略只選擇"超過5條評論"的產(chǎn)品的指令,或未能遵循指定的輸出格式。

**操作錯誤**:還觀察到一些操作錯誤。例如,代理有時無法記住其先前的操作。在一個案例中,它成功到達(dá)第二頁,但錯誤地認(rèn)為自己仍在第一頁,導(dǎo)致它不必要地導(dǎo)航到另一頁。

**其他錯誤**:其他錯誤包括列出不存在的產(chǎn)品,過早結(jié)束搜索而不檢查所有頁面,以及在中途退出復(fù)雜搜索以嘗試更快的方法,但迷失方向無法完成任務(wù)。

這些分析為未來改進(jìn)網(wǎng)頁代理提供了寶貴的見解,指出了需要重點關(guān)注的幾個關(guān)鍵領(lǐng)域。

十、總結(jié)與展望:測評平臺的意義與限制

WebChoreArena作為一個全新的基準(zhǔn)測試平臺,為評估網(wǎng)頁代理在復(fù)雜、繁瑣任務(wù)上的能力提供了更加嚴(yán)峻的挑戰(zhàn)。這項研究不僅展示了現(xiàn)有技術(shù)的進(jìn)步,也揭示了未來研究的方向。

**研究的局限性**: 首先,這項工作主要貢獻(xiàn)在于構(gòu)建基準(zhǔn)測試,并沒有專注于開發(fā)新方法?;谘芯堪l(fā)現(xiàn)設(shè)計新方法是未來研究的關(guān)鍵方向。

其次,實驗是在模擬的網(wǎng)絡(luò)環(huán)境中進(jìn)行的,雖然這確保了完全的可重復(fù)性,同時也接近真實網(wǎng)站,但仍可能存在一定差距。開發(fā)WebChoreArena的在線擴(kuò)展是進(jìn)一步與真實環(huán)境對齊同時保持可重復(fù)性的重要下一步。

**未來展望**: WebChoreArena提供了一個更具挑戰(zhàn)性的測試平臺,可以幫助研究人員更準(zhǔn)確地評估和改進(jìn)網(wǎng)頁代理的能力。隨著語言模型和代理技術(shù)的不斷發(fā)展,我們可以期待看到能夠更好地處理復(fù)雜網(wǎng)頁任務(wù)的系統(tǒng)出現(xiàn)。

這項研究不僅對學(xué)術(shù)界有重要意義,對普通用戶也有潛在的影響。隨著網(wǎng)頁代理能力的提升,未來我們可能會看到更多能夠自動化處理網(wǎng)絡(luò)雜務(wù)的工具出現(xiàn),這將為用戶節(jié)省大量時間和精力。

總之,WebChoreArena代表了網(wǎng)頁代理評估領(lǐng)域的一個重要進(jìn)步,它將幫助推動這一領(lǐng)域的研究向更實用、更強(qiáng)大的方向發(fā)展。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-