這項由東京大學的Atsuyuki Miyai、Zaiying Zhao、Kazuki Egashira、Atsuki Sato、Tatsumi Sunada、Shota Onohara、Hiromasa Yamanishi、Mashiro Toyooka、Kunato Nishina、Ryoma Maeda以及Kiyoharu Aizawa和Toshihiko Yamasaki教授共同完成的研究,于2025年6月2日以預印本形式發(fā)布在arXiv平臺(arXiv:2506.01952v1 [cs.CL]),研究成果及相關(guān)資源可通過https://webchorearena.github.io/獲取。
一、網(wǎng)頁代理:人工智能的新使者
想象一下,當你面對一堆繁瑣的網(wǎng)頁任務時,比如整理訂單數(shù)據(jù)、計算多個產(chǎn)品的評分,或者在社交媒體上查找特定內(nèi)容,通常需要耗費大量時間和精力。如果有一個"數(shù)字助手"能替你完成這些工作,是不是會讓生活輕松許多?這正是"網(wǎng)頁代理"(web browsing agent)的目標。
網(wǎng)頁代理是由大型語言模型(LLM)驅(qū)動的人工智能系統(tǒng),它們能像人類一樣操作網(wǎng)頁瀏覽器,點擊按鈕、填寫表單、閱讀內(nèi)容并作出決策。與普通編程方式相比,網(wǎng)頁代理的優(yōu)勢在于它能直接與任何網(wǎng)頁界面交互,不需要專門的API(應用程序接口),而且整個操作過程對人類來說非常透明,容易理解和監(jiān)督。
隨著科技的發(fā)展,這些網(wǎng)頁代理變得越來越聰明,能夠順利完成常規(guī)的網(wǎng)頁瀏覽任務。但這引發(fā)了一個關(guān)鍵問題:它們能否超越基礎瀏覽,處理那些更復雜、更繁瑣,甚至是人類自己都不愿做的"網(wǎng)頁雜務"呢?
二、從WebArena到WebChoreArena:挑戰(zhàn)升級
在網(wǎng)頁代理的評估領域,WebArena已經(jīng)成為了一個公認的標準測試平臺。它提供了四個模擬網(wǎng)站:電子商務平臺(OneStopShop)、社交論壇(Reddit)、協(xié)作軟件開發(fā)平臺(GitLab)和在線數(shù)據(jù)管理系統(tǒng)(在線商店管理)。許多研究者和公司都用它來測試自己開發(fā)的網(wǎng)頁代理。
然而,隨著大型語言模型的進步,WebArena暴露出兩個主要局限性:
首先,它的任務主要集中在普通的網(wǎng)頁瀏覽上。當AI模型變得更強大時,這些基礎任務已經(jīng)不足以準確測量它們的能力極限。
其次,WebArena中的一些任務存在模糊的指令或評估錯誤。當代理性能較低時,這些問題影響不大,但隨著代理能力的提高,這些缺陷限制了測試平臺能夠準確評估的上限。
為了解決這些問題,東京大學的研究團隊開發(fā)了WebChoreArena,一個基于WebArena但更具挑戰(zhàn)性的測試平臺。想象一下,WebArena就像是駕駛考試中的基礎路考,而WebChoreArena則相當于高級路考,包含了更復雜的路況和駕駛技巧測試。
三、WebChoreArena的核心設計:模擬真實世界的繁瑣任務
WebChoreArena包含532個精心設計的任務,這些任務可以分為四大類:
**海量記憶任務**:這類任務要求代理能夠準確記住大量的觀察信息。想象你走進一個裝滿商品的倉庫,需要記住每個商品的位置、價格和庫存數(shù)量,然后根據(jù)這些信息回答問題。例如,代理需要從產(chǎn)品分類頁面收集所有評論分數(shù),這需要它能夠提取和保留頁面上的全部必要信息。
**計算任務**:這類任務需要代理基于之前觀察到的內(nèi)容進行數(shù)學推理。就像你需要計算購物清單上所有商品的總價一樣。在一個具體例子中,代理需要追蹤并求和論壇中前40個帖子的評論數(shù)量,這考驗了它執(zhí)行算術(shù)運算的能力。
**長期記憶任務**:這類任務要求代理能夠在多個網(wǎng)頁之間保持長期記憶和推理。就像你需要先查看菜譜,了解所需食材,然后去超市購物,回家后還能記得所有步驟一樣。例如,代理需要先從一個頁面檢索定價規(guī)則,然后在與訂單頁面交互時應用這些規(guī)則,這測試了它在多次導航后記憶和正確使用先前信息的能力。
**其他特殊任務**:這類任務涉及不常見或特定于某些網(wǎng)站的操作,比如在GitLab中分配標簽。這些問題測試代理處理不常見UI元素或操作的能力。
這些任務跨越了四個網(wǎng)站:購物平臺(Shopping)、購物管理系統(tǒng)(Shopping Admin)、社交論壇(Reddit)和協(xié)作開發(fā)平臺(GitLab),還包括需要在多個網(wǎng)站之間導航的跨站任務。每個任務都經(jīng)過了精心設計,以確保它們既有現(xiàn)實意義,又具有適當?shù)奶魬?zhàn)性。
四、精心打造的測評系統(tǒng)
為了確保測評的公平性和有效性,研究團隊投入了大量精力來構(gòu)建和完善WebChoreArena:
研究團隊為每個模擬網(wǎng)站分配了三名注釋員(從作者中選擇),其中一名注釋員被分配到所有四個網(wǎng)站,以確保不同網(wǎng)站之間任務質(zhì)量的一致性??偣灿惺⑨寙T參與了任務創(chuàng)建過程。
注釋員首先會探索網(wǎng)站,熟悉內(nèi)容和功能,然后根據(jù)特定標準制定任務。他們特別強調(diào)了以下幾點:
首先是專注于記憶密集型分析任務?,F(xiàn)實世界中常見但在現(xiàn)有基準測試中未得到充分代表的任務類型。為避免過于簡單的任務,團隊使用基于Claude的代理對早期任務進行了評估,以識別模型的局限性并完善任務設計。
其次是減少任務規(guī)范和評估中的歧義。雖然處理模糊指令對于現(xiàn)實世界中的代理很重要,但為了可靠的評估,團隊優(yōu)先考慮了明確的可評估性。在WebArena中,模糊的指令常常導致代理產(chǎn)生的合理答案被錯誤地標記為失敗。
第三是基于模板的任務構(gòu)建和擴展。注釋員創(chuàng)建任務模板并將其擴展為多個任務實例,每個變量都有多個實例化。這種設計使得評估更加穩(wěn)健和系統(tǒng)化。
總共創(chuàng)建了117個任務模板:購物網(wǎng)站25個,購物管理29個,Reddit 20個,GitLab 28個,跨站任務15個。平均每個模板產(chǎn)生了約4.5個任務實例。
為確保每個任務的質(zhì)量和正確性,團隊進行了交叉檢查,每個網(wǎng)站有三名注釋員參與。由于許多歧義只有在實際任務執(zhí)行過程中才會顯現(xiàn),團隊進行了多輪推理、錯誤分析和修訂。這個注釋過程既細致又耗時,總共花費了300多小時的精心完善。
五、評估方法:如何判斷AI的表現(xiàn)
評估網(wǎng)頁代理的表現(xiàn)不是一件簡單的事情。想象一下,如果讓不同的老師用不同的標準來評判學生的答案,結(jié)果很可能會不一致。為了確保評估的一致性和公平性,WebChoreArena采用了三種主要的評估指標:
**文本匹配(string_match)**:這種方法用于評估代理輸出的文本是否符合預期。它又分為三類: - 精確匹配(exact_match):只有當輸出與標準答案完全一致時,才算成功。 - 必須包含(must_include):只要標準答案包含在輸出中的任何位置,就算成功。 - 模糊匹配(fuzzy_match):利用語言模型(在實現(xiàn)中使用GPT-4o)來評估輸出是否在語義上等同于標準答案。
**網(wǎng)頁交互評估(program_html)**:這種方法驗證代理的操作是否在網(wǎng)頁上產(chǎn)生了預期的狀態(tài)變化。具體來說,會從代理操作后的網(wǎng)頁上指定元素中提取信息,并與標準答案進行比較,以確定功能上的正確性。
通過這些評估方法,研究人員可以全面評估網(wǎng)頁代理在不同類型任務上的表現(xiàn),從而更準確地了解它們的能力和局限性。
六、實驗設置:各路AI選手的較量
為了全面評估不同語言模型在WebChoreArena上的表現(xiàn),研究團隊選擇了三個代表性的大型語言模型(LLM):
**GPT-4o**:這是學術(shù)研究中常用的代表性語言模型,由OpenAI開發(fā)。
**Claude 3.7 Sonnet**:這是Anthropic公司開發(fā)的一款先進的大容量語言模型。
**Gemini 2.5 Pro**:這是Google開發(fā)的最新一代大型語言模型,擁有強大的推理能力。
這些語言模型被用于兩個先進的網(wǎng)頁代理系統(tǒng)中進行測試:
**AgentOccam**:這是一個專為WebArena基準測試設計的代理,它采用了經(jīng)過優(yōu)化的觀察和行動空間,以更好地與語言模型的預訓練數(shù)據(jù)保持一致。此外,它還采用了支持分支和剪枝的規(guī)劃策略,允許代理生成替代計劃,并根據(jù)中間結(jié)果消除次優(yōu)計劃,從而實現(xiàn)更高效、更適應性強的決策過程。
**BrowserGym**:這是一個統(tǒng)一、可擴展的環(huán)境,用于在各種基準測試中開發(fā)和評估網(wǎng)頁代理,具有標準化的觀察和行動空間。
這些不同組合的測試讓研究人員能夠全面了解各種模型和代理系統(tǒng)在復雜網(wǎng)頁任務上的能力差異。
七、實驗結(jié)果:新舊基準下的AI表現(xiàn)對比
實驗結(jié)果展示了令人深思的發(fā)現(xiàn)。首先,讓我們看看各個模型在WebArena和WebChoreArena上的整體表現(xiàn):
在WebArena上,使用AgentOccam代理時,GPT-4o達到了42.8%的準確率,Claude 3.7 Sonnet達到了52.0%,而Gemini 2.5 Pro達到了54.8%。使用BrowserGym代理時,GPT-4o達到了36.4%,Claude 3.7 Sonnet達到了51.5%,Gemini 2.5 Pro達到了59.2%。
相比之下,在更具挑戰(zhàn)性的WebChoreArena上,所有模型的表現(xiàn)都有顯著下降:
使用AgentOccam代理時,GPT-4o的準確率僅為6.8%(相比WebArena下降了36.0個百分點),Claude 3.7 Sonnet為23.5%(下降28.5個百分點),Gemini 2.5 Pro為37.8%(下降17.0個百分點)。
使用BrowserGym代理時,GPT-4o的準確率僅為2.6%(下降33.8個百分點),Claude 3.7 Sonnet為23.1%(下降28.4個百分點),Gemini 2.5 Pro為44.9%(下降14.3個百分點)。
這些結(jié)果帶來了幾個關(guān)鍵發(fā)現(xiàn):
**GPT-4o在WebChoreArena上表現(xiàn)掙扎**:雖然GPT-4o在WebArena上表現(xiàn)尚可,但在更具挑戰(zhàn)性的WebChoreArena上表現(xiàn)顯著下降,這表明WebChoreArena確實提供了更嚴峻的挑戰(zhàn),需要更先進的語言模型才能應對。
**最新的語言模型雖有進步但仍有很大提升空間**:隨著語言模型的演進,如Claude 3.7 Sonnet和Gemini 2.5 Pro,在WebChoreArena上的表現(xiàn)有所提高,但即使是最先進的Gemini 2.5 Pro,相比于WebArena,在WebChoreArena上仍有顯著的性能下降,這表明即使是最先進的模型在處理更復雜的網(wǎng)頁任務時仍有很大的提升空間。
**WebChoreArena能更清晰地測量模型性能差異**:與WebArena相比,WebChoreArena能夠更清晰地展示不同模型之間的性能差異。在WebArena上,BrowserGym的性能范圍從GPT-4o的36.4%到Gemini 2.5 Pro的59.2%,而在WebChoreArena上,這一范圍從GPT-4o的2.6%擴大到Gemini 2.5 Pro的44.9%,提供了更廣闊的評估譜系,有助于模型開發(fā)者和評估者更清晰地了解各個模型的優(yōu)勢和劣勢。
**WebChoreArena能進行細粒度的任務類型分析**:通過對不同任務類型的性能分析,研究發(fā)現(xiàn)代理架構(gòu)(不僅僅是語言模型的類型)對不同類型任務的性能有顯著影響。例如,Gemini 2.5 Pro在BrowserGym中對海量記憶任務表現(xiàn)最佳,而AgentOccam在這一類別中表現(xiàn)最差。這種差異可歸因于它們在記憶管理策略上的根本差異。
八、深入分析:不同模態(tài)和工具的影響
研究團隊還進行了一系列額外的分析,以更深入地了解不同因素對代理性能的影響:
**輸入模態(tài)的影響**:研究者調(diào)查了輸入數(shù)據(jù)模態(tài)(即文本和圖像)對代理性能的影響。主要實驗主要使用基于文本的輸入(即可訪問性樹),以減輕視覺幻覺,只有三個模板需要圖像輸入。然而,分析如何在加入圖像輸入時性能變化提供了重要見解。
研究發(fā)現(xiàn),加入圖像輸入通常會導致整體性能下降。特別是購物等某些網(wǎng)站類別在包含視覺信息時表現(xiàn)出顯著的性能變化。進一步的分析表明,對于需要僅文本信息的任務(即視覺和文本信息之間存在差距的情況),特別是對于Gemini這樣的模型,表現(xiàn)出明顯的性能下降。因此,探索如何在減輕幻覺的同時利用視覺信息代表了未來研究的一個關(guān)鍵方向。
**工具使用的影響**:研究者還調(diào)查了使用外部工具,特別是計算器,是否能增強代理性能。為此,他們使用了WebArena團隊開發(fā)的基于網(wǎng)絡的計算器,該計算器提供了基于GUI的界面,允許代理無縫執(zhí)行算術(shù)運算。他們明確給代理以下指令:"如果你需要進行一些計算,可以使用位于<計算器URL>的計算器。"
從WebChoreArena中提取了215個特定于計算的任務來評估工具使用的有效性。結(jié)果顯示,整體性能基本保持不變。主要原因是模型很少嘗試使用工具。在215個任務中,使用工具的任務數(shù)量不到總數(shù)的28%。代理似乎更喜歡直接解決問題,因為當它們認為問題可以自行解決時,直接解決比使用工具更高效。因此,研究發(fā)現(xiàn)僅僅使用計算器工具并不一定能提高WebChoreArena的性能。
九、錯誤分析:AI的常見失誤
為了更好地理解現(xiàn)有系統(tǒng)的局限性,研究團隊詳細分析了Gemini 2.5 Pro(與BrowserGym結(jié)合)的失敗案例,并識別了幾種常見的錯誤類型:
**計數(shù)錯誤**:在海量記憶任務中,雖然代理能夠準確計數(shù)單個網(wǎng)頁內(nèi)的項目,但當任務需要在多個頁面之間導航和匯總信息時,它們常常遇到困難并犯下計數(shù)錯誤。
**計算錯誤**:研究沒有觀察到在簡單的加法或乘法任務中的錯誤。然而,當Gemini 2.5 Pro需要加或乘十五個以上的數(shù)字時,明顯開始更頻繁地出現(xiàn)計算錯誤。
**忽略指令**:研究觀察到幾個指令被忽視的實例。例如,代理有時會忽略只選擇"超過5條評論"的產(chǎn)品的指令,或未能遵循指定的輸出格式。
**操作錯誤**:還觀察到一些操作錯誤。例如,代理有時無法記住其先前的操作。在一個案例中,它成功到達第二頁,但錯誤地認為自己仍在第一頁,導致它不必要地導航到另一頁。
**其他錯誤**:其他錯誤包括列出不存在的產(chǎn)品,過早結(jié)束搜索而不檢查所有頁面,以及在中途退出復雜搜索以嘗試更快的方法,但迷失方向無法完成任務。
這些分析為未來改進網(wǎng)頁代理提供了寶貴的見解,指出了需要重點關(guān)注的幾個關(guān)鍵領域。
十、總結(jié)與展望:測評平臺的意義與限制
WebChoreArena作為一個全新的基準測試平臺,為評估網(wǎng)頁代理在復雜、繁瑣任務上的能力提供了更加嚴峻的挑戰(zhàn)。這項研究不僅展示了現(xiàn)有技術(shù)的進步,也揭示了未來研究的方向。
**研究的局限性**: 首先,這項工作主要貢獻在于構(gòu)建基準測試,并沒有專注于開發(fā)新方法?;谘芯堪l(fā)現(xiàn)設計新方法是未來研究的關(guān)鍵方向。
其次,實驗是在模擬的網(wǎng)絡環(huán)境中進行的,雖然這確保了完全的可重復性,同時也接近真實網(wǎng)站,但仍可能存在一定差距。開發(fā)WebChoreArena的在線擴展是進一步與真實環(huán)境對齊同時保持可重復性的重要下一步。
**未來展望**: WebChoreArena提供了一個更具挑戰(zhàn)性的測試平臺,可以幫助研究人員更準確地評估和改進網(wǎng)頁代理的能力。隨著語言模型和代理技術(shù)的不斷發(fā)展,我們可以期待看到能夠更好地處理復雜網(wǎng)頁任務的系統(tǒng)出現(xiàn)。
這項研究不僅對學術(shù)界有重要意義,對普通用戶也有潛在的影響。隨著網(wǎng)頁代理能力的提升,未來我們可能會看到更多能夠自動化處理網(wǎng)絡雜務的工具出現(xiàn),這將為用戶節(jié)省大量時間和精力。
總之,WebChoreArena代表了網(wǎng)頁代理評估領域的一個重要進步,它將幫助推動這一領域的研究向更實用、更強大的方向發(fā)展。
好文章,需要你的鼓勵
新加坡國立大學研究團隊開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實驗顯示,僅訓練AI玩簡單撲克游戲就能讓其數(shù)學推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學題目作為訓練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學解題中,為AI訓練提供了新思路。
同濟大學團隊開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學習和數(shù)學優(yōu)化方法,在合成數(shù)據(jù)集上實現(xiàn)37.9%的精度提升,并在真實設備上展現(xiàn)出色泛化能力,為機器人、AR和自動駕駛等領域提供更可靠的3D視覺解決方案。
伊利諾伊大學研究團隊通過對比實驗發(fā)現(xiàn),經(jīng)過強化學習訓練的視覺語言模型雖然表現(xiàn)出"頓悟時刻"現(xiàn)象,但這些自我糾錯行為并不能實際提升推理準確率。研究揭示了AI模型存在"生成-驗證差距",即生成答案的能力強于驗證答案質(zhì)量的能力,且模型在自我驗證時無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動態(tài)稀疏性實現(xiàn)大語言模型訓練加速1.6倍,計算成本降低2.2倍。該方法使用SVD稀疏性估計器智能選擇重要計算部分,在保持模型性能的同時顯著提升訓練效率,已在多個任務上驗證有效性。