av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 不用看到論文全文也能明白:VeriGUI讓AI智能體學會"復雜電腦操作"的創(chuàng)新數(shù)據(jù)集

不用看到論文全文也能明白:VeriGUI讓AI智能體學會"復雜電腦操作"的創(chuàng)新數(shù)據(jù)集

2025-08-11 14:29
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-08-11 14:29 ? 科技行者

這項由新加坡南洋理工大學劉舜宇團隊與2077AI、浙江大學等多個機構(gòu)合作的研究于2025年8月發(fā)表在了arXiv平臺上。有興趣深入了解的讀者可以通過https://github.com/VeriGUI-Team/VeriGUI或https://huggingface.co/datasets/2077AIDataFoundation/VeriGUI訪問完整數(shù)據(jù)集和論文詳情。

近年來,我們經(jīng)常聽到AI能夠下棋、寫文章、畫畫,但有沒有想過讓AI直接操控你的電腦,幫你完成復雜的工作呢?比如說,讓AI幫你搜集研究資料、制作表格、處理文檔,就像一個真正的數(shù)字助理一樣。這個想法聽起來很美好,但現(xiàn)實卻充滿挑戰(zhàn)。

目前的AI智能體雖然能夠執(zhí)行一些簡單的電腦操作,比如點擊某個按鈕或輸入一段文字,但遇到需要多個步驟、跨越不同應用程序的復雜任務時,它們往往表現(xiàn)得像剛學會用電腦的小朋友——雖然知道怎么點擊鼠標,但不知道該按什么順序完成整個任務。更糟糕的是,現(xiàn)有的訓練數(shù)據(jù)大多只關(guān)注任務的最終結(jié)果,就像只告訴學生考試答案,卻不教他們解題步驟一樣。

研究團隊面臨的核心問題是:如何讓AI學會真正的"長程規(guī)劃"——也就是將一個復雜任務分解成多個相互關(guān)聯(lián)的子步驟,并能夠在執(zhí)行過程中根據(jù)情況調(diào)整策略。這就像教會AI成為一個優(yōu)秀的項目經(jīng)理,不僅要知道最終目標,還要明白每個階段的具體目標和驗證標準。

為了解決這個問題,研究團隊開發(fā)了一個名為VeriGUI的創(chuàng)新數(shù)據(jù)集。這個數(shù)據(jù)集的特殊之處在于,它不僅記錄了完整的任務操作流程,還為每個子任務設定了可以獨立驗證的目標。這樣一來,AI就能夠在訓練過程中獲得更細致的指導,就像有一位耐心的老師在每個學習階段都給予及時的反饋和糾正。

VeriGUI數(shù)據(jù)集涵蓋了網(wǎng)頁操作和桌面應用兩大類任務。網(wǎng)頁任務主要聚焦于深度研究場景,包括科學學術(shù)研究、金融經(jīng)濟、技術(shù)創(chuàng)新、藝術(shù)娛樂以及社會政策可持續(xù)發(fā)展五個主題領(lǐng)域。桌面任務則涵蓋了辦公生產(chǎn)力軟件、系統(tǒng)工具和專業(yè)應用三個方面。每個任務都被精心分解為4到8個相互依賴的子任務,總共需要執(zhí)行數(shù)百個GUI操作步驟,平均每個任務包含214.4個操作步驟。

這種設計理念可以用烹飪來類比。傳統(tǒng)的AI訓練數(shù)據(jù)就像只告訴廚師"做一道紅燒肉",然后直接展示最終成品。而VeriGUI就像一本詳細的烹飪教程,不僅告訴你最終要做出什么菜,還詳細記錄了每個步驟:先準備食材、然后腌制、接著炒糖色、再加調(diào)料燉煮等等。更重要的是,每個步驟都有明確的驗證標準,比如"肉色變金黃"、"湯汁濃稠"等,這樣即使中途出現(xiàn)偏差,也能及時調(diào)整。

在數(shù)據(jù)收集方面,研究團隊采用了兩階段流程。第一階段是任務指令構(gòu)建,結(jié)合了語言模型生成和人工篩選。他們首先為每個主題領(lǐng)域手工選擇少量種子指令,然后讓語言模型基于這些種子生成大量候選任務。人工專家對這些候選任務進行審核,只保留那些語法清晰、語義合理、實際可行的任務。一旦建立了經(jīng)過驗證的主任務池,語言模型就會被提示進行子任務分解,獲得包含詳細子指令的完整任務指令。

第二階段是人工演示收集。人工標注員根據(jù)給定的最終指令手動執(zhí)行每個任務,并記錄完整的軌跡演示。在執(zhí)行前,標注員會完善子任務序列以確??尚行院土鲿巢僮?,在交互過程中允許根據(jù)需要進行調(diào)整。演示使用屏幕捕獲工具記錄,包含詳細的動作日志、觀察日志和子任務級目標。

為了確保高質(zhì)量的監(jiān)督和準確的基準測試,所有軌跡演示都要經(jīng)過嚴格的質(zhì)量控制。這包括自動檢查和人工審核,驗證子任務結(jié)果的正確性、動作序列的連貫性以及觀察的完整性。只有滿足所有標準的演示才會被保留。

研究團隊用這個數(shù)據(jù)集測試了多種不同類型的AI智能體,包括具有內(nèi)置搜索功能的深度研究智能體(如OpenAI Deep Research和Gemini Deep Research)、結(jié)合開源搜索工具的搜索引擎智能體、使用Browser-Use框架的瀏覽器使用智能體,以及多智能體系統(tǒng)。

測試結(jié)果令人深思。在所有智能體類型和基礎模型中,沒有任何配置的平均成功率超過10%,完成率也沒有超過30%。這種持續(xù)的低性能表現(xiàn)突出了VeriGUI任務的挑戰(zhàn)性,這些任務需要長期規(guī)劃、多步推理以及在多樣化網(wǎng)絡場景下的復雜決策能力。

具體來看,在深度研究智能體設置中,OpenAI-o3和Gemini-2.5-Pro實現(xiàn)了最高的平均成功率8.5%,完成率分別為28.8%和28.1%。這些結(jié)果表明,這兩個模型具有相對更強的推理能力和跨任務的更好泛化性。相比之下,OpenAI-o4-mini在這種設置下表現(xiàn)最差,表明盡管是推理模型,但在處理復雜網(wǎng)絡任務方面存在局限性。

在搜索引擎和瀏覽器使用設置中,研究團隊觀察到類似的模型級別趨勢。OpenAI-o3、Claude-3.7-Sonnet和Claude-4.0-Sonnet在這兩種設置中都表現(xiàn)出更強的完成率。GPT-4o在兩種設置中都顯示出一致的低成功率(0.8-1.5%)和完成率(5.2-7.0%),表明在處理復雜多步任務方面存在局限性。

交互范式的設計對智能體性能有重大影響。使用搜索引擎范式的智能體在成功率和完成率指標上都取得了最弱的結(jié)果。這種設置下的大多數(shù)模型平均成功率在0.8-5.4%之間,完成率低于18.3%。這很可能是因為它們依賴被動的基于文本的檢索,無法直接與網(wǎng)頁結(jié)構(gòu)交互。

相比之下,使用瀏覽器使用范式的智能體通常獲得稍高的分數(shù)。雖然成功率的改進往往很小,但幾個模型的平均完成率更高。例如,Claude-4.0-Sonnet從搜索引擎設置中的14.4%完成率提高到瀏覽器設置中的18.5%,Gemini-2.5-Pro從13.3%提高到15.5%。這些提升表明,能夠訪問頁面級結(jié)構(gòu)和模擬用戶操作的能力可以提供有意義的優(yōu)勢,特別是對于涉及動態(tài)界面或多個步驟的任務。

在不同領(lǐng)域的表現(xiàn)方面,藝術(shù)娛樂類任務通常獲得了最高的成功率和完成率,這可能是由于更結(jié)構(gòu)化和可預測的數(shù)據(jù)格式,如列表或摘要。例如,使用Claude-4.0-Sonnet的瀏覽器使用智能體在該領(lǐng)域達到19.4%的成功率和45.8%的完成率。相比之下,金融經(jīng)濟和社會政策可持續(xù)發(fā)展等領(lǐng)域證明更具挑戰(zhàn)性,通常要求智能體從不夠標準化的內(nèi)容中提取碎片化、抽象的信息。大多數(shù)模型在這些領(lǐng)域顯示接近0%的成功率和低于20%的完成率。

為了更好地理解VeriGUI基準中任務的內(nèi)在難度,研究團隊對所有任務的成功率和完成率分布進行了細致的統(tǒng)計分析。分布曲線顯示,對于兩種智能體類型,大多數(shù)任務都產(chǎn)生較低的成功率和完成率值,并伴有接近零成功的長尾,突出了VeriGUI多步推理要求帶來的挑戰(zhàn)。

研究團隊還系統(tǒng)地將任務難度分為五個級別。第一級包括成功率高于0%的任務,表明它們對當前智能體來說相對容易處理。第二級包括成功率為零但完成率高于20%的任務。第三級包括成功率為零但完成率在5%到20%之間的任務。第四級包括成功率為零但完成率在0%到5%之間的任務。第五級包括成功率和完成率都為零的任務,表明沒有模型能夠取得進展。

結(jié)果顯示,VeriGUI任務的大部分落在成功率為零的第二到五級,突出了高復雜性、部分可實現(xiàn)任務的普遍性。只有一小部分任務落入第一級,表明對當前智能體來說很少有任務是直接的。這種分類為未來的基準測試和GUI智能體訓練中的課程設計提供了一個實用框架。

通過具體的案例研究,研究團隊展示了不同類型智能體在長期GUI推理任務中的行為和局限性。這些例子說明了檢索保真度、多步推理質(zhì)量以及四種定義錯誤類型的典型失敗模式:錯誤信息、不完整結(jié)果、檢索失敗和無關(guān)結(jié)果。

在一個關(guān)于流媒體服務訂閱增長的任務中,深度研究智能體(OpenAI-o3)取得了相對較高的完成率,正確識別了Netflix、《怪奇物語》和大部分相關(guān)元數(shù)據(jù)。然而,它表現(xiàn)出兩個關(guān)鍵錯誤。首先,它犯了錯誤信息錯誤,報告了大約3900萬的近似訂戶增長,而不是確切的3864萬,這是由于被媒體報告誤導并錯誤地記錄2023年第四季度為2.608億而不是官方的2.6028億。其次,它展示了不完整結(jié)果,只提到了一家VFX公司,而遺漏了其他六家有重要貢獻的公司。

在另一個關(guān)于世界首個擁堵收費城市的任務中,瀏覽器使用智能體(GPT-4o)正確識別了新加坡和實施年份1975年,但在其他方面失敗了。它遇到檢索失敗,沒有提供擁堵收費的任何具體價值,而是返回模糊的描述。此外,它提供了無關(guān)結(jié)果,討論平均交通速度而不是報告第一年所需的交通減少百分比。這些問題表明,盡管基于瀏覽器的智能體可以導航網(wǎng)頁,但它們?nèi)匀辉诰_數(shù)據(jù)提取和生成結(jié)構(gòu)化、目標導向的輸出方面存在困難,導致較低的完成率。

除了個別例子,研究團隊的實驗還揭示了幾個系統(tǒng)性局限。首先,許多基于聊天的智能體展示了淺層搜索行為:它們在明顯需要更深入調(diào)查的任務中,只調(diào)用幾次工具就過早終止輸出。這限制了它們在復雜GUI環(huán)境中執(zhí)行全面、多跳檢索的能力。其次,瀏覽器智能體經(jīng)常使用完整的自然語言句子而不是提煉的關(guān)鍵詞來制定網(wǎng)絡查詢。雖然句子級輸入可能看起來更自然,但它們經(jīng)常導致次優(yōu)搜索結(jié)果,降低了檢索完成任務所需確切信息的可能性。

當前的實驗結(jié)果基于有限的130個網(wǎng)絡任務子集,其中大部分專注于信息尋求場景。有趣的是,研究團隊觀察到深度研究智能體在這種設置下通常優(yōu)于瀏覽器使用智能體。這提出了一個重要問題:我們應該優(yōu)先發(fā)展深度研究智能體,還是GUI智能體范式仍然具有更廣泛和更強大的通用能力前景?

研究團隊認為后者仍然非常有吸引力,這種觀察應該從幾個角度來解釋。任務的性質(zhì)強烈影響性能。VeriGUI中當前的大部分網(wǎng)絡任務強調(diào)多跳信息檢索和事實綜合,這與深度研究智能體的優(yōu)勢密切相關(guān)。然而,對于許多涉及界面操作的實際任務,如上傳文件和登錄賬戶,深度研究智能體基本上是有限的。這些智能體缺乏與界面視覺布局交互的能力,這對完成此類任務至關(guān)重要。相比之下,GUI智能體構(gòu)建為在環(huán)境的視覺和結(jié)構(gòu)組件上操作,使它們能夠處理超越被動信息提取的交互式工作流程。

另外,GUI智能體的性能被低估了。大多數(shù)現(xiàn)有的基于瀏覽器的GUI智能體依賴于通用多模態(tài)模型和相對基本的執(zhí)行框架。它們還沒有受益于支持深度研究系統(tǒng)的相同程度的領(lǐng)域特定優(yōu)化或工具集成。隨著該領(lǐng)域的進步,研究團隊預期環(huán)境建模、長期規(guī)劃、多模態(tài)理解以及使用VeriGUI提供的細粒度子任務監(jiān)督進行訓練的進步將顯著改善GUI智能體的推理、魯棒性和決策能力。今天看到的性能差距不應被視為根本限制,而是反映了這一有前景技術(shù)的早期階段。

GUI智能體最令人興奮的前景之一是它們作為開發(fā)更通用AI系統(tǒng)的基礎工具的潛力。雖然深度研究智能體目前專注于基于網(wǎng)絡的任務,但GUI智能體具有跨多個計算環(huán)境(包括網(wǎng)絡和桌面平臺)進行泛化的固有能力。它們與圖形界面交互的能力使它們變得多才多藝,能夠執(zhí)行諸如瀏覽、文檔編輯、系統(tǒng)配置和數(shù)據(jù)輸入等任務,所有這些都不需要領(lǐng)域特定的規(guī)則或管道。這種可擴展性和靈活性為構(gòu)建真正通用的交互式智能體提供了一條有希望的道路。

值得注意的是,當前評估僅反映了VeriGUI旨在捕獲的一部分內(nèi)容。研究團隊正在積極擴展數(shù)據(jù)集,以包括更多具有交互要求的網(wǎng)絡任務,以及涉及復雜軟件操作的大量桌面任務。未來對這一擴展數(shù)據(jù)的實驗將能夠更平衡和完整地了解跨任務類型和環(huán)境的GUI智能體能力。

說到底,VeriGUI這項研究就像給AI智能體制作了一本詳細的"電腦操作指南"。它不僅告訴AI要完成什么任務,還詳細記錄了每一個步驟應該怎么做、做到什么程度算合格。這種精細化的指導方式讓AI能夠?qū)W會真正的"長程思維",就像培養(yǎng)一個優(yōu)秀的項目經(jīng)理一樣。

雖然目前的測試結(jié)果顯示,即便是最先進的AI智能體在面對復雜的電腦操作任務時仍然表現(xiàn)得像個初學者,但這恰恰證明了這個數(shù)據(jù)集的價值——它為我們提供了一個真實而嚴格的測試標準。正如學會騎自行車需要在摔倒中不斷練習一樣,AI智能體也需要通過這樣的挑戰(zhàn)性訓練才能真正掌握復雜的電腦操作技能。

隨著這個數(shù)據(jù)集的不斷完善和擴充,我們有理由相信,在不遠的將來,AI智能體將能夠像熟練的辦公助理一樣,幫我們處理各種復雜的電腦工作。到那時,我們只需要對AI說"幫我整理一份關(guān)于某個主題的研究報告",它就能自動搜索資料、整理信息、制作表格、生成文檔,真正成為我們數(shù)字生活中不可或缺的智能伙伴。

Q&A

Q1:VeriGUI數(shù)據(jù)集有什么特別之處,為什么比現(xiàn)有的訓練數(shù)據(jù)更有效?

A:VeriGUI的特別之處在于它提供了"分步驟驗證"的訓練方式?,F(xiàn)有的訓練數(shù)據(jù)就像只告訴學生考試答案,而VeriGUI像一本詳細教程,不僅記錄完整操作流程,還為每個子任務設定可獨立驗證的目標。每個任務被分解為4-8個相互依賴的子任務,總共需要數(shù)百個操作步驟,讓AI能獲得更細致的指導和及時反饋。

Q2:目前AI智能體在VeriGUI測試中的表現(xiàn)如何,達到了什么水平?

A:測試結(jié)果顯示現(xiàn)有AI智能體的表現(xiàn)還比較有限。在所有智能體類型和基礎模型中,沒有任何配置的平均成功率超過10%,完成率也沒有超過30%。即使是表現(xiàn)最好的OpenAI-o3和Gemini-2.5-Pro,成功率也只有8.5%左右。這說明復雜的電腦操作任務對AI來說仍然是很大的挑戰(zhàn)。

Q3:VeriGUI數(shù)據(jù)集包含哪些類型的任務,這些任務有多復雜?

A:VeriGUI包含網(wǎng)頁操作和桌面應用兩大類任務。網(wǎng)頁任務涵蓋科學學術(shù)研究、金融經(jīng)濟、技術(shù)創(chuàng)新、藝術(shù)娛樂、社會政策可持續(xù)發(fā)展五個領(lǐng)域,主要是深度研究場景。桌面任務包括辦公軟件、系統(tǒng)工具和專業(yè)應用操作。每個任務平均包含214.4個操作步驟,需要跨越多個應用程序完成復雜的多步驟工作流程。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-