如今,隨著人工智能技術(shù)的不斷發(fā)展,讓AI助手能夠像人類(lèi)一樣自然地操作電腦已成為研究熱點(diǎn)。然而,當(dāng)前的圖形用戶(hù)界面(GUI)交互模型面臨著一個(gè)關(guān)鍵瓶頸:無(wú)法準(zhǔn)確地將自然語(yǔ)言指令映射到屏幕上的具體操作位置。這個(gè)被稱(chēng)為"GUI定位"的能力,是構(gòu)建高效電腦操作AI助手的基石。
這項(xiàng)研究由香港大學(xué)的謝天寶(Tianbao Xie)、鄧嘉琪(Jiaqi Deng)、李曉川(Xiaochuan Li)、楊俊霖(Junlin Yang)等研究人員與Salesforce AI Research的Doyen Sahoo、余韜(Tao Yu)和熊才明(Caiming Xiong)共同完成,發(fā)表于arXiv預(yù)印版(arXiv:2505.13227v1)。研究團(tuán)隊(duì)構(gòu)建了OSWORLD-G基準(zhǔn)測(cè)試集和JEDI數(shù)據(jù)集,顯著提升了GUI定位能力,讓AI助手更準(zhǔn)確地理解和執(zhí)行用戶(hù)指令。
想象一下,你告訴一個(gè)AI助手:"點(diǎn)擊頂部通知欄的關(guān)閉按鈕",而它能準(zhǔn)確找到并點(diǎn)擊屏幕上正確的位置。要做到這一點(diǎn),AI需要理解什么是"通知欄",知道它在"頂部",識(shí)別出其中的"關(guān)閉按鈕",并最終精確地點(diǎn)擊正確的像素位置。這聽(tīng)起來(lái)很簡(jiǎn)單,但對(duì)AI來(lái)說(shuō)卻充滿挑戰(zhàn)。
現(xiàn)有的研究往往過(guò)度簡(jiǎn)化了這類(lèi)任務(wù),將其視為簡(jiǎn)單的參照表達(dá)問(wèn)題,忽略了真實(shí)用戶(hù)指令的復(fù)雜性。例如,現(xiàn)有的ScreenSpot-v2基準(zhǔn)測(cè)試已經(jīng)被最新的模型輕松達(dá)到約90%的準(zhǔn)確率,但這些測(cè)試主要集中在簡(jiǎn)單的文本或圖標(biāo)識(shí)別上,并不能反映現(xiàn)實(shí)中交互任務(wù)的復(fù)雜性。
研究團(tuán)隊(duì)意識(shí)到,真實(shí)世界的GUI交互需要軟件常識(shí)(了解圖標(biāo)含義、組件功能)、布局理解(理解側(cè)邊欄位置、面板下的元素等)以及精細(xì)操作能力(調(diào)整滑塊、字符級(jí)文本選擇等)。為了解決這些挑戰(zhàn),研究團(tuán)隊(duì)構(gòu)建了OSWORLD-G基準(zhǔn)測(cè)試集,包含564個(gè)精心標(biāo)注的樣本,涵蓋了文本匹配、元素識(shí)別、布局理解和精細(xì)操作等多種任務(wù)類(lèi)型。
不僅如此,他們還通過(guò)多角度分解任務(wù)的方式合成并發(fā)布了目前最大的電腦使用定位數(shù)據(jù)集JEDI,包含400萬(wàn)個(gè)示例。這個(gè)數(shù)據(jù)集的構(gòu)建方法非常巧妙,就像廚師將復(fù)雜菜肴拆分為基本烹飪技巧一樣,他們將復(fù)雜的GUI交互拆分為基礎(chǔ)組件,分別針對(duì)圖標(biāo)、組件和布局進(jìn)行訓(xùn)練,然后再組合起來(lái)應(yīng)對(duì)復(fù)雜場(chǎng)景。
團(tuán)隊(duì)基于這個(gè)豐富的數(shù)據(jù)集訓(xùn)練了多種規(guī)模的模型,并在ScreenSpot-v2、ScreenSpot-Pro以及他們自己的OSWORLD-G基準(zhǔn)測(cè)試上都取得了優(yōu)于現(xiàn)有方法的成績(jī)。更重要的是,他們發(fā)現(xiàn)改進(jìn)后的GUI定位能力直接提升了通用模型在復(fù)雜電腦任務(wù)上的表現(xiàn),在OSWorld基準(zhǔn)測(cè)試上的成功率從5%提升到了27%。
通過(guò)詳細(xì)的消融研究,研究團(tuán)隊(duì)確定了影響GUI定位性能的關(guān)鍵因素,并驗(yàn)證了組合不同界面元素的專(zhuān)門(mén)數(shù)據(jù)能夠使模型對(duì)新界面具有組合泛化能力,就像人類(lèi)可以將學(xué)到的不同操作技巧應(yīng)用到從未見(jiàn)過(guò)的新軟件中一樣。
接下來(lái),讓我們深入了解這項(xiàng)研究的具體內(nèi)容,看看研究團(tuán)隊(duì)是如何一步步突破GUI定位的挑戰(zhàn)的。
一、GUI定位挑戰(zhàn):為什么電腦操作AI如此困難?
當(dāng)我們使用電腦時(shí),能夠自然地找到按鈕、移動(dòng)光標(biāo)、點(diǎn)擊圖標(biāo)或調(diào)整設(shè)置,但這對(duì)AI來(lái)說(shuō)卻是一項(xiàng)艱巨的任務(wù)。想象一下,你告訴AI助手:"幫我在Excel表格中把第三列的數(shù)據(jù)按升序排列"。這個(gè)簡(jiǎn)單的指令背后,AI需要完成一系列復(fù)雜的理解和操作:找到第三列、識(shí)別排序按鈕、選擇升序選項(xiàng)等。
GUI定位(GUI grounding)就是AI準(zhǔn)確將自然語(yǔ)言指令映射到具體屏幕坐標(biāo)的能力。研究團(tuán)隊(duì)指出,現(xiàn)有的基準(zhǔn)測(cè)試如ScreenSpot-v2和ScreenSpot-Pro存在明顯不足:它們過(guò)度簡(jiǎn)化了任務(wù),主要測(cè)試簡(jiǎn)單的引用表達(dá)式(如"點(diǎn)擊保存按鈕"),無(wú)法捕捉真實(shí)交互的復(fù)雜性。
真實(shí)世界的GUI定位需要AI具備三大核心能力:
首先是軟件常識(shí),包括理解圖標(biāo)含義、組件功能等。就像你能立即認(rèn)出保存按鈕上的軟盤(pán)圖標(biāo)表示"保存"功能,即使現(xiàn)在幾乎沒(méi)人使用實(shí)體軟盤(pán)了。AI需要這種與軟件相關(guān)的常識(shí)性理解。
其次是布局理解能力,能夠理解"側(cè)邊欄"、"頂部菜單"、"面板下的元素"等相對(duì)位置關(guān)系。這類(lèi)似于你能理解當(dāng)有人說(shuō)"廚房水槽左邊的抽屜"時(shí),你知道如何在空間中定位這個(gè)抽屜。
最后是精細(xì)操作能力,可以精確地調(diào)整滑塊、選擇文本中的特定字符等。就像外科醫(yī)生需要準(zhǔn)確地操作手術(shù)器械,AI也需要這種精準(zhǔn)度來(lái)執(zhí)行細(xì)微操作。
此外,AI還需要能夠判斷不可行指令(例如在Firefox界面中誤認(rèn)為是Thunderbird),避免進(jìn)入不可恢復(fù)的狀態(tài)。這就像你能判斷出有人給你錯(cuò)誤的指示,而不是盲目執(zhí)行導(dǎo)致問(wèn)題。
二、OSWORLD-G:全面測(cè)試GUI定位能力的新基準(zhǔn)
為了解決現(xiàn)有基準(zhǔn)測(cè)試的局限性,研究團(tuán)隊(duì)構(gòu)建了OSWORLD-G基準(zhǔn)測(cè)試集。這個(gè)測(cè)試集包含564個(gè)精心標(biāo)注的樣本,覆蓋文本匹配、元素識(shí)別、布局理解和精細(xì)操作等多種任務(wù)類(lèi)型。
OSWORLD-G的構(gòu)建過(guò)程十分嚴(yán)謹(jǐn)。研究團(tuán)隊(duì)從OSWorld(一個(gè)廣泛用于評(píng)估電腦操作AI的環(huán)境)中采樣截圖,設(shè)置屏幕分辨率為720p和1080p。他們使用CVAT平臺(tái)收集對(duì)應(yīng)指令的對(duì)象標(biāo)注,每個(gè)標(biāo)注都由熟悉軟件細(xì)節(jié)的人員完成,并通過(guò)在實(shí)際軟件中測(cè)試進(jìn)行驗(yàn)證,特別是對(duì)邊緣情況。
在OSWORLD-G中,每個(gè)樣本都被分配了精細(xì)的標(biāo)簽,標(biāo)識(shí)完成該任務(wù)所需的元素類(lèi)型。此外,研究團(tuán)隊(duì)還為每個(gè)樣本提供了重新表述的指令,分解了完成任務(wù)所需的GUI知識(shí)。平均而言,每個(gè)樣本的標(biāo)注時(shí)間約為0.5人工小時(shí)。
這個(gè)測(cè)試集涵蓋了32種不同的UI類(lèi)型,并按能力維度分為五類(lèi):
文本匹配任務(wù)要求AI根據(jù)指令中提供的明確文本信息進(jìn)行定位。例如"選擇'作為附件'",需要匹配指定文本來(lái)定位適當(dāng)?shù)钠聊粎^(qū)域。
元素識(shí)別任務(wù)需要AI理解視覺(jué)模式,如圖標(biāo)或圖像,甚至需要基于隱含功能而非明確標(biāo)簽識(shí)別元素。例如,通過(guò)軟盤(pán)圖標(biāo)識(shí)別"保存"按鈕,通過(guò)齒輪圖標(biāo)識(shí)別"設(shè)置"選項(xiàng),或通過(guò)放大鏡符號(hào)識(shí)別"搜索"功能。
布局理解任務(wù)要求AI理解界面的模塊化結(jié)構(gòu)。GUI通常設(shè)計(jì)為模塊化結(jié)構(gòu),了解布局層次結(jié)構(gòu)對(duì)于精確定位元素至關(guān)重要。例如,指令"關(guān)閉頂部通知欄"需要正確識(shí)別通知欄區(qū)域,因?yàn)榻缑嬷锌赡艽嬖诙鄠€(gè)類(lèi)似的關(guān)閉按鈕。
精細(xì)操作任務(wù)通常涉及文本編輯操作,要求AI進(jìn)行高精度的光標(biāo)放置。例如,"選擇'person'一詞和數(shù)字'1'之間的位置"需要在特定字母之間精確放置光標(biāo),這些字母可能只占據(jù)屏幕的一小部分。此類(lèi)操作需要能夠在相對(duì)較小的屏幕區(qū)域內(nèi)執(zhí)行高精度操作。
不可行任務(wù)測(cè)試AI拒絕執(zhí)行不可能指令的能力。例如,當(dāng)指令為"點(diǎn)擊打開(kāi)Firefox瀏覽器",但截圖中沒(méi)有Firefox圖標(biāo)或任何可見(jiàn)引用時(shí),AI應(yīng)該能夠識(shí)別并拒絕這類(lèi)指令。
通過(guò)這種綜合性測(cè)試,OSWORLD-G能夠全面評(píng)估AI在GUI交互中的表現(xiàn),為研究提供了更接近真實(shí)情況的基準(zhǔn)。
三、JEDI:400萬(wàn)樣本的GUI定位訓(xùn)練數(shù)據(jù)集
為了解決GUI定位的挑戰(zhàn),僅有好的評(píng)測(cè)基準(zhǔn)是不夠的,還需要大量高質(zhì)量的訓(xùn)練數(shù)據(jù)。研究團(tuán)隊(duì)構(gòu)建了JEDI(Just Enough Data for Interfaces),這是目前世界上最大的電腦使用定位數(shù)據(jù)集,包含400萬(wàn)個(gè)合成示例。
JEDI數(shù)據(jù)集的構(gòu)建核心思想是"多視角任務(wù)解耦"。就像樂(lè)高積木一樣,復(fù)雜的GUI交互被拆分為基本構(gòu)建塊,然后通過(guò)組合這些構(gòu)建塊來(lái)處理各種復(fù)雜場(chǎng)景。研究團(tuán)隊(duì)專(zhuān)注于收集三類(lèi)核心數(shù)據(jù):圖標(biāo)數(shù)據(jù)、組件數(shù)據(jù)和布局?jǐn)?shù)據(jù)。
對(duì)于圖標(biāo)數(shù)據(jù),研究團(tuán)隊(duì)采用三種互補(bǔ)的數(shù)據(jù)收集策略:從GitHub倉(cāng)庫(kù)和專(zhuān)業(yè)圖標(biāo)網(wǎng)站收集,通過(guò)網(wǎng)絡(luò)爬蟲(chóng)從流行網(wǎng)站提取圖標(biāo)元素,以及使用IconsExtract等專(zhuān)業(yè)工具從可執(zhí)行文件、DLL和系統(tǒng)庫(kù)中提取圖標(biāo)。這樣,他們獲得了來(lái)自Windows、macOS和Ubuntu各種軟件的數(shù)千個(gè)生產(chǎn)級(jí)圖標(biāo)。
組件數(shù)據(jù)主要通過(guò)代碼和渲染管道收集。研究團(tuán)隊(duì)利用Material UI等前端開(kāi)發(fā)中常用的UI組件庫(kù),選擇組件并使用其示例代碼作為基礎(chǔ)。然后,他們使用大型語(yǔ)言模型(LLM)合成特定任務(wù)的功能案例(如空調(diào)控制的滑塊),并在React應(yīng)用程序中渲染這些組件,提取相應(yīng)的元數(shù)據(jù),如元素位置樹(shù)、內(nèi)置組件名稱(chēng)和坐標(biāo)。
為了補(bǔ)充缺少的現(xiàn)實(shí)組件數(shù)據(jù),研究團(tuán)隊(duì)還從現(xiàn)有網(wǎng)站和應(yīng)用程序中獲取真實(shí)世界的截圖,重點(diǎn)收集如滾動(dòng)網(wǎng)頁(yè)、點(diǎn)擊電子表格單元格或在幻燈片中調(diào)整文本框大小等常見(jiàn)交互行為的數(shù)據(jù)。
布局?jǐn)?shù)據(jù)則來(lái)自?xún)蓚€(gè)主要來(lái)源:Figma等UI原型平臺(tái)的設(shè)計(jì)模板(包括VSCode、Zoom和Microsoft 365等產(chǎn)品的真實(shí)規(guī)格)以及從OSWorld和WindowsAgentArena等環(huán)境中捕獲的真實(shí)應(yīng)用程序截圖。
收集到截圖和元數(shù)據(jù)后,研究團(tuán)隊(duì)將其轉(zhuǎn)換為適合視覺(jué)語(yǔ)言模型訓(xùn)練的圖像-文本到文本的多模態(tài)問(wèn)答格式。他們使用像GPT-4o和Claude這樣的模型,基于原始截圖和元數(shù)據(jù)生成豐富的注釋?zhuān)枋鐾庥^和功能。他們構(gòu)建了兩種互補(bǔ)的訓(xùn)練格式:定位格式(模型接收截圖和指令,預(yù)測(cè)操作或相關(guān)邊界框)和描述格式(模型接收截圖和邊界框,提供描述信息)。
為了增強(qiáng)模型識(shí)別和拒絕不可行操作的能力,研究團(tuán)隊(duì)通過(guò)將現(xiàn)有指令與不相關(guān)截圖錯(cuò)配,構(gòu)建了拒絕部分?jǐn)?shù)據(jù)集,產(chǎn)生了超過(guò)260萬(wàn)個(gè)示例。他們還集成和統(tǒng)一了來(lái)自以前工作的數(shù)據(jù)集,如SeeClick、OS-Atlas等。
通過(guò)這種多角度、多來(lái)源的數(shù)據(jù)收集和處理方法,JEDI數(shù)據(jù)集為GUI定位任務(wù)提供了前所未有的多樣性和規(guī)模,為模型訓(xùn)練提供了堅(jiān)實(shí)基礎(chǔ)。
四、實(shí)驗(yàn)結(jié)果:JEDI如何提升GUI定位性能
研究團(tuán)隊(duì)基于JEDI數(shù)據(jù)集訓(xùn)練了不同規(guī)模的模型,并在多個(gè)基準(zhǔn)測(cè)試上評(píng)估了其性能。他們選擇了Qwen2.5-VL作為基礎(chǔ)模型,設(shè)置最大像素限制約為1080p。3B模型的微調(diào)大約需要20小時(shí),7B模型需要30小時(shí),使用了128個(gè)CPU核心、512GB內(nèi)存和64個(gè)NVIDIA H100 GPU的計(jì)算集群。
實(shí)驗(yàn)結(jié)果令人印象深刻。在ScreenSpot-v2基準(zhǔn)測(cè)試上,基于JEDI訓(xùn)練的7B模型實(shí)現(xiàn)了91.7%的平均準(zhǔn)確率,超過(guò)了現(xiàn)有方法如Operator(70.5%)和UI-TARS-7B(91.6%)。特別是在手機(jī)和桌面環(huán)境中的圖標(biāo)/小部件識(shí)別任務(wù)上,JEDI模型表現(xiàn)尤為突出。
在更具挑戰(zhàn)性的ScreenSpot-Pro基準(zhǔn)測(cè)試上(專(zhuān)注于高分辨率和專(zhuān)業(yè)軟件圖表),JEDI-7B模型的平均準(zhǔn)確率達(dá)到了39.5%,超過(guò)了SeeClick(1.1%)、ShowUI-2B(7.7%)、Aria-UI(11.3%)等現(xiàn)有方法,也略?xún)?yōu)于UI-TARS-7B(35.7%)。在創(chuàng)意設(shè)計(jì)(34.0%)和科學(xué)軟件(52.4%)等類(lèi)別中,JEDI-7B表現(xiàn)尤為突出。
在研究團(tuán)隊(duì)自己的OSWORLD-G基準(zhǔn)測(cè)試上,JEDI-7B模型在所有能力維度上都取得了最佳性能,整體準(zhǔn)確率達(dá)到54.1%,遠(yuǎn)超OS-Atlas-7B(27.7%)、UGround-V1-7B(36.4%)和UI-TARS-7B(47.5%)。在文本匹配(65.9%)、元素識(shí)別(55.5%)、布局理解(57.7%)和精細(xì)操作(46.9%)等任務(wù)上,JEDI-7B都顯示出卓越能力。
然而,研究團(tuán)隊(duì)注意到,在拒絕不可行指令的任務(wù)上,除了Gemini-2.5-Pro(38.9%)外,所有模型(包括JEDI)的表現(xiàn)都相對(duì)較弱(7.4%)。這表明識(shí)別和拒絕不可行指令仍是一個(gè)需要進(jìn)一步研究的挑戰(zhàn)。
除了單純的GUI定位性能外,研究團(tuán)隊(duì)還評(píng)估了改進(jìn)后的定位能力如何影響實(shí)際電腦任務(wù)的完成。他們?cè)贠SWorld和WindowsAgentArena基準(zhǔn)測(cè)試中,使用GPT-4o作為規(guī)劃模型,接收高級(jí)指令并在每個(gè)步驟中預(yù)測(cè)下一個(gè)低級(jí)自然語(yǔ)言指令。JEDI模型則負(fù)責(zé)將這些指令轉(zhuǎn)換為具體的可執(zhí)行操作。
結(jié)果顯示,當(dāng)使用JEDI作為定位組件時(shí),即使是未專(zhuān)門(mén)針對(duì)電腦使用任務(wù)訓(xùn)練的基礎(chǔ)模型,也能達(dá)到最先進(jìn)的性能,超過(guò)了使用72B規(guī)模模型進(jìn)行定位的先前方法,并匹配專(zhuān)業(yè)模型的性能。具體來(lái)說(shuō),在OSWorld上,使用JEDI-7B(15步)的系統(tǒng)成功率達(dá)到22.7%,使用更多步驟(100步)可以進(jìn)一步提高到27.0%。在WindowsAgentArena上,JEDI-7B(100步)的成功率達(dá)到33.7%。
這表明,在當(dāng)前大型語(yǔ)言模型的推理能力基礎(chǔ)上,通過(guò)增強(qiáng)定位能力(如使用JEDI數(shù)據(jù)集或外部系統(tǒng)),可以構(gòu)建高效的代理系統(tǒng),為未來(lái)的發(fā)展提供了良好的起點(diǎn)。
五、深入分析:是什么因素影響了GUI定位性能?
為了更深入地理解是什么因素影響了GUI定位性能,研究團(tuán)隊(duì)進(jìn)行了一系列細(xì)致的分析實(shí)驗(yàn)。
首先,研究團(tuán)隊(duì)探究了知識(shí)因素的影響。他們假設(shè),如果指令接收者對(duì)GUI交互經(jīng)驗(yàn)極少,那么定位任務(wù)的表現(xiàn)如何?為此,他們重新標(biāo)注了整個(gè)基準(zhǔn)測(cè)試,最大程度減少理解每個(gè)指令所需的背景知識(shí),依靠顏色和形狀等易于識(shí)別的通用特征。
例如,指令"打開(kāi)搜索設(shè)置的過(guò)濾功能"被細(xì)化為"點(diǎn)擊'搜索設(shè)置'欄右側(cè)包含漏斗圖標(biāo)的按鈕"。實(shí)驗(yàn)表明,指令細(xì)化后,模型性能普遍提高,這表明如果能夠通過(guò)上游模型補(bǔ)充模型相關(guān)交互經(jīng)驗(yàn)或提供更精確的表達(dá),定位性能可以得到增強(qiáng)。
特別值得注意的是,指令細(xì)化后,JEDI模型達(dá)到了與最先進(jìn)的UI-TARS-72B相當(dāng)?shù)男阅?。這表明,使用適當(dāng)?shù)臄?shù)據(jù)(如JEDI數(shù)據(jù)集),在純定位能力方面,較小的模型已經(jīng)足夠,進(jìn)一步的優(yōu)勢(shì)可能在于背景知識(shí)的補(bǔ)充。
其次,研究團(tuán)隊(duì)調(diào)查了數(shù)據(jù)規(guī)模如何影響性能。他們以10%、20%、50%和100%的比例采樣圖標(biāo)、組件和布局?jǐn)?shù)據(jù),對(duì)于每個(gè)數(shù)據(jù)比例,訓(xùn)練步數(shù)相同,確保所有模型都充分訓(xùn)練,以進(jìn)行公平比較。
結(jié)果顯示,隨著數(shù)據(jù)規(guī)模增加,模型性能持續(xù)提高,沒(méi)有出現(xiàn)飽和跡象。這表明,使用研究團(tuán)隊(duì)提出的方法進(jìn)一步擴(kuò)大數(shù)據(jù)規(guī)模可能帶來(lái)額外收益。此外,他們發(fā)現(xiàn),僅擴(kuò)大單一數(shù)據(jù)類(lèi)型(如組件)可能導(dǎo)致性能波動(dòng),而擴(kuò)大混合數(shù)據(jù)類(lèi)型則能帶來(lái)更穩(wěn)定的改進(jìn),表明組合多源數(shù)據(jù)是有益的。
最后,研究團(tuán)隊(duì)通過(guò)詳細(xì)的案例研究,展示了JEDI模型相比基礎(chǔ)模型Qwen2.5-VL-7B-Instruct的改進(jìn)。在多個(gè)代表性案例中,JEDI表現(xiàn)出色:
通過(guò)對(duì)圖標(biāo)、組件和布局?jǐn)?shù)據(jù)的訓(xùn)練,JEDI更加重視關(guān)鍵詞如"按鈕"和"在左側(cè)",而Qwen則更專(zhuān)注于字面文本匹配,導(dǎo)致在某些情況下點(diǎn)擊錯(cuò)誤位置。
JEDI能夠從屏幕上眾多元素中有效識(shí)別具有指定功能的正確圖標(biāo),展示其對(duì)常見(jiàn)圖標(biāo)功能的深入理解。相比之下,傳統(tǒng)模型在使用粗粒度數(shù)據(jù)訓(xùn)練時(shí),往往難以學(xué)習(xí)圖標(biāo)與其功能之間的關(guān)聯(lián)。
JEDI能夠同時(shí)理解特定組件(如什么構(gòu)成水平滾動(dòng)條)和整體布局(滾動(dòng)條的位置),而Qwen模型則與無(wú)關(guān)元素交互。
JEDI成功識(shí)別彈出頁(yè)面和消息欄等子頁(yè)面中的可點(diǎn)擊文本鏈接,而未經(jīng)組件和布局訓(xùn)練的基礎(chǔ)模型可能無(wú)法準(zhǔn)確管理這些元素。
然而,研究團(tuán)隊(duì)也發(fā)現(xiàn)JEDI在某些情況下仍面臨挑戰(zhàn):
當(dāng)任務(wù)要求點(diǎn)擊右箭頭關(guān)閉右側(cè)面板時(shí),JEDI點(diǎn)擊了'x'按鈕。雖然這在功能上是正確的,但并未嚴(yán)格遵循點(diǎn)擊右箭頭的要求。
在界面中出現(xiàn)兩次"居中"一詞時(shí)(一個(gè)以白色顯示表示活動(dòng)狀態(tài),另一個(gè)以灰色顯示表示非活動(dòng)狀態(tài)),JEDI誤解了顏色差異,錯(cuò)誤點(diǎn)擊了下方非活動(dòng)的選項(xiàng)。
在被指示接受cookie選項(xiàng)時(shí),JEDI錯(cuò)誤地關(guān)注了cookie首選項(xiàng)選項(xiàng),可能是因?yàn)橹噶畲朕o誤導(dǎo)了模型。
當(dāng)任務(wù)要求點(diǎn)擊藝術(shù)字體中的特定字母時(shí),JEDI表現(xiàn)不佳,凸顯了模型在處理涉及藝術(shù)或風(fēng)格化設(shè)計(jì)的定位任務(wù)方面的當(dāng)前局限性,這可能源于當(dāng)前訓(xùn)練語(yǔ)料庫(kù)中缺乏藝術(shù)和設(shè)計(jì)數(shù)據(jù)。
這些分析為未來(lái)的研究和改進(jìn)提供了重要方向,尤其是在拒絕識(shí)別和藝術(shù)內(nèi)容理解方面。
六、結(jié)論與未來(lái)展望
總的來(lái)說(shuō),這項(xiàng)研究在GUI定位領(lǐng)域取得了顯著進(jìn)展。研究團(tuán)隊(duì)通過(guò)構(gòu)建OSWORLD-G基準(zhǔn)測(cè)試集和JEDI數(shù)據(jù)集,成功展示了之前被忽視的GUI定位挑戰(zhàn),如文本匹配、元素識(shí)別、布局理解和精細(xì)操作等,并提供了解決這些挑戰(zhàn)的有效方法。
基于JEDI數(shù)據(jù)集訓(xùn)練的模型在多個(gè)基準(zhǔn)測(cè)試上都取得了優(yōu)于現(xiàn)有方法的表現(xiàn),這不僅證明了數(shù)據(jù)集的有效性,也驗(yàn)證了"多角度任務(wù)解耦"思想的價(jià)值。更重要的是,改進(jìn)后的GUI定位能力直接提升了通用模型在復(fù)雜電腦任務(wù)上的表現(xiàn),展示了GUI定位作為計(jì)算機(jī)操作AI基礎(chǔ)能力的重要性。
然而,研究也存在一些局限性。研究團(tuán)隊(duì)主要討論了數(shù)據(jù)合成方法,而未深入探討如何從互聯(lián)網(wǎng)圖像和視頻中提取屏幕捕獲數(shù)據(jù),這種方法可能進(jìn)一步擴(kuò)大數(shù)據(jù)集。由于資源限制,他們將這部分工作留給未來(lái)的工業(yè)化努力。此外,在拒絕不可行指令和理解藝術(shù)字體等方面,當(dāng)前模型仍有改進(jìn)空間。
未來(lái)的研究方向可能包括:進(jìn)一步擴(kuò)大數(shù)據(jù)規(guī)模,特別是通過(guò)從互聯(lián)網(wǎng)圖像和視頻中提取更多數(shù)據(jù);改進(jìn)模型在拒絕不可行指令方面的能力;增強(qiáng)對(duì)藝術(shù)字體和特殊設(shè)計(jì)元素的理解;以及基于增強(qiáng)的定位模型構(gòu)建更完善的電腦操作AI系統(tǒng)。
這項(xiàng)研究的成果對(duì)于構(gòu)建更自然、更高效的人機(jī)交互系統(tǒng)具有重要意義。隨著技術(shù)的不斷進(jìn)步,我們可以期待未來(lái)的AI助手能夠更加精確地理解和執(zhí)行用戶(hù)指令,無(wú)論是簡(jiǎn)單的網(wǎng)頁(yè)瀏覽還是復(fù)雜的文檔編輯,都能如人類(lèi)一樣自然流暢地完成。
所有的基準(zhǔn)測(cè)試、數(shù)據(jù)集、檢查點(diǎn)和代碼都已開(kāi)源,可通過(guò)https://osworld-grounding.github.io獲取,為社區(qū)提供了寶貴的資源,促進(jìn)這一領(lǐng)域的進(jìn)一步發(fā)展。
好文章,需要你的鼓勵(lì)
新加坡國(guó)立大學(xué)研究團(tuán)隊(duì)開(kāi)發(fā)了SPIRAL框架,通過(guò)讓AI與自己對(duì)弈零和游戲來(lái)提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡(jiǎn)單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無(wú)需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開(kāi)發(fā)的GIGA-ToF技術(shù)通過(guò)融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問(wèn)題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺(jué)解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過(guò)對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺(jué)語(yǔ)言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無(wú)法有效利用視覺(jué)信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過(guò)動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語(yǔ)言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。