av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見(jiàn)證連接與計(jì)算的「力量」

首頁(yè) ZeroGUI:零人工成本下自動(dòng)化在線GUI學(xué)習(xí)的突破性研究

ZeroGUI:零人工成本下自動(dòng)化在線GUI學(xué)習(xí)的突破性研究

2025-06-03 18:35
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-03 18:35 ? 科技行者

在現(xiàn)代數(shù)字世界,與圖形用戶(hù)界面(GUI)交互是我們?nèi)粘I畹囊徊糠郑瑹o(wú)論是使用手機(jī)應(yīng)用、瀏覽網(wǎng)站還是操作電腦軟件。2025年5月,來(lái)自上海人工智能實(shí)驗(yàn)室、清華大學(xué)、上海交通大學(xué)、香港科技大學(xué)和香港中文大學(xué)的研究團(tuán)隊(duì)發(fā)布了一項(xiàng)名為"ZeroGUI: Automating Online GUI Learning at Zero Human Cost"的突破性研究。這項(xiàng)研究由楊辰宇、蘇世謙、劉世、董軒、于越、蘇維杰等人共同完成,已在arXiv(arXiv:2505.23762v1)上發(fā)表。該研究團(tuán)隊(duì)開(kāi)發(fā)了一種創(chuàng)新框架,讓AI助手能夠自主學(xué)習(xí)如何操作各種圖形界面,而無(wú)需人類(lèi)提供任何標(biāo)注數(shù)據(jù)。

一、為什么需要ZeroGUI?理解GUI代理的現(xiàn)狀與挑戰(zhàn)

想象一下,你剛買(mǎi)了一部新手機(jī),面對(duì)全新的操作界面和應(yīng)用程序,你需要一段時(shí)間才能熟悉。同樣,AI也需要學(xué)習(xí)如何理解和操作這些圖形界面。在過(guò)去,這種學(xué)習(xí)過(guò)程通常需要人類(lèi)提供大量的標(biāo)注數(shù)據(jù)——就像有人手把手教你如何使用新手機(jī)一樣。研究人員需要記錄界面上每個(gè)按鈕的位置和功能,以及完成特定任務(wù)的詳細(xì)步驟。這個(gè)過(guò)程不僅費(fèi)時(shí)費(fèi)力,還難以擴(kuò)展到各種不同的應(yīng)用和平臺(tái)。

隨著大型視覺(jué)-語(yǔ)言模型(VLMs)的發(fā)展,如OpenAI的GPT-4V和谷歌的Gemini,基于純視覺(jué)的GUI代理(即能夠"看到"屏幕并執(zhí)行操作的AI系統(tǒng))取得了顯著進(jìn)展。這些系統(tǒng)能夠感知用戶(hù)界面并根據(jù)指令執(zhí)行點(diǎn)擊、滾動(dòng)或輸入等操作。然而,現(xiàn)有方法仍然面臨兩個(gè)核心限制:

首先,它們嚴(yán)重依賴(lài)高質(zhì)量的人工標(biāo)注,包括界面元素的識(shí)別(例如,確定屏幕上的按鈕、文本框等位置)和行動(dòng)軌跡(即完成任務(wù)的一系列操作)。這些人工標(biāo)注非常昂貴且耗時(shí),難以跨不同平臺(tái)和任務(wù)進(jìn)行擴(kuò)展。

其次,它們?cè)谶m應(yīng)動(dòng)態(tài)和交互式環(huán)境方面能力有限?,F(xiàn)實(shí)世界中的GUI是非靜態(tài)且不確定的:元素可能會(huì)移動(dòng)、消失或根據(jù)系統(tǒng)狀態(tài)表現(xiàn)出不同的行為。現(xiàn)有代理往往過(guò)度擬合于靜態(tài)或定義狹窄的任務(wù),難以在開(kāi)放式場(chǎng)景中泛化。

研究團(tuán)隊(duì)提出了一個(gè)關(guān)鍵問(wèn)題:我們能否創(chuàng)建一個(gè)系統(tǒng),讓AI代理能夠通過(guò)與GUI環(huán)境的持續(xù)交互來(lái)學(xué)習(xí)和改進(jìn),而無(wú)需人類(lèi)提供任何標(biāo)注?這就像讓AI"自己玩"各種應(yīng)用程序,從中學(xué)習(xí)如何操作,而不需要人類(lèi)教導(dǎo)。

二、ZeroGUI:一種自動(dòng)化的在線學(xué)習(xí)框架

為了解決上述挑戰(zhàn),研究團(tuán)隊(duì)開(kāi)發(fā)了ZeroGUI,這是一個(gè)完全自動(dòng)化的在線學(xué)習(xí)框架,使GUI代理能夠在沒(méi)有任何人工成本的情況下不斷提升性能。

想象你在教一個(gè)孩子使用新游戲。傳統(tǒng)方法就像你一步步地給孩子詳細(xì)說(shuō)明和演示,而ZeroGUI則是給孩子一個(gè)安全的環(huán)境,讓他自己嘗試,系統(tǒng)會(huì)自動(dòng)告訴他做得對(duì)不對(duì),并且會(huì)不斷給他設(shè)計(jì)新的練習(xí)任務(wù)來(lái)提高技能。

ZeroGUI的核心理念是利用現(xiàn)有的視覺(jué)-語(yǔ)言模型(VLMs)來(lái)自動(dòng)化兩個(gè)關(guān)鍵過(guò)程:任務(wù)生成和獎(jiǎng)勵(lì)估計(jì)。這些VLMs已經(jīng)在大規(guī)模GUI相關(guān)數(shù)據(jù)上進(jìn)行了訓(xùn)練,擅長(zhǎng)理解GUI元素、動(dòng)作和狀態(tài)轉(zhuǎn)換。它們可以評(píng)估任務(wù)完成情況并基于觀察到的信息提出相關(guān)任務(wù)。

該框架包含三個(gè)主要組件:

1. **基于VLM的自動(dòng)任務(wù)生成**:系統(tǒng)會(huì)根據(jù)隨機(jī)初始狀態(tài)提出多樣化的訓(xùn)練任務(wù)。就像一個(gè)創(chuàng)意豐富的老師,能夠根據(jù)當(dāng)前屏幕內(nèi)容設(shè)計(jì)各種練習(xí)題目。例如,看到一個(gè)文本編輯器界面,系統(tǒng)可能會(huì)生成"將第一段文字設(shè)為粗體"或"更改文檔的頁(yè)面設(shè)置"等任務(wù)。

2. **基于VLM的自動(dòng)獎(jiǎng)勵(lì)估計(jì)**:系統(tǒng)能夠預(yù)測(cè)任務(wù)是否成功完成,提供二元獎(jiǎng)勵(lì)(成功/失敗)作為監(jiān)督信號(hào)。這消除了對(duì)手工制作的任務(wù)驗(yàn)證器的需求。就像有一個(gè)能夠自動(dòng)判斷任務(wù)是否正確完成的評(píng)判員,而不需要人類(lèi)來(lái)檢查每一步操作。

3. **兩階段在線強(qiáng)化學(xué)習(xí)**:包括在生成的任務(wù)上進(jìn)行訓(xùn)練,然后在測(cè)試時(shí)進(jìn)行適應(yīng)性調(diào)整。系統(tǒng)支持GUI代理與環(huán)境之間的多步交互。這就像先讓學(xué)生在模擬環(huán)境中練習(xí),然后再讓他們應(yīng)對(duì)真實(shí)場(chǎng)景中的挑戰(zhàn)。

與傳統(tǒng)的離線學(xué)習(xí)方法相比,ZeroGUI具有兩個(gè)顯著優(yōu)勢(shì):首先,它完全消除了收集和標(biāo)注訓(xùn)練數(shù)據(jù)的人力成本;其次,它能夠持續(xù)適應(yīng)動(dòng)態(tài)變化的GUI環(huán)境,使代理在復(fù)雜的實(shí)際應(yīng)用場(chǎng)景中表現(xiàn)更出色。

三、技術(shù)實(shí)現(xiàn):ZeroGUI如何工作?

讓我們深入了解ZeroGUI的工作原理,就像拆解一臺(tái)精密機(jī)器,看看它的核心部件是如何協(xié)同工作的。

首先,讓我們理解GUI任務(wù)完成過(guò)程可以被視為一個(gè)馬爾可夫決策過(guò)程(MDP)。這聽(tīng)起來(lái)很復(fù)雜,但其實(shí)很簡(jiǎn)單:給定一個(gè)任務(wù)指令,GUI代理與環(huán)境交互。在每一步,代理根據(jù)當(dāng)前觀察到的屏幕內(nèi)容和歷史信息預(yù)測(cè)下一個(gè)動(dòng)作。這個(gè)過(guò)程會(huì)一直持續(xù),直到遇到終止動(dòng)作或達(dá)到最大步數(shù),最終形成一個(gè)操作軌跡。

ZeroGUI的實(shí)現(xiàn)分為三個(gè)關(guān)鍵部分:

**1. 自動(dòng)任務(wù)生成**

想象你有一個(gè)非常聰明的朋友,他看一眼電腦屏幕就能想出各種有用的任務(wù)讓你練習(xí)。ZeroGUI的任務(wù)生成器就是這樣工作的。

研究團(tuán)隊(duì)使用先進(jìn)的視覺(jué)-語(yǔ)言模型(如GPT-4o)來(lái)生成任務(wù)。他們發(fā)現(xiàn),在任務(wù)生成過(guò)程中面臨的一個(gè)關(guān)鍵挑戰(zhàn)是確保生成的任務(wù)足夠多樣化,能夠覆蓋廣泛的行為空間,同時(shí)又能與目標(biāo)環(huán)境的操作約束保持一致。

為此,他們采用了以下設(shè)計(jì):

- **示例引導(dǎo)式提示**:系統(tǒng)會(huì)結(jié)合指令示例和隨機(jī)采樣的初始狀態(tài)截圖,引導(dǎo)模型生成特定環(huán)境下的真實(shí)任務(wù)。就像給AI看一張瀏覽器截圖和一些瀏覽器任務(wù)的例子,AI就能創(chuàng)造出新的合理的瀏覽器任務(wù)。

- **多候選生成**:在每次生成步驟中,系統(tǒng)會(huì)同時(shí)請(qǐng)求多個(gè)任務(wù)候選,鼓勵(lì)模型生成多樣化的任務(wù)集,而不是過(guò)度擬合于某一特定任務(wù)風(fēng)格。這就像讓AI一次提出10個(gè)不同的練習(xí),而不是反復(fù)提出類(lèi)似的任務(wù)。

此外,為了訓(xùn)練代理識(shí)別不可實(shí)現(xiàn)的目標(biāo)并提供適當(dāng)?shù)姆答?,研究團(tuán)隊(duì)還特意讓系統(tǒng)生成一部分不可行的任務(wù)。這些任務(wù)在環(huán)境中有意設(shè)計(jì)為無(wú)法解決,要求代理明確輸出"FAIL"響應(yīng)。這就像故意給學(xué)生出一些無(wú)解的題目,教會(huì)他們識(shí)別問(wèn)題的可解性。

**2. 自動(dòng)獎(jiǎng)勵(lì)估計(jì)**

傳統(tǒng)的交互式環(huán)境通常使用基于腳本的驗(yàn)證器來(lái)確定任務(wù)是否成功(例如,檢查文件內(nèi)容或系統(tǒng)狀態(tài))。這些驗(yàn)證器通常涉及復(fù)雜的命令和邏輯來(lái)覆蓋所有可能的情況,嚴(yán)重依賴(lài)手動(dòng)實(shí)現(xiàn)和調(diào)試。

ZeroGUI使用視覺(jué)-語(yǔ)言模型為軌跡分配二元獎(jiǎng)勵(lì)。然而,基于VLM的評(píng)估并不完美,它可能會(huì)忽略細(xì)節(jié)或受到幻覺(jué)的影響,導(dǎo)致錯(cuò)誤的標(biāo)記。在兩種錯(cuò)誤類(lèi)型中(假陽(yáng)性和假陰性),研究表明假陽(yáng)性影響更大,因?yàn)樗鼈儠?huì)扭曲代理的學(xué)習(xí)過(guò)程。

為了解決這個(gè)問(wèn)題,獎(jiǎng)勵(lì)估計(jì)器專(zhuān)注于減少假陽(yáng)性并提高精確度:

- **包含軌跡中的所有截圖**:有些任務(wù)的成功只能通過(guò)動(dòng)作前后環(huán)境的變化來(lái)確定,因此需要所有截圖。

- **排除代理的響應(yīng)**:這些響應(yīng)可能包含成功的幻覺(jué),即使任務(wù)實(shí)際上失敗了,也可能誤導(dǎo)VLM給出假陽(yáng)性獎(jiǎng)勵(lì)。

- **采用投票機(jī)制**:系統(tǒng)會(huì)多次查詢(xún)VLM,基于多數(shù)同意或更嚴(yán)格的一致同意(即只有當(dāng)所有輸出都表明成功時(shí)才分配獎(jiǎng)勵(lì))來(lái)分配獎(jiǎng)勵(lì)。這進(jìn)一步降低了假陽(yáng)性的風(fēng)險(xiǎn)。

**3. 兩階段在線強(qiáng)化學(xué)習(xí)**

有了自動(dòng)任務(wù)生成和獎(jiǎng)勵(lì)估計(jì)機(jī)制,GUI代理可以通過(guò)持續(xù)與GUI環(huán)境交互并根據(jù)獎(jiǎng)勵(lì)更新其策略來(lái)進(jìn)行在線學(xué)習(xí)。由于獎(jiǎng)勵(lì)估計(jì)器不依賴(lài)內(nèi)部環(huán)境狀態(tài)或標(biāo)準(zhǔn)標(biāo)簽,它也可以為測(cè)試任務(wù)提供獎(jiǎng)勵(lì),實(shí)現(xiàn)測(cè)試時(shí)適應(yīng)。

研究團(tuán)隊(duì)引入了兩階段訓(xùn)練策略:

- **在生成的任務(wù)上訓(xùn)練**:代理從生成的任務(wù)中學(xué)習(xí)基本能力。就像在模擬環(huán)境中練習(xí)基礎(chǔ)技能。

- **測(cè)試時(shí)訓(xùn)練**:代理使用來(lái)自獎(jiǎng)勵(lì)估計(jì)器的獎(jiǎng)勵(lì)適應(yīng)目標(biāo)測(cè)試任務(wù)。這就像在實(shí)際考試中進(jìn)一步調(diào)整和完善技能。

他們采用強(qiáng)化學(xué)習(xí)(RL)進(jìn)行這種兩階段在線訓(xùn)練,使用了組相對(duì)策略?xún)?yōu)化(GRPO)算法,該算法消除了對(duì)額外價(jià)值函數(shù)的需求,并在其他場(chǎng)景中對(duì)大型語(yǔ)言模型和視覺(jué)語(yǔ)言模型的后訓(xùn)練非常有效。

為了適應(yīng)GUI代理的在線RL,研究團(tuán)隊(duì)對(duì)原始GRPO算法進(jìn)行了以下修改:

- **將優(yōu)化目標(biāo)擴(kuò)展到多步軌跡**:原始GRPO中,每個(gè)樣本是單個(gè)生成序列,而在GUI代理設(shè)置中,每個(gè)軌跡由多個(gè)操作預(yù)測(cè)序列組成。

- **修改KL損失項(xiàng)以提高訓(xùn)練穩(wěn)定性**:原始GRPO使用k3-估計(jì)器計(jì)算KL散度,但研究團(tuán)隊(duì)發(fā)現(xiàn)這可能導(dǎo)致梯度過(guò)大,容易出現(xiàn)溢出或下溢。他們將其替換為k2-估計(jì)器(即逐標(biāo)記MSE損失),提供更穩(wěn)定的梯度,避免數(shù)值溢出。

實(shí)驗(yàn)證明,這些修改顯著提高了訓(xùn)練的穩(wěn)定性和性能。

四、實(shí)驗(yàn)評(píng)估:ZeroGUI的驚人效果

研究團(tuán)隊(duì)在兩個(gè)先進(jìn)的GUI代理(UI-TARS和Aguvis)上應(yīng)用了ZeroGUI,并利用桌面(OSWorld)和移動(dòng)(AndroidLab)環(huán)境進(jìn)行評(píng)估。他們的實(shí)驗(yàn)設(shè)計(jì)得非常全面,讓我們了解這個(gè)系統(tǒng)在真實(shí)世界中的表現(xiàn)。

**OSWorld實(shí)驗(yàn)**

OSWorld是一個(gè)基于計(jì)算機(jī)環(huán)境構(gòu)建的基準(zhǔn),用于評(píng)估多模態(tài)代理在復(fù)雜真實(shí)世界任務(wù)上的表現(xiàn)。它包含369個(gè)任務(wù),涵蓋Web應(yīng)用程序、桌面軟件和操作系統(tǒng)級(jí)操作。其中,30個(gè)任務(wù)(測(cè)試集的8.1%)被設(shè)計(jì)為不可行的,用于評(píng)估代理檢測(cè)已棄用或幻覺(jué)功能的能力。

在Ubuntu平臺(tái)上,使用僅屏幕截圖模式,研究團(tuán)隊(duì)在分辨率為1920×1080的屏幕上進(jìn)行了評(píng)估,最大步數(shù)限制為15步。為了減少網(wǎng)絡(luò)不穩(wěn)定性和環(huán)境變異性的影響,他們報(bào)告了4次運(yùn)行的平均值和標(biāo)準(zhǔn)差。

實(shí)驗(yàn)結(jié)果令人振奮:

1. 與基礎(chǔ)模型相比,ZeroGUI顯著提高了任務(wù)成功率,尤其是在可行子集上。具體來(lái)說(shuō),對(duì)于UI-TARS-7B-DPO,在所有任務(wù)上取得了+2.5(14%)的提升,在可行子集上取得了+4.5(40%)的提升。對(duì)于Aguvis-7B,盡管基礎(chǔ)模型表現(xiàn)較差,但ZeroGUI仍然帶來(lái)了+1.9(63%)和+2.1(88%)的提升,相對(duì)改進(jìn)甚至更大。

2. 兩個(gè)訓(xùn)練階段(生成任務(wù)訓(xùn)練和測(cè)試時(shí)訓(xùn)練)都對(duì)性能提升有所貢獻(xiàn)。通過(guò)pass@4和all-pass@4指標(biāo)進(jìn)一步揭示了它們的互補(bǔ)角色:生成任務(wù)訓(xùn)練顯著提高了pass@4,表明大規(guī)模多樣化生成任務(wù)有助于擴(kuò)展模型的能力覆蓋范圍;測(cè)試時(shí)訓(xùn)練主要提升了all-pass@4,表明模型在適應(yīng)目標(biāo)任務(wù)后行為一致性得到增強(qiáng)。

3. 僅使用測(cè)試時(shí)訓(xùn)練的表現(xiàn)不如兩階段設(shè)置,這突顯了生成訓(xùn)練在提供有益能力基礎(chǔ)方面的作用,使RL在下一階段能夠解鎖更多任務(wù)并獲得更多信息性獎(jiǎng)勵(lì)。

4. 在全測(cè)試集上的改進(jìn)小于可行子集(例如,UI-TARS-7B-DPO的平均成功率+2.5 vs. +4.5),表明在不可行性檢測(cè)方面有所下降。這可能有兩個(gè)原因:(a)VLM缺乏特定軟件的詳細(xì)知識(shí),難以判斷不可行性;(b)帶有假陽(yáng)性的噪聲獎(jiǎng)勵(lì)可能導(dǎo)致模型變得過(guò)于自信。為了緩解這一問(wèn)題,研究團(tuán)隊(duì)在訓(xùn)練集中包含了一部分生成的不可行任務(wù),這在很大程度上緩解了這個(gè)問(wèn)題。

**AndroidLab實(shí)驗(yàn)**

AndroidLab是一個(gè)交互式Android環(huán)境,包括Android系統(tǒng)和9個(gè)可離線部署的應(yīng)用程序(如時(shí)鐘、日歷等)。它包含138個(gè)測(cè)試任務(wù),分為兩類(lèi):操作任務(wù)和查詢(xún)檢測(cè)任務(wù)。操作任務(wù)涉及通過(guò)操作完成目標(biāo),并通過(guò)預(yù)定義規(guī)則進(jìn)行評(píng)估;查詢(xún)檢測(cè)任務(wù)要求模型提取信息并返回文本答案,由GPT進(jìn)行評(píng)分。

由于某些任務(wù)的GPT評(píng)估不完全可靠,研究團(tuán)隊(duì)報(bào)告了全測(cè)試集和操作任務(wù)子集的評(píng)估結(jié)果。在截圖模式下,ZeroGUI在操作子集上實(shí)現(xiàn)了+2.8的提升,在全測(cè)試集上實(shí)現(xiàn)了+1.8的提升,這表明所提出的ZeroGUI在不同交互式GUI環(huán)境中具有良好的泛化能力。

從子目標(biāo)成功率(Sub-SR)的角度來(lái)看,ZeroGUI在操作子集上實(shí)現(xiàn)了+2.9的提升。盡管僅利用整體任務(wù)獎(jiǎng)勵(lì),它仍然在子任務(wù)指標(biāo)上取得了性能提升。

**實(shí)驗(yàn)細(xì)節(jié)**

在任務(wù)生成方面,研究團(tuán)隊(duì)使用GPT-4o為OSWorld一次生成10個(gè)任務(wù),為AndroidLab一次生成5個(gè)任務(wù)??偣采闪?,000多個(gè)基于Ubuntu的任務(wù)和225個(gè)基于Android的任務(wù)。在訓(xùn)練時(shí),他們從生成池中隨機(jī)抽樣了725個(gè)Ubuntu任務(wù)和175個(gè)Android任務(wù),約為各自測(cè)試集大小的兩倍。

對(duì)于獎(jiǎng)勵(lì)估計(jì),他們本地部署了Qwen2.5-VL-32B以提高效率。他們使用溫度為1.0的VLM進(jìn)行4次查詢(xún),并使用一致同意投票來(lái)確定獎(jiǎng)勵(lì)。

對(duì)于訓(xùn)練,他們選擇了UI-TARS-7B-DPO和Aguvis-7B作為基礎(chǔ)模型,使用AdamW優(yōu)化器,學(xué)習(xí)率恒定為2e-6。對(duì)于GRPO,他們?cè)O(shè)置組大小G=64,KL系數(shù)β=0.1,并采用DAPO動(dòng)態(tài)采樣,過(guò)濾掉準(zhǔn)確率等于1或0的任務(wù)。對(duì)于每個(gè)rollout步驟,采樣持續(xù)到收集16k序列,然后進(jìn)行單次梯度更新。他們對(duì)生成任務(wù)和測(cè)試時(shí)任務(wù)各訓(xùn)練1個(gè)epoch。

五、深入分析:ZeroGUI的組件效果

研究團(tuán)隊(duì)進(jìn)行了全面的消融研究,以理解ZeroGUI各個(gè)組件的貢獻(xiàn)。這些研究就像拆解一臺(tái)機(jī)器,單獨(dú)測(cè)試每個(gè)零件的作用,幫助我們理解系統(tǒng)中真正重要的部分。

**任務(wù)生成**

研究表明,移除任務(wù)生成過(guò)程中的示例或一次只生成一個(gè)任務(wù)會(huì)導(dǎo)致測(cè)試性能下降。這可以歸因于兩個(gè)因素:提供任務(wù)示例有助于將生成任務(wù)的分布與目標(biāo)領(lǐng)域?qū)R,而生成多個(gè)任務(wù)增加了多樣性,這對(duì)訓(xùn)練數(shù)據(jù)至關(guān)重要。

此外,排除不可行任務(wù)會(huì)導(dǎo)致在不可行子集上的表現(xiàn)急劇下降,表明這類(lèi)任務(wù)幫助模型識(shí)別不可實(shí)現(xiàn)的目標(biāo)并減少過(guò)度自信。

**獎(jiǎng)勵(lì)估計(jì)**

研究團(tuán)隊(duì)先隨機(jī)選擇一組軌跡(UI-TARS-7B-DPO在生成任務(wù)上的表現(xiàn))并手動(dòng)標(biāo)注了基礎(chǔ)事實(shí)獎(jiǎng)勵(lì)。然后,他們將不同的獎(jiǎng)勵(lì)估計(jì)方法應(yīng)用于這組軌跡,評(píng)估它們的精確度和召回率。此外,他們使用每種方法估計(jì)的獎(jiǎng)勵(lì)訓(xùn)練了單獨(dú)的模型,并比較它們?cè)跍y(cè)試任務(wù)上的成功率。

結(jié)果表明:

1. 使用最終截圖而非所有截圖會(huì)導(dǎo)致精確度、召回率和測(cè)試成功率較低。

2. 在獎(jiǎng)勵(lì)估計(jì)過(guò)程中包括代理的響應(yīng)會(huì)產(chǎn)生最高的召回率,但顯著降低了精確度和測(cè)試成功率,表明VLM被響應(yīng)誤導(dǎo),產(chǎn)生了許多假陽(yáng)性。

3. 排除代理的響應(yīng)并應(yīng)用投票機(jī)制會(huì)增加精確度同時(shí)降低召回率,并導(dǎo)致測(cè)試成功率顯著提高。這表明假陽(yáng)性錯(cuò)誤對(duì)模型訓(xùn)練的影響更大。

**強(qiáng)化學(xué)習(xí)訓(xùn)練**

為了評(píng)估在線RL訓(xùn)練的有效性,研究團(tuán)隊(duì)將其與兩個(gè)基線進(jìn)行了比較:離線拒絕采樣微調(diào)(RFT)和在線RFT。

離線RFT首先使用基礎(chǔ)模型為所有任務(wù)收集軌跡,然后僅在正樣本上進(jìn)行微調(diào)。其性能受限于收集的軌跡與更新后的策略之間的分布不匹配,并且無(wú)法利用策略更新后發(fā)現(xiàn)的新任務(wù)的獎(jiǎng)勵(lì)。

在線RFT表現(xiàn)更好,但仍落后于在線RL。這主要是因?yàn)镽FT丟棄了所有負(fù)樣本,而RL使模型能夠從中學(xué)習(xí)并避免重復(fù)過(guò)去的錯(cuò)誤。

研究還評(píng)估了將原始GRPO中的k3-KL損失替換為k2-KL損失的效果。結(jié)果表明,k2-KL產(chǎn)生更高、更穩(wěn)定的訓(xùn)練準(zhǔn)確率。測(cè)試成功率進(jìn)一步驗(yàn)證了k2-KL在這種設(shè)置下的優(yōu)越性。

**關(guān)于KL損失的進(jìn)一步分析**

雖然一些現(xiàn)有工作建議為一般推理任務(wù)移除KL懲罰,但研究團(tuán)隊(duì)在訓(xùn)練GUI代理的背景下發(fā)現(xiàn)了不同的結(jié)果。他們觀察到,設(shè)置β=0.1產(chǎn)生最佳測(cè)試性能。完全移除KL損失(β=0)或使用較小的β(如0.01)會(huì)導(dǎo)致性能下降,可能是因?yàn)椴呗苑植计茖?dǎo)致模型過(guò)度擬合當(dāng)前任務(wù)。相比之下,較大的β(如1)對(duì)優(yōu)化施加過(guò)多約束,也會(huì)導(dǎo)致更差的結(jié)果。

六、ZeroGUI的案例研究:從困境到成功的轉(zhuǎn)變

研究團(tuán)隊(duì)進(jìn)行了案例研究,進(jìn)一步展示了ZeroGUI的有效性。他們觀察到,基礎(chǔ)模型UI-TARS-7B-DPO在任務(wù)理解和對(duì)細(xì)節(jié)的關(guān)注方面有限,在任務(wù)執(zhí)行過(guò)程中經(jīng)常陷入重復(fù)動(dòng)作循環(huán)。相比之下,經(jīng)過(guò)ZeroGUI訓(xùn)練后,模型表現(xiàn)出明顯更穩(wěn)定的行為策略和更強(qiáng)的任務(wù)執(zhí)行能力。

例如,在OSWorld的VS Code領(lǐng)域中,有一個(gè)指令是:"我想讓標(biāo)簽在超出可用空間時(shí)換行成多行,請(qǐng)幫助修改VS Code的設(shè)置。"在執(zhí)行過(guò)程中,基礎(chǔ)模型嘗試修改"Tab Size"參數(shù),但在輸入新值之前未能刪除默認(rèn)值。相反,它將新數(shù)字添加到現(xiàn)有值之前,導(dǎo)致設(shè)置錯(cuò)誤。然后,這種錯(cuò)誤操作被重復(fù)多次,表明模型缺乏檢測(cè)無(wú)效動(dòng)作的能力。相比之下,ZeroGUI訓(xùn)練后的模型采用了更穩(wěn)健的動(dòng)作策略:它首先使用鍵盤(pán)快捷鍵選擇所有現(xiàn)有內(nèi)容,然后輸入正確的值,成功完成任務(wù)。

另一個(gè)例子來(lái)自LibreOffice Impress領(lǐng)域,指令是:"將桌面上的圖像'none.png'添加到幻燈片2,大小為1cm*1cm。"在點(diǎn)擊"插入"菜單后,基礎(chǔ)模型嘗試選擇"圖像"選項(xiàng),但由于定位不準(zhǔn)確而誤點(diǎn)了一個(gè)空白區(qū)域,導(dǎo)致菜單過(guò)早關(guān)閉。然而,模型未能檢測(cè)到這種變化,繼續(xù)嘗試點(diǎn)擊現(xiàn)已關(guān)閉的"插入"菜單下的"圖像"選項(xiàng),導(dǎo)致無(wú)效重復(fù)。相比之下,ZeroGUI訓(xùn)練后的模型更可靠地完成了完整的插入過(guò)程。它成功打開(kāi)了圖像插入界面,選擇了正確的圖像文件,逐步調(diào)整了寬度和高度,最終準(zhǔn)確地完成了這個(gè)長(zhǎng)期任務(wù)。

在執(zhí)行AndroidLab任務(wù)時(shí),模型同樣顯示出顯著的性能提升。以日歷任務(wù)為例,指令是:"你應(yīng)該使用日歷完成以下任務(wù):為我在5月21日安排一個(gè)標(biāo)題為'homework'的事件,并將通知時(shí)間設(shè)置為提前10分鐘。"基礎(chǔ)模型對(duì)指令的理解不足,忽略了事件標(biāo)題和通知時(shí)間等細(xì)節(jié)。它既沒(méi)有添加事件標(biāo)題也沒(méi)有設(shè)置通知,最終關(guān)閉了界面。相比之下,ZeroGUI訓(xùn)練后的模型準(zhǔn)確地捕捉并執(zhí)行了這些詳細(xì)要求,成功在指定日期添加了事件并設(shè)置了通知,這證明了該訓(xùn)練框架在緩解忽略細(xì)節(jié)的問(wèn)題和提高任務(wù)準(zhǔn)確性方面的有效性。

值得注意的是,基礎(chǔ)模型未能完成上述任何任務(wù),表明缺乏來(lái)自成功軌跡的監(jiān)督。通過(guò)在生成任務(wù)上進(jìn)行訓(xùn)練,ZeroGUI訓(xùn)練后的模型學(xué)習(xí)了更具泛化性的交互策略。這種能力不僅提升了其在特定任務(wù)上的表現(xiàn),還展示了所提出的訓(xùn)練框架在使模型適應(yīng)復(fù)雜GUI環(huán)境方面的重要潛力和實(shí)際效果。

七、ZeroGUI的意義與未來(lái)展望

ZeroGUI代表了GUI代理訓(xùn)練領(lǐng)域的重大突破。通過(guò)消除對(duì)人工收集和標(biāo)注的離線訓(xùn)練數(shù)據(jù)的需求,它為GUI代理的大規(guī)模開(kāi)發(fā)鋪平了道路。研究團(tuán)隊(duì)的兩階段強(qiáng)化學(xué)習(xí)策略不僅提高了代理的基本能力,還增強(qiáng)了其適應(yīng)具體任務(wù)的能力。

這項(xiàng)研究的突出貢獻(xiàn)包括:

1. 提出了ZeroGUI,一個(gè)完全自動(dòng)化的在線學(xué)習(xí)框架,使GUI代理能夠通過(guò)與GUI環(huán)境的交互來(lái)提高,消除了收集和標(biāo)注離線訓(xùn)練數(shù)據(jù)的需求。

2. 設(shè)計(jì)了基于VLM的自動(dòng)任務(wù)生成和獎(jiǎng)勵(lì)估計(jì),在沒(méi)有人工標(biāo)注的情況下生成訓(xùn)練任務(wù)并提供監(jiān)督獎(jiǎng)勵(lì)。

3. 引入了兩階段強(qiáng)化學(xué)習(xí)策略。第一階段,在生成的任務(wù)上的訓(xùn)練建立了代理的一般能力;第二階段,測(cè)試時(shí)訓(xùn)練使代理能夠適應(yīng)目標(biāo)測(cè)試任務(wù)。

4. 所提出的ZeroGUI顯著提高了不同GUI環(huán)境的任務(wù)成功率,并很好地泛化到不同的基礎(chǔ)模型。

盡管ZeroGUI取得了顯著成功,但仍存在一些局限性和未來(lái)研究方向:

1. **獎(jiǎng)勵(lì)估計(jì)精度**:當(dāng)前的獎(jiǎng)勵(lì)估計(jì)仍然不夠完美,尤其是在處理復(fù)雜任務(wù)或需要細(xì)粒度理解的情況時(shí)。改進(jìn)VLM的獎(jiǎng)勵(lì)估計(jì)能力或探索更復(fù)雜的獎(jiǎng)勵(lì)模型是未來(lái)工作的重要方向。

2. **任務(wù)多樣性**:雖然當(dāng)前的任務(wù)生成方法產(chǎn)生了多樣化的任務(wù),但它們可能仍然無(wú)法完全覆蓋所有可能的用戶(hù)行為和交互模式。開(kāi)發(fā)能夠生成更廣泛、更具挑戰(zhàn)性任務(wù)的方法將進(jìn)一步提高GUI代理的魯棒性。

3. **跨環(huán)境泛化**:當(dāng)前的實(shí)驗(yàn)主要集中在特定的GUI環(huán)境中。探索代理如何將在一個(gè)環(huán)境中學(xué)到的技能轉(zhuǎn)移到新環(huán)境是一個(gè)有價(jià)值的研究方向。

4. **效率優(yōu)化**:在線學(xué)習(xí)過(guò)程需要大量的環(huán)境交互,這在計(jì)算資源方面可能很昂貴。開(kāi)發(fā)更高效的學(xué)習(xí)算法和探索策略可以降低這些成本。

總的來(lái)說(shuō),ZeroGUI代表了GUI代理訓(xùn)練的范式轉(zhuǎn)變,從依賴(lài)人工標(biāo)注的靜態(tài)數(shù)據(jù)集轉(zhuǎn)向自主、持續(xù)的在線學(xué)習(xí)。這種方法不僅更具可擴(kuò)展性,而且可能導(dǎo)致更適應(yīng)性強(qiáng)、更通用的GUI代理,能夠有效地操作各種數(shù)字界面,最終為用戶(hù)提供更強(qiáng)大、更個(gè)性化的數(shù)字助手。

隨著該領(lǐng)域的發(fā)展,我們可以期待看到更多基于ZeroGUI框架的創(chuàng)新,以及這些創(chuàng)新如何使GUI代理更加智能、響應(yīng)迅速且適應(yīng)性強(qiáng),最終改變我們與數(shù)字世界的交互方式。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-