這項(xiàng)由vivo AI實(shí)驗(yàn)室的陸政曦、香港中文大學(xué)的柴宇翔等研究人員共同完成的研究發(fā)表于2025年1月,論文題目為"UI-R1: Enhancing Efficient Action Prediction of GUI Agents by Reinforcement Learning"。這項(xiàng)研究首次將DeepSeek-R1風(fēng)格的強(qiáng)化學(xué)習(xí)技術(shù)應(yīng)用到圖形用戶界面(GUI)智能體的行動(dòng)預(yù)測(cè)任務(wù)中,為手機(jī)、電腦等設(shè)備的智能操作開(kāi)辟了新的技術(shù)路徑。有興趣深入了解的讀者可以通過(guò)arXiv:2503.21620訪問(wèn)完整論文,相關(guān)代碼已在GitHub上開(kāi)源:https://github.com/lll6gg/UI-R1。
在日常生活中,我們每天都要和各種電子設(shè)備打交道——滑動(dòng)手機(jī)屏幕、點(diǎn)擊電腦圖標(biāo)、操作各種應(yīng)用程序。這些看似簡(jiǎn)單的動(dòng)作,對(duì)于人工智能來(lái)說(shuō)卻是一項(xiàng)極具挑戰(zhàn)性的任務(wù)。就好比教一個(gè)從未見(jiàn)過(guò)現(xiàn)代科技的人如何使用智能手機(jī),機(jī)器需要理解屏幕上每個(gè)元素的含義,知道什么時(shí)候該點(diǎn)擊、什么時(shí)候該滑動(dòng),以及如何準(zhǔn)確地執(zhí)行這些操作。
傳統(tǒng)的方法就像是給學(xué)生發(fā)一本厚厚的教科書(shū),讓他們通過(guò)大量的標(biāo)準(zhǔn)答案來(lái)學(xué)習(xí)如何操作界面。這種被稱(chēng)為"監(jiān)督微調(diào)"的方法需要收集成千上萬(wàn)個(gè)操作示例,就如同讓學(xué)生反復(fù)練習(xí)同一類(lèi)型的題目。雖然這種方法在某些情況下效果不錯(cuò),但就像死記硬背一樣,一旦遇到?jīng)]見(jiàn)過(guò)的界面或者不同類(lèi)型的設(shè)備,系統(tǒng)往往就"傻眼"了。
vivo和香港中文大學(xué)的研究團(tuán)隊(duì)想到了一個(gè)更聰明的辦法。他們沒(méi)有繼續(xù)走傳統(tǒng)的"題海戰(zhàn)術(shù)"路線,而是讓機(jī)器像玩游戲一樣學(xué)習(xí)操作界面。這就好比讓孩子通過(guò)玩積木游戲來(lái)學(xué)習(xí)空間思維能力,而不是讓他死記硬背每種積木的擺放方式。這種被稱(chēng)為"強(qiáng)化學(xué)習(xí)"的方法,讓機(jī)器在嘗試和犯錯(cuò)中逐步掌握正確的操作技巧。
研究團(tuán)隊(duì)開(kāi)發(fā)的UI-R1系統(tǒng)就像一個(gè)不斷進(jìn)步的學(xué)徒。當(dāng)它面對(duì)一個(gè)新的界面時(shí),會(huì)先觀察屏幕上的各種元素,然后在腦海中"思考"應(yīng)該如何操作,最后做出具體的行動(dòng)。如果操作正確,系統(tǒng)就會(huì)得到"獎(jiǎng)勵(lì)";如果操作錯(cuò)誤,就會(huì)得到"懲罰"。通過(guò)這種反饋機(jī)制,系統(tǒng)逐漸學(xué)會(huì)了如何更準(zhǔn)確地預(yù)測(cè)和執(zhí)行各種界面操作。
最令人印象深刻的是,這個(gè)系統(tǒng)只需要136個(gè)訓(xùn)練樣本就能達(dá)到令人滿意的效果。這就好比一個(gè)聰明的學(xué)生只需要做幾十道練習(xí)題就能掌握整個(gè)知識(shí)點(diǎn),而不需要刷上千道類(lèi)似的題目。在實(shí)際測(cè)試中,UI-R1在手機(jī)界面操作任務(wù)上的準(zhǔn)確率提升了22.1%,在專(zhuān)業(yè)級(jí)高分辨率界面上的表現(xiàn)也提升了6.0%,在安卓設(shè)備控制任務(wù)上更是提升了12.7%。
一、讓機(jī)器理解界面:從看得懂到會(huì)操作
要讓機(jī)器學(xué)會(huì)操作界面,首先得讓它"看懂"屏幕上顯示的內(nèi)容。這就像教一個(gè)人使用全新的智能設(shè)備一樣,他需要知道哪個(gè)是按鈕、哪個(gè)是文本框、哪個(gè)是菜單。傳統(tǒng)的GUI智能體主要依賴(lài)大規(guī)模的標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練,就好比給學(xué)生提供一本詳細(xì)的操作手冊(cè),告訴他們?cè)诿糠N情況下應(yīng)該如何操作。
然而,這種方法存在明顯的局限性。當(dāng)系統(tǒng)遇到從未見(jiàn)過(guò)的界面設(shè)計(jì)或者不同操作系統(tǒng)的設(shè)備時(shí),往往表現(xiàn)不佳。這就像一個(gè)只會(huì)操作蘋(píng)果手機(jī)的人突然拿到安卓手機(jī)時(shí)的困惑一樣。研究表明,現(xiàn)有的開(kāi)源視覺(jué)語(yǔ)言模型在處理跨域任務(wù)時(shí)表現(xiàn)較差,特別是當(dāng)面對(duì)與訓(xùn)練數(shù)據(jù)差異較大的界面時(shí)。
UI-R1的創(chuàng)新之處在于采用了基于規(guī)則的強(qiáng)化學(xué)習(xí)方法。這種方法不再依賴(lài)大量的人工標(biāo)注數(shù)據(jù),而是通過(guò)預(yù)定義的任務(wù)特定獎(jiǎng)勵(lì)函數(shù)來(lái)指導(dǎo)模型行為。就好比給孩子制定一套簡(jiǎn)單明確的游戲規(guī)則,讓他們?cè)谟螒蛑凶匀坏貙W(xué)會(huì)正確的操作方式,而不是死記硬背每種情況下的標(biāo)準(zhǔn)答案。
這種方法的優(yōu)勢(shì)在于其高效性和可擴(kuò)展性。研究團(tuán)隊(duì)發(fā)現(xiàn),通過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的模型在面對(duì)未見(jiàn)過(guò)的界面時(shí)表現(xiàn)更加穩(wěn)定,就像一個(gè)真正理解了操作邏輯的人,即使面對(duì)全新的界面也能快速適應(yīng)。DeepSeek-R1等最新研究已經(jīng)證明了基于規(guī)則的強(qiáng)化學(xué)習(xí)在數(shù)學(xué)問(wèn)題求解等任務(wù)上的有效性,而UI-R1則首次將這一技術(shù)成功應(yīng)用到多模態(tài)的GUI操作任務(wù)中。
二、巧妙的獎(jiǎng)勵(lì)機(jī)制:讓機(jī)器知道對(duì)錯(cuò)
傳統(tǒng)的強(qiáng)化學(xué)習(xí)往往需要復(fù)雜的獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì),就像設(shè)計(jì)一套復(fù)雜的考試評(píng)分標(biāo)準(zhǔn)。UI-R1的研究團(tuán)隊(duì)設(shè)計(jì)了一套簡(jiǎn)單而有效的獎(jiǎng)勵(lì)機(jī)制,主要包含三個(gè)方面的評(píng)價(jià)標(biāo)準(zhǔn)。
第一個(gè)標(biāo)準(zhǔn)是"動(dòng)作類(lèi)型獎(jiǎng)勵(lì)"。這就好比判斷一個(gè)人在特定情況下選擇的操作類(lèi)型是否正確。比如,當(dāng)用戶想要返回上一頁(yè)時(shí),系統(tǒng)應(yīng)該選擇"返回"操作而不是"點(diǎn)擊"操作。在UI-R1的設(shè)計(jì)中,動(dòng)作空間包括點(diǎn)擊、滾動(dòng)、返回、打開(kāi)應(yīng)用和輸入文本五種基本操作,涵蓋了日常設(shè)備使用中的大部分場(chǎng)景。系統(tǒng)通過(guò)比較預(yù)測(cè)的動(dòng)作類(lèi)型與正確答案來(lái)獲得獎(jiǎng)勵(lì),答對(duì)得1分,答錯(cuò)得0分,簡(jiǎn)單直接。
第二個(gè)標(biāo)準(zhǔn)是"坐標(biāo)準(zhǔn)確獎(jiǎng)勵(lì)"。研究團(tuán)隊(duì)發(fā)現(xiàn),在所有操作類(lèi)型中,點(diǎn)擊操作的坐標(biāo)預(yù)測(cè)錯(cuò)誤是最常見(jiàn)的問(wèn)題。這就像射箭比賽中,選手知道要射向靶心,但經(jīng)常射偏一樣。為了解決這個(gè)問(wèn)題,他們?cè)O(shè)計(jì)了專(zhuān)門(mén)的坐標(biāo)準(zhǔn)確度評(píng)價(jià)機(jī)制。當(dāng)系統(tǒng)預(yù)測(cè)的點(diǎn)擊坐標(biāo)落在正確的目標(biāo)區(qū)域內(nèi)時(shí),就能獲得獎(jiǎng)勵(lì)。這種設(shè)計(jì)更符合實(shí)際使用場(chǎng)景,因?yàn)橛脩粽嬲P(guān)心的是操作能否成功執(zhí)行,而不是系統(tǒng)能否精確識(shí)別界面元素的邊界。
第三個(gè)標(biāo)準(zhǔn)是"格式獎(jiǎng)勵(lì)"。這確保系統(tǒng)輸出的結(jié)果符合規(guī)定的格式要求。就像考試時(shí)不僅要答案正確,還要按照要求的格式書(shū)寫(xiě)一樣。研究團(tuán)隊(duì)發(fā)現(xiàn),讓系統(tǒng)在執(zhí)行操作前先進(jìn)行"思考"能夠顯著提升性能,大約有6%的改進(jìn)。因此,他們要求系統(tǒng)在給出最終答案前,先輸出思考過(guò)程,然后再給出具體的操作指令。
這套獎(jiǎng)勵(lì)機(jī)制的巧妙之處在于它既簡(jiǎn)單又全面。與傳統(tǒng)的圖像定位任務(wù)使用的IoU(交并比)指標(biāo)不同,UI-R1更關(guān)注操作的實(shí)際效果而非元素識(shí)別的精確度。這種設(shè)計(jì)哲學(xué)更接近人類(lèi)的操作習(xí)慣——我們?cè)谑褂迷O(shè)備時(shí)關(guān)心的是能否成功完成任務(wù),而不是能否精確定位每個(gè)界面元素的邊界。
三、精挑細(xì)選的訓(xùn)練數(shù)據(jù):少而精的學(xué)習(xí)樣本
在機(jī)器學(xué)習(xí)領(lǐng)域,"數(shù)據(jù)為王"幾乎是一條不變的法則。大多數(shù)系統(tǒng)都需要成千上萬(wàn)的訓(xùn)練樣本才能達(dá)到理想效果,就像學(xué)生需要做大量練習(xí)題才能掌握知識(shí)點(diǎn)一樣。然而,UI-R1團(tuán)隊(duì)采用了一種截然不同的策略——他們只使用了136個(gè)精心挑選的訓(xùn)練樣本,就實(shí)現(xiàn)了顯著的性能提升。
這種選擇策略基于三個(gè)核心原則。首先是質(zhì)量原則,團(tuán)隊(duì)主要使用ScreenSpot數(shù)據(jù)集的移動(dòng)設(shè)備部分作為基礎(chǔ)數(shù)據(jù)源。這個(gè)數(shù)據(jù)集的特點(diǎn)是標(biāo)注清晰、任務(wù)與界面元素的配對(duì)關(guān)系準(zhǔn)確,就像精心編制的教材一樣,每個(gè)例子都具有很高的學(xué)習(xí)價(jià)值。對(duì)于其他類(lèi)型的操作,他們從ANDROIDCONTROL數(shù)據(jù)集中隨機(jī)選擇了1000個(gè)樣本,但排除了點(diǎn)擊操作的樣本,因?yàn)樵摂?shù)據(jù)集中的元素標(biāo)注質(zhì)量不夠理想。
其次是難度原則,這是整個(gè)數(shù)據(jù)選擇策略中最關(guān)鍵的部分。研究團(tuán)隊(duì)使用基礎(chǔ)模型Qwen2.5-VL-3B對(duì)每個(gè)任務(wù)進(jìn)行預(yù)評(píng)估,只保留那些模型無(wú)法正確完成的"困難"樣本。這就好比一個(gè)老師專(zhuān)門(mén)挑選學(xué)生容易出錯(cuò)的題目進(jìn)行重點(diǎn)訓(xùn)練,而不是讓學(xué)生反復(fù)練習(xí)已經(jīng)掌握的簡(jiǎn)單題目。這種策略確保了每個(gè)訓(xùn)練樣本都能為模型提供新的學(xué)習(xí)機(jī)會(huì)。
第三個(gè)原則是多樣性,確保訓(xùn)練數(shù)據(jù)涵蓋了不同類(lèi)型的操作和界面元素。在ANDROIDCONTROL數(shù)據(jù)集中,團(tuán)隊(duì)選擇了不同動(dòng)作類(lèi)型的樣本,包括滾動(dòng)、返回、打開(kāi)應(yīng)用、輸入文本等。在ScreenSpot數(shù)據(jù)集中,他們選擇了不同元素類(lèi)型的樣本,如圖標(biāo)和文本。同時(shí),他們排除了一些較為罕見(jiàn)的操作類(lèi)型,如等待和長(zhǎng)按,專(zhuān)注于日常使用中最常見(jiàn)的操作場(chǎng)景。
經(jīng)過(guò)這三個(gè)階段的篩選,研究團(tuán)隊(duì)最終得到了136個(gè)高質(zhì)量的移動(dòng)設(shè)備訓(xùn)練樣本。這個(gè)數(shù)字看起來(lái)微不足道,但實(shí)驗(yàn)結(jié)果證明了其有效性。相比于傳統(tǒng)方法需要數(shù)萬(wàn)個(gè)訓(xùn)練樣本,UI-R1的數(shù)據(jù)效率提升了幾個(gè)數(shù)量級(jí)。這種高效率不僅降低了數(shù)據(jù)收集和標(biāo)注的成本,還顯著減少了訓(xùn)練時(shí)間和計(jì)算資源的消耗。
更重要的是,這種精選策略的效果在跨域任務(wù)上表現(xiàn)得尤為明顯。盡管訓(xùn)練數(shù)據(jù)全部來(lái)自移動(dòng)設(shè)備,但UI-R1在桌面電腦和網(wǎng)頁(yè)界面上也表現(xiàn)出色,這說(shuō)明系統(tǒng)真正學(xué)會(huì)了界面操作的通用原理,rather than簡(jiǎn)單地記憶特定場(chǎng)景下的標(biāo)準(zhǔn)答案。
四、快速定位模式:簡(jiǎn)化推理的高效方案
在日常使用設(shè)備時(shí),我們經(jīng)常會(huì)遇到兩種不同類(lèi)型的操作需求。一種是需要仔細(xì)思考的復(fù)雜任務(wù),比如在一個(gè)陌生的應(yīng)用中尋找特定功能;另一種是簡(jiǎn)單直接的操作,比如點(diǎn)擊一個(gè)明顯的"確定"按鈕。研究團(tuán)隊(duì)意識(shí)到,對(duì)于簡(jiǎn)單的界面定位任務(wù),復(fù)雜的推理過(guò)程可能是不必要的,甚至?xí)档拖到y(tǒng)的響應(yīng)速度。
基于這個(gè)觀察,他們開(kāi)發(fā)了UI-R1的高效版本——UI-R1-E-3B。這個(gè)版本采用了兩階段的訓(xùn)練策略,就像培養(yǎng)一個(gè)既能深度思考又能快速反應(yīng)的智能助手。
第一階段被稱(chēng)為DAST訓(xùn)練,這是一種難度自適應(yīng)的慢思考訓(xùn)練方法。系統(tǒng)會(huì)根據(jù)任務(wù)的難易程度來(lái)調(diào)整思考的深度和時(shí)間。對(duì)于復(fù)雜任務(wù),系統(tǒng)會(huì)進(jìn)行更深入的推理;對(duì)于簡(jiǎn)單任務(wù),則會(huì)相應(yīng)縮短思考時(shí)間。這種方法通過(guò)引入"Token長(zhǎng)度預(yù)算"機(jī)制來(lái)實(shí)現(xiàn),就像給不同難度的題目分配不同的答題時(shí)間一樣。
具體來(lái)說(shuō),系統(tǒng)會(huì)根據(jù)正確回答的比例來(lái)動(dòng)態(tài)調(diào)整思考時(shí)間的分配。如果一個(gè)任務(wù)的正確率較高,說(shuō)明任務(wù)相對(duì)簡(jiǎn)單,系統(tǒng)就會(huì)減少分配給推理過(guò)程的時(shí)間;反之,對(duì)于困難任務(wù),系統(tǒng)會(huì)投入更多時(shí)間進(jìn)行深度思考。這種自適應(yīng)機(jī)制確保了計(jì)算資源的合理分配,避免了在簡(jiǎn)單任務(wù)上的資源浪費(fèi)。
第二階段是NOTHINK訓(xùn)練,這個(gè)階段徹底移除了推理標(biāo)簽,讓系統(tǒng)直接給出操作結(jié)果。這就像訓(xùn)練一個(gè)經(jīng)驗(yàn)豐富的用戶,看到界面就能立即知道該點(diǎn)擊哪里,而不需要經(jīng)過(guò)復(fù)雜的思考過(guò)程。這種訓(xùn)練方式特別適合那些模式相對(duì)固定的界面操作任務(wù)。
實(shí)驗(yàn)結(jié)果證實(shí)了這種雙階段策略的有效性。在保持準(zhǔn)確性的同時(shí),UI-R1-E-3B的響應(yīng)速度顯著提升,特別適合需要快速響應(yīng)的實(shí)時(shí)應(yīng)用場(chǎng)景。更重要的是,這種方法驗(yàn)證了一個(gè)重要觀點(diǎn):"對(duì)于簡(jiǎn)單的任務(wù),如GUI定位,推理過(guò)程并非必需"。
這個(gè)發(fā)現(xiàn)對(duì)整個(gè)領(lǐng)域都具有重要意義。它表明,我們不需要讓所有AI系統(tǒng)都進(jìn)行復(fù)雜的推理,而應(yīng)該根據(jù)任務(wù)的特點(diǎn)來(lái)選擇合適的處理方式。就像人類(lèi)在面對(duì)不同情況時(shí)會(huì)自動(dòng)調(diào)整思考的深度一樣,AI系統(tǒng)也應(yīng)該具備這種靈活性。
五、全面測(cè)試:從手機(jī)到電腦的跨平臺(tái)驗(yàn)證
為了驗(yàn)證UI-R1的實(shí)際效果,研究團(tuán)隊(duì)設(shè)計(jì)了一系列comprehensive的測(cè)試,涵蓋了從移動(dòng)設(shè)備到桌面電腦,從簡(jiǎn)單界面到專(zhuān)業(yè)軟件的各種應(yīng)用場(chǎng)景。這就像讓一個(gè)剛學(xué)會(huì)開(kāi)車(chē)的人在不同路況下進(jìn)行實(shí)際駕駛測(cè)試,以驗(yàn)證其駕駛技能的通用性和可靠性。
在界面定位能力測(cè)試中,團(tuán)隊(duì)使用了ScreenSpot和ScreenSpot-Pro兩個(gè)主要基準(zhǔn)測(cè)試。ScreenSpot涵蓋了移動(dòng)設(shè)備、桌面電腦和網(wǎng)頁(yè)三個(gè)平臺(tái),而ScreenSpot-Pro則專(zhuān)注于高分辨率的專(zhuān)業(yè)環(huán)境,包含23個(gè)應(yīng)用程序、五個(gè)行業(yè)領(lǐng)域和三個(gè)操作系統(tǒng)的expert標(biāo)注任務(wù)。
測(cè)試結(jié)果令人印象深刻。在ScreenSpot測(cè)試中,UI-R1-3B在移動(dòng)設(shè)備上的圖標(biāo)識(shí)別準(zhǔn)確率達(dá)到84.7%,文本識(shí)別準(zhǔn)確率達(dá)到95.6%。更重要的是,這個(gè)僅用136個(gè)移動(dòng)設(shè)備樣本訓(xùn)練的系統(tǒng)在桌面和網(wǎng)頁(yè)環(huán)境中也表現(xiàn)出色,在桌面圖標(biāo)識(shí)別上達(dá)到59.3%的準(zhǔn)確率,在網(wǎng)頁(yè)環(huán)境中達(dá)到73.3%的準(zhǔn)確率。這種跨平臺(tái)的泛化能力證明了系統(tǒng)真正掌握了界面操作的通用規(guī)律。
與傳統(tǒng)方法的對(duì)比更加凸顯了UI-R1的優(yōu)勢(shì)。使用監(jiān)督學(xué)習(xí)方法訓(xùn)練的AGUVIS模型雖然在某些指標(biāo)上表現(xiàn)更好,但它使用了100萬(wàn)個(gè)訓(xùn)練樣本和7B的模型參數(shù)。相比之下,UI-R1僅用136個(gè)樣本和3B參數(shù)就達(dá)到了相當(dāng)?shù)男阅芩剑瑪?shù)據(jù)效率和計(jì)算效率都有顯著提升。
在行動(dòng)預(yù)測(cè)能力測(cè)試中,團(tuán)隊(duì)使用了ANDROIDCONTROL數(shù)據(jù)集的子集來(lái)評(píng)估系統(tǒng)的單步行動(dòng)預(yù)測(cè)能力。這個(gè)測(cè)試更接近實(shí)際應(yīng)用場(chǎng)景,要求系統(tǒng)不僅能識(shí)別界面元素,還能準(zhǔn)確預(yù)測(cè)應(yīng)該執(zhí)行的操作類(lèi)型。結(jié)果顯示,UI-R1在動(dòng)作類(lèi)型預(yù)測(cè)上達(dá)到94.3%的準(zhǔn)確率,在定位精度上達(dá)到82.6%的準(zhǔn)確率,綜合性能達(dá)到88.5%。
特別值得注意的是,UI-R1在處理不同復(fù)雜程度任務(wù)時(shí)表現(xiàn)出了很好的適應(yīng)性。對(duì)于推理長(zhǎng)度較短的簡(jiǎn)單任務(wù),系統(tǒng)能夠快速給出準(zhǔn)確答案;對(duì)于需要更多推理的復(fù)雜任務(wù),系統(tǒng)也能通過(guò)深度思考得出正確結(jié)果。這種靈活性使得系統(tǒng)能夠適應(yīng)各種不同的應(yīng)用場(chǎng)景。
研究團(tuán)隊(duì)還特別測(cè)試了系統(tǒng)的數(shù)據(jù)選擇策略效果。通過(guò)對(duì)比隨機(jī)選擇和基于難度選擇兩種方法,結(jié)果證實(shí)了后者的優(yōu)越性。基于難度選擇的方法在相同數(shù)據(jù)量下取得了顯著更好的性能,驗(yàn)證了"專(zhuān)注于困難樣本"這一策略的有效性。
六、技術(shù)細(xì)節(jié):GRPO算法的妙用
在UI-R1的技術(shù)實(shí)現(xiàn)中,研究團(tuán)隊(duì)選擇了GRPO(Group Relative Policy Optimization)算法作為強(qiáng)化學(xué)習(xí)的核心。這個(gè)選擇背后有著深思熟慮的考量,就像選擇合適的教學(xué)方法來(lái)培訓(xùn)學(xué)生一樣。
傳統(tǒng)的PPO(Proximal Policy Optimization)算法需要一個(gè)額外的"評(píng)判員"模型來(lái)評(píng)估每個(gè)行動(dòng)的價(jià)值,這就像在考試時(shí)需要一個(gè)專(zhuān)門(mén)的老師來(lái)實(shí)時(shí)評(píng)分一樣。這種方法雖然有效,但增加了系統(tǒng)的復(fù)雜性和計(jì)算成本。GRPO算法的巧妙之處在于它不需要這個(gè)額外的評(píng)判員,而是通過(guò)比較一組候選答案的相對(duì)質(zhì)量來(lái)進(jìn)行學(xué)習(xí)。
具體來(lái)說(shuō),當(dāng)系統(tǒng)面對(duì)一個(gè)任務(wù)時(shí),它會(huì)生成多個(gè)可能的解決方案,就像一個(gè)學(xué)生對(duì)同一道題給出多種答題思路。然后,系統(tǒng)會(huì)使用預(yù)定義的獎(jiǎng)勵(lì)函數(shù)對(duì)每個(gè)方案進(jìn)行評(píng)分。GRPO算法的核心思想是不看絕對(duì)分?jǐn)?shù),而是看相對(duì)排名。它會(huì)計(jì)算每個(gè)方案相對(duì)于組內(nèi)平均水平的優(yōu)劣程度,然后據(jù)此調(diào)整模型參數(shù)。
這種相對(duì)比較的方法有幾個(gè)重要優(yōu)勢(shì)。首先,它更加穩(wěn)定可靠,因?yàn)橄鄬?duì)比較不容易受到絕對(duì)分?jǐn)?shù)波動(dòng)的影響。其次,它能夠更好地處理不同任務(wù)之間的難度差異,就像按照班級(jí)排名而不是絕對(duì)分?jǐn)?shù)來(lái)評(píng)價(jià)學(xué)生表現(xiàn)一樣。
在UI-R1的實(shí)現(xiàn)中,系統(tǒng)會(huì)為每個(gè)任務(wù)生成8個(gè)候選解決方案,然后使用三維獎(jiǎng)勵(lì)函數(shù)(動(dòng)作類(lèi)型、坐標(biāo)準(zhǔn)確度、輸出格式)對(duì)每個(gè)方案進(jìn)行評(píng)分。通過(guò)計(jì)算每個(gè)方案的相對(duì)優(yōu)勢(shì),系統(tǒng)逐步學(xué)會(huì)了生成更好的解決方案。
訓(xùn)練過(guò)程采用了漸進(jìn)式的學(xué)習(xí)率衰減策略,從9.98e-7逐漸降至0,確保了學(xué)習(xí)過(guò)程的穩(wěn)定性。整個(gè)訓(xùn)練過(guò)程需要8個(gè)訓(xùn)練周期,在8塊NVIDIA 4090 GPU上大約需要8小時(shí)完成。這種相對(duì)較小的計(jì)算需求使得更多研究機(jī)構(gòu)和開(kāi)發(fā)團(tuán)隊(duì)能夠復(fù)現(xiàn)和改進(jìn)這項(xiàng)技術(shù)。
七、實(shí)驗(yàn)深度分析:從數(shù)據(jù)到效果的全景解讀
為了更深入地理解UI-R1的工作機(jī)制和性能表現(xiàn),研究團(tuán)隊(duì)進(jìn)行了大量的消融實(shí)驗(yàn)和分析研究。這些實(shí)驗(yàn)就像醫(yī)生為病人做全面體檢一樣,從各個(gè)角度檢驗(yàn)系統(tǒng)的健康狀況和運(yùn)行機(jī)制。
在數(shù)據(jù)規(guī)模影響分析中,團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象。隨著訓(xùn)練數(shù)據(jù)量的增加,模型性能確實(shí)在提升,但這種提升逐漸趨于飽和。更重要的是,基于難度選擇的數(shù)據(jù)篩選方法consistently優(yōu)于隨機(jī)選擇方法。這就像一個(gè)好老師知道應(yīng)該重點(diǎn)講解學(xué)生容易出錯(cuò)的知識(shí)點(diǎn),而不是平均分配時(shí)間給所有內(nèi)容。
推理長(zhǎng)度與任務(wù)難度的關(guān)系分析揭示了另一個(gè)重要規(guī)律。研究發(fā)現(xiàn),需要更長(zhǎng)推理過(guò)程的任務(wù)通常難度更高,而UI-R1在這些困難任務(wù)上的改進(jìn)效果更加明顯。這說(shuō)明強(qiáng)化學(xué)習(xí)方法特別擅長(zhǎng)處理需要復(fù)雜推理的場(chǎng)景,這正是傳統(tǒng)監(jiān)督學(xué)習(xí)方法的薄弱環(huán)節(jié)。
在獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)的消融實(shí)驗(yàn)中,團(tuán)隊(duì)比較了不同獎(jiǎng)勵(lì)組合的效果。結(jié)果顯示,坐標(biāo)準(zhǔn)確獎(jiǎng)勵(lì)相比傳統(tǒng)的IoU獎(jiǎng)勵(lì)表現(xiàn)更好,這驗(yàn)證了"關(guān)注操作效果而非元素識(shí)別精度"這一設(shè)計(jì)理念的正確性。然而,動(dòng)作類(lèi)型獎(jiǎng)勵(lì)在某些情況下并不總是有正面影響,這可能是因?yàn)楦蟮膭?dòng)作空間會(huì)增加任務(wù)的復(fù)雜性,使模型難以專(zhuān)注于核心的定位任務(wù)。
數(shù)據(jù)選擇方法的對(duì)比實(shí)驗(yàn)進(jìn)一步證實(shí)了三階段選擇策略的優(yōu)越性。無(wú)論是隨機(jī)選擇還是使用全部數(shù)據(jù)集,都無(wú)法達(dá)到精心篩選的小規(guī)模高質(zhì)量數(shù)據(jù)集的效果。這個(gè)結(jié)果對(duì)整個(gè)機(jī)器學(xué)習(xí)領(lǐng)域都有重要啟示:在某些情況下,數(shù)據(jù)的質(zhì)量比數(shù)量更重要。
訓(xùn)練周期的優(yōu)化分析顯示,8個(gè)周期是一個(gè)比較理想的選擇。少于這個(gè)數(shù)量,模型還沒(méi)有充分學(xué)習(xí);多于這個(gè)數(shù)量,提升效果就不明顯了,還可能出現(xiàn)過(guò)擬合現(xiàn)象。這就像學(xué)習(xí)一項(xiàng)技能一樣,需要足夠的練習(xí)時(shí)間,但過(guò)度練習(xí)也未必帶來(lái)更好的效果。
在不同思考模式的對(duì)比中,研究團(tuán)隊(duì)驗(yàn)證了"先慢思考再快反應(yīng)"這一訓(xùn)練策略的有效性。DAST+NOTHINK的組合方式取得了最好的性能,而改變這個(gè)順序或者移除其中任何一個(gè)組件都會(huì)導(dǎo)致性能下降。這說(shuō)明循序漸進(jìn)的學(xué)習(xí)方式對(duì)AI系統(tǒng)同樣適用。
八、創(chuàng)新突破:首次應(yīng)用與方法革新
UI-R1的最大創(chuàng)新在于首次將DeepSeek-R1風(fēng)格的基于規(guī)則的強(qiáng)化學(xué)習(xí)技術(shù)成功應(yīng)用到多模態(tài)GUI智能體任務(wù)中。這種跨領(lǐng)域的技術(shù)遷移就像將一項(xiàng)在數(shù)學(xué)領(lǐng)域取得成功的教學(xué)方法應(yīng)用到語(yǔ)言學(xué)習(xí)中一樣,需要對(duì)原有方法進(jìn)行careful的調(diào)整和優(yōu)化。
在獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)方面,UI-R1針對(duì)GUI任務(wù)的特點(diǎn)進(jìn)行了專(zhuān)門(mén)的優(yōu)化。傳統(tǒng)的視覺(jué)定位任務(wù)通常使用IoU指標(biāo)來(lái)評(píng)估預(yù)測(cè)框與真實(shí)框的重疊程度,但這種方法對(duì)GUI操作任務(wù)來(lái)說(shuō)并不夠理想。研究團(tuán)隊(duì)創(chuàng)新性地提出了基于坐標(biāo)準(zhǔn)確性的獎(jiǎng)勵(lì)機(jī)制,更直接地反映了操作的成功與否。這種設(shè)計(jì)更符合用戶的實(shí)際需求——他們關(guān)心的是能否成功完成操作,而不是AI系統(tǒng)能否精確識(shí)別界面元素的邊界。
在數(shù)據(jù)效率方面,UI-R1實(shí)現(xiàn)了令人矚目的突破。僅使用136個(gè)訓(xùn)練樣本就達(dá)到了與使用數(shù)萬(wàn)樣本的傳統(tǒng)方法相當(dāng)?shù)男阅?,這種效率提升具有重要的practical意義。這不僅大大降低了數(shù)據(jù)收集和標(biāo)注的成本,也使得更多資源有限的研究團(tuán)隊(duì)能夠參與到這一領(lǐng)域的研究中來(lái)。
跨域泛化能力是UI-R1的另一個(gè)重要?jiǎng)?chuàng)新點(diǎn)。盡管訓(xùn)練數(shù)據(jù)全部來(lái)自移動(dòng)設(shè)備,但系統(tǒng)在桌面和網(wǎng)頁(yè)環(huán)境中也表現(xiàn)出了優(yōu)秀的性能。這種泛化能力表明,UI-R1真正學(xué)會(huì)了界面操作的underlying原理,而不只是記憶特定場(chǎng)景下的操作模式。
在推理效率優(yōu)化方面,UI-R1-E版本的設(shè)計(jì)體現(xiàn)了對(duì)practical應(yīng)用需求的深度考慮。通過(guò)區(qū)分簡(jiǎn)單任務(wù)和復(fù)雜任務(wù),系統(tǒng)能夠在保證準(zhǔn)確性的同時(shí)顯著提升響應(yīng)速度。這種adaptive的處理方式為未來(lái)的GUI智能體設(shè)計(jì)提供了新的思路。
九、技術(shù)影響:開(kāi)啟智能交互新時(shí)代
UI-R1的成功不僅僅是一項(xiàng)技術(shù)創(chuàng)新,更可能成為改變?nèi)藱C(jī)交互方式的催化劑。這項(xiàng)技術(shù)的影響可以從多個(gè)維度來(lái)理解。
在設(shè)備accessibility方面,UI-R1技術(shù)有望大大降低人們使用電子設(shè)備的門(mén)檻。對(duì)于老年人、視障人士或其他有特殊需求的用戶群體,基于自然語(yǔ)言指令的設(shè)備操作可能比傳統(tǒng)的手動(dòng)操作更加友好和直觀。用戶只需要說(shuō)出想要完成的任務(wù),AI助手就能自動(dòng)執(zhí)行相應(yīng)的界面操作。
在軟件開(kāi)發(fā)和測(cè)試領(lǐng)域,這項(xiàng)技術(shù)可能帶來(lái)革命性的變化。自動(dòng)化的GUI測(cè)試一直是軟件工程中的一個(gè)挑戰(zhàn),因?yàn)閭鹘y(tǒng)的測(cè)試腳本往往難以適應(yīng)界面的變化。UI-R1這樣的智能系統(tǒng)可以更靈活地處理界面變化,從而提高測(cè)試的robustness和覆蓋率。
對(duì)于企業(yè)的數(shù)字化轉(zhuǎn)型,UI-R1技術(shù)可能成為一個(gè)重要的facilitator。許多企業(yè)都面臨著如何讓員工更高效地使用各種軟件工具的挑戰(zhàn)。智能GUI助手可以幫助員工快速掌握新軟件的使用方法,減少培訓(xùn)成本和學(xué)習(xí)時(shí)間。
在教育技術(shù)領(lǐng)域,這項(xiàng)技術(shù)也有著廣闊的應(yīng)用前景。智能tutoring系統(tǒng)可以通過(guò)GUI操作來(lái)demonstratea如何使用各種軟件工具,為學(xué)生提供更加直觀和interactive的學(xué)習(xí)體驗(yàn)。
然而,這項(xiàng)技術(shù)的發(fā)展也面臨著一些挑戰(zhàn)和考慮。隱私和安全問(wèn)題是首要關(guān)注點(diǎn),因?yàn)镚UI智能體需要access用戶的屏幕內(nèi)容和操作權(quán)限。如何在提供便利的同時(shí)保護(hù)用戶隱私,將是技術(shù)發(fā)展中需要careful平衡的問(wèn)題。
十、未來(lái)展望:從實(shí)驗(yàn)室到日常生活
UI-R1的成功只是智能GUI交互技術(shù)發(fā)展的起點(diǎn)。從目前的實(shí)驗(yàn)結(jié)果來(lái)看,這項(xiàng)技術(shù)已經(jīng)展現(xiàn)出了巨大的potential,但要真正走進(jìn)日常生活,還需要在多個(gè)方面繼續(xù)完善和優(yōu)化。
在技術(shù)成熟度方面,當(dāng)前的系統(tǒng)主要針對(duì)單步操作任務(wù)進(jìn)行了優(yōu)化,未來(lái)需要擴(kuò)展到multi-step的復(fù)雜任務(wù)場(chǎng)景。這就像從學(xué)會(huì)單個(gè)動(dòng)作到掌握整套運(yùn)動(dòng)技能的過(guò)程,需要系統(tǒng)具備更強(qiáng)的planning和reasoning能力。研究團(tuán)隊(duì)已經(jīng)意識(shí)到這個(gè)挑戰(zhàn),并在論文中提到了high-level planning任務(wù)的重要性。
在實(shí)時(shí)性能方面,雖然UI-R1-E版本已經(jīng)在速度上有了顯著提升,但要達(dá)到真正實(shí)用的水平,還需要進(jìn)一步優(yōu)化。用戶對(duì)AI助手的響應(yīng)速度有著很高的期望,任何明顯的延遲都可能影響使用體驗(yàn)。
在支持的設(shè)備和平臺(tái)方面,目前的研究主要集中在移動(dòng)設(shè)備、桌面電腦和網(wǎng)頁(yè)環(huán)境。未來(lái)需要擴(kuò)展到更多樣化的設(shè)備類(lèi)型,包括智能電視、車(chē)載系統(tǒng)、IoT設(shè)備等。每種設(shè)備都有其獨(dú)特的交互模式和界面特點(diǎn),這為技術(shù)發(fā)展提出了新的挑戰(zhàn)。
在用戶個(gè)性化方面,不同用戶的操作習(xí)慣和偏好存在差異。理想的GUI智能體應(yīng)該能夠?qū)W習(xí)和適應(yīng)individual用戶的特點(diǎn),提供更加personalized的服務(wù)。這需要系統(tǒng)具備持續(xù)學(xué)習(xí)和adaptation的能力。
從commercial的角度來(lái)看,這項(xiàng)技術(shù)的productization還需要解決許多practical問(wèn)題。成本控制、系統(tǒng)穩(wěn)定性、用戶培訓(xùn)、技術(shù)支持等都是需要考慮的因素。vivo作為參與研究的公司,很可能會(huì)將這項(xiàng)技術(shù)integr到其未來(lái)的產(chǎn)品中,為用戶提供更智能的設(shè)備使用體驗(yàn)。
研究團(tuán)隊(duì)已經(jīng)將代碼開(kāi)源,這為整個(gè)社區(qū)的技術(shù)發(fā)展提供了valuable的資源。相信在更多研究者和開(kāi)發(fā)者的參與下,這項(xiàng)技術(shù)將會(huì)迅速發(fā)展和完善,最終真正改變我們與電子設(shè)備的交互方式。
說(shuō)到底,UI-R1代表的不只是一項(xiàng)技術(shù)創(chuàng)新,更是對(duì)未來(lái)人機(jī)交互的一種愿景。在這個(gè)愿景中,我們不再需要學(xué)習(xí)復(fù)雜的軟件操作方法,而是可以用最自然的方式告訴設(shè)備我們想要什么,然后看著它智能地完成所有細(xì)節(jié)工作。雖然這個(gè)未來(lái)還需要時(shí)間來(lái)實(shí)現(xiàn),但UI-R1已經(jīng)讓我們看到了這種可能性的曙光。
這項(xiàng)研究的成功也啟發(fā)我們思考AI技術(shù)發(fā)展的方向。也許,最好的AI不是那些能夠處理最復(fù)雜任務(wù)的系統(tǒng),而是那些能夠以最簡(jiǎn)單、最自然的方式為人類(lèi)服務(wù)的技術(shù)。UI-R1在用極少的訓(xùn)練數(shù)據(jù)達(dá)到優(yōu)秀性能這一點(diǎn)上,完美詮釋了"簡(jiǎn)單而有效"這一設(shè)計(jì)哲學(xué)。
對(duì)于普通用戶來(lái)說(shuō),這項(xiàng)技術(shù)的發(fā)展意味著未來(lái)的電子設(shè)備將變得更加智能和易用。我們不需要成為技術(shù)專(zhuān)家就能充分利用各種先進(jìn)工具,這將極大地democratize技術(shù)的使用,讓更多人能夠享受到數(shù)字化帶來(lái)的便利。
Q&A
Q1:UI-R1是什么?它與傳統(tǒng)的GUI操作系統(tǒng)有什么不同? A:UI-R1是一個(gè)能夠理解人類(lèi)指令并自動(dòng)操作手機(jī)、電腦界面的AI系統(tǒng)。與傳統(tǒng)方法不同,它不需要大量訓(xùn)練數(shù)據(jù),僅用136個(gè)樣本就能學(xué)會(huì)界面操作,還能在不同設(shè)備間舉一反三,就像一個(gè)聰明的助手能快速適應(yīng)各種新設(shè)備。
Q2:這個(gè)技術(shù)會(huì)不會(huì)很快應(yīng)用到我們的日常設(shè)備中? A:目前還處于研究階段,但由于vivo公司參與了開(kāi)發(fā),未來(lái)很可能首先在智能手機(jī)中應(yīng)用。不過(guò)要達(dá)到完全實(shí)用還需要解決響應(yīng)速度、隱私安全等問(wèn)題,預(yù)計(jì)還需要幾年時(shí)間才能在消費(fèi)級(jí)產(chǎn)品中普及。
Q3:UI-R1能處理什么樣的操作?有什么限制嗎? A:目前主要支持點(diǎn)擊、滑動(dòng)、返回、打開(kāi)應(yīng)用、輸入文本這五種基本操作,足以覆蓋日常使用的大部分場(chǎng)景。限制是目前只能處理單步操作,還無(wú)法完成需要多個(gè)步驟的復(fù)雜任務(wù),比如"發(fā)一條朋友圈并添加定位"這樣的組合操作。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語(yǔ)言模型的敘事推理能力與音頻生成技術(shù),通過(guò)交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開(kāi)辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過(guò)讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問(wèn)題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語(yǔ)言模型人性化對(duì)話問(wèn)題。該研究創(chuàng)建了包含20萬(wàn)高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過(guò)創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開(kāi)發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過(guò)學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來(lái)了效率和精度的雙重突破。