這項(xiàng)由微軟研究院的張苗森、徐子強(qiáng)、朱家良等十一位研究者團(tuán)隊(duì)完成的突破性研究發(fā)表于2025年1月31日,論文標(biāo)題為《Phi-Ground Tech Report: Advancing Perception in GUI Grounding》。有興趣深入了解的讀者可以通過arXiv:2507.23779v1訪問完整論文。這項(xiàng)研究解決了一個(gè)看似簡單但實(shí)際極其復(fù)雜的問題:如何讓AI助手像人類一樣準(zhǔn)確地在電腦屏幕上找到并點(diǎn)擊正確的按鈕。
想象一下,你有一個(gè)非常聰明的朋友,他能理解你說的每一句話,也知道該如何完成各種電腦任務(wù),但有一個(gè)致命缺陷——他是個(gè)"色盲",看不清屏幕上密密麻麻的按鈕到底哪個(gè)是哪個(gè)。這正是當(dāng)前AI助手面臨的核心問題。雖然它們?cè)诶斫馊祟愔噶罘矫嬉呀?jīng)相當(dāng)出色,但在"看懂"電腦界面這件事上,表現(xiàn)卻差強(qiáng)人意。
研究團(tuán)隊(duì)發(fā)現(xiàn),目前最先進(jìn)的AI模型在一些具有挑戰(zhàn)性的測試中,準(zhǔn)確率還不到65%。這意味著每三次操作就有一次以上會(huì)出錯(cuò),這樣的錯(cuò)誤率顯然無法滿足日常使用需求。更糟糕的是,AI的錯(cuò)誤往往不是隨機(jī)的胡亂點(diǎn)擊,而是會(huì)精確地點(diǎn)擊到一些看起來"合理"但實(shí)際錯(cuò)誤的地方,這可能導(dǎo)致更嚴(yán)重的后果,比如誤刪重要文件或關(guān)閉未保存的工作。
為了解決這個(gè)問題,微軟團(tuán)隊(duì)深入研究了AI"視覺定位"的方方面面。他們沒有簡單地訓(xùn)練一個(gè)"萬能"模型,而是采用了一種類似"專業(yè)分工"的策略。就像一個(gè)高效的工廠流水線,他們將復(fù)雜的任務(wù)分解為兩個(gè)專門的環(huán)節(jié):首先讓一個(gè)"規(guī)劃師"AI負(fù)責(zé)理解用戶意圖并生成詳細(xì)的操作描述,然后讓另一個(gè)專門的"定位師"AI根據(jù)這些描述在屏幕上找到準(zhǔn)確的點(diǎn)擊位置。
這種分工策略帶來了顯著的效果提升。在他們最嚴(yán)格的測試中,新模型在ScreenSpot-pro基準(zhǔn)測試上達(dá)到了55.0分的準(zhǔn)確率,在UI-Vision測試中達(dá)到了36.2分,這些成績都創(chuàng)下了同類模型的最佳記錄。更重要的是,這些改進(jìn)不僅僅是數(shù)字上的提升,而是實(shí)實(shí)在在地讓AI助手在日常使用中變得更加可靠。
研究團(tuán)隊(duì)還發(fā)現(xiàn)了許多有趣的技術(shù)細(xì)節(jié)。比如,他們意外地發(fā)現(xiàn),給AI輸入信息的順序竟然會(huì)顯著影響其表現(xiàn)。當(dāng)他們先給AI看文字指令,再給它看屏幕圖像時(shí),AI的表現(xiàn)明顯優(yōu)于相反的順序。這就像人類閱讀理解一樣,當(dāng)我們先知道要找什么,再去看圖片時(shí),往往能更快更準(zhǔn)確地找到目標(biāo)。
另一個(gè)重要發(fā)現(xiàn)是關(guān)于訓(xùn)練數(shù)據(jù)的分布。團(tuán)隊(duì)發(fā)現(xiàn),不同來源的數(shù)據(jù)有著截然不同的"習(xí)慣"。網(wǎng)頁抓取的數(shù)據(jù)幾乎沒有右側(cè)按鈕,因?yàn)榫W(wǎng)頁設(shè)計(jì)通常把重要功能放在左側(cè);而桌面應(yīng)用的數(shù)據(jù)分布則更加均勻。這種差異如果不加處理,會(huì)讓AI產(chǎn)生偏見,在某些場景下表現(xiàn)不佳。為了解決這個(gè)問題,研究團(tuán)隊(duì)開發(fā)了專門的數(shù)據(jù)重新采樣算法,確保AI能在各種界面布局下都保持穩(wěn)定的表現(xiàn)。
在訓(xùn)練過程中,團(tuán)隊(duì)嘗試了許多看似合理但實(shí)際效果有限的技術(shù)。例如,他們?cè)疽詾閷⒆鴺?biāo)表示為特殊的數(shù)字符號(hào)會(huì)更精確,就像給每個(gè)位置一個(gè)專門的"地址編碼"。但實(shí)驗(yàn)結(jié)果顯示,這種做法反而會(huì)讓模型訓(xùn)練變得不穩(wěn)定。最終,他們發(fā)現(xiàn)最簡單直接的方法——用普通文字描述坐標(biāo)位置——反而效果最好。這個(gè)發(fā)現(xiàn)提醒我們,在AI技術(shù)發(fā)展中,復(fù)雜并不總是意味著更好。
團(tuán)隊(duì)還深入研究了數(shù)據(jù)增強(qiáng)技術(shù)的效果。在傳統(tǒng)的計(jì)算機(jī)視覺任務(wù)中,隨機(jī)裁剪和縮放圖像是常用的提升模型性能的手段。但在GUI定位這個(gè)特殊場景中,這些技術(shù)的效果并不明顯,只有在處理高分辨率屏幕時(shí)才顯示出一些優(yōu)勢。這說明GUI定位任務(wù)有其獨(dú)特性,不能簡單套用其他視覺任務(wù)的經(jīng)驗(yàn)。
在模型規(guī)模和計(jì)算效率的平衡方面,研究團(tuán)隊(duì)提出了一個(gè)重要觀點(diǎn):在比較不同模型時(shí),不應(yīng)該只看參數(shù)數(shù)量,還要考慮實(shí)際推理時(shí)的計(jì)算成本。他們發(fā)現(xiàn),圖像分辨率對(duì)模型性能有重要影響,但也會(huì)顯著增加計(jì)算量。通過綜合考慮性能和效率,他們?yōu)椴煌瑧?yīng)用場景找到了最優(yōu)的模型配置方案。
為了驗(yàn)證模型的實(shí)際效果,研究團(tuán)隊(duì)在五個(gè)不同的測試集上進(jìn)行了全面評(píng)估。這些測試集涵蓋了手機(jī)應(yīng)用、桌面軟件、網(wǎng)頁等各種場景,確保模型在真實(shí)使用環(huán)境中的可靠性。結(jié)果顯示,Phi-Ground模型在所有測試中都達(dá)到了業(yè)界領(lǐng)先水平,特別是在需要專業(yè)軟件操作的高難度場景中表現(xiàn)尤為出色。
在錯(cuò)誤分析方面,團(tuán)隊(duì)進(jìn)行了詳細(xì)的案例研究。他們發(fā)現(xiàn),當(dāng)前模型的錯(cuò)誤主要來自幾個(gè)方面:缺乏空間推理能力、在復(fù)雜界面中容易混淆相似元素、以及在處理非英語界面時(shí)的局限性。通過分析這些錯(cuò)誤模式,團(tuán)隊(duì)為未來的改進(jìn)指明了方向。
這項(xiàng)研究的意義遠(yuǎn)超技術(shù)本身。隨著AI助手越來越多地進(jìn)入我們的日常生活,它們能否準(zhǔn)確理解和操作我們的數(shù)字界面,直接關(guān)系到用戶體驗(yàn)和工作效率。微軟的這項(xiàng)突破為構(gòu)建真正實(shí)用的AI助手奠定了重要基礎(chǔ),讓我們離擁有一個(gè)能夠熟練操作電腦的AI伙伴又近了一步。
當(dāng)然,這項(xiàng)技術(shù)的發(fā)展也帶來了一些需要思考的問題。研究團(tuán)隊(duì)坦誠地指出,AI助手在操作電腦時(shí)可能會(huì)執(zhí)行一些不可逆的危險(xiǎn)操作,如刪除重要文件。此外,為了實(shí)現(xiàn)精確操作,AI助手可能需要截取用戶的屏幕內(nèi)容,這涉及隱私保護(hù)問題。這些挑戰(zhàn)需要在技術(shù)進(jìn)步的同時(shí)得到妥善解決。
展望未來,這項(xiàng)研究不僅推動(dòng)了GUI定位技術(shù)的發(fā)展,也為其他多模態(tài)感知任務(wù)提供了寶貴經(jīng)驗(yàn)。隨著技術(shù)的不斷完善,我們有理由期待更加智能、可靠的AI助手將真正融入我們的數(shù)字生活,成為提升工作和生活效率的得力助手。
Q&A
Q1:Phi-Ground模型是什么?它解決了什么問題?
A:Phi-Ground是微軟開發(fā)的一個(gè)AI模型,專門解決讓AI助手準(zhǔn)確在電腦屏幕上找到并點(diǎn)擊正確按鈕的問題。目前的AI助手雖然能理解指令,但在"看懂"電腦界面方面表現(xiàn)不佳,準(zhǔn)確率不到65%,Phi-Ground通過專門的訓(xùn)練大幅提升了這一能力。
Q2:這個(gè)技術(shù)是如何工作的?
A:Phi-Ground采用兩階段策略:先用一個(gè)"規(guī)劃師"AI理解用戶意圖并生成詳細(xì)操作描述,再用專門的"定位師"AI根據(jù)描述在屏幕上找到準(zhǔn)確位置。這種分工協(xié)作的方式比單一模型處理所有任務(wù)更加高效準(zhǔn)確。
Q3:這項(xiàng)技術(shù)什么時(shí)候能在日常生活中使用?
A:雖然Phi-Ground在測試中表現(xiàn)出色,但研究團(tuán)隊(duì)指出仍需解決一些挑戰(zhàn),包括防止AI執(zhí)行危險(xiǎn)操作和保護(hù)用戶隱私等問題。目前這項(xiàng)技術(shù)更多還是為未來更智能的AI助手奠定基礎(chǔ),距離大規(guī)模日常應(yīng)用還需要一定時(shí)間。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對(duì)話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。