上海交通大學(xué)與生成式人工智能研究實驗室(GAIR)的研究團隊在2025年5月發(fā)布了一項突破性研究,由何彥恒、金嘉和、劉鵬飛領(lǐng)銜完成。這項名為《高效計算機使用代理訓(xùn)練》的研究成果已在arXiv(arXiv:2505.13909v1)上發(fā)表,并在GitHub(https://github.com/GAIR-NLP/PC-Agent-E)開源了所有代碼、數(shù)據(jù)和模型。
為什么需要電腦操作AI助手?
想象一下,你有一個數(shù)字助手,它能像人類一樣操作電腦,完成從簡單到復(fù)雜的各種任務(wù)——從創(chuàng)建文檔、編輯圖片,到瀏覽網(wǎng)頁、處理電子郵件。這不再是科幻小說中的場景,而是人工智能研究的前沿領(lǐng)域。
人工智能代理能夠自主操作計算機的能力被視為AI發(fā)展的一個重要里程碑。這類代理可以大幅減輕人類的工作負(fù)擔(dān),釋放我們的時間和精力。然而,盡管大型科技公司如Anthropic、OpenAI等都在積極開發(fā)此類系統(tǒng),當(dāng)前的模型在實際應(yīng)用中仍面臨重大挑戰(zhàn):它們?nèi)狈ψ銐虻挠嬎銠C操作知識,也無法有效地進(jìn)行長期規(guī)劃。
研究團隊指出,這些問題的核心在于高質(zhì)量的計算機操作軌跡數(shù)據(jù)極其稀缺。就像教孩子使用電腦需要示范和指導(dǎo)一樣,AI代理也需要大量的"示范"來學(xué)習(xí)如何操作計算機。但收集這樣的數(shù)據(jù)需要真人操作并記錄,成本高昂且耗時。
數(shù)據(jù)質(zhì)量勝于數(shù)量:GAIR團隊的突破性方法
上海交大和GAIR的研究團隊提出了一個令人驚訝的發(fā)現(xiàn):其實不需要海量數(shù)據(jù),只要數(shù)據(jù)質(zhì)量足夠高,就能訓(xùn)練出表現(xiàn)優(yōu)異的計算機操作AI。這就像教孩子彈鋼琴,與其讓他機械地練習(xí)成千上萬小時的簡單曲目,不如讓他學(xué)習(xí)幾百首精心挑選的、涵蓋各種技巧的曲目,效果會更好。
研究團隊開發(fā)的PC Agent-E框架就基于這一理念。這個框架從少量但高質(zhì)量的人類操作示范開始,然后利用先進(jìn)的AI模型來豐富和多樣化這些數(shù)據(jù),最終訓(xùn)練出一個能夠有效操作計算機的AI代理。
從312個人類軌跡開始
整個過程始于收集312個人類計算機使用軌跡。想象一下錄制視頻教程的過程:兩名人類注釋者使用PC Tracker工具記錄他們完成各種計算機任務(wù)的過程,包括任務(wù)描述、屏幕截圖和鍵盤/鼠標(biāo)操作。整個數(shù)據(jù)收集過程僅用了一天時間,平均每個軌跡只需約3分鐘。
這些軌跡分布在不同的應(yīng)用程序中:Chrome瀏覽器(70個軌跡)、Edge瀏覽器(53個)、VS Code編輯器(45個)、系統(tǒng)操作(50個)、LibreOffice(25個)、VLC媒體播放器(36個)和其他實用工具(33個)。這確保了訓(xùn)練數(shù)據(jù)涵蓋了多種常見的計算機使用場景。
思考過程重建:讓AI理解人類的決策邏輯
收集到軌跡后,研究團隊面臨一個問題:人類在操作電腦時,大部分思考過程都在腦中進(jìn)行,沒有明確記錄下來。就像觀看別人打游戲,你能看到他們的操作,但不知道他們?yōu)槭裁催@樣做。
為了解決這個問題,研究團隊使用Claude 3.7 Sonnet模型為每個人類操作重建可能的思考過程。模型會分析任務(wù)描述、歷史操作和當(dāng)前屏幕狀態(tài),推斷出人類在執(zhí)行該操作前可能的思考邏輯。這就像是在電視解說中添加了選手的"內(nèi)心獨白",讓AI能夠理解每個操作背后的決策邏輯。
軌跡增強:多樣化的解決方案
僅有人類示范的軌跡還不夠豐富。想象一下,完成一項電腦任務(wù)通常有多種不同的方法。例如,要保存文件,你可以點擊菜單中的"保存",使用快捷鍵Ctrl+S,或者右鍵點擊并選擇"保存"選項。
研究團隊開發(fā)了一種名為"軌跡增強"(Trajectory Boost)的方法,利用Claude 3.7 Sonnet為每個軌跡步驟生成9個不同的、合理的替代操作。這就像是在教學(xué)視頻中不僅展示一種解決方法,還添加了"你也可以這樣做..."的多種備選方案,大大豐富了訓(xùn)練數(shù)據(jù)的多樣性。
這個過程利用了人類軌跡中的"環(huán)境快照"——包括任務(wù)描述、當(dāng)前屏幕狀態(tài)和歷史操作,讓AI模型基于這些信息生成各種可能的下一步操作。最終形成了一個"軌跡樹",其中人類的原始軌跡形成主干,AI生成的多樣化操作形成分支。
PC Agent-E:簡單而強大的架構(gòu)
有了這些高質(zhì)量的增強軌跡數(shù)據(jù),研究團隊開發(fā)了PC Agent-E模型。這個模型采用了一個故意簡化的端到端架構(gòu):輸入任務(wù)描述、屏幕截圖和歷史操作,輸出思考過程和具體操作。
研究團隊強調(diào),他們的主要目標(biāo)是驗證高質(zhì)量數(shù)據(jù)在代理訓(xùn)練中的效果,而不是通過復(fù)雜的工作流設(shè)計或精細(xì)的提示工程來優(yōu)化性能。這就像是在科學(xué)實驗中控制變量,以突出數(shù)據(jù)質(zhì)量的重要性。
最終,通過將312個人類軌跡和AI生成的多樣化操作決策結(jié)合起來,團隊獲得了約2.7萬個訓(xùn)練樣本,用于訓(xùn)練PC Agent-E模型。
令人驚訝的評估結(jié)果
研究團隊開發(fā)了一個名為WindowsAgentArena-V2的改進(jìn)基準(zhǔn)測試,用于評估計算機使用代理的性能。這個測試包含141個跨越11個Windows應(yīng)用程序的各種任務(wù)。
評估結(jié)果令人驚訝:僅使用312個增強軌跡訓(xùn)練的PC Agent-E模型在基準(zhǔn)測試上取得了36.0%的成功率,比基礎(chǔ)模型Qwen2.5-VL-72B的14.9%提高了141%。更令人驚訝的是,這個表現(xiàn)甚至超過了具有擴展思考能力的Claude 3.7 Sonnet(成功率35.4%),后者是一個強大的專有前沿模型。
此外,PC Agent-E還展示了出色的跨平臺泛化能力。盡管完全在Windows系統(tǒng)上訓(xùn)練,該模型在OSWorld基準(zhǔn)測試(專注于Linux任務(wù))上也取得了14.9%的成功率,相對于基礎(chǔ)模型的11.1%提高了34%。
數(shù)據(jù)質(zhì)量的雙重保證
研究團隊認(rèn)為,PC Agent-E的出色性能來源于他們特別注重數(shù)據(jù)質(zhì)量的兩個關(guān)鍵因素:
1. 真實世界任務(wù)完成:人類注釋者確保每個軌跡都是真實完成任務(wù)的過程,這保證了數(shù)據(jù)的真實性和有效性。就像從專業(yè)廚師那里學(xué)習(xí)烹飪,每個步驟都是經(jīng)過驗證的成功做法。
2. 多樣化操作決策:Claude 3.7 Sonnet生成的替代操作豐富了每個步驟的可能性,大大增加了訓(xùn)練數(shù)據(jù)的多樣性。這就像學(xué)習(xí)同一道菜的多種做法,讓AI能夠更靈活地應(yīng)對不同情況。
不只是操作記憶,更是長期規(guī)劃能力
研究團隊通過定性分析發(fā)現(xiàn),PC Agent-E的主要提升來自于增強的長期規(guī)劃能力。訓(xùn)練后的模型能夠產(chǎn)生明顯更長的思考過程,并展示出改進(jìn)的推理能力,包括驗證、反思和自我糾正。
這就像一個經(jīng)驗豐富的電腦用戶,不僅知道"如何點擊",還能根據(jù)當(dāng)前情況調(diào)整計劃,識別并糾正錯誤,找到替代解決方案。這種能力對于完成復(fù)雜的長期任務(wù)至關(guān)重要。
訓(xùn)練和測試時的操作縮放
研究團隊還探索了訓(xùn)練數(shù)據(jù)中行動決策數(shù)量對模型性能的影響。他們發(fā)現(xiàn),隨著每個步驟合成行動數(shù)量的增加,模型性能顯著提升。僅使用人類軌跡訓(xùn)練的模型只比基礎(chǔ)模型提高了15%,而加入了AI生成的多樣化操作后,性能提升達(dá)到了141%。
同樣,測試時允許模型執(zhí)行更多步驟也能提高成功率。這表明,隨著AI模型繼續(xù)與計算機交互,其解決問題的能力會隨著時間推移而提高——就像人類在使用電腦時,往往需要嘗試多種方法才能完成復(fù)雜任務(wù)。
解決評估中的"不可行任務(wù)黑客攻擊"問題
研究團隊還發(fā)現(xiàn)并解決了一個名為"不可行任務(wù)黑客攻擊"的基準(zhǔn)測試漏洞。在現(xiàn)有的計算機使用基準(zhǔn)測試中,一些任務(wù)本質(zhì)上是無法完成的(例如使用已廢棄的系統(tǒng)功能),評估方法簡單地認(rèn)為,如果代理在任何時候輸出"FAIL"操作,任務(wù)就被視為成功完成。
這導(dǎo)致了一個問題:較弱的模型可能會在這類任務(wù)上取得更高的分?jǐn)?shù),因為它們更容易放棄并輸出失敗操作。研究團隊通過從WindowsAgentArena-V2中移除所有不可行任務(wù)來解決這個問題,確保評估的公平性。
未來發(fā)展方向
研究團隊指出,盡管強化學(xué)習(xí)(RL)在長期任務(wù)中取得了令人鼓舞的進(jìn)展,但其有效性與基礎(chǔ)模型的能力密切相關(guān)。目前,即使是最先進(jìn)的專有模型在計算機使用能力方面仍遠(yuǎn)遠(yuǎn)不足。
他們認(rèn)為,收集計算機使用數(shù)據(jù)用于預(yù)訓(xùn)練和后訓(xùn)練仍然對實現(xiàn)真正智能的數(shù)字世界代理至關(guān)重要。未來的方向可能涉及RL和SFT(監(jiān)督微調(diào))的協(xié)同發(fā)展,相互補充和增強。
總結(jié)與展望
這項由上海交通大學(xué)和GAIR實驗室團隊完成的研究表明,通過專注于數(shù)據(jù)質(zhì)量而不是數(shù)量,可以極大地提高計算機操作AI代理的訓(xùn)練效率。僅使用312個經(jīng)過增強的人類軌跡,他們的PC Agent-E模型就實現(xiàn)了令人印象深刻的性能,超越了強大的專有模型。
這一發(fā)現(xiàn)對于AI研究和應(yīng)用具有重要意義,表明我們可能不需要收集海量的人類示范數(shù)據(jù)來訓(xùn)練有效的AI代理。相反,通過專注于少量但高質(zhì)量的數(shù)據(jù),并利用AI來增強和多樣化這些數(shù)據(jù),我們可以更高效地開發(fā)出強大的計算機操作代理。
這項研究的代碼、數(shù)據(jù)和模型已在GitHub上開源,為未來的研究提供了寶貴資源。隨著這一領(lǐng)域的不斷發(fā)展,我們可以期待看到更多能夠像人類一樣自然操作計算機的AI代理出現(xiàn),進(jìn)一步減輕人類的工作負(fù)擔(dān),提高生產(chǎn)力。
好文章,需要你的鼓勵
新加坡國立大學(xué)研究團隊開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實驗顯示,僅訓(xùn)練AI玩簡單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟大學(xué)團隊開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實現(xiàn)37.9%的精度提升,并在真實設(shè)備上展現(xiàn)出色泛化能力,為機器人、AR和自動駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團隊通過對比實驗發(fā)現(xiàn),經(jīng)過強化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時刻"現(xiàn)象,但這些自我糾錯行為并不能實際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗證差距",即生成答案的能力強于驗證答案質(zhì)量的能力,且模型在自我驗證時無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動態(tài)稀疏性實現(xiàn)大語言模型訓(xùn)練加速1.6倍,計算成本降低2.2倍。該方法使用SVD稀疏性估計器智能選擇重要計算部分,在保持模型性能的同時顯著提升訓(xùn)練效率,已在多個任務(wù)上驗證有效性。