av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 僅需312個電腦操作軌跡,GAIR團隊打造超高效電腦操作AI助手:數(shù)據(jù)質(zhì)量勝過數(shù)據(jù)量

僅需312個電腦操作軌跡,GAIR團隊打造超高效電腦操作AI助手:數(shù)據(jù)質(zhì)量勝過數(shù)據(jù)量

2025-05-27 15:30
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-27 15:30 ? 科技行者

上海交通大學(xué)與生成式人工智能研究實驗室(GAIR)的研究團隊在2025年5月發(fā)布了一項突破性研究,由何彥恒、金嘉和、劉鵬飛領(lǐng)銜完成。這項名為《高效計算機使用代理訓(xùn)練》的研究成果已在arXiv(arXiv:2505.13909v1)上發(fā)表,并在GitHub(https://github.com/GAIR-NLP/PC-Agent-E)開源了所有代碼、數(shù)據(jù)和模型。

為什么需要電腦操作AI助手?

想象一下,你有一個數(shù)字助手,它能像人類一樣操作電腦,完成從簡單到復(fù)雜的各種任務(wù)——從創(chuàng)建文檔、編輯圖片,到瀏覽網(wǎng)頁、處理電子郵件。這不再是科幻小說中的場景,而是人工智能研究的前沿領(lǐng)域。

人工智能代理能夠自主操作計算機的能力被視為AI發(fā)展的一個重要里程碑。這類代理可以大幅減輕人類的工作負(fù)擔(dān),釋放我們的時間和精力。然而,盡管大型科技公司如Anthropic、OpenAI等都在積極開發(fā)此類系統(tǒng),當(dāng)前的模型在實際應(yīng)用中仍面臨重大挑戰(zhàn):它們?nèi)狈ψ銐虻挠嬎銠C操作知識,也無法有效地進(jìn)行長期規(guī)劃。

研究團隊指出,這些問題的核心在于高質(zhì)量的計算機操作軌跡數(shù)據(jù)極其稀缺。就像教孩子使用電腦需要示范和指導(dǎo)一樣,AI代理也需要大量的"示范"來學(xué)習(xí)如何操作計算機。但收集這樣的數(shù)據(jù)需要真人操作并記錄,成本高昂且耗時。

數(shù)據(jù)質(zhì)量勝于數(shù)量:GAIR團隊的突破性方法

上海交大和GAIR的研究團隊提出了一個令人驚訝的發(fā)現(xiàn):其實不需要海量數(shù)據(jù),只要數(shù)據(jù)質(zhì)量足夠高,就能訓(xùn)練出表現(xiàn)優(yōu)異的計算機操作AI。這就像教孩子彈鋼琴,與其讓他機械地練習(xí)成千上萬小時的簡單曲目,不如讓他學(xué)習(xí)幾百首精心挑選的、涵蓋各種技巧的曲目,效果會更好。

研究團隊開發(fā)的PC Agent-E框架就基于這一理念。這個框架從少量但高質(zhì)量的人類操作示范開始,然后利用先進(jìn)的AI模型來豐富和多樣化這些數(shù)據(jù),最終訓(xùn)練出一個能夠有效操作計算機的AI代理。

從312個人類軌跡開始

整個過程始于收集312個人類計算機使用軌跡。想象一下錄制視頻教程的過程:兩名人類注釋者使用PC Tracker工具記錄他們完成各種計算機任務(wù)的過程,包括任務(wù)描述、屏幕截圖和鍵盤/鼠標(biāo)操作。整個數(shù)據(jù)收集過程僅用了一天時間,平均每個軌跡只需約3分鐘。

這些軌跡分布在不同的應(yīng)用程序中:Chrome瀏覽器(70個軌跡)、Edge瀏覽器(53個)、VS Code編輯器(45個)、系統(tǒng)操作(50個)、LibreOffice(25個)、VLC媒體播放器(36個)和其他實用工具(33個)。這確保了訓(xùn)練數(shù)據(jù)涵蓋了多種常見的計算機使用場景。

思考過程重建:讓AI理解人類的決策邏輯

收集到軌跡后,研究團隊面臨一個問題:人類在操作電腦時,大部分思考過程都在腦中進(jìn)行,沒有明確記錄下來。就像觀看別人打游戲,你能看到他們的操作,但不知道他們?yōu)槭裁催@樣做。

為了解決這個問題,研究團隊使用Claude 3.7 Sonnet模型為每個人類操作重建可能的思考過程。模型會分析任務(wù)描述、歷史操作和當(dāng)前屏幕狀態(tài),推斷出人類在執(zhí)行該操作前可能的思考邏輯。這就像是在電視解說中添加了選手的"內(nèi)心獨白",讓AI能夠理解每個操作背后的決策邏輯。

軌跡增強:多樣化的解決方案

僅有人類示范的軌跡還不夠豐富。想象一下,完成一項電腦任務(wù)通常有多種不同的方法。例如,要保存文件,你可以點擊菜單中的"保存",使用快捷鍵Ctrl+S,或者右鍵點擊并選擇"保存"選項。

研究團隊開發(fā)了一種名為"軌跡增強"(Trajectory Boost)的方法,利用Claude 3.7 Sonnet為每個軌跡步驟生成9個不同的、合理的替代操作。這就像是在教學(xué)視頻中不僅展示一種解決方法,還添加了"你也可以這樣做..."的多種備選方案,大大豐富了訓(xùn)練數(shù)據(jù)的多樣性。

這個過程利用了人類軌跡中的"環(huán)境快照"——包括任務(wù)描述、當(dāng)前屏幕狀態(tài)和歷史操作,讓AI模型基于這些信息生成各種可能的下一步操作。最終形成了一個"軌跡樹",其中人類的原始軌跡形成主干,AI生成的多樣化操作形成分支。

PC Agent-E:簡單而強大的架構(gòu)

有了這些高質(zhì)量的增強軌跡數(shù)據(jù),研究團隊開發(fā)了PC Agent-E模型。這個模型采用了一個故意簡化的端到端架構(gòu):輸入任務(wù)描述、屏幕截圖和歷史操作,輸出思考過程和具體操作。

研究團隊強調(diào),他們的主要目標(biāo)是驗證高質(zhì)量數(shù)據(jù)在代理訓(xùn)練中的效果,而不是通過復(fù)雜的工作流設(shè)計或精細(xì)的提示工程來優(yōu)化性能。這就像是在科學(xué)實驗中控制變量,以突出數(shù)據(jù)質(zhì)量的重要性。

最終,通過將312個人類軌跡和AI生成的多樣化操作決策結(jié)合起來,團隊獲得了約2.7萬個訓(xùn)練樣本,用于訓(xùn)練PC Agent-E模型。

令人驚訝的評估結(jié)果

研究團隊開發(fā)了一個名為WindowsAgentArena-V2的改進(jìn)基準(zhǔn)測試,用于評估計算機使用代理的性能。這個測試包含141個跨越11個Windows應(yīng)用程序的各種任務(wù)。

評估結(jié)果令人驚訝:僅使用312個增強軌跡訓(xùn)練的PC Agent-E模型在基準(zhǔn)測試上取得了36.0%的成功率,比基礎(chǔ)模型Qwen2.5-VL-72B的14.9%提高了141%。更令人驚訝的是,這個表現(xiàn)甚至超過了具有擴展思考能力的Claude 3.7 Sonnet(成功率35.4%),后者是一個強大的專有前沿模型。

此外,PC Agent-E還展示了出色的跨平臺泛化能力。盡管完全在Windows系統(tǒng)上訓(xùn)練,該模型在OSWorld基準(zhǔn)測試(專注于Linux任務(wù))上也取得了14.9%的成功率,相對于基礎(chǔ)模型的11.1%提高了34%。

數(shù)據(jù)質(zhì)量的雙重保證

研究團隊認(rèn)為,PC Agent-E的出色性能來源于他們特別注重數(shù)據(jù)質(zhì)量的兩個關(guān)鍵因素:

1. 真實世界任務(wù)完成:人類注釋者確保每個軌跡都是真實完成任務(wù)的過程,這保證了數(shù)據(jù)的真實性和有效性。就像從專業(yè)廚師那里學(xué)習(xí)烹飪,每個步驟都是經(jīng)過驗證的成功做法。

2. 多樣化操作決策:Claude 3.7 Sonnet生成的替代操作豐富了每個步驟的可能性,大大增加了訓(xùn)練數(shù)據(jù)的多樣性。這就像學(xué)習(xí)同一道菜的多種做法,讓AI能夠更靈活地應(yīng)對不同情況。

不只是操作記憶,更是長期規(guī)劃能力

研究團隊通過定性分析發(fā)現(xiàn),PC Agent-E的主要提升來自于增強的長期規(guī)劃能力。訓(xùn)練后的模型能夠產(chǎn)生明顯更長的思考過程,并展示出改進(jìn)的推理能力,包括驗證、反思和自我糾正。

這就像一個經(jīng)驗豐富的電腦用戶,不僅知道"如何點擊",還能根據(jù)當(dāng)前情況調(diào)整計劃,識別并糾正錯誤,找到替代解決方案。這種能力對于完成復(fù)雜的長期任務(wù)至關(guān)重要。

訓(xùn)練和測試時的操作縮放

研究團隊還探索了訓(xùn)練數(shù)據(jù)中行動決策數(shù)量對模型性能的影響。他們發(fā)現(xiàn),隨著每個步驟合成行動數(shù)量的增加,模型性能顯著提升。僅使用人類軌跡訓(xùn)練的模型只比基礎(chǔ)模型提高了15%,而加入了AI生成的多樣化操作后,性能提升達(dá)到了141%。

同樣,測試時允許模型執(zhí)行更多步驟也能提高成功率。這表明,隨著AI模型繼續(xù)與計算機交互,其解決問題的能力會隨著時間推移而提高——就像人類在使用電腦時,往往需要嘗試多種方法才能完成復(fù)雜任務(wù)。

解決評估中的"不可行任務(wù)黑客攻擊"問題

研究團隊還發(fā)現(xiàn)并解決了一個名為"不可行任務(wù)黑客攻擊"的基準(zhǔn)測試漏洞。在現(xiàn)有的計算機使用基準(zhǔn)測試中,一些任務(wù)本質(zhì)上是無法完成的(例如使用已廢棄的系統(tǒng)功能),評估方法簡單地認(rèn)為,如果代理在任何時候輸出"FAIL"操作,任務(wù)就被視為成功完成。

這導(dǎo)致了一個問題:較弱的模型可能會在這類任務(wù)上取得更高的分?jǐn)?shù),因為它們更容易放棄并輸出失敗操作。研究團隊通過從WindowsAgentArena-V2中移除所有不可行任務(wù)來解決這個問題,確保評估的公平性。

未來發(fā)展方向

研究團隊指出,盡管強化學(xué)習(xí)(RL)在長期任務(wù)中取得了令人鼓舞的進(jìn)展,但其有效性與基礎(chǔ)模型的能力密切相關(guān)。目前,即使是最先進(jìn)的專有模型在計算機使用能力方面仍遠(yuǎn)遠(yuǎn)不足。

他們認(rèn)為,收集計算機使用數(shù)據(jù)用于預(yù)訓(xùn)練和后訓(xùn)練仍然對實現(xiàn)真正智能的數(shù)字世界代理至關(guān)重要。未來的方向可能涉及RL和SFT(監(jiān)督微調(diào))的協(xié)同發(fā)展,相互補充和增強。

總結(jié)與展望

這項由上海交通大學(xué)和GAIR實驗室團隊完成的研究表明,通過專注于數(shù)據(jù)質(zhì)量而不是數(shù)量,可以極大地提高計算機操作AI代理的訓(xùn)練效率。僅使用312個經(jīng)過增強的人類軌跡,他們的PC Agent-E模型就實現(xiàn)了令人印象深刻的性能,超越了強大的專有模型。

這一發(fā)現(xiàn)對于AI研究和應(yīng)用具有重要意義,表明我們可能不需要收集海量的人類示范數(shù)據(jù)來訓(xùn)練有效的AI代理。相反,通過專注于少量但高質(zhì)量的數(shù)據(jù),并利用AI來增強和多樣化這些數(shù)據(jù),我們可以更高效地開發(fā)出強大的計算機操作代理。

這項研究的代碼、數(shù)據(jù)和模型已在GitHub上開源,為未來的研究提供了寶貴資源。隨著這一領(lǐng)域的不斷發(fā)展,我們可以期待看到更多能夠像人類一樣自然操作計算機的AI代理出現(xiàn),進(jìn)一步減輕人類的工作負(fù)擔(dān),提高生產(chǎn)力。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-