av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<p id="zo9lp"></p>

微信掃一掃，關(guān)注公眾號

科技行者
算力行者

見證連接與計算的「力量」

僅需312個電腦操作軌跡，GAIR團隊打造超高效電腦操作AI助手：數(shù)據(jù)質(zhì)量勝過數(shù)據(jù)量

人工智能計算機代理數(shù)據(jù)效率

僅需312個電腦操作軌跡，GAIR團隊打造超高效電腦操作AI助手：數(shù)據(jù)質(zhì)量勝過數(shù)據(jù)量

作者：科技行者

2025-05-27 15:30

分享至：

上海交通大學(xué)與GAIR實驗室研究團隊開發(fā)了PC Agent-E，一種高效的計算機操作AI代理訓(xùn)練框架。通過僅使用312個人類操作軌跡并利用Claude 3.7 Sonnet進(jìn)行數(shù)據(jù)增強，該模型在WindowsAgentArena-V2基準(zhǔn)測試上取得了36.0%的成功率，超越了同樣強大的Claude 3.7 Sonnet（35.4%）。研究證明高質(zhì)量數(shù)據(jù)比大量數(shù)據(jù)更重要，PC Agent-E通過改進(jìn)長期規(guī)劃能力實現(xiàn)了突破性進(jìn)展，同時展示了跨平臺泛化能力。所有代碼、數(shù)據(jù)和模型已開源，為計算機操作AI代理研究提供了寶貴資源。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-05-27 15:30 ? 科技行者

上海交通大學(xué)與生成式人工智能研究實驗室(GAIR)的研究團隊在2025年5月發(fā)布了一項突破性研究，由何彥恒、金嘉和、劉鵬飛領(lǐng)銜完成。這項名為《高效計算機使用代理訓(xùn)練》的研究成果已在arXiv（arXiv:2505.13909v1）上發(fā)表，并在GitHub（https://github.com/GAIR-NLP/PC-Agent-E）開源了所有代碼、數(shù)據(jù)和模型。

為什么需要電腦操作AI助手？

想象一下，你有一個數(shù)字助手，它能像人類一樣操作電腦，完成從簡單到復(fù)雜的各種任務(wù)——從創(chuàng)建文檔、編輯圖片，到瀏覽網(wǎng)頁、處理電子郵件。這不再是科幻小說中的場景，而是人工智能研究的前沿領(lǐng)域。

人工智能代理能夠自主操作計算機的能力被視為AI發(fā)展的一個重要里程碑。這類代理可以大幅減輕人類的工作負(fù)擔(dān)，釋放我們的時間和精力。然而，盡管大型科技公司如Anthropic、OpenAI等都在積極開發(fā)此類系統(tǒng)，當(dāng)前的模型在實際應(yīng)用中仍面臨重大挑戰(zhàn)：它們?nèi)狈ψ銐虻挠嬎銠C操作知識，也無法有效地進(jìn)行長期規(guī)劃。

研究團隊指出，這些問題的核心在于高質(zhì)量的計算機操作軌跡數(shù)據(jù)極其稀缺。就像教孩子使用電腦需要示范和指導(dǎo)一樣，AI代理也需要大量的"示范"來學(xué)習(xí)如何操作計算機。但收集這樣的數(shù)據(jù)需要真人操作并記錄，成本高昂且耗時。

數(shù)據(jù)質(zhì)量勝于數(shù)量：GAIR團隊的突破性方法

上海交大和GAIR的研究團隊提出了一個令人驚訝的發(fā)現(xiàn)：其實不需要海量數(shù)據(jù)，只要數(shù)據(jù)質(zhì)量足夠高，就能訓(xùn)練出表現(xiàn)優(yōu)異的計算機操作AI。這就像教孩子彈鋼琴，與其讓他機械地練習(xí)成千上萬小時的簡單曲目，不如讓他學(xué)習(xí)幾百首精心挑選的、涵蓋各種技巧的曲目，效果會更好。

研究團隊開發(fā)的PC Agent-E框架就基于這一理念。這個框架從少量但高質(zhì)量的人類操作示范開始，然后利用先進(jìn)的AI模型來豐富和多樣化這些數(shù)據(jù)，最終訓(xùn)練出一個能夠有效操作計算機的AI代理。

從312個人類軌跡開始

整個過程始于收集312個人類計算機使用軌跡。想象一下錄制視頻教程的過程：兩名人類注釋者使用PC Tracker工具記錄他們完成各種計算機任務(wù)的過程，包括任務(wù)描述、屏幕截圖和鍵盤/鼠標(biāo)操作。整個數(shù)據(jù)收集過程僅用了一天時間，平均每個軌跡只需約3分鐘。

這些軌跡分布在不同的應(yīng)用程序中：Chrome瀏覽器（70個軌跡）、Edge瀏覽器（53個）、VS Code編輯器（45個）、系統(tǒng)操作（50個）、LibreOffice（25個）、VLC媒體播放器（36個）和其他實用工具（33個）。這確保了訓(xùn)練數(shù)據(jù)涵蓋了多種常見的計算機使用場景。

思考過程重建：讓AI理解人類的決策邏輯

收集到軌跡后，研究團隊面臨一個問題：人類在操作電腦時，大部分思考過程都在腦中進(jìn)行，沒有明確記錄下來。就像觀看別人打游戲，你能看到他們的操作，但不知道他們?yōu)槭裁催@樣做。

為了解決這個問題，研究團隊使用Claude 3.7 Sonnet模型為每個人類操作重建可能的思考過程。模型會分析任務(wù)描述、歷史操作和當(dāng)前屏幕狀態(tài)，推斷出人類在執(zhí)行該操作前可能的思考邏輯。這就像是在電視解說中添加了選手的"內(nèi)心獨白"，讓AI能夠理解每個操作背后的決策邏輯。

軌跡增強：多樣化的解決方案

僅有人類示范的軌跡還不夠豐富。想象一下，完成一項電腦任務(wù)通常有多種不同的方法。例如，要保存文件，你可以點擊菜單中的"保存"，使用快捷鍵Ctrl+S，或者右鍵點擊并選擇"保存"選項。

研究團隊開發(fā)了一種名為"軌跡增強"（Trajectory Boost）的方法，利用Claude 3.7 Sonnet為每個軌跡步驟生成9個不同的、合理的替代操作。這就像是在教學(xué)視頻中不僅展示一種解決方法，還添加了"你也可以這樣做..."的多種備選方案，大大豐富了訓(xùn)練數(shù)據(jù)的多樣性。

這個過程利用了人類軌跡中的"環(huán)境快照"——包括任務(wù)描述、當(dāng)前屏幕狀態(tài)和歷史操作，讓AI模型基于這些信息生成各種可能的下一步操作。最終形成了一個"軌跡樹"，其中人類的原始軌跡形成主干，AI生成的多樣化操作形成分支。

PC Agent-E：簡單而強大的架構(gòu)

有了這些高質(zhì)量的增強軌跡數(shù)據(jù)，研究團隊開發(fā)了PC Agent-E模型。這個模型采用了一個故意簡化的端到端架構(gòu)：輸入任務(wù)描述、屏幕截圖和歷史操作，輸出思考過程和具體操作。

研究團隊強調(diào)，他們的主要目標(biāo)是驗證高質(zhì)量數(shù)據(jù)在代理訓(xùn)練中的效果，而不是通過復(fù)雜的工作流設(shè)計或精細(xì)的提示工程來優(yōu)化性能。這就像是在科學(xué)實驗中控制變量，以突出數(shù)據(jù)質(zhì)量的重要性。

最終，通過將312個人類軌跡和AI生成的多樣化操作決策結(jié)合起來，團隊獲得了約2.7萬個訓(xùn)練樣本，用于訓(xùn)練PC Agent-E模型。

令人驚訝的評估結(jié)果

研究團隊開發(fā)了一個名為WindowsAgentArena-V2的改進(jìn)基準(zhǔn)測試，用于評估計算機使用代理的性能。這個測試包含141個跨越11個Windows應(yīng)用程序的各種任務(wù)。

評估結(jié)果令人驚訝：僅使用312個增強軌跡訓(xùn)練的PC Agent-E模型在基準(zhǔn)測試上取得了36.0%的成功率，比基礎(chǔ)模型Qwen2.5-VL-72B的14.9%提高了141%。更令人驚訝的是，這個表現(xiàn)甚至超過了具有擴展思考能力的Claude 3.7 Sonnet（成功率35.4%），后者是一個強大的專有前沿模型。

此外，PC Agent-E還展示了出色的跨平臺泛化能力。盡管完全在Windows系統(tǒng)上訓(xùn)練，該模型在OSWorld基準(zhǔn)測試（專注于Linux任務(wù)）上也取得了14.9%的成功率，相對于基礎(chǔ)模型的11.1%提高了34%。

數(shù)據(jù)質(zhì)量的雙重保證

研究團隊認(rèn)為，PC Agent-E的出色性能來源于他們特別注重數(shù)據(jù)質(zhì)量的兩個關(guān)鍵因素：

1. 真實世界任務(wù)完成：人類注釋者確保每個軌跡都是真實完成任務(wù)的過程，這保證了數(shù)據(jù)的真實性和有效性。就像從專業(yè)廚師那里學(xué)習(xí)烹飪，每個步驟都是經(jīng)過驗證的成功做法。

2. 多樣化操作決策：Claude 3.7 Sonnet生成的替代操作豐富了每個步驟的可能性，大大增加了訓(xùn)練數(shù)據(jù)的多樣性。這就像學(xué)習(xí)同一道菜的多種做法，讓AI能夠更靈活地應(yīng)對不同情況。

不只是操作記憶，更是長期規(guī)劃能力

研究團隊通過定性分析發(fā)現(xiàn)，PC Agent-E的主要提升來自于增強的長期規(guī)劃能力。訓(xùn)練后的模型能夠產(chǎn)生明顯更長的思考過程，并展示出改進(jìn)的推理能力，包括驗證、反思和自我糾正。

這就像一個經(jīng)驗豐富的電腦用戶，不僅知道"如何點擊"，還能根據(jù)當(dāng)前情況調(diào)整計劃，識別并糾正錯誤，找到替代解決方案。這種能力對于完成復(fù)雜的長期任務(wù)至關(guān)重要。

訓(xùn)練和測試時的操作縮放

研究團隊還探索了訓(xùn)練數(shù)據(jù)中行動決策數(shù)量對模型性能的影響。他們發(fā)現(xiàn)，隨著每個步驟合成行動數(shù)量的增加，模型性能顯著提升。僅使用人類軌跡訓(xùn)練的模型只比基礎(chǔ)模型提高了15%，而加入了AI生成的多樣化操作后，性能提升達(dá)到了141%。

同樣，測試時允許模型執(zhí)行更多步驟也能提高成功率。這表明，隨著AI模型繼續(xù)與計算機交互，其解決問題的能力會隨著時間推移而提高——就像人類在使用電腦時，往往需要嘗試多種方法才能完成復(fù)雜任務(wù)。

解決評估中的"不可行任務(wù)黑客攻擊"問題

研究團隊還發(fā)現(xiàn)并解決了一個名為"不可行任務(wù)黑客攻擊"的基準(zhǔn)測試漏洞。在現(xiàn)有的計算機使用基準(zhǔn)測試中，一些任務(wù)本質(zhì)上是無法完成的（例如使用已廢棄的系統(tǒng)功能），評估方法簡單地認(rèn)為，如果代理在任何時候輸出"FAIL"操作，任務(wù)就被視為成功完成。

這導(dǎo)致了一個問題：較弱的模型可能會在這類任務(wù)上取得更高的分?jǐn)?shù)，因為它們更容易放棄并輸出失敗操作。研究團隊通過從WindowsAgentArena-V2中移除所有不可行任務(wù)來解決這個問題，確保評估的公平性。

未來發(fā)展方向

研究團隊指出，盡管強化學(xué)習(xí)(RL)在長期任務(wù)中取得了令人鼓舞的進(jìn)展，但其有效性與基礎(chǔ)模型的能力密切相關(guān)。目前，即使是最先進(jìn)的專有模型在計算機使用能力方面仍遠(yuǎn)遠(yuǎn)不足。

他們認(rèn)為，收集計算機使用數(shù)據(jù)用于預(yù)訓(xùn)練和后訓(xùn)練仍然對實現(xiàn)真正智能的數(shù)字世界代理至關(guān)重要。未來的方向可能涉及RL和SFT（監(jiān)督微調(diào)）的協(xié)同發(fā)展，相互補充和增強。

總結(jié)與展望

這項由上海交通大學(xué)和GAIR實驗室團隊完成的研究表明，通過專注于數(shù)據(jù)質(zhì)量而不是數(shù)量，可以極大地提高計算機操作AI代理的訓(xùn)練效率。僅使用312個經(jīng)過增強的人類軌跡，他們的PC Agent-E模型就實現(xiàn)了令人印象深刻的性能，超越了強大的專有模型。

這一發(fā)現(xiàn)對于AI研究和應(yīng)用具有重要意義，表明我們可能不需要收集海量的人類示范數(shù)據(jù)來訓(xùn)練有效的AI代理。相反，通過專注于少量但高質(zhì)量的數(shù)據(jù)，并利用AI來增強和多樣化這些數(shù)據(jù)，我們可以更高效地開發(fā)出強大的計算機操作代理。

這項研究的代碼、數(shù)據(jù)和模型已在GitHub上開源，為未來的研究提供了寶貴資源。隨著這一領(lǐng)域的不斷發(fā)展，我們可以期待看到更多能夠像人類一樣自然操作計算機的AI代理出現(xiàn)，進(jìn)一步減輕人類的工作負(fù)擔(dān)，提高生產(chǎn)力。

人工智能計算機代理數(shù)據(jù)效率

分享至

0贊

好文章，需要你的鼓勵

推薦文章

自對弈訓(xùn)練
推理能力提升
零和游戲?qū)W習(xí)

2025-07-02 14:26

AI玩游戲能讓推理變聰明？新加坡國立大學(xué)發(fā)現(xiàn)自對弈訓(xùn)練的神奇效果

新加坡國立大學(xué)研究團隊開發(fā)了SPIRAL框架，通過讓AI與自己對弈零和游戲來提升推理能力。實驗顯示，僅訓(xùn)練AI玩簡單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%，通用推理提升8.4%，且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中，為AI訓(xùn)練提供了新思路。
計算機視覺
圖像降噪
3D相機技術(shù)

2025-07-02 14:26

同濟大學(xué)突破性研究：讓3D相機告別"噪點困擾"的智能降噪新技術(shù)

同濟大學(xué)團隊開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息，創(chuàng)新性地解決了3D相機噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系，結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法，在合成數(shù)據(jù)集上實現(xiàn)37.9%的精度提升，并在真實設(shè)備上展現(xiàn)出色泛化能力，為機器人、AR和自動駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
人工智能
視覺語言模型
強化學(xué)習(xí)

2025-07-02 14:26

AI視覺推理模型的"頓悟時刻"真的存在嗎？伊利諾伊大學(xué)研究揭示令人意外的真相

伊利諾伊大學(xué)研究團隊通過對比實驗發(fā)現(xiàn)，經(jīng)過強化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時刻"現(xiàn)象，但這些自我糾錯行為并不能實際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗證差距"，即生成答案的能力強于驗證答案質(zhì)量的能力，且模型在自我驗證時無法有效利用視覺信息，為AI多模態(tài)推理發(fā)展提供了重要啟示。
大語言模型
稀疏性訓(xùn)練
計算效率優(yōu)化

2025-07-02 14:25

MIT團隊發(fā)明"智能減肥法"讓AI訓(xùn)練快1.6倍：只需要一半的算力就能教會大模型新技能

MIT等頂尖機構(gòu)聯(lián)合提出SparseLoRA技術(shù)，通過動態(tài)稀疏性實現(xiàn)大語言模型訓(xùn)練加速1.6倍，計算成本降低2.2倍。該方法使用SVD稀疏性估計器智能選擇重要計算部分，在保持模型性能的同時顯著提升訓(xùn)練效率，已在多個任務(wù)上驗證有效性。

AI玩游戲能讓推理變聰明？新加坡國立大學(xué)發(fā)現(xiàn)自對弈訓(xùn)練的神奇效果

AI玩游戲能讓推理變聰明？新加坡國立大學(xué)發(fā)現(xiàn)自對弈訓(xùn)練的神奇效果

2025-07-02 14:26

同濟大學(xué)突破性研究：讓3D相機告別"噪點困擾"的智能降噪新技術(shù)

同濟大學(xué)突破性研究：讓3D相機告別"噪點困擾"的智能降噪新技術(shù)

2025-07-02 14:26

AI視覺推理模型的"頓悟時刻"真的存在嗎？伊利諾伊大學(xué)研究揭示令人意外的真相

AI視覺推理模型的"頓悟時刻"真的存在嗎？伊利諾伊大學(xué)研究揭示令人意外的真相

2025-07-02 14:26

MIT團隊發(fā)明"智能減肥法"讓AI訓(xùn)練快1.6倍：只需要一半的算力就能教會大模型新技能

MIT團隊發(fā)明"智能減肥法"讓AI訓(xùn)練快1.6倍：只需要一半的算力就能教會大模型新技能

2025-07-02 14:25

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時代

京ICP證15039648號京ICP備15039648號-9 京公網(wǎng)安備 11010802021500號

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報電話：010-62641205　涉未成年人舉報專線：010-62641208 舉報郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報專區(qū)：https://www.12377.cn