av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<rt id="dgjik"></rt>

微信掃一掃，關(guān)注公眾號

科技行者
算力行者

見證連接與計(jì)算的「力量」

AI智能助手終于學(xué)會像人類一樣操作電腦軟件：上海AI實(shí)驗(yàn)室團(tuán)隊(duì)打造大腦分工新模式

人工智能GUI操作強(qiáng)化學(xué)習(xí)

AI智能助手終于學(xué)會像人類一樣操作電腦軟件：上海AI實(shí)驗(yàn)室團(tuán)隊(duì)打造大腦分工新模式

作者：科技行者

2025-09-04 09:56

分享至：

上海AI實(shí)驗(yàn)室等機(jī)構(gòu)聯(lián)合開發(fā)了CODA系統(tǒng)，這是一個能夠操作復(fù)雜專業(yè)軟件的AI助手。它模仿人類大腦分工，分為負(fù)責(zé)規(guī)劃的"大腦皮層"和負(fù)責(zé)執(zhí)行的"小腦"兩個部分，通過兩階段訓(xùn)練策略實(shí)現(xiàn)專業(yè)化和通用化。在四個科學(xué)軟件的測試中，CODA平均成功率達(dá)到21.04%，顯著超過傳統(tǒng)方法，展現(xiàn)出良好的學(xué)習(xí)和適應(yīng)能力。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-09-04 09:56 ? 科技行者

當(dāng)你打開一個復(fù)雜的科學(xué)軟件，比如天文觀測軟件Celestia或者分子建模軟件ChimeraX時，是否曾經(jīng)被滿屏的按鈕、菜單和選項(xiàng)搞得頭暈眼花？更別說讓一個AI助手來幫你完成這些復(fù)雜的操作了。但是現(xiàn)在，這個看似不可能的任務(wù)有了突破性進(jìn)展。

這項(xiàng)由上海交通大學(xué)、上海AI實(shí)驗(yàn)室、香港中文大學(xué)和香港大學(xué)聯(lián)合完成的研究，發(fā)表在2025年8月的arXiv預(yù)印本平臺上，論文編號為arXiv:2508.20096v1。有興趣深入了解的讀者可以通過https://github.com/OpenIXCLab/CODA訪問完整的代碼和模型。研究團(tuán)隊(duì)的成員包括孫澤逸、曹宇航、梁健澤等多位學(xué)者，他們共同開發(fā)了一個名為CODA的AI系統(tǒng)。

這個系統(tǒng)最有趣的地方在于，它模仿了人類大腦的工作方式——就像我們大腦中的大腦皮層負(fù)責(zé)高級思考，而小腦負(fù)責(zé)精確的動作控制一樣。CODA也分為兩個部分：一個"大腦皮層"負(fù)責(zé)制定計(jì)劃，另一個"小腦"負(fù)責(zé)執(zhí)行具體的鼠標(biāo)點(diǎn)擊和鍵盤操作。這種分工合作的方式讓AI在操作復(fù)雜軟件時變得更加聰明和可靠。

傳統(tǒng)的AI助手在面對專業(yè)軟件時往往會遇到兩難境地：要么擅長制定宏觀策略但在具體操作時手忙腳亂，要么能精確執(zhí)行單個動作但缺乏全局規(guī)劃能力。就像一個人要么只會畫建筑藍(lán)圖卻不會砌墻，要么只會砌墻卻不知道房子應(yīng)該建成什么樣子。CODA的創(chuàng)新之處就是讓這兩種能力完美結(jié)合，通過專門的訓(xùn)練方法讓AI的"規(guī)劃大腦"變得越來越聰明，同時保持"執(zhí)行小腦"的穩(wěn)定可靠。

更令人驚喜的是，這個系統(tǒng)還能通過經(jīng)驗(yàn)自主學(xué)習(xí)和改進(jìn)。它會自動生成新的任務(wù)來挑戰(zhàn)自己，就像一個勤奮的學(xué)生不斷給自己出練習(xí)題一樣。當(dāng)它在某個軟件上犯錯時，系統(tǒng)會分析錯誤原因，然后生成更多相關(guān)的練習(xí)來彌補(bǔ)短板。這種自我完善的能力讓CODA在四個不同的科學(xué)軟件上都取得了顯著的性能提升，成為目前開源模型中的佼佼者。

一、從手忙腳亂到游刃有余：AI操作軟件的新思路

當(dāng)我們第一次使用Photoshop或者Excel這樣的復(fù)雜軟件時，往往會感到無從下手。即使知道要完成什么任務(wù)，也不知道該點(diǎn)哪個按鈕，該從哪個菜單開始。對于AI來說，這個挑戰(zhàn)更加艱巨，因?yàn)樗粌H要理解任務(wù)目標(biāo)，還要準(zhǔn)確識別屏幕上密密麻麻的界面元素，并且精確地進(jìn)行鼠標(biāo)點(diǎn)擊和鍵盤輸入。

以往的AI助手通常采用"一人包攬"的方式來解決這個問題，就像讓一個人既當(dāng)總指揮又當(dāng)具體執(zhí)行者。這種方式的問題很明顯：當(dāng)AI忙著思考大策略時，手上的動作就容易出錯；當(dāng)它專注于精確操作時，又容易丟掉大局觀。結(jié)果就是要么計(jì)劃很完美但執(zhí)行一塌糊涂，要么動作很精準(zhǔn)但不知道在干什么。

研究團(tuán)隊(duì)敏銳地觀察到，人類大腦其實(shí)有著精妙的分工機(jī)制。我們的大腦皮層負(fù)責(zé)高級認(rèn)知功能，比如理解任務(wù)目標(biāo)、制定行動計(jì)劃、分析當(dāng)前情況等；而小腦則專門負(fù)責(zé)運(yùn)動控制，比如精確的手眼協(xié)調(diào)、肌肉記憶等。更重要的是，這兩個部分有著不同的學(xué)習(xí)特點(diǎn)：大腦皮層需要不斷學(xué)習(xí)新知識和適應(yīng)新情況，而小腦一旦掌握了基本技能就相對穩(wěn)定，不需要頻繁更新。

基于這個觀察，CODA采用了全新的設(shè)計(jì)思路。它的"大腦皮層"部分使用的是Qwen2.5-VL模型，這是一個擅長理解圖像和文字的大型AI模型，負(fù)責(zé)觀察屏幕截圖、理解任務(wù)要求、分析當(dāng)前情況并制定下一步計(jì)劃。它會生成類似"現(xiàn)在需要點(diǎn)擊文件菜單打開設(shè)置對話框"這樣的高層次思考。

而"小腦"部分則使用UI-TARS-1.5模型，這是一個專門訓(xùn)練用來執(zhí)行GUI操作的模型。它接收來自"大腦皮層"的指令，然后將其轉(zhuǎn)換為具體的操作代碼，比如"pyautogui.click(x=758, y=427)"這樣的精確鼠標(biāo)點(diǎn)擊命令。這個"小腦"就像一個經(jīng)驗(yàn)豐富的操作員，知道如何準(zhǔn)確地在屏幕上找到目標(biāo)并執(zhí)行動作。

這種分工帶來了顯著的好處。首先，每個組件都能專注于自己最擅長的任務(wù)，避免了"樣樣通樣樣松"的問題。其次，當(dāng)需要適應(yīng)新軟件時，只需要訓(xùn)練"大腦皮層"學(xué)習(xí)新的規(guī)劃策略，而"小腦"的基礎(chǔ)操作技能可以保持不變，大大提高了訓(xùn)練效率。最后，這種架構(gòu)更容易進(jìn)行針對性的改進(jìn)和調(diào)試。

實(shí)驗(yàn)結(jié)果證明了這種設(shè)計(jì)的有效性。在四個不同的科學(xué)軟件測試中，CODA的表現(xiàn)都遠(yuǎn)超傳統(tǒng)的單一模型方法。更重要的是，它的成功率隨著經(jīng)驗(yàn)的積累而不斷提升，展現(xiàn)出了真正的學(xué)習(xí)能力。

二、從新手到專家：AI如何通過實(shí)戰(zhàn)磨練技能

就像人類學(xué)習(xí)使用新軟件一樣，CODA也需要經(jīng)歷從生疏到熟練的過程。但是，傳統(tǒng)的AI訓(xùn)練方法需要大量的人工標(biāo)注數(shù)據(jù)，這在專業(yè)軟件領(lǐng)域是非常困難和昂貴的。科學(xué)軟件通常很復(fù)雜，需要專業(yè)知識才能正確操作，普通人很難提供高質(zhì)量的訓(xùn)練樣本。

研究團(tuán)隊(duì)設(shè)計(jì)了一個巧妙的兩階段訓(xùn)練策略，就像培養(yǎng)一個全能的軟件工程師一樣。第一階段叫做"專業(yè)化"，讓AI分別在不同的軟件上進(jìn)行深度訓(xùn)練，成為各個領(lǐng)域的專家。第二階段叫做"通用化"，將各個專家的經(jīng)驗(yàn)整合起來，培養(yǎng)出一個具有廣泛適應(yīng)能力的通用助手。

在專業(yè)化階段，CODA采用了一種叫做"解耦強(qiáng)化學(xué)習(xí)"的訓(xùn)練方法。這個名字聽起來很復(fù)雜，但原理其實(shí)很直觀。傳統(tǒng)的強(qiáng)化學(xué)習(xí)就像讓一個人同時學(xué)習(xí)開車和修車，往往會相互干擾。解耦強(qiáng)化學(xué)習(xí)則像讓一個人專門學(xué)習(xí)駕駛技術(shù)，而把修車技能交給另一個已經(jīng)很熟練的師傅。

具體來說，CODA在訓(xùn)練時保持"小腦"部分完全不變，只讓"大腦皮層"通過試錯來學(xué)習(xí)。每當(dāng)"大腦皮層"產(chǎn)生一個計(jì)劃時，"小腦"就會忠實(shí)地執(zhí)行，然后系統(tǒng)會評估最終結(jié)果的好壞。如果結(jié)果不理想，"大腦皮層"就會調(diào)整策略；如果結(jié)果很好，就會強(qiáng)化這種思維模式。

這個過程中最關(guān)鍵的是如何評估結(jié)果的好壞。研究團(tuán)隊(duì)開發(fā)了一個智能評判系統(tǒng)，就像一個經(jīng)驗(yàn)豐富的軟件教師一樣。這個評判系統(tǒng)會仔細(xì)觀察整個操作過程的屏幕截圖序列，然后判斷是否正確完成了任務(wù)、是否有多余的操作、在哪一步開始出錯等等。

評判系統(tǒng)的工作原理很有趣。它不僅會看最終結(jié)果，還會分析整個操作過程。比如，如果任務(wù)是"在Celestia軟件中將Julian日期設(shè)置為2400000"，評判系統(tǒng)會檢查AI是否成功打開了時間菜單、是否找到了正確的設(shè)置選項(xiàng)、是否輸入了正確的數(shù)值等等。如果某一步出現(xiàn)錯誤，系統(tǒng)會準(zhǔn)確指出問題所在，并給出改進(jìn)建議。

為了提高評判的準(zhǔn)確性，研究團(tuán)隊(duì)還使用了多種策略。首先是"投票機(jī)制"，讓評判系統(tǒng)多次獨(dú)立評估同一個操作序列，只有當(dāng)所有評估都一致認(rèn)為成功時才算真正成功。其次是"多分辨率輸入"，同時使用高分辨率和低分辨率的屏幕截圖進(jìn)行分析，高分辨率圖像幫助檢查細(xì)節(jié)準(zhǔn)確性，低分辨率圖像幫助把握整體流程。最后是"模型集成"，結(jié)合多個不同的評判模型來提高判斷的可靠性。

在專業(yè)化階段完成后，CODA會在每個軟件上都產(chǎn)生一個專門的專家模型。比如會有一個Celestia專家、一個ChimeraX專家、一個QGIS專家等等。每個專家都對自己負(fù)責(zé)的軟件非常熟悉，知道各種操作的技巧和注意事項(xiàng)。

然后進(jìn)入通用化階段。這個階段的目標(biāo)是培養(yǎng)一個能夠處理所有軟件的通用助手。研究團(tuán)隊(duì)讓各個專家在自己熟悉的軟件上生成大量高質(zhì)量的操作示例，就像讓各行業(yè)的資深專家寫操作手冊一樣。然后使用這些高質(zhì)量的示例來訓(xùn)練一個全新的通用模型。

有趣的是，這個通用模型的表現(xiàn)往往超過了單個專家的平均水平。這說明不同軟件之間確實(shí)存在共同的操作模式和思維方式，當(dāng)AI掌握了這些通用規(guī)律后，就能更好地理解和操作各種軟件。這就像一個熟練的軟件用戶在學(xué)習(xí)新軟件時總是比新手更快上手，因?yàn)樗麄冋莆樟送ㄓ玫慕缑嬖O(shè)計(jì)原理和操作邏輯。

三、自主學(xué)習(xí)的秘密武器：AI如何給自己出題練習(xí)

CODA最令人印象深刻的能力之一是它能夠自主生成新的學(xué)習(xí)任務(wù)。這就像一個勤奮的學(xué)生不僅能完成老師布置的作業(yè)，還會主動給自己出練習(xí)題來鞏固知識。這種能力對于AI在專業(yè)軟件領(lǐng)域的應(yīng)用特別重要，因?yàn)閷I(yè)軟件的使用場景千變?nèi)f化，不可能通過預(yù)先準(zhǔn)備的訓(xùn)練數(shù)據(jù)覆蓋所有情況。

這個自主學(xué)習(xí)系統(tǒng)的核心是一個任務(wù)生成器，使用的是Qwen2.5-72B模型作為"出題老師"。這個出題老師會根據(jù)AI當(dāng)前的學(xué)習(xí)狀態(tài)和表現(xiàn)情況，自動設(shè)計(jì)新的練習(xí)任務(wù)。它就像一個了解學(xué)生水平的私人教師，知道應(yīng)該在什么時候出什么樣的題目。

任務(wù)生成的過程很有趣。出題老師首先會分析AI在之前任務(wù)中的表現(xiàn)，找出薄弱環(huán)節(jié)和需要加強(qiáng)的地方。比如，如果發(fā)現(xiàn)AI在處理ChimeraX軟件的分子碰撞檢測功能時經(jīng)常出錯，出題老師就會專門設(shè)計(jì)更多相關(guān)的練習(xí)題。這些題目不會是簡單的重復(fù)，而是會從不同角度考察同一個知識點(diǎn)，比如"檢測VDW重疊大于0.3A的所有碰撞"、"找出蛋白質(zhì)結(jié)構(gòu)中的潛在沖突區(qū)域"等等。

出題老師在設(shè)計(jì)任務(wù)時遵循幾個重要原則。首先，任務(wù)必須是高層次的目標(biāo)描述，而不是詳細(xì)的操作步驟。比如會說"在QGIS中創(chuàng)建一個顯示人口密度的專題地圖"，而不會說"點(diǎn)擊圖層菜單，然后選擇添加圖層選項(xiàng)"。這樣可以鍛煉AI的規(guī)劃能力而不是死記硬背。

其次，每個任務(wù)都應(yīng)該包含多個操作步驟，通常需要5到20個步驟才能完成。這樣的任務(wù)更接近真實(shí)的軟件使用場景，可以測試AI的長期規(guī)劃和執(zhí)行能力。同時，任務(wù)之間應(yīng)該相互獨(dú)立，避免產(chǎn)生依賴關(guān)系。

第三，新任務(wù)應(yīng)該針對AI之前的錯誤進(jìn)行有針對性的練習(xí)。如果AI在某個操作上反復(fù)出錯，出題老師就會設(shè)計(jì)專門的矯正練習(xí)。這就像數(shù)學(xué)老師發(fā)現(xiàn)學(xué)生總是在分?jǐn)?shù)運(yùn)算上出錯，就會專門出更多分?jǐn)?shù)題目來加強(qiáng)練習(xí)。

為了確保任務(wù)的可執(zhí)行性，出題老師還會考慮當(dāng)前軟件的狀態(tài)。比如，如果當(dāng)前QGIS中沒有加載任何地圖數(shù)據(jù)，就不會出"計(jì)算兩個圖層的交集"這樣的題目。這種上下文感知能力讓生成的任務(wù)更加合理和有效。

整個自主學(xué)習(xí)過程是在一個分布式的虛擬機(jī)系統(tǒng)中進(jìn)行的。研究團(tuán)隊(duì)搭建了一個由15臺服務(wù)器組成的集群，其中13臺配備AMD處理器，2臺配備高性能的Intel i9和RTX 4090顯卡來處理圖形密集的軟件如ChimeraX。每臺服務(wù)器可以同時運(yùn)行4到8個獨(dú)立的虛擬環(huán)境，這樣可以并行執(zhí)行大量的練習(xí)任務(wù)，大大加快了學(xué)習(xí)速度。

這個分布式系統(tǒng)采用了主從架構(gòu)設(shè)計(jì)。主控節(jié)點(diǎn)負(fù)責(zé)任務(wù)分發(fā)和結(jié)果收集，就像一個總調(diào)度員；而客戶端節(jié)點(diǎn)則在獨(dú)立的虛擬機(jī)環(huán)境中執(zhí)行具體的任務(wù)，就像一個個獨(dú)立的實(shí)驗(yàn)室。這種設(shè)計(jì)不僅提高了效率，還增強(qiáng)了系統(tǒng)的穩(wěn)定性和可擴(kuò)展性。

在實(shí)際運(yùn)行過程中，系統(tǒng)會持續(xù)監(jiān)控AI的學(xué)習(xí)進(jìn)度。當(dāng)發(fā)現(xiàn)某個類型的任務(wù)成功率提高到一定水平時，就會逐漸增加任務(wù)難度或者轉(zhuǎn)向其他薄弱環(huán)節(jié)。當(dāng)發(fā)現(xiàn)某個特定操作的成功率下降時，就會增加相關(guān)的練習(xí)頻次。這種動態(tài)調(diào)整機(jī)制確保了學(xué)習(xí)過程的高效性和針對性。

通過這種自主學(xué)習(xí)方法，CODA在四個測試軟件上的表現(xiàn)都得到了顯著提升。更重要的是，它展現(xiàn)出了真正的適應(yīng)能力——當(dāng)面對新的軟件或新的任務(wù)類型時，能夠快速調(diào)整策略并找到有效的解決方案。這種能力讓CODA從一個只能執(zhí)行預(yù)定操作的工具，變成了一個能夠自主學(xué)習(xí)和改進(jìn)的智能助手。

四、實(shí)戰(zhàn)檢驗(yàn)：CODA在復(fù)雜軟件中的精彩表現(xiàn)

理論再完美，也需要實(shí)踐來檢驗(yàn)。研究團(tuán)隊(duì)選擇了四個具有代表性的科學(xué)軟件來測試CODA的實(shí)際能力：天文軟件Celestia、分子建模軟件ChimeraX、地理信息系統(tǒng)QGIS，以及數(shù)學(xué)計(jì)算軟件用于代數(shù)運(yùn)算。這些軟件不僅界面復(fù)雜，而且需要專業(yè)知識才能正確操作，是檢驗(yàn)AI軟件操作能力的絕佳試驗(yàn)場。

測試結(jié)果令人印象深刻。在綜合評估中，CODA的第一階段專家模型平均成功率達(dá)到了14.39%，而基準(zhǔn)模型只有7.57%。這個提升看起來數(shù)字不大，但要知道這些都是非常復(fù)雜的多步驟任務(wù)，每個任務(wù)通常需要10多個準(zhǔn)確的操作才能完成。能夠?qū)⒊晒β蕩缀醴?，已?jīng)是一個巨大的進(jìn)步。

更令人驚喜的是第二階段通用化模型的表現(xiàn)。這個通過整合所有專家知識訓(xùn)練出來的通用助手，平均成功率達(dá)到了21.04%，不僅遠(yuǎn)超基準(zhǔn)模型，甚至超過了單個專家的表現(xiàn)。這證明了不同軟件之間確實(shí)存在可以相互借鑒的通用規(guī)律和技能。

在具體的軟件表現(xiàn)上，CODA在不同領(lǐng)域都展現(xiàn)出了強(qiáng)大的適應(yīng)能力。在天文軟件Celestia中，從最初的10.48%成功率提升到最終的20.16%。這個軟件涉及復(fù)雜的時間設(shè)置、視角控制和天體導(dǎo)航等操作，需要精確的參數(shù)輸入和良好的空間想象能力。

分子建模軟件ChimeraX的提升更加顯著，從13.79%躍升到32.23%。這個軟件用于生物分子的三維可視化和分析，操作包括加載分子結(jié)構(gòu)、調(diào)整顯示樣式、計(jì)算分子間作用力等高度專業(yè)化的功能。CODA能在這個領(lǐng)域取得如此進(jìn)步，說明它真正掌握了分子建模的基本原理和操作邏輯。

地理信息系統(tǒng)QGIS的進(jìn)步最為突出，從僅有1.47%的成功率大幅提升到14.71%。QGIS是處理地理空間數(shù)據(jù)的專業(yè)軟件，涉及地圖制作、空間分析、數(shù)據(jù)可視化等復(fù)雜功能。這個領(lǐng)域的顯著進(jìn)步表明CODA不僅能處理界面操作，還能理解地理空間的概念和邏輯關(guān)系。

代數(shù)運(yùn)算軟件的表現(xiàn)同樣令人滿意，從4.55%提升到17.05%。數(shù)學(xué)計(jì)算軟件需要精確的公式輸入和符號操作，對AI的理解能力和精確性都提出了很高要求。CODA在這個領(lǐng)域的成功說明它不僅能進(jìn)行界面操作，還能理解抽象的數(shù)學(xué)概念。

為了更全面地評估性能，研究團(tuán)隊(duì)還測試了"Pass@8"指標(biāo)，即給AI八次嘗試機(jī)會看能否成功完成任務(wù)。在這個更寬松的評估標(biāo)準(zhǔn)下，CODA的整體成功率達(dá)到了39.96%，相比基準(zhǔn)模型的19.49%有了顯著提升。這表明即使AI在第一次嘗試時失敗，它也有很高的概率在后續(xù)嘗試中找到正確的解決方案。

有趣的是，研究團(tuán)隊(duì)還對比了CODA與其他先進(jìn)AI模型的表現(xiàn)。包括GPT-4o、Claude-3.7-Sonnet、Gemini-2.0-Flash等商業(yè)模型，以及多個開源的專業(yè)GUI操作模型。結(jié)果顯示，雖然某些商業(yè)模型在個別軟件上表現(xiàn)出色，但沒有任何一個模型能在所有軟件上都保持穩(wěn)定的高性能。而CODA作為開源模型，不僅在平均性能上取得了最佳成績，更重要的是展現(xiàn)出了良好的跨領(lǐng)域適應(yīng)能力。

通過具體的操作案例分析，可以更直觀地看到CODA的進(jìn)步。在Celestia軟件的Julian日期設(shè)置任務(wù)中，早期的CODA經(jīng)常會點(diǎn)錯菜單或者輸入錯誤的數(shù)值。但經(jīng)過訓(xùn)練后，它學(xué)會了準(zhǔn)確識別時間菜單的位置，正確處理彈出對話框，甚至能夠應(yīng)對界面上出現(xiàn)的干擾因素如軟件更新提醒等。

在ChimeraX的分子碰撞檢測任務(wù)中，CODA不僅學(xué)會了基本的操作流程，還掌握了參數(shù)設(shè)置的技巧。它知道如何調(diào)整VDW重疊閾值，如何解讀結(jié)果顯示，甚至能夠在檢測到問題時采取相應(yīng)的糾正措施。

這些實(shí)戰(zhàn)表現(xiàn)證明了CODA不僅僅是一個能夠機(jī)械執(zhí)行操作的工具，而是一個真正理解軟件功能和操作邏輯的智能助手。它的成功為AI在專業(yè)軟件領(lǐng)域的應(yīng)用開辟了新的可能性，也為人機(jī)協(xié)作提供了更好的技術(shù)基礎(chǔ)。

五、精益求精的評判系統(tǒng)：讓AI學(xué)會自我反省

在整個CODA系統(tǒng)中，評判系統(tǒng)扮演著至關(guān)重要的角色，就像一位嚴(yán)格而公正的老師，負(fù)責(zé)評估AI的每一次操作嘗試。這個系統(tǒng)的質(zhì)量直接決定了AI能否從錯誤中學(xué)到正確的經(jīng)驗(yàn)，因此研究團(tuán)隊(duì)在這方面投入了大量精力。

傳統(tǒng)的AI訓(xùn)練往往依賴簡單的成功失敗判斷，但這在復(fù)雜軟件操作中是遠(yuǎn)遠(yuǎn)不夠的。一個看似失敗的操作可能包含很多正確的步驟，而一個最終成功的操作也可能存在效率問題或隱藏錯誤。CODA的評判系統(tǒng)就像一個經(jīng)驗(yàn)豐富的軟件測試專家，不僅要看結(jié)果，還要仔細(xì)分析整個過程。

這個評判系統(tǒng)基于Qwen2.5-VL-72B模型構(gòu)建，經(jīng)過專門的微調(diào)訓(xùn)練來提高判斷準(zhǔn)確性。訓(xùn)練數(shù)據(jù)包含了4700多個精心標(biāo)注的操作軌跡樣本，這些樣本來自多個不同的軟件環(huán)境和任務(wù)場景，確保了評判系統(tǒng)的廣泛適用性。

評判過程就像一個詳細(xì)的操作審計(jì)。系統(tǒng)會接收完整的屏幕截圖序列，就像觀看一部操作錄像一樣，然后分析每一個步驟的合理性。它需要回答幾個關(guān)鍵問題：操作是否正確完成了預(yù)定目標(biāo)？是否存在多余或重復(fù)的步驟？如果出現(xiàn)錯誤，第一個錯誤步驟是什么？應(yīng)該如何改正？

為了提高評判的準(zhǔn)確性和可靠性，研究團(tuán)隊(duì)開發(fā)了多種策略。首先是投票機(jī)制。系統(tǒng)不會僅憑一次判斷就下結(jié)論，而是會進(jìn)行多次獨(dú)立評估，每次都使用不同的隨機(jī)參數(shù)設(shè)置。只有當(dāng)多次評估都得出一致結(jié)論時，才認(rèn)為判斷是可信的。這就像法庭上需要多位陪審員一致同意才能做出判決一樣。

其次是多分辨率輸入策略。復(fù)雜軟件的操作軌跡往往包含很多高分辨率的屏幕截圖，直接處理這些圖像不僅計(jì)算量大，而且容易忽略整體流程。因此，系統(tǒng)會同時使用高分辨率和低分辨率的圖像進(jìn)行分析。高分辨率圖像用于檢查細(xì)節(jié)的準(zhǔn)確性，比如鼠標(biāo)是否點(diǎn)擊在正確的按鈕上；低分辨率圖像則用于把握整體的操作流程，比如是否按照合理的順序打開了各個界面。

第三個策略是模型集成。除了主要的判斷模型外，系統(tǒng)還會結(jié)合其他模型的意見來提高決策質(zhì)量。這就像在重要決策時會咨詢多位專家的意見一樣，通過綜合不同模型的判斷來減少單一模型可能存在的偏見或錯誤。

在實(shí)際評估中，這些策略的效果非常明顯。在AgentRewardBench基準(zhǔn)測試中，單一模型的精確度為64.5%，而采用投票機(jī)制后提升到76.1%，加入多分辨率輸入后進(jìn)一步提升到78.9%，最終的集成模型達(dá)到了81.2%的精確度。在更接近實(shí)際應(yīng)用的ScienceBoard測試中，改進(jìn)更加顯著，從最初的41.5%精確度大幅提升到最終的69.5%。

評判系統(tǒng)的工作細(xì)節(jié)很有意思。當(dāng)分析一個操作序列時，它會生成詳細(xì)的分步驟說明，就像一份操作報(bào)告。比如在分析Celestia軟件的時間設(shè)置任務(wù)時，系統(tǒng)會注意到"第一步：用戶點(diǎn)擊了導(dǎo)航菜單而不是時間菜單，這是一個錯誤"，"第二步：用戶意識到錯誤并點(diǎn)擊了正確的時間菜單，這是一個合理的糾正"，"第三步：彈出的軟件更新提醒干擾了操作，用戶正確地關(guān)閉了這個干擾窗口"等等。

這種詳細(xì)的分析不僅幫助AI理解錯誤的具體原因，還能學(xué)習(xí)如何處理各種意外情況。比如學(xué)會在操作過程中如何應(yīng)對彈出窗口的干擾，如何從錯誤中快速恢復(fù)，如何識別和跳過無關(guān)的界面元素等等。

評判系統(tǒng)還具有一定的容錯能力。它理解軟件操作中的多樣性和靈活性，不會因?yàn)椴僮鞣绞脚c標(biāo)準(zhǔn)答案略有不同就判定為錯誤。比如，在完成同一個任務(wù)時，有些用戶喜歡使用快捷鍵，有些用戶喜歡使用菜單，評判系統(tǒng)會認(rèn)識到這些只是風(fēng)格差異而不是對錯問題。

通過這個精密的評判系統(tǒng)，CODA能夠獲得高質(zhì)量的反饋信號，從而在訓(xùn)練過程中不斷改進(jìn)自己的操作策略。這種自我反省和持續(xù)改進(jìn)的能力，讓CODA從一個簡單的操作工具進(jìn)化成了一個真正智能的軟件助手。

說到底，CODA這項(xiàng)研究為我們展示了AI發(fā)展的一個新方向。與其讓AI樣樣都學(xué)、樣樣通但樣樣松，不如讓它像人類大腦一樣進(jìn)行專業(yè)分工，讓擅長規(guī)劃的部分負(fù)責(zé)思考，讓擅長執(zhí)行的部分負(fù)責(zé)動作。這種"術(shù)業(yè)有專攻"的設(shè)計(jì)理念不僅提高了效率，更重要的是讓AI具備了真正的學(xué)習(xí)和適應(yīng)能力。

現(xiàn)在的CODA雖然還不完美，在某些復(fù)雜任務(wù)上的成功率仍有待提高，但它已經(jīng)證明了這個方向的可行性。更令人期待的是，這種分工協(xié)作的框架具有很好的可擴(kuò)展性。未來我們可以想象，不同的AI模塊負(fù)責(zé)不同的專業(yè)領(lǐng)域，比如一個專門負(fù)責(zé)圖像處理軟件的"視覺專家"，一個專門負(fù)責(zé)數(shù)據(jù)分析軟件的"統(tǒng)計(jì)專家"，還有一個負(fù)責(zé)協(xié)調(diào)所有專家工作的"總指揮"。

這項(xiàng)研究的意義遠(yuǎn)不止于讓AI學(xué)會操作軟件。它為人機(jī)協(xié)作開辟了新的可能性。我們可以想象，在不久的將來，當(dāng)你面對一個復(fù)雜的專業(yè)軟件時，不再需要花費(fèi)大量時間學(xué)習(xí)各種功能和操作技巧，而是可以直接告訴AI助手你想要達(dá)成的目標(biāo)，然后它會像一個經(jīng)驗(yàn)豐富的同事一樣幫你完成所有繁瑣的操作步驟。

對于科研工作者來說，這意味著可以把更多精力集中在創(chuàng)意和分析上，而不是糾結(jié)于軟件操作的細(xì)節(jié)。對于普通用戶來說，這意味著復(fù)雜的專業(yè)軟件將變得更加易用和親民。對于軟件開發(fā)者來說，這也提供了一個全新的思路——也許未來的軟件界面設(shè)計(jì)不僅要考慮人類用戶，也要考慮AI助手的需求。

當(dāng)然，這個領(lǐng)域還有很多挑戰(zhàn)需要解決。比如如何讓AI更好地理解人類的意圖，如何處理更加動態(tài)和不可預(yù)測的軟件環(huán)境，如何確保AI操作的安全性和可控性等等。但CODA的成功已經(jīng)為這些挑戰(zhàn)的解決提供了一個堅(jiān)實(shí)的起點(diǎn)。

歸根結(jié)底，CODA不僅僅是一個技術(shù)創(chuàng)新，更是對人工智能發(fā)展道路的深入思考。它告訴我們，真正的智能不是要做一個萬能的超人，而是要學(xué)會像人類一樣進(jìn)行合理的分工協(xié)作，充分發(fā)揮每個組件的專長，并且具備持續(xù)學(xué)習(xí)和自我改進(jìn)的能力。這個理念不僅適用于軟件操作，也為AI在其他領(lǐng)域的應(yīng)用提供了有價值的啟發(fā)。

Q&A

Q1：CODA是什么？它和普通的AI助手有什么不同？

A：CODA是由上海AI實(shí)驗(yàn)室等機(jī)構(gòu)開發(fā)的AI系統(tǒng)，專門用來操作復(fù)雜的專業(yè)軟件。它最大的特點(diǎn)是模仿人類大腦的分工方式，分為負(fù)責(zé)規(guī)劃的"大腦皮層"和負(fù)責(zé)執(zhí)行的"小腦"兩個部分。不像普通AI助手只能處理簡單對話，CODA能夠理解屏幕界面，制定操作計(jì)劃，并精確執(zhí)行鼠標(biāo)點(diǎn)擊等復(fù)雜操作。

Q2：CODA能操作哪些軟件？普通人能使用嗎？

A：目前CODA主要在四個科學(xué)軟件上進(jìn)行了測試：天文軟件Celestia、分子建模軟件ChimeraX、地理信息系統(tǒng)QGIS和數(shù)學(xué)計(jì)算軟件。研究團(tuán)隊(duì)已經(jīng)開源了代碼和模型，技術(shù)人員可以通過GitHub獲取。不過現(xiàn)在還處于研究階段，普通用戶暫時無法直接使用，需要等待進(jìn)一步的產(chǎn)品化開發(fā)。

Q3：CODA的成功率有多高？能完全替代人工操作嗎？

A：CODA在復(fù)雜的多步驟任務(wù)中平均成功率約為21%，雖然聽起來不高，但要知道這些任務(wù)通常需要10多個精確操作才能完成。目前還不能完全替代人工，更適合作為輔助工具使用。不過它具備學(xué)習(xí)能力，隨著訓(xùn)練數(shù)據(jù)的增加和算法的改進(jìn)，成功率會繼續(xù)提升。

人工智能GUI操作強(qiáng)化學(xué)習(xí)

分享至

0贊

好文章，需要你的鼓勵

推薦文章

音頻生成
大語言模型
多模態(tài)AI

2025-09-10 09:47

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng)，首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù)，通過交錯式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練，能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異，為AI音頻創(chuàng)作開辟新方向。
視頻生成
深度學(xué)習(xí)
多模態(tài)學(xué)習(xí)

2025-09-09 13:57

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù)，通過讓AI同時學(xué)習(xí)外觀和運(yùn)動信息，顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運(yùn)動質(zhì)量，在多項(xiàng)測試中超越包括Sora在內(nèi)的商業(yè)模型，為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
多模態(tài)AI
人類價值觀對齊
數(shù)據(jù)集構(gòu)建

2025-09-09 13:56

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價值觀對齊難題

上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究，首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn)，通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法，讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平，為AI價值觀對齊提供了可行技術(shù)路徑。
人工智能
圖神經(jīng)網(wǎng)絡(luò)
天氣預(yù)報(bào)

2025-09-09 10:56

谷歌研究團(tuán)隊(duì)發(fā)布超級預(yù)測模型：讓AI像天氣預(yù)報(bào)員一樣預(yù)測全球大氣變化

谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型，能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào)，準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù)，通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律，在極端天氣預(yù)測方面表現(xiàn)卓越，能耗僅為傳統(tǒng)方法的千分之一，為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

2025-09-10 09:47

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

2025-09-09 13:57

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價值觀對齊難題

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價值觀對齊難題

2025-09-09 13:56

谷歌研究團(tuán)隊(duì)發(fā)布超級預(yù)測模型：讓AI像天氣預(yù)報(bào)員一樣預(yù)測全球大氣變化

谷歌研究團(tuán)隊(duì)發(fā)布超級預(yù)測模型：讓AI像天氣預(yù)報(bào)員一樣預(yù)測全球大氣變化

2025-09-09 10:56

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時代

京ICP證15039648號京ICP備15039648號-9 京公網(wǎng)安備 11010802021500號

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報(bào)電話：010-62641205　涉未成年人舉報(bào)專線：010-62641208 舉報(bào)郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報(bào)專區(qū)：https://www.12377.cn

<blockquote id="ewvp3"><ul id="ewvp3"></ul></blockquote>

<u id="ewvp3"><optgroup id="ewvp3"></optgroup></u>