av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁 AI智能助手終于學(xué)會像人類一樣操作電腦軟件:上海AI實(shí)驗(yàn)室團(tuán)隊(duì)打造大腦分工新模式

AI智能助手終于學(xué)會像人類一樣操作電腦軟件:上海AI實(shí)驗(yàn)室團(tuán)隊(duì)打造大腦分工新模式

2025-09-04 09:56
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-09-04 09:56 ? 科技行者

當(dāng)你打開一個復(fù)雜的科學(xué)軟件,比如天文觀測軟件Celestia或者分子建模軟件ChimeraX時,是否曾經(jīng)被滿屏的按鈕、菜單和選項(xiàng)搞得頭暈眼花?更別說讓一個AI助手來幫你完成這些復(fù)雜的操作了。但是現(xiàn)在,這個看似不可能的任務(wù)有了突破性進(jìn)展。

這項(xiàng)由上海交通大學(xué)、上海AI實(shí)驗(yàn)室、香港中文大學(xué)和香港大學(xué)聯(lián)合完成的研究,發(fā)表在2025年8月的arXiv預(yù)印本平臺上,論文編號為arXiv:2508.20096v1。有興趣深入了解的讀者可以通過https://github.com/OpenIXCLab/CODA訪問完整的代碼和模型。研究團(tuán)隊(duì)的成員包括孫澤逸、曹宇航、梁健澤等多位學(xué)者,他們共同開發(fā)了一個名為CODA的AI系統(tǒng)。

這個系統(tǒng)最有趣的地方在于,它模仿了人類大腦的工作方式——就像我們大腦中的大腦皮層負(fù)責(zé)高級思考,而小腦負(fù)責(zé)精確的動作控制一樣。CODA也分為兩個部分:一個"大腦皮層"負(fù)責(zé)制定計(jì)劃,另一個"小腦"負(fù)責(zé)執(zhí)行具體的鼠標(biāo)點(diǎn)擊和鍵盤操作。這種分工合作的方式讓AI在操作復(fù)雜軟件時變得更加聰明和可靠。

傳統(tǒng)的AI助手在面對專業(yè)軟件時往往會遇到兩難境地:要么擅長制定宏觀策略但在具體操作時手忙腳亂,要么能精確執(zhí)行單個動作但缺乏全局規(guī)劃能力。就像一個人要么只會畫建筑藍(lán)圖卻不會砌墻,要么只會砌墻卻不知道房子應(yīng)該建成什么樣子。CODA的創(chuàng)新之處就是讓這兩種能力完美結(jié)合,通過專門的訓(xùn)練方法讓AI的"規(guī)劃大腦"變得越來越聰明,同時保持"執(zhí)行小腦"的穩(wěn)定可靠。

更令人驚喜的是,這個系統(tǒng)還能通過經(jīng)驗(yàn)自主學(xué)習(xí)和改進(jìn)。它會自動生成新的任務(wù)來挑戰(zhàn)自己,就像一個勤奮的學(xué)生不斷給自己出練習(xí)題一樣。當(dāng)它在某個軟件上犯錯時,系統(tǒng)會分析錯誤原因,然后生成更多相關(guān)的練習(xí)來彌補(bǔ)短板。這種自我完善的能力讓CODA在四個不同的科學(xué)軟件上都取得了顯著的性能提升,成為目前開源模型中的佼佼者。

一、從手忙腳亂到游刃有余:AI操作軟件的新思路

當(dāng)我們第一次使用Photoshop或者Excel這樣的復(fù)雜軟件時,往往會感到無從下手。即使知道要完成什么任務(wù),也不知道該點(diǎn)哪個按鈕,該從哪個菜單開始。對于AI來說,這個挑戰(zhàn)更加艱巨,因?yàn)樗粌H要理解任務(wù)目標(biāo),還要準(zhǔn)確識別屏幕上密密麻麻的界面元素,并且精確地進(jìn)行鼠標(biāo)點(diǎn)擊和鍵盤輸入。

以往的AI助手通常采用"一人包攬"的方式來解決這個問題,就像讓一個人既當(dāng)總指揮又當(dāng)具體執(zhí)行者。這種方式的問題很明顯:當(dāng)AI忙著思考大策略時,手上的動作就容易出錯;當(dāng)它專注于精確操作時,又容易丟掉大局觀。結(jié)果就是要么計(jì)劃很完美但執(zhí)行一塌糊涂,要么動作很精準(zhǔn)但不知道在干什么。

研究團(tuán)隊(duì)敏銳地觀察到,人類大腦其實(shí)有著精妙的分工機(jī)制。我們的大腦皮層負(fù)責(zé)高級認(rèn)知功能,比如理解任務(wù)目標(biāo)、制定行動計(jì)劃、分析當(dāng)前情況等;而小腦則專門負(fù)責(zé)運(yùn)動控制,比如精確的手眼協(xié)調(diào)、肌肉記憶等。更重要的是,這兩個部分有著不同的學(xué)習(xí)特點(diǎn):大腦皮層需要不斷學(xué)習(xí)新知識和適應(yīng)新情況,而小腦一旦掌握了基本技能就相對穩(wěn)定,不需要頻繁更新。

基于這個觀察,CODA采用了全新的設(shè)計(jì)思路。它的"大腦皮層"部分使用的是Qwen2.5-VL模型,這是一個擅長理解圖像和文字的大型AI模型,負(fù)責(zé)觀察屏幕截圖、理解任務(wù)要求、分析當(dāng)前情況并制定下一步計(jì)劃。它會生成類似"現(xiàn)在需要點(diǎn)擊文件菜單打開設(shè)置對話框"這樣的高層次思考。

而"小腦"部分則使用UI-TARS-1.5模型,這是一個專門訓(xùn)練用來執(zhí)行GUI操作的模型。它接收來自"大腦皮層"的指令,然后將其轉(zhuǎn)換為具體的操作代碼,比如"pyautogui.click(x=758, y=427)"這樣的精確鼠標(biāo)點(diǎn)擊命令。這個"小腦"就像一個經(jīng)驗(yàn)豐富的操作員,知道如何準(zhǔn)確地在屏幕上找到目標(biāo)并執(zhí)行動作。

這種分工帶來了顯著的好處。首先,每個組件都能專注于自己最擅長的任務(wù),避免了"樣樣通樣樣松"的問題。其次,當(dāng)需要適應(yīng)新軟件時,只需要訓(xùn)練"大腦皮層"學(xué)習(xí)新的規(guī)劃策略,而"小腦"的基礎(chǔ)操作技能可以保持不變,大大提高了訓(xùn)練效率。最后,這種架構(gòu)更容易進(jìn)行針對性的改進(jìn)和調(diào)試。

實(shí)驗(yàn)結(jié)果證明了這種設(shè)計(jì)的有效性。在四個不同的科學(xué)軟件測試中,CODA的表現(xiàn)都遠(yuǎn)超傳統(tǒng)的單一模型方法。更重要的是,它的成功率隨著經(jīng)驗(yàn)的積累而不斷提升,展現(xiàn)出了真正的學(xué)習(xí)能力。

二、從新手到專家:AI如何通過實(shí)戰(zhàn)磨練技能

就像人類學(xué)習(xí)使用新軟件一樣,CODA也需要經(jīng)歷從生疏到熟練的過程。但是,傳統(tǒng)的AI訓(xùn)練方法需要大量的人工標(biāo)注數(shù)據(jù),這在專業(yè)軟件領(lǐng)域是非常困難和昂貴的。科學(xué)軟件通常很復(fù)雜,需要專業(yè)知識才能正確操作,普通人很難提供高質(zhì)量的訓(xùn)練樣本。

研究團(tuán)隊(duì)設(shè)計(jì)了一個巧妙的兩階段訓(xùn)練策略,就像培養(yǎng)一個全能的軟件工程師一樣。第一階段叫做"專業(yè)化",讓AI分別在不同的軟件上進(jìn)行深度訓(xùn)練,成為各個領(lǐng)域的專家。第二階段叫做"通用化",將各個專家的經(jīng)驗(yàn)整合起來,培養(yǎng)出一個具有廣泛適應(yīng)能力的通用助手。

在專業(yè)化階段,CODA采用了一種叫做"解耦強(qiáng)化學(xué)習(xí)"的訓(xùn)練方法。這個名字聽起來很復(fù)雜,但原理其實(shí)很直觀。傳統(tǒng)的強(qiáng)化學(xué)習(xí)就像讓一個人同時學(xué)習(xí)開車和修車,往往會相互干擾。解耦強(qiáng)化學(xué)習(xí)則像讓一個人專門學(xué)習(xí)駕駛技術(shù),而把修車技能交給另一個已經(jīng)很熟練的師傅。

具體來說,CODA在訓(xùn)練時保持"小腦"部分完全不變,只讓"大腦皮層"通過試錯來學(xué)習(xí)。每當(dāng)"大腦皮層"產(chǎn)生一個計(jì)劃時,"小腦"就會忠實(shí)地執(zhí)行,然后系統(tǒng)會評估最終結(jié)果的好壞。如果結(jié)果不理想,"大腦皮層"就會調(diào)整策略;如果結(jié)果很好,就會強(qiáng)化這種思維模式。

這個過程中最關(guān)鍵的是如何評估結(jié)果的好壞。研究團(tuán)隊(duì)開發(fā)了一個智能評判系統(tǒng),就像一個經(jīng)驗(yàn)豐富的軟件教師一樣。這個評判系統(tǒng)會仔細(xì)觀察整個操作過程的屏幕截圖序列,然后判斷是否正確完成了任務(wù)、是否有多余的操作、在哪一步開始出錯等等。

評判系統(tǒng)的工作原理很有趣。它不僅會看最終結(jié)果,還會分析整個操作過程。比如,如果任務(wù)是"在Celestia軟件中將Julian日期設(shè)置為2400000",評判系統(tǒng)會檢查AI是否成功打開了時間菜單、是否找到了正確的設(shè)置選項(xiàng)、是否輸入了正確的數(shù)值等等。如果某一步出現(xiàn)錯誤,系統(tǒng)會準(zhǔn)確指出問題所在,并給出改進(jìn)建議。

為了提高評判的準(zhǔn)確性,研究團(tuán)隊(duì)還使用了多種策略。首先是"投票機(jī)制",讓評判系統(tǒng)多次獨(dú)立評估同一個操作序列,只有當(dāng)所有評估都一致認(rèn)為成功時才算真正成功。其次是"多分辨率輸入",同時使用高分辨率和低分辨率的屏幕截圖進(jìn)行分析,高分辨率圖像幫助檢查細(xì)節(jié)準(zhǔn)確性,低分辨率圖像幫助把握整體流程。最后是"模型集成",結(jié)合多個不同的評判模型來提高判斷的可靠性。

在專業(yè)化階段完成后,CODA會在每個軟件上都產(chǎn)生一個專門的專家模型。比如會有一個Celestia專家、一個ChimeraX專家、一個QGIS專家等等。每個專家都對自己負(fù)責(zé)的軟件非常熟悉,知道各種操作的技巧和注意事項(xiàng)。

然后進(jìn)入通用化階段。這個階段的目標(biāo)是培養(yǎng)一個能夠處理所有軟件的通用助手。研究團(tuán)隊(duì)讓各個專家在自己熟悉的軟件上生成大量高質(zhì)量的操作示例,就像讓各行業(yè)的資深專家寫操作手冊一樣。然后使用這些高質(zhì)量的示例來訓(xùn)練一個全新的通用模型。

有趣的是,這個通用模型的表現(xiàn)往往超過了單個專家的平均水平。這說明不同軟件之間確實(shí)存在共同的操作模式和思維方式,當(dāng)AI掌握了這些通用規(guī)律后,就能更好地理解和操作各種軟件。這就像一個熟練的軟件用戶在學(xué)習(xí)新軟件時總是比新手更快上手,因?yàn)樗麄冋莆樟送ㄓ玫慕缑嬖O(shè)計(jì)原理和操作邏輯。

三、自主學(xué)習(xí)的秘密武器:AI如何給自己出題練習(xí)

CODA最令人印象深刻的能力之一是它能夠自主生成新的學(xué)習(xí)任務(wù)。這就像一個勤奮的學(xué)生不僅能完成老師布置的作業(yè),還會主動給自己出練習(xí)題來鞏固知識。這種能力對于AI在專業(yè)軟件領(lǐng)域的應(yīng)用特別重要,因?yàn)閷I(yè)軟件的使用場景千變?nèi)f化,不可能通過預(yù)先準(zhǔn)備的訓(xùn)練數(shù)據(jù)覆蓋所有情況。

這個自主學(xué)習(xí)系統(tǒng)的核心是一個任務(wù)生成器,使用的是Qwen2.5-72B模型作為"出題老師"。這個出題老師會根據(jù)AI當(dāng)前的學(xué)習(xí)狀態(tài)和表現(xiàn)情況,自動設(shè)計(jì)新的練習(xí)任務(wù)。它就像一個了解學(xué)生水平的私人教師,知道應(yīng)該在什么時候出什么樣的題目。

任務(wù)生成的過程很有趣。出題老師首先會分析AI在之前任務(wù)中的表現(xiàn),找出薄弱環(huán)節(jié)和需要加強(qiáng)的地方。比如,如果發(fā)現(xiàn)AI在處理ChimeraX軟件的分子碰撞檢測功能時經(jīng)常出錯,出題老師就會專門設(shè)計(jì)更多相關(guān)的練習(xí)題。這些題目不會是簡單的重復(fù),而是會從不同角度考察同一個知識點(diǎn),比如"檢測VDW重疊大于0.3A的所有碰撞"、"找出蛋白質(zhì)結(jié)構(gòu)中的潛在沖突區(qū)域"等等。

出題老師在設(shè)計(jì)任務(wù)時遵循幾個重要原則。首先,任務(wù)必須是高層次的目標(biāo)描述,而不是詳細(xì)的操作步驟。比如會說"在QGIS中創(chuàng)建一個顯示人口密度的專題地圖",而不會說"點(diǎn)擊圖層菜單,然后選擇添加圖層選項(xiàng)"。這樣可以鍛煉AI的規(guī)劃能力而不是死記硬背。

其次,每個任務(wù)都應(yīng)該包含多個操作步驟,通常需要5到20個步驟才能完成。這樣的任務(wù)更接近真實(shí)的軟件使用場景,可以測試AI的長期規(guī)劃和執(zhí)行能力。同時,任務(wù)之間應(yīng)該相互獨(dú)立,避免產(chǎn)生依賴關(guān)系。

第三,新任務(wù)應(yīng)該針對AI之前的錯誤進(jìn)行有針對性的練習(xí)。如果AI在某個操作上反復(fù)出錯,出題老師就會設(shè)計(jì)專門的矯正練習(xí)。這就像數(shù)學(xué)老師發(fā)現(xiàn)學(xué)生總是在分?jǐn)?shù)運(yùn)算上出錯,就會專門出更多分?jǐn)?shù)題目來加強(qiáng)練習(xí)。

為了確保任務(wù)的可執(zhí)行性,出題老師還會考慮當(dāng)前軟件的狀態(tài)。比如,如果當(dāng)前QGIS中沒有加載任何地圖數(shù)據(jù),就不會出"計(jì)算兩個圖層的交集"這樣的題目。這種上下文感知能力讓生成的任務(wù)更加合理和有效。

整個自主學(xué)習(xí)過程是在一個分布式的虛擬機(jī)系統(tǒng)中進(jìn)行的。研究團(tuán)隊(duì)搭建了一個由15臺服務(wù)器組成的集群,其中13臺配備AMD處理器,2臺配備高性能的Intel i9和RTX 4090顯卡來處理圖形密集的軟件如ChimeraX。每臺服務(wù)器可以同時運(yùn)行4到8個獨(dú)立的虛擬環(huán)境,這樣可以并行執(zhí)行大量的練習(xí)任務(wù),大大加快了學(xué)習(xí)速度。

這個分布式系統(tǒng)采用了主從架構(gòu)設(shè)計(jì)。主控節(jié)點(diǎn)負(fù)責(zé)任務(wù)分發(fā)和結(jié)果收集,就像一個總調(diào)度員;而客戶端節(jié)點(diǎn)則在獨(dú)立的虛擬機(jī)環(huán)境中執(zhí)行具體的任務(wù),就像一個個獨(dú)立的實(shí)驗(yàn)室。這種設(shè)計(jì)不僅提高了效率,還增強(qiáng)了系統(tǒng)的穩(wěn)定性和可擴(kuò)展性。

在實(shí)際運(yùn)行過程中,系統(tǒng)會持續(xù)監(jiān)控AI的學(xué)習(xí)進(jìn)度。當(dāng)發(fā)現(xiàn)某個類型的任務(wù)成功率提高到一定水平時,就會逐漸增加任務(wù)難度或者轉(zhuǎn)向其他薄弱環(huán)節(jié)。當(dāng)發(fā)現(xiàn)某個特定操作的成功率下降時,就會增加相關(guān)的練習(xí)頻次。這種動態(tài)調(diào)整機(jī)制確保了學(xué)習(xí)過程的高效性和針對性。

通過這種自主學(xué)習(xí)方法,CODA在四個測試軟件上的表現(xiàn)都得到了顯著提升。更重要的是,它展現(xiàn)出了真正的適應(yīng)能力——當(dāng)面對新的軟件或新的任務(wù)類型時,能夠快速調(diào)整策略并找到有效的解決方案。這種能力讓CODA從一個只能執(zhí)行預(yù)定操作的工具,變成了一個能夠自主學(xué)習(xí)和改進(jìn)的智能助手。

四、實(shí)戰(zhàn)檢驗(yàn):CODA在復(fù)雜軟件中的精彩表現(xiàn)

理論再完美,也需要實(shí)踐來檢驗(yàn)。研究團(tuán)隊(duì)選擇了四個具有代表性的科學(xué)軟件來測試CODA的實(shí)際能力:天文軟件Celestia、分子建模軟件ChimeraX、地理信息系統(tǒng)QGIS,以及數(shù)學(xué)計(jì)算軟件用于代數(shù)運(yùn)算。這些軟件不僅界面復(fù)雜,而且需要專業(yè)知識才能正確操作,是檢驗(yàn)AI軟件操作能力的絕佳試驗(yàn)場。

測試結(jié)果令人印象深刻。在綜合評估中,CODA的第一階段專家模型平均成功率達(dá)到了14.39%,而基準(zhǔn)模型只有7.57%。這個提升看起來數(shù)字不大,但要知道這些都是非常復(fù)雜的多步驟任務(wù),每個任務(wù)通常需要10多個準(zhǔn)確的操作才能完成。能夠?qū)⒊晒β蕩缀醴?,已?jīng)是一個巨大的進(jìn)步。

更令人驚喜的是第二階段通用化模型的表現(xiàn)。這個通過整合所有專家知識訓(xùn)練出來的通用助手,平均成功率達(dá)到了21.04%,不僅遠(yuǎn)超基準(zhǔn)模型,甚至超過了單個專家的表現(xiàn)。這證明了不同軟件之間確實(shí)存在可以相互借鑒的通用規(guī)律和技能。

在具體的軟件表現(xiàn)上,CODA在不同領(lǐng)域都展現(xiàn)出了強(qiáng)大的適應(yīng)能力。在天文軟件Celestia中,從最初的10.48%成功率提升到最終的20.16%。這個軟件涉及復(fù)雜的時間設(shè)置、視角控制和天體導(dǎo)航等操作,需要精確的參數(shù)輸入和良好的空間想象能力。

分子建模軟件ChimeraX的提升更加顯著,從13.79%躍升到32.23%。這個軟件用于生物分子的三維可視化和分析,操作包括加載分子結(jié)構(gòu)、調(diào)整顯示樣式、計(jì)算分子間作用力等高度專業(yè)化的功能。CODA能在這個領(lǐng)域取得如此進(jìn)步,說明它真正掌握了分子建模的基本原理和操作邏輯。

地理信息系統(tǒng)QGIS的進(jìn)步最為突出,從僅有1.47%的成功率大幅提升到14.71%。QGIS是處理地理空間數(shù)據(jù)的專業(yè)軟件,涉及地圖制作、空間分析、數(shù)據(jù)可視化等復(fù)雜功能。這個領(lǐng)域的顯著進(jìn)步表明CODA不僅能處理界面操作,還能理解地理空間的概念和邏輯關(guān)系。

代數(shù)運(yùn)算軟件的表現(xiàn)同樣令人滿意,從4.55%提升到17.05%。數(shù)學(xué)計(jì)算軟件需要精確的公式輸入和符號操作,對AI的理解能力和精確性都提出了很高要求。CODA在這個領(lǐng)域的成功說明它不僅能進(jìn)行界面操作,還能理解抽象的數(shù)學(xué)概念。

為了更全面地評估性能,研究團(tuán)隊(duì)還測試了"Pass@8"指標(biāo),即給AI八次嘗試機(jī)會看能否成功完成任務(wù)。在這個更寬松的評估標(biāo)準(zhǔn)下,CODA的整體成功率達(dá)到了39.96%,相比基準(zhǔn)模型的19.49%有了顯著提升。這表明即使AI在第一次嘗試時失敗,它也有很高的概率在后續(xù)嘗試中找到正確的解決方案。

有趣的是,研究團(tuán)隊(duì)還對比了CODA與其他先進(jìn)AI模型的表現(xiàn)。包括GPT-4o、Claude-3.7-Sonnet、Gemini-2.0-Flash等商業(yè)模型,以及多個開源的專業(yè)GUI操作模型。結(jié)果顯示,雖然某些商業(yè)模型在個別軟件上表現(xiàn)出色,但沒有任何一個模型能在所有軟件上都保持穩(wěn)定的高性能。而CODA作為開源模型,不僅在平均性能上取得了最佳成績,更重要的是展現(xiàn)出了良好的跨領(lǐng)域適應(yīng)能力。

通過具體的操作案例分析,可以更直觀地看到CODA的進(jìn)步。在Celestia軟件的Julian日期設(shè)置任務(wù)中,早期的CODA經(jīng)常會點(diǎn)錯菜單或者輸入錯誤的數(shù)值。但經(jīng)過訓(xùn)練后,它學(xué)會了準(zhǔn)確識別時間菜單的位置,正確處理彈出對話框,甚至能夠應(yīng)對界面上出現(xiàn)的干擾因素如軟件更新提醒等。

在ChimeraX的分子碰撞檢測任務(wù)中,CODA不僅學(xué)會了基本的操作流程,還掌握了參數(shù)設(shè)置的技巧。它知道如何調(diào)整VDW重疊閾值,如何解讀結(jié)果顯示,甚至能夠在檢測到問題時采取相應(yīng)的糾正措施。

這些實(shí)戰(zhàn)表現(xiàn)證明了CODA不僅僅是一個能夠機(jī)械執(zhí)行操作的工具,而是一個真正理解軟件功能和操作邏輯的智能助手。它的成功為AI在專業(yè)軟件領(lǐng)域的應(yīng)用開辟了新的可能性,也為人機(jī)協(xié)作提供了更好的技術(shù)基礎(chǔ)。

五、精益求精的評判系統(tǒng):讓AI學(xué)會自我反省

在整個CODA系統(tǒng)中,評判系統(tǒng)扮演著至關(guān)重要的角色,就像一位嚴(yán)格而公正的老師,負(fù)責(zé)評估AI的每一次操作嘗試。這個系統(tǒng)的質(zhì)量直接決定了AI能否從錯誤中學(xué)到正確的經(jīng)驗(yàn),因此研究團(tuán)隊(duì)在這方面投入了大量精力。

傳統(tǒng)的AI訓(xùn)練往往依賴簡單的成功失敗判斷,但這在復(fù)雜軟件操作中是遠(yuǎn)遠(yuǎn)不夠的。一個看似失敗的操作可能包含很多正確的步驟,而一個最終成功的操作也可能存在效率問題或隱藏錯誤。CODA的評判系統(tǒng)就像一個經(jīng)驗(yàn)豐富的軟件測試專家,不僅要看結(jié)果,還要仔細(xì)分析整個過程。

這個評判系統(tǒng)基于Qwen2.5-VL-72B模型構(gòu)建,經(jīng)過專門的微調(diào)訓(xùn)練來提高判斷準(zhǔn)確性。訓(xùn)練數(shù)據(jù)包含了4700多個精心標(biāo)注的操作軌跡樣本,這些樣本來自多個不同的軟件環(huán)境和任務(wù)場景,確保了評判系統(tǒng)的廣泛適用性。

評判過程就像一個詳細(xì)的操作審計(jì)。系統(tǒng)會接收完整的屏幕截圖序列,就像觀看一部操作錄像一樣,然后分析每一個步驟的合理性。它需要回答幾個關(guān)鍵問題:操作是否正確完成了預(yù)定目標(biāo)?是否存在多余或重復(fù)的步驟?如果出現(xiàn)錯誤,第一個錯誤步驟是什么?應(yīng)該如何改正?

為了提高評判的準(zhǔn)確性和可靠性,研究團(tuán)隊(duì)開發(fā)了多種策略。首先是投票機(jī)制。系統(tǒng)不會僅憑一次判斷就下結(jié)論,而是會進(jìn)行多次獨(dú)立評估,每次都使用不同的隨機(jī)參數(shù)設(shè)置。只有當(dāng)多次評估都得出一致結(jié)論時,才認(rèn)為判斷是可信的。這就像法庭上需要多位陪審員一致同意才能做出判決一樣。

其次是多分辨率輸入策略。復(fù)雜軟件的操作軌跡往往包含很多高分辨率的屏幕截圖,直接處理這些圖像不僅計(jì)算量大,而且容易忽略整體流程。因此,系統(tǒng)會同時使用高分辨率和低分辨率的圖像進(jìn)行分析。高分辨率圖像用于檢查細(xì)節(jié)的準(zhǔn)確性,比如鼠標(biāo)是否點(diǎn)擊在正確的按鈕上;低分辨率圖像則用于把握整體的操作流程,比如是否按照合理的順序打開了各個界面。

第三個策略是模型集成。除了主要的判斷模型外,系統(tǒng)還會結(jié)合其他模型的意見來提高決策質(zhì)量。這就像在重要決策時會咨詢多位專家的意見一樣,通過綜合不同模型的判斷來減少單一模型可能存在的偏見或錯誤。

在實(shí)際評估中,這些策略的效果非常明顯。在AgentRewardBench基準(zhǔn)測試中,單一模型的精確度為64.5%,而采用投票機(jī)制后提升到76.1%,加入多分辨率輸入后進(jìn)一步提升到78.9%,最終的集成模型達(dá)到了81.2%的精確度。在更接近實(shí)際應(yīng)用的ScienceBoard測試中,改進(jìn)更加顯著,從最初的41.5%精確度大幅提升到最終的69.5%。

評判系統(tǒng)的工作細(xì)節(jié)很有意思。當(dāng)分析一個操作序列時,它會生成詳細(xì)的分步驟說明,就像一份操作報(bào)告。比如在分析Celestia軟件的時間設(shè)置任務(wù)時,系統(tǒng)會注意到"第一步:用戶點(diǎn)擊了導(dǎo)航菜單而不是時間菜單,這是一個錯誤","第二步:用戶意識到錯誤并點(diǎn)擊了正確的時間菜單,這是一個合理的糾正","第三步:彈出的軟件更新提醒干擾了操作,用戶正確地關(guān)閉了這個干擾窗口"等等。

這種詳細(xì)的分析不僅幫助AI理解錯誤的具體原因,還能學(xué)習(xí)如何處理各種意外情況。比如學(xué)會在操作過程中如何應(yīng)對彈出窗口的干擾,如何從錯誤中快速恢復(fù),如何識別和跳過無關(guān)的界面元素等等。

評判系統(tǒng)還具有一定的容錯能力。它理解軟件操作中的多樣性和靈活性,不會因?yàn)椴僮鞣绞脚c標(biāo)準(zhǔn)答案略有不同就判定為錯誤。比如,在完成同一個任務(wù)時,有些用戶喜歡使用快捷鍵,有些用戶喜歡使用菜單,評判系統(tǒng)會認(rèn)識到這些只是風(fēng)格差異而不是對錯問題。

通過這個精密的評判系統(tǒng),CODA能夠獲得高質(zhì)量的反饋信號,從而在訓(xùn)練過程中不斷改進(jìn)自己的操作策略。這種自我反省和持續(xù)改進(jìn)的能力,讓CODA從一個簡單的操作工具進(jìn)化成了一個真正智能的軟件助手。

說到底,CODA這項(xiàng)研究為我們展示了AI發(fā)展的一個新方向。與其讓AI樣樣都學(xué)、樣樣通但樣樣松,不如讓它像人類大腦一樣進(jìn)行專業(yè)分工,讓擅長規(guī)劃的部分負(fù)責(zé)思考,讓擅長執(zhí)行的部分負(fù)責(zé)動作。這種"術(shù)業(yè)有專攻"的設(shè)計(jì)理念不僅提高了效率,更重要的是讓AI具備了真正的學(xué)習(xí)和適應(yīng)能力。

現(xiàn)在的CODA雖然還不完美,在某些復(fù)雜任務(wù)上的成功率仍有待提高,但它已經(jīng)證明了這個方向的可行性。更令人期待的是,這種分工協(xié)作的框架具有很好的可擴(kuò)展性。未來我們可以想象,不同的AI模塊負(fù)責(zé)不同的專業(yè)領(lǐng)域,比如一個專門負(fù)責(zé)圖像處理軟件的"視覺專家",一個專門負(fù)責(zé)數(shù)據(jù)分析軟件的"統(tǒng)計(jì)專家",還有一個負(fù)責(zé)協(xié)調(diào)所有專家工作的"總指揮"。

這項(xiàng)研究的意義遠(yuǎn)不止于讓AI學(xué)會操作軟件。它為人機(jī)協(xié)作開辟了新的可能性。我們可以想象,在不久的將來,當(dāng)你面對一個復(fù)雜的專業(yè)軟件時,不再需要花費(fèi)大量時間學(xué)習(xí)各種功能和操作技巧,而是可以直接告訴AI助手你想要達(dá)成的目標(biāo),然后它會像一個經(jīng)驗(yàn)豐富的同事一樣幫你完成所有繁瑣的操作步驟。

對于科研工作者來說,這意味著可以把更多精力集中在創(chuàng)意和分析上,而不是糾結(jié)于軟件操作的細(xì)節(jié)。對于普通用戶來說,這意味著復(fù)雜的專業(yè)軟件將變得更加易用和親民。對于軟件開發(fā)者來說,這也提供了一個全新的思路——也許未來的軟件界面設(shè)計(jì)不僅要考慮人類用戶,也要考慮AI助手的需求。

當(dāng)然,這個領(lǐng)域還有很多挑戰(zhàn)需要解決。比如如何讓AI更好地理解人類的意圖,如何處理更加動態(tài)和不可預(yù)測的軟件環(huán)境,如何確保AI操作的安全性和可控性等等。但CODA的成功已經(jīng)為這些挑戰(zhàn)的解決提供了一個堅(jiān)實(shí)的起點(diǎn)。

歸根結(jié)底,CODA不僅僅是一個技術(shù)創(chuàng)新,更是對人工智能發(fā)展道路的深入思考。它告訴我們,真正的智能不是要做一個萬能的超人,而是要學(xué)會像人類一樣進(jìn)行合理的分工協(xié)作,充分發(fā)揮每個組件的專長,并且具備持續(xù)學(xué)習(xí)和自我改進(jìn)的能力。這個理念不僅適用于軟件操作,也為AI在其他領(lǐng)域的應(yīng)用提供了有價值的啟發(fā)。

Q&A

Q1:CODA是什么?它和普通的AI助手有什么不同?

A:CODA是由上海AI實(shí)驗(yàn)室等機(jī)構(gòu)開發(fā)的AI系統(tǒng),專門用來操作復(fù)雜的專業(yè)軟件。它最大的特點(diǎn)是模仿人類大腦的分工方式,分為負(fù)責(zé)規(guī)劃的"大腦皮層"和負(fù)責(zé)執(zhí)行的"小腦"兩個部分。不像普通AI助手只能處理簡單對話,CODA能夠理解屏幕界面,制定操作計(jì)劃,并精確執(zhí)行鼠標(biāo)點(diǎn)擊等復(fù)雜操作。

Q2:CODA能操作哪些軟件?普通人能使用嗎?

A:目前CODA主要在四個科學(xué)軟件上進(jìn)行了測試:天文軟件Celestia、分子建模軟件ChimeraX、地理信息系統(tǒng)QGIS和數(shù)學(xué)計(jì)算軟件。研究團(tuán)隊(duì)已經(jīng)開源了代碼和模型,技術(shù)人員可以通過GitHub獲取。不過現(xiàn)在還處于研究階段,普通用戶暫時無法直接使用,需要等待進(jìn)一步的產(chǎn)品化開發(fā)。

Q3:CODA的成功率有多高?能完全替代人工操作嗎?

A:CODA在復(fù)雜的多步驟任務(wù)中平均成功率約為21%,雖然聽起來不高,但要知道這些任務(wù)通常需要10多個精確操作才能完成。目前還不能完全替代人工,更適合作為輔助工具使用。不過它具備學(xué)習(xí)能力,隨著訓(xùn)練數(shù)據(jù)的增加和算法的改進(jìn),成功率會繼續(xù)提升。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-