這項由南加州大學(xué)的宋林鑫等研究者與Salesforce研究團隊合作完成的研究發(fā)表于2025年8月,詳細(xì)介紹了一種革命性的計算機操作助手系統(tǒng)。有興趣深入了解的讀者可以通過論文網(wǎng)址https://linxins.net/coact/訪問完整研究內(nèi)容。
想象一下,你有一個超級聰明的助手,不僅能像人類一樣操作電腦界面,還能直接寫程序來完成任務(wù)。這就是CoAct-1的魅力所在。傳統(tǒng)的電腦助手就像一個只會用鼠標(biāo)點擊的新手,遇到復(fù)雜任務(wù)時經(jīng)常手忙腳亂,而CoAct-1就像一個既會用圖形界面又會編程的高手,能夠選擇最合適的方式來解決問題。
這項研究的意義遠(yuǎn)不止技術(shù)突破。在日常辦公中,我們經(jīng)常需要進行大量重復(fù)性操作,比如整理文件、處理數(shù)據(jù)表格、批量修改圖片等。這些任務(wù)用傳統(tǒng)的點擊方式需要很多步驟,容易出錯,而CoAct-1能夠智能選擇是用界面操作還是寫代碼,大大提高效率和準(zhǔn)確性。研究團隊在OSWorld這個權(quán)威測試平臺上驗證了系統(tǒng)性能,結(jié)果顯示CoAct-1達(dá)到了60.76%的成功率,遠(yuǎn)超之前的最佳記錄,同時將平均完成任務(wù)的步驟數(shù)從15步減少到僅10.15步。
這種混合式的工作方式就像一個經(jīng)驗豐富的工匠,既知道什么時候該用精細(xì)的手工操作,什么時候該使用自動化工具。當(dāng)面對需要精確視覺判斷的任務(wù)時,系統(tǒng)會選擇傳統(tǒng)的界面操作;當(dāng)遇到大量數(shù)據(jù)處理或文件管理任務(wù)時,系統(tǒng)會編寫程序來快速完成。這種智能選擇機制讓計算機助手變得更加實用和可靠。
一、CoAct-1的核心創(chuàng)新:三個專業(yè)助手的完美配合
CoAct-1的設(shè)計理念就像組建一個高效的工作團隊,每個成員都有自己的專長,通過協(xié)作來完成復(fù)雜任務(wù)。這個團隊由三個關(guān)鍵角色組成,它們各司其職又密切配合。
首先是指揮官角色,在系統(tǒng)中被稱為"編排者"(Orchestrator)。這個角色就像項目經(jīng)理一樣,負(fù)責(zé)理解用戶的需求,將復(fù)雜的任務(wù)分解成更小的子任務(wù),然后決定每個子任務(wù)應(yīng)該交給誰來完成。編排者不能直接操作電腦,但它能夠全局把握任務(wù)進展,根據(jù)當(dāng)前情況做出最佳的任務(wù)分配決策。這就像一個經(jīng)驗豐富的主廚,知道什么時候該用平底鍋,什么時候該用烤箱,從不直接動手烹飪,但能確保整道菜完美呈現(xiàn)。
第二個角色是程序員助手(Programmer),這是CoAct-1的核心創(chuàng)新之一。傳統(tǒng)的電腦助手只會點擊和輸入,而程序員助手能夠編寫Python和Bash腳本來直接與操作系統(tǒng)交互。當(dāng)編排者將任務(wù)分配給程序員助手時,它會開始一個獨立的對話過程,與代碼解釋器進行多輪交互。程序員助手會根據(jù)任務(wù)需求編寫代碼,然后將代碼發(fā)送給操作系統(tǒng)執(zhí)行,獲得執(zhí)行結(jié)果后還能根據(jù)反饋進行代碼調(diào)整和改進。這個過程就像一個專業(yè)的程序員在工作,能夠處理文件管理、數(shù)據(jù)處理、系統(tǒng)配置等復(fù)雜任務(wù)。
第三個角色是界面操作員(GUI Operator),負(fù)責(zé)處理需要視覺判斷和精確操作的任務(wù)。當(dāng)編排者認(rèn)為某個子任務(wù)更適合通過圖形界面完成時,就會將任務(wù)交給界面操作員。這個助手能夠理解屏幕上的各種元素,進行鼠標(biāo)移動、點擊、鍵盤輸入等操作。界面操作員就像一個熟練的電腦用戶,能夠準(zhǔn)確識別按鈕、菜單和輸入框,完成各種界面交互任務(wù)。
這三個角色之間的配合機制非常精妙。編排者會根據(jù)任務(wù)的性質(zhì)和復(fù)雜程度來決定分配策略。對于需要大量重復(fù)操作的任務(wù),比如批量重命名文件或處理數(shù)據(jù)表格,編排者會優(yōu)先選擇程序員助手,因為代碼執(zhí)行速度快且不容易出錯。對于需要精確視覺判斷的任務(wù),比如在復(fù)雜界面中找到特定按鈕或處理圖像編輯,編排者會選擇界面操作員。
更重要的是,這個系統(tǒng)具有很強的適應(yīng)性。每次子任務(wù)完成后,執(zhí)行者會向編排者匯報結(jié)果和當(dāng)前系統(tǒng)狀態(tài)。程序員助手會提供一個簡潔的任務(wù)總結(jié),而界面操作員會返回操作結(jié)果和屏幕截圖。編排者基于這些信息來判斷整體任務(wù)是否完成,或者需要繼續(xù)分配新的子任務(wù)。這種反饋機制確保了系統(tǒng)能夠動態(tài)調(diào)整策略,應(yīng)對各種突發(fā)情況。
二、突破傳統(tǒng)界面操作的局限性
傳統(tǒng)的電腦助手就像一個只會按圖索驥的新手,必須嚴(yán)格按照視覺界面的布局來操作。這種方式在處理復(fù)雜任務(wù)時會遇到很多問題,CoAct-1的設(shè)計正是為了解決這些根本性局限。
考慮一個典型的辦公場景:你需要在一個包含多個工作表的Excel文件中找到特定數(shù)據(jù),根據(jù)復(fù)雜條件進行篩選,復(fù)制結(jié)果,然后保存為新的CSV文件。傳統(tǒng)助手需要進行大量的點擊操作:打開文件,切換工作表,設(shè)置篩選條件,選擇數(shù)據(jù)范圍,復(fù)制內(nèi)容,創(chuàng)建新文件,粘貼數(shù)據(jù),選擇保存格式,指定文件位置等等。每一步都需要精確的視覺定位和操作,任何一個環(huán)節(jié)出錯都可能導(dǎo)致整個任務(wù)失敗。
這種方式的問題在于累積錯誤概率。每次鼠標(biāo)點擊都有一定的失誤可能,界面元素的識別也可能出現(xiàn)偏差,特別是在復(fù)雜的軟件界面中,按鈕和菜單項往往外觀相似,很容易混淆。隨著操作步驟的增加,整體成功率會快速下降。這就像走鋼絲一樣,路徑越長,掉下去的風(fēng)險就越高。
CoAct-1的程序化方法則完全不同。對于上述任務(wù),程序員助手可能會編寫一個簡單的Python腳本,直接讀取Excel文件,應(yīng)用篩選條件,提取數(shù)據(jù)并保存為CSV格式。整個過程只需要幾行代碼,執(zhí)行時間很短,而且結(jié)果完全可預(yù)測。這就像使用專業(yè)工具而不是手工操作,效率和準(zhǔn)確性都大大提升。
另一個典型例子是文件管理任務(wù)。假設(shè)你需要在復(fù)雜的目錄結(jié)構(gòu)中找到所有圖片文件,將它們調(diào)整為特定尺寸,然后打包壓縮。傳統(tǒng)方式需要打開文件管理器,逐個目錄瀏覽,手動選擇圖片文件,使用圖像編輯軟件批量處理,最后創(chuàng)建壓縮包。這個過程不僅繁瑣,還容易遺漏文件或操作錯誤。
程序員助手則可以編寫一個腳本,自動遍歷目錄結(jié)構(gòu),識別圖片文件,調(diào)用圖像處理庫進行尺寸調(diào)整,最后創(chuàng)建壓縮包。整個過程一氣呵成,不會有遺漏,也不會有操作錯誤。更重要的是,這種方法具有很好的重復(fù)性,同樣的腳本可以應(yīng)用到類似的任務(wù)中。
然而,CoAct-1并沒有完全拋棄界面操作。在某些情況下,圖形界面仍然是最佳選擇。比如處理需要實時視覺反饋的任務(wù),或者與專門設(shè)計的圖形化工具交互時,界面操作員仍然發(fā)揮重要作用。關(guān)鍵在于系統(tǒng)能夠智能選擇最適合的方法,而不是盲目堅持某一種方式。
這種混合策略的優(yōu)勢在實驗結(jié)果中得到了充分體現(xiàn)。在OSWorld基準(zhǔn)測試中,CoAct-1在操作系統(tǒng)級任務(wù)中達(dá)到了79.16%的成功率,在多應(yīng)用協(xié)同任務(wù)中達(dá)到43.73%,在電子郵件處理任務(wù)中達(dá)到80.00%。這些數(shù)據(jù)表明,程序化方法在適合的場景中能夠顯著提升任務(wù)完成率。
三、實驗驗證:在真實環(huán)境中的卓越表現(xiàn)
為了驗證CoAct-1的實際效果,研究團隊選擇了OSWorld這個業(yè)界公認(rèn)的權(quán)威測試平臺。OSWorld就像一個專門為電腦助手設(shè)計的"駕照考試場",包含369個不同難度和類型的任務(wù),涵蓋了日常辦公中可能遇到的各種情況。
這個測試平臺的設(shè)計非常貼近真實使用場景。每個測試任務(wù)都從一個確定的系統(tǒng)狀態(tài)開始,就像給每個考生提供相同的起始條件。任務(wù)描述使用自然語言,模擬用戶的真實需求,比如"將圖片調(diào)整為512×512像素并導(dǎo)出為PNG格式"這樣的指令。更重要的是,系統(tǒng)使用規(guī)則化的評估器來判斷任務(wù)是否成功完成,確保評分的客觀性和一致性。
在與當(dāng)前最先進系統(tǒng)的對比中,CoAct-1展現(xiàn)出了明顯的優(yōu)勢。在100步限制的測試中,CoAct-1達(dá)到了59.93%的成功率,而之前的最佳系統(tǒng)GTA-1只有53.10%。更令人印象深刻的是,在更寬松的步數(shù)限制下,CoAct-1的成功率進一步提升到60.76%,創(chuàng)造了新的紀(jì)錄。
這種性能提升在不同類型的任務(wù)中表現(xiàn)各異,這恰好驗證了混合策略的有效性。在LibreOffice Calc電子表格任務(wù)中,CoAct-1的成功率達(dá)到70.21%,遠(yuǎn)超GTA-1的59.57%。在多應(yīng)用協(xié)同任務(wù)中,性能提升更加顯著,從GTA-1的38.34%躍升到CoAct-1的47.88%。這些結(jié)果表明,程序化方法在數(shù)據(jù)處理和跨應(yīng)用操作方面具有顯著優(yōu)勢。
特別值得注意的是效率方面的改進。CoAct-1完成任務(wù)的平均步數(shù)僅為10.15步,相比GTA-1的15.22步減少了約33%。這種效率提升不僅意味著更快的任務(wù)完成速度,也大大降低了出錯的可能性。因為每減少一個操作步驟,就減少了一次可能的失誤機會。
研究團隊還深入分析了不同領(lǐng)域任務(wù)中代碼使用的情況。結(jié)果顯示,在LibreOffice Calc、多應(yīng)用任務(wù)和操作系統(tǒng)級任務(wù)中,大部分成功案例都使用了編程方法。這說明對于涉及數(shù)據(jù)處理、文件操作和系統(tǒng)配置的任務(wù),代碼執(zhí)行確實比界面操作更加可靠和高效。
然而,CoAct-1的成功并不意味著完全拋棄界面操作。在某些類型的任務(wù)中,比如圖像編輯軟件GIMP的使用,界面操作仍然占據(jù)重要地位。這證明了系統(tǒng)設(shè)計的合理性:不是簡單地用一種方法替代另一種,而是根據(jù)任務(wù)特點選擇最合適的方法。
實驗中還發(fā)現(xiàn)了一個有趣的現(xiàn)象:任務(wù)失敗率與所需步驟數(shù)呈正相關(guān)關(guān)系。步驟越多的任務(wù),失敗的可能性就越大。這從另一個角度證實了CoAct-1設(shè)計理念的正確性:通過減少操作步驟來提高整體成功率。
研究團隊進一步測試了不同模型組合對系統(tǒng)性能的影響。結(jié)果顯示,使用更強大的模型作為編排者和程序員助手能夠顯著提升整體性能。當(dāng)使用OpenAI的o3模型作為編排者,o4-mini模型作為程序員助手時,系統(tǒng)達(dá)到了最佳的60.76%成功率。這表明系統(tǒng)的性能上限還有進一步提升的空間。
四、實際應(yīng)用中的挑戰(zhàn)與解決方案
盡管CoAct-1在測試中表現(xiàn)優(yōu)異,但研究團隊也誠實地分析了系統(tǒng)在實際應(yīng)用中可能遇到的挑戰(zhàn)。這些挑戰(zhàn)主要集中在兩個方面:高層次查詢的理解和模糊指令的處理。
高層次查詢的挑戰(zhàn)就像讓助手理解含蓄的暗示。比如用戶說"請幫我修改VSCode設(shè)置,讓我在調(diào)試時光標(biāo)能保持在調(diào)試控制臺,而不是自動跳回編輯器"。這個請求看起來很具體,但實際上需要助手理解幾個隱含的概念:調(diào)試過程、光標(biāo)焦點、界面切換等。更困難的是,助手需要將"調(diào)試"概念與"斷點"設(shè)置聯(lián)系起來,找到正確的配置項"focusEditorOnBrake"。
在這個案例中,編排者將任務(wù)分配給了程序員助手,程序員助手嘗試通過搜索"debug"和"console"關(guān)鍵詞來找到相關(guān)設(shè)置。然而,它沒能建立起調(diào)試和斷點之間的概念聯(lián)系,最終沒有找到正確的配置項。這個失敗案例揭示了當(dāng)前AI系統(tǒng)在概念推理方面的局限性。
類似的情況在人類交流中也經(jīng)常出現(xiàn)。當(dāng)我們說"把空調(diào)調(diào)涼快點"時,熟悉我們習(xí)慣的人知道這意味著降低溫度設(shè)定值,而不是增加風(fēng)速或改變模式。但對于不了解背景的人來說,這個指令可能有多種理解方式。CoAct-1面臨的正是這樣的挑戰(zhàn):如何在缺乏充分背景信息的情況下正確理解用戶意圖。
模糊指令的處理則是另一類挑戰(zhàn)。用戶說"請幫我修改VSCode設(shè)置,隱藏資源管理器視圖中所有的'__pycache__'文件夾"。這個指令本身是明確的,但存在歧義:是修改工作區(qū)設(shè)置還是全局用戶設(shè)置?程序員助手成功識別了需要修改設(shè)置文件,但錯誤地選擇了工作區(qū)設(shè)置而不是全局設(shè)置,導(dǎo)致任務(wù)失敗。
這種歧義在日常交流中非常常見。當(dāng)朋友說"幫我買點水果"時,我們可能需要詢問買什么種類、多少數(shù)量、預(yù)算多少等具體信息。但在人機交互中,用戶往往期望系統(tǒng)能夠智能推測這些細(xì)節(jié),或者至少能夠選擇最合理的默認(rèn)選項。
為了應(yīng)對這些挑戰(zhàn),研究團隊提出了幾個改進方向。首先是增強系統(tǒng)的概念推理能力,讓它能夠建立更豐富的概念關(guān)聯(lián)。比如在處理開發(fā)環(huán)境設(shè)置時,系統(tǒng)應(yīng)該了解調(diào)試、斷點、編輯器焦點之間的關(guān)系。其次是改進歧義處理機制,當(dāng)遇到模糊指令時,系統(tǒng)應(yīng)該能夠識別歧義點并選擇最合理的解釋,或者主動向用戶詢問澄清。
研究團隊還注意到,不同類型的任務(wù)對這兩種挑戰(zhàn)的敏感性不同。涉及專業(yè)領(lǐng)域知識的任務(wù)更容易遇到概念理解問題,而日常辦公任務(wù)更多面臨指令歧義的挑戰(zhàn)。這個觀察為系統(tǒng)優(yōu)化提供了有價值的方向:可以針對不同任務(wù)類型開發(fā)專門的處理策略。
盡管存在這些挑戰(zhàn),CoAct-1在大多數(shù)測試案例中的成功表現(xiàn)表明,混合策略的基本思路是正確的。系統(tǒng)的失敗往往不是因為選擇了錯誤的執(zhí)行方式(界面操作vs編程),而是因為對任務(wù)需求的理解不夠準(zhǔn)確。這說明未來的改進重點應(yīng)該放在提升任務(wù)理解和意圖識別能力上。
五、技術(shù)架構(gòu)的精巧設(shè)計
CoAct-1的技術(shù)實現(xiàn)就像精密手表的內(nèi)部結(jié)構(gòu),每個組件都有明確的功能,同時又完美協(xié)調(diào)運作。整個系統(tǒng)基于AG2框架構(gòu)建,這是一個專門為多智能體協(xié)作設(shè)計的平臺,為不同角色之間的通信和協(xié)調(diào)提供了穩(wěn)定的基礎(chǔ)。
系統(tǒng)的內(nèi)存管理機制特別值得關(guān)注。每個智能體都維護著自己的對話歷史,就像每個專家都有自己的工作筆記。編排者保存著所有任務(wù)分配和執(zhí)行結(jié)果的記錄,程序員助手記錄著代碼編寫和調(diào)試的完整過程,界面操作員則保留著屏幕操作的歷史。這種分布式內(nèi)存設(shè)計確保了每個智能體都能專注于自己的職責(zé),同時避免了信息混亂。
更巧妙的是系統(tǒng)的內(nèi)存清理機制。每當(dāng)一個子任務(wù)完成后,程序員助手和界面操作員的對話歷史會被清空,讓它們能夠以全新的狀態(tài)接受下一個任務(wù)。這就像專業(yè)工人完成一道工序后清理工作臺,為下一道工序做準(zhǔn)備。這種設(shè)計避免了歷史信息的干擾,確保每個子任務(wù)都能得到專注的處理。
系統(tǒng)的通信機制也經(jīng)過精心設(shè)計。當(dāng)程序員助手完成任務(wù)時,會生成一個簡潔的總結(jié)報告給編排者,而不是原始的技術(shù)細(xì)節(jié)。這就像項目團隊中,技術(shù)專家向項目經(jīng)理匯報時會使用管理語言而不是技術(shù)術(shù)語。這種分層通信確保了不同角色之間能夠有效交流,同時避免了信息過載。
研究團隊在模型選擇上也進行了仔細(xì)的考量。編排者使用OpenAI的o3模型,這是一個在推理和規(guī)劃方面表現(xiàn)優(yōu)秀的模型,能夠準(zhǔn)確理解復(fù)雜任務(wù)并做出合理的分解決策。程序員助手使用o4-mini模型,在代碼生成方面有著出色的表現(xiàn),同時保持了良好的成本效益平衡。界面操作員則使用專門為計算機操作優(yōu)化的computer-use-preview模型,這個模型在視覺理解和界面交互方面有著特殊的優(yōu)勢。
系統(tǒng)還實現(xiàn)了靈活的參數(shù)配置。程序員助手最多可以進行20輪代碼調(diào)試,界面操作員最多執(zhí)行25個操作步驟,編排者最多進行15輪任務(wù)分配。這些限制既確保了系統(tǒng)不會陷入無限循環(huán),又為復(fù)雜任務(wù)留出了足夠的操作空間。理論上,系統(tǒng)的最大步數(shù)上限是375步,但實際使用中很少接近這個極限。
代碼執(zhí)行環(huán)境的設(shè)計也體現(xiàn)了實用性考慮。系統(tǒng)支持Python和Bash腳本執(zhí)行,這兩種語言覆蓋了大部分系統(tǒng)操作和數(shù)據(jù)處理需求。代碼執(zhí)行采用遠(yuǎn)程服務(wù)器模式,既保證了安全性,又提供了充足的計算資源。執(zhí)行結(jié)果會實時返回給程序員助手,支持錯誤診斷和代碼修正。
特別值得一提的是系統(tǒng)的容錯設(shè)計。當(dāng)代碼執(zhí)行出現(xiàn)錯誤時,程序員助手不會簡單地放棄,而是會分析錯誤信息并嘗試修正代碼。這種多輪調(diào)試機制大大提高了代碼執(zhí)行的成功率。同樣,當(dāng)界面操作遇到困難時,操作員也會嘗試不同的方法來完成任務(wù)。
系統(tǒng)的可擴展性設(shè)計為未來的功能擴展留下了空間。新的智能體類型可以很容易地加入到系統(tǒng)中,比如專門處理數(shù)據(jù)庫操作的智能體或?qū)iT處理網(wǎng)絡(luò)請求的智能體。編排者的決策邏輯也可以根據(jù)新的智能體類型進行相應(yīng)調(diào)整。
六、突破性成果帶來的深遠(yuǎn)影響
CoAct-1的成功不僅僅是技術(shù)指標(biāo)上的突破,更代表了人機交互方式的根本性變革。這種變革的影響將逐漸滲透到我們工作和生活的各個方面。
在辦公自動化領(lǐng)域,CoAct-1展示了一種全新的可能性。傳統(tǒng)的辦公自動化工具通常需要用戶學(xué)習(xí)復(fù)雜的配置方法,或者局限于預(yù)設(shè)的功能模板。而CoAct-1能夠理解自然語言描述的任務(wù)需求,自動選擇最佳的執(zhí)行方式。這意味著普通用戶無需掌握編程技能,就能享受到程序化處理的高效和準(zhǔn)確性。
這種能力對中小企業(yè)特別有意義。很多中小企業(yè)缺乏專業(yè)的IT人員,但又有大量重復(fù)性的辦公任務(wù)需要處理。CoAct-1這樣的系統(tǒng)能夠充當(dāng)虛擬的IT助手,幫助這些企業(yè)實現(xiàn)辦公流程的自動化,提高工作效率,降低運營成本。
在教育領(lǐng)域,CoAct-1也顯示出巨大的潛力。學(xué)生可以通過自然語言與系統(tǒng)交互,完成各種學(xué)習(xí)任務(wù)。比如整理研究資料、生成學(xué)習(xí)報告、處理實驗數(shù)據(jù)等。系統(tǒng)不僅能完成具體的任務(wù),還能通過執(zhí)行過程展示問題解決的思路和方法,具有很強的教學(xué)價值。
更重要的是,CoAct-1代表了AI系統(tǒng)從單一模態(tài)向多模態(tài)融合的重要轉(zhuǎn)變。傳統(tǒng)的AI系統(tǒng)要么專注于語言理解,要么專注于視覺識別,要么專注于代碼生成。CoAct-1成功地將這些能力整合在一個統(tǒng)一的框架中,根據(jù)任務(wù)需求動態(tài)選擇合適的能力組合。這種設(shè)計思路為未來的AI系統(tǒng)發(fā)展提供了重要的參考。
從技術(shù)發(fā)展的角度來看,CoAct-1驗證了多智能體協(xié)作的有效性。與試圖構(gòu)建一個"萬能"AI系統(tǒng)相比,讓多個專門化的AI系統(tǒng)協(xié)作可能是一個更現(xiàn)實和更有效的路徑。這種思路符合人類團隊協(xié)作的模式,也為AI系統(tǒng)的可擴展性和可維護性提供了更好的解決方案。
系統(tǒng)的高效性也具有重要的環(huán)境意義。通過減少任務(wù)完成所需的步驟,CoAct-1不僅節(jié)省了時間,也減少了計算資源的消耗。在大規(guī)模應(yīng)用時,這種效率提升能夠顯著降低能源消耗和碳排放,符合可持續(xù)發(fā)展的要求。
然而,這種技術(shù)進步也帶來了新的思考。隨著AI系統(tǒng)變得越來越能干,我們需要重新考慮人機分工的邊界。CoAct-1能夠完成很多原本需要專業(yè)技能的任務(wù),這可能會改變某些職業(yè)的技能要求。同時,我們也需要思考如何確保AI系統(tǒng)的決策過程是透明和可控的,特別是在處理重要或敏感任務(wù)時。
安全性是另一個需要持續(xù)關(guān)注的問題。CoAct-1具有執(zhí)行代碼的能力,這在提供強大功能的同時,也帶來了潛在的安全風(fēng)險。研究團隊采用了遠(yuǎn)程執(zhí)行環(huán)境來隔離風(fēng)險,但在實際部署時還需要更完善的安全措施和監(jiān)控機制。
展望未來,CoAct-1的成功為更多領(lǐng)域的應(yīng)用打開了大門。在智能家居、工業(yè)自動化、醫(yī)療健康等領(lǐng)域,都可能出現(xiàn)類似的混合智能系統(tǒng)。這些系統(tǒng)將能夠更自然地理解人類需求,更靈活地選擇執(zhí)行方式,更可靠地完成復(fù)雜任務(wù)。
說到底,CoAct-1最大的價值在于它證明了一個重要觀點:AI系統(tǒng)不需要追求單一維度的極致表現(xiàn),而應(yīng)該追求在實際應(yīng)用中的綜合效果。通過巧妙地結(jié)合不同方法的優(yōu)勢,我們能夠創(chuàng)造出更實用、更可靠的AI助手。這種設(shè)計哲學(xué)將繼續(xù)指導(dǎo)未來AI系統(tǒng)的發(fā)展方向,讓人工智能真正成為提升人類生活質(zhì)量的強大工具。
對于普通用戶而言,CoAct-1代表的不僅僅是一個更好的工具,更是一種全新的工作方式。我們不再需要遷就工具的限制,而是可以用自然的方式表達(dá)需求,讓智能系統(tǒng)來選擇最佳的實現(xiàn)方法。這種改變將讓技術(shù)真正服務(wù)于人,而不是讓人適應(yīng)技術(shù)。隨著這類系統(tǒng)的不斷完善和普及,我們有理由相信,未來的人機協(xié)作將變得更加自然、高效和愉快。
Q&A
Q1:CoAct-1與傳統(tǒng)電腦助手有什么區(qū)別?
A:傳統(tǒng)電腦助手只能通過點擊鼠標(biāo)和鍵盤輸入來操作界面,就像只會按圖索驥的新手。而CoAct-1不僅能進行界面操作,還能編寫Python和Bash代碼直接與系統(tǒng)交互,就像一個既會用圖形界面又會編程的高手,能根據(jù)任務(wù)特點選擇最合適的方法。
Q2:CoAct-1在實際測試中表現(xiàn)如何?
A:在OSWorld權(quán)威測試平臺上,CoAct-1創(chuàng)造了60.76%的新紀(jì)錄,遠(yuǎn)超之前最佳系統(tǒng)GTA-1的53.10%。更重要的是,CoAct-1完成任務(wù)的平均步數(shù)僅為10.15步,比GTA-1的15.22步減少了約33%,既提高了成功率又提升了效率。
Q3:CoAct-1如何決定用界面操作還是編寫代碼?
A:CoAct-1有一個"編排者"角色充當(dāng)智能指揮官,它會分析任務(wù)特點并做出決策。對于數(shù)據(jù)處理、文件管理等重復(fù)性任務(wù),會選擇編程方式;對于需要精確視覺判斷的任務(wù),會選擇界面操作。這種智能選擇讓系統(tǒng)在不同場景下都能發(fā)揮最佳效果。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機制和漸進式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學(xué)習(xí)外觀和運動信息,顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報,準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。