這項(xiàng)由浙江大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院胡學(xué)宇、熊韜等研究人員領(lǐng)導(dǎo)的大規(guī)模調(diào)研工作發(fā)表于2025年ACL會議,該論文全面梳理了基于多模態(tài)大語言模型的操作系統(tǒng)智能體(OS Agents)這一前沿研究領(lǐng)域。感興趣的讀者可以通過論文官方網(wǎng)站https://os-agent-survey.github.io/或ACL會議論文集https://aclanthology.org/2025.acl-long.369/獲取完整研究內(nèi)容。
還記得電影《鋼鐵俠》中那個無所不能的人工智能助手賈維斯嗎?它能夠幫助托尼·斯塔克控制各種系統(tǒng),自動執(zhí)行復(fù)雜任務(wù),簡直就像是一個完美的數(shù)字管家?,F(xiàn)在,這個科幻夢想正在逐步成為現(xiàn)實(shí)。浙江大學(xué)的研究團(tuán)隊(duì)通過這項(xiàng)大規(guī)模調(diào)研,系統(tǒng)性地分析了當(dāng)前最前沿的AI助手技術(shù)——操作系統(tǒng)智能體,這些智能體能夠像人類一樣使用電腦和手機(jī),自動完成各種日常任務(wù)。
所謂操作系統(tǒng)智能體,簡單來說就是能夠在我們的電腦、手機(jī)等設(shè)備上獨(dú)立工作的AI助手。它們不再局限于簡單的語音對話,而是能夠真正"看懂"屏幕上的內(nèi)容,"理解"用戶的需求,然后像人類一樣點(diǎn)擊按鈕、填寫表格、瀏覽網(wǎng)頁,完成從網(wǎng)購到郵件處理的各種復(fù)雜任務(wù)。這種技術(shù)的革命性在于,它讓AI從單純的對話伙伴變成了能夠?qū)嶋H操作數(shù)字設(shè)備的智能助手。
這項(xiàng)調(diào)研的價值在于,它首次全面梳理了這個快速發(fā)展領(lǐng)域的完整圖景。研究團(tuán)隊(duì)深入分析了操作系統(tǒng)智能體的核心技術(shù)、構(gòu)建方法、評估體系,以及面臨的挑戰(zhàn)和未來發(fā)展方向。對于普通人來說,這意味著我們很快就能擁有真正智能的數(shù)字助手,它們能夠理解我們的需求,自動完成繁瑣的電腦操作,從而大大提高工作和生活效率。
一、操作系統(tǒng)智能體的基本構(gòu)成:三大支柱撐起智能操作
要理解操作系統(tǒng)智能體如何工作,我們可以把它比作一個剛剛學(xué)會使用電腦的聰明孩子。這個"孩子"需要三個基本能力才能熟練操作設(shè)備:首先是能夠"看懂"屏幕上顯示的內(nèi)容,其次是能夠通過鼠標(biāo)鍵盤等方式與設(shè)備交互,最后是需要在不同的操作環(huán)境中靈活應(yīng)對。
環(huán)境就像是這個AI助手工作的"舞臺"。正如人類可以在不同的辦公室、咖啡廳或家中工作一樣,操作系統(tǒng)智能體也需要適應(yīng)各種不同的數(shù)字環(huán)境。這些環(huán)境主要包括桌面電腦系統(tǒng)、手機(jī)移動設(shè)備,以及各種網(wǎng)頁應(yīng)用。每種環(huán)境都有自己獨(dú)特的"規(guī)則"和操作方式。桌面環(huán)境通常提供更大的操作空間和更復(fù)雜的功能,就像一個設(shè)備齊全的工作室;移動設(shè)備則更注重觸摸操作和簡潔界面,就像一個便攜的工具包;而網(wǎng)頁環(huán)境則充滿了動態(tài)變化的內(nèi)容和交互元素,就像一個不斷更新的信息廣場。
觀察空間相當(dāng)于AI助手的"眼睛"和"大腦"的感知部分。就像人類通過視覺獲取信息一樣,操作系統(tǒng)智能體需要能夠"看懂"當(dāng)前屏幕上顯示的所有內(nèi)容。這包括捕獲屏幕截圖、識別各種界面元素、理解文本內(nèi)容,甚至解析網(wǎng)頁的HTML代碼結(jié)構(gòu)。這個過程就像一個經(jīng)驗(yàn)豐富的用戶快速掃視屏幕,瞬間理解當(dāng)前頁面的布局、可點(diǎn)擊的按鈕位置、輸入框的作用等等。不同的是,AI助手需要將這些視覺信息轉(zhuǎn)化為可以處理的數(shù)據(jù)格式,然后做出相應(yīng)的判斷和決策。
動作空間則是AI助手與設(shè)備交互的"手腳"。正如人類通過鼠標(biāo)點(diǎn)擊、鍵盤輸入、觸摸滑動等方式操作設(shè)備,操作系統(tǒng)智能體也需要掌握各種操作技巧。基礎(chǔ)的輸入操作包括鼠標(biāo)的點(diǎn)擊、長按、拖拽動作,以及鍵盤的文字輸入和快捷鍵操作。導(dǎo)航操作幫助助手在不同頁面和應(yīng)用之間移動,比如滾動頁面查看更多內(nèi)容、在瀏覽器標(biāo)簽頁間切換、或者回到上一級頁面。更高級的擴(kuò)展操作則包括調(diào)用系統(tǒng)功能、使用外部工具,甚至執(zhí)行代碼腳本來完成復(fù)雜任務(wù)。
二、三大核心能力:理解、規(guī)劃與精準(zhǔn)執(zhí)行
要成為一個真正有用的智能助手,操作系統(tǒng)智能體必須具備三項(xiàng)核心能力,就像一個優(yōu)秀的秘書需要能夠理解老板的需求、制定工作計劃,并準(zhǔn)確執(zhí)行任務(wù)一樣。
理解能力是智能體的"智慧之源"。在復(fù)雜的操作系統(tǒng)環(huán)境中,智能體需要處理各種形式的信息,從簡潔的HTML代碼到復(fù)雜的圖形用戶界面。這就像要求一個人同時閱讀文字、觀察圖片、理解符號,并從中提取有用信息。特別是在現(xiàn)代高分辨率屏幕上,界面元素密集排列,小圖標(biāo)、細(xì)小文字和緊密布局給理解帶來了巨大挑戰(zhàn)。智能體必須能夠像經(jīng)驗(yàn)豐富的用戶一樣,快速識別哪些是重要的操作按鈕,哪些是裝飾性元素,哪些信息與當(dāng)前任務(wù)相關(guān)。這種理解不僅是靜態(tài)的,還需要具備動態(tài)適應(yīng)性,因?yàn)榫W(wǎng)頁內(nèi)容會實(shí)時更新,應(yīng)用界面會根據(jù)用戶操作發(fā)生變化。
規(guī)劃能力體現(xiàn)了智能體的"戰(zhàn)略思維"。當(dāng)用戶提出一個需求時,比如"幫我預(yù)訂明天的餐廳",智能體需要將這個看似簡單的請求分解成一系列具體的操作步驟:打開餐廳預(yù)訂網(wǎng)站、輸入時間和人數(shù)、瀏覽可用選項(xiàng)、比較價格和評價、選擇合適的餐廳、填寫聯(lián)系信息、確認(rèn)預(yù)訂。更重要的是,智能體還需要具備應(yīng)變能力。當(dāng)發(fā)現(xiàn)某個餐廳已滿座時,它需要調(diào)整計劃,尋找替代方案;當(dāng)網(wǎng)頁加載緩慢時,它需要耐心等待或嘗試其他路徑。這種規(guī)劃能力分為全局規(guī)劃和迭代規(guī)劃兩種模式。全局規(guī)劃就像制定詳細(xì)的旅行攻略,事先安排好每一步;而迭代規(guī)劃則更像邊走邊看,根據(jù)實(shí)際情況不斷調(diào)整路線。
行動接地能力是將想法轉(zhuǎn)化為實(shí)際操作的關(guān)鍵橋梁。這個過程就像一個人拿到了詳細(xì)的操作說明書,但仍需要準(zhǔn)確找到每個按鈕的位置并正確操作。智能體需要將抽象的指令(如"點(diǎn)擊提交按鈕")轉(zhuǎn)換為精確的屏幕坐標(biāo)和操作序列。在復(fù)雜的界面中,可能存在多個相似的按鈕或元素,智能體必須具備精確的識別和定位能力。這就像在一個繁忙的控制室中,操作員需要準(zhǔn)確找到并按下正確的按鈕,任何錯誤都可能導(dǎo)致整個任務(wù)失敗。
三、構(gòu)建智能體的兩大路徑:專用模型與通用框架
創(chuàng)建操作系統(tǒng)智能體就像建造一棟智能建筑,可以選擇兩種不同的建造策略:要么從地基開始設(shè)計專門的結(jié)構(gòu),要么在現(xiàn)有建筑基礎(chǔ)上進(jìn)行智能化改造。研究團(tuán)隊(duì)發(fā)現(xiàn),當(dāng)前的技術(shù)發(fā)展正沿著這兩條路線同步推進(jìn)。
專用基礎(chǔ)模型的開發(fā)路徑就像為特定任務(wù)訂制專門的工具。這類模型從設(shè)計之初就專門針對操作系統(tǒng)環(huán)境進(jìn)行優(yōu)化,就像專門為外科手術(shù)設(shè)計的精密器械一樣。在模型架構(gòu)方面,研究人員采用了多種創(chuàng)新設(shè)計。有些團(tuán)隊(duì)直接使用現(xiàn)有的大語言模型作為基礎(chǔ),這些模型已經(jīng)具備了強(qiáng)大的文本理解和生成能力,只需要添加處理HTML代碼和用戶界面描述的功能。另一些研究則選擇現(xiàn)有的多模態(tài)大語言模型,這類模型本身就能同時處理文字和圖像信息,更適合理解復(fù)雜的圖形用戶界面。還有一些創(chuàng)新性工作通過將語言模型與專門的視覺編碼器結(jié)合,創(chuàng)造出能夠更好理解屏幕內(nèi)容的新型架構(gòu)。
為了讓這些模型真正適應(yīng)操作系統(tǒng)環(huán)境,研究人員在訓(xùn)練過程中采用了多階段的策略。預(yù)訓(xùn)練階段就像讓學(xué)生進(jìn)行基礎(chǔ)知識學(xué)習(xí),模型通過處理大量公開數(shù)據(jù)和合成數(shù)據(jù)來建立對用戶界面的基本理解。這些訓(xùn)練數(shù)據(jù)包括從網(wǎng)絡(luò)爬取的HTML文檔、通過算法生成的屏幕截圖,以及模擬的人機(jī)交互場景。有趣的是,一些研究團(tuán)隊(duì)甚至開發(fā)了能夠自動與應(yīng)用程序交互的系統(tǒng),通過不斷嘗試不同操作來收集訓(xùn)練數(shù)據(jù),就像讓AI在虛擬環(huán)境中"練習(xí)"操作技能。
監(jiān)督微調(diào)階段則更加注重實(shí)際應(yīng)用能力的培養(yǎng)。研究人員收集了大量真實(shí)的操作演示數(shù)據(jù),包括用戶執(zhí)行各種任務(wù)時的完整操作序列。這個過程就像師傅手把手教導(dǎo)徒弟,讓模型學(xué)會如何將復(fù)雜任務(wù)分解成具體步驟,以及如何準(zhǔn)確地定位和操作界面元素。訓(xùn)練數(shù)據(jù)的構(gòu)建需要極其精細(xì)的工作,研究人員需要為每個操作步驟標(biāo)注準(zhǔn)確的目標(biāo)元素和操作類型,確保模型能夠?qū)W到正確的操作模式。
強(qiáng)化學(xué)習(xí)階段是讓模型在實(shí)際操作中不斷改進(jìn)的關(guān)鍵。通過設(shè)計獎勵機(jī)制,系統(tǒng)能夠評估每個操作的效果,并根據(jù)任務(wù)完成情況給予正面或負(fù)面反饋。這個過程就像游戲中的練級系統(tǒng),模型通過不斷嘗試和調(diào)整來提高操作的準(zhǔn)確性和效率。一些先進(jìn)的研究工作還引入了自我改進(jìn)機(jī)制,讓模型能夠從錯誤中學(xué)習(xí),逐步建立起更可靠的操作策略。
通用智能體框架則采用了另一種策略,就像在現(xiàn)有的房屋基礎(chǔ)上安裝智能家居系統(tǒng)。這種方法不需要從頭訓(xùn)練專門的模型,而是通過巧妙的框架設(shè)計讓通用的大語言模型具備操作系統(tǒng)控制能力。這種方法的優(yōu)勢在于可以快速利用最新的語言模型進(jìn)展,同時降低了技術(shù)開發(fā)的門檻。
感知模塊是框架的"眼睛",負(fù)責(zé)收集和理解環(huán)境信息。早期的研究主要依靠文本描述,將復(fù)雜的用戶界面轉(zhuǎn)換為結(jié)構(gòu)化的文本格式,比如HTML或者無障礙訪問樹。這種方法就像為盲人描述房間布局,雖然能夠傳達(dá)基本信息,但往往會遺漏重要的視覺細(xì)節(jié)。隨著多模態(tài)技術(shù)的發(fā)展,現(xiàn)代框架開始直接處理屏幕截圖,這讓智能體能夠像人類一樣"看到"界面的真實(shí)外觀。為了幫助模型更好地理解界面元素,研究人員開發(fā)了各種視覺標(biāo)注技術(shù),比如在重要按鈕周圍添加標(biāo)記,或者使用顏色高亮來指示可操作區(qū)域。
規(guī)劃模塊承擔(dān)著"大腦"的作用,負(fù)責(zé)將用戶需求轉(zhuǎn)化為具體的行動計劃。這個模塊面臨的挑戰(zhàn)在于如何在動態(tài)變化的環(huán)境中制定可行的策略。全局規(guī)劃方法會事先制定詳細(xì)的操作序列,就像GPS導(dǎo)航提供的完整路線圖。這種方法的優(yōu)勢是邏輯清晰,易于跟蹤進(jìn)度,但缺點(diǎn)是難以應(yīng)對意外情況。迭代規(guī)劃方法則更加靈活,它會根據(jù)每一步的執(zhí)行結(jié)果來調(diào)整下一步的行動,就像一個經(jīng)驗(yàn)豐富的司機(jī)會根據(jù)路況實(shí)時調(diào)整行駛路線。
記憶模塊就像智能體的"筆記本",存儲著歷史操作經(jīng)驗(yàn)和學(xué)習(xí)到的知識。這個模塊包含多個層次的記憶系統(tǒng)。短期記憶保存當(dāng)前任務(wù)的操作歷史和屏幕截圖,幫助智能體維持對當(dāng)前情況的準(zhǔn)確理解。長期記憶則存儲著用戶偏好、常用應(yīng)用的操作模式,以及歷史任務(wù)的成功經(jīng)驗(yàn)。一些先進(jìn)的系統(tǒng)還具備經(jīng)驗(yàn)檢索功能,能夠從歷史記錄中找到相似的情況,并應(yīng)用之前學(xué)到的成功策略。
動作模塊是框架的"手腳",負(fù)責(zé)將決策轉(zhuǎn)化為實(shí)際的系統(tǒng)操作。這個模塊需要處理各種不同類型的操作指令,從簡單的鼠標(biāo)點(diǎn)擊到復(fù)雜的多步驟工作流程?,F(xiàn)代框架不僅支持基礎(chǔ)的界面操作,還能夠調(diào)用系統(tǒng)功能、執(zhí)行代碼腳本,甚至與外部服務(wù)進(jìn)行交互。這種擴(kuò)展能力讓智能體能夠完成更加復(fù)雜和多樣化的任務(wù)。
四、評估體系:如何衡量AI助手的能力
評估操作系統(tǒng)智能體的能力就像為一名求職者設(shè)計面試流程,需要從多個維度全面考察其實(shí)際工作能力。研究人員建立了一套完整的評估體系,既包括客觀的性能指標(biāo),也結(jié)合了主觀的用戶體驗(yàn)評價。
評估原則的設(shè)計充分考慮了操作系統(tǒng)智能體的實(shí)際應(yīng)用場景。客觀評估就像標(biāo)準(zhǔn)化考試,通過統(tǒng)一的評分標(biāo)準(zhǔn)來衡量智能體的表現(xiàn)。這類評估主要關(guān)注操作的準(zhǔn)確性、任務(wù)完成率、執(zhí)行效率等可量化指標(biāo)。研究人員會設(shè)計一系列標(biāo)準(zhǔn)任務(wù),比如在電商網(wǎng)站購買特定商品、發(fā)送郵件、編輯文檔等,然后觀察智能體能否正確完成這些任務(wù)。評估過程中會記錄每個操作步驟的準(zhǔn)確性,統(tǒng)計任務(wù)完成的時間,計算成功率等關(guān)鍵指標(biāo)。
主觀評估則更像用戶體驗(yàn)調(diào)研,關(guān)注智能體的表現(xiàn)是否符合人類的期望和使用習(xí)慣。這類評估邀請真實(shí)用戶與智能體進(jìn)行交互,收集他們對于操作合理性、響應(yīng)速度、交互友好程度等方面的反饋。由于人工評估成本較高且難以規(guī)?;S多研究開始使用大語言模型作為評判者,讓AI來評價AI的表現(xiàn)。這種方法能夠提供詳細(xì)的評價解釋,幫助研究人員理解智能體的優(yōu)勢和不足。
評估指標(biāo)的設(shè)計分為步驟級和任務(wù)級兩個層面。步驟級評估就像檢查學(xué)生解題的每一個過程,關(guān)注智能體在執(zhí)行每個具體操作時的準(zhǔn)確性。這包括動作選擇是否正確、目標(biāo)元素定位是否準(zhǔn)確、操作參數(shù)是否合適等。對于涉及文本生成的任務(wù),評估還會使用傳統(tǒng)的自然語言處理指標(biāo),比如BLEU分?jǐn)?shù)來衡量生成內(nèi)容的質(zhì)量。
任務(wù)級評估則更注重最終結(jié)果,就像只關(guān)心學(xué)生是否得出了正確答案。主要指標(biāo)包括任務(wù)成功率,即智能體能否最終完成用戶指定的目標(biāo)。除了成功與否,評估還會考慮執(zhí)行效率,包括完成任務(wù)所需的步驟數(shù)量、時間消耗、資源使用等。一些評估還引入了獎勵函數(shù)的概念,根據(jù)任務(wù)完成的質(zhì)量和效率給出綜合評分。
五、評估基準(zhǔn):真實(shí)世界的考試題庫
為了客觀評估操作系統(tǒng)智能體的能力,研究社區(qū)開發(fā)了大量的基準(zhǔn)測試,這些基準(zhǔn)就像是為AI助手設(shè)計的各種"考試題目",涵蓋了從簡單到復(fù)雜的各種應(yīng)用場景。
評估平臺的選擇反映了現(xiàn)代數(shù)字生活的多樣性。移動平臺基準(zhǔn)主要基于Android和iOS系統(tǒng),這些基準(zhǔn)測試智能體在處理手機(jī)應(yīng)用時的能力。移動設(shè)備雖然屏幕較小,界面相對簡潔,但需要處理觸摸手勢、應(yīng)用切換、通知處理等特有的交互模式。桌面平臺基準(zhǔn)則覆蓋了Windows、Linux、MacOS等主流操作系統(tǒng),測試智能體在處理復(fù)雜桌面應(yīng)用時的表現(xiàn)。桌面環(huán)境通常提供更豐富的功能和更復(fù)雜的工作流程,對智能體的規(guī)劃和執(zhí)行能力提出了更高要求。網(wǎng)頁平臺基準(zhǔn)關(guān)注智能體在各種網(wǎng)站和Web應(yīng)用中的表現(xiàn),這類環(huán)境的特點(diǎn)是內(nèi)容動態(tài)變化,需要智能體具備強(qiáng)大的適應(yīng)能力。
基準(zhǔn)設(shè)置的設(shè)計考慮了評估的可行性和可重復(fù)性。靜態(tài)環(huán)境基準(zhǔn)使用預(yù)先保存的網(wǎng)頁快照或應(yīng)用界面,確保每次測試都在相同條件下進(jìn)行。這種方法的優(yōu)勢是測試結(jié)果穩(wěn)定可比較,但缺點(diǎn)是無法反映真實(shí)使用中的動態(tài)特性。交互式環(huán)境基準(zhǔn)則更接近真實(shí)使用場景,智能體需要在動態(tài)變化的環(huán)境中完成任務(wù)。這類基準(zhǔn)又分為模擬環(huán)境和真實(shí)環(huán)境兩種。模擬環(huán)境通過虛擬應(yīng)用或網(wǎng)站來避免現(xiàn)實(shí)世界的不可控因素,而真實(shí)環(huán)境基準(zhǔn)則直接在真實(shí)的應(yīng)用和網(wǎng)站中進(jìn)行測試,雖然更具挑戰(zhàn)性,但也更能反映實(shí)際應(yīng)用價值。
任務(wù)類型的分類幫助研究人員全面評估智能體的各項(xiàng)能力。界面理解任務(wù)測試智能體是否能夠正確理解和解析各種用戶界面元素,這就像測試一個人是否能夠看懂復(fù)雜的儀表盤。這類任務(wù)要求智能體準(zhǔn)確識別按鈕、鏈接、輸入框等可交互元素,并理解它們的功能和狀態(tài)。
信息處理任務(wù)評估智能體收集、整理和利用信息的能力。這包括信息檢索任務(wù),測試智能體能否從復(fù)雜的頁面中找到特定信息,以及信息匯總?cè)蝿?wù),考察智能體整合多源信息的能力。這類任務(wù)就像要求助手從大量文檔中找到關(guān)鍵信息并形成摘要報告。
智能體任務(wù)則是最綜合的評估類別,要求智能體像人類用戶一樣完成完整的工作流程。這些任務(wù)可能跨越多個應(yīng)用,需要智能體具備規(guī)劃、執(zhí)行、監(jiān)控、調(diào)整等全方位能力。比如安排一次商務(wù)旅行可能需要智能體搜索航班信息、比較價格、預(yù)訂機(jī)票、安排住宿、制定行程等多個步驟,每個步驟都可能需要在不同的網(wǎng)站和應(yīng)用之間切換。
六、技術(shù)挑戰(zhàn)與未來發(fā)展:通向真正智能助手的道路
盡管操作系統(tǒng)智能體技術(shù)已經(jīng)取得了顯著進(jìn)展,但要實(shí)現(xiàn)真正像賈維斯一樣的智能助手,仍然面臨著諸多挑戰(zhàn)。這些挑戰(zhàn)就像登山路上的各種障礙,需要研究人員不斷創(chuàng)新來逐一解決。
安全與隱私是當(dāng)前最緊迫的挑戰(zhàn)之一。當(dāng)AI助手能夠直接操作我們的設(shè)備時,就像給了一個陌生人我們家的鑰匙,必須確保它不會被惡意利用。研究人員發(fā)現(xiàn)了多種針對操作系統(tǒng)智能體的攻擊方式。有些攻擊者會在網(wǎng)頁中嵌入惡意指令,試圖誘導(dǎo)智能體執(zhí)行不當(dāng)操作,這就像在路標(biāo)上貼上錯誤的方向指示來誤導(dǎo)司機(jī)。另一種攻擊方式是通過精心設(shè)計的圖像來混淆智能體的視覺理解系統(tǒng),讓它將惡意內(nèi)容誤認(rèn)為正常操作指令。更隱蔽的攻擊則會利用環(huán)境注入技術(shù),在用戶不知情的情況下控制智能體泄露個人信息。
針對這些安全威脅,研究人員正在開發(fā)多層次的防護(hù)機(jī)制。這包括輸入驗(yàn)證系統(tǒng),能夠識別和過濾可疑的指令;行為監(jiān)控機(jī)制,實(shí)時檢測異常的操作模式;以及權(quán)限控制系統(tǒng),限制智能體能夠訪問的系統(tǒng)功能和個人數(shù)據(jù)。一些研究還提出了基于人工反饋的安全訓(xùn)練方法,通過人類專家的指導(dǎo)來提高智能體的安全意識。
個性化與自我進(jìn)化能力是實(shí)現(xiàn)真正智能助手的另一個關(guān)鍵挑戰(zhàn)。理想的AI助手應(yīng)該能夠?qū)W習(xí)用戶的偏好和習(xí)慣,就像一個貼心的管家會記住主人喜歡的咖啡口味和作息時間。當(dāng)前的智能體大多缺乏這種個性化學(xué)習(xí)能力,它們更像是按照固定程序工作的機(jī)器人,而不是能夠成長和適應(yīng)的智能伙伴。
實(shí)現(xiàn)個性化需要智能體具備多層次的記憶和學(xué)習(xí)機(jī)制。短期記憶幫助智能體在單次交互中保持上下文連貫性,中期記憶存儲用戶在一段時間內(nèi)的行為模式,而長期記憶則需要捕獲用戶的深層偏好和價值觀。這種記憶系統(tǒng)不僅要能夠存儲信息,還要能夠隨時間演化,就像人類的記憶會隨著新經(jīng)歷而更新和重組。
自我進(jìn)化能力則要求智能體能夠從經(jīng)驗(yàn)中學(xué)習(xí)并持續(xù)改進(jìn)。這不僅包括從成功經(jīng)驗(yàn)中學(xué)習(xí)有效策略,還要能夠從失敗中吸取教訓(xùn),避免重復(fù)犯錯。一些研究正在探索讓智能體通過與環(huán)境的交互來自主發(fā)現(xiàn)新的操作技巧,或者通過觀察用戶的操作來學(xué)習(xí)更高效的工作方法。
技術(shù)標(biāo)準(zhǔn)化也是推動領(lǐng)域發(fā)展的重要議題。目前不同研究團(tuán)隊(duì)使用的評估方法、數(shù)據(jù)格式、交互協(xié)議都存在差異,這就像不同廠商的產(chǎn)品使用不同的充電接口,給用戶帶來不便。建立統(tǒng)一的技術(shù)標(biāo)準(zhǔn)有助于促進(jìn)不同系統(tǒng)之間的互操作性,也能夠讓研究成果更容易被其他團(tuán)隊(duì)復(fù)用和改進(jìn)。
研究人員還在探索更高級的推理和規(guī)劃能力。當(dāng)前的智能體在處理復(fù)雜多步驟任務(wù)時仍然容易出錯,特別是當(dāng)環(huán)境發(fā)生意外變化時。未來的智能體需要具備更強(qiáng)的抽象思維能力,能夠理解任務(wù)的本質(zhì)目標(biāo)而不僅僅是表面步驟,這樣才能在遇到新情況時靈活應(yīng)對。
多模態(tài)理解能力的提升也是重要發(fā)展方向?,F(xiàn)實(shí)中的用戶界面包含文字、圖像、視頻、音頻等多種信息形式,智能體需要能夠綜合處理這些不同類型的信息。此外,隨著虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)技術(shù)的發(fā)展,智能體還需要適應(yīng)三維空間中的交互模式。
七、產(chǎn)業(yè)應(yīng)用前景:改變我們的數(shù)字生活
操作系統(tǒng)智能體技術(shù)的發(fā)展正在推動一場數(shù)字生活方式的革命。這種變化不僅僅是技術(shù)進(jìn)步,更是我們與數(shù)字設(shè)備交互方式的根本性轉(zhuǎn)變。
在個人生活領(lǐng)域,智能助手將成為我們的數(shù)字生活管家。早晨起床時,它可能已經(jīng)根據(jù)你的日程安排和天氣情況為你規(guī)劃好了一天的行程,訂好了午餐,甚至預(yù)約了健身房。當(dāng)你需要處理復(fù)雜的在線事務(wù)時,比如申請簽證、稅務(wù)申報、保險理賠等,智能助手能夠代替你完成大部分繁瑣的表格填寫和文檔提交工作,只在關(guān)鍵決策點(diǎn)征求你的意見。
對于老年人和有障礙的用戶群體,這項(xiàng)技術(shù)的意義尤為重大。復(fù)雜的用戶界面和頻繁更新的應(yīng)用程序經(jīng)常讓這些用戶感到困惑和挫敗。有了智能助手的幫助,他們可以通過自然語言描述需求,而不必學(xué)習(xí)復(fù)雜的操作步驟。這就像有了一個永不厭煩的技術(shù)支持專員,隨時準(zhǔn)備提供幫助。
在商業(yè)環(huán)境中,操作系統(tǒng)智能體將重新定義辦公自動化。傳統(tǒng)的辦公軟件要求用戶掌握各種功能和操作技巧,而智能助手可以讓用戶專注于創(chuàng)意和決策,將執(zhí)行層面的工作交給AI處理。比如,銷售人員只需要說"根據(jù)上個月的數(shù)據(jù)制作一份客戶分析報告",智能助手就能自動收集數(shù)據(jù)、生成圖表、撰寫分析內(nèi)容,并按照公司模板格式化文檔。
客戶服務(wù)行業(yè)也將因這項(xiàng)技術(shù)而發(fā)生深刻變化。智能助手不僅能夠回答客戶問題,還能直接幫助客戶完成各種操作,比如修改訂單、處理退換貨、更新個人信息等。這種能力讓客戶服務(wù)從純粹的信息提供轉(zhuǎn)向?qū)嶋H的問題解決,大大提升了服務(wù)質(zhì)量和效率。
教育領(lǐng)域的應(yīng)用前景同樣令人興奮。智能助手可以成為個性化的學(xué)習(xí)伙伴,根據(jù)學(xué)生的學(xué)習(xí)進(jìn)度和理解能力調(diào)整教學(xué)內(nèi)容。當(dāng)學(xué)生在使用學(xué)習(xí)軟件時遇到困難,助手能夠?qū)崟r提供指導(dǎo),就像一個經(jīng)驗(yàn)豐富的老師坐在旁邊隨時解答疑問。
然而,這種技術(shù)普及也帶來了新的社會議題。大規(guī)模的任務(wù)自動化可能會改變就業(yè)結(jié)構(gòu),一些依賴重復(fù)性操作的工作可能會被智能助手替代。同時,過度依賴AI助手可能會導(dǎo)致人們數(shù)字技能的退化,就像GPS導(dǎo)航的普及讓很多人失去了看地圖的能力。
隱私保護(hù)也是需要認(rèn)真考慮的問題。智能助手需要訪問大量個人數(shù)據(jù)才能提供個性化服務(wù),如何在享受便利的同時保護(hù)個人隱私,需要技術(shù)創(chuàng)新和法規(guī)制定的雙重保障。
說到底,操作系統(tǒng)智能體技術(shù)代表了人工智能發(fā)展的一個重要里程碑。從最初的簡單語音助手到現(xiàn)在能夠直接操作設(shè)備的智能代理,我們正在見證AI從"理解"向"行動"的跨越。這項(xiàng)由浙江大學(xué)等多家機(jī)構(gòu)聯(lián)合推出的綜合調(diào)研,不僅全面梳理了當(dāng)前技術(shù)發(fā)展的現(xiàn)狀,更為未來的研究指明了方向。
雖然距離真正的賈維斯級別智能助手還有一段路要走,但技術(shù)發(fā)展的步伐正在加速。隨著計算能力的提升、訓(xùn)練數(shù)據(jù)的豐富、算法的改進(jìn),以及產(chǎn)業(yè)界的積極投入,我們有理由相信,在不久的將來,每個人都能擁有一個真正智能的數(shù)字伙伴。這個伙伴不僅能理解我們的需求,還能主動幫助我們處理日常事務(wù),讓我們從繁瑣的數(shù)字操作中解放出來,專注于更有創(chuàng)意和價值的工作。
當(dāng)然,在享受技術(shù)便利的同時,我們也需要思考如何在人與AI的協(xié)作中保持人類的主導(dǎo)地位,確保技術(shù)發(fā)展服務(wù)于人類福祉的最終目標(biāo)。這需要技術(shù)研究者、政策制定者、產(chǎn)業(yè)界和社會各界的共同努力,在推動技術(shù)創(chuàng)新的同時,建立相應(yīng)的倫理規(guī)范和安全保障體系。
Q&A
Q1:什么是操作系統(tǒng)智能體?它和普通的語音助手有什么區(qū)別?
A:操作系統(tǒng)智能體是能夠直接操作電腦、手機(jī)等設(shè)備的AI助手,不同于Siri、小愛等只能語音對話的助手。它們能夠"看懂"屏幕內(nèi)容,像人類一樣點(diǎn)擊按鈕、填寫表格、瀏覽網(wǎng)頁,自動完成網(wǎng)購、郵件處理等復(fù)雜任務(wù),就像電影中的賈維斯一樣能夠?qū)嶋H控制各種系統(tǒng)。
Q2:操作系統(tǒng)智能體現(xiàn)在能做哪些具體的事情?
A:目前的操作系統(tǒng)智能體已經(jīng)能夠處理很多日常任務(wù),比如在電商網(wǎng)站購買商品、發(fā)送和管理郵件、制作文檔和報告、預(yù)訂餐廳和酒店、處理在線表格填寫等。它們能夠跨越不同的應(yīng)用和網(wǎng)站,按照用戶需求自動完成多步驟的操作流程,大大減少人工操作的繁瑣性。
Q3:操作系統(tǒng)智能體的安全性如何保障?會不會泄露個人隱私?
A:研究人員已經(jīng)識別出多種安全風(fēng)險,包括惡意網(wǎng)頁誘導(dǎo)、隱私信息泄露等問題,并正在開發(fā)多層防護(hù)機(jī)制。這包括輸入驗(yàn)證系統(tǒng)過濾可疑指令、行為監(jiān)控檢測異常操作、權(quán)限控制限制訪問范圍等。雖然技術(shù)還在完善中,但安全和隱私保護(hù)已經(jīng)成為這個領(lǐng)域最重要的研究方向之一。
好文章,需要你的鼓勵
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學(xué)習(xí)外觀和運(yùn)動信息,顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運(yùn)動質(zhì)量,在多項(xiàng)測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報,準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。