這項(xiàng)由上海AI實(shí)驗(yàn)室牽頭、聯(lián)合香港大學(xué)、牛津大學(xué)、上海交通大學(xué)、約翰霍普金斯大學(xué)和香港科技大學(xué)的重要研究發(fā)表于2025年6月的arXiv平臺(tái)。研究團(tuán)隊(duì)由上海AI實(shí)驗(yàn)室的孫秋實(shí)、程康智、丁子晨等研究員領(lǐng)導(dǎo),論文標(biāo)題為《OS-Genesis: Automating GUI Agent Trajectory Construction via Reverse Task Synthesis》。有興趣深入了解的讀者可以訪問項(xiàng)目主頁獲取完整論文、代碼和數(shù)據(jù)。
想象一下,如果你要教一個(gè)機(jī)器人學(xué)會(huì)使用智能手機(jī)或電腦,傳統(tǒng)的方法就像給它一本厚厚的操作手冊(cè),里面詳細(xì)列出了每一個(gè)可能遇到的情況和對(duì)應(yīng)的操作步驟。但問題是,現(xiàn)實(shí)世界的應(yīng)用軟件變化太快,手冊(cè)永遠(yuǎn)跟不上實(shí)際需要,而且手冊(cè)越厚,機(jī)器人學(xué)起來越困難。上海AI實(shí)驗(yàn)室的研究團(tuán)隊(duì)提出了一個(gè)完全不同的思路:讓機(jī)器人自己去探索和學(xué)習(xí),就像一個(gè)好奇的孩子拿到新玩具后會(huì)到處點(diǎn)擊嘗試一樣。
研究團(tuán)隊(duì)將他們的新方法命名為OS-Genesis,這個(gè)名字很形象——"OS"代表操作系統(tǒng),"Genesis"意為創(chuàng)世紀(jì),暗示這是一種全新的、創(chuàng)造性的訓(xùn)練方法。與傳統(tǒng)方法最大的不同在于,OS-Genesis不需要人工預(yù)先設(shè)定任務(wù),而是讓AI智能體先自由地與界面互動(dòng),然后再根據(jù)這些互動(dòng)的結(jié)果反推出有意義的任務(wù)。這就像是讓一個(gè)人先在廚房里隨意嘗試各種操作,觀察每個(gè)操作產(chǎn)生的結(jié)果,然后總結(jié)出"如何做一道菜"的完整流程。
這種"反向任務(wù)合成"的方法解決了目前GUI(圖形用戶界面)智能體訓(xùn)練中的一個(gè)根本性問題。以往的方法依賴于大量人工標(biāo)注的訓(xùn)練數(shù)據(jù),就像雇傭成千上萬的人來演示"如何使用微信發(fā)朋友圈"、"如何在淘寶上購物"等等具體任務(wù)。這不僅成本極高,而且覆蓋面有限——你永遠(yuǎn)無法預(yù)料用戶會(huì)遇到什么樣的新應(yīng)用或新功能。更關(guān)鍵的是,這些預(yù)定義的任務(wù)往往與真實(shí)的使用環(huán)境存在差距,就像按照教科書學(xué)開車和實(shí)際上路開車完全是兩回事。
OS-Genesis的工作原理可以用探險(xiǎn)家繪制地圖來類比。傳統(tǒng)方法就像是先畫好地圖再去探險(xiǎn),而OS-Genesis則是先去探險(xiǎn),在探索過程中逐步繪制出準(zhǔn)確的地圖。具體來說,系統(tǒng)首先讓AI智能體在移動(dòng)應(yīng)用和網(wǎng)頁環(huán)境中隨意點(diǎn)擊、滑動(dòng)、輸入,就像一個(gè)小孩子好奇地點(diǎn)擊屏幕上的各種按鈕。每次操作后,系統(tǒng)會(huì)記錄操作前后的屏幕變化,形成大量的"操作-結(jié)果"配對(duì)數(shù)據(jù)。
接下來是關(guān)鍵的"反向推理"環(huán)節(jié)。系統(tǒng)會(huì)分析這些操作和對(duì)應(yīng)的界面變化,推測(cè)出執(zhí)行這個(gè)操作的可能意圖。比如,如果系統(tǒng)觀察到點(diǎn)擊某個(gè)按鈕后彈出了一個(gè)輸入框,它就會(huì)推斷這個(gè)操作的目的可能是"打開輸入界面以便輸入信息"。然后,系統(tǒng)會(huì)進(jìn)一步思考,這樣的操作序列可能服務(wù)于什么更大的目標(biāo),比如"創(chuàng)建新賬戶"或"發(fā)送消息"。
為了確保生成的訓(xùn)練數(shù)據(jù)質(zhì)量,研究團(tuán)隊(duì)還設(shè)計(jì)了一個(gè)"軌跡獎(jiǎng)勵(lì)模型",就像一個(gè)經(jīng)驗(yàn)豐富的老師來評(píng)估學(xué)生的作業(yè)質(zhì)量。這個(gè)模型會(huì)對(duì)每一條生成的操作序列打分,評(píng)估標(biāo)準(zhǔn)包括操作的完整性(是否真正完成了預(yù)期任務(wù))和連貫性(操作步驟是否邏輯合理、沒有多余的繞彎)。評(píng)分采用1到5分的等級(jí)制,5分代表任務(wù)完美完成且操作高效,1分代表任務(wù)完全失敗或操作毫無意義。
這種評(píng)分系統(tǒng)特別智能的地方在于,它不會(huì)簡(jiǎn)單地丟棄那些沒有完全完成任務(wù)的操作序列。研究團(tuán)隊(duì)發(fā)現(xiàn),即使是"失敗"的嘗試,往往也包含有價(jià)值的探索過程和部分正確的操作,這些都可以為AI智能體的學(xué)習(xí)提供有用信息。這就像學(xué)習(xí)騎自行車時(shí),即使摔倒了,但摔倒前的平衡嘗試仍然是寶貴的學(xué)習(xí)經(jīng)驗(yàn)。
一、讓機(jī)器人變成"好奇寶寶":交互式功能發(fā)現(xiàn)
OS-Genesis方法的第一步,研究團(tuán)隊(duì)稱之為"交互式功能發(fā)現(xiàn)",這個(gè)過程就像讓一個(gè)充滿好奇心的孩子第一次接觸智能手機(jī)一樣。系統(tǒng)不帶任何預(yù)設(shè)目標(biāo),純粹出于"好奇"而與各種界面元素進(jìn)行交互。這種方法的核心思想是模仿人類探索新軟件時(shí)的天然行為——我們拿到一個(gè)新的APP時(shí),通常會(huì)先隨意點(diǎn)擊各種按鈕和菜單,看看會(huì)發(fā)生什么。
在技術(shù)實(shí)現(xiàn)上,系統(tǒng)會(huì)在安卓模擬器和Chrome瀏覽器中運(yùn)行,就像在兩個(gè)不同的"練習(xí)場(chǎng)"中進(jìn)行探索。整個(gè)探索過程基本上是按規(guī)則進(jìn)行的,系統(tǒng)會(huì)自動(dòng)識(shí)別屏幕上可以點(diǎn)擊的元素,然后隨機(jī)選擇進(jìn)行交互。唯一需要"智能"參與的場(chǎng)景是遇到輸入框的時(shí)候——這時(shí)系統(tǒng)會(huì)調(diào)用GPT-4o來生成合適的輸入內(nèi)容,確保輸入的文字符合上下文語境。
這個(gè)探索過程會(huì)產(chǎn)生大量的"三元組"數(shù)據(jù),每個(gè)三元組包含三個(gè)部分:操作前的屏幕截圖、執(zhí)行的具體操作、操作后的屏幕截圖??梢园堰@些三元組想象成一本翻頁動(dòng)畫書,每一頁都記錄了界面在某個(gè)操作下發(fā)生的變化。這些看似簡(jiǎn)單的記錄,實(shí)際上包含了豐富的功能信息和操作邏輯。
比如,系統(tǒng)可能會(huì)記錄這樣一個(gè)序列:在一個(gè)日歷應(yīng)用中點(diǎn)擊"添加事件"按鈕(操作前截圖顯示日歷主界面),執(zhí)行點(diǎn)擊操作,然后屏幕跳轉(zhuǎn)到事件創(chuàng)建頁面(操作后截圖顯示輸入表單)。這個(gè)簡(jiǎn)單的三元組就蘊(yùn)含了"如何在日歷中創(chuàng)建新事件"這一功能的關(guān)鍵信息。
通過這種"漫無目的"的探索,系統(tǒng)實(shí)際上在系統(tǒng)性地發(fā)現(xiàn)應(yīng)用的各種功能。與傳統(tǒng)的預(yù)定義任務(wù)方法相比,這種探索方式能夠發(fā)現(xiàn)那些人工任務(wù)設(shè)計(jì)者可能遺漏的細(xì)節(jié)功能。就像一個(gè)細(xì)心的游客可能會(huì)發(fā)現(xiàn)當(dāng)?shù)厝硕疾恢赖男”娋包c(diǎn)一樣,這種自由探索往往能挖掘出應(yīng)用中被忽視但實(shí)用的功能細(xì)節(jié)。
更重要的是,這種探索方式完全不需要人工干預(yù),系統(tǒng)可以24小時(shí)不間斷地在各種應(yīng)用中進(jìn)行探索,積累海量的交互數(shù)據(jù)。這種規(guī)模化的數(shù)據(jù)收集能力是傳統(tǒng)人工標(biāo)注方法無法企及的。研究團(tuán)隊(duì)通過這種方式,在移動(dòng)和網(wǎng)頁環(huán)境中收集了成千上萬個(gè)交互三元組,為后續(xù)的任務(wù)合成奠定了堅(jiān)實(shí)基礎(chǔ)。
二、化整為零再重組:反向任務(wù)合成的奧秘
收集到大量交互數(shù)據(jù)后,OS-Genesis進(jìn)入了最具創(chuàng)新性的階段——反向任務(wù)合成。這個(gè)過程就像是一位經(jīng)驗(yàn)豐富的偵探,通過分析現(xiàn)場(chǎng)的蛛絲馬跡來重構(gòu)整個(gè)事件的經(jīng)過。不同的是,這里的"案發(fā)現(xiàn)場(chǎng)"是屏幕截圖,"蛛絲馬跡"是界面的變化,而要重構(gòu)的"事件經(jīng)過"則是用戶可能的操作意圖。
反向任務(wù)合成包含兩個(gè)層次的推理過程。第一個(gè)層次是"低級(jí)指令生成",系統(tǒng)需要根據(jù)每個(gè)交互三元組推斷出對(duì)應(yīng)的具體操作意圖。這就像看到一個(gè)人拿起杯子的動(dòng)作,推斷出他的immediate intention(直接意圖)是"喝水"。在GUI交互中,如果系統(tǒng)觀察到點(diǎn)擊某個(gè)下拉菜單后出現(xiàn)了選項(xiàng)列表,它會(huì)推斷這個(gè)操作的直接目的是"展開選項(xiàng)以便選擇"。
這個(gè)推理過程需要綜合考慮視覺、上下文和操作語義三個(gè)方面的信息。視覺信息告訴系統(tǒng)界面發(fā)生了什么變化,上下文信息提供當(dāng)前的應(yīng)用場(chǎng)景,操作語義則幫助理解這種變化的含義。研究團(tuán)隊(duì)使用GPT-4o作為"推理引擎",讓它扮演一個(gè)擅長(zhǎng)分析用戶行為的專家,根據(jù)前后截圖的對(duì)比來推斷操作的直接目的。
第二個(gè)層次是"高級(jí)指令生成",這是一個(gè)更加復(fù)雜的抽象過程。系統(tǒng)需要將多個(gè)相關(guān)的低級(jí)操作組合起來,推斷出更宏觀的任務(wù)目標(biāo)。這就像一位導(dǎo)演看到演員的一系列單獨(dú)動(dòng)作后,推斷出這些動(dòng)作共同構(gòu)成的完整劇情。比如,"點(diǎn)擊登錄按鈕"、"輸入用戶名"、"輸入密碼"、"點(diǎn)擊確認(rèn)"這一系列低級(jí)操作,可能共同指向"用戶登錄賬戶"這個(gè)高級(jí)任務(wù)。
在實(shí)際操作中,系統(tǒng)會(huì)分析每個(gè)低級(jí)操作的上下文環(huán)境和潛在后續(xù)操作,利用領(lǐng)域知識(shí)和常見的用戶行為模式來推斷可能的高級(jí)目標(biāo)。這個(gè)過程需要一定的"想象力"——系統(tǒng)需要設(shè)想一個(gè)合理的用戶場(chǎng)景,在這個(gè)場(chǎng)景中,觀察到的操作序列是有意義和完整的。
例如,在一個(gè)購物應(yīng)用中,系統(tǒng)可能觀察到這樣的操作序列:搜索"有機(jī)綠茶"→點(diǎn)擊篩選選項(xiàng)→選擇"健康食品"類別→按價(jià)格排序?;谶@些低級(jí)操作,系統(tǒng)會(huì)推斷出一個(gè)合理的高級(jí)任務(wù):"搜索有機(jī)綠茶產(chǎn)品,并按健康食品類別篩選,然后按價(jià)格從低到高排序"。這個(gè)推斷過程考慮了操作的邏輯連貫性和實(shí)際使用場(chǎng)景的合理性。
通過這種雙層推理機(jī)制,OS-Genesis能夠從原始的交互數(shù)據(jù)中提取出豐富的任務(wù)指令集合。這些指令不是人為預(yù)設(shè)的,而是從真實(shí)的界面交互中"發(fā)現(xiàn)"的,因此更貼近實(shí)際使用場(chǎng)景,覆蓋面也更廣泛。更重要的是,這個(gè)過程是完全自動(dòng)化的,可以隨著新的交互數(shù)據(jù)的產(chǎn)生而持續(xù)擴(kuò)展任務(wù)覆蓋范圍。
三、質(zhì)量把關(guān)的智慧裁判:軌跡獎(jiǎng)勵(lì)模型
有了自動(dòng)生成的任務(wù)指令后,OS-Genesis面臨著一個(gè)新的挑戰(zhàn):如何確保這些合成的訓(xùn)練數(shù)據(jù)具有足夠高的質(zhì)量?畢竟,再好的原材料如果加工不當(dāng),也可能變成無用甚至有害的產(chǎn)品。研究團(tuán)隊(duì)為此設(shè)計(jì)了一個(gè)精巧的質(zhì)量控制機(jī)制——軌跡獎(jiǎng)勵(lì)模型(TRM),它就像一位經(jīng)驗(yàn)豐富的質(zhì)檢員,能夠準(zhǔn)確評(píng)估每條操作軌跡的價(jià)值。
傳統(tǒng)的方法通常采用非黑即白的評(píng)判標(biāo)準(zhǔn),要么認(rèn)為一條軌跡完全正確可用,要么認(rèn)為完全錯(cuò)誤應(yīng)該丟棄。這種簡(jiǎn)單粗暴的篩選方式會(huì)造成大量有價(jià)值信息的浪費(fèi)。就像學(xué)習(xí)游泳時(shí),即使沒有成功游到對(duì)岸,但過程中的正確動(dòng)作仍然是寶貴的學(xué)習(xí)素材。OS-Genesis的軌跡獎(jiǎng)勵(lì)模型采用了更加細(xì)致和人性化的評(píng)分機(jī)制。
TRM基于GPT-4o構(gòu)建,它會(huì)從兩個(gè)主要維度來評(píng)估每條操作軌跡的質(zhì)量。第一個(gè)維度是"完成度",評(píng)估軌跡是否成功完成了預(yù)期的任務(wù)目標(biāo),是否處理好了各種交互細(xì)節(jié),是否達(dá)到了任務(wù)的最終狀態(tài)。第二個(gè)維度是"連貫性",評(píng)估操作步驟之間是否存在邏輯關(guān)系,是否避免了冗余或無關(guān)的操作,是否遵循了合理的任務(wù)執(zhí)行順序。
評(píng)分系統(tǒng)采用1到5分的精細(xì)化等級(jí)。5分代表任務(wù)完美完成,操作序列邏輯清晰,沒有明顯的多余步驟,整個(gè)軌跡展現(xiàn)了高效而準(zhǔn)確的任務(wù)執(zhí)行能力。4分表示任務(wù)基本完成,但可能存在一些小的不完美之處,比如執(zhí)行路徑不夠優(yōu)化,或者在某些步驟上有輕微的歧義。3分意味著任務(wù)部分完成,雖然沒有完全達(dá)到目標(biāo),但展現(xiàn)了一定的正確操作思路,這種軌跡仍然具有學(xué)習(xí)價(jià)值。
特別值得注意的是,TRM對(duì)2分和1分軌跡的處理體現(xiàn)了系統(tǒng)的智慧性。2分軌跡雖然只執(zhí)行了少數(shù)正確操作就偏離了目標(biāo),但仍然包含一些有用的探索嘗試。1分軌跡則是那些從一開始就完全走錯(cuò)方向,或者陷入無意義循環(huán)的操作序列。即使是這些"失敗"的軌跡,在適當(dāng)?shù)挠?xùn)練策略下也可能為AI智能體提供反面教材。
在實(shí)際訓(xùn)練過程中,TRM的評(píng)分不僅僅用于簡(jiǎn)單的數(shù)據(jù)篩選,更重要的是用于智能化的采樣策略。系統(tǒng)會(huì)根據(jù)每條軌跡的得分來計(jì)算其在訓(xùn)練中被選中的概率,得分越高的軌跡越有可能被用于訓(xùn)練,但低分軌跡也不會(huì)被完全忽略。這種加權(quán)采樣方式確保了高質(zhì)量數(shù)據(jù)占主導(dǎo)地位,同時(shí)保留了多樣性和完整性。
為了驗(yàn)證TRM評(píng)分的可靠性,研究團(tuán)隊(duì)進(jìn)行了大量的一致性分析。他們邀請(qǐng)人類專家對(duì)同一批軌跡進(jìn)行評(píng)分,然后計(jì)算人類評(píng)分與TRM評(píng)分之間的相關(guān)性。結(jié)果顯示,在移動(dòng)應(yīng)用任務(wù)中,兩者的斯皮爾曼相關(guān)系數(shù)達(dá)到0.813,在網(wǎng)頁任務(wù)中達(dá)到0.798,這表明TRM的評(píng)判標(biāo)準(zhǔn)與人類專家高度一致。同時(shí),他們還測(cè)試了不同AI模型作為TRM的效果,發(fā)現(xiàn)即使使用開源的大型視覺語言模型,也能取得相當(dāng)可靠的評(píng)分結(jié)果。
四、雙重訓(xùn)練目標(biāo):讓AI既會(huì)規(guī)劃又會(huì)執(zhí)行
有了高質(zhì)量的訓(xùn)練數(shù)據(jù)后,OS-Genesis采用了一個(gè)精心設(shè)計(jì)的訓(xùn)練策略,就像培養(yǎng)一個(gè)既會(huì)制定計(jì)劃又能具體執(zhí)行的全能助手。這個(gè)訓(xùn)練過程包含兩個(gè)互補(bǔ)的目標(biāo),分別針對(duì)AI智能體的規(guī)劃能力和執(zhí)行能力進(jìn)行強(qiáng)化。
第一個(gè)訓(xùn)練目標(biāo)叫做"規(guī)劃訓(xùn)練",重點(diǎn)培養(yǎng)智能體的任務(wù)分解和步驟規(guī)劃能力。在這個(gè)階段,系統(tǒng)會(huì)給智能體提供高級(jí)任務(wù)指令、當(dāng)前的界面狀態(tài)和歷史操作記錄,然后要求它預(yù)測(cè)下一步應(yīng)該進(jìn)行什么具體操作,以及執(zhí)行這個(gè)操作的理由。這就像訓(xùn)練一個(gè)象棋選手不僅要知道下哪一步棋,還要能解釋為什么這樣走是最優(yōu)的。
規(guī)劃訓(xùn)練的核心在于培養(yǎng)智能體的邏輯思維能力。智能體需要理解當(dāng)前的任務(wù)目標(biāo),分析現(xiàn)有的界面狀態(tài),回顧已經(jīng)執(zhí)行的操作,然后推導(dǎo)出最合適的下一步行動(dòng)。這個(gè)過程需要綜合考慮任務(wù)的整體進(jìn)度、當(dāng)前的操作選項(xiàng)、以及可能的后續(xù)影響。通過大量的練習(xí),智能體逐漸學(xué)會(huì)了如何將復(fù)雜的高級(jí)任務(wù)分解為一系列具體可執(zhí)行的步驟。
第二個(gè)訓(xùn)練目標(biāo)是"行動(dòng)訓(xùn)練",專門強(qiáng)化智能體執(zhí)行具體操作的精確性。在這個(gè)階段,系統(tǒng)會(huì)提供明確的低級(jí)操作指令,比如"點(diǎn)擊登錄按鈕"或"在搜索框中輸入關(guān)鍵詞",然后要求智能體準(zhǔn)確執(zhí)行對(duì)應(yīng)的界面操作。這就像訓(xùn)練一個(gè)鋼琴家,不僅要理解樂譜的含義,還要能夠精確地按下正確的琴鍵。
行動(dòng)訓(xùn)練特別注重操作的精確性和可靠性。智能體需要學(xué)會(huì)識(shí)別界面上的各種元素,理解不同操作的適用場(chǎng)景,掌握正確的操作方式。比如,面對(duì)一個(gè)下拉菜單,智能體需要知道應(yīng)該點(diǎn)擊哪里來展開菜單,如何從選項(xiàng)中選擇正確的項(xiàng)目,以及如何確認(rèn)選擇。這些看似簡(jiǎn)單的操作,實(shí)際上涉及復(fù)雜的視覺理解和精確的動(dòng)作控制。
兩個(gè)訓(xùn)練目標(biāo)的結(jié)合產(chǎn)生了協(xié)同效應(yīng)。規(guī)劃訓(xùn)練讓智能體具備了任務(wù)分解和邏輯推理的能力,能夠理解"為什么這樣做";行動(dòng)訓(xùn)練讓智能體掌握了具體的操作技能,能夠回答"如何做到"。這種雙重能力的結(jié)合使得訓(xùn)練出來的智能體既不是只會(huì)空談理論的"紙上談兵",也不是只會(huì)機(jī)械操作的"無腦執(zhí)行者",而是真正具備了理解任務(wù)需求并準(zhǔn)確執(zhí)行的綜合能力。
在實(shí)際訓(xùn)練過程中,系統(tǒng)采用了監(jiān)督學(xué)習(xí)的方式,使用負(fù)對(duì)數(shù)似然作為損失函數(shù)。對(duì)于規(guī)劃訓(xùn)練,模型需要同時(shí)預(yù)測(cè)低級(jí)指令和對(duì)應(yīng)的操作,學(xué)習(xí)目標(biāo)是最大化正確預(yù)測(cè)的概率。對(duì)于行動(dòng)訓(xùn)練,模型專注于根據(jù)給定的低級(jí)指令預(yù)測(cè)正確的操作,強(qiáng)化執(zhí)行的準(zhǔn)確性。通過這種針對(duì)性的訓(xùn)練,智能體在規(guī)劃和執(zhí)行兩個(gè)方面都獲得了顯著的提升。
五、實(shí)戰(zhàn)檢驗(yàn):在復(fù)雜環(huán)境中驗(yàn)證真本領(lǐng)
理論再完美,最終還是要經(jīng)受實(shí)踐的檢驗(yàn)。研究團(tuán)隊(duì)選擇了三個(gè)極具挑戰(zhàn)性的測(cè)試平臺(tái)來驗(yàn)證OS-Genesis的實(shí)際效果,這些平臺(tái)就像是智能體的"高考考場(chǎng)",每一個(gè)都代表了不同類型的復(fù)雜應(yīng)用場(chǎng)景。
第一個(gè)測(cè)試平臺(tái)是AndroidWorld,這是一個(gè)運(yùn)行在真實(shí)Android環(huán)境中的動(dòng)態(tài)測(cè)試基準(zhǔn)。與那些靜態(tài)的測(cè)試數(shù)據(jù)集不同,AndroidWorld使用真實(shí)的手機(jī)模擬器,測(cè)試智能體在20個(gè)真實(shí)應(yīng)用中完成116種不同任務(wù)的能力。這些任務(wù)都是日常生活中的常見需求,比如設(shè)置鬧鐘、發(fā)送短信、查看天氣等等。更c(diǎn)hallenging的是,每次測(cè)試時(shí)任務(wù)的具體參數(shù)都會(huì)隨機(jī)變化,智能體不能依賴記憶特定的操作序列,而必須真正理解任務(wù)邏輯。
在AndroidWorld測(cè)試中,OS-Genesis展現(xiàn)出了令人矚目的性能。與傳統(tǒng)的任務(wù)驅(qū)動(dòng)方法相比,使用OS-Genesis訓(xùn)練的智能體成功率幾乎翻了一倍,從9.82%提升到17.41%。這個(gè)提升幅度在AI研究中是相當(dāng)顯著的,特別是在這樣復(fù)雜的真實(shí)環(huán)境測(cè)試中。更重要的是,這個(gè)成績(jī)顯著縮小了開源智能體與最先進(jìn)的GPT-4o智能體之間的性能差距,證明了OS-Genesis在提升現(xiàn)有模型能力方面的巨大潛力。
第二個(gè)測(cè)試平臺(tái)是AndroidControl,這個(gè)基準(zhǔn)包含了833個(gè)不同的應(yīng)用,涵蓋了7708個(gè)任務(wù)和1412條操作軌跡。特別有意思的是,在OS-Genesis的訓(xùn)練數(shù)據(jù)中,只有20個(gè)應(yīng)用與測(cè)試集重疊,這意味著大部分測(cè)試都是在全新的、智能體從未見過的應(yīng)用上進(jìn)行的。這種"出分布"測(cè)試最能檢驗(yàn)智能體的泛化能力,就像讓一個(gè)只在中國菜餐廳工作過的廚師去意大利餐廳展示廚藝一樣。
AndroidControl的測(cè)試結(jié)果進(jìn)一步驗(yàn)證了OS-Genesis的優(yōu)勢(shì)。在高級(jí)任務(wù)測(cè)試中,智能體需要自主規(guī)劃和執(zhí)行完整的任務(wù)流程,OS-Genesis訓(xùn)練的模型在各種不同規(guī)模的基礎(chǔ)模型上都取得了一致的性能提升。在低級(jí)任務(wù)測(cè)試中,智能體只需要執(zhí)行給定的具體指令,OS-Genesis同樣展現(xiàn)出了穩(wěn)定的優(yōu)勢(shì)。這種跨任務(wù)類型的一致性提升表明,OS-Genesis確實(shí)提高了智能體的核心能力,而不是針對(duì)特定任務(wù)的過擬合。
第三個(gè)測(cè)試平臺(tái)是WebArena,這是一個(gè)極具挑戰(zhàn)性的網(wǎng)頁環(huán)境測(cè)試基準(zhǔn),包含812個(gè)復(fù)雜的網(wǎng)頁導(dǎo)航任務(wù)。這些任務(wù)模擬真實(shí)的網(wǎng)頁使用場(chǎng)景,如在電商網(wǎng)站購物、在論壇發(fā)帖討論、在項(xiàng)目管理系統(tǒng)中協(xié)作等等。WebArena的特殊之處在于它使用真實(shí)運(yùn)行的網(wǎng)站,而不是簡(jiǎn)化的模擬環(huán)境,這意味著智能體需要處理真實(shí)網(wǎng)頁的各種復(fù)雜性,包括動(dòng)態(tài)加載的內(nèi)容、復(fù)雜的頁面布局、以及各種交互方式。
在WebArena上的測(cè)試結(jié)果顯示了OS-Genesis在不同模型架構(gòu)上的廣泛適用性。對(duì)于那些在零樣本測(cè)試中幾乎無法正常工作的模型,OS-Genesis訓(xùn)練后能夠顯著改善它們的表現(xiàn),使它們具備了基本的網(wǎng)頁操作能力。對(duì)于已經(jīng)具有一定GUI操作能力的預(yù)訓(xùn)練模型,OS-Genesis能夠進(jìn)一步提升它們的性能,在多個(gè)任務(wù)類別上都取得了明顯的改善。
特別值得注意的是,在所有三個(gè)測(cè)試平臺(tái)上,OS-Genesis都表現(xiàn)出了比自增強(qiáng)基線更好的效果,盡管自增強(qiáng)方法使用了1.5倍的訓(xùn)練數(shù)據(jù)。這個(gè)結(jié)果強(qiáng)有力地證明了數(shù)據(jù)質(zhì)量比數(shù)據(jù)數(shù)量更重要,也驗(yàn)證了OS-Genesis在生成高質(zhì)量訓(xùn)練數(shù)據(jù)方面的獨(dú)特優(yōu)勢(shì)。
六、數(shù)據(jù)多樣性分析:發(fā)現(xiàn)探索式方法的獨(dú)特價(jià)值
為了深入理解OS-Genesis為什么如此有效,研究團(tuán)隊(duì)進(jìn)行了全面的數(shù)據(jù)多樣性分析。這個(gè)分析就像是對(duì)比不同教學(xué)方法培養(yǎng)出的學(xué)生知識(shí)面的廣度和深度,結(jié)果揭示了探索式學(xué)習(xí)相對(duì)于傳統(tǒng)預(yù)定義任務(wù)方法的本質(zhì)優(yōu)勢(shì)。
在指令多樣性的分析中,研究團(tuán)隊(duì)使用了句子嵌入技術(shù)來量化不同方法生成的任務(wù)指令之間的差異程度。分析結(jié)果顯示,OS-Genesis生成的指令具有最大的平均余弦距離,這意味著這些指令之間的差異更大,覆蓋了更廣泛的任務(wù)類型。相比之下,傳統(tǒng)的任務(wù)驅(qū)動(dòng)方法和自指導(dǎo)方法生成的指令相互之間更加相似,容易陷入某些特定類型任務(wù)的窠臼。
更詳細(xì)的分析顯示,OS-Genesis生成的任務(wù)指令平均長(zhǎng)度也更接近人類編寫的指令。在移動(dòng)任務(wù)中,傳統(tǒng)方法生成的指令平均只有9到10個(gè)單詞,而OS-Genesis生成的指令平均達(dá)到18個(gè)單詞,幾乎與人類指令的18.7個(gè)單詞持平。在網(wǎng)頁任務(wù)中,這種差異更加明顯,OS-Genesis生成的指令平均19.7個(gè)單詞,而傳統(tǒng)方法只有8到12個(gè)單詞。更長(zhǎng)的指令通常意味著更詳細(xì)的任務(wù)描述和更豐富的上下文信息,這對(duì)于訓(xùn)練更智能的AI助手具有重要意義。
在軌跡多樣性的分析中,研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)特別有趣的現(xiàn)象。OS-Genesis不僅在指令層面表現(xiàn)出高多樣性,在實(shí)際的操作行為層面也展現(xiàn)出了最大的多樣性。這表明探索式的方法不僅能夠想象出更多樣的任務(wù),還能夠發(fā)現(xiàn)更多樣的解決方案和操作路徑。這種操作多樣性對(duì)于訓(xùn)練魯棒的智能體特別重要,因?yàn)楝F(xiàn)實(shí)世界中同一個(gè)任務(wù)往往可以通過多種不同的方式來完成。
研究團(tuán)隊(duì)還發(fā)現(xiàn)了人類標(biāo)注數(shù)據(jù)的一個(gè)有趣特點(diǎn):雖然人類能夠設(shè)計(jì)出非常多樣化的任務(wù)指令,但在實(shí)際執(zhí)行這些任務(wù)時(shí),人類傾向于采用相對(duì)固定的、經(jīng)過實(shí)踐驗(yàn)證的操作模式。這就像人類可以想出很多種旅行目的地,但實(shí)際選擇交通工具時(shí)往往偏好熟悉和可靠的方式。相比之下,OS-Genesis通過系統(tǒng)性的探索,發(fā)現(xiàn)了人類可能忽視或不常使用的操作路徑,從而在訓(xùn)練數(shù)據(jù)中實(shí)現(xiàn)了指令和操作的雙重高多樣性。
這種多樣性優(yōu)勢(shì)的實(shí)際意義在于,使用OS-Genesis訓(xùn)練的智能體不僅能夠處理更廣泛的任務(wù)類型,還能夠在遇到新情況時(shí)表現(xiàn)出更強(qiáng)的適應(yīng)性。就像一個(gè)閱歷豐富的旅行者在面對(duì)未知地區(qū)時(shí)比只去過幾個(gè)地方的人更容易找到解決方案一樣,接受過多樣化訓(xùn)練的智能體在面對(duì)新的應(yīng)用環(huán)境時(shí)也能更快地找到有效的操作策略。
七、系統(tǒng)優(yōu)化細(xì)節(jié):每個(gè)組件的貢獻(xiàn)度分析
OS-Genesis作為一個(gè)復(fù)雜的系統(tǒng),其優(yōu)異性能來自于多個(gè)精心設(shè)計(jì)組件的協(xié)同作用。研究團(tuán)隊(duì)通過詳細(xì)的消融實(shí)驗(yàn)分析了每個(gè)組件的具體貢獻(xiàn),這些分析就像拆解一臺(tái)精密手表,看看每個(gè)零部件對(duì)整體性能的影響有多大。
首先是軌跡獎(jiǎng)勵(lì)模型(TRM)的影響分析。研究團(tuán)隊(duì)設(shè)計(jì)了三種不同的數(shù)據(jù)篩選策略進(jìn)行對(duì)比:不使用任何獎(jiǎng)勵(lì)模型、使用傳統(tǒng)的標(biāo)簽器方法(只保留完全成功的軌跡)、以及使用TRM的加權(quán)采樣方法。結(jié)果顯示,TRM在高級(jí)任務(wù)上的優(yōu)勢(shì)特別明顯,這些任務(wù)需要智能體進(jìn)行復(fù)雜的規(guī)劃和多步驟的協(xié)調(diào)。傳統(tǒng)的標(biāo)簽器方法雖然在某些簡(jiǎn)單任務(wù)上也有效果,但它過于嚴(yán)格的篩選標(biāo)準(zhǔn)導(dǎo)致大量有價(jià)值的部分成功軌跡被丟棄,反而在某些任務(wù)上表現(xiàn)不如TRM。
特別值得注意的是,對(duì)于低級(jí)任務(wù)(即執(zhí)行給定的具體指令),由于OS-Genesis生成的數(shù)據(jù)本身質(zhì)量較高,不同的篩選策略差異較小。這表明OS-Genesis的探索式方法本身就能產(chǎn)生高質(zhì)量的操作步驟,即使是那些沒有完全完成高級(jí)目標(biāo)的軌跡,其中的單個(gè)操作步驟仍然具有很高的學(xué)習(xí)價(jià)值。
數(shù)據(jù)規(guī)模的影響分析提供了另一個(gè)重要洞察。研究團(tuán)隊(duì)測(cè)試了使用不同數(shù)量訓(xùn)練軌跡的效果,從100條到1500條進(jìn)行了系統(tǒng)性的實(shí)驗(yàn)。結(jié)果顯示,性能隨著數(shù)據(jù)量的增加而逐步提升,但在達(dá)到一定規(guī)模后會(huì)出現(xiàn)飽和現(xiàn)象。這種飽和現(xiàn)象主要來自兩個(gè)因素:一是當(dāng)前視覺語言模型的固有能力限制,二是GPT-4o在將高級(jí)指令轉(zhuǎn)化為完整軌跡時(shí)的能力邊界。這個(gè)發(fā)現(xiàn)對(duì)于實(shí)際應(yīng)用具有重要指導(dǎo)意義,它告訴我們?cè)谑裁礃拥臄?shù)據(jù)規(guī)模下能夠獲得最佳的性價(jià)比。
在與人類數(shù)據(jù)的對(duì)比分析中,研究團(tuán)隊(duì)發(fā)現(xiàn)了OS-Genesis的一個(gè)重要特點(diǎn)。即使使用人類專家編寫的高級(jí)任務(wù)指令,其訓(xùn)練效果仍然不如使用OS-Genesis反向合成的指令。這個(gè)看似反直覺的結(jié)果實(shí)際上揭示了兩個(gè)深層問題:第一,預(yù)定義的任務(wù)往往難以完美匹配動(dòng)態(tài)的應(yīng)用環(huán)境;第二,人類專家在設(shè)計(jì)任務(wù)時(shí)可能會(huì)無意中加入一些模型難以理解的假設(shè)或期望。相比之下,OS-Genesis基于實(shí)際交互生成的指令更加"接地氣",更適合機(jī)器學(xué)習(xí)。
在完整軌跡對(duì)比中,OS-Genesis合成的軌跡與人類標(biāo)注軌跡的性能差距相對(duì)較小。使用人類標(biāo)注數(shù)據(jù)作為黃金標(biāo)準(zhǔn),OS-Genesis數(shù)據(jù)的性能保持率超過80%。這個(gè)結(jié)果特別令人鼓舞,因?yàn)樗砻髯詣?dòng)化方法已經(jīng)能夠接近人類專家的標(biāo)注質(zhì)量,而在成本和規(guī)?;芰Ψ矫婢哂酗@著優(yōu)勢(shì)。
研究團(tuán)隊(duì)還測(cè)試了不同基礎(chǔ)模型對(duì)OS-Genesis方法的適應(yīng)性。實(shí)驗(yàn)包括了不同規(guī)模的模型(4B、8B、7B參數(shù))和不同的架構(gòu)設(shè)計(jì)(InternVL2和Qwen2-VL系列)。結(jié)果顯示,OS-Genesis方法在所有測(cè)試的基礎(chǔ)模型上都能帶來一致的性能提升,這證明了該方法的通用性和魯棒性。特別是對(duì)于那些原本在GUI任務(wù)上表現(xiàn)較差的模型,OS-Genesis訓(xùn)練后的提升幅度更加顯著,顯示出該方法在提升弱基礎(chǔ)模型方面的特殊價(jià)值。
八、技術(shù)實(shí)現(xiàn)細(xì)節(jié)與工程挑戰(zhàn)
OS-Genesis的成功不僅在于其創(chuàng)新的理論設(shè)計(jì),更在于研究團(tuán)隊(duì)克服了許多實(shí)際工程實(shí)現(xiàn)中的技術(shù)挑戰(zhàn)。這些細(xì)節(jié)就像是搭建一座大橋時(shí)需要解決的各種具體工程問題,每一個(gè)都關(guān)系到整個(gè)系統(tǒng)能否正常運(yùn)行。
在環(huán)境搭建方面,研究團(tuán)隊(duì)需要?jiǎng)?chuàng)建穩(wěn)定可靠的測(cè)試環(huán)境來支持大規(guī)模的自動(dòng)化探索。他們基于現(xiàn)有的AndroidWorld和WebArena基礎(chǔ)設(shè)施,構(gòu)建了支持24小時(shí)不間斷運(yùn)行的探索系統(tǒng)。這個(gè)系統(tǒng)需要處理各種異常情況,比如應(yīng)用崩潰、網(wǎng)絡(luò)連接問題、界面元素加載失敗等等。研究團(tuán)隊(duì)開發(fā)了一套完整的異常處理和恢復(fù)機(jī)制,確保探索過程的穩(wěn)定性。
數(shù)據(jù)處理pipeline的設(shè)計(jì)也充滿了挑戰(zhàn)。系統(tǒng)需要實(shí)時(shí)處理大量的屏幕截圖和交互記錄,每天可能產(chǎn)生數(shù)萬個(gè)交互三元組。為了提高處理效率,研究團(tuán)隊(duì)采用了并行處理架構(gòu),同時(shí)運(yùn)行多個(gè)探索實(shí)例,并使用分布式存儲(chǔ)系統(tǒng)來管理海量的圖像和元數(shù)據(jù)。他們還開發(fā)了智能的數(shù)據(jù)去重算法,避免存儲(chǔ)重復(fù)或過于相似的交互記錄。
在模型推理優(yōu)化方面,由于需要頻繁調(diào)用GPT-4o進(jìn)行任務(wù)合成和質(zhì)量評(píng)估,研究團(tuán)隊(duì)面臨著計(jì)算成本和推理延遲的雙重挑戰(zhàn)。他們開發(fā)了批處理優(yōu)化策略,將多個(gè)推理請(qǐng)求組合成批次來提高throughput。同時(shí),他們還實(shí)現(xiàn)了智能緩存機(jī)制,對(duì)于相似的輸入會(huì)復(fù)用之前的推理結(jié)果,大大降低了重復(fù)計(jì)算的開銷。
軌跡獎(jiǎng)勵(lì)模型的實(shí)現(xiàn)也需要特殊的工程考慮。由于評(píng)估過程需要綜合分析多個(gè)屏幕截圖和操作序列,單次推理的輸入數(shù)據(jù)量很大。研究團(tuán)隊(duì)優(yōu)化了圖像壓縮和編碼算法,在保持關(guān)鍵信息的同時(shí)減少數(shù)據(jù)傳輸量。他們還設(shè)計(jì)了多階段評(píng)估流程,先進(jìn)行快速篩選再進(jìn)行詳細(xì)評(píng)分,提高了整體的評(píng)估效率。
在訓(xùn)練過程的優(yōu)化方面,研究團(tuán)隊(duì)發(fā)現(xiàn)傳統(tǒng)的隨機(jī)采樣策略不適合他們的場(chǎng)景,因?yàn)椴煌|(zhì)量的軌跡應(yīng)該以不同的概率參與訓(xùn)練。他們實(shí)現(xiàn)了基于獎(jiǎng)勵(lì)分?jǐn)?shù)的加權(quán)采樣算法,確保高質(zhì)量數(shù)據(jù)有更大概率被選中,同時(shí)保持?jǐn)?shù)據(jù)的多樣性。這個(gè)看似簡(jiǎn)單的改動(dòng),實(shí)際上需要careful的工程實(shí)現(xiàn)來避免采樣偏差和內(nèi)存使用問題。
系統(tǒng)的可擴(kuò)展性設(shè)計(jì)也值得關(guān)注。研究團(tuán)隊(duì)從一開始就考慮了系統(tǒng)擴(kuò)展到更多應(yīng)用類型和更大數(shù)據(jù)規(guī)模的需求。他們采用了模塊化的架構(gòu)設(shè)計(jì),使得新的應(yīng)用環(huán)境可以通過插件方式輕松集成。探索規(guī)則、任務(wù)合成邏輯、評(píng)估標(biāo)準(zhǔn)等核心組件都設(shè)計(jì)成可配置和可擴(kuò)展的,為future work提供了良好的基礎(chǔ)。
另一個(gè)重要的工程挑戰(zhàn)是確保實(shí)驗(yàn)的可重復(fù)性。由于系統(tǒng)涉及大量的隨機(jī)探索和模型推理,完全精確的重復(fù)是很困難的。研究團(tuán)隊(duì)開發(fā)了一套實(shí)驗(yàn)管理系統(tǒng),詳細(xì)記錄每次實(shí)驗(yàn)的所有配置參數(shù)、隨機(jī)種子、數(shù)據(jù)版本等信息,并提供了標(biāo)準(zhǔn)化的評(píng)估protocal,確保其他研究者能夠基于相同的基礎(chǔ)進(jìn)行對(duì)比實(shí)驗(yàn)。
九、局限性分析與未來展望
盡管OS-Genesis取得了顯著的成果,研究團(tuán)隊(duì)在論文中誠實(shí)地討論了當(dāng)前方法的局限性,并對(duì)未來的發(fā)展方向進(jìn)行了深入思考。這種客觀的自我評(píng)估體現(xiàn)了嚴(yán)謹(jǐn)?shù)目茖W(xué)態(tài)度,也為后續(xù)研究指明了方向。
當(dāng)前最主要的局限性在于對(duì)專有模型的依賴。雖然OS-Genesis的訓(xùn)練目標(biāo)是提升開源視覺語言模型的能力,但在數(shù)據(jù)生成過程中仍然需要依賴GPT-4o來進(jìn)行探索和獎(jiǎng)勵(lì)建模。研究團(tuán)隊(duì)解釋說,這主要是因?yàn)楫?dāng)前的開源模型還不具備在在線環(huán)境中主動(dòng)完成復(fù)雜探索任務(wù)的能力。不過,隨著開源模型能力的快速提升,未來可能會(huì)有更強(qiáng)大的開源替代方案來完全替代這個(gè)pipeline中的專有組件。
數(shù)據(jù)使用的完整性也是一個(gè)需要說明的局限。OS-Genesis使用了文本和視覺兩種模態(tài)的信息來訓(xùn)練和評(píng)估智能體,這樣設(shè)計(jì)的目的是最大化智能體在語義豐富環(huán)境中的規(guī)劃和行動(dòng)能力,同時(shí)確??绮煌h(huán)境的評(píng)估一致性。研究團(tuán)隊(duì)承認(rèn),在某些場(chǎng)景下僅使用單一模態(tài)的數(shù)據(jù)也可能構(gòu)建有效的GUI智能體,但這需要相應(yīng)調(diào)整輸入輸出格式和訓(xùn)練策略。他們將這種部分?jǐn)?shù)據(jù)使用的探索留作了未來的研究方向。
基于模型的軌跡構(gòu)建方法也帶來了一定的限制。當(dāng)前系統(tǒng)生成的成功軌跡數(shù)量在一定程度上受限于任務(wù)執(zhí)行模型的能力。如果執(zhí)行模型在某些復(fù)雜任務(wù)上表現(xiàn)不佳,就會(huì)影響對(duì)應(yīng)領(lǐng)域的訓(xùn)練數(shù)據(jù)質(zhì)量和數(shù)量。研究團(tuán)隊(duì)期待更先進(jìn)的多模態(tài)模型能夠緩解這個(gè)問題,提供更強(qiáng)的GUI操作能力。
在更廣泛的影響方面,研究團(tuán)隊(duì)也考慮了OS-Genesis可能帶來的潛在風(fēng)險(xiǎn)。雖然所有實(shí)驗(yàn)都在虛擬環(huán)境中進(jìn)行,避免了對(duì)真實(shí)系統(tǒng)的影響,但他們?nèi)匀惶嵝蜒芯可鐓^(qū)要謹(jǐn)慎考慮GUI智能體在實(shí)際部署時(shí)的安全性和可控性問題。特別是在涉及敏感操作或重要數(shù)據(jù)的場(chǎng)景中,需要建立適當(dāng)?shù)膕afeguard機(jī)制。
從技術(shù)發(fā)展的角度,研究團(tuán)隊(duì)認(rèn)為OS-Genesis代表了GUI智能體訓(xùn)練方法的一個(gè)重要轉(zhuǎn)折點(diǎn),從依賴預(yù)定義任務(wù)轉(zhuǎn)向自主探索和學(xué)習(xí)。這種轉(zhuǎn)變不僅提高了數(shù)據(jù)質(zhì)量和多樣性,更重要的是為AI系統(tǒng)在開放環(huán)境中的自主學(xué)習(xí)開辟了新的路徑。他們預(yù)期這種探索式學(xué)習(xí)的思想將在更多AI應(yīng)用領(lǐng)域得到驗(yàn)證和推廣。
未來的研究方向包括幾個(gè)令人興奮的可能性。第一是探索更復(fù)雜的任務(wù)組合和長(zhǎng)期規(guī)劃能力,當(dāng)前的方法主要處理相對(duì)簡(jiǎn)單的單一任務(wù),未來可以擴(kuò)展到需要多個(gè)應(yīng)用協(xié)作的復(fù)雜工作流程。第二是研究如何將OS-Genesis的方法擴(kuò)展到其他類型的人機(jī)交互界面,比如語音界面、手勢(shì)控制、虛擬現(xiàn)實(shí)等新興交互模式。
第三是深入研究個(gè)性化和適應(yīng)性學(xué)習(xí),讓智能體能夠根據(jù)不同用戶的使用習(xí)慣和偏好來調(diào)整其行為模式。第四是探索如何將探索式學(xué)習(xí)與強(qiáng)化學(xué)習(xí)、主動(dòng)學(xué)習(xí)等其他機(jī)器學(xué)習(xí)范式結(jié)合,創(chuàng)造更強(qiáng)大的自主學(xué)習(xí)系統(tǒng)。
最后,研究團(tuán)隊(duì)特別強(qiáng)調(diào)了開放科學(xué)的重要性。他們承諾將所有的代碼、數(shù)據(jù)和模型檢查點(diǎn)公開發(fā)布,希望為整個(gè)研究社區(qū)提供可重用的基礎(chǔ)設(shè)施。他們相信,只有通過開放合作,才能加速GUI智能體技術(shù)的發(fā)展,最終實(shí)現(xiàn)真正的數(shù)字化自動(dòng)化愿景。
說到底,OS-Genesis不僅僅是一個(gè)技術(shù)方案,更是一種全新的思考問題的方式。它告訴我們,有時(shí)候最好的學(xué)習(xí)方法不是按部就班地跟隨預(yù)設(shè)的教程,而是像好奇的探險(xiǎn)家一樣去發(fā)現(xiàn)和創(chuàng)造。在人工智能日益成為我們?nèi)粘I钪匾M成部分的今天,這種能夠自主學(xué)習(xí)和適應(yīng)的智能體將為我們打開無限可能的大門。無論是幫助老人更好地使用智能設(shè)備,還是協(xié)助專業(yè)人士處理復(fù)雜的數(shù)字化工作,OS-Genesis展示的技術(shù)路徑都充滿了希望和潛力。
Q&A
Q1:OS-Genesis和傳統(tǒng)的GUI智能體訓(xùn)練方法有什么區(qū)別?
A:傳統(tǒng)方法就像給學(xué)生預(yù)先準(zhǔn)備好所有考試題目和標(biāo)準(zhǔn)答案,讓AI智能體按照固定模式學(xué)習(xí)。而OS-Genesis更像讓學(xué)生自己去探索和發(fā)現(xiàn)問題,先讓AI在應(yīng)用中隨意操作,觀察結(jié)果,然后反推出可能的任務(wù)目標(biāo)。這種"先探索再學(xué)習(xí)"的方式能產(chǎn)生更多樣、更貼近真實(shí)使用場(chǎng)景的訓(xùn)練數(shù)據(jù)。
Q2:為什么OS-Genesis訓(xùn)練出的智能體性能提升這么明顯?
A:主要原因有三個(gè):首先,探索式方法發(fā)現(xiàn)了很多人工預(yù)設(shè)任務(wù)時(shí)容易遺漏的細(xì)節(jié)功能;其次,反向合成的任務(wù)更符合真實(shí)的應(yīng)用環(huán)境,不會(huì)出現(xiàn)"紙上談兵"的問題;最后,軌跡獎(jiǎng)勵(lì)模型確保了訓(xùn)練數(shù)據(jù)的質(zhì)量,連那些部分成功的嘗試也能為學(xué)習(xí)提供價(jià)值。
Q3:OS-Genesis需要什么樣的技術(shù)基礎(chǔ)才能使用?
A:目前OS-Genesis需要調(diào)用GPT-4o來進(jìn)行數(shù)據(jù)合成和質(zhì)量評(píng)估,同時(shí)需要搭建Android模擬器和網(wǎng)頁瀏覽器環(huán)境進(jìn)行自動(dòng)化探索。研究團(tuán)隊(duì)已經(jīng)開源了所有代碼和數(shù)據(jù),但實(shí)際部署需要一定的工程技術(shù)能力。隨著開源模型能力的提升,未來可能會(huì)有完全基于開源技術(shù)的版本。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對(duì)話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。