這項(xiàng)由哈爾濱工業(yè)技術(shù)深圳校區(qū)的謝雨權(quán)、李再錦、邵瑞、陳公威等研究人員,聯(lián)合鵬程實(shí)驗(yàn)室和華為諾亞方舟實(shí)驗(yàn)室共同完成的研究發(fā)表于2025年6月12日的arXiv預(yù)印本平臺(tái)。有興趣深入了解的讀者可以通過(guò)arXiv:2506.10387v1訪問(wèn)完整論文。
當(dāng)你打開(kāi)手機(jī)想要完成一個(gè)看似簡(jiǎn)單的任務(wù)時(shí),比如給朋友創(chuàng)建聯(lián)系人、打電話、然后發(fā)送一條短信,你會(huì)發(fā)現(xiàn)自己需要在多個(gè)應(yīng)用之間切換,記住每一步的操作順序,并且根據(jù)界面的變化隨時(shí)調(diào)整策略。這種看起來(lái)毫不費(fèi)力的多步驟操作,對(duì)于目前的AI智能體來(lái)說(shuō)卻是一個(gè)巨大的挑戰(zhàn)。
現(xiàn)在,哈工大的研究團(tuán)隊(duì)提出了一個(gè)名為Mirage-1的AI智能體系統(tǒng),它就像一個(gè)經(jīng)驗(yàn)豐富的手機(jī)使用專家,不僅能夠理解復(fù)雜的多步驟任務(wù),還能像人類一樣進(jìn)行長(zhǎng)期規(guī)劃和靈活應(yīng)對(duì)。這個(gè)系統(tǒng)的核心創(chuàng)新在于它擁有一個(gè)分層式的技能學(xué)習(xí)系統(tǒng),就好比一個(gè)廚師不僅記住了具體的菜譜,還掌握了烹飪的基本技法,甚至理解了不同菜系之間的共通原理。
研究團(tuán)隊(duì)發(fā)現(xiàn),目前的AI智能體在處理圖形用戶界面時(shí)面臨兩個(gè)主要困境。第一個(gè)困境就像是一個(gè)只會(huì)照著菜譜做菜的新手廚師,遇到需要準(zhǔn)備一桌子菜的復(fù)雜任務(wù)時(shí)就手忙腳亂,因?yàn)樗狈φw規(guī)劃能力?,F(xiàn)有的AI智能體只能根據(jù)最終目標(biāo)做出簡(jiǎn)單決策,就像只知道"要做紅燒肉"但不知道先準(zhǔn)備什么、后做什么、如何協(xié)調(diào)時(shí)間安排的廚師一樣。
第二個(gè)困境則像是一個(gè)只在廚房練習(xí)過(guò)的廚師突然要在野外生火做飯,環(huán)境的變化讓它無(wú)所適從。AI智能體在離線環(huán)境中訓(xùn)練時(shí)表現(xiàn)不錯(cuò),但一旦面對(duì)真實(shí)的在線環(huán)境,應(yīng)用界面的更新、按鈕位置的變化、甚至不同應(yīng)用之間的差異都會(huì)讓它們陷入困境。這就像是一個(gè)只會(huì)用電磁爐的廚師突然要用燃?xì)庠钜粯?,同樣的烹飪技能卻因?yàn)楣ぞ攮h(huán)境的不同而無(wú)法發(fā)揮。
為了解決這些問(wèn)題,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)革命性的解決方案。他們的Mirage-1系統(tǒng)包含了一個(gè)叫做"分層多模態(tài)技能模塊"的核心組件,這個(gè)模塊就像是一個(gè)經(jīng)驗(yàn)豐富的師傅建立的知識(shí)體系。這個(gè)體系分為三個(gè)層次,就好比廚藝學(xué)習(xí)的三個(gè)階段。
最基礎(chǔ)的層次叫做"執(zhí)行技能",它記錄的是具體的操作步驟,就像詳細(xì)記錄"如何做麻婆豆腐"的完整菜譜,包括每一個(gè)具體步驟、用料分量和操作細(xì)節(jié)。這一層記錄了智能體在完成特定任務(wù)時(shí)的具體操作軌跡,為后續(xù)的抽象學(xué)習(xí)奠定基礎(chǔ)。
中間層次是"核心技能",它將多個(gè)相似的具體操作抽象成通用的功能模塊,就像從"做麻婆豆腐"、"做紅燒肉"、"做糖醋里脊"等具體菜譜中抽象出"炒菜技法"這樣的通用技能。比如,多個(gè)添加聯(lián)系人的具體操作可以抽象成一個(gè)通用的"添加聯(lián)系人"核心技能,這個(gè)技能可以應(yīng)用到不同的聯(lián)系人和不同的場(chǎng)景中。
最高層次是"元技能",它統(tǒng)籌協(xié)調(diào)多個(gè)核心技能來(lái)完成復(fù)雜任務(wù),就像一個(gè)總廚師長(zhǎng)不僅掌握各種烹飪技法,還知道如何搭配菜譜、安排烹飪順序、協(xié)調(diào)廚房工作流程。元技能能夠理解不同核心技能之間的關(guān)系,并將它們組合起來(lái)解決復(fù)雜的多步驟問(wèn)題。
這種分層設(shè)計(jì)的巧妙之處在于,它模仿了人類學(xué)習(xí)和應(yīng)用技能的方式。當(dāng)我們學(xué)會(huì)了發(fā)短信的基本操作后,就能夠?qū)⑦@個(gè)技能應(yīng)用到給不同人發(fā)送不同內(nèi)容的消息中。當(dāng)我們掌握了添加聯(lián)系人、打電話、發(fā)短信等多個(gè)基本技能后,就能夠組合使用這些技能完成更復(fù)雜的社交任務(wù)。
除了這個(gè)分層技能系統(tǒng),研究團(tuán)隊(duì)還開(kāi)發(fā)了一種叫做"技能增強(qiáng)蒙特卡洛樹(shù)搜索"的在線學(xué)習(xí)算法。這個(gè)算法解決了從離線訓(xùn)練環(huán)境到在線真實(shí)環(huán)境的適應(yīng)問(wèn)題,就像是幫助廚師從練習(xí)廚房順利過(guò)渡到真實(shí)餐廳工作的培訓(xùn)方法。
傳統(tǒng)的蒙特卡洛樹(shù)搜索就像是一個(gè)探險(xiǎn)者在未知森林中隨機(jī)探索尋找出路,雖然最終能找到目標(biāo),但過(guò)程效率很低。而技能增強(qiáng)版本則像是給探險(xiǎn)者配備了地圖和指南針,讓探索過(guò)程更加有方向性和效率。具體來(lái)說(shuō),當(dāng)AI智能體在在線環(huán)境中遇到新任務(wù)時(shí),它不是盲目地嘗試各種可能的操作,而是首先利用已有的技能知識(shí)來(lái)分解任務(wù)目標(biāo),生成可能的子目標(biāo),然后有針對(duì)性地探索最有希望的路徑。
這種方法的優(yōu)勢(shì)在于它能夠顯著減少無(wú)效探索。就像一個(gè)有經(jīng)驗(yàn)的導(dǎo)游帶領(lǐng)游客游覽城市,會(huì)根據(jù)以往的經(jīng)驗(yàn)規(guī)劃最優(yōu)路線,避免走彎路,同時(shí)在遇到新情況時(shí)能夠靈活調(diào)整。當(dāng)AI智能體在探索過(guò)程中發(fā)現(xiàn)新的有效操作序列時(shí),這些經(jīng)驗(yàn)會(huì)被整合到分層技能系統(tǒng)中,不斷豐富和完善智能體的知識(shí)庫(kù)。
研究團(tuán)隊(duì)還為Mirage-1設(shè)計(jì)了一個(gè)分層規(guī)劃器,這個(gè)組件就像是一個(gè)經(jīng)驗(yàn)豐富的項(xiàng)目經(jīng)理,能夠?qū)?fù)雜的任務(wù)分解成可管理的子任務(wù)。當(dāng)接到一個(gè)復(fù)雜任務(wù)時(shí),分層規(guī)劃器首先從元技能庫(kù)中檢索最相關(guān)的高級(jí)策略,然后利用對(duì)應(yīng)的核心技能來(lái)生成具體的子目標(biāo)序列。這個(gè)過(guò)程就像是一個(gè)建筑師先確定整體設(shè)計(jì)理念,然后制定詳細(xì)的施工計(jì)劃,最后安排具體的施工步驟。
系統(tǒng)中的操作器負(fù)責(zé)執(zhí)行具體的動(dòng)作,它可以與不同的底層技術(shù)組件結(jié)合,包括各種視覺(jué)定位模型。這種設(shè)計(jì)使得Mirage-1具有很強(qiáng)的適應(yīng)性,就像是一個(gè)萬(wàn)能插頭可以適配不同標(biāo)準(zhǔn)的電源插座。無(wú)論是在手機(jī)還是網(wǎng)頁(yè)環(huán)境中,無(wú)論使用哪種具體的界面元素識(shí)別技術(shù),Mirage-1都能夠正常工作。
特別值得一提的是,研究團(tuán)隊(duì)還設(shè)計(jì)了一個(gè)決策反思器,這個(gè)組件就像是一個(gè)謹(jǐn)慎的顧問(wèn),在每個(gè)關(guān)鍵操作執(zhí)行前進(jìn)行評(píng)估和建議。決策反思器會(huì)分析當(dāng)前的操作是否有助于完成任務(wù)目標(biāo),預(yù)測(cè)可能的結(jié)果,并在發(fā)現(xiàn)問(wèn)題時(shí)及時(shí)提醒操作器重新考慮。這種機(jī)制大大提高了系統(tǒng)的可靠性和成功率。
為了驗(yàn)證Mirage-1的性能,研究團(tuán)隊(duì)進(jìn)行了大規(guī)模的實(shí)驗(yàn)測(cè)試。他們選擇了多個(gè)具有代表性的測(cè)試平臺(tái),包括AndroidWorld這個(gè)Android手機(jī)環(huán)境的在線基準(zhǔn)測(cè)試,以及Mind2Web-Live這個(gè)網(wǎng)頁(yè)環(huán)境的動(dòng)態(tài)測(cè)試平臺(tái)。這些測(cè)試平臺(tái)就像是為AI智能體設(shè)計(jì)的"駕照考試場(chǎng)地",能夠全面評(píng)估智能體在真實(shí)環(huán)境中的表現(xiàn)。
實(shí)驗(yàn)結(jié)果令人印象深刻。在AndroidWorld測(cè)試中,Mirage-1相比現(xiàn)有最好的方法取得了32%的性能提升。在MobileMiniWob++測(cè)試中,提升幅度達(dá)到了19%。在Mind2Web-Live網(wǎng)頁(yè)測(cè)試中,也獲得了15%的顯著改進(jìn)。這些數(shù)字背后反映的是AI智能體在處理復(fù)雜多步驟任務(wù)時(shí)能力的顯著增強(qiáng)。
更重要的是,研究團(tuán)隊(duì)還專門(mén)創(chuàng)建了一個(gè)名為AndroidLH的新測(cè)試基準(zhǔn),用于評(píng)估AI智能體在長(zhǎng)期任務(wù)規(guī)劃方面的能力。這個(gè)基準(zhǔn)包含了30個(gè)復(fù)雜的多應(yīng)用操作任務(wù),更接近真實(shí)用戶的使用場(chǎng)景。在這個(gè)更具挑戰(zhàn)性的測(cè)試中,Mirage-1取得了79%的驚人性能提升,證明了其在長(zhǎng)期規(guī)劃任務(wù)中的卓越表現(xiàn)。
為了深入理解系統(tǒng)各個(gè)組件的貢獻(xiàn),研究團(tuán)隊(duì)進(jìn)行了詳細(xì)的分解分析。他們發(fā)現(xiàn),分層技能系統(tǒng)中的不同層次都發(fā)揮著重要作用。元技能層的移除導(dǎo)致了19.5%的性能下降,說(shuō)明高級(jí)規(guī)劃能力的重要性。核心技能和元技能的同時(shí)移除導(dǎo)致了29.1%的性能下降,進(jìn)一步證實(shí)了抽象技能對(duì)于復(fù)雜任務(wù)處理的關(guān)鍵作用。
同時(shí),研究團(tuán)隊(duì)還比較了不同記憶機(jī)制的效果。相比于簡(jiǎn)單的示例記憶方法,分層多模態(tài)技能系統(tǒng)展現(xiàn)出了明顯的優(yōu)勢(shì)。這說(shuō)明結(jié)構(gòu)化的知識(shí)組織方式比簡(jiǎn)單的經(jīng)驗(yàn)存儲(chǔ)更加有效,就像是有序整理的圖書(shū)館比隨意堆放的書(shū)堆更容易找到需要的信息。
在線探索策略的對(duì)比實(shí)驗(yàn)也證實(shí)了技能增強(qiáng)蒙特卡洛樹(shù)搜索的優(yōu)越性。相比于直接探索方法,這種技能引導(dǎo)的探索方式在相同時(shí)間內(nèi)能夠獲得2.8倍的技能積累,并且比標(biāo)準(zhǔn)蒙特卡洛樹(shù)搜索方法提高了41%的探索效率。這就像是有GPS導(dǎo)航的司機(jī)比盲目摸索的司機(jī)能夠更快到達(dá)目的地并學(xué)會(huì)更多有用的路線。
研究團(tuán)隊(duì)還通過(guò)具體案例展示了Mirage-1的工作過(guò)程。在一個(gè)創(chuàng)建聯(lián)系人并發(fā)送消息的任務(wù)中,系統(tǒng)首先從元技能庫(kù)中識(shí)別出需要"聯(lián)系人管理"和"短信消息管理"兩個(gè)高級(jí)能力。然后,它調(diào)用相應(yīng)的核心技能"添加聯(lián)系人"和"發(fā)送短信"來(lái)生成具體的操作計(jì)劃。最后,通過(guò)執(zhí)行技能庫(kù)中的具體操作序列來(lái)完成任務(wù)。整個(gè)過(guò)程體現(xiàn)了從抽象規(guī)劃到具體執(zhí)行的完整鏈條。
這項(xiàng)研究的意義遠(yuǎn)不止于技術(shù)層面的突破。它代表了AI智能體向真正智能化邁出的重要一步。過(guò)去的AI智能體更像是只會(huì)執(zhí)行簡(jiǎn)單指令的機(jī)器人,而Mirage-1則更像是一個(gè)能夠理解復(fù)雜任務(wù)、進(jìn)行長(zhǎng)期規(guī)劃、并且能夠從經(jīng)驗(yàn)中學(xué)習(xí)的智能助手。
從實(shí)用角度來(lái)看,這種技術(shù)將使AI智能體能夠處理更加復(fù)雜和真實(shí)的任務(wù)場(chǎng)景。用戶將能夠通過(guò)自然語(yǔ)言指令讓AI助手完成跨應(yīng)用的復(fù)雜操作,比如"幫我預(yù)訂明天的會(huì)議室,然后給所有參會(huì)人員發(fā)送邀請(qǐng),再在日歷中創(chuàng)建提醒"。這種能力將大大提高數(shù)字設(shè)備的易用性和實(shí)用性。
研究團(tuán)隊(duì)也認(rèn)識(shí)到當(dāng)前系統(tǒng)的一些局限性。由于依賴大型語(yǔ)言模型,系統(tǒng)在推理過(guò)程中存在一定的計(jì)算開(kāi)銷。同時(shí),規(guī)劃器和底層操作組件之間的緊密耦合意味著底層組件的錯(cuò)誤可能會(huì)影響整體任務(wù)的成功率。這些問(wèn)題為未來(lái)的研究指明了方向。
從更廣闊的視角來(lái)看,這項(xiàng)研究為AI智能體的發(fā)展開(kāi)辟了新的路徑。通過(guò)模仿人類的分層學(xué)習(xí)和技能積累方式,AI系統(tǒng)能夠更加高效地掌握復(fù)雜技能并應(yīng)用到新的場(chǎng)景中。這種思路不僅適用于圖形界面操作,也可能推廣到其他需要長(zhǎng)期規(guī)劃和技能積累的AI應(yīng)用領(lǐng)域。
說(shuō)到底,Mirage-1代表了AI智能體從"工具"向"助手"轉(zhuǎn)變的重要里程碑。它不再是簡(jiǎn)單地執(zhí)行預(yù)設(shè)指令的程序,而是能夠理解復(fù)雜需求、制定執(zhí)行計(jì)劃、從經(jīng)驗(yàn)中學(xué)習(xí)并適應(yīng)新環(huán)境的智能實(shí)體。這種能力的提升將使AI技術(shù)更好地融入我們的日常生活,成為真正有用的數(shù)字伙伴。
雖然距離完全自主的AI助手還有一定距離,但Mirage-1已經(jīng)展示了這種可能性的曙光。隨著技術(shù)的不斷發(fā)展和完善,我們有理由期待未來(lái)會(huì)出現(xiàn)更加智能、更加實(shí)用的AI助手,能夠真正理解和滿足人類的復(fù)雜需求。這不僅是技術(shù)進(jìn)步的體現(xiàn),更是人工智能向著更加人性化和實(shí)用化方向發(fā)展的重要標(biāo)志。
對(duì)于有興趣深入了解這項(xiàng)研究的讀者,完整的技術(shù)細(xì)節(jié)和實(shí)驗(yàn)數(shù)據(jù)可以在arXiv平臺(tái)上獲得,論文編號(hào)為2506.10387v1。這項(xiàng)研究的開(kāi)源代碼和演示也可以通過(guò)項(xiàng)目主頁(yè)https://cybertronagent.github.io/Mirage-1.github.io/訪問(wèn),為研究者和開(kāi)發(fā)者提供了寶貴的參考資源。
Q&A
Q1:Mirage-1是什么?它能做什么?
A:Mirage-1是由哈工大團(tuán)隊(duì)開(kāi)發(fā)的AI智能體系統(tǒng),它的核心能力是像人類一樣處理復(fù)雜的多步驟任務(wù)。比如它能夠在手機(jī)或網(wǎng)頁(yè)上自動(dòng)完成創(chuàng)建聯(lián)系人、打電話、發(fā)短信這樣需要跨應(yīng)用操作的復(fù)雜任務(wù)。它最大的特點(diǎn)是具備長(zhǎng)期規(guī)劃能力和從經(jīng)驗(yàn)中學(xué)習(xí)的能力。
Q2:Mirage-1會(huì)不會(huì)取代人類操作手機(jī)和電腦?
A:目前不會(huì)完全取代,但會(huì)大大簡(jiǎn)化復(fù)雜操作。Mirage-1更像是一個(gè)智能助手,能夠幫助用戶自動(dòng)完成繁瑣的多步驟操作,比如跨應(yīng)用的復(fù)雜任務(wù)。它讓用戶可以通過(guò)簡(jiǎn)單的語(yǔ)言指令完成原本需要多個(gè)步驟的操作,提高效率而不是替代人類。
Q3:普通人什么時(shí)候能用上Mirage-1技術(shù)?
A:雖然Mirage-1目前還處于研究階段,但其核心技術(shù)已經(jīng)展現(xiàn)出很強(qiáng)的實(shí)用潛力。研究團(tuán)隊(duì)已經(jīng)開(kāi)源了相關(guān)代碼,這意味著技術(shù)公司可以基于這些成果開(kāi)發(fā)商業(yè)產(chǎn)品。預(yù)計(jì)在未來(lái)幾年內(nèi),我們可能會(huì)在智能手機(jī)助手、自動(dòng)化軟件等產(chǎn)品中看到類似技術(shù)的應(yīng)用。
好文章,需要你的鼓勵(lì)
新加坡國(guó)立大學(xué)研究團(tuán)隊(duì)開(kāi)發(fā)了SPIRAL框架,通過(guò)讓AI與自己對(duì)弈零和游戲來(lái)提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡(jiǎn)單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無(wú)需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開(kāi)發(fā)的GIGA-ToF技術(shù)通過(guò)融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問(wèn)題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺(jué)解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過(guò)對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺(jué)語(yǔ)言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無(wú)法有效利用視覺(jué)信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過(guò)動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語(yǔ)言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。