近日,一項(xiàng)由斯坦福大學(xué)Omar Shaikh、Shardul Sapkota、Joon Sung Park、Diyi Yang和Michael S. Bernstein,微軟研究院Eric Horvitz,以及獨(dú)立研究者Shan Rizvi共同完成的研究在計(jì)算機(jī)人機(jī)交互領(lǐng)域引起了廣泛關(guān)注。這項(xiàng)研究名為"Creating General User Models from Computer Use"(從計(jì)算機(jī)使用中創(chuàng)建通用用戶模型),發(fā)表于2025年5月的arXiv預(yù)印本(arXiv:2505.10831v2),提出了一種全新的人機(jī)交互方式,讓計(jì)算機(jī)能夠通過觀察用戶的日常使用行為,逐漸學(xué)習(xí)并理解用戶的習(xí)慣、偏好和需求。
人機(jī)交互領(lǐng)域長(zhǎng)期以來(lái)都有一個(gè)美好的愿景:讓技術(shù)真正理解我們是誰(shuí)、我們?cè)谧鍪裁?,以及什么?duì)我們有幫助。早在1991年,馬克·韋瑟(Mark Weiser)在他著名的論文《21世紀(jì)的計(jì)算機(jī)》中描繪了一個(gè)能夠感知用戶即將醒來(lái)并主動(dòng)提供咖啡的鬧鐘。同樣,蘋果公司1987年展示的"知識(shí)導(dǎo)航員"(Knowledge Navigator)概念視頻中,計(jì)算機(jī)能夠在用戶思考問題時(shí)查找有用的支持信息,并在用戶專注工作時(shí)阻擋不必要的電話。這些愿景描繪了一種了解用戶足夠多、能夠在恰當(dāng)時(shí)機(jī)做出恰當(dāng)事情的技術(shù)。
然而,盡管在用戶建模、推薦系統(tǒng)和情境感知系統(tǒng)方面取得了進(jìn)展,但這些愿景在今天仍然遙不可及。當(dāng)前的用戶模型過于狹窄,它們可能了解我們的音樂偏好,或者我們?cè)趩蝹€(gè)應(yīng)用程序內(nèi)的工具使用情況,或者我們可能會(huì)觀看的下一個(gè)電視節(jié)目。即使是跨多個(gè)應(yīng)用程序整合數(shù)據(jù)的用戶模型,整合也僅停留在表面層次;用戶模型無(wú)法在新環(huán)境中推理或做出推斷。
我們對(duì)技術(shù)的愿景需要廣泛的用戶模型,能夠推理從我們的一般偏好到我們當(dāng)前的信息需求的一切,并能夠跨上下文應(yīng)用這些見解,從工作相關(guān)任務(wù)到休閑活動(dòng)。今天的應(yīng)用程序之所以失敗,是因?yàn)樗鼈儗?duì)用戶的了解非常有限:韋瑟的無(wú)處不在計(jì)算愿景需要能夠推理家庭、朋友和工作的模型——而不僅僅是一個(gè)應(yīng)用程序,也不僅僅通過一維信號(hào)。
斯坦福大學(xué)的研究團(tuán)隊(duì)提出了通用用戶模型(General User Model,簡(jiǎn)稱GUM)的架構(gòu):這是一種計(jì)算模型,可以跨領(lǐng)域和時(shí)間尺度具象化有關(guān)用戶的信息和推斷。GUM允許用戶通過將非結(jié)構(gòu)化觀察(例如,屏幕共享)輸入到利用大型多模態(tài)模型(如視覺和語(yǔ)言模型,即VLM)的推理架構(gòu)中,構(gòu)建用戶自己行為、知識(shí)、信念和偏好的私人計(jì)算表示。
這個(gè)架構(gòu)貢獻(xiàn)了三個(gè)主要元素:Propose(提議)模塊將非結(jié)構(gòu)化觀察轉(zhuǎn)化為關(guān)于用戶偏好、上下文和意圖的帶有置信度權(quán)重的命題。Retrieve(檢索)模塊對(duì)這些命題進(jìn)行索引和搜索,以返回給定查詢的最相關(guān)子集。最后,使用Retrieve的結(jié)果,Revise(修訂)模塊會(huì)在新觀察到來(lái)時(shí)重新評(píng)估和優(yōu)化命題。團(tuán)隊(duì)還使用情境完整性(contextual integrity)的Audit(審計(jì))模塊對(duì)所有觀察進(jìn)行審計(jì),以防止隱私侵犯。該模塊利用GUM本身來(lái)估計(jì)和過濾掉用戶預(yù)期不會(huì)記錄到GUM中的信息。所有數(shù)據(jù)都安全地保存在用戶的設(shè)備上,在具備條件的硬件上支持本地推理。
操作系統(tǒng)、應(yīng)用程序或用戶本身可以實(shí)時(shí)查詢GUM,實(shí)現(xiàn)類似于人機(jī)交互基礎(chǔ)研究中設(shè)想的廣泛應(yīng)用。作為GUM的一部分,研究團(tuán)隊(duì)引入了一個(gè)接口,使應(yīng)用程序能夠查詢GUM的底層命題。GUM看到的任何非結(jié)構(gòu)化觀察都可以被調(diào)用來(lái)驅(qū)動(dòng)交互式應(yīng)用程序。無(wú)論互動(dòng)如何,用戶都能直接和本地控制GUM的底層命題,允許編輯、刪除或添加。
在最簡(jiǎn)單的層面上,GUM可以插入信息以在應(yīng)用程序和用戶之間建立共同基礎(chǔ):例如,在提示像ChatGPT這樣的語(yǔ)言模型時(shí)自動(dòng)添加相關(guān)上下文。有了GUM,任何LLM現(xiàn)在都可以直接引用你幾分鐘前正在閱讀的研究論文,當(dāng)你詢問其方法論時(shí),無(wú)需你明確引用或總結(jié)論文內(nèi)容。除了提示LLM外,任何應(yīng)用程序都可以直接查詢GUM來(lái)調(diào)整其體驗(yàn),實(shí)現(xiàn)長(zhǎng)期以來(lái)人機(jī)交互的愿景。例如,使用GUM增強(qiáng)的操作系統(tǒng)可以在會(huì)議期間只優(yōu)先處理真正相關(guān)的通知——在抑制食譜郵件的同時(shí)顯示迫在眉睫的會(huì)議注冊(cè)截止日期。連接到GUM的電子郵件客戶端可以根據(jù)觀察到的用戶優(yōu)先級(jí)自動(dòng)對(duì)消息進(jìn)行排序,而無(wú)需額外的特定應(yīng)用程序訓(xùn)練。
GUM還使能創(chuàng)建全新類別的主動(dòng)交互系統(tǒng)。研究團(tuán)隊(duì)通過一個(gè)名為Gumbo的助手來(lái)展示這一點(diǎn),該助手通過連續(xù)私密捕獲用戶計(jì)算機(jī)屏幕的截圖來(lái)學(xué)習(xí)GUM。使用GUM,Gumbo不斷發(fā)現(xiàn)根據(jù)用戶的上下文,哪些建議會(huì)有所幫助。此外,Gumbo使用底層GUM來(lái)確定是否以及何時(shí)干預(yù)并執(zhí)行建議可能有用。通過調(diào)用用戶的上下文,Gumbo可以主動(dòng)發(fā)現(xiàn)一系列有用的建議并適當(dāng)過濾重要的建議。
對(duì)于本論文的第一作者,Gumbo在觀察到他朋友的婚禮邀請(qǐng)后,主動(dòng)找到了一個(gè)可以租西裝的地方(考慮到作者的預(yù)算)。Gumbo還在開發(fā)過程中發(fā)現(xiàn)并提出了系統(tǒng)本身的漏洞修復(fù)方案;并根據(jù)與合作者的互動(dòng)提出了對(duì)本論文的潛在修改建議。對(duì)于評(píng)估中的參與者,Gumbo構(gòu)思了將新的理論框架整合到正在進(jìn)行的研究中的方法,創(chuàng)建了針對(duì)跨國(guó)搬遷的高度個(gè)性化的搬家計(jì)劃,并幫助組織來(lái)自分散通信的電子郵件存檔——所有這些都是主動(dòng)的,僅基于對(duì)用戶的觀察。
在技術(shù)評(píng)估中,研究團(tuán)隊(duì)首先關(guān)注驗(yàn)證GUM的準(zhǔn)確性。他們?cè)谧罱碾娮余]件互動(dòng)上訓(xùn)練GUM,將每封電子郵件(元數(shù)據(jù)、附件、鏈接和回復(fù))按順序輸入到GUM中。18名參與者評(píng)判由GUM生成的命題總體上準(zhǔn)確且校準(zhǔn)良好:在不正確時(shí)不自信,在正確時(shí)自信。高置信度命題(置信度=10)被評(píng)為100%準(zhǔn)確,而平均而言,所有命題(包括低置信度的命題)都相當(dāng)準(zhǔn)確(76.15%)。從消融研究來(lái)看,所有GUM組件對(duì)準(zhǔn)確性都至關(guān)重要。然后,他們部署Gumbo與5名參與者一起使用了5天,系統(tǒng)觀察參與者的屏幕。這種縱向評(píng)估重現(xiàn)了底層GUM的結(jié)果。此外,參與者確定了Gumbo完成的大量有用且執(zhí)行良好的建議。五名參與者中有兩名在研究結(jié)束后特別看重該系統(tǒng),并要求繼續(xù)在他們的計(jì)算機(jī)上運(yùn)行。評(píng)估還突出了GUM和Gumbo的局限性和邊界條件,包括隱私考慮和過于坦率的命題。
總結(jié)來(lái)說,這項(xiàng)研究貢獻(xiàn)了通用用戶模型(GUMs):用戶行為、知識(shí)、信念和偏好的計(jì)算表示,從對(duì)用戶的非結(jié)構(gòu)化觀察中構(gòu)建。研究團(tuán)隊(duì)展示了GUM的實(shí)現(xiàn),一個(gè)允許應(yīng)用程序查詢GUM的接口,一個(gè)名為Gumbo的示例助手應(yīng)用程序,通過非結(jié)構(gòu)化電子郵件互動(dòng)進(jìn)行的技術(shù)評(píng)估,通過非結(jié)構(gòu)化屏幕捕獲進(jìn)行的縱向評(píng)估,以及對(duì)這類應(yīng)用程序的規(guī)范和含義的反思。
這項(xiàng)研究向我們展示了一個(gè)令人興奮的未來(lái),在這個(gè)未來(lái)中,計(jì)算機(jī)系統(tǒng)可以通過觀察我們的日常工作方式,真正理解我們是誰(shuí)、我們?cè)谧鍪裁匆约笆裁磳?duì)我們有幫助,從而提供無(wú)縫、智能的支持,實(shí)現(xiàn)人機(jī)交互領(lǐng)域長(zhǎng)久以來(lái)的愿景。
好文章,需要你的鼓勵(lì)
新加坡國(guó)立大學(xué)研究團(tuán)隊(duì)開發(fā)了SPIRAL框架,通過讓AI與自己對(duì)弈零和游戲來(lái)提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡(jiǎn)單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無(wú)需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語(yǔ)言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無(wú)法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語(yǔ)言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。