這項(xiàng)由斯坦福大學(xué)神經(jīng)AI實(shí)驗(yàn)室的拉胡爾·文卡特什、克萊門·科塔爾、莉莉安·陳等研究人員領(lǐng)導(dǎo)的突破性研究發(fā)表于2025年7月21日,論文題目為《發(fā)現(xiàn)和使用Spelke片段》。有興趣深入了解的讀者可以通過(guò)項(xiàng)目網(wǎng)站https://neuroailab.github.io/spelke_net訪問(wèn)完整研究成果。
當(dāng)一個(gè)剛滿周歲的嬰兒看到桌子上的水杯時(shí),他們本能地知道這個(gè)杯子會(huì)作為一個(gè)整體移動(dòng)——而不是杯子的把手單獨(dú)飛走,或者杯子突然分裂成兩半。這種看似簡(jiǎn)單的認(rèn)知能力,實(shí)際上代表了人類對(duì)物理世界最基礎(chǔ)的理解:哪些東西會(huì)一起運(yùn)動(dòng)。
現(xiàn)在,斯坦福大學(xué)的研究團(tuán)隊(duì)開(kāi)發(fā)出了一個(gè)名為SpelkeNet的AI系統(tǒng),它能夠像嬰兒一樣理解物體的物理結(jié)構(gòu)。這個(gè)系統(tǒng)以發(fā)展心理學(xué)家伊麗莎白·斯佩爾克的名字命名,她發(fā)現(xiàn)嬰兒天生就能識(shí)別那些在物理力作用下會(huì)一起移動(dòng)的物體片段。
這項(xiàng)研究的重要性遠(yuǎn)超學(xué)術(shù)范疇。在當(dāng)今的計(jì)算機(jī)視覺(jué)領(lǐng)域,AI系統(tǒng)在識(shí)別物體時(shí)往往依賴語(yǔ)義信息——比如識(shí)別出"這是一輛汽車"、"那是一棵樹(shù)"。但這種方法存在根本性問(wèn)題:AI可能會(huì)把汽車的車門和車身當(dāng)作不同的物體,或者把貼在瓶子上的標(biāo)簽誤認(rèn)為是獨(dú)立的東西。這種錯(cuò)誤理解在機(jī)器人操作任務(wù)中會(huì)造成嚴(yán)重問(wèn)題。
研究團(tuán)隊(duì)的創(chuàng)新之處在于,他們讓AI不再依賴表面的視覺(jué)特征或語(yǔ)義標(biāo)簽,而是通過(guò)"虛擬戳一戳"的方式來(lái)理解物體。就像一個(gè)好奇的孩子用手指戳桌上的東西來(lái)探索世界一樣,SpelkeNet會(huì)在靜態(tài)圖像上模擬各種"戳擊"動(dòng)作,然后觀察整個(gè)場(chǎng)景會(huì)如何響應(yīng)這些力的作用。
**一、從嬰兒認(rèn)知到AI突破**
伊麗莎白·斯佩爾克的開(kāi)創(chuàng)性研究表明,即使是幾個(gè)月大的嬰兒也已經(jīng)掌握了物體識(shí)別的基本原則。這些原則包括凝聚性(物體的各部分會(huì)粘在一起)、連續(xù)性(物體不會(huì)突然消失或出現(xiàn))、實(shí)體性(兩個(gè)物體不能占據(jù)同一空間)和接觸性(物體只有在接觸時(shí)才會(huì)相互影響)。
當(dāng)前的計(jì)算機(jī)視覺(jué)系統(tǒng),包括廣受歡迎的SAM(Segment Anything Model),主要基于語(yǔ)義和紋理特征來(lái)分割圖像。這就好比一個(gè)從未接觸過(guò)物理世界的人,僅憑外觀來(lái)判斷什么是什么。比如,SAM可能會(huì)把一個(gè)人衣服上的圖案、影子、甚至皮膚都識(shí)別為不同的"物體",因?yàn)樗鼈冊(cè)谝曈X(jué)上有所區(qū)別。
然而,在現(xiàn)實(shí)世界中,當(dāng)你推動(dòng)一個(gè)人時(shí),整個(gè)人會(huì)作為一個(gè)單元移動(dòng)——包括他的衣服、皮膚和影子。這種基于物理運(yùn)動(dòng)的理解,正是斯佩爾克片段概念的核心。
**二、SpelkeNet的工作原理**
SpelkeNet基于一個(gè)巧妙的想法:既然物理世界中的力會(huì)讓相關(guān)聯(lián)的物體一起運(yùn)動(dòng),那么我們可以通過(guò)模擬這些力來(lái)發(fā)現(xiàn)物體的真實(shí)邊界。
這個(gè)過(guò)程可以比作一位盲人探索陌生房間的方式。盲人會(huì)用手杖輕敲各處,通過(guò)聲音和振動(dòng)來(lái)判斷哪些東西是連在一起的,哪些是分開(kāi)的。當(dāng)敲擊桌子時(shí),整張桌子都會(huì)發(fā)出震動(dòng),而桌上的杯子則會(huì)產(chǎn)生不同的響應(yīng)。
SpelkeNet采用了類似的策略,但它使用的是"虛擬戳擊"。系統(tǒng)首先生成一個(gè)"運(yùn)動(dòng)可能性地圖",標(biāo)識(shí)出圖像中哪些區(qū)域在受到外力時(shí)可能會(huì)移動(dòng)。天空、墻壁這樣的背景區(qū)域運(yùn)動(dòng)可能性很低,而杯子、椅子這樣的物體運(yùn)動(dòng)可能性就很高。
接下來(lái),系統(tǒng)在這些高可能性區(qū)域進(jìn)行虛擬戳擊實(shí)驗(yàn)。每次戳擊后,SpelkeNet會(huì)預(yù)測(cè)整個(gè)場(chǎng)景會(huì)如何響應(yīng)——哪些像素會(huì)跟著一起移動(dòng),哪些會(huì)保持靜止。通過(guò)成百上千次這樣的實(shí)驗(yàn),系統(tǒng)逐漸學(xué)會(huì)了識(shí)別哪些像素總是一起移動(dòng),從而發(fā)現(xiàn)真正的物體邊界。
這種方法的優(yōu)雅之處在于它的生物合理性。研究表明,人類嬰兒也是通過(guò)類似的"假設(shè)-驗(yàn)證"過(guò)程來(lái)理解物理世界的。當(dāng)嬰兒看到一個(gè)新物體時(shí),他們會(huì)在心理上模擬各種可能的相互作用,然后根據(jù)這些模擬來(lái)判斷物體的屬性。
**三、技術(shù)架構(gòu)的創(chuàng)新設(shè)計(jì)**
SpelkeNet建立在LRAS(局部隨機(jī)訪問(wèn)序列建模)框架之上,這是一個(gè)受大型語(yǔ)言模型啟發(fā)的序列建模方法。與傳統(tǒng)的擴(kuò)散模型不同,LRAS可以處理任意順序的輸入,這使得局部干預(yù)成為可能。
這種架構(gòu)選擇至關(guān)重要。傳統(tǒng)的視頻預(yù)測(cè)模型通常需要密集的全局條件,很難實(shí)現(xiàn)精確的局部控制。而LRAS的自回歸結(jié)構(gòu)天然支持組合式輸入序列,研究團(tuán)隊(duì)可以簡(jiǎn)單地在輸入序列中添加一個(gè)光流標(biāo)記來(lái)表示虛擬戳擊,然后讓模型預(yù)測(cè)其余區(qū)域的響應(yīng)。
模型的訓(xùn)練數(shù)據(jù)來(lái)自大規(guī)模互聯(lián)網(wǎng)視頻,包含了約7000小時(shí)的多樣化內(nèi)容。這些視頻覆蓋了從日常生活場(chǎng)景到專業(yè)錄制內(nèi)容的廣泛范圍。通過(guò)觀察這些視頻中的運(yùn)動(dòng)模式,SpelkeNet學(xué)會(huì)了物理世界的基本規(guī)律,而無(wú)需任何明確的物理規(guī)則編程。
在處理靜態(tài)圖像時(shí),SpelkeNet會(huì)生成兩種關(guān)鍵的中間表示。首先是"運(yùn)動(dòng)承受力地圖",它標(biāo)識(shí)出場(chǎng)景中哪些區(qū)域在受到外力時(shí)可能發(fā)生運(yùn)動(dòng)。其次是"期望位移地圖",它預(yù)測(cè)當(dāng)某個(gè)特定位置受到虛擬戳擊時(shí),場(chǎng)景中每個(gè)像素的預(yù)期運(yùn)動(dòng)方向和幅度。
**四、統(tǒng)計(jì)反事實(shí)探測(cè)方法**
SpelkeNet的核心創(chuàng)新在于其"統(tǒng)計(jì)反事實(shí)探測(cè)"方法。這個(gè)名稱聽(tīng)起來(lái)復(fù)雜,但其實(shí)對(duì)應(yīng)的是一個(gè)相當(dāng)直觀的過(guò)程。
反事實(shí)思維是人類認(rèn)知的基本能力——我們經(jīng)常會(huì)想"如果當(dāng)時(shí)我做了不同的選擇會(huì)怎樣"。在物理推理中,這表現(xiàn)為"如果我推這個(gè)物體會(huì)發(fā)生什么"的思考。SpelkeNet將這種思維模式系統(tǒng)化,通過(guò)大量的虛擬實(shí)驗(yàn)來(lái)探索物體的行為模式。
統(tǒng)計(jì)方面體現(xiàn)在系統(tǒng)不依賴單次預(yù)測(cè),而是進(jìn)行數(shù)百次不同的虛擬戳擊實(shí)驗(yàn)。每次實(shí)驗(yàn)都會(huì)從略微不同的角度或強(qiáng)度進(jìn)行戳擊,然后觀察場(chǎng)景的響應(yīng)。通過(guò)統(tǒng)計(jì)分析這些響應(yīng)的相關(guān)性,系統(tǒng)能夠識(shí)別出哪些像素始終表現(xiàn)出相似的運(yùn)動(dòng)模式。
這種方法解決了之前技術(shù)的一個(gè)重要局限。早期的反事實(shí)世界模型(CWM)是確定性的,只能產(chǎn)生單一的預(yù)測(cè)結(jié)果。但現(xiàn)實(shí)世界中,同一個(gè)力的作用可能產(chǎn)生多種合理的結(jié)果。比如,當(dāng)你輕推一個(gè)人的手時(shí),既可能只有手臂移動(dòng),也可能整個(gè)人都會(huì)移動(dòng)。CWM被迫在這些可能性之間取平均,導(dǎo)致模糊和不準(zhǔn)確的預(yù)測(cè)。
SpelkeNet的概率性設(shè)計(jì)允許它同時(shí)考慮多種可能的結(jié)果。系統(tǒng)會(huì)生成多個(gè)不同的場(chǎng)景響應(yīng),然后通過(guò)統(tǒng)計(jì)方法找出在所有可能情況下都成立的運(yùn)動(dòng)相關(guān)性。這樣得出的物體分割更加穩(wěn)定和可靠。
**五、SpelkeBench基準(zhǔn)測(cè)試的建立**
為了評(píng)估SpelkeNet的性能,研究團(tuán)隊(duì)創(chuàng)建了SpelkeBench,這是第一個(gè)專門用于評(píng)估"斯佩爾克式"物體分割能力的基準(zhǔn)數(shù)據(jù)集。
構(gòu)建這個(gè)數(shù)據(jù)集面臨著獨(dú)特的挑戰(zhàn)。與傳統(tǒng)的語(yǔ)義分割數(shù)據(jù)集不同,SpelkeBench需要的標(biāo)注不能簡(jiǎn)單地基于物體類別或視覺(jué)特征,而必須反映物體在物理力作用下的真實(shí)行為。
研究團(tuán)隊(duì)采用了嚴(yán)格的三階段篩選流程。首先,他們從現(xiàn)有的EntitySeg數(shù)據(jù)集中剔除了所有"背景物質(zhì)"——比如天空、地面、墻壁等在正常情況下不會(huì)作為整體移動(dòng)的區(qū)域。其次,他們進(jìn)一步過(guò)濾掉了那些雖然被標(biāo)記為"物體"但實(shí)際上無(wú)法移動(dòng)的區(qū)域,比如固定在墻上的交通標(biāo)志或嵌入式的廚房設(shè)備。最后,他們從篩選后的候選池中挑選出500張包含多樣化物體類型和場(chǎng)景復(fù)雜度的高質(zhì)量圖像。
此外,團(tuán)隊(duì)還從OpenX機(jī)器人交互數(shù)據(jù)集中手工標(biāo)注了50張圖像,這些圖像反映了機(jī)器人實(shí)際操作場(chǎng)景中的物體分割需求。這種雙重?cái)?shù)據(jù)來(lái)源確保了基準(zhǔn)測(cè)試既能反映一般的物理推理能力,也能評(píng)估在實(shí)際機(jī)器人應(yīng)用中的表現(xiàn)。
**六、自動(dòng)發(fā)現(xiàn)場(chǎng)景中的所有物體**
雖然點(diǎn)擊提示的分割很有用,但在許多實(shí)際應(yīng)用中,系統(tǒng)需要能夠自動(dòng)發(fā)現(xiàn)場(chǎng)景中的所有獨(dú)立物體。比如,一個(gè)負(fù)責(zé)清理餐桌的機(jī)器人需要知道盤子、杯子、餐具都是可以獨(dú)立移動(dòng)的物體,而桌布雖然看起來(lái)是背景,但實(shí)際上也是一個(gè)可移動(dòng)的實(shí)體。
為了實(shí)現(xiàn)這種自動(dòng)發(fā)現(xiàn),SpelkeNet采用了一種基于親和力矩陣的聚類方法。系統(tǒng)首先從運(yùn)動(dòng)承受力地圖中采樣大量的候選戳擊點(diǎn),然后對(duì)每個(gè)點(diǎn)進(jìn)行多次多方向的虛擬戳擊實(shí)驗(yàn)。
這個(gè)過(guò)程產(chǎn)生了每個(gè)像素的"運(yùn)動(dòng)描述符"——一個(gè)高維向量,編碼了該像素在各種虛擬力作用下的典型響應(yīng)模式。屬于同一物體的像素會(huì)具有相似的運(yùn)動(dòng)描述符,因?yàn)樗鼈兛偸且黄鹨苿?dòng)。而屬于不同物體的像素則會(huì)表現(xiàn)出不同的響應(yīng)模式。
通過(guò)計(jì)算所有像素對(duì)之間的運(yùn)動(dòng)描述符相似性,系統(tǒng)構(gòu)建了一個(gè)密集的親和力矩陣。這個(gè)矩陣捕獲了場(chǎng)景的成對(duì)因果結(jié)構(gòu)——哪些區(qū)域在運(yùn)動(dòng)空間中是因果糾纏的。
隨后,系統(tǒng)應(yīng)用迭代聚類算法來(lái)識(shí)別獨(dú)立的運(yùn)動(dòng)單元。算法在每次迭代中選擇最有信心的探測(cè)中心(其親和力行在所有像素上具有最高平均值),應(yīng)用閾值處理得到初始掩碼,然后通過(guò)聚合該掩碼內(nèi)所有點(diǎn)的親和力來(lái)精化邊界。
**七、在物體操作任務(wù)中的應(yīng)用**
SpelkeNet的真正價(jià)值在其實(shí)際應(yīng)用中得到了驗(yàn)證。研究團(tuán)隊(duì)在3DEditBench基準(zhǔn)上測(cè)試了基于斯佩爾克片段的物體操作效果,結(jié)果顯示了顯著的改進(jìn)。
傳統(tǒng)的物體編輯流程通常依賴SAM等模型來(lái)識(shí)別需要編輯的區(qū)域。然而,這些模型經(jīng)常產(chǎn)生物理上不合理的分割結(jié)果。比如,在編輯一個(gè)人的圖像時(shí),SAM可能只選擇了衣服的一部分,或者把人的臉和身體分開(kāi)處理。當(dāng)編輯算法嘗試移動(dòng)或變形這樣的片段時(shí),結(jié)果往往顯得不自然和不一致。
相比之下,SpelkeNet產(chǎn)生的分割結(jié)果反映了真實(shí)的物理結(jié)構(gòu)。當(dāng)用戶點(diǎn)擊一個(gè)物體時(shí),系統(tǒng)會(huì)自動(dòng)選擇整個(gè)會(huì)一起移動(dòng)的區(qū)域。這意味著當(dāng)一個(gè)杯子被旋轉(zhuǎn)時(shí),杯身、把手和里面的液體都會(huì)作為一個(gè)整體進(jìn)行變換,而不會(huì)出現(xiàn)把手單獨(dú)飛走或液體留在原地的奇怪現(xiàn)象。
實(shí)驗(yàn)結(jié)果在多個(gè)指標(biāo)上都顯示了SpelkeNet的優(yōu)勢(shì). 在編輯一致性(Edit Adherence)指標(biāo)上,SpelkeNet比SAM提高了14-25個(gè)百分點(diǎn)。這個(gè)指標(biāo)衡量的是編輯后的物體是否與預(yù)期的變換保持一致。同時(shí),在傳統(tǒng)的圖像質(zhì)量指標(biāo)(如PSNR、SSIM、LPIPS)上,SpelkeNet也普遍優(yōu)于基線方法。
更重要的是,這種改進(jìn)是模型無(wú)關(guān)的。研究團(tuán)隊(duì)在四種不同的編輯模型上都觀察到了類似的提升,包括LightningDrag、DiffusionHandles、Diffusion-as-Shader和LRAS-3D。這表明問(wèn)題的關(guān)鍵不在于編輯算法本身,而在于為這些算法提供物理上合理的分割輸入。
**八、意外發(fā)現(xiàn):物理屬性的涌現(xiàn)理解**
在研究過(guò)程中,團(tuán)隊(duì)發(fā)現(xiàn)SpelkeNet不僅能夠分割物體,還意外地學(xué)會(huì)了理解物體的其他物理屬性。這些涌現(xiàn)能力為未來(lái)的研究開(kāi)辟了新的方向。
首先,系統(tǒng)展現(xiàn)出了對(duì)支撐關(guān)系的理解。當(dāng)虛擬戳擊應(yīng)用到一個(gè)支撐結(jié)構(gòu)的底部時(shí),提取的斯佩爾克片段會(huì)包括該物體支撐的所有東西。比如,戳擊一個(gè)托盤時(shí),片段不僅包括托盤本身,還包括托盤上的所有物品。這種行為表明系統(tǒng)對(duì)重力和支撐關(guān)系有了隱式的理解。
其次,運(yùn)動(dòng)概率地圖顯示出了對(duì)材料屬性的敏感性。對(duì)于剛性物體如筆記本電腦或紙箱,概率分布相對(duì)均勻,因?yàn)檎麄€(gè)物體都會(huì)以相似的方式響應(yīng)外力。但對(duì)于可變形物體如布料或塑料袋,概率分布更加局域化,在虛擬戳擊點(diǎn)附近呈現(xiàn)更高的值。這種差異反映了系統(tǒng)對(duì)不同材料力學(xué)特性的理解。
這些發(fā)現(xiàn)暗示著,通過(guò)預(yù)測(cè)性建模學(xué)習(xí)的世界模型可能自然地獲得了對(duì)各種物理概念的理解,即使這些概念從未被明確地教授。這與人類兒童的學(xué)習(xí)過(guò)程驚人地相似——通過(guò)與環(huán)境的交互,兒童逐漸建立起對(duì)物理世界復(fù)雜而精細(xì)的理解。
**九、技術(shù)挑戰(zhàn)與解決方案**
開(kāi)發(fā)SpelkeNet的過(guò)程中遇到了多個(gè)技術(shù)挑戰(zhàn),每一個(gè)都需要?jiǎng)?chuàng)新的解決方案。
首先是如何將攝像機(jī)運(yùn)動(dòng)從物體運(yùn)動(dòng)中分離出來(lái)。在自然視頻中,像素的運(yùn)動(dòng)可能來(lái)自兩個(gè)源頭:攝像機(jī)的移動(dòng)或物體本身的移動(dòng)。對(duì)于斯佩爾克片段的發(fā)現(xiàn),研究團(tuán)隊(duì)只關(guān)心由外力引起的物體運(yùn)動(dòng)。
解決方案是在輸入序列中明確包含一個(gè)零攝像機(jī)姿態(tài)標(biāo)記。通過(guò)告訴模型假設(shè)攝像機(jī)是靜止的,系統(tǒng)被引導(dǎo)將任何輸入運(yùn)動(dòng)都?xì)w因于物體的移動(dòng)而非攝像機(jī)的位移。這種簡(jiǎn)單而有效的條件控制確保了虛擬戳擊產(chǎn)生的流場(chǎng)真正反映了物體的因果響應(yīng)。
第二個(gè)挑戰(zhàn)是如何處理多模態(tài)響應(yīng)?,F(xiàn)實(shí)世界中,同一個(gè)力的作用可能產(chǎn)生多種合理的結(jié)果。比如,推動(dòng)一個(gè)人的手臂時(shí),可能只有手臂移動(dòng),也可能整個(gè)人都會(huì)移動(dòng)。確定性模型必須在這些可能性之間取平均,導(dǎo)致模糊的預(yù)測(cè)。
SpelkeNet通過(guò)概率性的自回歸生成來(lái)解決這個(gè)問(wèn)題。系統(tǒng)不是產(chǎn)生單一的預(yù)測(cè),而是可以采樣多個(gè)不同的完整流場(chǎng)。通過(guò)聚合多次采樣的結(jié)果,系統(tǒng)能夠捕獲穩(wěn)定的運(yùn)動(dòng)相關(guān)性,同時(shí)避免被偶然的變化所誤導(dǎo)。
第三個(gè)挑戰(zhàn)是計(jì)算效率。虛擬戳擊實(shí)驗(yàn)需要大量的前向推理過(guò)程,特別是在自動(dòng)發(fā)現(xiàn)模式下,系統(tǒng)需要在每個(gè)候選位置進(jìn)行多次多方向的實(shí)驗(yàn)。
研究團(tuán)隊(duì)通過(guò)兩種策略來(lái)優(yōu)化效率。一是利用LRAS框架的并行解碼能力,可以同時(shí)預(yù)測(cè)所有空間位置的流分布。二是開(kāi)發(fā)了智能采樣策略,優(yōu)先在運(yùn)動(dòng)承受力高的區(qū)域進(jìn)行實(shí)驗(yàn),避免在靜態(tài)背景上浪費(fèi)計(jì)算資源。
**十、與現(xiàn)有方法的對(duì)比優(yōu)勢(shì)**
SpelkeNet相比現(xiàn)有方法具有多個(gè)根本優(yōu)勢(shì),這些優(yōu)勢(shì)源于其獨(dú)特的設(shè)計(jì)理念。
與語(yǔ)義分割方法相比,SpelkeNet不依賴于預(yù)定義的物體類別或紋理特征。傳統(tǒng)方法可能會(huì)把汽車的不同部分(如車門、車輪、車身)識(shí)別為不同的片段,因?yàn)樗鼈冊(cè)谕庥^上有所差異。但在物理現(xiàn)實(shí)中,當(dāng)你推動(dòng)汽車時(shí),所有這些部分都會(huì)作為一個(gè)整體移動(dòng)。SpelkeNet能夠捕獲這種物理一致性,而不會(huì)被表面的視覺(jué)差異所誤導(dǎo)。
與基于注意力的自監(jiān)督方法相比,SpelkeNet避免了對(duì)比學(xué)習(xí)的固有限制。DINO等方法傾向于為同類物體產(chǎn)生相似的表示,這使得它們難以區(qū)分場(chǎng)景中同一類別的多個(gè)實(shí)例。比如,在一個(gè)包含多把椅子的房間里,DINO可能會(huì)將所有椅子合并為一個(gè)大的片段。SpelkeNet通過(guò)物理因果關(guān)系而非語(yǔ)義相似性來(lái)定義片段,自然地避免了這個(gè)問(wèn)題。
與早期的反事實(shí)世界模型相比,SpelkeNet的概率性設(shè)計(jì)提供了更加穩(wěn)健和準(zhǔn)確的預(yù)測(cè)。CWM的確定性本質(zhì)迫使它在多種可能的響應(yīng)之間取平均,導(dǎo)致模糊和不準(zhǔn)確的運(yùn)動(dòng)場(chǎng)。而SpelkeNet可以顯式地建模響應(yīng)的不確定性,通過(guò)多次采樣來(lái)獲得更可靠的統(tǒng)計(jì)估計(jì)。
此外,SpelkeNet的干預(yù)方式更加現(xiàn)實(shí)。CWM通過(guò)復(fù)制RGB補(bǔ)丁到不同位置來(lái)模擬物體運(yùn)動(dòng),但這種方法無(wú)法考慮光照變化、遮擋關(guān)系等真實(shí)運(yùn)動(dòng)中的復(fù)雜因素。SpelkeNet使用稀疏流向量來(lái)指定預(yù)期運(yùn)動(dòng),這種表示更加抽象但也更加有效,避免了像素級(jí)干預(yù)的諸多問(wèn)題。
**十一、實(shí)際應(yīng)用的廣闊前景**
SpelkeNet的應(yīng)用潛力遠(yuǎn)遠(yuǎn)超出了計(jì)算機(jī)視覺(jué)的傳統(tǒng)邊界,它為多個(gè)領(lǐng)域提供了新的可能性。
在機(jī)器人技術(shù)領(lǐng)域,SpelkeNet可以幫助機(jī)器人更好地理解和操作復(fù)雜環(huán)境。一個(gè)配備了SpelkeNet的機(jī)器人能夠自動(dòng)識(shí)別房間中哪些物體是可移動(dòng)的,哪些是固定的,以及如何安全地抓取和操作這些物體而不會(huì)意外地影響到其他物品。這種能力對(duì)于家庭服務(wù)機(jī)器人、倉(cāng)儲(chǔ)自動(dòng)化和制造業(yè)機(jī)器人都具有重要價(jià)值。
在增強(qiáng)現(xiàn)實(shí)和虛擬現(xiàn)實(shí)應(yīng)用中,SpelkeNet可以實(shí)現(xiàn)更加真實(shí)的物理交互。當(dāng)用戶在AR環(huán)境中觸碰虛擬物體時(shí),系統(tǒng)能夠預(yù)測(cè)物體的真實(shí)物理響應(yīng),創(chuàng)造更加沉浸和直觀的用戶體驗(yàn)。這種技術(shù)可以應(yīng)用于教育軟件、設(shè)計(jì)工具和娛樂(lè)應(yīng)用。
在電影和視頻制作行業(yè),SpelkeNet提供的物理準(zhǔn)確的物體分割可以大大簡(jiǎn)化特效制作流程。傳統(tǒng)的綠幕技術(shù)和手工遮罩制作可能被更加智能和自動(dòng)化的物體提取方法所替代,特別是在需要復(fù)雜物體變形和運(yùn)動(dòng)的場(chǎng)景中。
在醫(yī)學(xué)影像領(lǐng)域,雖然應(yīng)用場(chǎng)景有所不同,但SpelkeNet的核心思想——通過(guò)運(yùn)動(dòng)相關(guān)性來(lái)理解結(jié)構(gòu)——可能對(duì)分析心臟運(yùn)動(dòng)、肌肉收縮等動(dòng)態(tài)生理過(guò)程具有價(jià)值。系統(tǒng)可能能夠識(shí)別哪些解剖結(jié)構(gòu)會(huì)協(xié)調(diào)運(yùn)動(dòng),哪些具有獨(dú)立的動(dòng)力學(xué)特性。
**十二、未來(lái)發(fā)展方向與挑戰(zhàn)**
盡管SpelkeNet取得了顯著成功,但仍有許多方向值得進(jìn)一步探索和改進(jìn)。
首先,當(dāng)前的方法主要適用于宏觀尺度的日常物體。將其擴(kuò)展到微觀或超大尺度的現(xiàn)象——比如分子動(dòng)力學(xué)或天體物理學(xué)——需要對(duì)模型架構(gòu)和訓(xùn)練數(shù)據(jù)進(jìn)行根本性的調(diào)整。這種擴(kuò)展可能為科學(xué)發(fā)現(xiàn)提供新的工具,幫助研究人員在缺乏直觀理解的領(lǐng)域中識(shí)別因果結(jié)構(gòu)。
其次,目前的虛擬戳擊主要模擬簡(jiǎn)單的點(diǎn)力作用。現(xiàn)實(shí)世界中的物理交互要復(fù)雜得多,涉及摩擦、彈性變形、流體動(dòng)力學(xué)等多種物理現(xiàn)象。未來(lái)的版本可能需要支持更豐富的虛擬交互類型,比如拖拽、扭轉(zhuǎn)、加熱等。
第三,計(jì)算效率仍然是一個(gè)挑戰(zhàn)。當(dāng)前的方法需要大量的前向推理來(lái)生成足夠的統(tǒng)計(jì)樣本。開(kāi)發(fā)更高效的采樣策略、利用緩存和增量計(jì)算,以及探索專門的硬件加速方案,都是重要的工程優(yōu)化方向。
另一個(gè)有趣的方向是探索SpelkeNet在時(shí)間維度上的擴(kuò)展。當(dāng)前的方法主要關(guān)注瞬時(shí)的運(yùn)動(dòng)響應(yīng),但真實(shí)的物理系統(tǒng)具有復(fù)雜的時(shí)間動(dòng)力學(xué)。開(kāi)發(fā)能夠預(yù)測(cè)長(zhǎng)期運(yùn)動(dòng)軌跡和多步交互的版本,可能會(huì)產(chǎn)生更加豐富和有用的物理理解。
最后,如何將SpelkeNet的能力集成到更大的AI系統(tǒng)中仍然是一個(gè)開(kāi)放問(wèn)題。理想情況下,物理推理應(yīng)該與語(yǔ)義理解、規(guī)劃決策等其他認(rèn)知能力無(wú)縫結(jié)合,形成真正智能的行為系統(tǒng)。
說(shuō)到底,SpelkeNet代表了AI系統(tǒng)理解物理世界方式的一個(gè)重要轉(zhuǎn)變。它不再依賴于表面特征或預(yù)定義類別,而是通過(guò)模擬物理交互來(lái)發(fā)現(xiàn)世界的真實(shí)結(jié)構(gòu)。這種方法不僅在技術(shù)上更加優(yōu)雅,在哲學(xué)上也更接近人類嬰兒學(xué)習(xí)物理概念的自然過(guò)程。
隨著這種技術(shù)的成熟和普及,我們可能會(huì)看到AI系統(tǒng)在處理現(xiàn)實(shí)世界任務(wù)時(shí)表現(xiàn)出更加自然和智能的行為。無(wú)論是幫助我們整理房間的機(jī)器人,還是協(xié)助醫(yī)生分析醫(yī)學(xué)影像的AI助手,它們都將具備更加深刻和準(zhǔn)確的物理直覺(jué)。
這項(xiàng)研究提醒我們,有時(shí)候最深刻的技術(shù)突破來(lái)自于回到基礎(chǔ)——回到人類認(rèn)知的起源,回到我們?nèi)绾卫斫庵車澜绲母驹?。通過(guò)讓AI系統(tǒng)像嬰兒一樣學(xué)習(xí),我們可能最終創(chuàng)造出真正理解并能夠在物理世界中有效行動(dòng)的智能機(jī)器。對(duì)于那些希望深入了解技術(shù)細(xì)節(jié)和實(shí)驗(yàn)結(jié)果的讀者,完整的研究論文和代碼實(shí)現(xiàn)都可以通過(guò)項(xiàng)目網(wǎng)站https://neuroailab.github.io/spelke_net獲取。
Q&A
Q1:什么是Spelke片段?它和普通的圖像分割有什么不同? A:Spelke片段是指那些在物理力作用下會(huì)一起移動(dòng)的像素區(qū)域,以心理學(xué)家Elizabeth Spelke命名。與傳統(tǒng)基于外觀或語(yǔ)義的分割不同,Spelke片段反映了物體的真實(shí)物理結(jié)構(gòu)——比如一個(gè)人被推動(dòng)時(shí),整個(gè)身體會(huì)作為一個(gè)單元移動(dòng),而不是頭、手、衣服分別移動(dòng)。
Q2:SpelkeNet會(huì)不會(huì)取代現(xiàn)有的分割模型如SAM? A:目前不會(huì)完全取代,但會(huì)在需要物理推理的應(yīng)用中表現(xiàn)更好。SpelkeNet專門針對(duì)需要理解物體物理行為的任務(wù)設(shè)計(jì),如機(jī)器人操作、物體編輯等。SAM在語(yǔ)義分割和快速標(biāo)注方面仍有優(yōu)勢(shì),兩者更可能是互補(bǔ)關(guān)系。
Q3:普通用戶如何使用這項(xiàng)技術(shù)?有什么實(shí)際應(yīng)用? A:目前主要通過(guò)研究項(xiàng)目網(wǎng)站體驗(yàn),但技術(shù)已經(jīng)可以集成到視頻編輯軟件、AR/VR應(yīng)用和機(jī)器人系統(tǒng)中。未來(lái)可能出現(xiàn)在智能手機(jī)的照片編輯功能、家用機(jī)器人的物體識(shí)別,以及虛擬現(xiàn)實(shí)游戲的物理交互中,讓這些應(yīng)用更加自然和真實(shí)。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語(yǔ)言模型的敘事推理能力與音頻生成技術(shù),通過(guò)交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開(kāi)辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過(guò)讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問(wèn)題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語(yǔ)言模型人性化對(duì)話問(wèn)題。該研究創(chuàng)建了包含20萬(wàn)高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過(guò)創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開(kāi)發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過(guò)學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來(lái)了效率和精度的雙重突破。