這項(xiàng)由韓國(guó)NAVER AI實(shí)驗(yàn)室的金泰慶、韓東允、許炳浩和尹相斗,以及韓國(guó)大學(xué)的樸廷恩共同完成的研究發(fā)表于2025年7月,目前正在評(píng)審中。感興趣的讀者可以通過arXiv:2507.06543v1查閱完整論文。這個(gè)研究團(tuán)隊(duì)提出了一種名為"Token Bottleneck"(簡(jiǎn)稱ToBo)的全新方法,讓機(jī)器人能像人類一樣,通過觀察和記憶來學(xué)習(xí)復(fù)雜的操作技能。
當(dāng)我們看電影時(shí),即使中間有人暫停了幾分鐘,我們回來后依然能迅速理解劇情發(fā)展,這是因?yàn)槲覀兊拇竽X會(huì)自動(dòng)保存重要信息,并能將這些信息與新看到的畫面聯(lián)系起來。研究團(tuán)隊(duì)發(fā)現(xiàn),讓機(jī)器人學(xué)會(huì)這種"觀察-記憶-理解"的能力,是實(shí)現(xiàn)智能機(jī)器人的關(guān)鍵所在。傳統(tǒng)的機(jī)器人視覺系統(tǒng)就像一個(gè)健忘的觀眾,每次看到新畫面都要從頭開始分析,完全忘記了之前看到的內(nèi)容。
機(jī)器人要在真實(shí)世界中工作,就必須具備連續(xù)理解動(dòng)態(tài)場(chǎng)景的能力。比如一個(gè)機(jī)器人要學(xué)會(huì)開門,它需要記住門的初始狀態(tài),理解手柄的位置變化,并預(yù)測(cè)下一步該怎么操作。這種能力被研究者稱為"序列場(chǎng)景理解",就像我們?nèi)祟愒谌粘I钪胁粩嘤^察、記憶、預(yù)測(cè)和行動(dòng)的過程。
研究團(tuán)隊(duì)發(fā)現(xiàn),現(xiàn)有的機(jī)器學(xué)習(xí)方法主要存在兩個(gè)問題。第一個(gè)問題是,大部分方法只能處理靜態(tài)圖片,就像讓一個(gè)從沒見過電影的人僅僅通過幾張截圖來理解整部電影的故事情節(jié),這顯然是不夠的。第二個(gè)問題是,即使是那些聲稱能處理動(dòng)態(tài)場(chǎng)景的方法,實(shí)際效果也很有限,因?yàn)樗鼈兺皇呛?jiǎn)單地比較前后兩幀畫面的差異,而沒有真正理解場(chǎng)景變化的深層含義。
為了解決這些問題,研究團(tuán)隊(duì)開發(fā)了一種巧妙的"瓶頸令牌"機(jī)制。這個(gè)機(jī)制的工作原理就像一個(gè)經(jīng)驗(yàn)豐富的偵探在案發(fā)現(xiàn)場(chǎng)的工作過程。當(dāng)偵探到達(dá)現(xiàn)場(chǎng)時(shí),他會(huì)仔細(xì)觀察每一個(gè)細(xì)節(jié),然后將所有重要線索壓縮成一份簡(jiǎn)潔但信息豐富的案件摘要。接下來,當(dāng)新的線索出現(xiàn)時(shí),偵探會(huì)結(jié)合這份摘要和新線索來推斷事件的發(fā)展。
具體來說,ToBo方法包含兩個(gè)關(guān)鍵步驟:壓縮步驟和擴(kuò)展步驟。在壓縮步驟中,系統(tǒng)會(huì)觀察一個(gè)參考場(chǎng)景(比如門的初始狀態(tài)),然后將所有重要的視覺信息壓縮成一個(gè)被稱為"瓶頸令牌"的數(shù)據(jù)包。這個(gè)令牌就像一個(gè)高度濃縮的記憶膠囊,包含了理解當(dāng)前情況所需的所有關(guān)鍵信息。在擴(kuò)展步驟中,系統(tǒng)會(huì)接收目標(biāo)場(chǎng)景的少量視覺信息(比如只看到門把手的一小部分),然后結(jié)合瓶頸令牌中的記憶來預(yù)測(cè)完整的目標(biāo)場(chǎng)景應(yīng)該是什么樣子。
這種設(shè)計(jì)的巧妙之處在于,通過故意限制目標(biāo)場(chǎng)景的可見信息,系統(tǒng)被迫高度依賴瓶頸令牌中存儲(chǔ)的知識(shí)。這就像要求一個(gè)學(xué)生僅僅根據(jù)考試題目的前幾個(gè)字和之前學(xué)過的知識(shí)來完成整道題目,這樣的訓(xùn)練會(huì)迫使學(xué)生真正理解和記住課程內(nèi)容的精髓。
研究團(tuán)隊(duì)在多個(gè)不同的環(huán)境中測(cè)試了這種方法的效果。他們讓機(jī)器人學(xué)習(xí)各種復(fù)雜的操作任務(wù),比如在Franka Kitchen環(huán)境中開門、開燈、開微波爐等。結(jié)果顯示,使用ToBo方法訓(xùn)練的機(jī)器人在幾乎所有任務(wù)上都大幅超越了傳統(tǒng)方法。以開燈任務(wù)為例,傳統(tǒng)方法的成功率只有大約55%,而ToBo方法的成功率達(dá)到了82%,提升了近27個(gè)百分點(diǎn)。
更令人印象深刻的是,研究團(tuán)隊(duì)還在真實(shí)的物理機(jī)器人上測(cè)試了這種方法。他們?cè)O(shè)計(jì)了三個(gè)真實(shí)世界的任務(wù):開柜門、關(guān)抽屜和疊杯子。在開柜門這個(gè)對(duì)精確度要求很高的任務(wù)中,傳統(tǒng)方法幾乎完全失敗,成功率接近0%,而ToBo方法卻達(dá)到了65%的成功率。這個(gè)結(jié)果特別重要,因?yàn)檎鎸?shí)世界的操作比模擬環(huán)境要復(fù)雜得多,涉及光線變化、物體磨損、操作誤差等各種不確定因素。
為了驗(yàn)證方法的通用性,研究團(tuán)隊(duì)還在視頻標(biāo)簽傳播任務(wù)上進(jìn)行了測(cè)試。這類任務(wù)要求系統(tǒng)能夠跟蹤視頻中物體或人物的位置變化,就像在一段視頻中持續(xù)標(biāo)記一只貓的位置一樣。實(shí)驗(yàn)結(jié)果顯示,ToBo方法在物體跟蹤、身體部位跟蹤和姿態(tài)追蹤等各個(gè)方面都表現(xiàn)優(yōu)異,證明了這種方法不僅適用于機(jī)器人操作,還能廣泛應(yīng)用于其他需要時(shí)序理解的任務(wù)。
研究團(tuán)隊(duì)深入分析了為什么這種方法如此有效。傳統(tǒng)的自監(jiān)督學(xué)習(xí)方法通常采用對(duì)比學(xué)習(xí)或掩碼重建的策略。對(duì)比學(xué)習(xí)就像讓學(xué)生通過比較不同的例子來學(xué)習(xí)概念,雖然能幫助學(xué)生理解事物的相似性和差異性,但在需要精確定位和操作的任務(wù)中表現(xiàn)不佳。掩碼重建方法就像讓學(xué)生看一幅被部分遮擋的圖片然后猜測(cè)被遮擋的部分,這種方法在單張圖片上效果不錯(cuò),但處理動(dòng)態(tài)場(chǎng)景時(shí)就顯得力不從心。
現(xiàn)有的一些試圖處理動(dòng)態(tài)場(chǎng)景的方法,如SiamMAE,嘗試通過建立前后幀之間的對(duì)應(yīng)關(guān)系來理解時(shí)間變化。這就像讓學(xué)生比較兩張相似照片找出差異,雖然能發(fā)現(xiàn)變化,但往往無法深入理解變化的意義和后續(xù)發(fā)展趨勢(shì)。研究團(tuán)隊(duì)通過實(shí)驗(yàn)發(fā)現(xiàn),這類方法在機(jī)器人操作任務(wù)上的改進(jìn)非常有限,有時(shí)甚至不如基礎(chǔ)的MAE方法。
相比之下,ToBo方法的核心洞察是:機(jī)器人不僅需要識(shí)別場(chǎng)景變化,更需要能夠保守地總結(jié)觀察到的場(chǎng)景信息,并將這些信息以支持時(shí)間推理的方式進(jìn)行編碼。這就像訓(xùn)練一個(gè)優(yōu)秀的新聞?dòng)浾?,不僅要能觀察到事件的發(fā)展,還要能將復(fù)雜的事件濃縮成簡(jiǎn)潔而信息豐富的報(bào)道,并且這個(gè)報(bào)道要能幫助讀者理解事件的前因后果和可能的發(fā)展方向。
在技術(shù)實(shí)現(xiàn)上,ToBo使用了一種特殊的解碼器結(jié)構(gòu)。與之前方法使用復(fù)雜的交叉注意力機(jī)制不同,ToBo采用了更簡(jiǎn)單但更有效的自注意力機(jī)制。這種設(shè)計(jì)確保解碼器在擴(kuò)展步驟中專注于利用給定的信息,而不會(huì)被復(fù)雜的交互機(jī)制分散注意力。這就像讓一個(gè)專注的工程師僅僅依靠手頭的工具和材料來完成任務(wù),而不是提供太多可能造成干擾的選擇。
研究團(tuán)隊(duì)還測(cè)試了方法的可擴(kuò)展性。他們使用不同規(guī)模的視覺變換器模型進(jìn)行實(shí)驗(yàn),從小型的ViT-S/16到大型的ViT-L/16。結(jié)果顯示,無論模型大小如何,ToBo方法都能持續(xù)帶來顯著的性能提升。這表明這種方法的有效性不依賴于特定的模型規(guī)模,具有良好的泛化能力。
為了進(jìn)一步驗(yàn)證方法的優(yōu)勢(shì),研究團(tuán)隊(duì)將ToBo與最近流行的機(jī)器人表示學(xué)習(xí)模型進(jìn)行了比較。這些模型包括使用基礎(chǔ)模型監(jiān)督的方法(如Theia)、使用語言輔助監(jiān)督的方法(如R3M、MVP、Voltron、MPI)以及其他自監(jiān)督學(xué)習(xí)方法(如VC-1、data4robotics)。令人驚訝的是,盡管ToBo使用的參數(shù)數(shù)量更少,訓(xùn)練數(shù)據(jù)也更少,且沒有使用任何人工標(biāo)注的監(jiān)督信號(hào),但它在MetaWorld環(huán)境中達(dá)到了最高的性能,甚至超過了那些使用140億標(biāo)注樣本訓(xùn)練的大型基礎(chǔ)模型。
這個(gè)結(jié)果特別有意義,因?yàn)樗砻饔行У膶W(xué)習(xí)策略比單純的數(shù)據(jù)規(guī)模更重要。就像一個(gè)聰明的學(xué)生通過找到合適的學(xué)習(xí)方法,可能比那些僅僅依靠大量練習(xí)的學(xué)生學(xué)得更好更快。ToBo方法的成功證明了,通過巧妙的設(shè)計(jì)讓模型學(xué)會(huì)真正重要的能力,比簡(jiǎn)單地增加數(shù)據(jù)量或模型規(guī)模更加有效。
研究團(tuán)隊(duì)還進(jìn)行了細(xì)致的消融實(shí)驗(yàn)來驗(yàn)證設(shè)計(jì)選擇的合理性。他們特別測(cè)試了目標(biāo)場(chǎng)景掩碼比例的影響。結(jié)果發(fā)現(xiàn),當(dāng)掩碼比例從0.5增加到0.9時(shí),性能持續(xù)改善,這驗(yàn)證了"極度稀少的目標(biāo)信息迫使模型高度依賴參考場(chǎng)景記憶"這一核心假設(shè)。但當(dāng)掩碼比例過高(0.95)時(shí),性能開始下降,說明模型仍然需要一些基本線索來進(jìn)行合理的預(yù)測(cè)。
在實(shí)際應(yīng)用中,研究團(tuán)隊(duì)展示了ToBo方法在多個(gè)具有挑戰(zhàn)性的真實(shí)任務(wù)中的表現(xiàn)。開柜門任務(wù)要求機(jī)器人精確地抓取并轉(zhuǎn)動(dòng)門把手,這涉及復(fù)雜的手眼協(xié)調(diào)和力的控制。關(guān)抽屜任務(wù)需要機(jī)器人理解推拉動(dòng)作的方向和力度。疊杯子任務(wù)則要求機(jī)器人處理精細(xì)的物體操控和空間定位。在這些任務(wù)中,ToBo方法都展現(xiàn)出了明顯優(yōu)于傳統(tǒng)方法的性能,證明了其在真實(shí)世界應(yīng)用中的實(shí)用價(jià)值。
視頻標(biāo)簽傳播實(shí)驗(yàn)進(jìn)一步驗(yàn)證了ToBo方法的通用性。在DAVIS視頻物體分割、VIP視頻部位分割和JHMDB姿態(tài)跟蹤等任務(wù)中,ToBo都取得了最佳性能。這些任務(wù)雖然與機(jī)器人操作在表面上很不相同,但都需要系統(tǒng)能夠理解視覺場(chǎng)景的時(shí)間演化,這正是ToBo方法的核心優(yōu)勢(shì)所在。
研究團(tuán)隊(duì)還與當(dāng)前流行的視覺-語言模型進(jìn)行了比較,包括CLIP、DINOv2、SigLIP等。盡管這些模型使用了大量的人工標(biāo)注數(shù)據(jù)和強(qiáng)大的語言監(jiān)督,ToBo方法仍然在機(jī)器人任務(wù)中表現(xiàn)更優(yōu)。這個(gè)結(jié)果表明,針對(duì)特定應(yīng)用領(lǐng)域設(shè)計(jì)的學(xué)習(xí)方法可能比通用的大型模型更加有效。
從技術(shù)角度來看,ToBo方法的成功可以歸因于幾個(gè)關(guān)鍵因素。首先是保守信息壓縮的思想,即將觀察到的場(chǎng)景信息盡可能完整地保存在瓶頸令牌中。其次是時(shí)間推理的嵌入,通過預(yù)測(cè)任務(wù)迫使模型理解場(chǎng)景變化的規(guī)律。最后是適度的信息稀缺性,通過限制目標(biāo)場(chǎng)景的可見信息來強(qiáng)化模型對(duì)記憶信息的依賴。
這項(xiàng)研究的意義不僅僅在于提出了一個(gè)有效的算法,更在于為機(jī)器人學(xué)習(xí)提供了一種新的思路。傳統(tǒng)的方法往往專注于提高模型的表達(dá)能力或增加訓(xùn)練數(shù)據(jù),而ToBo方法則從學(xué)習(xí)機(jī)制的角度入手,通過巧妙的任務(wù)設(shè)計(jì)來引導(dǎo)模型學(xué)會(huì)真正有用的能力。這種"以終為始"的設(shè)計(jì)思路可能會(huì)對(duì)未來的機(jī)器人學(xué)習(xí)研究產(chǎn)生深遠(yuǎn)影響。
當(dāng)然,這項(xiàng)研究也存在一些局限性。目前的實(shí)驗(yàn)主要集中在相對(duì)簡(jiǎn)單的操作任務(wù)上,對(duì)于更復(fù)雜的多步驟任務(wù)或需要長(zhǎng)期規(guī)劃的任務(wù),方法的有效性還需要進(jìn)一步驗(yàn)證。此外,瓶頸令牌的信息容量是有限的,對(duì)于信息量特別大的場(chǎng)景,如何有效地進(jìn)行信息壓縮仍然是一個(gè)挑戰(zhàn)。
展望未來,這項(xiàng)研究為智能機(jī)器人的發(fā)展開辟了新的方向。隨著方法的進(jìn)一步完善和優(yōu)化,我們可能很快就能看到具備更強(qiáng)學(xué)習(xí)和適應(yīng)能力的機(jī)器人出現(xiàn)在工廠、醫(yī)院、家庭等各種環(huán)境中。這些機(jī)器人將能夠像人類一樣,通過觀察和經(jīng)驗(yàn)積累來不斷提高自己的工作能力。
說到底,ToBo方法的核心貢獻(xiàn)在于證明了一個(gè)簡(jiǎn)單而重要的道理:有效的學(xué)習(xí)不在于記住更多的細(xì)節(jié),而在于學(xué)會(huì)如何提取和保存最有用的信息。這個(gè)洞察不僅對(duì)機(jī)器人學(xué)習(xí)有重要意義,對(duì)人工智能的其他領(lǐng)域也具有啟發(fā)價(jià)值。歸根結(jié)底,無論是人類還是機(jī)器,真正的智能都來自于能夠從有限的觀察中提取無限的洞察,而ToBo方法正是朝這個(gè)目標(biāo)邁出的重要一步。
Q&A
Q1:瓶頸令牌是什么?它是怎么工作的? A:瓶頸令牌就像一個(gè)超級(jí)濃縮的記憶膠囊,它把機(jī)器人看到的所有重要視覺信息壓縮成一個(gè)數(shù)據(jù)包。當(dāng)機(jī)器人需要做出決策時(shí),它會(huì)結(jié)合這個(gè)記憶膠囊和當(dāng)前看到的少量新信息來理解整個(gè)情況,就像經(jīng)驗(yàn)豐富的醫(yī)生僅憑幾個(gè)癥狀和過往經(jīng)驗(yàn)就能診斷疾病一樣。
Q2:ToBo方法會(huì)不會(huì)讓機(jī)器人變得更聰明? A:確實(shí)會(huì)讓機(jī)器人在理解動(dòng)態(tài)場(chǎng)景方面更聰明。實(shí)驗(yàn)顯示,使用這種方法的機(jī)器人在開門、開燈等任務(wù)上的成功率提高了20-40%,在真實(shí)世界的復(fù)雜任務(wù)中表現(xiàn)也明顯更好。它讓機(jī)器人具備了類似人類的"觀察-記憶-理解"能力。
Q3:這種方法有什么實(shí)際應(yīng)用?普通人能用到嗎? A:目前主要應(yīng)用在機(jī)器人研究和工業(yè)自動(dòng)化領(lǐng)域,比如讓工廠機(jī)器人學(xué)會(huì)更復(fù)雜的操作。雖然普通人暫時(shí)還不能直接使用,但隨著技術(shù)發(fā)展,未來的家庭服務(wù)機(jī)器人、醫(yī)療輔助機(jī)器人可能都會(huì)采用類似技術(shù),讓它們更能理解和適應(yīng)我們的日常生活環(huán)境。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對(duì)話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。