這項由南京大學(xué)吳文浩、劉福紅、李浩如、胡子燦等研究者與悉尼科技大學(xué)董道毅教授合作完成的研究,發(fā)表于2025年6月的arXiv預(yù)印本平臺。有興趣深入了解的讀者可以通過論文編號arXiv:2506.05426v1訪問完整論文。
想象一下,如果你面前有一個超級聰明的機(jī)器人助手,它不僅能聽懂你說話,還能看懂你的手勢,甚至理解你的表情。更厲害的是,當(dāng)你讓它做不同類型的工作時——比如今天要它幫你做飯,明天要它輔導(dǎo)孩子寫作業(yè),后天要它整理花園——它都能快速適應(yīng)并做得很好。這就是這項研究想要實現(xiàn)的目標(biāo):讓人工智能系統(tǒng)具備這樣的"萬能適應(yīng)力"。
在人工智能領(lǐng)域,有一種叫做"強化學(xué)習(xí)"的技術(shù),就像教小孩學(xué)騎自行車一樣——通過不斷嘗試、犯錯和改進(jìn)來學(xué)會新技能。最近幾年,研究者們發(fā)現(xiàn)了一個有趣的現(xiàn)象:如果讓AI系統(tǒng)觀察一些相關(guān)的示例或"提示",它就能更快地學(xué)會處理新任務(wù),這就像給學(xué)生一些參考資料,讓他們更容易理解新概念一樣。這種技術(shù)被稱為"情境強化學(xué)習(xí)"。
不過,現(xiàn)有的情境強化學(xué)習(xí)系統(tǒng)面臨著兩個主要挑戰(zhàn)。第一個挑戰(zhàn)就像是讓一個人同時處理多種完全不同類型的信息。比如,你要一邊聽音樂、一邊看圖片、一邊讀文字,這些信息的性質(zhì)完全不同,大腦需要用不同的方式來處理它們。在AI系統(tǒng)中,狀態(tài)信息(比如機(jī)器人的位置)、動作信息(比如機(jī)器人應(yīng)該做什么)和獎勵信息(比如做得好還是不好)就像這些不同類型的信息,它們有著截然不同的特征,但傳統(tǒng)系統(tǒng)往往用同一套方法來處理它們,效果并不理想。
第二個挑戰(zhàn)則像是讓一個老師同時教授數(shù)學(xué)、語文、體育和音樂課程。每門課程都有自己的特點和要求,如果用完全相同的教學(xué)方法,必然會出現(xiàn)問題。比如教數(shù)學(xué)時強調(diào)邏輯推理,教體育時注重動作協(xié)調(diào),這些技能甚至可能相互沖突。AI系統(tǒng)也面臨類似問題:當(dāng)它需要學(xué)會處理多種不同類型的任務(wù)時,傳統(tǒng)的單一模型往往會在不同任務(wù)的要求之間產(chǎn)生沖突,導(dǎo)致學(xué)習(xí)效率下降。
為了解決這些問題,南京大學(xué)的研究團(tuán)隊提出了一個創(chuàng)新的解決方案,他們稱之為T2MIR(Token- and Task-wise MoE for In-context RL)。這個名字聽起來很專業(yè),但其核心思想其實很直觀:就像組建一個專家團(tuán)隊,讓不同的專家負(fù)責(zé)處理不同類型的工作。
這個系統(tǒng)的設(shè)計哲學(xué)來源于一個在大語言模型領(lǐng)域已經(jīng)被證明非常有效的技術(shù)——"混合專家模型"(Mixture of Experts,簡稱MoE)。想象一家大型咨詢公司,當(dāng)客戶有不同類型的問題時,公司不會讓同一個顧問處理所有問題,而是會根據(jù)問題的性質(zhì)安排相應(yīng)的專家。財務(wù)問題找財務(wù)專家,法律問題找法律專家,技術(shù)問題找技術(shù)專家。這樣不僅效率更高,而且每個專家都能發(fā)揮自己的專長。
T2MIR系統(tǒng)采用了類似的思路,但它建立了兩套并行的專家體系。第一套專家體系叫做"令牌層面的專家混合",專門負(fù)責(zé)處理不同類型的信息。就像人的大腦中有專門處理視覺信息的區(qū)域、專門處理聽覺信息的區(qū)域一樣,這套系統(tǒng)安排不同的專家來處理狀態(tài)信息、動作信息和獎勵信息。當(dāng)系統(tǒng)接收到一段包含多種信息的序列時,每種類型的信息都會被自動分配給最適合處理它的專家。
為了確保這些專家能夠平衡工作量,避免出現(xiàn)某些專家過度忙碌而其他專家無所事事的情況,研究團(tuán)隊設(shè)計了一套"負(fù)載均衡"機(jī)制。這就像公司的人力資源部門,會監(jiān)控每個部門的工作量,確保沒有哪個部門被過度壓榨,也沒有哪個部門閑置不用。
第二套專家體系叫做"任務(wù)層面的專家混合",它的作用是根據(jù)不同的任務(wù)類型來分配合適的專家。繼續(xù)用咨詢公司的比喻,如果客戶的問題不是按照信息類型分類,而是按照行業(yè)分類——比如醫(yī)療行業(yè)、金融行業(yè)、制造業(yè)——那么公司就需要另一套專家分配機(jī)制。這套系統(tǒng)會識別當(dāng)前面臨的是什么類型的任務(wù),然后調(diào)動最適合處理這類任務(wù)的專家團(tuán)隊。
為了讓這套任務(wù)專家系統(tǒng)更加智能,研究團(tuán)隊引入了一種叫做"對比學(xué)習(xí)"的技術(shù)。這種技術(shù)的核心思想是讓系統(tǒng)學(xué)會區(qū)分不同任務(wù)之間的本質(zhì)差異。就像一個經(jīng)驗豐富的項目經(jīng)理,能夠快速識別新項目的特點,并回憶起之前處理過的類似項目,從而選擇最合適的團(tuán)隊和方法。
具體來說,系統(tǒng)會觀察大量的任務(wù)示例,學(xué)習(xí)如何將相似的任務(wù)歸類到一起,將不同的任務(wù)區(qū)分開來。比如,所有需要機(jī)器人向左移動的任務(wù)應(yīng)該被歸為一類,所有需要機(jī)器人向右移動的任務(wù)應(yīng)該被歸為另一類。通過這種方式,系統(tǒng)能夠更準(zhǔn)確地識別新任務(wù)的特征,并選擇最合適的專家來處理。
研究團(tuán)隊在多個不同類型的環(huán)境中測試了T2MIR系統(tǒng)的效果。這些測試環(huán)境就像是不同的考試科目,每一個都有自己獨特的挑戰(zhàn)。有些環(huán)境要求AI系統(tǒng)在網(wǎng)格世界中尋找目標(biāo),就像走迷宮一樣;有些環(huán)境要求控制機(jī)器人在二維平面上導(dǎo)航,類似于遙控玩具車;還有些環(huán)境要求控制復(fù)雜的機(jī)械裝置,比如讓機(jī)器豹子以特定速度奔跑,或者控制機(jī)械手臂抓取物體。
在所有這些測試中,T2MIR系統(tǒng)都表現(xiàn)出了顯著的優(yōu)勢。它不僅學(xué)習(xí)速度更快,最終達(dá)到的性能水平也更高。研究團(tuán)隊還進(jìn)行了詳細(xì)的分析實驗,分別測試了兩套專家系統(tǒng)的貢獻(xiàn)。結(jié)果發(fā)現(xiàn),令牌層面的專家系統(tǒng)在處理長序列信息時特別有效,這驗證了讓不同專家處理不同類型信息的設(shè)計理念。而任務(wù)層面的專家系統(tǒng)在需要快速適應(yīng)新任務(wù)時表現(xiàn)尤為出色,證明了專業(yè)化分工的價值。
通過可視化分析,研究團(tuán)隊還直觀地展示了系統(tǒng)的工作原理。他們發(fā)現(xiàn),令牌層面的專家確實學(xué)會了按照信息類型進(jìn)行分工:一些專家專門處理狀態(tài)信息,另一些專家專門處理動作信息,還有一些專家專門處理獎勵信息。這種自發(fā)的專業(yè)化分工證明了系統(tǒng)設(shè)計的合理性。
同樣,任務(wù)層面的專家也表現(xiàn)出了明顯的任務(wù)偏好。當(dāng)面對需要向不同方向移動的任務(wù)時,不同的專家會被激活,就像不同的司機(jī)專門負(fù)責(zé)不同的路線一樣。這種任務(wù)特異性的專家分配不僅提高了效率,還減少了不同任務(wù)之間的相互干擾。
為了進(jìn)一步驗證系統(tǒng)的魯棒性,研究團(tuán)隊還測試了T2MIR在不同質(zhì)量數(shù)據(jù)上的表現(xiàn)。他們創(chuàng)建了三種不同質(zhì)量的訓(xùn)練數(shù)據(jù):混合質(zhì)量數(shù)據(jù)(包含各種水平的示例)、中高質(zhì)量數(shù)據(jù)和中等質(zhì)量數(shù)據(jù)。結(jié)果顯示,即使在較低質(zhì)量的數(shù)據(jù)上,T2MIR仍然能夠保持良好的性能,這表明該系統(tǒng)具有很強的適應(yīng)性和魯棒性。
這項研究的意義遠(yuǎn)不止于技術(shù)層面的突破。在現(xiàn)實世界中,這種技術(shù)可能會有廣泛的應(yīng)用前景。比如,在自動駕駛領(lǐng)域,車輛需要同時處理視覺信息、雷達(dá)信息、GPS信息等多種不同類型的數(shù)據(jù),同時還要適應(yīng)城市道路、高速公路、鄉(xiāng)村小路等不同的駕駛環(huán)境。T2MIR的設(shè)計理念可以幫助自動駕駛系統(tǒng)更好地處理這種復(fù)雜性。
在機(jī)器人領(lǐng)域,家庭服務(wù)機(jī)器人需要學(xué)會做飯、清潔、整理等各種不同的家務(wù)任務(wù),每種任務(wù)都有其獨特的技能要求。傳統(tǒng)的單一模型往往難以兼顧所有任務(wù),而專家混合的方法可以讓機(jī)器人在每種任務(wù)上都達(dá)到更好的性能。
在工業(yè)自動化領(lǐng)域,生產(chǎn)線上的機(jī)器人需要根據(jù)不同的產(chǎn)品類型調(diào)整自己的操作方式。T2MIR的任務(wù)專家系統(tǒng)可以幫助這些機(jī)器人快速適應(yīng)新產(chǎn)品的生產(chǎn)要求,減少重新編程和調(diào)試的時間。
研究團(tuán)隊也誠實地指出了當(dāng)前工作的一些局限性。由于計算資源的限制,他們的實驗主要在相對小規(guī)模的數(shù)據(jù)集上進(jìn)行。雖然這些數(shù)據(jù)集足以驗證核心思想的有效性,但要在更大規(guī)模、更復(fù)雜的真實世界環(huán)境中部署這種技術(shù),還需要進(jìn)一步的研究和優(yōu)化。
另外,當(dāng)面對大量任務(wù)時,對比學(xué)習(xí)機(jī)制的效率如何保持,也是一個需要進(jìn)一步探索的問題。就像一個公司,當(dāng)業(yè)務(wù)規(guī)模擴(kuò)大到一定程度時,原有的管理模式可能需要調(diào)整一樣,T2MIR系統(tǒng)在處理更大規(guī)模任務(wù)時的表現(xiàn)還有待驗證。
盡管存在這些挑戰(zhàn),這項研究仍然為強化學(xué)習(xí)領(lǐng)域開辟了一個新的方向。它證明了將成熟的專家混合技術(shù)引入強化學(xué)習(xí)是可行且有效的,為未來開發(fā)更加智能、更加適應(yīng)性強的AI系統(tǒng)提供了重要的參考。
更重要的是,這項研究體現(xiàn)了一種重要的設(shè)計哲學(xué):與其試圖用一個萬能的模型來解決所有問題,不如讓專業(yè)的人做專業(yè)的事。這種思路不僅在AI領(lǐng)域有價值,在很多其他領(lǐng)域也有借鑒意義。
Q&A
Q1:T2MIR是什么?它能做什么? A:T2MIR是南京大學(xué)團(tuán)隊開發(fā)的一種新型AI架構(gòu),它的核心能力是讓AI系統(tǒng)像組建專家團(tuán)隊一樣工作。它能同時處理多種不同類型的信息(如圖像、聲音、文字),并快速適應(yīng)各種不同的任務(wù),就像一個多才多藝的助手。
Q2:這種專家混合方法會不會讓AI變得過于復(fù)雜? A:實際上恰恰相反。雖然系統(tǒng)內(nèi)部變得更精細(xì)化,但這種專業(yè)化分工讓每個部分都能專注于自己最擅長的事情,反而提高了整體效率。就像醫(yī)院里有不同科室的醫(yī)生,看起來復(fù)雜,但實際上能提供更好的醫(yī)療服務(wù)。
Q3:普通人什么時候能用上這種技術(shù)? A:目前這還是研究階段的技術(shù),但它的應(yīng)用前景很廣泛。未來可能會在自動駕駛汽車、家庭服務(wù)機(jī)器人、智能客服等產(chǎn)品中看到類似技術(shù)。具體的商業(yè)化時間取決于技術(shù)進(jìn)一步優(yōu)化和工程化的進(jìn)展。
好文章,需要你的鼓勵
新加坡國立大學(xué)研究團(tuán)隊開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實驗顯示,僅訓(xùn)練AI玩簡單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實現(xiàn)37.9%的精度提升,并在真實設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊通過對比實驗發(fā)現(xiàn),經(jīng)過強化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時刻"現(xiàn)象,但這些自我糾錯行為并不能實際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗證差距",即生成答案的能力強于驗證答案質(zhì)量的能力,且模型在自我驗證時無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動態(tài)稀疏性實現(xiàn)大語言模型訓(xùn)練加速1.6倍,計算成本降低2.2倍。該方法使用SVD稀疏性估計器智能選擇重要計算部分,在保持模型性能的同時顯著提升訓(xùn)練效率,已在多個任務(wù)上驗證有效性。