在大型語言模型迅猛發(fā)展的今天,如何讓模型變得更加高效聰明,成為了研究人員面臨的關(guān)鍵挑戰(zhàn)。由FPT Software AI Center的Nam V. Nguyen和Van Nguyen,德克薩斯大學(xué)奧斯汀分校的Huy Nguyen和Nhat Ho,獨(dú)立研究員Quang Pham,以及A*STAR信息通信研究所的Savitha Ramasamy共同完成的最新研究《CompeteSMoE – Statistically Guaranteed Mixture of Experts Training via Competition》,于2025年5月20日發(fā)表在arXiv上(arXiv:2505.13380v1),為解決這一挑戰(zhàn)提供了創(chuàng)新性的解決方案。這項(xiàng)研究是對之前2024年2月發(fā)表研究的改進(jìn)版本。
想象一下,你有一支由不同專家組成的團(tuán)隊(duì),每個專家各有所長。當(dāng)面對一個復(fù)雜問題時,你希望快速找出最適合解決這個特定問題的專家,而不是讓所有人都參與進(jìn)來浪費(fèi)資源。這就是"稀疏混合專家"(Sparse Mixture of Experts,簡稱SMoE)的核心思想——一種能夠讓AI模型根據(jù)輸入內(nèi)容智能地選擇最合適的"專家"(神經(jīng)網(wǎng)絡(luò)子模塊)來處理信息的技術(shù)。
近年來,大型語言模型(LLMs)在語言理解、代碼生成、視覺分析等多個領(lǐng)域取得了令人矚目的成就。要讓這些模型變得更強(qiáng)大,一個常見的方法是增加模型的深度和寬度,但這會帶來計(jì)算資源的巨大壓力。而SMoE提供了一種聰明的解決方案:不是讓整個巨大的網(wǎng)絡(luò)都參與計(jì)算,而是根據(jù)任務(wù)的具體需求,只激活部分相關(guān)的"專家"模塊。
然而,傳統(tǒng)的SMoE面臨一個根本性的問題:它使用一個獨(dú)立的"路由器"來決定應(yīng)該激活哪些專家,而這個路由器與實(shí)際執(zhí)行計(jì)算的專家之間存在脫節(jié)。想象一下,你有一位前臺接待員(路由器)負(fù)責(zé)分配工作,但他并不了解各個專家的實(shí)際工作能力,只是根據(jù)簡歷或固定規(guī)則分配任務(wù),這顯然不是最優(yōu)的選擇方式。
CompeteSMoE團(tuán)隊(duì)提出了一個全新的視角:為什么不讓專家們直接競爭任務(wù)呢?在他們的方法中,所有專家都會對輸入進(jìn)行初步處理,然后系統(tǒng)選擇那些反應(yīng)最強(qiáng)烈(表現(xiàn)最好)的專家來完成最終的計(jì)算。這就像舉辦一場小型比賽,讓所有專家先展示自己處理特定問題的能力,然后選出最優(yōu)秀的幾位繼續(xù)深入工作。
一、競爭機(jī)制:讓專家自己"舉手"應(yīng)對挑戰(zhàn)
CompeteSMoE的核心創(chuàng)新在于引入了"競爭機(jī)制"(Competition Mechanism)。這一機(jī)制受到生物學(xué)中"贏者通吃"(Winner-Take-All)原理的啟發(fā),該原理在我們的大腦中也有應(yīng)用——當(dāng)面對某種刺激時,只有那些最相關(guān)的神經(jīng)元會被激活并抑制其他神經(jīng)元的活動。
在傳統(tǒng)的SMoE中,一個獨(dú)立的路由器負(fù)責(zé)決定將輸入分發(fā)給哪些專家。這個路由器通常使用輸入與專家嵌入向量之間的點(diǎn)積來計(jì)算親和度得分,然后選擇得分最高的幾個專家進(jìn)行計(jì)算。問題在于,這種方法中,專家的選擇與專家的實(shí)際能力之間沒有直接聯(lián)系。
而在CompeteSMoE中,事情變得更加直觀:所有專家都會對輸入進(jìn)行初步處理,系統(tǒng)會觀察每個專家的神經(jīng)反應(yīng)強(qiáng)度,然后選擇那些反應(yīng)最強(qiáng)烈的專家進(jìn)行深入計(jì)算。具體來說,這個過程包括四個步驟:
首先,所有N個專家都會對給定的輸入x進(jìn)行處理,得到各自的輸出g(x, Wei)。 然后,系統(tǒng)計(jì)算每個專家的親和度得分,這個得分基于專家的神經(jīng)反應(yīng),表示為si = E[log(1 + exp(g(x,Wei)))]。 接下來,系統(tǒng)選擇得分最高的K個專家,并計(jì)算歸一化的親和度得分。 最后,系統(tǒng)將這K個專家的輸出按照歸一化后的親和度得分進(jìn)行加權(quán)求和,得到最終結(jié)果。
這種方法的優(yōu)勢在于,專家的選擇直接基于它們對特定輸入的實(shí)際處理能力,而不是基于與實(shí)際能力可能脫節(jié)的嵌入向量。研究團(tuán)隊(duì)在理論上證明了,這種競爭機(jī)制能夠比傳統(tǒng)的softmax路由實(shí)現(xiàn)更好的樣本效率,即能夠更快地學(xué)習(xí)到更好的模型。
二、實(shí)用化:調(diào)度路由器訓(xùn)練降低計(jì)算開銷
雖然競爭機(jī)制在理論上非常吸引人,但直接實(shí)現(xiàn)它會帶來一個實(shí)際問題:在每次前向傳播中都激活所有專家進(jìn)行計(jì)算,這對于擁有數(shù)十億參數(shù)的大型模型來說計(jì)算開銷太大了。
為了解決這個問題,CompeteSMoE團(tuán)隊(duì)提出了一種巧妙的解決方案:使用一個可學(xué)習(xí)的路由器來學(xué)習(xí)競爭策略,然后在大多數(shù)情況下使用這個路由器來模擬競爭的結(jié)果,只在某些特定步驟中執(zhí)行完整的競爭過程來更新路由器。
具體來說,這個過程包括兩個交替的學(xué)習(xí)階段:
1. 路由器學(xué)習(xí)階段:在這個階段,系統(tǒng)激活所有專家,執(zhí)行完整的競爭過程,然后訓(xùn)練路由器模仿這種競爭行為。路由器通過一個蒸餾損失函數(shù)學(xué)習(xí),該函數(shù)衡量路由器的選擇與競爭機(jī)制選擇之間的差距。研究者們還引入了一個額外的權(quán)重,特別強(qiáng)調(diào)那些在競爭中獲勝的專家,確保路由器能夠準(zhǔn)確地學(xué)習(xí)到最重要的模式。
2. 正常路由階段:在大多數(shù)時間里,系統(tǒng)直接使用訓(xùn)練好的路由器來選擇專家,而不執(zhí)行完整的競爭過程,這大大降低了計(jì)算開銷。
為了進(jìn)一步提高效率,研究者們還設(shè)計(jì)了一個"調(diào)度器"來控制競爭機(jī)制的激活頻率。這個調(diào)度器有兩個層級:一個層級獨(dú)立地決定每個層何時執(zhí)行競爭;另一個全局調(diào)度器確保在任何時間步中執(zhí)行競爭的層數(shù)不超過一個預(yù)設(shè)的最大值。
此外,研究團(tuán)隊(duì)還注意到一個有趣的問題:當(dāng)使用"稀疏升級"(sparse upcycling)技術(shù)從預(yù)訓(xùn)練模型構(gòu)建SMoE時,初始階段的專家往往輸出非常相似,這會導(dǎo)致競爭不夠有效。為了解決這個問題,他們引入了一個多樣性損失函數(shù),鼓勵獲勝的專家產(chǎn)生多樣化的輸出,促進(jìn)更有效的專業(yè)化。
三、理論基礎(chǔ):為什么競爭機(jī)制更有效?
CompeteSMoE的一個重要貢獻(xiàn)是提供了嚴(yán)格的理論分析,證明了競爭機(jī)制在專家估計(jì)方面具有更好的樣本效率。
研究團(tuán)隊(duì)分析了配備競爭機(jī)制的高斯混合專家模型的收斂行為。他們的理論分析表明,對于那些被精確指定的參數(shù)(即只有一個專家擬合真實(shí)專家的情況),估計(jì)率達(dá)到了參數(shù)級別,即O(n^(-1/2));而對于那些被過度指定的參數(shù)(即多個專家擬合同一個真實(shí)專家的情況),估計(jì)率略慢,為O(n^(-1/4))。
這意味著,要以給定誤差ε估計(jì)這些專家,競爭機(jī)制最多需要O(ε^(-4))個數(shù)據(jù)點(diǎn)。相比之下,不使用競爭機(jī)制時,專家估計(jì)的收斂率會隨著擬合專家數(shù)量的增加而顯著下降。例如,如果一個專家被三個專家擬合,其估計(jì)率降至O(n^(-1/12)),需要O(ε^(-12))個數(shù)據(jù)點(diǎn)才能達(dá)到相同的精度。
簡單來說,競爭機(jī)制允許模型用少得多的數(shù)據(jù)學(xué)到同樣好(甚至更好)的效果,這對于訓(xùn)練資源有限的情況尤為重要。
四、實(shí)驗(yàn)驗(yàn)證:實(shí)際表現(xiàn)如何?
理論分析顯示競爭機(jī)制有優(yōu)勢,但實(shí)際效果如何呢?研究團(tuán)隊(duì)在兩個主要任務(wù)上進(jìn)行了廣泛的實(shí)驗(yàn):視覺指令調(diào)整(visual instruction tuning,VIT)和語言預(yù)訓(xùn)練。
在視覺指令調(diào)整任務(wù)中,他們使用了擁有5.1B參數(shù)的Phi3.5 mini作為語言模型,SigLiP作為視覺編碼器。他們將稠密模型稀疏升級為四個專家,每個輸入激活其中兩個。實(shí)驗(yàn)結(jié)果表明,CompeteSMoE在多個基準(zhǔn)測試中均優(yōu)于現(xiàn)有的最先進(jìn)SMoE算法,包括SMoE、XMoE、PCosine、MoEUT和SharedE-V2。特別是,CompeteSMoE在實(shí)時視覺感知和推理(MME RWL)、減少視覺幻覺(Hallusion和POPE)以及OCR(OCRBench)等具有挑戰(zhàn)性的任務(wù)上表現(xiàn)出色。
在語言預(yù)訓(xùn)練任務(wù)中,他們構(gòu)建了一個具有151M參數(shù)的解碼器模型,每個SMoE層由64個專家組成,每個輸入激活其中8個。實(shí)驗(yàn)結(jié)果再次證實(shí),CompeteSMoE優(yōu)于現(xiàn)有方法,特別是在文本推理(ARC-E和ARC-C)等任務(wù)上表現(xiàn)出色。
更重要的是,研究團(tuán)隊(duì)還分析了模型的訓(xùn)練行為,發(fā)現(xiàn)CompeteSMoE確實(shí)比基線方法具有更好的樣本效率,能夠在訓(xùn)練過程中更快地達(dá)到更好的性能。例如,圖1展示了在VIT任務(wù)中,隨著訓(xùn)練步驟的增加,CompeteSMoE始終保持領(lǐng)先優(yōu)勢,這進(jìn)一步驗(yàn)證了理論分析的預(yù)測。
此外,研究者們還進(jìn)行了路由行為分析,通過一個巧妙的實(shí)驗(yàn)驗(yàn)證了CompeteSMoE的專家選擇確實(shí)更加有效:當(dāng)他們故意將最高親和度的專家替換為排名靠后的專家時,CompeteSMoE的性能普遍下降,而傳統(tǒng)SMoE在某些基準(zhǔn)測試上反而性能提高,這表明傳統(tǒng)SMoE的路由策略遠(yuǎn)非最優(yōu)。
五、計(jì)算復(fù)雜度:實(shí)用性如何?
雖然CompeteSMoE引入了額外的競爭機(jī)制,但研究團(tuán)隊(duì)精心設(shè)計(jì)了算法,確保其在實(shí)際應(yīng)用中的高效性。在復(fù)雜度分析中,CompeteSMoE的訓(xùn)練時間與標(biāo)準(zhǔn)SMoE相當(dāng),只增加了約3%。在推理階段,CompeteSMoE只使用簡單的路由器,因此享有與SMoE相同的服務(wù)成本,甚至比那些基于余弦相似度的策略(如XMoE和PCosine)更高效,因?yàn)楹笳邥蚵酚善饕腩~外的參數(shù)。
這表明,CompeteSMoE不僅在性能上優(yōu)于現(xiàn)有方法,而且在計(jì)算效率方面也具有競爭力,這對于實(shí)際部署至關(guān)重要。
六、研究意義與未來展望
CompeteSMoE研究的意義不僅限于提出一種新的算法。更重要的是,它提供了一個新的視角:讓專家直接參與路由過程,而不是依賴獨(dú)立的路由器。這種方法不僅在理論上有保證,而且在實(shí)踐中也表現(xiàn)出色。
雖然CompeteSMoE取得了令人鼓舞的結(jié)果,但研究團(tuán)隊(duì)也注意到一些局限和未來的研究方向。例如,CompeteSMoE引入了幾個超參數(shù),盡管團(tuán)隊(duì)提供了設(shè)置指南,但這可能會增加超參數(shù)搜索的成本。從算法角度來看,CompeteSMoE獨(dú)立地對每個SMoE層應(yīng)用競爭,未考慮不同層的專家之間的交互。理想的解決方案可能是通過網(wǎng)絡(luò)深度執(zhí)行圖遍歷算法,同時確定所有層的最優(yōu)專家選擇,這超出了當(dāng)前研究的范圍,留待未來探索。
總的來說,CompeteSMoE提供了一種統(tǒng)計(jì)上有保證的SMoE訓(xùn)練策略,能夠在各種大型模型的訓(xùn)練設(shè)置中帶來改進(jìn)。通過引入競爭機(jī)制,它不僅提高了模型的性能,還改善了訓(xùn)練的樣本效率,這對于資源有限的情況尤為重要。
這項(xiàng)研究為未來開發(fā)更高效、更有效的大型語言模型提供了新的思路和方法,有望推動人工智能領(lǐng)域的進(jìn)一步發(fā)展。對于那些希望構(gòu)建更先進(jìn)的AI系統(tǒng)的研究者和工程師來說,CompeteSMoE無疑是一個值得考慮的重要工具。
好文章,需要你的鼓勵
新加坡國立大學(xué)研究團(tuán)隊(duì)開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過對比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時刻"現(xiàn)象,但這些自我糾錯行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動態(tài)稀疏性實(shí)現(xiàn)大語言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時顯著提升訓(xùn)練效率,已在多個任務(wù)上驗(yàn)證有效性。