av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<cite id="9b88h"><rp id="9b88h"><form id="9b88h"></form></rp></cite>

<sub id="9b88h"><p id="9b88h"></p></sub>

<sub id="9b88h"></sub>

微信掃一掃，關(guān)注公眾號

科技行者
算力行者

見證連接與計(jì)算的「力量」

CompeteSMoE：通過競爭機(jī)制實(shí)現(xiàn)統(tǒng)計(jì)保證的混合專家模型訓(xùn)練

混合專家模型大語言模型訓(xùn)練神經(jīng)網(wǎng)絡(luò)效率優(yōu)化

CompeteSMoE：通過競爭機(jī)制實(shí)現(xiàn)統(tǒng)計(jì)保證的混合專家模型訓(xùn)練

作者：科技行者

2025-05-26 08:08

分享至：

這項(xiàng)研究提出了CompeteSMoE，一種創(chuàng)新的稀疏混合專家(SMoE)訓(xùn)練方法，通過引入競爭機(jī)制來優(yōu)化大型語言模型。傳統(tǒng)SMoE依賴獨(dú)立路由器分配任務(wù)，而CompeteSMoE讓所有專家直接處理輸入并選擇反應(yīng)最強(qiáng)的進(jìn)行計(jì)算。理論分析證明該方法比傳統(tǒng)softmax路由具有更好的樣本效率，實(shí)驗(yàn)顯示在視覺指令調(diào)整和語言預(yù)訓(xùn)練任務(wù)上均優(yōu)于現(xiàn)有方法。該研究為高效訓(xùn)練大型AI模型提供了新思路，特別是在改善專家選擇和提高訓(xùn)練效率方面具有重要價(jià)值。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-05-26 08:08 ? 科技行者

在大型語言模型迅猛發(fā)展的今天，如何讓模型變得更加高效聰明，成為了研究人員面臨的關(guān)鍵挑戰(zhàn)。由FPT Software AI Center的Nam V. Nguyen和Van Nguyen，德克薩斯大學(xué)奧斯汀分校的Huy Nguyen和Nhat Ho，獨(dú)立研究員Quang Pham，以及A*STAR信息通信研究所的Savitha Ramasamy共同完成的最新研究《CompeteSMoE – Statistically Guaranteed Mixture of Experts Training via Competition》，于2025年5月20日發(fā)表在arXiv上（arXiv:2505.13380v1），為解決這一挑戰(zhàn)提供了創(chuàng)新性的解決方案。這項(xiàng)研究是對之前2024年2月發(fā)表研究的改進(jìn)版本。

想象一下，你有一支由不同專家組成的團(tuán)隊(duì)，每個(gè)專家各有所長。當(dāng)面對一個(gè)復(fù)雜問題時(shí)，你希望快速找出最適合解決這個(gè)特定問題的專家，而不是讓所有人都參與進(jìn)來浪費(fèi)資源。這就是"稀疏混合專家"（Sparse Mixture of Experts，簡稱SMoE）的核心思想——一種能夠讓AI模型根據(jù)輸入內(nèi)容智能地選擇最合適的"專家"（神經(jīng)網(wǎng)絡(luò)子模塊）來處理信息的技術(shù)。

近年來，大型語言模型（LLMs）在語言理解、代碼生成、視覺分析等多個(gè)領(lǐng)域取得了令人矚目的成就。要讓這些模型變得更強(qiáng)大，一個(gè)常見的方法是增加模型的深度和寬度，但這會帶來計(jì)算資源的巨大壓力。而SMoE提供了一種聰明的解決方案：不是讓整個(gè)巨大的網(wǎng)絡(luò)都參與計(jì)算，而是根據(jù)任務(wù)的具體需求，只激活部分相關(guān)的"專家"模塊。

然而，傳統(tǒng)的SMoE面臨一個(gè)根本性的問題：它使用一個(gè)獨(dú)立的"路由器"來決定應(yīng)該激活哪些專家，而這個(gè)路由器與實(shí)際執(zhí)行計(jì)算的專家之間存在脫節(jié)。想象一下，你有一位前臺接待員（路由器）負(fù)責(zé)分配工作，但他并不了解各個(gè)專家的實(shí)際工作能力，只是根據(jù)簡歷或固定規(guī)則分配任務(wù)，這顯然不是最優(yōu)的選擇方式。

CompeteSMoE團(tuán)隊(duì)提出了一個(gè)全新的視角：為什么不讓專家們直接競爭任務(wù)呢？在他們的方法中，所有專家都會對輸入進(jìn)行初步處理，然后系統(tǒng)選擇那些反應(yīng)最強(qiáng)烈（表現(xiàn)最好）的專家來完成最終的計(jì)算。這就像舉辦一場小型比賽，讓所有專家先展示自己處理特定問題的能力，然后選出最優(yōu)秀的幾位繼續(xù)深入工作。

一、競爭機(jī)制：讓專家自己"舉手"應(yīng)對挑戰(zhàn)

CompeteSMoE的核心創(chuàng)新在于引入了"競爭機(jī)制"（Competition Mechanism）。這一機(jī)制受到生物學(xué)中"贏者通吃"（Winner-Take-All）原理的啟發(fā)，該原理在我們的大腦中也有應(yīng)用——當(dāng)面對某種刺激時(shí)，只有那些最相關(guān)的神經(jīng)元會被激活并抑制其他神經(jīng)元的活動。

在傳統(tǒng)的SMoE中，一個(gè)獨(dú)立的路由器負(fù)責(zé)決定將輸入分發(fā)給哪些專家。這個(gè)路由器通常使用輸入與專家嵌入向量之間的點(diǎn)積來計(jì)算親和度得分，然后選擇得分最高的幾個(gè)專家進(jìn)行計(jì)算。問題在于，這種方法中，專家的選擇與專家的實(shí)際能力之間沒有直接聯(lián)系。

而在CompeteSMoE中，事情變得更加直觀：所有專家都會對輸入進(jìn)行初步處理，系統(tǒng)會觀察每個(gè)專家的神經(jīng)反應(yīng)強(qiáng)度，然后選擇那些反應(yīng)最強(qiáng)烈的專家進(jìn)行深入計(jì)算。具體來說，這個(gè)過程包括四個(gè)步驟：

首先，所有N個(gè)專家都會對給定的輸入x進(jìn)行處理，得到各自的輸出g(x, Wei)。然后，系統(tǒng)計(jì)算每個(gè)專家的親和度得分，這個(gè)得分基于專家的神經(jīng)反應(yīng)，表示為si = E[log(1 + exp(g(x,Wei)))]。接下來，系統(tǒng)選擇得分最高的K個(gè)專家，并計(jì)算歸一化的親和度得分。最后，系統(tǒng)將這K個(gè)專家的輸出按照歸一化后的親和度得分進(jìn)行加權(quán)求和，得到最終結(jié)果。

這種方法的優(yōu)勢在于，專家的選擇直接基于它們對特定輸入的實(shí)際處理能力，而不是基于與實(shí)際能力可能脫節(jié)的嵌入向量。研究團(tuán)隊(duì)在理論上證明了，這種競爭機(jī)制能夠比傳統(tǒng)的softmax路由實(shí)現(xiàn)更好的樣本效率，即能夠更快地學(xué)習(xí)到更好的模型。

二、實(shí)用化：調(diào)度路由器訓(xùn)練降低計(jì)算開銷

雖然競爭機(jī)制在理論上非常吸引人，但直接實(shí)現(xiàn)它會帶來一個(gè)實(shí)際問題：在每次前向傳播中都激活所有專家進(jìn)行計(jì)算，這對于擁有數(shù)十億參數(shù)的大型模型來說計(jì)算開銷太大了。

為了解決這個(gè)問題，CompeteSMoE團(tuán)隊(duì)提出了一種巧妙的解決方案：使用一個(gè)可學(xué)習(xí)的路由器來學(xué)習(xí)競爭策略，然后在大多數(shù)情況下使用這個(gè)路由器來模擬競爭的結(jié)果，只在某些特定步驟中執(zhí)行完整的競爭過程來更新路由器。

具體來說，這個(gè)過程包括兩個(gè)交替的學(xué)習(xí)階段：

1. 路由器學(xué)習(xí)階段：在這個(gè)階段，系統(tǒng)激活所有專家，執(zhí)行完整的競爭過程，然后訓(xùn)練路由器模仿這種競爭行為。路由器通過一個(gè)蒸餾損失函數(shù)學(xué)習(xí)，該函數(shù)衡量路由器的選擇與競爭機(jī)制選擇之間的差距。研究者們還引入了一個(gè)額外的權(quán)重，特別強(qiáng)調(diào)那些在競爭中獲勝的專家，確保路由器能夠準(zhǔn)確地學(xué)習(xí)到最重要的模式。

2. 正常路由階段：在大多數(shù)時(shí)間里，系統(tǒng)直接使用訓(xùn)練好的路由器來選擇專家，而不執(zhí)行完整的競爭過程，這大大降低了計(jì)算開銷。

為了進(jìn)一步提高效率，研究者們還設(shè)計(jì)了一個(gè)"調(diào)度器"來控制競爭機(jī)制的激活頻率。這個(gè)調(diào)度器有兩個(gè)層級：一個(gè)層級獨(dú)立地決定每個(gè)層何時(shí)執(zhí)行競爭；另一個(gè)全局調(diào)度器確保在任何時(shí)間步中執(zhí)行競爭的層數(shù)不超過一個(gè)預(yù)設(shè)的最大值。

此外，研究團(tuán)隊(duì)還注意到一個(gè)有趣的問題：當(dāng)使用"稀疏升級"（sparse upcycling）技術(shù)從預(yù)訓(xùn)練模型構(gòu)建SMoE時(shí)，初始階段的專家往往輸出非常相似，這會導(dǎo)致競爭不夠有效。為了解決這個(gè)問題，他們引入了一個(gè)多樣性損失函數(shù)，鼓勵(lì)獲勝的專家產(chǎn)生多樣化的輸出，促進(jìn)更有效的專業(yè)化。

三、理論基礎(chǔ)：為什么競爭機(jī)制更有效？

CompeteSMoE的一個(gè)重要貢獻(xiàn)是提供了嚴(yán)格的理論分析，證明了競爭機(jī)制在專家估計(jì)方面具有更好的樣本效率。

研究團(tuán)隊(duì)分析了配備競爭機(jī)制的高斯混合專家模型的收斂行為。他們的理論分析表明，對于那些被精確指定的參數(shù)（即只有一個(gè)專家擬合真實(shí)專家的情況），估計(jì)率達(dá)到了參數(shù)級別，即O(n^(-1/2))；而對于那些被過度指定的參數(shù)（即多個(gè)專家擬合同一個(gè)真實(shí)專家的情況），估計(jì)率略慢，為O(n^(-1/4))。

這意味著，要以給定誤差ε估計(jì)這些專家，競爭機(jī)制最多需要O(ε^(-4))個(gè)數(shù)據(jù)點(diǎn)。相比之下，不使用競爭機(jī)制時(shí)，專家估計(jì)的收斂率會隨著擬合專家數(shù)量的增加而顯著下降。例如，如果一個(gè)專家被三個(gè)專家擬合，其估計(jì)率降至O(n^(-1/12))，需要O(ε^(-12))個(gè)數(shù)據(jù)點(diǎn)才能達(dá)到相同的精度。

簡單來說，競爭機(jī)制允許模型用少得多的數(shù)據(jù)學(xué)到同樣好（甚至更好）的效果，這對于訓(xùn)練資源有限的情況尤為重要。

四、實(shí)驗(yàn)驗(yàn)證：實(shí)際表現(xiàn)如何？

理論分析顯示競爭機(jī)制有優(yōu)勢，但實(shí)際效果如何呢？研究團(tuán)隊(duì)在兩個(gè)主要任務(wù)上進(jìn)行了廣泛的實(shí)驗(yàn)：視覺指令調(diào)整（visual instruction tuning，VIT）和語言預(yù)訓(xùn)練。

在視覺指令調(diào)整任務(wù)中，他們使用了擁有5.1B參數(shù)的Phi3.5 mini作為語言模型，SigLiP作為視覺編碼器。他們將稠密模型稀疏升級為四個(gè)專家，每個(gè)輸入激活其中兩個(gè)。實(shí)驗(yàn)結(jié)果表明，CompeteSMoE在多個(gè)基準(zhǔn)測試中均優(yōu)于現(xiàn)有的最先進(jìn)SMoE算法，包括SMoE、XMoE、PCosine、MoEUT和SharedE-V2。特別是，CompeteSMoE在實(shí)時(shí)視覺感知和推理（MME RWL）、減少視覺幻覺（Hallusion和POPE）以及OCR（OCRBench）等具有挑戰(zhàn)性的任務(wù)上表現(xiàn)出色。

在語言預(yù)訓(xùn)練任務(wù)中，他們構(gòu)建了一個(gè)具有151M參數(shù)的解碼器模型，每個(gè)SMoE層由64個(gè)專家組成，每個(gè)輸入激活其中8個(gè)。實(shí)驗(yàn)結(jié)果再次證實(shí)，CompeteSMoE優(yōu)于現(xiàn)有方法，特別是在文本推理（ARC-E和ARC-C）等任務(wù)上表現(xiàn)出色。

更重要的是，研究團(tuán)隊(duì)還分析了模型的訓(xùn)練行為，發(fā)現(xiàn)CompeteSMoE確實(shí)比基線方法具有更好的樣本效率，能夠在訓(xùn)練過程中更快地達(dá)到更好的性能。例如，圖1展示了在VIT任務(wù)中，隨著訓(xùn)練步驟的增加，CompeteSMoE始終保持領(lǐng)先優(yōu)勢，這進(jìn)一步驗(yàn)證了理論分析的預(yù)測。

此外，研究者們還進(jìn)行了路由行為分析，通過一個(gè)巧妙的實(shí)驗(yàn)驗(yàn)證了CompeteSMoE的專家選擇確實(shí)更加有效：當(dāng)他們故意將最高親和度的專家替換為排名靠后的專家時(shí)，CompeteSMoE的性能普遍下降，而傳統(tǒng)SMoE在某些基準(zhǔn)測試上反而性能提高，這表明傳統(tǒng)SMoE的路由策略遠(yuǎn)非最優(yōu)。

五、計(jì)算復(fù)雜度：實(shí)用性如何？

雖然CompeteSMoE引入了額外的競爭機(jī)制，但研究團(tuán)隊(duì)精心設(shè)計(jì)了算法，確保其在實(shí)際應(yīng)用中的高效性。在復(fù)雜度分析中，CompeteSMoE的訓(xùn)練時(shí)間與標(biāo)準(zhǔn)SMoE相當(dāng)，只增加了約3%。在推理階段，CompeteSMoE只使用簡單的路由器，因此享有與SMoE相同的服務(wù)成本，甚至比那些基于余弦相似度的策略（如XMoE和PCosine）更高效，因?yàn)楹笳邥蚵酚善饕腩~外的參數(shù)。

這表明，CompeteSMoE不僅在性能上優(yōu)于現(xiàn)有方法，而且在計(jì)算效率方面也具有競爭力，這對于實(shí)際部署至關(guān)重要。

六、研究意義與未來展望

CompeteSMoE研究的意義不僅限于提出一種新的算法。更重要的是，它提供了一個(gè)新的視角：讓專家直接參與路由過程，而不是依賴獨(dú)立的路由器。這種方法不僅在理論上有保證，而且在實(shí)踐中也表現(xiàn)出色。

雖然CompeteSMoE取得了令人鼓舞的結(jié)果，但研究團(tuán)隊(duì)也注意到一些局限和未來的研究方向。例如，CompeteSMoE引入了幾個(gè)超參數(shù)，盡管團(tuán)隊(duì)提供了設(shè)置指南，但這可能會增加超參數(shù)搜索的成本。從算法角度來看，CompeteSMoE獨(dú)立地對每個(gè)SMoE層應(yīng)用競爭，未考慮不同層的專家之間的交互。理想的解決方案可能是通過網(wǎng)絡(luò)深度執(zhí)行圖遍歷算法，同時(shí)確定所有層的最優(yōu)專家選擇，這超出了當(dāng)前研究的范圍，留待未來探索。

總的來說，CompeteSMoE提供了一種統(tǒng)計(jì)上有保證的SMoE訓(xùn)練策略，能夠在各種大型模型的訓(xùn)練設(shè)置中帶來改進(jìn)。通過引入競爭機(jī)制，它不僅提高了模型的性能，還改善了訓(xùn)練的樣本效率，這對于資源有限的情況尤為重要。

這項(xiàng)研究為未來開發(fā)更高效、更有效的大型語言模型提供了新的思路和方法，有望推動人工智能領(lǐng)域的進(jìn)一步發(fā)展。對于那些希望構(gòu)建更先進(jìn)的AI系統(tǒng)的研究者和工程師來說，CompeteSMoE無疑是一個(gè)值得考慮的重要工具。

混合專家模型大語言模型訓(xùn)練神經(jīng)網(wǎng)絡(luò)效率優(yōu)化

分享至

0贊

好文章，需要你的鼓勵(lì)

推薦文章

音頻生成
大語言模型
多模態(tài)AI

2025-09-10 09:47

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng)，首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù)，通過交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練，能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異，為AI音頻創(chuàng)作開辟新方向。
視頻生成
深度學(xué)習(xí)
多模態(tài)學(xué)習(xí)

2025-09-09 13:57

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù)，通過讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動信息，顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動質(zhì)量，在多項(xiàng)測試中超越包括Sora在內(nèi)的商業(yè)模型，為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
多模態(tài)AI
人類價(jià)值觀對齊
數(shù)據(jù)集構(gòu)建

2025-09-09 13:56

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價(jià)值觀對齊難題

上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究，首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn)，通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法，讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平，為AI價(jià)值觀對齊提供了可行技術(shù)路徑。
人工智能
圖神經(jīng)網(wǎng)絡(luò)
天氣預(yù)報(bào)

2025-09-09 10:56

谷歌研究團(tuán)隊(duì)發(fā)布超級預(yù)測模型：讓AI像天氣預(yù)報(bào)員一樣預(yù)測全球大氣變化

谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測模型，能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào)，準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù)，通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律，在極端天氣預(yù)測方面表現(xiàn)卓越，能耗僅為傳統(tǒng)方法的千分之一，為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

2025-09-10 09:47

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

2025-09-09 13:57

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價(jià)值觀對齊難題

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價(jià)值觀對齊難題

2025-09-09 13:56

谷歌研究團(tuán)隊(duì)發(fā)布超級預(yù)測模型：讓AI像天氣預(yù)報(bào)員一樣預(yù)測全球大氣變化

谷歌研究團(tuán)隊(duì)發(fā)布超級預(yù)測模型：讓AI像天氣預(yù)報(bào)員一樣預(yù)測全球大氣變化

2025-09-09 10:56

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時(shí)代

京ICP證15039648號京ICP備15039648號-9 京公網(wǎng)安備 11010802021500號

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報(bào)電話：010-62641205　涉未成年人舉報(bào)專線：010-62641208 舉報(bào)郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報(bào)專區(qū)：https://www.12377.cn

<sub id="59mxp"></sub>

<sub id="59mxp"><p id="59mxp"></p></sub>

<style id="59mxp"></style>

<cite id="59mxp"><track id="59mxp"></track></cite>