這項(xiàng)由香港中文大學(xué)、Inclusion AI等多家機(jī)構(gòu)聯(lián)合完成的研究發(fā)表于2025年8月,論文詳細(xì)介紹了一種名為Grove MoE的全新人工智能架構(gòu)。這項(xiàng)研究的完整論文可以通過(guò)arXiv:2508.07785訪問(wèn),對(duì)人工智能架構(gòu)設(shè)計(jì)感興趣的讀者可以深入了解其技術(shù)細(xì)節(jié)。
當(dāng)我們的大腦處理不同任務(wù)時(shí),會(huì)自動(dòng)調(diào)動(dòng)不同程度的注意力和資源??匆徊枯p松的喜劇片時(shí),大腦處于相對(duì)放松的狀態(tài);而解一道復(fù)雜的數(shù)學(xué)題時(shí),大腦則會(huì)全力以赴,動(dòng)員更多的神經(jīng)元參與思考。有趣的是,現(xiàn)在的人工智能大語(yǔ)言模型卻做不到這一點(diǎn)——無(wú)論面對(duì)簡(jiǎn)單的"你好"還是復(fù)雜的科學(xué)問(wèn)題,它們都會(huì)動(dòng)用同樣多的計(jì)算資源,就像一個(gè)人無(wú)論做什么事都要全力以赴一樣,既浪費(fèi)精力又效率低下。
香港中文大學(xué)的研究團(tuán)隊(duì)敏銳地發(fā)現(xiàn)了這個(gè)問(wèn)題,并從計(jì)算機(jī)處理器的設(shè)計(jì)中獲得了靈感?,F(xiàn)代智能手機(jī)的處理器采用了一種叫做"big.LITTLE"的架構(gòu)設(shè)計(jì),就像在一個(gè)團(tuán)隊(duì)中既有能力強(qiáng)大但耗電多的"主力隊(duì)員",也有能力適中但省電的"替補(bǔ)隊(duì)員"。當(dāng)手機(jī)只是顯示文字時(shí),"替補(bǔ)隊(duì)員"就能勝任;當(dāng)需要運(yùn)行大型游戲時(shí),"主力隊(duì)員"才會(huì)上場(chǎng)。這種設(shè)計(jì)讓手機(jī)既能處理復(fù)雜任務(wù),又能保持長(zhǎng)久的電池續(xù)航。
受到這種設(shè)計(jì)理念的啟發(fā),研究團(tuán)隊(duì)創(chuàng)造了Grove MoE架構(gòu)。Grove這個(gè)名字本身就很有意思——它意味著"小樹(shù)林",就像樹(shù)林中的每棵樹(shù)都有自己的作用,有些負(fù)責(zé)主要的光合作用,有些則承擔(dān)輔助功能。更有意思的是,Grove這個(gè)名字還向半導(dǎo)體行業(yè)的傳奇人物安迪·格魯夫致敬,他在處理器發(fā)展史上做出了重要貢獻(xiàn)。
在傳統(tǒng)的人工智能架構(gòu)中,專(zhuān)家系統(tǒng)就像一群能力相同的員工,每當(dāng)有任務(wù)來(lái)臨時(shí),總是固定地選擇其中幾個(gè)人來(lái)處理,無(wú)論任務(wù)簡(jiǎn)單還是復(fù)雜。而Grove MoE就像組建了一個(gè)更加靈活的團(tuán)隊(duì),不僅有各種能力的"專(zhuān)家員工",還為每個(gè)小組配備了"助理"。當(dāng)處理簡(jiǎn)單任務(wù)時(shí),可能只需要一兩個(gè)專(zhuān)家和他們的助理;當(dāng)面對(duì)復(fù)雜挑戰(zhàn)時(shí),多個(gè)專(zhuān)家會(huì)協(xié)同工作,而他們共享的助理只需要工作一次,就能為整個(gè)小組提供支持。
這種設(shè)計(jì)的巧妙之處在于"共享助理"的概念。在傳統(tǒng)架構(gòu)中,每個(gè)專(zhuān)家都需要獨(dú)立完成所有工作,就像每個(gè)廚師都要從頭到尾獨(dú)立完成一道菜。而在Grove MoE中,如果多個(gè)"廚師專(zhuān)家"同時(shí)制作類(lèi)似的菜品,他們可以共享同一個(gè)"助理廚師"來(lái)處理基礎(chǔ)工作,比如清洗蔬菜、準(zhǔn)備調(diào)料等。這樣既提高了效率,又節(jié)約了資源。
研究團(tuán)隊(duì)基于已有的Qwen3-30B-A3B-Base模型,通過(guò)這種創(chuàng)新架構(gòu)開(kāi)發(fā)出了兩個(gè)版本:GroveMoE-Base(基礎(chǔ)版)和GroveMoE-Inst(指令優(yōu)化版)。這兩個(gè)模型都擁有330億個(gè)參數(shù),但在實(shí)際運(yùn)行時(shí)只需要激活其中的31.4億到32.8億個(gè)參數(shù),就像一個(gè)擁有巨大潛能的大腦在面對(duì)具體任務(wù)時(shí)只調(diào)用相關(guān)的神經(jīng)網(wǎng)絡(luò)區(qū)域。
一、Grove MoE架構(gòu)的核心創(chuàng)新
傳統(tǒng)的專(zhuān)家混合模型就像一個(gè)標(biāo)準(zhǔn)化工廠的生產(chǎn)線,每條生產(chǎn)線的能力完全相同,無(wú)論制造簡(jiǎn)單產(chǎn)品還是復(fù)雜產(chǎn)品,都會(huì)占用相同的資源和時(shí)間。這種設(shè)計(jì)雖然管理簡(jiǎn)單,但明顯缺乏靈活性。Grove MoE的創(chuàng)新就像重新設(shè)計(jì)了這個(gè)工廠,不僅讓不同的生產(chǎn)線具備了不同的專(zhuān)業(yè)能力,還為它們配備了可以共享的輔助設(shè)備。
具體來(lái)說(shuō),Grove MoE將所有的專(zhuān)家分成若干個(gè)小組,每個(gè)小組都有一個(gè)特殊的"輔助專(zhuān)家"。這個(gè)輔助專(zhuān)家的能力可以根據(jù)需要進(jìn)行調(diào)整,可能比普通專(zhuān)家強(qiáng)一些,也可能弱一些,完全取決于具體任務(wù)的需求。當(dāng)系統(tǒng)處理輸入信息時(shí),如果選中了同一個(gè)小組內(nèi)的多個(gè)專(zhuān)家,這些專(zhuān)家不需要各自獨(dú)立地調(diào)用輔助專(zhuān)家,而是共享同一個(gè)輔助專(zhuān)家的計(jì)算結(jié)果。
這種共享機(jī)制帶來(lái)了顯著的效率提升。以一個(gè)擁有128個(gè)專(zhuān)家、分為64個(gè)小組的模型為例,傳統(tǒng)架構(gòu)中如果激活8個(gè)專(zhuān)家,就需要進(jìn)行8次獨(dú)立的計(jì)算。而在Grove MoE中,如果這8個(gè)專(zhuān)家分布在不同的小組中,最多也只需要8次輔助計(jì)算;但如果有些專(zhuān)家來(lái)自同一個(gè)小組,實(shí)際的輔助計(jì)算次數(shù)會(huì)更少。研究數(shù)據(jù)顯示,這種設(shè)計(jì)可以將激活的輔助專(zhuān)家數(shù)量控制在2到8個(gè)之間,實(shí)現(xiàn)了真正的動(dòng)態(tài)資源分配。
更令人驚嘆的是,Grove MoE還引入了一種"負(fù)載均衡"機(jī)制。傳統(tǒng)的專(zhuān)家系統(tǒng)經(jīng)常會(huì)出現(xiàn)"偏科"現(xiàn)象,某些專(zhuān)家總是被選中,而另一些專(zhuān)家則很少被使用,就像班級(jí)里總有幾個(gè)學(xué)生承擔(dān)所有工作,而其他學(xué)生無(wú)所事事。Grove MoE通過(guò)一種巧妙的動(dòng)態(tài)調(diào)整機(jī)制,確保各個(gè)專(zhuān)家都能得到合理的使用,避免了資源的浪費(fèi)和過(guò)度集中。
這種負(fù)載均衡不是簡(jiǎn)單的平均分配,而是基于任務(wù)需求的智能調(diào)度。系統(tǒng)會(huì)實(shí)時(shí)監(jiān)測(cè)各個(gè)專(zhuān)家的使用情況,當(dāng)發(fā)現(xiàn)某些專(zhuān)家過(guò)度忙碌時(shí),會(huì)適當(dāng)調(diào)整選擇偏好,讓相對(duì)空閑的專(zhuān)家也有機(jī)會(huì)參與工作。這種機(jī)制既保證了系統(tǒng)的高效運(yùn)行,又避免了某些專(zhuān)家因過(guò)度使用而出現(xiàn)"疲勞"。
二、訓(xùn)練數(shù)據(jù)和評(píng)估體系的精心設(shè)計(jì)
為了讓Grove MoE發(fā)揮出最佳性能,研究團(tuán)隊(duì)在訓(xùn)練數(shù)據(jù)的準(zhǔn)備上下了巨大功夫。他們收集了大約4000億個(gè)詞匯單位的高質(zhì)量訓(xùn)練材料,這些材料涵蓋了網(wǎng)絡(luò)內(nèi)容、學(xué)術(shù)論文、數(shù)學(xué)問(wèn)題、編程代碼等各個(gè)領(lǐng)域。如果把這些文字打印成書(shū),大概相當(dāng)于400萬(wàn)本中等厚度的小說(shuō),可見(jiàn)訓(xùn)練數(shù)據(jù)規(guī)模的龐大。
訓(xùn)練過(guò)程分為兩個(gè)主要階段。第一階段叫做"中期訓(xùn)練",就像讓一個(gè)已經(jīng)掌握基礎(chǔ)知識(shí)的學(xué)生接受專(zhuān)業(yè)技能訓(xùn)練。在這個(gè)階段,模型在保持原有知識(shí)的基礎(chǔ)上,重點(diǎn)學(xué)習(xí)推理、數(shù)學(xué)計(jì)算、代碼生成等高級(jí)技能。第二階段是"指令調(diào)優(yōu)",類(lèi)似于讓學(xué)生學(xué)會(huì)如何與人交流,理解和回應(yīng)各種問(wèn)題和要求。
評(píng)估體系同樣非常全面,涵蓋了13個(gè)不同的測(cè)試基準(zhǔn)。這些測(cè)試就像給學(xué)生安排的期末考試,包括了通用知識(shí)測(cè)試、數(shù)學(xué)和科學(xué)推理測(cè)試、編程能力測(cè)試等多個(gè)方面。比如MMLU測(cè)試檢驗(yàn)?zāi)P偷木C合知識(shí)水平,GSM8K測(cè)試評(píng)估數(shù)學(xué)計(jì)算能力,HumanEval+測(cè)試考查編程技能,每個(gè)測(cè)試都有其特定的評(píng)分標(biāo)準(zhǔn)和難度級(jí)別。
在架構(gòu)參數(shù)的選擇上,研究團(tuán)隊(duì)進(jìn)行了大量的對(duì)比實(shí)驗(yàn)。他們嘗試了不同的專(zhuān)家分組方式:64個(gè)小組每個(gè)包含128維的輔助專(zhuān)家、32個(gè)小組每個(gè)包含256維的輔助專(zhuān)家、以及16個(gè)小組每個(gè)包含512維的輔助專(zhuān)家。實(shí)驗(yàn)結(jié)果顯示,64個(gè)小組的配置在綜合性能上表現(xiàn)最佳,特別是在一般知識(shí)理解和代碼生成任務(wù)上效果突出。
關(guān)于輔助專(zhuān)家的影響權(quán)重,研究團(tuán)隊(duì)測(cè)試了0.05、0.10、0.20三個(gè)不同數(shù)值。較小的權(quán)重值(0.05)在大多數(shù)任務(wù)上表現(xiàn)更好,這表明輔助專(zhuān)家應(yīng)該起到"潤(rùn)物細(xì)無(wú)聲"的作用,而不是喧賓奪主。這種細(xì)致的參數(shù)調(diào)優(yōu)確保了Grove MoE能夠在各種任務(wù)上都保持穩(wěn)定的高性能。
三、性能表現(xiàn)令人印象深刻
在實(shí)際測(cè)試中,Grove MoE展現(xiàn)出了令人矚目的性能表現(xiàn)。以GroveMoE-Inst為例,在MMLU-Pro這個(gè)高難度綜合測(cè)試中獲得了72.8分,明顯超過(guò)了其他同規(guī)模模型的表現(xiàn)。更令人驚嘆的是,在一些數(shù)學(xué)和科學(xué)推理測(cè)試中,Grove MoE甚至超越了參數(shù)規(guī)模更大的競(jìng)爭(zhēng)對(duì)手。
在數(shù)學(xué)能力測(cè)試方面,Grove MoE表現(xiàn)尤為突出。在Omni-MATH這個(gè)奧林匹克級(jí)別的數(shù)學(xué)測(cè)試中,GroveMoE-Inst達(dá)到了43.5分,而其他模型大多在30分左右徘徊。在AIME25這個(gè)美國(guó)數(shù)學(xué)競(jìng)賽級(jí)別的測(cè)試中,Grove MoE獲得了44.4分,遠(yuǎn)超其他模型的表現(xiàn)。這種差距不是小幅領(lǐng)先,而是壓倒性的優(yōu)勢(shì),說(shuō)明Grove MoE在復(fù)雜推理任務(wù)上確實(shí)具備了更強(qiáng)的能力。
編程能力方面,Grove MoE同樣表現(xiàn)出色。在MultiPL-E多語(yǔ)言編程測(cè)試中獲得了74.5分,在HumanEval+編程挑戰(zhàn)中達(dá)到了90.24分。這些分?jǐn)?shù)表明,Grove MoE不僅能夠理解編程概念,還能夠生成高質(zhì)量的代碼,在實(shí)際的軟件開(kāi)發(fā)場(chǎng)景中具有很強(qiáng)的應(yīng)用潛力。
特別值得注意的是,Grove MoE在保持這些優(yōu)異性能的同時(shí),計(jì)算效率卻比傳統(tǒng)架構(gòu)高出很多。在實(shí)際運(yùn)行時(shí),Grove MoE只需要激活總參數(shù)的9.5%到9.9%,相比之下,傳統(tǒng)的同規(guī)模模型通常需要激活10%或更多的參數(shù)。雖然這個(gè)差異看起來(lái)不大,但在大規(guī)模部署時(shí),這種效率提升就會(huì)轉(zhuǎn)化為顯著的成本節(jié)約和能耗降低。
研究團(tuán)隊(duì)還進(jìn)行了一個(gè)有趣的對(duì)比實(shí)驗(yàn),他們使用完全相同的訓(xùn)練策略分別訓(xùn)練了基于Grove MoE架構(gòu)的模型和基于傳統(tǒng)架構(gòu)的模型。結(jié)果顯示,Grove MoE版本在幾乎所有測(cè)試項(xiàng)目上都表現(xiàn)更好,平均性能提升達(dá)到2.27分。這個(gè)對(duì)比實(shí)驗(yàn)排除了其他變量的影響,證明了Grove MoE架構(gòu)本身的優(yōu)越性。
四、技術(shù)實(shí)現(xiàn)的巧妙設(shè)計(jì)
Grove MoE的技術(shù)實(shí)現(xiàn)過(guò)程體現(xiàn)了研究團(tuán)隊(duì)的精巧設(shè)計(jì)思路。他們采用了一種叫做"上循環(huán)"的策略,就像在已有的房屋基礎(chǔ)上進(jìn)行擴(kuò)建,而不是推倒重建。這種方法的好處是能夠保留原有模型已經(jīng)學(xué)會(huì)的知識(shí)和能力,同時(shí)添加新的功能模塊。
在初始化新增的輔助專(zhuān)家時(shí),研究團(tuán)隊(duì)采用了特殊的權(quán)重設(shè)置策略。新增模塊的輸出層被初始化為零,這意味著在訓(xùn)練初期,這些輔助專(zhuān)家不會(huì)對(duì)模型的輸出產(chǎn)生影響,避免了突然的性能下降。隨著訓(xùn)練的進(jìn)行,這些輔助專(zhuān)家會(huì)逐漸學(xué)會(huì)如何為原有專(zhuān)家提供有價(jià)值的補(bǔ)充信息。
負(fù)載均衡機(jī)制的實(shí)現(xiàn)也頗為巧妙。系統(tǒng)會(huì)持續(xù)監(jiān)控每個(gè)專(zhuān)家的使用頻率,當(dāng)發(fā)現(xiàn)負(fù)載分布不均時(shí),會(huì)通過(guò)調(diào)整路由偏差來(lái)重新平衡專(zhuān)家的選擇概率。這種調(diào)整是漸進(jìn)式的,不會(huì)造成突然的性能波動(dòng),確保了系統(tǒng)的穩(wěn)定性。
為了適應(yīng)不同復(fù)雜度的任務(wù),Grove MoE還實(shí)現(xiàn)了動(dòng)態(tài)的專(zhuān)家激活機(jī)制。對(duì)于簡(jiǎn)單任務(wù),系統(tǒng)可能只激活少數(shù)幾個(gè)小組的專(zhuān)家;對(duì)于復(fù)雜任務(wù),更多的專(zhuān)家和輔助專(zhuān)家會(huì)被調(diào)動(dòng)起來(lái)。這種自適應(yīng)的資源調(diào)配正是Grove MoE相比傳統(tǒng)架構(gòu)的核心優(yōu)勢(shì)所在。
研究團(tuán)隊(duì)在論文中詳細(xì)描述了數(shù)學(xué)公式和算法細(xì)節(jié),但其核心思想可以用一個(gè)簡(jiǎn)單的比喻來(lái)理解:就像一個(gè)智能的項(xiàng)目管理系統(tǒng),能夠根據(jù)任務(wù)的復(fù)雜程度自動(dòng)調(diào)配合適的團(tuán)隊(duì)規(guī)模和資源配置,確保既不浪費(fèi)資源,也不影響工作質(zhì)量。
五、現(xiàn)實(shí)應(yīng)用的潛力與挑戰(zhàn)
Grove MoE的成功不僅僅是學(xué)術(shù)研究上的突破,更重要的是它為人工智能的實(shí)際應(yīng)用指明了新的方向。在當(dāng)前大語(yǔ)言模型快速發(fā)展的背景下,如何平衡性能和效率始終是業(yè)界關(guān)注的焦點(diǎn)。Grove MoE提供了一種優(yōu)雅的解決方案,它證明了我們不必在性能和效率之間做出艱難選擇。
在實(shí)際部署方面,Grove MoE面臨的主要挑戰(zhàn)是實(shí)現(xiàn)的復(fù)雜性。目前的實(shí)現(xiàn)方案需要調(diào)用兩次計(jì)算核心,導(dǎo)致實(shí)際運(yùn)行速度比理論預(yù)期慢了約30%。這就像一個(gè)設(shè)計(jì)精良的機(jī)器,但由于缺乏專(zhuān)門(mén)的工具而無(wú)法發(fā)揮出全部潛力。研究團(tuán)隊(duì)認(rèn)識(shí)到了這個(gè)問(wèn)題,并將開(kāi)發(fā)專(zhuān)門(mén)的計(jì)算核心作為未來(lái)工作的重點(diǎn)。
從商業(yè)應(yīng)用的角度來(lái)看,Grove MoE的優(yōu)勢(shì)在于它能夠在保持高性能的同時(shí)顯著降低運(yùn)營(yíng)成本。對(duì)于需要處理大量用戶請(qǐng)求的在線服務(wù)來(lái)說(shuō),即使是10%的效率提升也能帶來(lái)巨大的成本節(jié)約。隨著人工智能服務(wù)規(guī)模的不斷擴(kuò)大,這種效率優(yōu)勢(shì)會(huì)變得越來(lái)越重要。
教育和研究領(lǐng)域也將從Grove MoE中受益。這種架構(gòu)為理解人工智能如何處理不同復(fù)雜度的任務(wù)提供了新的視角,有助于推動(dòng)相關(guān)理論研究的發(fā)展。同時(shí),Grove MoE的開(kāi)源性質(zhì)使得更多研究者能夠基于這一架構(gòu)進(jìn)行進(jìn)一步的創(chuàng)新和改進(jìn)。
當(dāng)然,Grove MoE也有其局限性。研究團(tuán)隊(duì)坦率地指出,模型的長(zhǎng)篇推理能力仍有提升空間,這主要是由于訓(xùn)練數(shù)據(jù)中缺乏足夠的長(zhǎng)篇思維鏈?zhǔn)纠?。此外,他們目前只使用了拒絕采樣等相對(duì)簡(jiǎn)單的優(yōu)化方法,而沒(méi)有采用更先進(jìn)的強(qiáng)化學(xué)習(xí)技術(shù),這為未來(lái)的改進(jìn)留下了空間。
六、對(duì)人工智能發(fā)展的深遠(yuǎn)意義
Grove MoE的成功標(biāo)志著人工智能架構(gòu)設(shè)計(jì)進(jìn)入了一個(gè)新的階段。過(guò)去,人們往往認(rèn)為提高人工智能性能的唯一途徑就是增加更多的參數(shù)和計(jì)算資源,就像認(rèn)為要跑得更快就必須有更強(qiáng)壯的肌肉。Grove MoE證明了智能的調(diào)度和優(yōu)化同樣重要,有時(shí)甚至比蠻力更有效。
這種架構(gòu)設(shè)計(jì)思路對(duì)整個(gè)人工智能行業(yè)都具有啟發(fā)意義。它告訴我們,創(chuàng)新不一定需要推倒重來(lái),在現(xiàn)有基礎(chǔ)上的巧妙改進(jìn)同樣能夠帶來(lái)突破性的進(jìn)展。這為那些資源相對(duì)有限的研究機(jī)構(gòu)和公司提供了新的發(fā)展路徑,不必盲目追求參數(shù)規(guī)模的擴(kuò)大,而可以專(zhuān)注于架構(gòu)的優(yōu)化和效率的提升。
從更宏觀的角度來(lái)看,Grove MoE體現(xiàn)了一種可持續(xù)發(fā)展的人工智能理念。隨著人工智能應(yīng)用的普及,能耗問(wèn)題日益突出。Grove MoE通過(guò)提高計(jì)算效率,為解決這一問(wèn)題提供了有價(jià)值的思路。如果這種高效架構(gòu)能夠得到廣泛應(yīng)用,將對(duì)減少人工智能的環(huán)境影響產(chǎn)生積極作用。
Grove MoE還為人工智能的民主化做出了貢獻(xiàn)。通過(guò)開(kāi)源發(fā)布,研究團(tuán)隊(duì)讓更多的開(kāi)發(fā)者和研究者能夠接觸到這一先進(jìn)技術(shù)。這種開(kāi)放的態(tài)度有助于加速技術(shù)的傳播和改進(jìn),推動(dòng)整個(gè)行業(yè)的共同進(jìn)步。
說(shuō)到底,Grove MoE的意義不僅在于它取得了優(yōu)異的性能表現(xiàn),更在于它為人工智能的發(fā)展提供了新的思維模式。它告訴我們,真正的智能不是簡(jiǎn)單的資源堆砌,而是對(duì)資源的合理配置和動(dòng)態(tài)調(diào)度。這種理念不僅適用于人工智能系統(tǒng)的設(shè)計(jì),也為我們思考其他復(fù)雜系統(tǒng)的優(yōu)化提供了啟發(fā)。
研究團(tuán)隊(duì)通過(guò)Grove MoE證明了一個(gè)重要觀點(diǎn):在追求人工智能性能突破的道路上,創(chuàng)新的架構(gòu)設(shè)計(jì)和算法優(yōu)化與計(jì)算資源的增加同樣重要。這為未來(lái)的人工智能研究指明了一個(gè)既經(jīng)濟(jì)又環(huán)保的發(fā)展方向,相信會(huì)有更多研究者沿著這條道路繼續(xù)探索,為人工智能技術(shù)的進(jìn)步做出新的貢獻(xiàn)。
Q&A
Q1:Grove MoE架構(gòu)和傳統(tǒng)MoE架構(gòu)有什么區(qū)別?
A:傳統(tǒng)MoE就像標(biāo)準(zhǔn)化工廠,所有專(zhuān)家能力相同,處理任何任務(wù)都用固定資源。Grove MoE像智能團(tuán)隊(duì),將專(zhuān)家分組并配備共享助理,能根據(jù)任務(wù)復(fù)雜度動(dòng)態(tài)調(diào)配資源,既提高效率又節(jié)約計(jì)算成本。
Q2:Grove MoE模型在哪些方面表現(xiàn)最突出?
A:Grove MoE在數(shù)學(xué)推理和編程任務(wù)上表現(xiàn)最為出色。在奧林匹克級(jí)數(shù)學(xué)測(cè)試中得分43.5分,遠(yuǎn)超其他模型的30分左右;在編程測(cè)試中達(dá)到90.24分,同時(shí)只需激活9.5%的參數(shù)就能達(dá)到這樣的性能。
Q3:普通開(kāi)發(fā)者可以使用Grove MoE技術(shù)嗎?
A:可以的,研究團(tuán)隊(duì)已經(jīng)開(kāi)源了Grove MoE的代碼和模型,開(kāi)發(fā)者可以通過(guò)GitHub訪問(wèn)完整資源。不過(guò)目前的實(shí)現(xiàn)還需要專(zhuān)門(mén)的計(jì)算核心優(yōu)化,實(shí)際部署時(shí)會(huì)比理論性能慢約30%。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語(yǔ)言模型的敘事推理能力與音頻生成技術(shù),通過(guò)交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開(kāi)辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過(guò)讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問(wèn)題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語(yǔ)言模型人性化對(duì)話問(wèn)題。該研究創(chuàng)建了包含20萬(wàn)高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過(guò)創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開(kāi)發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過(guò)學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來(lái)了效率和精度的雙重突破。