近期,我們看到Gemini-1.5、DeepSeek-V3和Llama-4等頂尖大語(yǔ)言模型紛紛采用了一種名為"專家混合"(Mixture-of-Experts,簡(jiǎn)稱MoE)的架構(gòu)。這是怎樣的一種技術(shù)?想象一下,傳統(tǒng)的語(yǔ)言模型就像一個(gè)萬(wàn)能選手,必須處理所有類型的問(wèn)題。而MoE模型則像是一個(gè)由多位專家組成的團(tuán)隊(duì),每次只召集最合適的幾位專家來(lái)回答特定問(wèn)題,其他專家則休息待命。這種"按需激活"的方式使模型能夠在保持高效計(jì)算的同時(shí),擁有更大的知識(shí)容量。
不過(guò),學(xué)術(shù)界一直缺乏一個(gè)完全開放、端到端的MoE研究平臺(tái),讓研究人員能夠深入探究這些模型的縮放規(guī)律、路由機(jī)制和專家行為。為解決這一問(wèn)題,卡內(nèi)基梅隆大學(xué)的Hao Kang、Zichun Yu和Chenyan Xiong團(tuán)隊(duì)于2025年5月26日在arXiv上發(fā)布了題為"FLAME-MoE: A Transparent End-to-End Research Platform for Mixture-of-Experts Language Models"的研究論文,正式推出了FLAME-MoE平臺(tái)。
FLAME-MoE是一套完全開源的研究工具,由七個(gè)解碼器模型組成,活躍參數(shù)從3800萬(wàn)到17億不等。這些模型的架構(gòu)——每層64位專家,其中每個(gè)輸入詞激活8位專家(包括2位共享專家)——緊密反映了當(dāng)前生產(chǎn)環(huán)境中的大型語(yǔ)言模型。與以往不同的是,F(xiàn)LAME-MoE將所有訓(xùn)練數(shù)據(jù)管道、腳本、日志和檢查點(diǎn)全部公開,實(shí)現(xiàn)了前所未有的研究透明度和可復(fù)現(xiàn)性。
在六項(xiàng)評(píng)估任務(wù)中,F(xiàn)LAME-MoE比使用相同計(jì)算資源訓(xùn)練的傳統(tǒng)密集模型在平均準(zhǔn)確率上最多提高了3.4個(gè)百分點(diǎn)。更重要的是,利用完整的訓(xùn)練追蹤透明度,研究團(tuán)隊(duì)揭示了三個(gè)關(guān)鍵發(fā)現(xiàn):專家們逐漸專注于處理不同的詞匯子集;專家之間的協(xié)同激活保持稀疏,反映了多樣化的專家使用;以及路由行為在訓(xùn)練早期就穩(wěn)定下來(lái)。
這項(xiàng)研究的所有代碼、訓(xùn)練日志和模型檢查點(diǎn)均已在GitHub上公開,任何人都可以通過(guò)https://github.com/cmu-flame/FLAME-MoE訪問(wèn)。
一、研究背景:MoE模型的崛起與開放研究的挑戰(zhàn)
大型語(yǔ)言模型在近年來(lái)取得了令人矚目的進(jìn)展,但伴隨著規(guī)模增長(zhǎng),訓(xùn)練和推理成本也呈指數(shù)級(jí)攀升。想象一下,如果傳統(tǒng)的大型語(yǔ)言模型是一輛不斷增大的卡車,它需要越來(lái)越多的燃料(計(jì)算資源)才能前進(jìn),那么MoE模型則像是一輛創(chuàng)新設(shè)計(jì)的混合動(dòng)力車,能夠根據(jù)道路情況智能切換引擎,大幅節(jié)省能源。
MoE架構(gòu)的核心思想是將神經(jīng)網(wǎng)絡(luò)的某些層(通常是前饋網(wǎng)絡(luò)層)替換為多個(gè)"專家"網(wǎng)絡(luò),而不是每次計(jì)算都使用全部參數(shù),模型會(huì)為每個(gè)輸入token動(dòng)態(tài)選擇最合適的專家子集。就好比你去醫(yī)院,不是所有科室的醫(yī)生都會(huì)同時(shí)看你,而是根據(jù)你的癥狀派最合適的專家為你診治。這種按需激活的方式使得模型能夠擁有更多參數(shù)(更多知識(shí)),同時(shí)保持計(jì)算效率。
雖然Gemini-1.5、DeepSeek-V3和Llama-4等頂尖模型已經(jīng)證明了MoE架構(gòu)的強(qiáng)大潛力,但學(xué)術(shù)界仍缺乏一個(gè)完全開放的平臺(tái)來(lái)研究這些模型的內(nèi)部工作機(jī)制。正如表1所示,現(xiàn)有的開源MoE模型如JetMoE、OpenMoE和OLMoE在開放程度上各有不同。JetMoE只提供代碼,OpenMoE提供代碼和數(shù)據(jù)但沒(méi)有完整檢查點(diǎn)和日志,OLMoE雖然更加開放但只有一種規(guī)模的模型。相比之下,F(xiàn)LAME-MoE是唯一一個(gè)提供完整開放性(代碼、數(shù)據(jù)、所有檢查點(diǎn)、日志)的平臺(tái),并且涵蓋了從3800萬(wàn)到17億活躍參數(shù)的7種不同規(guī)模模型。
二、FLAME-MoE:架構(gòu)設(shè)計(jì)與訓(xùn)練方法
FLAME-MoE模型采用了類似DeepSeek-V2和OLMoE的架構(gòu)設(shè)計(jì)。想象一下,如果傳統(tǒng)的語(yǔ)言模型是一條直線生產(chǎn)線,那么FLAME-MoE就像是一個(gè)有多條并行軌道的生產(chǎn)系統(tǒng),每個(gè)輸入都會(huì)被引導(dǎo)到最合適的專業(yè)軌道上處理。
具體來(lái)說(shuō),F(xiàn)LAME-MoE是一個(gè)僅解碼器的Transformer模型,由NL層組成,除了第一層外,所有前饋網(wǎng)絡(luò)層都被MoE層替代。每個(gè)MoE層包含64個(gè)專家網(wǎng)絡(luò)和一個(gè)路由機(jī)制。當(dāng)一個(gè)詞(token)的表示進(jìn)入MoE層時(shí),模型會(huì)選擇8個(gè)得分最高的專家來(lái)處理這個(gè)詞,其中2個(gè)是"共享專家"(對(duì)所有輸入詞都會(huì)激活),另外6個(gè)是根據(jù)路由機(jī)制動(dòng)態(tài)選擇的。
路由機(jī)制就像一個(gè)智能交通指揮官,它會(huì)計(jì)算每個(gè)專家處理當(dāng)前輸入的適合度分?jǐn)?shù),然后選擇分?jǐn)?shù)最高的幾個(gè)專家來(lái)處理。這種選擇不是隨機(jī)的,而是基于當(dāng)前輸入的特征,確保每個(gè)專家都能處理它最擅長(zhǎng)的內(nèi)容。最終的輸出是這些被選中專家處理結(jié)果的加權(quán)和,權(quán)重來(lái)自路由分?jǐn)?shù)的歸一化值。
訓(xùn)練MoE模型時(shí),除了標(biāo)準(zhǔn)的交叉熵?fù)p失外,還需要兩個(gè)輔助損失函數(shù)來(lái)確保模型的穩(wěn)定性和效率。第一個(gè)是負(fù)載平衡損失,它的作用就像工廠管理者確保每個(gè)工人的工作量均衡一樣,防止某些專家過(guò)度工作而其他專家閑置。第二個(gè)是路由器z-損失,它鼓勵(lì)路由器產(chǎn)生數(shù)值適中的輸出,就像調(diào)節(jié)音量不要太高也不要太低,以提高數(shù)值穩(wěn)定性。
在FLAME-MoE中,研究團(tuán)隊(duì)按照OLMoE的經(jīng)驗(yàn)設(shè)置,將負(fù)載平衡損失的權(quán)重系數(shù)設(shè)為0.01,路由器z-損失的權(quán)重系數(shù)設(shè)為0.001。
三、縮放律研究:尋找最優(yōu)計(jì)算資源分配
任何大型語(yǔ)言模型的訓(xùn)練都面臨一個(gè)核心問(wèn)題:如何在有限的計(jì)算預(yù)算下,最優(yōu)地分配資源?是增加模型大小還是增加訓(xùn)練數(shù)據(jù)量?這就像烹飪一道完美的菜肴,需要平衡各種配料的比例。
FLAME-MoE團(tuán)隊(duì)開展了一項(xiàng)全面的縮放律研究,旨在找出給定計(jì)算預(yù)算下的最優(yōu)模型配置。他們采用了兩種互補(bǔ)的方法:等FLOPs分析和參數(shù)損失函數(shù)擬合。
等FLOPs分析就像是在固定食材總量的情況下,嘗試不同的配方組合。研究團(tuán)隊(duì)選擇了四個(gè)計(jì)算預(yù)算(1e18、3e18、6e18和3e19浮點(diǎn)運(yùn)算),對(duì)每個(gè)預(yù)算訓(xùn)練了16個(gè)不同活躍參數(shù)數(shù)量的模型,從3340萬(wàn)到17億不等。通過(guò)繪制這些模型的驗(yàn)證損失與活躍參數(shù)數(shù)量的關(guān)系曲線(如圖1a所示),他們?yōu)槊織l曲線擬合了拋物線,找出損失最小點(diǎn)對(duì)應(yīng)的最優(yōu)參數(shù)數(shù)量。
參數(shù)損失函數(shù)擬合則是建立一個(gè)統(tǒng)一的公式,將模型的最終損失表示為活躍參數(shù)數(shù)量和訓(xùn)練詞數(shù)的函數(shù)。這個(gè)方法使用了Huber損失函數(shù),對(duì)異常值不敏感,特別適合用于預(yù)測(cè)。圖1b展示了擬合函數(shù)的精度,預(yù)測(cè)損失與實(shí)際損失高度吻合。
這兩種方法得到的結(jié)果高度一致(如圖1c所示),驗(yàn)證了研究方法的可靠性。更重要的是,圖1d展示了驗(yàn)證損失與下游任務(wù)性能(以HellaSwag準(zhǔn)確率為例)之間存在強(qiáng)相關(guān)性(Spearman相關(guān)系數(shù)0.89),證明了縮放律研究對(duì)實(shí)際應(yīng)用的指導(dǎo)價(jià)值。
基于這些發(fā)現(xiàn),研究團(tuán)隊(duì)確定了七個(gè)計(jì)算最優(yōu)的模型配置,組成了FLAME-MoE模型家族。如表2所示,這些模型的活躍參數(shù)從3800萬(wàn)到17億不等,對(duì)應(yīng)的總參數(shù)從1億到103億。每個(gè)模型都按照計(jì)算最優(yōu)的訓(xùn)練步數(shù)和數(shù)據(jù)量進(jìn)行訓(xùn)練,確保公平比較。
四、FLAME-MoE預(yù)訓(xùn)練:實(shí)驗(yàn)設(shè)置與評(píng)估結(jié)果
FLAME-MoE的預(yù)訓(xùn)練實(shí)現(xiàn)基于Megatron-LM,這是一個(gè)高度優(yōu)化的大規(guī)模訓(xùn)練平臺(tái)。就像建造一座大樓需要專業(yè)的建筑工具一樣,訓(xùn)練大型語(yǔ)言模型也需要高效的軟件框架。
研究團(tuán)隊(duì)將FLAME-MoE與類似規(guī)模的密集模型進(jìn)行了對(duì)比,這些密集模型遵循Pythia和DCLM的架構(gòu)設(shè)計(jì)。為確保公平比較,所有模型都使用相同的代碼庫(kù)訓(xùn)練。訓(xùn)練使用Adam優(yōu)化器,最大學(xué)習(xí)率為3e-4,全局批量大小為1024,序列長(zhǎng)度為2048。學(xué)習(xí)率使用WSD調(diào)度器配置,預(yù)熱比例為0.01,衰減比例為訓(xùn)練總步數(shù)的0.1。所有模型都在32臺(tái)NVIDIA H100 GPU上訓(xùn)練,并在訓(xùn)練過(guò)程中均勻存儲(chǔ)10個(gè)檢查點(diǎn)以分析性能趨勢(shì)。
評(píng)估使用lm-evaluation-harness在六個(gè)下游任務(wù)上進(jìn)行,包括ARC-E、ARC-C、OBQA、HellaSwag、PIQA和WinoGrande。這些任務(wù)覆蓋了不同類型的語(yǔ)言理解能力,如常識(shí)推理、物理理解和代詞消歧。遵循DCLM的評(píng)估方法,ARC-E、ARC-C、HellaSwag和PIQA使用10-shot評(píng)估,OBQA和WinoGrande使用0-shot評(píng)估。所有任務(wù)的評(píng)估指標(biāo)都是準(zhǔn)確率。
表3展示了FLAME-MoE在各個(gè)任務(wù)上的表現(xiàn)。結(jié)果令人印象深刻:FLAME-MoE在幾乎所有任務(wù)上都顯著優(yōu)于相同訓(xùn)練計(jì)算量的密集基線模型。隨著模型規(guī)模增加,這種優(yōu)勢(shì)更加明顯,在8.0e19和2.4e20兩個(gè)計(jì)算預(yù)算下,F(xiàn)LAME-MoE比密集基線的平均準(zhǔn)確率高出超過(guò)3個(gè)百分點(diǎn)。
圖2進(jìn)一步展示了FLAME-MoE和密集模型在預(yù)訓(xùn)練過(guò)程中的擴(kuò)展曲線。隨著預(yù)訓(xùn)練計(jì)算量的增加,F(xiàn)LAME-MoE和密集模型之間的性能差距持續(xù)擴(kuò)大,F(xiàn)LAME-MoE甚至能夠匹配或超越使用兩倍計(jì)算量訓(xùn)練的密集模型(如在400M-4x配置中)。這些結(jié)果表明,F(xiàn)LAME-MoE大幅提高了預(yù)訓(xùn)練效率,實(shí)現(xiàn)了更好的速度-質(zhì)量平衡。
五、訓(xùn)練效率分析:并行策略的影響
除了任務(wù)性能,研究團(tuán)隊(duì)還評(píng)估了不同并行化策略對(duì)訓(xùn)練效率的影響。就像管理一個(gè)大型工廠需要不同的組織策略一樣,訓(xùn)練大型MoE模型也需要有效的并行化方法來(lái)充分利用計(jì)算資源。
研究團(tuán)隊(duì)分析了在單個(gè)節(jié)點(diǎn)(8個(gè)GPU)內(nèi)可以容納的不同管道并行度(PP)和專家并行度(EP)組合下的吞吐量和訓(xùn)練步時(shí)間。如圖3所示,增加專家并行度通常能提高利用率并減少延遲,而更深的管道并行度(如PP=2)可以進(jìn)一步提高可擴(kuò)展性?;谶@些發(fā)現(xiàn),研究團(tuán)隊(duì)采用了PP=1和EP=8的最佳配置來(lái)訓(xùn)練FLAME-MoE模型,確保實(shí)驗(yàn)高效利用計(jì)算資源。
然而,雖然MoE模型在EP=8配置下展示了很好的利用率(如附錄A所示),但整體FLOP吞吐量仍落后于密集模型。這種差距主要源于MoE架構(gòu)固有的稀疏性和通信開銷,這對(duì)開源MoE實(shí)現(xiàn)提出了獨(dú)特的基礎(chǔ)設(shè)施挑戰(zhàn)。這些限制突顯了開源MoE實(shí)現(xiàn)(如Megatron-LM)的改進(jìn)空間。盡管它是目前最優(yōu)化的開源MoE框架之一,但當(dāng)前性能仍落后于擁有緊密集成的硬件-軟件協(xié)同設(shè)計(jì)的專有系統(tǒng)。
六、實(shí)證分析:深入了解MoE行為
FLAME-MoE套件的一個(gè)核心優(yōu)勢(shì)是完整預(yù)訓(xùn)練檢查點(diǎn)的發(fā)布,這使研究人員能夠?qū)δP托袨檫M(jìn)行細(xì)粒度分析,而不僅僅是查看最終收斂狀態(tài)。就像有了一部電影的完整拍攝素材,而不僅僅是最終剪輯版,這讓我們能夠看到模型從"童年"到"成熟"的整個(gè)發(fā)展過(guò)程。
研究團(tuán)隊(duì)利用這一能力探索了三個(gè)關(guān)鍵的MoE特定行為:專家專業(yè)化、協(xié)同激活和路由器飽和度。這些分析展示了FLAME-MoE如何支持更廣泛的學(xué)術(shù)界研究大型MoE模型的訓(xùn)練動(dòng)態(tài)。
首先是專家專業(yè)化分析。為了理解專家行為在預(yù)訓(xùn)練過(guò)程中的發(fā)展,研究團(tuán)隊(duì)分析了單個(gè)詞在不同時(shí)間點(diǎn)的路由模式,特別關(guān)注某些專家是否持續(xù)處理特定詞匯,這可能表明一種專業(yè)化形式。
他們將專家專業(yè)化定義為某個(gè)專家處理特定詞的次數(shù)與該詞在評(píng)估語(yǔ)料庫(kù)中總出現(xiàn)次數(shù)的比率。例如,如果"computer"這個(gè)詞在語(yǔ)料庫(kù)中出現(xiàn)了100次,而專家#7被選擇處理了80次,那么專家#7對(duì)"computer"的專業(yè)化得分就是0.8,表明這位專家高度專注于處理這個(gè)詞。
為了追蹤專業(yè)化隨時(shí)間的變化,研究團(tuán)隊(duì)固定了每個(gè)專家在預(yù)訓(xùn)練結(jié)束時(shí)最專業(yè)化的前兩個(gè)詞,然后回溯評(píng)估這些詞在早期檢查點(diǎn)的得分。如圖4所示,所有分析的專家都顯示出專業(yè)化得分的一致上升趨勢(shì)。這表明,詞級(jí)專業(yè)化在預(yù)訓(xùn)練過(guò)程中逐漸形成并鞏固,就像學(xué)生從廣泛學(xué)習(xí)各科知識(shí)逐漸發(fā)展成某領(lǐng)域的專家一樣。
其次是專家協(xié)同激活分析。為了理解專家在top-k路由下的交互方式,研究團(tuán)隊(duì)分析了專家對(duì)如何經(jīng)常被一起選擇處理同一個(gè)詞。這揭示了專家是獨(dú)立行動(dòng)還是傾向于合作。
他們定義了從專家Ei到專家Ej的定向協(xié)同激活得分,衡量在選擇了Ei的情況下,Ej也被選擇的條件概率。高分表示兩位專家緊密結(jié)合,低分則表示獨(dú)立性。
如圖5所示,協(xié)同激活總體上是稀疏的,大多數(shù)專家對(duì)表現(xiàn)出低得分。這表明專家之間有限的冗余,說(shuō)明專家正在學(xué)習(xí)多樣化而不是頻繁重疊激活。此外,協(xié)同激活隨著深度增加而增強(qiáng):最大得分從第2層的0.38和第6層的0.39上升到第12層的0.50和第18層的0.70。這種模式隨著訓(xùn)練進(jìn)展變得更加明顯;在第18層,從訓(xùn)練10%到100%,峰值得分從0.51增長(zhǎng)到0.70。淺層則顯示出較弱的趨勢(shì)。
最后是路由器飽和度分析。另一個(gè)理解MoE行為的關(guān)鍵問(wèn)題是路由器在其專家選擇模式上收斂的速度和一致性。與專家協(xié)同激活(關(guān)注單次前向傳播中專家之間的交互)不同,路由器飽和度檢查預(yù)訓(xùn)練全程中路由決策的時(shí)間穩(wěn)定性。
研究團(tuán)隊(duì)將飽和度定義為每個(gè)詞在當(dāng)前步驟和最終收斂時(shí)所選top-k專家的平均重疊度。盡管FLAME-MoE使用top-k=8進(jìn)行訓(xùn)練,但他們報(bào)告了不同評(píng)估設(shè)置(k=1、2、4、8)下的飽和度,以捕捉專家偏好的細(xì)粒度變化。
如圖6所示,飽和度隨著訓(xùn)練穩(wěn)步增加,大多數(shù)層在訓(xùn)練中點(diǎn)就達(dá)到了超過(guò)70%的一致度。值得注意的是,飽和度在訓(xùn)練的最初幾千步內(nèi)急劇上升,表明路由器很早就收斂到穩(wěn)定的專家分配。這種模式在所有top-k設(shè)置中都一致,盡管較小k的絕對(duì)分?jǐn)?shù)更高,反映了最優(yōu)先專家中更大的選擇一致性。深層通常比淺層飽和得更快,表明深度增加時(shí)路由行為更穩(wěn)定。
這三項(xiàng)分析共同揭示了MoE模型內(nèi)部的復(fù)雜動(dòng)態(tài),這些見(jiàn)解以前在封閉源模型中難以獲得。這種透明度對(duì)于未來(lái)改進(jìn)MoE架構(gòu)和訓(xùn)練策略至關(guān)重要。
七、結(jié)論:開放透明的MoE研究新時(shí)代
FLAME-MoE代表了MoE語(yǔ)言模型研究的一個(gè)重要里程碑。就像Linux為操作系統(tǒng)研究提供了一個(gè)開放平臺(tái)一樣,F(xiàn)LAME-MoE為MoE模型研究提供了前所未有的透明度和可訪問(wèn)性。
通過(guò)發(fā)布七個(gè)計(jì)算最優(yōu)的模型,以及完整的訓(xùn)練代碼、日志、檢查點(diǎn)和評(píng)估腳本,卡內(nèi)基梅隆大學(xué)的研究團(tuán)隊(duì)使嚴(yán)格、可重復(fù)的MoE實(shí)驗(yàn)成為可能。經(jīng)驗(yàn)評(píng)估結(jié)果驗(yàn)證了FLAME-MoE的有效性,在相同計(jì)算預(yù)算下,它始終優(yōu)于密集基線模型,驗(yàn)證了MoE架構(gòu)的計(jì)算效率優(yōu)勢(shì)。
更重要的是,F(xiàn)LAME-MoE提供的訓(xùn)練軌跡透明度使研究人員能夠深入了解MoE模型的內(nèi)部工作機(jī)制,從專家專業(yè)化的出現(xiàn)到路由決策的穩(wěn)定。這些見(jiàn)解不僅對(duì)理論研究有價(jià)值,也為實(shí)際應(yīng)用中的MoE模型優(yōu)化提供了指導(dǎo)。
FLAME-MoE不僅僅是一個(gè)模型發(fā)布,而是一個(gè)綜合平臺(tái),用于推進(jìn)稀疏語(yǔ)言模型研究。它支持多種研究方向的探索,包括路由行為分析、專家專業(yè)化研究、負(fù)載平衡策略優(yōu)化以及并行化技術(shù)改進(jìn)。通過(guò)向研究社區(qū)開放模型開發(fā)的每個(gè)階段,F(xiàn)LAME-MoE為MoE系統(tǒng)的系統(tǒng)性、透明探索奠定了基礎(chǔ)。
隨著大型語(yǔ)言模型繼續(xù)發(fā)展,MoE架構(gòu)很可能在實(shí)現(xiàn)計(jì)算效率和性能之間最佳平衡方面發(fā)揮關(guān)鍵作用。FLAME-MoE為學(xué)術(shù)界提供了必要的工具,參與這一重要的研究方向,并推動(dòng)MoE模型向更高效、更強(qiáng)大的方向發(fā)展。
好文章,需要你的鼓勵(lì)
新加坡國(guó)立大學(xué)研究團(tuán)隊(duì)開發(fā)了SPIRAL框架,通過(guò)讓AI與自己對(duì)弈零和游戲來(lái)提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡(jiǎn)單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無(wú)需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開發(fā)的GIGA-ToF技術(shù)通過(guò)融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問(wèn)題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺(jué)解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過(guò)對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺(jué)語(yǔ)言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無(wú)法有效利用視覺(jué)信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過(guò)動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語(yǔ)言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。