這項(xiàng)由中科院計(jì)算技術(shù)研究所與美團(tuán)聯(lián)合發(fā)布的研究成果于2025年6月發(fā)表在機(jī)器學(xué)習(xí)頂級(jí)期刊上(論文編號(hào):arXiv:2506.14435v1),有興趣深入了解的讀者可以通過(guò)該編號(hào)在arXiv平臺(tái)訪問(wèn)完整論文。
當(dāng)我們談?wù)撊斯ぶ悄艿臅r(shí)候,經(jīng)常會(huì)聽(tīng)到"大模型"這個(gè)詞。可以把大模型想象成一個(gè)超級(jí)聰明的萬(wàn)事通,它能看圖識(shí)物、能與人對(duì)話,甚至能幫你寫作業(yè)。但這樣的萬(wàn)事通有個(gè)致命缺點(diǎn)——它們就像超級(jí)能吃的大胃王,需要消耗巨大的內(nèi)存才能運(yùn)行。
以目前主流的多模態(tài)大模型為例,它們需要的內(nèi)存動(dòng)輒幾十GB,這對(duì)于普通電腦或手機(jī)來(lái)說(shuō)簡(jiǎn)直是天文數(shù)字。就好比你想在家里養(yǎng)一頭大象,但你的房間只有臥室那么大——根本裝不下。正因?yàn)檫@個(gè)問(wèn)題,很多強(qiáng)大的AI功能只能在云端運(yùn)行,普通用戶無(wú)法在自己的設(shè)備上直接使用。
中科院計(jì)算技術(shù)研究所的王紅宇、徐佳宇等研究人員聯(lián)合美團(tuán)的技術(shù)團(tuán)隊(duì),提出了一個(gè)巧妙的解決方案——MoTE(Mixture of Ternary Experts,三值專家混合模型)。這個(gè)名字聽(tīng)起來(lái)很復(fù)雜,但其實(shí)原理很簡(jiǎn)單:與其讓一個(gè)超級(jí)專家處理所有問(wèn)題,不如培養(yǎng)很多個(gè)"小而精"的專家,每個(gè)專家只負(fù)責(zé)自己擅長(zhǎng)的領(lǐng)域,而且這些專家還特別"節(jié)食",內(nèi)存消耗極低。
**一、從"大胃王"到"節(jié)食專家"的華麗轉(zhuǎn)身**
要理解MoTE的巧妙之處,我們先來(lái)看看傳統(tǒng)AI模型面臨的困境。目前的大模型就像一個(gè)什么都懂的全科醫(yī)生,無(wú)論你是眼科問(wèn)題、心臟病還是骨折,都得找這一個(gè)醫(yī)生。這個(gè)醫(yī)生確實(shí)很厲害,但問(wèn)題是他的"大腦"(內(nèi)存)需要裝下所有醫(yī)學(xué)知識(shí),導(dǎo)致他需要一個(gè)超級(jí)大的辦公室(服務(wù)器)才能工作。
研究團(tuán)隊(duì)發(fā)現(xiàn),當(dāng)他們嘗試用現(xiàn)有的專家混合(MoE)技術(shù)來(lái)解決這個(gè)問(wèn)題時(shí)——也就是把一個(gè)全科醫(yī)生替換成多個(gè)??漆t(yī)生——雖然計(jì)算效率提高了,但內(nèi)存消耗反而更大了。這就像你原本雇一個(gè)全科醫(yī)生,現(xiàn)在要雇16個(gè)??漆t(yī)生,每個(gè)醫(yī)生都需要自己的辦公室,總的辦公空間需求反而增加了好幾倍。
具體來(lái)說(shuō),當(dāng)研究人員將一個(gè)3B參數(shù)的模型擴(kuò)展為包含16個(gè)專家的MoE模型時(shí),內(nèi)存需求從5.2GB猛增到73.2GB——增長(zhǎng)了14倍之多。這對(duì)于消費(fèi)級(jí)設(shè)備來(lái)說(shuō)完全不現(xiàn)實(shí)。
MoTE的解決思路相當(dāng)巧妙。研究團(tuán)隊(duì)沒(méi)有選擇訓(xùn)練更少但"營(yíng)養(yǎng)豐富"的專家,而是反其道而行之——訓(xùn)練更多但"節(jié)食"的專家。這些專家使用三值量化技術(shù),即每個(gè)參數(shù)只能取-1、0、1三個(gè)值中的一個(gè)。聽(tīng)起來(lái)很限制?實(shí)際上這就像用黑白灰三種顏色畫畫,雖然顏色選擇少了,但熟練的畫家依然能創(chuàng)作出精美的作品。
**二、巧妙的"新老搭配"策略**
MoTE最聰明的地方在于其"新老搭配"的策略。研究團(tuán)隊(duì)發(fā)現(xiàn),如果直接把原來(lái)訓(xùn)練好的全精度網(wǎng)絡(luò)層替換成三值專家,性能會(huì)大幅下降。這就像你把一個(gè)經(jīng)驗(yàn)豐富的老醫(yī)生直接換成剛畢業(yè)的實(shí)習(xí)生,雖然實(shí)習(xí)生很節(jié)約成本,但醫(yī)療水平肯定不如老醫(yī)生。
為了解決這個(gè)問(wèn)題,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)巧妙的架構(gòu):保留原來(lái)的全精度前饋網(wǎng)絡(luò)作為"共享專家",同時(shí)添加多個(gè)三值"路由專家"。這就像醫(yī)院里既保留了一個(gè)經(jīng)驗(yàn)豐富的全科醫(yī)生作為總顧問(wèn),同時(shí)又招聘了多個(gè)年輕但高效的專科醫(yī)生。每個(gè)病人來(lái)看病時(shí),總顧問(wèn)都會(huì)參與診斷,同時(shí)根據(jù)病情特點(diǎn),還會(huì)有一個(gè)最合適的??漆t(yī)生協(xié)助治療。
在技術(shù)實(shí)現(xiàn)上,MoTE使用top-1路由機(jī)制,即每次只激活一個(gè)三值專家,再加上始終激活的共享專家。這樣設(shè)計(jì)既保證了性能,又控制了計(jì)算開(kāi)銷。整個(gè)架構(gòu)的計(jì)算過(guò)程可以用一個(gè)簡(jiǎn)單的數(shù)學(xué)公式表示:輸出 = 共享專家的結(jié)果 + 最合適的三值專家的結(jié)果。
**三、三階段訓(xùn)練讓模型"循序漸進(jìn)"**
MoTE的訓(xùn)練過(guò)程就像培養(yǎng)一個(gè)優(yōu)秀的醫(yī)療團(tuán)隊(duì),需要三個(gè)階段的精心安排。
第一階段類似于"基礎(chǔ)培訓(xùn)"。研究團(tuán)隊(duì)首先訓(xùn)練一個(gè)兩層的多層感知機(jī)連接器,讓視覺(jué)編碼器和語(yǔ)言模型能夠"對(duì)話"。這就像讓放射科醫(yī)生學(xué)會(huì)如何向內(nèi)科醫(yī)生描述X光片的內(nèi)容——兩個(gè)專業(yè)領(lǐng)域需要建立共同的交流語(yǔ)言。
第二階段是"專業(yè)提升"。研究團(tuán)隊(duì)使用更復(fù)雜的視覺(jué)-語(yǔ)言指令數(shù)據(jù)對(duì)模型進(jìn)行微調(diào),提升語(yǔ)言模型和連接器的能力。這個(gè)階段就像讓醫(yī)生團(tuán)隊(duì)學(xué)習(xí)如何處理更復(fù)雜的綜合性病例,不僅要看懂檢查結(jié)果,還要能給出準(zhǔn)確的診斷建議。
第三階段是關(guān)鍵的"專家擴(kuò)展"期。在這個(gè)階段,研究團(tuán)隊(duì)將第二階段的密集模型擴(kuò)展為MoTE架構(gòu)。有趣的是,只有新添加的三值專家需要訓(xùn)練,而繼承自密集模型的層(共享專家和注意力層)都保持凍結(jié)狀態(tài)。這就像在一個(gè)成熟的醫(yī)療團(tuán)隊(duì)基礎(chǔ)上,只培訓(xùn)新來(lái)的專科醫(yī)生,而經(jīng)驗(yàn)豐富的老醫(yī)生和護(hù)士團(tuán)隊(duì)保持現(xiàn)有的工作模式。
訓(xùn)練過(guò)程中,研究團(tuán)隊(duì)采用了量化感知訓(xùn)練技術(shù)。權(quán)重和激活值會(huì)被實(shí)時(shí)量化為三值和8位整數(shù),但梯度和優(yōu)化器狀態(tài)仍保持全精度。這種做法確保了訓(xùn)練的穩(wěn)定性,就像在培訓(xùn)過(guò)程中嚴(yán)格控制新醫(yī)生的診療范圍,但保持詳細(xì)的培訓(xùn)記錄用于持續(xù)改進(jìn)。
**四、內(nèi)存消耗大幅縮減的秘密**
MoTE在內(nèi)存優(yōu)化方面的表現(xiàn)令人印象深刻。以3B參數(shù)模型為例,傳統(tǒng)的MoE-LLaVA需要18.1GB的專家內(nèi)存,而MoTE只需要6.8GB——節(jié)省了超過(guò)60%的內(nèi)存。這種巨大的節(jié)省來(lái)自于三值量化技術(shù)的威力。
三值量化的工作原理相當(dāng)精妙。每個(gè)權(quán)重參數(shù)都通過(guò)一個(gè)特殊的量化函數(shù)處理,該函數(shù)會(huì)計(jì)算權(quán)重矩陣的平均絕對(duì)值作為縮放因子,然后將每個(gè)權(quán)重值除以這個(gè)縮放因子并四舍五入到最接近的三個(gè)值:-1、0、1。雖然從理論上說(shuō),三值需要1.58位來(lái)表示(log?3),但在實(shí)際的GPU系統(tǒng)中,研究團(tuán)隊(duì)使用INT2格式來(lái)存儲(chǔ)和處理這些權(quán)重,進(jìn)一步提高了效率。
更令人驚喜的是,MoTE還能與后訓(xùn)練量化技術(shù)完美兼容。研究團(tuán)隊(duì)發(fā)現(xiàn),由于MoE層已經(jīng)是三值的,只需要對(duì)共享專家進(jìn)行額外的量化處理即可進(jìn)一步壓縮模型。在相同的3.4GB專家內(nèi)存預(yù)算下,MoTE比MoE-LLaVA的平均準(zhǔn)確率高出4.3%,這意味著在嚴(yán)格的內(nèi)存限制下,MoTE能夠以更少的資源實(shí)現(xiàn)更好的性能。
**五、性能表現(xiàn)超出預(yù)期**
研究團(tuán)隊(duì)在多個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集上對(duì)MoTE進(jìn)行了全面測(cè)試,涵蓋了數(shù)學(xué)推理、圖像理解、文檔分析等多個(gè)任務(wù)。測(cè)試結(jié)果顯示,MoTE展現(xiàn)出了令人矚目的規(guī)模效應(yīng)。
在0.5B參數(shù)規(guī)模上,MoTE的表現(xiàn)略遜于全精度的MoE-LLaVA,平均準(zhǔn)確率相差0.6%。但隨著模型規(guī)模增大,這個(gè)差距迅速縮小。當(dāng)模型達(dá)到1.5B參數(shù)時(shí),MoTE開(kāi)始反超MoE-LLaVA,平均準(zhǔn)確率高出1.7%。在3B參數(shù)規(guī)模上,MoTE的優(yōu)勢(shì)進(jìn)一步擴(kuò)大,在數(shù)學(xué)推理任務(wù)MathVista上的表現(xiàn)比MoE-LLaVA高出3.7%,在圖表問(wèn)答任務(wù)ChartQA上高出2.6%。
這種規(guī)模效應(yīng)的出現(xiàn)并非偶然。研究團(tuán)隊(duì)分析認(rèn)為,隨著模型規(guī)模增大,三值量化對(duì)性能的負(fù)面影響會(huì)被更大的模型容量所補(bǔ)償,而內(nèi)存效率的優(yōu)勢(shì)則變得更加明顯。這就像一個(gè)大型醫(yī)院,雖然每個(gè)??漆t(yī)生的個(gè)人能力可能不如全科專家,但通過(guò)合理的分工協(xié)作,整體效率反而更高。
特別值得一提的是,在與其他同規(guī)模模型的比較中,MoTE表現(xiàn)出了顯著的競(jìng)爭(zhēng)優(yōu)勢(shì)。例如,在與Qwen2-VL-2B的對(duì)比中,盡管MoTE只用了21.6B的訓(xùn)練tokens(遠(yuǎn)少于Qwen2-VL的1.4T tokens),但在平均性能上仍有2.0%的提升。在數(shù)學(xué)推理任務(wù)上,MoTE比MiniCPM-V-2.0-3B高出11.1%,比Phi-3-Vision-4B高出5.3%。
**六、專家路由的智能分工**
研究團(tuán)隊(duì)對(duì)MoTE的內(nèi)部工作機(jī)制進(jìn)行了深入分析,發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:不同的專家會(huì)自發(fā)地形成模態(tài)特化的分工模式。通過(guò)可視化分析,研究人員發(fā)現(xiàn)文本tokens和圖像tokens在路由時(shí)展現(xiàn)出了明顯不同的模式。
例如,專家1在處理圖像tokens時(shí),在第一層和最后五層都表現(xiàn)出很高的激活率,而在處理文本tokens時(shí)則相對(duì)較少被選擇。這種現(xiàn)象類似于醫(yī)院里的??漆t(yī)生自然分工——眼科醫(yī)生主要處理視覺(jué)相關(guān)問(wèn)題,心內(nèi)科醫(yī)生主要處理心血管問(wèn)題,雖然沒(méi)有明確規(guī)定,但通過(guò)長(zhǎng)期實(shí)踐形成了自然的專業(yè)化分工。
更有趣的是,這種專業(yè)化分工在不同任務(wù)間保持了相當(dāng)?shù)囊恢滦?。無(wú)論是AI2D的圖形理解任務(wù)、MMBench的綜合評(píng)測(cè),還是ChartQA的圖表分析,專家們的路由模式都展現(xiàn)出了相似的特點(diǎn)。這表明MoTE學(xué)到的不是任務(wù)特定的特征,而是更加通用的模態(tài)處理能力。
研究團(tuán)隊(duì)還使用主成分分析(PCA)技術(shù)提取了top-10的路由路徑,發(fā)現(xiàn)文本和圖像tokens確實(shí)遵循著不同的"高速公路"。這種路徑分化進(jìn)一步證實(shí)了專家們根據(jù)輸入內(nèi)容的不同特點(diǎn)進(jìn)行了自適應(yīng)的專業(yè)化分工。
**七、訓(xùn)練策略的精妙設(shè)計(jì)**
在訓(xùn)練策略的設(shè)計(jì)上,研究團(tuán)隊(duì)做了多項(xiàng)巧妙的優(yōu)化。他們發(fā)現(xiàn),直接從全精度訓(xùn)練開(kāi)始再逐步過(guò)渡到三值訓(xùn)練并不能帶來(lái)性能提升,反而會(huì)增加訓(xùn)練復(fù)雜度。因此,MoTE采用了端到端的三值訓(xùn)練策略,從一開(kāi)始就讓三值專家適應(yīng)其量化約束。
在初始化策略方面,研究團(tuán)隊(duì)證實(shí)了使用預(yù)訓(xùn)練FFN來(lái)初始化路由專家的重要性。相比隨機(jī)初始化,F(xiàn)FN初始化能帶來(lái)1.5%的平均性能提升。這就像培訓(xùn)新醫(yī)生時(shí),有經(jīng)驗(yàn)醫(yī)生的指導(dǎo)比完全自學(xué)要有效得多。
負(fù)載均衡也是訓(xùn)練中的關(guān)鍵考慮因素。研究團(tuán)隊(duì)采用了Switch Transformers中提出的輔助損失函數(shù)來(lái)確保專家使用的均衡性。該損失函數(shù)會(huì)懲罰過(guò)度依賴某個(gè)專家的行為,鼓勵(lì)模型充分利用所有可用的專家資源。在實(shí)踐中,他們將負(fù)載均衡損失的權(quán)重設(shè)置為0.01,既保證了專家使用的均衡性,又避免了輔助損失過(guò)度干擾主要的語(yǔ)言建模目標(biāo)。
**八、兼容性與擴(kuò)展性的雙重優(yōu)勢(shì)**
MoTE的另一大優(yōu)勢(shì)是其出色的兼容性。由于架構(gòu)中仍保留了全精度的共享專家,MoTE可以無(wú)縫集成現(xiàn)有的后訓(xùn)練量化技術(shù)。研究團(tuán)隊(duì)測(cè)試了GPTQ和AWQ等主流量化方法,發(fā)現(xiàn)在相同內(nèi)存預(yù)算下,MoTE的性能優(yōu)勢(shì)會(huì)進(jìn)一步放大。
在1.5B模型的測(cè)試中,當(dāng)專家內(nèi)存限制為1.6GB時(shí),使用GPTQ量化的MoE-LLaVA性能下降明顯,而MoTE通過(guò)對(duì)共享專家進(jìn)行INT4量化就能達(dá)到相同的內(nèi)存目標(biāo),同時(shí)保持更好的性能。這種優(yōu)勢(shì)在更嚴(yán)格的內(nèi)存限制下尤其明顯,體現(xiàn)了MoTE在資源受限環(huán)境下的優(yōu)越性。
研究團(tuán)隊(duì)還探索了MoTE的數(shù)據(jù)擴(kuò)展能力。他們使用完整的MammoTH-VL數(shù)據(jù)集(包含1000萬(wàn)樣本)對(duì)1.5B的MoTE模型進(jìn)行訓(xùn)練,結(jié)果顯示模型性能持續(xù)提升,證明了MoTE具備良好的數(shù)據(jù)可擴(kuò)展性。即使在只使用21.6B訓(xùn)練tokens的情況下,MoTE仍能在多個(gè)任務(wù)上超越使用更多訓(xùn)練數(shù)據(jù)的基線模型。
**九、技術(shù)實(shí)現(xiàn)的巧思**
在技術(shù)實(shí)現(xiàn)層面,MoTE采用了多項(xiàng)優(yōu)化策略來(lái)確保訓(xùn)練效率。研究團(tuán)隊(duì)使用PyTorch的編譯功能將量化操作編譯為優(yōu)化的GPU kernel,顯著加速了訓(xùn)練過(guò)程。以1.5B模型的Stage III訓(xùn)練為例,MoTE在16塊NVIDIA A100 GPU上需要43.3小時(shí),而MoE-LLaVA需要41.8小時(shí),兩者訓(xùn)練時(shí)間相當(dāng)。
在推理階段,研究團(tuán)隊(duì)使用了BitBlas庫(kù)來(lái)優(yōu)化三值矩陣運(yùn)算,進(jìn)一步提升了內(nèi)存效率和計(jì)算速度。雖然三值從理論上需要1.58位存儲(chǔ),但BitBlas仍使用INT2格式來(lái)存儲(chǔ)和處理權(quán)重,這是因?yàn)楫?dāng)前GPU架構(gòu)基于二進(jìn)制系統(tǒng)的設(shè)計(jì)。
量化感知訓(xùn)練的實(shí)現(xiàn)也頗具技巧性。由于量化操作中的許多函數(shù)(如四舍五入、截?cái)啵┦遣豢晌⒎值模芯繄F(tuán)隊(duì)采用了直通估計(jì)器(Straight-Through Estimator)來(lái)近似梯度傳播。這種方法雖然在理論上是近似的,但在實(shí)踐中被證明是有效的,能夠確保三值專家的穩(wěn)定訓(xùn)練。
說(shuō)到底,MoTE代表了大模型壓縮領(lǐng)域的一個(gè)重要突破。它巧妙地平衡了性能、效率和實(shí)用性,為在資源受限設(shè)備上部署強(qiáng)大的多模態(tài)AI能力提供了新的可能性。研究結(jié)果表明,通過(guò)合理的架構(gòu)設(shè)計(jì)和訓(xùn)練策略,我們可以用更少的資源實(shí)現(xiàn)更好的性能,這對(duì)于AI技術(shù)的普及和應(yīng)用具有重要意義。
這項(xiàng)研究不僅在技術(shù)上取得了突破,更重要的是為AI民主化開(kāi)辟了新的道路。當(dāng)強(qiáng)大的AI模型能夠在普通設(shè)備上高效運(yùn)行時(shí),更多的用戶將能夠直接體驗(yàn)到AI技術(shù)的便利,而不必依賴昂貴的云端服務(wù)。歸根結(jié)底,這正是人工智能發(fā)展的最終目標(biāo)——讓先進(jìn)的AI技術(shù)真正服務(wù)于每一個(gè)普通人。
有興趣深入了解技術(shù)細(xì)節(jié)的讀者,可以通過(guò)論文編號(hào)arXiv:2506.14435v1在arXiv平臺(tái)查閱完整的研究報(bào)告,其中包含了詳細(xì)的實(shí)驗(yàn)數(shù)據(jù)、算法描述和性能分析。
**Q&A**
Q1:MoTE是什么?它能解決什么問(wèn)題? A:MoTE是中科院和美團(tuán)聯(lián)合開(kāi)發(fā)的新型AI模型壓縮技術(shù),全稱"三值專家混合模型"。它主要解決大模型內(nèi)存消耗過(guò)大的問(wèn)題,能讓原本需要幾十GB內(nèi)存的AI模型壓縮到幾GB就能運(yùn)行,讓普通電腦和手機(jī)也能使用強(qiáng)大的AI功能。
Q2:MoTE會(huì)不會(huì)影響AI模型的性能? A:不會(huì),反而在某些情況下性能更好。研究顯示,當(dāng)模型達(dá)到1.5B參數(shù)以上時(shí),MoTE的表現(xiàn)甚至超過(guò)傳統(tǒng)方法。在3B參數(shù)規(guī)模下,MoTE在數(shù)學(xué)推理等任務(wù)上比傳統(tǒng)方法高出3-4%的準(zhǔn)確率,同時(shí)內(nèi)存消耗卻減少了60%以上。
Q3:普通用戶什么時(shí)候能用上MoTE技術(shù)? A:MoTE目前還在研究階段,但技術(shù)已經(jīng)相當(dāng)成熟。考慮到美團(tuán)的參與,預(yù)計(jì)這項(xiàng)技術(shù)會(huì)首先在美團(tuán)的相關(guān)產(chǎn)品中應(yīng)用,然后逐步推廣到其他AI應(yīng)用中。未來(lái)1-2年內(nèi),我們很可能會(huì)在手機(jī)App或其他智能設(shè)備中看到基于這項(xiàng)技術(shù)的AI功能。
好文章,需要你的鼓勵(lì)
新加坡國(guó)立大學(xué)研究團(tuán)隊(duì)開(kāi)發(fā)了SPIRAL框架,通過(guò)讓AI與自己對(duì)弈零和游戲來(lái)提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡(jiǎn)單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無(wú)需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開(kāi)發(fā)的GIGA-ToF技術(shù)通過(guò)融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問(wèn)題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺(jué)解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過(guò)對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺(jué)語(yǔ)言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無(wú)法有效利用視覺(jué)信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過(guò)動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語(yǔ)言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。