這項(xiàng)由阿里巴巴Qwen團(tuán)隊(duì)的邱子涵、黃澤宇、鄭博等研究者,聯(lián)合愛(ài)丁堡大學(xué)和斯坦福大學(xué)學(xué)者共同完成的研究,發(fā)表于2025年2月。感興趣的讀者可以通過(guò)論文編號(hào)arXiv:2501.11873v2查閱完整研究。
想象一下,你正在管理一個(gè)頂級(jí)餐廳,廚房里有很多位專業(yè)廚師:有人擅長(zhǎng)做意大利菜,有人精通中式料理,還有人專門(mén)負(fù)責(zé)甜點(diǎn)。理想情況下,當(dāng)客人點(diǎn)意大利面時(shí),你會(huì)讓意大利菜專家來(lái)制作,點(diǎn)宮保雞丁時(shí)就派中式料理高手上陣。這樣不僅效率最高,菜品質(zhì)量也最好。
然而,在人工智能的世界里,一種叫做"專家混合模型"的技術(shù)卻遇到了類似的管理難題。這些AI模型就像擁有多個(gè)專業(yè)廚師的餐廳,每個(gè)"專家"都應(yīng)該專攻不同類型的任務(wù)。但現(xiàn)實(shí)中,這些AI專家卻經(jīng)常出現(xiàn)"大鍋飯"現(xiàn)象——不管什么任務(wù)都平均分配給所有專家,導(dǎo)致專家們沒(méi)能發(fā)揮各自的專長(zhǎng)。
這個(gè)問(wèn)題的根源在于一個(gè)看似微小但影響深遠(yuǎn)的技術(shù)細(xì)節(jié):如何計(jì)算"負(fù)載均衡損失"。就像餐廳管理者需要確保每個(gè)廚師都有合理的工作量一樣,AI訓(xùn)練過(guò)程中也需要一個(gè)機(jī)制來(lái)平衡各個(gè)專家的工作負(fù)荷。傳統(tǒng)方法在每個(gè)小批次的數(shù)據(jù)中都強(qiáng)制要求完美均衡,這就像要求廚師們?cè)谔幚砻恳蛔揽腿说挠唵螘r(shí)都必須平分工作,即使這一桌客人全都點(diǎn)的是意大利菜。
阿里巴巴的研究團(tuán)隊(duì)發(fā)現(xiàn)了這個(gè)問(wèn)題的核心所在。在大規(guī)模AI模型訓(xùn)練中,每個(gè)小批次通常只包含幾千個(gè)詞匯,往往來(lái)自相同的領(lǐng)域——比如全是代碼或全是數(shù)學(xué)內(nèi)容。按照傳統(tǒng)方法,即使面對(duì)清一色的代碼內(nèi)容,系統(tǒng)仍然會(huì)強(qiáng)制把這些代碼相關(guān)的任務(wù)平均分配給所有專家,包括那些本應(yīng)專攻文學(xué)或數(shù)學(xué)的專家。這種做法嚴(yán)重阻礙了專家的專業(yè)化發(fā)展。
研究團(tuán)隊(duì)提出了一個(gè)看似簡(jiǎn)單卻效果顯著的解決方案:將負(fù)載均衡的計(jì)算范圍從小批次擴(kuò)展到全局批次。繼續(xù)用餐廳比喻,這就像從"每桌客人的訂單都要平分給所有廚師"改為"一整天的所有訂單在廚師間合理分配"。這樣一來(lái),專攻意大利菜的廚師可以專門(mén)處理意大利菜訂單,中餐專家可以集中精力做中式料理,整體效率和質(zhì)量都會(huì)大幅提升。
具體來(lái)說(shuō),傳統(tǒng)方法會(huì)在每個(gè)并行訓(xùn)練組內(nèi)分別計(jì)算專家選擇頻率,然后簡(jiǎn)單平均。這種做法的問(wèn)題是,當(dāng)某個(gè)訓(xùn)練組恰好包含特定領(lǐng)域的數(shù)據(jù)時(shí),系統(tǒng)仍然會(huì)強(qiáng)制要求在這個(gè)組內(nèi)實(shí)現(xiàn)完美平衡。新方法則通過(guò)同步各個(gè)訓(xùn)練組的專家選擇頻率,讓整個(gè)全局批次的數(shù)據(jù)來(lái)指導(dǎo)負(fù)載均衡,從而允許專家在更大的數(shù)據(jù)范圍內(nèi)實(shí)現(xiàn)真正的專業(yè)化。
為了驗(yàn)證這個(gè)想法,研究團(tuán)隊(duì)進(jìn)行了大規(guī)模實(shí)驗(yàn)。他們訓(xùn)練了三個(gè)不同規(guī)模的模型:最小的包含34億個(gè)參數(shù),中等規(guī)模的達(dá)到150億參數(shù),最大的則擁有430億參數(shù)。訓(xùn)練數(shù)據(jù)量也相當(dāng)驚人,最多使用了4000億個(gè)詞匯。這相當(dāng)于閱讀了數(shù)萬(wàn)本書(shū)籍的內(nèi)容。
實(shí)驗(yàn)結(jié)果令人振奮。使用全局批次負(fù)載均衡的模型在各項(xiàng)測(cè)試中都顯示出明顯優(yōu)勢(shì)。在預(yù)訓(xùn)練困惑度測(cè)試中,新方法比傳統(tǒng)方法降低了約0.1分,在下游任務(wù)測(cè)試中平均提升了2分。更重要的是,研究團(tuán)隊(duì)通過(guò)可視化分析發(fā)現(xiàn),使用新方法訓(xùn)練的模型確實(shí)實(shí)現(xiàn)了專家專業(yè)化:處理代碼的專家主要負(fù)責(zé)代碼相關(guān)任務(wù),處理數(shù)學(xué)的專家集中精力解決數(shù)學(xué)問(wèn)題,文學(xué)專家則專攻文本理解。
這種專業(yè)化程度的提升不僅體現(xiàn)在數(shù)字上,更體現(xiàn)在實(shí)際應(yīng)用中。研究團(tuán)隊(duì)發(fā)現(xiàn),在不同領(lǐng)域的測(cè)試數(shù)據(jù)上,專業(yè)化程度高的模型表現(xiàn)出更強(qiáng)的針對(duì)性。比如在處理中文文學(xué)內(nèi)容時(shí),那些在中文文學(xué)數(shù)據(jù)上專業(yè)化的專家會(huì)被更頻繁地激活,而它們給出的綜合評(píng)分也更高,說(shuō)明這些專家確實(shí)掌握了更深層的領(lǐng)域知識(shí)。
技術(shù)實(shí)現(xiàn)上,這個(gè)解決方案相當(dāng)優(yōu)雅。研究團(tuán)隊(duì)只需要在訓(xùn)練過(guò)程中增加一個(gè)同步步驟,讓各個(gè)并行訓(xùn)練組分享彼此的專家選擇頻率信息。由于這個(gè)頻率信息只是一個(gè)專家數(shù)量維度的向量(通常只有幾十到幾百個(gè)數(shù)字),通信開(kāi)銷非常小。在合理的配置下,這種方法只會(huì)增加不到3%的訓(xùn)練時(shí)間,卻能帶來(lái)顯著的性能提升。
對(duì)于計(jì)算資源有限的情況,研究團(tuán)隊(duì)還開(kāi)發(fā)了一個(gè)緩沖機(jī)制。當(dāng)訓(xùn)練節(jié)點(diǎn)數(shù)量不足以達(dá)到理想的全局批次大小時(shí),系統(tǒng)會(huì)使用一個(gè)緩沖區(qū)來(lái)存儲(chǔ)多個(gè)梯度累積步驟中的專家選擇信息,從而近似實(shí)現(xiàn)全局批次的效果。這個(gè)設(shè)計(jì)確保了方法的實(shí)用性,讓更多研究團(tuán)隊(duì)能夠受益于這一技術(shù)改進(jìn)。
為了深入理解改進(jìn)的原因,研究團(tuán)隊(duì)還進(jìn)行了一系列細(xì)致的分析實(shí)驗(yàn)。他們發(fā)現(xiàn),改進(jìn)的關(guān)鍵不在于使用了更多的數(shù)據(jù)點(diǎn)來(lái)計(jì)算統(tǒng)計(jì)信息,而在于使用了更多樣化的數(shù)據(jù)分布。為了驗(yàn)證這一點(diǎn),他們?cè)O(shè)計(jì)了一個(gè)"洗牌"實(shí)驗(yàn):從全局批次中隨機(jī)選擇與小批次相同數(shù)量的數(shù)據(jù)點(diǎn)來(lái)計(jì)算負(fù)載均衡,結(jié)果顯示這種"洗牌"方法的效果與真正的全局批次方法相當(dāng),都顯著優(yōu)于傳統(tǒng)的小批次方法。
這個(gè)發(fā)現(xiàn)揭示了問(wèn)題的本質(zhì):傳統(tǒng)方法的問(wèn)題不是數(shù)據(jù)量不夠,而是數(shù)據(jù)過(guò)于單一。當(dāng)負(fù)載均衡只考慮小批次內(nèi)的數(shù)據(jù)時(shí),由于這些數(shù)據(jù)通常來(lái)自相同領(lǐng)域,系統(tǒng)無(wú)法獲得足夠的多樣性來(lái)指導(dǎo)專家分工。而全局批次方法能夠整合來(lái)自不同領(lǐng)域的數(shù)據(jù),為專家專業(yè)化提供了必要的指導(dǎo)信息。
研究團(tuán)隊(duì)還仔細(xì)分析了不同平衡批次大小對(duì)模型性能的影響。他們發(fā)現(xiàn),隨著平衡批次大小的增加,模型性能持續(xù)改善,直到達(dá)到某個(gè)臨界點(diǎn)后改善速度才放緩。這個(gè)發(fā)現(xiàn)為實(shí)際應(yīng)用提供了重要指導(dǎo):在資源允許的情況下,應(yīng)該盡可能使用更大的平衡批次大小。
有趣的是,研究團(tuán)隊(duì)還測(cè)試了在訓(xùn)練過(guò)程中改變平衡策略的效果。他們發(fā)現(xiàn),從小批次平衡切換到全局批次平衡相對(duì)容易,模型很快就能適應(yīng)新的約束條件并獲得性能提升。但反向切換則會(huì)導(dǎo)致性能下降,這說(shuō)明一旦專家實(shí)現(xiàn)了專業(yè)化,強(qiáng)制它們回到"大鍋飯"模式會(huì)損害模型能力。
這個(gè)現(xiàn)象也解釋了為什么在訓(xùn)練早期就采用正確的負(fù)載均衡策略如此重要。研究表明,專家的專業(yè)化傾向在訓(xùn)練早期就會(huì)形成并逐漸固化。如果一開(kāi)始就使用了錯(cuò)誤的策略,后期再改正雖然有幫助,但效果會(huì)大打折扣。
為了解決全局批次平衡可能帶來(lái)的計(jì)算不均衡問(wèn)題,研究團(tuán)隊(duì)提出了一個(gè)折中方案:在全局批次平衡的基礎(chǔ)上,添加少量的小批次平衡約束。實(shí)驗(yàn)顯示,這種混合策略能夠在維持大部分性能提升的同時(shí),減少因?qū)<邑?fù)載不均衡而導(dǎo)致的計(jì)算延遲。
這項(xiàng)研究的意義遠(yuǎn)不止于技術(shù)改進(jìn)本身。它揭示了一個(gè)重要原則:在設(shè)計(jì)AI系統(tǒng)時(shí),看似微小的技術(shù)決策可能產(chǎn)生深遠(yuǎn)影響。負(fù)載均衡損失的計(jì)算方式這樣一個(gè)細(xì)節(jié),竟然能夠決定整個(gè)專家混合模型是否能夠?qū)崿F(xiàn)真正的專業(yè)化。
研究結(jié)果也為AI模型的可解釋性研究提供了新的視角。通過(guò)分析不同專家在不同領(lǐng)域數(shù)據(jù)上的激活模式,研究人員可以更好地理解模型的內(nèi)部工作機(jī)制。這種可解釋性不僅有助于模型調(diào)試和優(yōu)化,也為構(gòu)建更加可信的AI系統(tǒng)奠定了基礎(chǔ)。
從實(shí)際應(yīng)用角度來(lái)看,這項(xiàng)改進(jìn)對(duì)于大規(guī)模AI模型的訓(xùn)練具有重要意義。隨著模型規(guī)模的不斷擴(kuò)大,如何高效利用每個(gè)專家的計(jì)算能力變得越來(lái)越重要。傳統(tǒng)方法造成的專家能力浪費(fèi)在大規(guī)模模型中會(huì)被放大,而新方法能夠顯著提升資源利用效率。
這項(xiàng)工作也開(kāi)啟了專家混合模型研究的新方向。如果簡(jiǎn)單的負(fù)載均衡策略調(diào)整就能帶來(lái)如此顯著的改進(jìn),那么在專家路由、專家架構(gòu)設(shè)計(jì)、訓(xùn)練策略等方面可能還有更多優(yōu)化空間等待發(fā)掘。
研究團(tuán)隊(duì)在論文中坦誠(chéng)地指出了這項(xiàng)工作的局限性。當(dāng)前的研究主要集中在語(yǔ)言模型的預(yù)訓(xùn)練階段,在微調(diào)階段、視覺(jué)任務(wù)或多模態(tài)任務(wù)中的效果還需要進(jìn)一步驗(yàn)證。此外,對(duì)專業(yè)化程度的評(píng)估主要基于專家選擇頻率分析,更嚴(yán)格的驗(yàn)證方法仍有待開(kāi)發(fā)。
盡管如此,這項(xiàng)研究為專家混合模型的發(fā)展指明了一個(gè)重要方向。它告訴我們,有時(shí)候最有效的改進(jìn)不是增加更多的參數(shù)或更復(fù)雜的架構(gòu),而是重新審視和優(yōu)化現(xiàn)有方法中被忽視的細(xì)節(jié)。在AI技術(shù)快速發(fā)展的今天,這種回歸基礎(chǔ)、精益求精的研究態(tài)度值得更多關(guān)注。
說(shuō)到底,這項(xiàng)研究解決的核心問(wèn)題其實(shí)很簡(jiǎn)單:如何讓AI專家真正做到術(shù)業(yè)有專攻。雖然解決方案在技術(shù)層面看起來(lái)復(fù)雜,但其核心理念卻樸實(shí)無(wú)華——給專家們足夠的空間和時(shí)間來(lái)發(fā)展自己的專長(zhǎng),而不是強(qiáng)迫他們?cè)诿總€(gè)小環(huán)節(jié)都保持完全一致。這個(gè)道理不僅適用于AI系統(tǒng),在人類社會(huì)的組織管理中同樣具有啟發(fā)意義。
Q&A
Q1:什么是專家混合模型的負(fù)載均衡損失?
A:負(fù)載均衡損失是確保AI專家們工作量相對(duì)均衡的機(jī)制,就像餐廳管理者要確保每個(gè)廚師都有合理工作量一樣。傳統(tǒng)方法要求每個(gè)小批次數(shù)據(jù)中都完美均衡,新方法則允許在更大范圍內(nèi)實(shí)現(xiàn)均衡,讓專家能夠?qū)I(yè)化。
Q2:阿里巴巴提出的全局批次負(fù)載均衡比傳統(tǒng)方法好在哪里?
A:全局批次方法允許專家在更大數(shù)據(jù)范圍內(nèi)實(shí)現(xiàn)專業(yè)化,而不是在每個(gè)小批次中強(qiáng)制平均分工。這就像讓餐廳廚師在一整天的訂單中合理分工,而不是每桌客人的菜都要平分給所有廚師,從而讓專家真正發(fā)揮專長(zhǎng)。
Q3:這種改進(jìn)方法會(huì)增加多少計(jì)算開(kāi)銷?
A:在合理配置下只增加不到3%的訓(xùn)練時(shí)間。因?yàn)橹恍枰綄<疫x擇頻率這樣的小量信息(通常幾十到幾百個(gè)數(shù)字),通信開(kāi)銷很小,但能帶來(lái)顯著的性能提升和專家專業(yè)化效果。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語(yǔ)言模型的敘事推理能力與音頻生成技術(shù),通過(guò)交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開(kāi)辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過(guò)讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問(wèn)題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語(yǔ)言模型人性化對(duì)話問(wèn)題。該研究創(chuàng)建了包含20萬(wàn)高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過(guò)創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開(kāi)發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過(guò)學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來(lái)了效率和精度的雙重突破。