這項由ByteDance公司種子團隊完成的研究于2025年發(fā)表在第42屆國際機器學(xué)習(xí)大會(ICML 2025)上,論文編號為PMLR 267。想要深入了解這項研究的讀者可以通過arXiv:2501.16975v2訪問完整論文。研究團隊由黃洪志領(lǐng)導(dǎo),包括朱德法、吳邦谷、曾雨濤、王婭、閔啟陽、周迅等研究員。
如果說大語言模型是一臺巧奪天工的翻譯機器,那么詞匯表就像是它的字典。過去,人們總是認為字典越厚,機器運算起來越費勁。但ByteDance的研究團隊卻發(fā)現(xiàn)了一個令人意外的規(guī)律:適當?shù)匕炎值渥龅酶瘢瑱C器不僅不會變慢,反而會變得更聰明。
這個發(fā)現(xiàn)顛覆了傳統(tǒng)認知。研究團隊通過大量實驗發(fā)現(xiàn),當他們把大語言模型的輸入詞匯表從10萬個詞條擴展到1280萬個詞條時,模型的性能竟然能媲美參數(shù)量是它兩倍的模型,而且?guī)缀醪辉黾尤魏斡嬎愠杀尽8衿娴氖?,輸入詞匯表的大小與模型性能之間存在著一種對數(shù)線性關(guān)系——詞匯表每擴大4倍,模型的表現(xiàn)就會顯著提升一個臺階。
為了驗證這個發(fā)現(xiàn),研究團隊設(shè)計了一種叫做"過度詞匯化變換器"的新架構(gòu)。這種架構(gòu)最巧妙的地方在于它將輸入和輸出的詞匯表分離開來處理。就像一個聰明的圖書管理員,在讀書時可以參考一個巨大的索引目錄,但在寫總結(jié)時卻用簡潔的語言表達,這樣既提高了理解能力,又保持了表達的效率。
研究團隊首先在一個人工設(shè)計的語法系統(tǒng)上進行了實驗。這個語法系統(tǒng)就像一個嚴格的數(shù)學(xué)游戲,有著明確的規(guī)則和正確答案,這讓研究人員能夠準確地測量模型的表現(xiàn)。他們發(fā)現(xiàn)了一個有趣的現(xiàn)象:大詞匯表對大模型來說是福音,能讓它們學(xué)得更快更好;但對小模型來說卻可能是負擔(dān),會讓它們感到"消化不良"。
這個發(fā)現(xiàn)促使研究團隊進一步探索。他們將輸入和輸出的處理過程分開研究,發(fā)現(xiàn)了兩個不同的規(guī)律。輸入詞匯表的擴大幾乎總是有益的,就像給學(xué)生提供更豐富的參考資料,總能幫助他們更好地理解問題。而輸出詞匯表的擴大則更像是提高考試的難度,對于學(xué)習(xí)能力強的大模型來說是好事,能讓它們學(xué)得更精細;但對于小模型來說可能會增加學(xué)習(xí)負擔(dān)。
基于這些發(fā)現(xiàn),研究團隊提出了兩個核心技術(shù):過度編碼和過度解碼。過度編碼技術(shù)通過使用多層級的n元組詞匯表來擴展輸入處理能力。這就像是給模型配備了一套分辨率不同的鏡頭,既能看清大局,也能觀察細節(jié)。過度解碼技術(shù)則通過預(yù)測多個后續(xù)詞匯來提供更精細的監(jiān)督信號,但只在足夠大的模型上才有顯著效果。
在實際應(yīng)用中,研究團隊面臨了一個技術(shù)挑戰(zhàn):如此龐大的詞匯表會占用大量內(nèi)存,可能讓訓(xùn)練過程變得緩慢。他們巧妙地運用了分布式計算技術(shù),將龐大的詞匯表分散到多個計算節(jié)點上,通過精心設(shè)計的通信策略,將額外的計算開銷控制在5%以內(nèi)。這就像是在多個倉庫之間建立了高效的物流網(wǎng)絡(luò),需要什么詞匯就快速調(diào)取,用完就歸還,避免了資源浪費。
實驗結(jié)果令人印象深刻。在OLMo2系列模型上的測試顯示,使用1280萬詞匯表的400M參數(shù)模型能夠達到10億參數(shù)基準模型的性能水平。在各種下游任務(wù)的評測中,過度編碼技術(shù)在數(shù)學(xué)推理、常識推理、閱讀理解等方面都展現(xiàn)出了顯著的加速效果,有些任務(wù)的學(xué)習(xí)速度提升了3到5倍。
更有趣的是,研究團隊還在混合專家模型(MoE)架構(gòu)上驗證了這一發(fā)現(xiàn)。MoE模型本身就采用了稀疏激活的設(shè)計理念,而過度編碼技術(shù)的核心也是稀疏地訪問龐大的詞匯表,兩者有著天然的契合性。實驗表明,在MoE架構(gòu)上應(yīng)用過度編碼技術(shù)同樣能帶來性能提升,盡管提升幅度相比密集模型有所減少,這可能是因為兩種稀疏技術(shù)之間存在某種重疊效應(yīng)。
研究團隊還探索了將過度編碼與多詞匯預(yù)測技術(shù)相結(jié)合的可能性。多詞匯預(yù)測就像是讓模型同時完成多道題目,雖然計算量會增加,但學(xué)習(xí)效率可能更高。實驗發(fā)現(xiàn),當過度編碼和多詞匯預(yù)測結(jié)合使用時,能夠產(chǎn)生協(xié)同效應(yīng),進一步提升模型性能。
從效率角度來看,過度編碼技術(shù)具有明顯優(yōu)勢。雖然增加了大量的詞匯表參數(shù),但這些參數(shù)的訪問是稀疏的,每次只需要激活其中很小一部分。在推理過程中,額外的計算開銷幾乎可以忽略不計,特別是對于大模型或大批量處理的情況。而且,研究團隊還設(shè)計了將詞匯表參數(shù)轉(zhuǎn)移到CPU內(nèi)存的技術(shù)方案,進一步減少了GPU內(nèi)存壓力。
這項研究的理論價值在于它揭示了大語言模型擴展的一個新維度。傳統(tǒng)的擴展思路主要集中在增加模型參數(shù)或訓(xùn)練數(shù)據(jù),而這項研究證明了詞匯表規(guī)模也是一個值得重視的擴展方向。更重要的是,它為我們理解語言模型的學(xué)習(xí)機制提供了新的視角:模型的輸入表示能力和輸出表達能力可能有著不同的擴展規(guī)律和優(yōu)化策略。
研究團隊通過對數(shù)線性關(guān)系的發(fā)現(xiàn),為未來的模型設(shè)計提供了一個可量化的指導(dǎo)原則。當我們想要提升模型性能時,除了增加參數(shù)和數(shù)據(jù),還可以考慮擴展輸入詞匯表。而這種擴展的成本相對較低,性價比很高。
說到底,這項研究最有價值的地方在于它改變了我們對大語言模型優(yōu)化的思維方式。過去人們總是關(guān)注模型的"大腦"要有多復(fù)雜,現(xiàn)在我們發(fā)現(xiàn)模型的"詞典"同樣重要。就像一個學(xué)者,不僅需要聰明的頭腦,也需要豐富的詞匯儲備。這個發(fā)現(xiàn)可能會影響未來大語言模型的設(shè)計思路,讓研究者們在追求更強性能時有了新的方向。
對于普通用戶來說,這項研究意味著未來的AI系統(tǒng)可能會變得更加智能,同時運行效率不會顯著降低。無論是智能寫作助手、代碼生成工具,還是各種對話系統(tǒng),都可能因為這種技術(shù)而變得更加精準和有用。而對于AI研究領(lǐng)域,這項工作開啟了一個新的研究方向,可能會催生更多關(guān)于詞匯表優(yōu)化的創(chuàng)新技術(shù)。
研究團隊在論文中詳細記錄了實驗過程和技術(shù)實現(xiàn)細節(jié),為其他研究者重現(xiàn)和擴展這項工作提供了完整的參考。他們還進行了大量的消融實驗,系統(tǒng)地分析了不同設(shè)計選擇對最終效果的影響,這些發(fā)現(xiàn)對于實際應(yīng)用具有重要的指導(dǎo)意義。感興趣的讀者可以通過arXiv:2501.16975v2獲取完整的技術(shù)細節(jié)和實驗數(shù)據(jù)。
Q&A
Q1:過度詞匯化變換器是什么技術(shù)?它是如何工作的?
A:過度詞匯化變換器是一種新的大語言模型架構(gòu),核心思想是將輸入和輸出的詞匯表分離處理。輸入端使用超大規(guī)模詞匯表(可達1280萬詞條)來增強理解能力,輸出端保持相對簡潔來控制計算成本。這種設(shè)計讓模型在閱讀理解時能參考更豐富的詞匯信息,但在生成回答時保持高效,就像一個博學(xué)的學(xué)者能理解復(fù)雜概念但用簡潔語言表達。
Q2:為什么擴大詞匯表能提升模型性能而不增加太多計算成本?
A:關(guān)鍵在于詞匯表的訪問是稀疏的。雖然詞匯表很大,但模型在處理每個詞時只需要激活其中很小一部分,就像圖書館雖然藏書百萬,但讀者每次只需要查閱幾本書。研究發(fā)現(xiàn)詞匯表大小與性能呈對數(shù)線性關(guān)系,每擴大4倍詞匯表,性能顯著提升,但額外計算開銷控制在5%以內(nèi)。
Q3:這項技術(shù)對普通用戶使用AI產(chǎn)品有什么實際影響?
A:這項技術(shù)會讓AI系統(tǒng)變得更聰明但運行效率基本不變。比如ChatGPT、文檔寫作助手、代碼生成工具等可能會變得更精準,能更好地理解復(fù)雜問題和細微差別,回答質(zhì)量更高。在數(shù)學(xué)推理、閱讀理解等任務(wù)上,學(xué)習(xí)速度可能提升3-5倍,這意味著AI產(chǎn)品的更新迭代會更快,用戶體驗會持續(xù)改善。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機制和漸進式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學(xué)習(xí)外觀和運動信息,顯著解決了當前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準,通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報,準確性超越傳統(tǒng)方法90%的指標。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。