av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見(jiàn)證連接與計(jì)算的「力量」

首頁(yè) 打破大語(yǔ)言模型的"詞匯牢籠":從TokenAdapt到Supertoken,讓AI自由適應(yīng)多語(yǔ)言環(huán)境

打破大語(yǔ)言模型的"詞匯牢籠":從TokenAdapt到Supertoken,讓AI自由適應(yīng)多語(yǔ)言環(huán)境

2025-05-19 14:54
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-19 14:54 ? 科技行者

大型語(yǔ)言模型的迅猛發(fā)展令人嘆為觀止,但它們面臨著一個(gè)鮮為人知的"隱形枷鎖"——詞匯分割系統(tǒng)(也稱(chēng)為分詞器)。這項(xiàng)由Shaurya Sharthak、Vinayak Pahalwan(來(lái)自tinycompany)、Adithya Kamath(Proton郵箱用戶(hù))和Adarsh Shirawalmath(Tensoic公司)組成的研究團(tuán)隊(duì)在2025年5月16日發(fā)表的研究,揭示了如何讓AI模型擺脫這種束縛,實(shí)現(xiàn)語(yǔ)言表達(dá)的真正自由。研究團(tuán)隊(duì)開(kāi)發(fā)的TokenAdapt框架和SuperTokenizer訓(xùn)練代碼已在GitHub上開(kāi)源,任何人都可以通過(guò)Tinycompany-AI/TokenAdapt和Tinycompany-AI/SuperTokenizer獲取。

一、"詞匯牢籠":語(yǔ)言模型的隱形束縛

想象一下,你學(xué)會(huì)了一門(mén)外語(yǔ),但被限制只能使用特定的詞匯表達(dá)所有意思。更糟的是,當(dāng)你遇到不在詞表中的詞時(shí),必須將它們拆分成更小、可能毫無(wú)意義的片段來(lái)表達(dá)。這就是大型語(yǔ)言模型(LLMs)的日常困境。

大語(yǔ)言模型在預(yù)訓(xùn)練階段被"鎖定"在特定的分詞方案中,這種綁定限制了它們處理多語(yǔ)言或?qū)I(yè)領(lǐng)域文本的能力。舉個(gè)例子,當(dāng)處理印地語(yǔ)或編程代碼時(shí),模型常常需要將一個(gè)有意義的單詞或符號(hào)拆分成許多小片段,這就像把"冰淇淋"拆成"冰"、"淇"、"淋"三個(gè)字一樣,不僅效率低下,還可能失去原有含義。

這種分詞局限性帶來(lái)了三個(gè)主要問(wèn)題:

首先,處理效率大幅降低。當(dāng)一個(gè)簡(jiǎn)單的單詞被分割成多個(gè)子詞時(shí),模型需要處理的序列長(zhǎng)度增加,導(dǎo)致計(jì)算成本和推理延遲顯著上升。想象一下,如果你閱讀時(shí)必須一個(gè)字母一個(gè)字母地讀,而不是整詞閱讀,速度會(huì)慢多少!

其次,性能大幅下降。當(dāng)模型無(wú)法將語(yǔ)義單元作為整體處理時(shí),理解能力會(huì)受到影響,尤其是在多語(yǔ)言應(yīng)用或?qū)I(yè)領(lǐng)域中。這就像強(qiáng)迫一個(gè)醫(yī)生用小學(xué)生的詞匯來(lái)解釋復(fù)雜的手術(shù)過(guò)程一樣困難。

第三,適應(yīng)新領(lǐng)域需要巨大的計(jì)算成本。傳統(tǒng)方法通常是擴(kuò)展原始詞表并在相關(guān)數(shù)據(jù)上進(jìn)行大規(guī)模持續(xù)預(yù)訓(xùn)練,這需要海量計(jì)算資源和大型目標(biāo)語(yǔ)言語(yǔ)料庫(kù),對(duì)于資源有限的團(tuán)隊(duì)而言幾乎是天文數(shù)字。

二、從手工修補(bǔ)到智能適配:解鎖語(yǔ)言模型的發(fā)展歷程

傳統(tǒng)上,研究人員嘗試了幾種方法來(lái)解決這個(gè)問(wèn)題,但每種方法都有其局限性,就像給牢籠換了個(gè)樣子,但并未真正打開(kāi)囚門(mén)。

最常見(jiàn)的方法是詞匯擴(kuò)展加持續(xù)預(yù)訓(xùn)練。想象一下,你有一本英語(yǔ)詞典,然后為了適應(yīng)中文,你在詞典后面附加了幾頁(yè)中文詞匯,然后花費(fèi)數(shù)月時(shí)間重新學(xué)習(xí)整本詞典。這種方法雖然有效,特別是對(duì)于低資源語(yǔ)言,但需要大量計(jì)算資源和目標(biāo)語(yǔ)言語(yǔ)料庫(kù),成本極高。而且,僅僅添加新詞匯并不能解決原始分詞器可能對(duì)目標(biāo)數(shù)據(jù)不理想的問(wèn)題。

另一種思路是完全替換分詞器,并采用有效的初始化策略。早期研究表明,只重新訓(xùn)練嵌入層(模型的輸入輸出接口)而保持核心模型凍結(jié)是可行的。近期方法如ReTok通過(guò)簡(jiǎn)單平均構(gòu)成子詞的嵌入來(lái)初始化新詞嵌入;FOCUS利用輔助的fastText嵌入空間計(jì)算新詞與重疊詞之間的相似性;WECHSEL使用靜態(tài)多語(yǔ)言嵌入找到最相近的源子詞;CLP-Transfer則結(jié)合使用來(lái)自較小目標(biāo)語(yǔ)言模型的相似性。

雖然這些方法比隨機(jī)初始化好,加速了適應(yīng)過(guò)程,但它們?nèi)悦媾R局限:簡(jiǎn)單平均可能缺乏語(yǔ)義精確性;依賴(lài)重疊或近鄰可能不適用于詞匯差異巨大的情況;依賴(lài)輔助資源可能引入潛在的對(duì)齊問(wèn)題和額外的計(jì)算成本。關(guān)鍵是,大多數(shù)方法仍需要一個(gè)雖減少但非微不足道的訓(xùn)練階段才能達(dá)到最佳性能。

更高級(jí)的技術(shù)瞄準(zhǔn)真正的零樣本遷移,如使用超網(wǎng)絡(luò)或基于統(tǒng)計(jì)機(jī)器翻譯的對(duì)齊,但這些方法往往引入顯著的前期訓(xùn)練復(fù)雜性或特定的數(shù)據(jù)要求(如平行語(yǔ)料庫(kù))。

三、TokenAdapt:語(yǔ)義嫁接的藝術(shù)

面對(duì)這些挑戰(zhàn),研究團(tuán)隊(duì)提出了TokenAdapt框架,這是一種模型無(wú)關(guān)的分詞器移植方法,適用于常見(jiàn)的Transformer架構(gòu)(處理綁定和非綁定嵌入配置)。想象它像一位語(yǔ)言外科醫(yī)生,能夠在不破壞語(yǔ)言模型"大腦"的情況下,精確替換其"語(yǔ)言接口"。

TokenAdapt的核心是一種用于新引入的唯一詞匯的混合啟發(fā)式初始化策略。這種策略巧妙地結(jié)合了兩種不同的估計(jì)方法:

首先是局部組合估計(jì)(Local Heuristic)。當(dāng)面對(duì)一個(gè)新詞時(shí),TokenAdapt會(huì)使用原始分詞器將其分解成子詞。然后,一個(gè)高質(zhì)量的外部文本嵌入模型會(huì)評(píng)估完整詞字符串與其構(gòu)成子詞字符串之間的語(yǔ)義相似性。這些相似性提供了權(quán)重,用于組合原始子詞的嵌入。子詞相似性按照長(zhǎng)度進(jìn)行加權(quán),因?yàn)榻?jīng)驗(yàn)表明這種方法非常有效。

想象你在學(xué)習(xí)一種新語(yǔ)言,遇到了"冰淇淋"這個(gè)詞。你已經(jīng)知道"冰"、"淇"和"淋"的含義,但需要將它們組合起來(lái)理解整個(gè)詞。TokenAdapt就是通過(guò)智能地評(píng)估每個(gè)部分對(duì)整體含義的貢獻(xiàn),然后按照這種貢獻(xiàn)度加權(quán)組合它們,最終形成對(duì)"冰淇淋"的完整理解。

其次是全局相似性估計(jì)(Global Heuristic)。使用相同的外部嵌入空間和高效的向量搜索,TokenAdapt會(huì)在整個(gè)原始詞匯表中找到與新詞在語(yǔ)義上最相似的鄰居。然后,這些鄰居的原始嵌入按照其相似性分?jǐn)?shù)進(jìn)行加權(quán)。

繼續(xù)我們的例子,假設(shè)你不知道"冰淇淋",但知道"雪糕"、"冰激凌"和"甜點(diǎn)"。TokenAdapt會(huì)找出哪些已知詞與"冰淇淋"最相似,然后基于這些相似詞的理解,推斷出"冰淇淋"可能的含義。

最終分配給新詞的初始化是這些局部和全局估計(jì)的加權(quán)組合。這種方法精心設(shè)計(jì),旨在從一開(kāi)始就準(zhǔn)確地將新詞投射到原始模型的嵌入空間中,從而保留關(guān)鍵的語(yǔ)義關(guān)系。

整個(gè)TokenAdapt工作流程分為三個(gè)階段:1)直接傳輸共享詞嵌入;2)通過(guò)局部+全局嵌入融合合成新詞表示;3)模型集成,包括更新嵌入層和權(quán)重綁定。這個(gè)過(guò)程就像為語(yǔ)言模型進(jìn)行一次精密的"詞匯移植手術(shù)",保留了原有的語(yǔ)言理解能力,同時(shí)授予它理解新語(yǔ)言的能力。

四、Supertoken:打破單詞邊界的革命

除了TokenAdapt框架,研究團(tuán)隊(duì)還探索了一種更具前瞻性的創(chuàng)新:學(xué)習(xí)多詞"超級(jí)詞元"(Supertoken)。這種方法通過(guò)概率性預(yù)分詞策略增強(qiáng)序列壓縮并減少分割,為語(yǔ)言模型提供了一種全新的"視角"。

傳統(tǒng)的分詞器通常將文本分解為子詞單元,受到詞邊界的限制。超級(jí)詞元方法則顛覆了這一傳統(tǒng),允許詞元跨越詞邊界,捕捉常見(jiàn)的詞組和表達(dá),大大提高了表示效率。

想象你在閱讀時(shí)不再逐字閱讀"人工智能正在改變世界",而是一眼就能識(shí)別整個(gè)短語(yǔ)的含義。超級(jí)詞元正是讓語(yǔ)言模型獲得這種能力的技術(shù)。

研究團(tuán)隊(duì)開(kāi)發(fā)的隨機(jī)分塊算法在訓(xùn)練前對(duì)文本進(jìn)行隨機(jī)切分,創(chuàng)建變長(zhǎng)文本塊,鼓勵(lì)BPE(字節(jié)對(duì)編碼)合并主要發(fā)生在這些預(yù)定義塊內(nèi)部。這一過(guò)程促使分詞器學(xué)習(xí)更長(zhǎng)的、語(yǔ)義更豐富的標(biāo)記單位,從而提高壓縮效率。

通過(guò)對(duì)英語(yǔ)、印地語(yǔ)、數(shù)學(xué)公式和編程代碼等多種領(lǐng)域的分析表明,超級(jí)詞元分詞器確實(shí)能夠捕捉到更多的多詞單元,顯著提高壓縮比,減少序列長(zhǎng)度,從而降低計(jì)算成本。

五、實(shí)驗(yàn)結(jié)果:數(shù)據(jù)說(shuō)話(huà)

研究團(tuán)隊(duì)對(duì)TokenAdapt進(jìn)行了全面測(cè)試,主要使用meta-llama/Llama-3.2-3B和Qwen/Qwen2.5-3B作為基礎(chǔ)模型,評(píng)估其適應(yīng)兩種目標(biāo)分詞器的能力:標(biāo)準(zhǔn)的fhai50032/QTK-81K和自定義的超級(jí)詞元分詞器tinycompany/Adi-Bun-128K。

主要性能指標(biāo)是零樣本困惑度(perplexity),這是評(píng)估語(yǔ)言模型在未見(jiàn)過(guò)的文本上表現(xiàn)的關(guān)鍵指標(biāo),類(lèi)似于測(cè)量模型對(duì)新語(yǔ)言的"理解程度"。結(jié)果令人振奮。

在各種實(shí)驗(yàn)場(chǎng)景中,TokenAdapt一致地產(chǎn)生了最低的總體困惑度比率,表明在分詞器替換后保持了原始模型能力的程度明顯高于替代方案。具體來(lái)說(shuō),與ReTok和TransTokenizer基線(xiàn)相比,TokenAdapt混合初始化方法在不同基礎(chǔ)模型和新訓(xùn)練的目標(biāo)分詞器中始終產(chǎn)生更低的困惑度比率。

以L(fǎng)lama-3.2-3B遷移到QTK-81K為例,TokenAdapt的總體困惑度比率為48.2,而ReTok基線(xiàn)為71.1,TransTokenizer基線(xiàn)高達(dá)145.9。這意味著TokenAdapt的性能比ReTok提高了約1.5倍,比TransTokenizer提高了約3倍。

在不同語(yǔ)言和領(lǐng)域的表現(xiàn)上,TokenAdapt也表現(xiàn)出明顯優(yōu)勢(shì)。特別是在處理代碼和英語(yǔ)文本時(shí),TokenAdapt幾乎完美地保留了原始模型的能力,困惑度比率接近1,這相當(dāng)于分詞器替換幾乎沒(méi)有造成任何性能損失。

在與超級(jí)詞元分詞器(Adi-Bun-128K)配對(duì)時(shí),雖然所有方法的困惑度比率都有所提高,但TokenAdapt依然保持領(lǐng)先優(yōu)勢(shì),總體困惑度比率為577.5,明顯低于ReTok的1174.0和TransTokenizer的4173.6。這表明,即使面對(duì)更具挑戰(zhàn)性的分詞器更換任務(wù),TokenAdapt仍能提供更好的適應(yīng)能力。

特別值得一提的是,TokenAdapt的超級(jí)詞元方法在某些實(shí)驗(yàn)條件下展示了顯著的壓縮優(yōu)勢(shì)。例如,在英語(yǔ)語(yǔ)料庫(kù)上,Adi-Bun-128K使用了283,657個(gè)詞元,而DeepSeek-R1和Krutrim-Ins等競(jìng)爭(zhēng)分詞器分別使用了338,873和343,067個(gè)詞元,壓縮效率提高了約17-20%。這種效率提升在實(shí)際應(yīng)用中意味著更快的處理速度和更低的計(jì)算成本。

六、研究啟示與未來(lái)展望

這項(xiàng)研究為解決大型語(yǔ)言模型中的分詞器局限性提供了一個(gè)實(shí)用且計(jì)算效率高的途徑。TokenAdapt框架通過(guò)其創(chuàng)新的混合啟發(fā)式策略,為適應(yīng)新分詞方案的模型開(kāi)辟了一條成本更低的路徑。

研究團(tuán)隊(duì)的混合分詞器移植策略證明了用于初始化唯一詞元嵌入的有效性,顯著優(yōu)于已建立的基線(xiàn)和先進(jìn)方法,在保持模型性能的同時(shí)最小化了重新訓(xùn)練需求。而超級(jí)詞元的初步探索也確認(rèn)了這種方法在提高壓縮效率方面的巨大潛力。

有趣的是,研究過(guò)程中的一個(gè)反直覺(jué)發(fā)現(xiàn)是,在全局啟發(fā)式中應(yīng)用相似性閾值過(guò)濾(例如,過(guò)濾掉相似度低于0.5的鄰居)反而導(dǎo)致模型困惑度增加。這表明嵌入空間中的交互比我們想象的更為復(fù)雜,簡(jiǎn)單的相似性篩選可能無(wú)法捕捉這種復(fù)雜性。

展望未來(lái),這項(xiàng)工作開(kāi)辟了幾個(gè)值得探索的研究方向,包括:探索更具適應(yīng)性的啟發(fā)式權(quán)重分配,調(diào)查替代輔助語(yǔ)義空間的有效性,開(kāi)發(fā)集成策略以共同優(yōu)化超級(jí)詞元和移植,以及深入研究觀察到的閾值現(xiàn)象背后的原理。

通過(guò)提供克服分詞器限制的有效工具,這項(xiàng)研究旨在增強(qiáng)大型語(yǔ)言模型在更廣泛的任務(wù)和資源約束中的多功能性和適用性。這不僅對(duì)學(xué)術(shù)界具有重要意義,對(duì)于希望將強(qiáng)大的語(yǔ)言模型適應(yīng)特定領(lǐng)域、語(yǔ)言或效率要求的實(shí)踐者來(lái)說(shuō),也提供了切實(shí)可行的解決方案。

總的來(lái)說(shuō),TokenAdapt和超級(jí)詞元方法代表了語(yǔ)言模型適應(yīng)性的重要進(jìn)步,為打破"詞匯牢籠",實(shí)現(xiàn)真正的語(yǔ)言自由提供了切實(shí)可行的路徑。它們不僅提高了模型的效率和性能,還降低了適應(yīng)新領(lǐng)域和語(yǔ)言的門(mén)檻,使強(qiáng)大的語(yǔ)言模型能夠惠及更廣泛的應(yīng)用場(chǎng)景和用戶(hù)群體。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-