av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁 大語言模型中的分詞限制:一項(xiàng)探究符號(hào)和算術(shù)推理邊界的研究

大語言模型中的分詞限制:一項(xiàng)探究符號(hào)和算術(shù)推理邊界的研究

2025-05-26 08:06
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-26 08:06 ? 科技行者

近日,由不列顛哥倫比亞大學(xué)的張翔和曹俊泰、浙江大學(xué)的魏佳琪、思科公司的徐一偉以及紐約石溪大學(xué)的尤晨宇共同完成的一項(xiàng)前沿研究《Tokenization Constraints in LLMs: A Study of Symbolic and Arithmetic Reasoning Limits》在arXiv預(yù)印本平臺(tái)上發(fā)表。這項(xiàng)研究深入探討了大語言模型(LLMs)中一個(gè)經(jīng)常被忽視但卻至關(guān)重要的基礎(chǔ)組件——分詞系統(tǒng)(tokenization)如何影響模型的符號(hào)和算術(shù)推理能力。

一、分詞:被低估的語言模型第一道處理門檻

想象一下,當(dāng)你學(xué)習(xí)一門新語言時(shí),如果不知道如何正確地將句子分割成有意義的單詞,那么理解整個(gè)句子將變得異常困難。大語言模型面臨的挑戰(zhàn)也是如此。在這項(xiàng)研究中,研究團(tuán)隊(duì)揭示了一個(gè)長期被忽視的事實(shí):語言模型的推理能力不僅受到其架構(gòu)設(shè)計(jì)的限制,還深受其處理信息的第一道門檻——分詞系統(tǒng)的影響。

分詞是什么?簡單來說,分詞就像是語言模型的"閱讀眼鏡"。當(dāng)我們輸入"Strawberry"(草莓)這個(gè)詞時(shí),模型并不是按字母一個(gè)一個(gè)地處理,而是會(huì)將其切分成若干個(gè)"詞元"(token)。比如,它可能會(huì)將其分割為"Straw"和"berry"兩個(gè)部分。這種切分方式對于存儲(chǔ)效率很有幫助,但研究團(tuán)隊(duì)發(fā)現(xiàn),這恰恰是許多模型在進(jìn)行符號(hào)推理和算術(shù)計(jì)算時(shí)表現(xiàn)不佳的關(guān)鍵原因。

想象一下,如果有人要求你數(shù)一數(shù)"Strawberry"中有多少個(gè)字母"r",而給你看的卻是被分割成"Straw"和"berry"的兩塊拼圖,這就會(huì)增加你的計(jì)數(shù)難度,因?yàn)槟阈枰仍谛睦镏匦缕唇舆@個(gè)詞,然后再進(jìn)行計(jì)數(shù)。大語言模型在進(jìn)行類似任務(wù)時(shí)也面臨著相同的挑戰(zhàn)。

二、思維鏈提示:給語言模型裝上"遞歸引擎"

在深入探討分詞問題之前,我們需要理解大語言模型在推理方面的基本局限性。Transformer架構(gòu)(GPT、BERT等模型的基礎(chǔ))本質(zhì)上是一種深度有限的系統(tǒng),就像一個(gè)只能看有限幾步的棋手。這種架構(gòu)無法像人類那樣進(jìn)行遞歸思考,即"我思考,所以我對我的思考再次思考"這樣的能力。

研究人員形象地解釋道,這就像是一個(gè)只能走固定臺(tái)階數(shù)的爬樓機(jī)器人。無論樓梯有多高,它永遠(yuǎn)只能爬固定的幾步,因此無法適應(yīng)不同高度的樓梯。同理,標(biāo)準(zhǔn)的Transformer模型無論輸入多長,都只能進(jìn)行固定次數(shù)的信息處理,這嚴(yán)重限制了其處理需要多步計(jì)算的任務(wù)(如數(shù)數(shù)、加法或模式識(shí)別)的能力。

這時(shí),思維鏈(Chain-of-Thought,CoT)提示技術(shù)的出現(xiàn)提供了一個(gè)解決方案。思維鏈就像是給語言模型提供了一個(gè)"外部記事本",讓它能夠?qū)⒅虚g計(jì)算步驟寫下來,然后在下一步思考中使用這些記錄。通過這種方式,語言模型可以模擬人類的遞歸思考過程,大大增強(qiáng)了其解決復(fù)雜問題的能力。

以計(jì)數(shù)任務(wù)為例:如果讓模型直接回答"abcabcabc中有多少個(gè)a",它很可能失敗。但如果使用思維鏈提示,引導(dǎo)模型一步步思考:"第一個(gè)字符是a,計(jì)數(shù)為1;第二個(gè)字符是b,計(jì)數(shù)仍為1;第三個(gè)字符是c,計(jì)數(shù)仍為1;第四個(gè)字符是a,計(jì)數(shù)增加到2...",這樣模型就能夠正確解答復(fù)雜問題。

三、分詞瓶頸:符號(hào)推理能力的隱形殺手

研究團(tuán)隊(duì)通過深入分析發(fā)現(xiàn),即使使用了思維鏈提示,許多大語言模型在進(jìn)行簡單的算術(shù)和符號(hào)操作時(shí)仍然表現(xiàn)不佳。例如,即使是強(qiáng)大如GPT-4的模型,在計(jì)算一個(gè)單詞中特定字母出現(xiàn)次數(shù)等簡單任務(wù)上也常常失敗。

為什么會(huì)這樣?答案就藏在分詞系統(tǒng)中。研究團(tuán)隊(duì)提出了"詞元感知"(Token Awareness)的概念,用來描述模型對詞元內(nèi)部結(jié)構(gòu)的理解能力。當(dāng)一個(gè)詞被切分為多個(gè)詞元時(shí),模型需要具備強(qiáng)大的詞元感知能力,才能正確理解和處理詞元內(nèi)部的信息。

想象你在解讀一本被隨機(jī)撕碎頁面的書。如果碎片太小或分割不當(dāng),即使你把所有碎片拼在一起,也難以理解原文。同樣,如果分詞系統(tǒng)不當(dāng)?shù)厍蟹治谋?,模型就無法正確識(shí)別和處理符號(hào)單元,從而影響其推理能力。

研究團(tuán)隊(duì)將分詞帶來的信息損失分為兩種類型:

第一種是"信息隱藏":當(dāng)一個(gè)符號(hào)單元(如字母、數(shù)字)被合并到更大的詞元中時(shí),模型難以識(shí)別該單元的特征。比如,當(dāng)"Strawberry"被分割為"Straw"和"berry"時(shí),模型可能無法輕易識(shí)別出"Straw"中包含一個(gè)"r"。

第二種是"表達(dá)能力限制":當(dāng)模型需要通過思維鏈來表達(dá)中間推理步驟時(shí),如果詞元粒度不夠細(xì),模型就無法準(zhǔn)確表達(dá)某些概念。這就像是你想用一門只有100個(gè)單詞的語言來寫詩,表達(dá)能力會(huì)受到嚴(yán)重限制。

四、實(shí)驗(yàn)證明:分詞格式?jīng)Q定推理成敗

為了驗(yàn)證分詞對推理能力的影響,研究團(tuán)隊(duì)設(shè)計(jì)了一系列實(shí)驗(yàn),測試不同分詞格式下模型在計(jì)數(shù)、排序和字符串反轉(zhuǎn)等任務(wù)上的表現(xiàn)。

他們嘗試了四種不同的分詞格式:

第一種是原始BPE(Byte Pair Encoding)分詞,如"abbab",字符緊密相連; 第二種是空格分隔分詞,如"a b b a b",每個(gè)字符之間添加空格; 第三種是逗號(hào)空格分隔分詞,如"a, b, b, a, b",使用逗號(hào)和空格分隔; 第四種是引號(hào)分隔分詞,如"'a', 'b', 'b', 'a', 'b'",每個(gè)字符都用引號(hào)包圍。

實(shí)驗(yàn)結(jié)果令人驚訝:僅僅是改變分詞格式,而不改變?nèi)蝿?wù)本身,模型的性能就能從幾乎完全失敗提升到接近完美。以計(jì)數(shù)任務(wù)為例,在30-40個(gè)字符的長度范圍內(nèi),使用原始BPE分詞時(shí),GPT-4o-mini模型的準(zhǔn)確率僅為2%;而使用引號(hào)分隔分詞時(shí),準(zhǔn)確率飆升至56.1%,提高了驚人的54.1個(gè)百分點(diǎn)!

更令人驚訝的是,在最優(yōu)分詞格式下,較小的模型(如GPT-4o-mini)甚至能夠在結(jié)構(gòu)化推理任務(wù)上超越更大的模型(如OpenAI的o1)。這一發(fā)現(xiàn)徹底顛覆了"更大的模型總是更好"的常規(guī)認(rèn)知。

五、字母頻率與計(jì)數(shù)性能的意外關(guān)聯(lián)

研究團(tuán)隊(duì)還發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:模型對不同字母的計(jì)數(shù)準(zhǔn)確率不同。具體來說,在英語中出現(xiàn)頻率較低的字母(如'b'和'z')的計(jì)數(shù)表現(xiàn)明顯優(yōu)于高頻字母(如'a'和'e')。

為什么會(huì)出現(xiàn)這種現(xiàn)象?研究人員推測,這可能是因?yàn)楦哳l字母在模型訓(xùn)練過程中獲得了更豐富、更復(fù)雜的語義表示,反而使得模型難以將其單純視為計(jì)數(shù)對象。相比之下,低頻字母的表示更為單一,模型能更容易地將其識(shí)別為離散的計(jì)數(shù)單元。

這個(gè)發(fā)現(xiàn)揭示了語言模型在處理符號(hào)時(shí)的一個(gè)重要特性:字符在自然語言中的使用頻率會(huì)影響模型對其作為純符號(hào)處理的能力。這也提示我們,在設(shè)計(jì)需要符號(hào)操作的提示時(shí),使用低頻符號(hào)可能會(huì)獲得更好的性能。

六、解決之道:優(yōu)化分詞策略釋放模型潛能

研究團(tuán)隊(duì)的發(fā)現(xiàn)為提高大語言模型在符號(hào)和算術(shù)推理方面的能力提供了明確的方向。通過優(yōu)化分詞策略,特別是確保符號(hào)單元與詞元邊界對齊,我們可以顯著提升模型的推理性能。

具體來說,當(dāng)我們需要讓語言模型執(zhí)行字符級(jí)別的操作(如計(jì)數(shù)、排序或字符串反轉(zhuǎn))時(shí),最好使用能保持字符原子性的分詞格式,比如用引號(hào)或特殊分隔符將每個(gè)字符隔開。這樣做可以確保模型能清晰地識(shí)別每個(gè)字符,從而提高推理的準(zhǔn)確性。

研究還表明,思維鏈提示技術(shù)與優(yōu)化分詞策略相結(jié)合,能產(chǎn)生"1+1>2"的效果。思維鏈為模型提供了遞歸推理的能力,而優(yōu)化的分詞策略則確保模型能精確識(shí)別和處理符號(hào)單元,兩者結(jié)合可以顯著釋放模型的推理潛能。

七、研究啟示:理解和突破語言模型的限制

這項(xiàng)研究的意義遠(yuǎn)不止于提高特定任務(wù)的性能。它深刻揭示了語言模型推理能力的本質(zhì)和限制,提醒我們注意那些看似微不足道但實(shí)際影響重大的基礎(chǔ)組件。

首先,它強(qiáng)調(diào)了語言模型的推理能力不僅受制于其架構(gòu)設(shè)計(jì)(如層數(shù)和參數(shù)規(guī)模),還深受其對輸入信息的初始處理方式影響。這就像是兩個(gè)智商相當(dāng)?shù)娜?,一個(gè)戴著清晰的眼鏡,一個(gè)戴著模糊的眼鏡,即使他們的思考能力相同,獲取信息的質(zhì)量差異也會(huì)導(dǎo)致最終判斷的巨大差異。

其次,這項(xiàng)研究提醒我們,在測評語言模型的能力時(shí),要考慮到輸入格式對性能的影響。一個(gè)在特定輸入格式下表現(xiàn)優(yōu)異的模型,在其他格式下可能表現(xiàn)平平。這啟示我們在設(shè)計(jì)提示和評估模型時(shí),應(yīng)考慮分詞等底層因素的影響。

最后,這項(xiàng)研究為未來語言模型的改進(jìn)指明了方向。除了增加模型規(guī)模和訓(xùn)練數(shù)據(jù)量外,優(yōu)化分詞系統(tǒng)和提示格式可能是提升模型能力的更高效途徑。未來的語言模型可能會(huì)采用更靈活的分詞策略,或者在訓(xùn)練過程中專門優(yōu)化對符號(hào)和算術(shù)操作的處理能力。

八、結(jié)論:重視基礎(chǔ),優(yōu)化交互

歸根結(jié)底,這項(xiàng)研究告訴我們一個(gè)簡單而深刻的道理:即使是最先進(jìn)的人工智能系統(tǒng),其能力也受制于其感知和處理信息的基礎(chǔ)機(jī)制。就像一個(gè)天才如果戴著模糊的眼鏡閱讀,也會(huì)受到限制一樣,大語言模型的推理能力同樣受制于其分詞系統(tǒng)的質(zhì)量。

對于開發(fā)者和研究人員來說,這項(xiàng)研究提供了一個(gè)實(shí)用的指導(dǎo):在設(shè)計(jì)需要精確符號(hào)操作的提示時(shí),考慮使用能保持符號(hào)原子性的分詞格式。對于普通用戶來說,了解這一限制可以幫助我們更好地理解為什么有時(shí)候語言模型會(huì)在看似簡單的任務(wù)上犯錯(cuò),以及如何通過優(yōu)化輸入格式來獲得更好的結(jié)果。

最后值得一提的是,盡管這項(xiàng)研究主要關(guān)注符號(hào)和算術(shù)推理,但其發(fā)現(xiàn)可能對更廣泛的語言理解任務(wù)也有啟示。分詞系統(tǒng)作為語言模型處理信息的第一道門檻,其設(shè)計(jì)和優(yōu)化值得我們給予更多關(guān)注。

隨著人工智能研究的深入,我們或許會(huì)看到專門針對不同類型任務(wù)優(yōu)化的分詞系統(tǒng),使語言模型在符號(hào)推理、算術(shù)計(jì)算和語言理解等多個(gè)方面都能發(fā)揮最佳性能。在人工智能的發(fā)展道路上,有時(shí)候真正的突破不在于構(gòu)建更大的系統(tǒng),而在于更好地理解和優(yōu)化現(xiàn)有系統(tǒng)的基礎(chǔ)組件。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-