在全球化日益深入的今天,人們在日常交流中越來越頻繁地混合使用多種語言。比如一個華人可能會說"今天的meeting很重要",或者一個阿拉伯人可能寫道"這個project真的很challenging"。這種在同一句話中切換使用不同語言的現(xiàn)象,語言學家稱之為"代碼轉(zhuǎn)換"。隨著大語言模型越來越多地處理我們的日常文本,它們能否真正理解這種混合語言就變得至關(guān)重要。
來自阿聯(lián)酋穆罕默德·本·扎耶德人工智能大學(MBZUAI)和法國巴黎綜合理工學院的研究團隊,于2025年6月發(fā)表了一項開創(chuàng)性研究,系統(tǒng)性地測試了當前主流大語言模型處理代碼轉(zhuǎn)換文本的真實能力。這項研究由MBZUAI的Amr Mohamed和Guokan Shang領(lǐng)導,聯(lián)合巴黎綜合理工學院的Yang Zhang和Michalis Vazirgiannis共同完成。研究成果發(fā)表在計算語言學領(lǐng)域的頂級會議上,完整論文可通過arXiv:2506.14012v1獲取。
這項研究的獨特之處在于,它不僅考察了大語言模型在混合語言環(huán)境下的表現(xiàn),還深入探討了不同類型的語言混合對模型理解能力的具體影響。研究團隊發(fā)現(xiàn)了一個令人意外的現(xiàn)象:當在英語句子中插入其他語言的詞匯時,模型的理解能力會顯著下降;但當在其他語言的句子中插入英語詞匯時,模型的表現(xiàn)反而可能會提升。這種不對稱現(xiàn)象揭示了當前AI系統(tǒng)在多語言處理方面存在的深層結(jié)構(gòu)性偏見。
一、當AI遇到"混搭語言":問題比想象中更復雜
要理解這項研究的重要性,我們首先需要認識代碼轉(zhuǎn)換這個現(xiàn)象有多普遍。代碼轉(zhuǎn)換并不是簡單的"中英文混雜",而是遵循特定語言學規(guī)律的復雜現(xiàn)象。就像廚師在烹飪時會遵循特定的配菜原則一樣,說話者在混合使用語言時也會無意識地遵循某些語法規(guī)則。
語言學家們早就發(fā)現(xiàn),代碼轉(zhuǎn)換有其內(nèi)在規(guī)律。比如"等價約束理論"告訴我們,語言切換通常發(fā)生在兩種語言的語法結(jié)構(gòu)兼容的位置。這就像兩條不同的鐵軌需要在某個特定點才能平滑連接,不是任何地方都可以隨意切換的。另一個重要理論是"母語框架模型",它認為在混合語言中,總有一種語言充當"主框架",負責提供句子的基本語法結(jié)構(gòu),而另一種語言只是"客串",插入一些詞匯但不破壞整體結(jié)構(gòu)。
然而,盡管我們對代碼轉(zhuǎn)換的語言學原理有了深入了解,但對于大語言模型如何處理這種混合語言,我們的認知還相當有限。現(xiàn)有的評估基準主要關(guān)注表面層次的任務,比如識別哪些詞屬于哪種語言,或者分析句子的情感傾向,卻很少深入考察模型是否真正理解混合語言文本的深層含義。
這就像只測試一個人能否識別菜譜中的中文和英文詞匯,卻不測試他是否真的理解這道菜應該怎么做。研究團隊意識到,我們需要更深入、更全面的評估方法來真正了解大語言模型的混合語言理解能力。
二、巧妙的實驗設計:讓AI"考試"暴露真實水平
為了系統(tǒng)性地測試大語言模型的代碼轉(zhuǎn)換理解能力,研究團隊設計了一套精巧的實驗方案。他們的核心思路是:既然我們有很多成熟的英語理解測試,為什么不把它們"改造"成混合語言版本,然后看看模型的表現(xiàn)會如何變化?
研究團隊選擇了三個具有代表性的測試基準。第一個是Belebele,專門測試閱讀理解能力,就像給學生一篇文章然后問幾個理解性問題。第二個是MMLU,涵蓋了從歷史到科學的57個不同知識領(lǐng)域,就像一個超級全面的知識競賽。第三個是XNLI,測試的是自然語言推理能力,也就是給模型兩個句子,讓它判斷它們之間的邏輯關(guān)系。
接下來的關(guān)鍵問題是:如何創(chuàng)造出高質(zhì)量的混合語言測試文本?研究團隊開發(fā)了兩種不同的方法。
第一種方法他們稱為"名詞替換法",嚴格遵循語言學理論。這種方法就像一個精細的手術(shù),只在語法允許的特定位置進行語言切換。具體來說,他們會找到英語句子中的名詞,然后用其他語言的對應詞匯替換,但要確保這種替換不會破壞句子的整體語法結(jié)構(gòu)。比如將"Hume says that beauty is a quality"改為"Hume says that ?????? is a quality",其中??????是阿拉伯語的"美"。
第二種方法他們稱為"比例替換法",故意不遵循語言學規(guī)律。這種方法就像隨機在句子中灑胡椒粉,大約替換20%的詞匯,不管語法是否合理。這樣做的目的是為了對比:到底是語言學規(guī)律重要,還是混合語言本身就會給模型造成困擾?
在具體的文本生成過程中,研究團隊還比較了兩種不同的技術(shù)路線。一種是基于傳統(tǒng)的詞匯對齊技術(shù),就像使用翻譯詞典來尋找對應詞匯。另一種是完全依靠大語言模型本身,讓Claude這樣的先進模型來完成語言混合任務。經(jīng)過仔細比較,他們發(fā)現(xiàn)后者生成的混合語言文本更加自然流暢,因此在正式實驗中采用了這種方法。
為了確保實驗的公平性和可靠性,研究團隊還讓GPT-4o對生成的文本質(zhì)量進行盲評,確保所有的混合語言文本都達到了相當?shù)馁|(zhì)量標準。
三、令人意外的發(fā)現(xiàn):英語的"特殊地位"暴露無遺
實驗結(jié)果揭示了一個既令人意外又發(fā)人深省的現(xiàn)象。當研究團隊在英語文本中插入阿拉伯語、德語、法語或中文詞匯時,幾乎所有測試的大語言模型都出現(xiàn)了性能下降。這種下降是普遍性的,不管是小型的30億參數(shù)模型還是大型的700億參數(shù)模型,不管是Llama、Qwen還是Mistral系列,都無法幸免。
具體來看,當LLaMA-70B處理英語文本時,它的綜合準確率能達到70%。但一旦在其中混入阿拉伯語或德語詞匯,準確率就下降到66%,相當于下降了4個百分點。對于較小的模型,這種下降更加明顯。比如LLaMA-3B在純英語文本上能達到54%的準確率,但在混合語言條件下降至47%,下降幅度高達7個百分點。
更有趣的是,研究團隊發(fā)現(xiàn),即使嚴格遵循語言學理論的"名詞替換法"和完全隨意的"比例替換法",造成的性能下降程度竟然相當接近。這個發(fā)現(xiàn)打破了一個常見的假設:許多人認為只要遵循語言學規(guī)律,混合語言就不會給模型造成太大困擾。但實驗結(jié)果表明,問題的根源可能更加深層。
然而,當研究團隊反過來實驗——在其他語言的文本中插入英語詞匯時,結(jié)果卻截然不同。這種"反向操作"往往會改善模型的表現(xiàn),特別是對于那些在非英語文本上表現(xiàn)不佳的模型。
以Mistral-7B為例,它在純阿拉伯語文本上的準確率只有35%,但當在阿拉伯語文本中插入一些英語詞匯后,準確率竟然提升到了48%,提升幅度達到13個百分點。類似的現(xiàn)象在中文、法語和德語中也都能觀察到。這種現(xiàn)象就像給一個在黑暗中摸索的人遞上了手電筒,英語詞匯似乎充當了"理解錨點"的作用。
這種不對稱現(xiàn)象清楚地揭示了當前大語言模型的一個根本性偏見:它們對英語的依賴程度遠超我們的想象。這并不奇怪,因為大多數(shù)模型的訓練數(shù)據(jù)中,英語文本占據(jù)了絕對主導地位。但這種偏見的存在意味著,當英語作為"主角"時,任何"外來干擾"都會降低模型的理解能力;而當其他語言作為"主角"時,英語的出現(xiàn)反而起到了"救援"作用。
四、極限測試:多語言混合的復雜挑戰(zhàn)
為了進一步探索大語言模型的極限,研究團隊設計了"極限代碼轉(zhuǎn)換"實驗。如果說前面的實驗是"小試牛刀",那么這個實驗就是"真正的挑戰(zhàn)"。
他們在同一個英語句子中同時混入多種不同的語言。具體設置了三種情況:第一種是混合非拉丁文字的語言組合,包括阿拉伯語和中文;第二種是混合拉丁文字的語言組合,包括法語和德語;第三種是"終極混合",同時包含阿拉伯語、中文、法語和德語四種語言。
這樣的實驗設計就像讓一個人同時處理四種不同口音的英語對話,難度可想而知。實驗結(jié)果顯示,所有模型在這種極限條件下都出現(xiàn)了進一步的性能下降,但下降程度并不像預期的那樣隨著語言數(shù)量的增加而線性增長。
以LLaMA-70B為例,它在純英語MMLU測試中能達到77%的準確率,但在三種極限混合條件下,準確率分別降至72%、70%和70%。令人意外的是,最復雜的四語言混合(第三種情況)并沒有比兩語言混合表現(xiàn)更差。這個發(fā)現(xiàn)提示我們,模型的困擾可能不是來自語言種類的數(shù)量,而是來自語言混合這個行為本身。
另一個有趣的發(fā)現(xiàn)是,不同文字系統(tǒng)(拉丁文字vs非拉丁文字)的混合并沒有顯示出明顯的難度差異。一些模型在處理阿拉伯語-中文組合時表現(xiàn)更好,而另一些模型則在法語-德語組合上表現(xiàn)更佳。這暗示文字系統(tǒng)的差異并不是影響模型理解的決定性因素。
五、深入分析:當英語成為"拯救者"
為了更全面地理解語言混合的影響機制,研究團隊進行了一個特別有意思的"角色反轉(zhuǎn)"實驗。他們讓英語從"主角"變成了"配角",觀察會發(fā)生什么。
在這個實驗中,阿拉伯語、德語、法語或中文成為了句子的主要語言(語言學上稱為"矩陣語言"),而英語詞匯被插入其中作為"嵌入語言"。結(jié)果確實驗證了前面的發(fā)現(xiàn):英語詞匯的加入往往能改善模型的理解能力。
最顯著的例子來自那些在非英語文本上本來就表現(xiàn)不佳的模型。當Mistral-7B處理純中文文本時,準確率只有46%,但加入英語詞匯后能提升到53%,提升了7個百分點。這種現(xiàn)象在所有測試的語言中都能觀察到,只是程度有所不同。
特別值得注意的是,那些在某種語言上已經(jīng)表現(xiàn)很好的模型,加入英語詞匯的提升效果就不那么明顯了。比如ALLaM-7B在阿拉伯語上本來就很強,加入英語詞匯只帶來了微小的提升。這就像一個已經(jīng)很熟悉某個地方的人,即使有了GPS導航也不會有太大幫助,但對于初來乍到的人來說,GPS就是救命稻草。
這種現(xiàn)象的背后機制其實不難理解。由于大語言模型的訓練數(shù)據(jù)中英語占據(jù)絕對優(yōu)勢,模型對英語的內(nèi)部表征要比其他語言豐富和精確得多。當英語詞匯出現(xiàn)在其他語言的文本中時,它們就像"認知錨點",幫助模型更好地理解整個句子的含義。
但這種不平衡也帶來了深層的擔憂。它意味著在多語言交流日益頻繁的今天,AI系統(tǒng)可能會無意中強化英語的主導地位,讓其他語言永遠處于"依附"地位。這不僅是技術(shù)問題,更是關(guān)系到語言公平性和文化多樣性的重要議題。
六、拯救方案:提示詞還是重新訓練?
面對大語言模型在代碼轉(zhuǎn)換理解方面的不足,研究團隊探索了兩種可能的改善策略。第一種是"提示詞引導法",就像給模型一個事前提醒;第二種是"重新訓練法",通過專門的訓練來增強模型的混合語言理解能力。
提示詞引導法的思路很直接:既然模型在處理混合語言時會困惑,那么我們就提前告訴它"接下來你會看到英語和阿拉伯語的混合文本,請仔細理解"。這種方法就像給一個即將參加國際會議的人提前說明"今天會有多種語言的發(fā)言"。
實驗結(jié)果顯示,這種方法的效果因模型而異,呈現(xiàn)出明顯的"冰火兩重天"現(xiàn)象。對于Qwen系列模型,提示詞引導帶來了顯著的改善。Qwen-72B在接受提示后,處理混合語言的準確率甚至超過了純英語基準,這是一個相當了不起的成就。Qwen-7B也有類似的提升,特別是在英語-中文混合文本上,準確率從57%提升到59%。
然而,對于LLaMA系列和Mistral模型,提示詞引導不僅沒有幫助,反而經(jīng)常起到反作用。LLaMA-8B在所有語言組合上的表現(xiàn)都因為提示詞而下降,其中英語-法語組合從52%降到了48%。更戲劇性的是LLaMA-70B,在英語-阿拉伯語和英語-中文組合上分別下降了13和17個百分點,這是相當大幅度的性能倒退。
這種差異化的表現(xiàn)揭示了不同模型架構(gòu)和訓練策略的深層差異。一些模型能夠有效利用外部指導信息,而另一些模型則會被這種額外信息干擾,就像有些學生需要老師的詳細指導,而有些學生更適合獨立思考。
相比之下,重新訓練的方法展現(xiàn)出了更穩(wěn)定和普遍的改善效果。研究團隊選擇了LLaMA-8B作為實驗對象,因為它在提示詞引導方面表現(xiàn)不佳,正好可以驗證重新訓練的效果。
他們使用了來自TED演講的多語言平行語料庫,包含英語、阿拉伯語、中文、法語和德語。訓練數(shù)據(jù)的構(gòu)建過程很巧妙:首先篩選出長度超過70詞的英語句子及其對應翻譯,然后使用前面開發(fā)的方法生成代碼轉(zhuǎn)換版本,最終得到約14600個訓練樣本。
為了防止模型過度擬合特定的指令格式,他們還設計了五種不同的提示模板,比如"將這個英語句子與阿拉伯語進行代碼轉(zhuǎn)換"或"將以下英語文本與中文混合"。這種多樣化的訓練就像讓學生練習不同類型的題目,而不是只會做一種模式的題。
重新訓練的效果是顯著且一致的。原本在代碼轉(zhuǎn)換文本上表現(xiàn)不佳的LLaMA-8B,經(jīng)過專門訓練后在所有語言組合上都取得了改善。最大的提升出現(xiàn)在英語-阿拉伯語組合上,準確率提高了4個百分點。雖然這種改善還沒有完全消除代碼轉(zhuǎn)換帶來的性能下降,但它證明了通過有針對性的訓練,模型的混合語言理解能力是可以改善的。
七、深層反思:AI時代的語言公平問題
這項研究的發(fā)現(xiàn)超越了純粹的技術(shù)層面,觸及了AI時代一個更深層的問題:語言公平性。當我們發(fā)現(xiàn)大語言模型對英語有著如此明顯的偏好時,我們不禁要問:這種偏見會如何影響全球不同語言社區(qū)的人們?
研究結(jié)果清楚地表明,當前的大語言模型存在一種結(jié)構(gòu)性的語言不平等。英語被視為"標準",其他語言的混入被視為"干擾"。這種現(xiàn)象的根源在于訓練數(shù)據(jù)的不平衡,但其影響卻可能是深遠的。
考慮一個現(xiàn)實場景:一個阿拉伯語用戶在與AI助手交流時自然地混入一些英語詞匯,這在很多國際化社區(qū)中是完全正常的交流方式。但根據(jù)這項研究的發(fā)現(xiàn),這種自然的語言使用習慣可能會得到AI系統(tǒng)更好的理解和回應。相反,一個主要使用英語但偶爾混入其他語言詞匯的用戶,可能會發(fā)現(xiàn)AI的理解能力突然下降。
這種不對稱現(xiàn)象可能會在不知不覺中強化某種語言使用模式,鼓勵人們在與AI交互時更多地使用英語,從而進一步鞏固英語的主導地位。這對于語言多樣性和文化保護來說,可能不是一個好消息。
更值得擔憂的是,隨著AI生成的內(nèi)容越來越多地被回收利用作為新模型的訓練數(shù)據(jù),這種偏見可能會形成一個自我強化的循環(huán)。AI系統(tǒng)更傾向于生成符合其訓練偏好的內(nèi)容,而這些內(nèi)容又會被用來訓練下一代AI系統(tǒng),從而使偏見得到進一步加強。
然而,這項研究也為我們指明了改善的方向。重新訓練實驗的成功表明,通過有意識的努力,我們可以提高AI系統(tǒng)對混合語言的理解能力。這需要的不僅是技術(shù)上的改進,更需要整個AI社區(qū)對語言公平性問題的重視。
研究團隊也坦誠地指出了他們工作的局限性。他們主要關(guān)注的是基于名詞替換的代碼轉(zhuǎn)換,這只是真實世界中語言混合現(xiàn)象的一個子集。更復雜的語法層面混合、句子層面切換等現(xiàn)象還需要進一步研究。此外,他們在非語言學驅(qū)動的實驗中使用了固定的20%替換率,而實際的語言混合比例可能變化很大。
八、展望未來:向更公平的多語言AI邁進
這項研究為我們理解和改善大語言模型的多語言能力提供了寶貴的洞察。它不僅揭示了當前AI系統(tǒng)的局限性,也為未來的改進指明了方向。
從技術(shù)角度來看,研究團隊開發(fā)的評估框架和生成方法為后續(xù)研究提供了重要工具。他們的工作表明,創(chuàng)建高質(zhì)量的混合語言評估數(shù)據(jù)集是可行的,而且這種評估對于全面了解模型能力是必要的。未來的研究可以在此基礎(chǔ)上擴展到更多語言對、更復雜的混合模式,以及更多樣化的任務類型。
從實用角度來看,這項研究的發(fā)現(xiàn)對AI應用開發(fā)者有著直接的指導意義。如果你正在開發(fā)面向多語言用戶的AI應用,就需要特別注意代碼轉(zhuǎn)換對模型性能的影響。對于某些關(guān)鍵應用,可能需要考慮專門的混合語言訓練或特殊的處理策略。
研究還展示了兩種改善策略的不同特點。提示詞引導法雖然效果不穩(wěn)定,但實施成本低,可以作為快速測試和改進的方法。重新訓練法效果更穩(wěn)定,但需要更多資源投入,適合對性能要求較高的場景。
更重要的是,這項研究提醒我們,在追求AI技術(shù)進步的同時,不能忽視公平性和包容性問題。語言是文化的載體,也是人類認知的基礎(chǔ)。如果AI系統(tǒng)對某些語言使用模式有偏見,最終受影響的將是使用這些語言的人群。
好消息是,意識到問題的存在就是解決問題的第一步。隨著越來越多研究者關(guān)注多語言AI的公平性問題,我們有理由相信,未來的AI系統(tǒng)會更好地理解和支持人類的多樣化語言使用習慣。畢竟,真正智能的AI應該能夠適應人類的自然交流方式,而不是要求人類去適應機器的局限性。
說到底,這項研究告訴我們的不僅僅是大語言模型的技術(shù)局限,更是關(guān)于如何構(gòu)建更包容、更公平的AI系統(tǒng)的深刻思考。在這個AI技術(shù)快速發(fā)展的時代,這樣的思考尤為珍貴。它提醒我們,技術(shù)進步不應該以犧牲多樣性為代價,而應該成為促進全球文化交流和理解的橋梁。
對于普通用戶來說,了解這些研究發(fā)現(xiàn)有助于我們更好地與AI系統(tǒng)交互,也讓我們對AI的能力和局限有更清醒的認識。同時,作為AI技術(shù)的使用者和受益者,我們也有責任推動更公平、更包容的AI發(fā)展,讓技術(shù)真正服務于人類的多樣化需求。
這項由MBZUAI和巴黎綜合理工學院聯(lián)合開展的研究,為我們理解AI時代的語言挑戰(zhàn)提供了重要窗口。有興趣深入了解技術(shù)細節(jié)的讀者,可以通過arXiv:2506.14012v1訪問完整的研究論文,其中包含了詳細的實驗設計、數(shù)據(jù)分析和技術(shù)實現(xiàn)說明。
Q&A
Q1:什么是代碼轉(zhuǎn)換?為什么它對AI重要? A:代碼轉(zhuǎn)換是指在同一句話中混合使用兩種或多種語言的現(xiàn)象,比如"今天的meeting很重要"。隨著全球化發(fā)展,這種混合語言使用越來越普遍,特別是在社交媒體上。由于大語言模型需要處理這類真實的用戶輸入,它們對代碼轉(zhuǎn)換的理解能力直接影響服務質(zhì)量和用戶體驗。
Q2:為什么AI在處理混合語言時表現(xiàn)不佳? A:主要原因是訓練數(shù)據(jù)的不平衡。大語言模型的訓練數(shù)據(jù)中英語占絕對主導地位,導致模型對英語的內(nèi)部表征更加豐富精確。當英語文本中混入其他語言時,模型會將其視為"干擾",從而影響理解能力。這反映了當前AI系統(tǒng)存在的結(jié)構(gòu)性語言偏見問題。
Q3:有什么方法可以改善AI的混合語言理解能力? A:研究顯示了兩種方法:一是提示詞引導,即事先告訴模型會遇到混合語言,但效果因模型而異;二是專門的混合語言訓練,通過在包含代碼轉(zhuǎn)換文本的數(shù)據(jù)上重新訓練模型。后者效果更穩(wěn)定普遍,但需要更多資源投入。目前看來,有針對性的訓練是更可靠的解決方案。
好文章,需要你的鼓勵
新加坡國立大學研究團隊開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實驗顯示,僅訓練AI玩簡單撲克游戲就能讓其數(shù)學推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學題目作為訓練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學解題中,為AI訓練提供了新思路。
同濟大學團隊開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學習和數(shù)學優(yōu)化方法,在合成數(shù)據(jù)集上實現(xiàn)37.9%的精度提升,并在真實設備上展現(xiàn)出色泛化能力,為機器人、AR和自動駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學研究團隊通過對比實驗發(fā)現(xiàn),經(jīng)過強化學習訓練的視覺語言模型雖然表現(xiàn)出"頓悟時刻"現(xiàn)象,但這些自我糾錯行為并不能實際提升推理準確率。研究揭示了AI模型存在"生成-驗證差距",即生成答案的能力強于驗證答案質(zhì)量的能力,且模型在自我驗證時無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動態(tài)稀疏性實現(xiàn)大語言模型訓練加速1.6倍,計算成本降低2.2倍。該方法使用SVD稀疏性估計器智能選擇重要計算部分,在保持模型性能的同時顯著提升訓練效率,已在多個任務上驗證有效性。