說到語言,我們通常以為同一種語言就用同一套文字系統(tǒng),但現(xiàn)實往往更加復(fù)雜。在埃及,超過1億人說著埃及阿拉伯語,但他們卻用兩套完全不同的文字系統(tǒng)來寫這種語言——傳統(tǒng)的阿拉伯文字和拉丁字母。就像一個人能同時用漢字和拼音來寫中文一樣,埃及人既會用阿拉伯文字寫"???? ?????",也會用拉丁字母寫"khalik maana",兩種寫法表達(dá)的是同一個意思。
這種雙文字現(xiàn)象給人工智能語言模型帶來了巨大挑戰(zhàn)。目前的AI語言模型就像只會讀漢字不會讀拼音的學(xué)生,無法同時處理這兩套文字系統(tǒng)。來自阿聯(lián)酋穆罕默德·本·扎耶德人工智能大學(xué)(MBZUAI)和法國巴黎理工學(xué)院的研究團(tuán)隊,由商國侃博士領(lǐng)導(dǎo),成功開發(fā)出了世界上第一個能夠同時理解和生成埃及阿拉伯語雙文字系統(tǒng)的AI語言模型——Nile-Chat。這項突破性研究發(fā)表于2025年7月,論文標(biāo)題為"Nile-Chat: Egyptian Language Models for Arabic and Latin Scripts",感興趣的讀者可以通過arXiv:2507.04569v1訪問完整論文。
一、雙文字語言的挑戰(zhàn):就像學(xué)習(xí)兩種"方言"
埃及阿拉伯語的雙文字現(xiàn)象可以這樣理解:假設(shè)你在和朋友聊天時,有時用漢字寫"今天天氣真好",有時用拼音寫"jintian tianqi zhenhao",雖然文字不同,但表達(dá)的完全是同一個意思。埃及人正是如此,他們在社交媒體、論壇和日常交流中頻繁在這兩種文字系統(tǒng)間切換。
這種現(xiàn)象在年輕人中尤為普遍。當(dāng)他們用手機聊天時,經(jīng)常用拉丁字母寫埃及阿拉伯語,這種寫法被稱為"阿拉比茲"(Arabizi)或"弗蘭科-阿拉伯語"(Franco-Arabic)。比如,要表達(dá)"很棒的東西",他們會用阿拉伯文字寫成"???? ?????",或者用拉丁字母寫成"7aga gameda"。注意這里的數(shù)字"7"其實代表一個阿拉伯字母的音,這就像我們用"555"來表示"嗚嗚嗚"一樣。
然而,現(xiàn)有的AI語言模型面對這種雙文字現(xiàn)象就像一個只學(xué)過標(biāo)準(zhǔn)教科書的學(xué)生突然遇到了網(wǎng)絡(luò)用語——完全不知道該如何理解和回應(yīng)。即使是專門為阿拉伯語設(shè)計的AI模型,如ALLaM、Jais等,也只能處理標(biāo)準(zhǔn)阿拉伯文字,對拉丁字母書寫的埃及阿拉伯語束手無策。
二、創(chuàng)新解決方案:專家分工的智能系統(tǒng)
研究團(tuán)隊的解決方案就像組建一個多語言翻譯團(tuán)隊。他們開發(fā)了三種不同規(guī)模的Nile-Chat模型:4B(40億參數(shù))、12B(120億參數(shù))的標(biāo)準(zhǔn)模型,以及一個特殊的3x4B-A6B混合專家模型。這個混合專家模型最為巧妙,它采用了"分支-訓(xùn)練-混合"(Branch-Train-MiX,BTX)策略。
把這個過程想象成培訓(xùn)一個翻譯公司:首先,研究團(tuán)隊分別培訓(xùn)了兩個專門的"翻譯員"——一個專門處理阿拉伯文字的專家,另一個專門處理拉丁字母的專家。然后,他們把這兩個專家和一個基礎(chǔ)模型整合到一起,形成一個能夠智能調(diào)度的系統(tǒng)。當(dāng)系統(tǒng)遇到阿拉伯文字時,就調(diào)用阿拉伯文字專家;遇到拉丁字母時,就調(diào)用拉丁字母專家。這種設(shè)計讓系統(tǒng)能夠在保持高效率的同時,準(zhǔn)確處理兩種不同的文字系統(tǒng)。
為了訓(xùn)練這些模型,研究團(tuán)隊收集了大量的埃及阿拉伯語文本數(shù)據(jù)。他們從各種來源搜集了11.5億個單詞,包括音頻和視頻轉(zhuǎn)錄稿、在線論壇討論、歌詞、維基百科條目等。這些數(shù)據(jù)中大約75%使用阿拉伯文字,25%使用拉丁字母,這個比例反映了現(xiàn)實世界中兩種文字系統(tǒng)的實際使用情況。
三、訓(xùn)練過程:三個階段的精雕細(xì)琢
整個訓(xùn)練過程可以比作教育一個孩子學(xué)習(xí)語言的三個階段。第一階段是"持續(xù)預(yù)訓(xùn)練",就像讓孩子大量閱讀各種書籍來積累詞匯和語感。在這個階段,模型學(xué)習(xí)了大量的埃及阿拉伯語文本,理解了這種語言的基本結(jié)構(gòu)和表達(dá)方式。
第二階段是"指令微調(diào)",就像給孩子提供具體的任務(wù)和練習(xí)。研究團(tuán)隊創(chuàng)建了一個包含185萬個指令的數(shù)據(jù)集,名為"埃及SFT混合數(shù)據(jù)集"。這個數(shù)據(jù)集包含了各種類型的任務(wù),從簡單的問答到復(fù)雜的翻譯和轉(zhuǎn)寫。特別值得一提的是,這個數(shù)據(jù)集不僅包含了埃及阿拉伯語與英語之間的翻譯,還包含了現(xiàn)代標(biāo)準(zhǔn)阿拉伯語的翻譯,以及兩種文字系統(tǒng)之間的相互轉(zhuǎn)換。
第三階段是"對齊調(diào)優(yōu)",就像糾正孩子的不良習(xí)慣。研究團(tuán)隊發(fā)現(xiàn),經(jīng)過前兩個階段訓(xùn)練的模型存在一些問題:過于謹(jǐn)慎(經(jīng)常拒絕回答正當(dāng)問題)、過度的語言切換(在純阿拉伯語問題中混入英語),以及在某些指令任務(wù)中表現(xiàn)不佳。為了解決這些問題,他們使用了直接偏好優(yōu)化(DPO)技術(shù),通過對比好的回答和差的回答來調(diào)整模型的行為。
四、評估體系:全面的能力測試
為了全面評估Nile-Chat的性能,研究團(tuán)隊創(chuàng)建了一套專門的測試基準(zhǔn),就像為學(xué)生設(shè)計一套全面的考試系統(tǒng)。這套測試系統(tǒng)包括八個不同的benchmark,涵蓋了理解和生成兩大類任務(wù)。
在理解任務(wù)方面,他們測試了模型的閱讀理解能力、邏輯推理能力、常識判斷能力等。比如,Egyptian MMLU測試模型在不同學(xué)科領(lǐng)域的知識理解能力,就像一個綜合性的知識競賽。Egyptian HellaSwag測試模型是否能夠從四個選項中選擇最合理的情節(jié)發(fā)展,這就像測試一個人的邏輯推理能力。Egyptian PIQA測試模型對物理常識的理解,比如問"如何安全地清潔鏡子"這類日常生活問題。
在生成任務(wù)方面,他們測試了模型的翻譯能力和轉(zhuǎn)寫能力。翻譯任務(wù)包括埃及阿拉伯語與英語之間的互譯,以及與現(xiàn)代標(biāo)準(zhǔn)阿拉伯語之間的互譯。轉(zhuǎn)寫任務(wù)則測試模型能否準(zhǔn)確地在阿拉伯文字和拉丁字母之間進(jìn)行轉(zhuǎn)換,這就像測試一個人是否能夠準(zhǔn)確地在漢字和拼音之間轉(zhuǎn)換。
五、卓越表現(xiàn):全面超越現(xiàn)有模型
測試結(jié)果顯示,Nile-Chat在各項任務(wù)中都表現(xiàn)出色,就像一個優(yōu)秀的學(xué)生在各科考試中都取得了高分。在阿拉伯文字測試中,Nile-Chat-4B相比同等規(guī)模的其他模型,在Egyptian PIQA上提高了1.2%,在Egyptian AlpacaEval上提高了1.6%。更令人印象深刻的是,在拉丁字母測試中,Nile-Chat-4B的表現(xiàn)遠(yuǎn)超其他模型,在Egyptian HellaSwag上提高了18.38%,在Egyptian PIQA上提高了12.97%。
這些數(shù)字背后的含義是什么?簡單來說,這表明現(xiàn)有的AI語言模型對拉丁字母書寫的阿拉伯語幾乎是"文盲"狀態(tài),而Nile-Chat則像一個真正的雙語專家,能夠流暢地處理兩種文字系統(tǒng)。
Nile-Chat-12B的表現(xiàn)更加出色,在所有阿拉伯文字任務(wù)中都取得了最高分,在某些任務(wù)上相比次優(yōu)模型提高了4.35%?;旌蠈<夷P蚇ile-Chat-3x4B-A6B在處理需要大量生成或拉丁字母處理的任務(wù)時表現(xiàn)尤為突出,在所有翻譯和轉(zhuǎn)寫任務(wù)中都取得了最高分。
六、技術(shù)創(chuàng)新:混合專家架構(gòu)的突破
Nile-Chat最重要的技術(shù)創(chuàng)新在于其混合專家(MoE)架構(gòu)的應(yīng)用。傳統(tǒng)的AI語言模型就像一個萬能工具,試圖用同一套參數(shù)來處理所有任務(wù)。但這種做法往往導(dǎo)致"樣樣通,樣樣松"的問題。Nile-Chat的混合專家架構(gòu)就像一個專業(yè)工具箱,為不同的任務(wù)配備了專門的工具。
具體來說,當(dāng)模型遇到一個句子時,它會智能地判斷每個詞匯應(yīng)該由哪個專家來處理。比如,在處理"?????? ?????, how are you today?"這樣的混合語句時,阿拉伯文字部分會被路由到阿拉伯文字專家,英文部分會被路由到相應(yīng)的專家。這種設(shè)計不僅提高了處理效率,還避免了不同語言和文字系統(tǒng)之間的相互干擾。
這種架構(gòu)的另一個優(yōu)勢是可擴展性。如果將來需要支持其他方言或文字系統(tǒng),可以相對容易地添加新的專家,而不需要重新訓(xùn)練整個模型。這就像在工具箱中添加新工具一樣簡單。
七、數(shù)據(jù)集構(gòu)建:精心設(shè)計的學(xué)習(xí)材料
為了讓Nile-Chat能夠真正理解和生成埃及阿拉伯語,研究團(tuán)隊在數(shù)據(jù)集構(gòu)建上投入了大量精力。他們不僅收集了大量的原始文本,還精心設(shè)計了各種類型的訓(xùn)練任務(wù)。
在預(yù)訓(xùn)練階段,他們收集了8.54萬個音頻和視頻轉(zhuǎn)錄稿,總計8.29億個單詞。這些轉(zhuǎn)錄稿來自真實的埃及阿拉伯語對話,能夠幫助模型學(xué)習(xí)自然的語言模式。此外,他們還收集了來自論壇、歌詞、維基百科等多種來源的文本,確保模型能夠接觸到不同風(fēng)格和領(lǐng)域的語言使用。
在指令微調(diào)階段,他們不僅使用了現(xiàn)有的埃及阿拉伯語指令數(shù)據(jù)集,還將高質(zhì)量的英語指令數(shù)據(jù)集翻譯成埃及阿拉伯語。這個翻譯過程使用了Claude 3.5 Sonnet模型,并經(jīng)過了細(xì)致的后處理和質(zhì)量檢查。他們還特別設(shè)計了翻譯和轉(zhuǎn)寫任務(wù),讓模型能夠在不同語言和文字系統(tǒng)之間進(jìn)行轉(zhuǎn)換。
八、實際應(yīng)用:連接虛擬與現(xiàn)實
Nile-Chat的成功不僅是技術(shù)上的突破,更具有重要的實際應(yīng)用價值。在當(dāng)今的數(shù)字化時代,埃及人在社交媒體、即時通訊、在線購物等各種場景中都需要使用埃及阿拉伯語進(jìn)行交流。一個能夠理解和生成雙文字系統(tǒng)的AI助手,就像一個真正懂得本地文化的朋友,能夠為用戶提供更自然、更貼切的服務(wù)。
比如,在客服場景中,無論用戶用阿拉伯文字還是拉丁字母提問,Nile-Chat都能夠準(zhǔn)確理解并給出合適的回答。在內(nèi)容創(chuàng)作方面,它可以幫助用戶在不同文字系統(tǒng)之間進(jìn)行轉(zhuǎn)換,或者根據(jù)不同的受眾需求生成相應(yīng)的內(nèi)容。在教育領(lǐng)域,它可以作為語言學(xué)習(xí)的助手,幫助學(xué)生掌握埃及阿拉伯語的兩種書寫方式。
更重要的是,Nile-Chat的開發(fā)為其他具有類似雙文字現(xiàn)象的語言提供了可借鑒的方案。世界上還有許多語言面臨類似的挑戰(zhàn),比如印地語、塞爾維亞語、哈薩克語等。Nile-Chat的成功表明,通過精心設(shè)計的技術(shù)架構(gòu)和訓(xùn)練策略,AI語言模型能夠有效地處理這些復(fù)雜的語言現(xiàn)象。
九、未來展望:開放共享的研究精神
研究團(tuán)隊展現(xiàn)出了令人敬佩的開放精神,他們將所有的模型、數(shù)據(jù)集和評估代碼都公開發(fā)布,讓全世界的研究者都能夠基于他們的工作進(jìn)行進(jìn)一步的研究和改進(jìn)。這種開放共享的做法就像在科學(xué)研究的路上點亮了一盞明燈,為后續(xù)的研究者提供了寶貴的資源和啟發(fā)。
當(dāng)然,任何研究都不是完美的,Nile-Chat也存在一些局限性。研究團(tuán)隊坦承,模型有時會產(chǎn)生幻覺現(xiàn)象,即生成一些看似合理但實際上不準(zhǔn)確的內(nèi)容。此外,由于訓(xùn)練數(shù)據(jù)中可能存在偏見,模型的公平性和代表性還有待進(jìn)一步改善。另外,由于大量依賴Claude進(jìn)行英語指令的翻譯,模型可能會反映出西方文化價值觀,而不能完全捕捉到埃及阿拉伯語的獨特文化內(nèi)涵。
盡管存在這些挑戰(zhàn),Nile-Chat的成功仍然是AI語言模型發(fā)展史上的重要里程碑。它不僅解決了埃及阿拉伯語雙文字處理的技術(shù)難題,更為廣大使用欠代表語言的人群帶來了希望。在AI技術(shù)日新月異的今天,讓每一種語言、每一種文字系統(tǒng)都能夠得到AI技術(shù)的支持,這不僅是技術(shù)進(jìn)步的體現(xiàn),更是對語言多樣性和文化包容性的最好詮釋。
研究團(tuán)隊的工作提醒我們,AI技術(shù)的發(fā)展不應(yīng)該只關(guān)注主流語言和文字系統(tǒng),而應(yīng)該努力為世界上所有的語言社區(qū)提供平等的技術(shù)支持。正如尼羅河滋養(yǎng)著埃及的土地一樣,Nile-Chat也為埃及阿拉伯語的數(shù)字化未來注入了新的活力。這項研究不僅是技術(shù)上的創(chuàng)新,更是對語言平等和文化包容理念的有力踐行。
Q&A
Q1:什么是雙文字系統(tǒng)?埃及人為什么要用兩種文字寫同一種語言? A:雙文字系統(tǒng)是指同一種語言使用兩套不同的文字系統(tǒng)來書寫。埃及人既用傳統(tǒng)的阿拉伯文字,也用拉丁字母來寫埃及阿拉伯語。這種現(xiàn)象在年輕人中特別常見,他們在社交媒體和日常聊天中經(jīng)常用拉丁字母寫阿拉伯語,因為打字更方便快捷。
Q2:Nile-Chat相比其他AI語言模型有什么特別之處? A:Nile-Chat是世界上第一個能夠同時理解和生成埃及阿拉伯語兩種文字系統(tǒng)的AI模型?,F(xiàn)有的AI模型只能處理標(biāo)準(zhǔn)阿拉伯文字,對拉丁字母書寫的阿拉伯語完全無法理解。Nile-Chat通過混合專家架構(gòu),能夠智能地為不同文字系統(tǒng)分配專門的處理專家。
Q3:普通用戶能否使用Nile-Chat?它的應(yīng)用前景如何? A:研究團(tuán)隊已經(jīng)將Nile-Chat的所有模型和代碼公開發(fā)布,技術(shù)人員可以自由使用和改進(jìn)。對于普通用戶,它可以應(yīng)用于客服、內(nèi)容創(chuàng)作、語言學(xué)習(xí)等多個場景,特別是在需要處理埃及阿拉伯語雙文字輸入的情況下,能夠提供更自然、準(zhǔn)確的AI服務(wù)。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學(xué)習(xí)外觀和運動信息,顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報,準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。