av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁 Mutarjim:阿拉伯語-英語雙向翻譯取得重大突破,沙特Misraj團(tuán)隊(duì)用小型語言模型戰(zhàn)勝巨無霸

Mutarjim:阿拉伯語-英語雙向翻譯取得重大突破,沙特Misraj團(tuán)隊(duì)用小型語言模型戰(zhàn)勝巨無霸

2025-05-30 10:06
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-30 10:06 ? 科技行者

在全球化日益深入的今天,高質(zhì)量的機(jī)器翻譯已成為跨文化交流的重要工具。然而,阿拉伯語作為全球使用廣泛的語言之一,在機(jī)器翻譯領(lǐng)域卻一直面臨挑戰(zhàn)。2025年5月,沙特阿拉伯Misraj公司的研究團(tuán)隊(duì)——Khalil Hennara、Muhammad Hreden、Mohamed Motaism Hamed、Zeina Aldallal、Sara Chrouf和Safwan AlModhayan帶來了一項(xiàng)激動(dòng)人心的突破:他們開發(fā)的Mutarjim(阿拉伯語中"翻譯者"的意思)模型,以僅1.5B參數(shù)的小巧身材,在阿拉伯語-英語雙向翻譯方面擊敗了許多體積大20倍的龐然大物,包括商業(yè)巨頭OpenAI的GPT-4o mini。

想象一下,如果將語言模型比作汽車,大多數(shù)研究者都在打造耗油量驚人的大型越野車,而Misraj團(tuán)隊(duì)卻成功造出了一輛小巧精致、油耗極低卻能爬山涉水的多功能車。這項(xiàng)研究發(fā)表在了arXiv預(yù)印本平臺(tái)(arXiv:2505.17894v1),論文題為《Mutarjim: Advancing Bidirectional Arabic-English Translation with a Small Language Model》。

阿拉伯語翻譯為何如此困難?想象你在玩一種拼字游戲,但這種游戲的規(guī)則異常復(fù)雜:字母可以根據(jù)位置變形,單詞可以用多種方式表達(dá)相同意思,而且游戲規(guī)則本身在不同地區(qū)還有細(xì)微變化。這就是阿拉伯語翻譯的挑戰(zhàn)所在。阿拉伯語擁有復(fù)雜的語法和形態(tài)變化,從而導(dǎo)致詞匯、句法和語義在翻譯過程中面臨諸多障礙。

雖然大型語言模型(LLM)如GPT-4在各種自然語言處理任務(wù)上取得了令人印象深刻的進(jìn)展,但它們通常需要龐大的計(jì)算資源,這限制了它們?cè)谫Y源受限環(huán)境中的實(shí)用性。與此同時(shí),現(xiàn)有的阿拉伯語-英語翻譯系統(tǒng)要么能力有限,要么是更大的多語言模型的一部分,這些模型雖然能處理多種語言,但在阿拉伯語特定任務(wù)上表現(xiàn)往往不盡如人意。

Misraj團(tuán)隊(duì)的研究背后有一個(gè)簡單而大膽的想法:是否可以開發(fā)一個(gè)專注于特定任務(wù)的小型語言模型,既能平衡性能與效率,又能有效建模阿拉伯語的語言復(fù)雜性?這個(gè)問題的答案就是Mutarjim,一個(gè)針對(duì)阿拉伯語-英語翻譯優(yōu)化的緊湊型語言模型。

一、Mutarjim:小個(gè)子,大能量

Mutarjim建立在Kuwain-1.5B的基礎(chǔ)上,后者是一個(gè)由同一研究團(tuán)隊(duì)在2025年開發(fā)的雙語阿拉伯語-英語小型語言模型。盡管體積小巧,Mutarjim通過精心設(shè)計(jì)的兩階段訓(xùn)練方法和高質(zhì)量的訓(xùn)練語料庫,在多個(gè)權(quán)威基準(zhǔn)測試中表現(xiàn)出色,甚至超越了參數(shù)量大20倍的模型。

想象一下訓(xùn)練語言模型就像教一個(gè)孩子學(xué)習(xí)兩種語言。首先,你會(huì)讓孩子接觸大量的雙語內(nèi)容,幫助他們建立基本的語言感知(預(yù)訓(xùn)練階段)。然后,你會(huì)通過更有針對(duì)性的練習(xí)來提升他們的翻譯技能(微調(diào)階段)。Mutarjim正是采用了這種兩階段訓(xùn)練方法:首先進(jìn)行翻譯導(dǎo)向的大規(guī)模預(yù)訓(xùn)練,然后使用高質(zhì)量的平行語料庫進(jìn)行有針對(duì)性的微調(diào)。

在預(yù)訓(xùn)練階段,研究團(tuán)隊(duì)引入了兩個(gè)特殊標(biāo)記:<|English|>和<|Arabic|>,用于標(biāo)識(shí)文本的語言。他們將數(shù)據(jù)格式化為英語句子以<|English|>開頭,阿拉伯語句子以<|Arabic|>開頭的形式。所有預(yù)訓(xùn)練數(shù)據(jù)由成對(duì)的阿拉伯語-英語句子構(gòu)成。在訓(xùn)練過程中,模型同時(shí)看到兩個(gè)句子,并被訓(xùn)練預(yù)測整個(gè)輸入的下一個(gè)詞元。為防止單向翻譯偏見,研究人員隨機(jī)選擇每對(duì)句子中的句子順序,這鼓勵(lì)模型發(fā)展穩(wěn)健的雙向翻譯能力。

微調(diào)階段遵循與預(yù)訓(xùn)練相同的格式,但在兩個(gè)句子之間添加了換行符以提高結(jié)構(gòu)清晰度。與預(yù)訓(xùn)練階段不同的是,研究人員對(duì)輸入句子應(yīng)用了因果掩蔽,使模型僅訓(xùn)練從源語言生成目標(biāo)語言,同時(shí)仍使用相同的下一個(gè)詞元預(yù)測目標(biāo)。

這種精心設(shè)計(jì)的訓(xùn)練方法使Mutarjim能夠提供競爭力強(qiáng)的翻譯質(zhì)量和更快的推理時(shí)間。在基準(zhǔn)評(píng)估中,Mutarjim在準(zhǔn)確性和效率方面優(yōu)于擁有超過300億參數(shù)的模型,包括GPT-4o mini等專有系統(tǒng)。

二、Tarjama-25:一個(gè)更公平的比賽場地

要評(píng)估一個(gè)翻譯模型的好壞,我們需要一個(gè)公平的"賽場"。然而,現(xiàn)有的阿拉伯語-英語評(píng)估數(shù)據(jù)集存在一些關(guān)鍵限制:大多數(shù)公開可用的數(shù)據(jù)集都是以英語為中心(即英語是源語言),缺乏真正的雙向內(nèi)容;它們往往包含主要是短句(通常6-30個(gè)詞),這不能充分利用現(xiàn)代語言模型處理更長輸入序列的能力;此外,領(lǐng)域特定覆蓋也有限。

為解決這些問題,研究團(tuán)隊(duì)推出了Tarjama-25,一個(gè)專門為阿拉伯語-英語雙向翻譯設(shè)計(jì)的全面基準(zhǔn)測試。Tarjama這個(gè)詞在阿拉伯語中意為"翻譯",而"25"則暗示這是2025年推出的基準(zhǔn)。

Tarjama-25的開發(fā)經(jīng)過了全面的數(shù)據(jù)收集和驗(yàn)證流程:首先,研究團(tuán)隊(duì)收集了30,000個(gè)來自真實(shí)阿拉伯語和英語來源的句子,每個(gè)句子長度在50到100個(gè)詞之間,確保在科學(xué)、技術(shù)、醫(yī)療、文化和一般興趣主題等廣泛領(lǐng)域的覆蓋。這些句子的一半原本是用阿拉伯語寫的,另一半則是英語原文。

接下來,這30,000個(gè)句子最初使用最先進(jìn)的機(jī)器翻譯系統(tǒng)翻譯,創(chuàng)建平行句子對(duì)。從中,研究人員選擇了5,000對(duì)句子進(jìn)行詳細(xì)的人工修正。專業(yè)翻譯人員審查并糾正每個(gè)選定的對(duì),確保語言準(zhǔn)確性和流暢性。最終選擇保持所有領(lǐng)域的平衡分布。

此外,領(lǐng)域?qū)<疫€進(jìn)行了額外的審查,以驗(yàn)證各自領(lǐng)域內(nèi)翻譯的準(zhǔn)確性和上下文相關(guān)性。這一仔細(xì)的多階段過程確保了高質(zhì)量、人工驗(yàn)證的翻譯,具有平衡的源語言分布和豐富的領(lǐng)域多樣性,使Tarjama-25成為阿拉伯語-英語雙向翻譯評(píng)估的強(qiáng)大和現(xiàn)實(shí)的基準(zhǔn)。

三、實(shí)驗(yàn)與分析:小模型的大表現(xiàn)

為了全面評(píng)估Mutarjim的有效性,研究團(tuán)隊(duì)進(jìn)行了一系列實(shí)驗(yàn),旨在深入了解阿拉伯語-英語翻譯的挑戰(zhàn)和動(dòng)態(tài)。評(píng)估重點(diǎn)關(guān)注三個(gè)核心方面:首先,比較單向和雙向訓(xùn)練設(shè)置,評(píng)估單個(gè)模型在兩個(gè)方向(阿拉伯語到英語和英語到阿拉伯語)上訓(xùn)練是否會(huì)相對(duì)于專用單向模型而降低性能;其次,檢驗(yàn)預(yù)訓(xùn)練階段在提高翻譯質(zhì)量和改善模型跨領(lǐng)域泛化能力方面的貢獻(xiàn);第三,分析微調(diào)過程中上下文長度的影響,以了解句子長度如何影響性能,特別是當(dāng)評(píng)估樣本長度與訓(xùn)練中看到的樣本不同時(shí)。

在單向與雙向翻譯性能的比較中,研究團(tuán)隊(duì)對(duì)比了Mutarjim的單向版本(Mutarjim-AR2EN和Mutarjim-EN2AR)與雙向模型Mutarjim-Bi。單向版本各自訓(xùn)練了3個(gè)周期,而雙向版本則在組合數(shù)據(jù)上訓(xùn)練了2個(gè)周期。結(jié)果顯示,盡管接觸了更多樣化的數(shù)據(jù),雙向模型的性能略有下降。單向模型在各自的翻譯方向上始終優(yōu)于雙向模型,例如,Mutarjim-AR2EN在阿拉伯語到英語翻譯方面的COMET評(píng)分比Mutarjim-Bi高出3.16分。

這有點(diǎn)像一個(gè)專攻兩項(xiàng)運(yùn)動(dòng)的運(yùn)動(dòng)員和兩個(gè)各自專攻一項(xiàng)的運(yùn)動(dòng)員之間的比較。雖然多項(xiàng)全能選手更靈活,但專項(xiàng)選手在各自的領(lǐng)域往往表現(xiàn)更出色。最終,模型的選擇取決于應(yīng)用需求:Mutarjim-Bi通過多任務(wù)支持提供更大的效率和靈活性,而單向變體則為特定方向提供更高的翻譯準(zhǔn)確性。考慮到模型的緊湊尺寸(1.5B參數(shù)),不同方法之間的計(jì)算成本差異仍然適中。

對(duì)于預(yù)訓(xùn)練階段的影響分析,研究團(tuán)隊(duì)評(píng)估了預(yù)訓(xùn)練對(duì)翻譯性能的影響,旨在確定針對(duì)翻譯的特定預(yù)訓(xùn)練是否能夠相對(duì)于直接微調(diào)產(chǎn)生有意義的增益。結(jié)果顯示,受益于額外預(yù)訓(xùn)練階段的模型在COMET和chrF++評(píng)分上一致優(yōu)于僅通過微調(diào)訓(xùn)練的對(duì)應(yīng)模型。這種增益在阿拉伯語到英語和英語到阿拉伯語兩個(gè)方向都很明顯,凸顯了這種策略在翻譯任務(wù)中的普遍有效性。

上下文長度效應(yīng)的研究中,研究團(tuán)隊(duì)進(jìn)行了兩個(gè)獨(dú)立的微調(diào)實(shí)驗(yàn)來評(píng)估輸入長度分布對(duì)翻譯性能的影響。在第一個(gè)實(shí)驗(yàn)(e1)中,他們使用包含超過30個(gè)詞的樣本微調(diào)預(yù)訓(xùn)練的Mutarjim模型,旨在提高模型在更長句子上的性能。雖然這提高了長形式內(nèi)容的流暢性,但他們觀察到在較短輸入上性能下降,出現(xiàn)幻覺和不相關(guān)的延續(xù)增加。

為解決這個(gè)問題,他們進(jìn)行了第二個(gè)獨(dú)立的微調(diào)實(shí)驗(yàn)(e2),使用相同的基礎(chǔ)模型,但修改訓(xùn)練集以包含額外15%的短樣本(2到30個(gè)詞)。這個(gè)實(shí)驗(yàn)旨在平衡模型在不同序列長度上的能力。在WMT24++測試集上評(píng)估兩個(gè)版本后,第二個(gè)實(shí)驗(yàn)(e2)在兩個(gè)翻譯方向上都帶來了性能提升,證實(shí)了在訓(xùn)練數(shù)據(jù)中包含較短序列的好處。

這就像教一個(gè)人既能寫簡短的便條又能撰寫長篇文章一樣重要。如果只訓(xùn)練寫長文章,當(dāng)需要寫簡短信息時(shí)可能會(huì)過于冗長;反之亦然。通過平衡兩種類型的訓(xùn)練,模型學(xué)會(huì)了在不同長度的內(nèi)容上表現(xiàn)良好。

四、評(píng)估結(jié)果:與巨人同臺(tái)競技

為了更好地理解Mutarjim的表現(xiàn),研究團(tuán)隊(duì)將其與一系列強(qiáng)大的支持阿拉伯語的解碼器模型進(jìn)行了比較,這些模型因其翻譯能力而廣受認(rèn)可。這些包括通用語言模型如AceGPT-8B、ALLam-7B、C4AI-7B、Cohere-8B、Cohere-32B、Gemma2-27B、Silma-9B和Yehia-7B。此外,他們還包括了專門用于多語言翻譯的模型,如XALMA-13B-Group8、LLaMAX3-8B-Alpaca和GemmaX-9B。為了提供在模型架構(gòu)和規(guī)模方面更接近的基線,他們還評(píng)估了NLLB-3.3B,這是一個(gè)用于低資源翻譯任務(wù)的編碼器-解碼器模型,在阿拉伯語-英語翻譯中被廣泛采用。

評(píng)估在三個(gè)權(quán)威基準(zhǔn)上進(jìn)行:WMT24++、IWSLT2017和團(tuán)隊(duì)新提出的Tarjama-25基準(zhǔn)。在所有基準(zhǔn)測試中,他們使用廣泛采用的指標(biāo)(BLEU、chrF++和COMET)評(píng)估翻譯質(zhì)量,確保全面和公平的評(píng)估。

結(jié)果令人驚訝:盡管是評(píng)估模型中最小的,Mutarjim在Tarjama-25基準(zhǔn)上的阿拉伯語到英語方向上在所有評(píng)估指標(biāo)中均取得了最先進(jìn)的性能,并在英語到阿拉伯語方向上按BLEU分?jǐn)?shù)計(jì)算處于領(lǐng)先地位。它僅以微小差距緊跟體積大得多的GPT-4o-mini模型的COMET和chrF++評(píng)分。這些結(jié)果突顯了Mutarjim盡管體積緊湊,但在翻譯質(zhì)量和效率方面的競爭力。

有趣的是,模型在Tarjama-25上的表現(xiàn)與現(xiàn)有基準(zhǔn)相比有明顯不同。例如,雖然GPT-4o-mini在WMT24++和IWSLT2017上表現(xiàn)出色,但其在Tarjama-25上的相對(duì)表現(xiàn)下降。這突顯了標(biāo)準(zhǔn)基準(zhǔn)如何可能忽視領(lǐng)域特定和雙向翻譯中的挑戰(zhàn)。Tarjama-25有助于揭示這些差距,提供更現(xiàn)實(shí)和嚴(yán)格的真實(shí)世界翻譯能力評(píng)估。

另一個(gè)關(guān)鍵觀察是大多數(shù)模型在阿拉伯語到英語和英語到阿拉伯語翻譯之間存在一致的性能差距,前者通常產(chǎn)生更好的結(jié)果。這一趨勢在圖1中有直觀說明,特別是在chrF++指標(biāo)中,這種差異尤為明顯。多種因素可能導(dǎo)致這種不對(duì)稱,包括阿拉伯語豐富的形態(tài)學(xué)和句法靈活性,允許多種有效翻譯,而當(dāng)前指標(biāo)可能無法識(shí)別。此外,許多模型中以英語為中心的訓(xùn)練數(shù)據(jù)占主導(dǎo)地位可能阻礙了它們生成流暢和準(zhǔn)確的阿拉伯語輸出的能力。

值得注意的是,Mutarjim在兩個(gè)翻譯方向上都表現(xiàn)平衡,研究團(tuán)隊(duì)將這歸因于其以阿拉伯語為中心的訓(xùn)練策略。這表明使用真實(shí)的阿拉伯語源數(shù)據(jù)進(jìn)行訓(xùn)練可以幫助減輕方向偏見并提高整體翻譯保真度。

五、結(jié)論與未來展望

Mutarjim的成功證明了專注于特定任務(wù)的小型語言模型在資源受限環(huán)境中的潛力。通過精心設(shè)計(jì)的訓(xùn)練方法和高質(zhì)量數(shù)據(jù)的選擇,該模型在阿拉伯語-英語翻譯方面實(shí)現(xiàn)了與更大模型競爭的性能,同時(shí)顯著降低了計(jì)算成本和訓(xùn)練要求。

Tarjama-25基準(zhǔn)的引入為未來研究提供了一個(gè)更全面的評(píng)估框架,解決了現(xiàn)有數(shù)據(jù)集在領(lǐng)域窄小、句子長度短和英語源偏見方面的限制。研究團(tuán)隊(duì)已經(jīng)公開發(fā)布了Tarjama-25基準(zhǔn)及其附帶的評(píng)估工具包,以促進(jìn)透明度、可重復(fù)性和阿拉伯語機(jī)器翻譯研究的進(jìn)一步進(jìn)展。

未來的工作將專注于擴(kuò)展模型架構(gòu)和在更大的多語言數(shù)據(jù)集上訓(xùn)練,以支持阿拉伯語與多種語言之間的翻譯,包括法語、土耳其語和日語,創(chuàng)建一個(gè)全面的多語言翻譯系統(tǒng),同時(shí)保持效率。

這項(xiàng)研究不僅推進(jìn)了阿拉伯語-英語機(jī)器翻譯的技術(shù)邊界,也為如何開發(fā)資源效率高的專用語言模型提供了寶貴見解。通過專注于特定任務(wù)和語言對(duì),研究人員能夠?qū)崿F(xiàn)與通用大型模型競爭甚至超越的性能,同時(shí)大大降低計(jì)算需求。這種方法可能為其他語言對(duì)和NLP任務(wù)提供一個(gè)有價(jià)值的模板,特別是在計(jì)算資源有限的情況下。

總的來說,Mutarjim和Tarjama-25的工作代表了機(jī)器翻譯領(lǐng)域的重要進(jìn)步,特別是對(duì)阿拉伯語這樣的語言,它們?cè)谶^去的NLP研究中往往得不到充分的關(guān)注。通過解決這些差距,研究人員為更包容和多樣化的語言技術(shù)生態(tài)系統(tǒng)鋪平了道路。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-