在大型語言模型(LLM)迅速發(fā)展并在全球范圍內(nèi)部署的今天,一個關(guān)鍵問題卻常被忽視:這些模型在不同語言中的安全性是否一致?布朗大學的鐘正鑫(Zheng-Xin Yong)和Cohere實驗室的Julia Kreutzer等研究者在2025年5月發(fā)表的論文《多語言LLM安全研究的現(xiàn)狀:從測量語言鴻溝到緩解它》中,對這一問題進行了全面調(diào)查。這篇發(fā)表在arXiv(arXiv:2505.24119v1)上的研究通過系統(tǒng)分析近300篇從2020年到2024年發(fā)表的論文,揭示了LLM安全研究中存在的明顯"語言鴻溝"。
想象一下,如果你建造了一座橋梁,但只在英語國家測試了它的安全性,然后就將它部署到全世界各種不同地形的國家——這聽起來不太合理,對吧?但這正是當前LLM安全研究面臨的現(xiàn)狀。研究團隊發(fā)現(xiàn),即使是像中文這樣的高資源語言,其相關(guān)安全研究的數(shù)量也只有英語研究的十分之一。這種不平衡隨著時間推移反而在加劇,從2020年5篇的差距擴大到2024年83篇的差距。
為什么這很重要?因為語言不僅僅是詞匯和語法的不同,還蘊含著豐富的文化內(nèi)涵、隱喻表達、禁忌話題和社會規(guī)范。在一種文化背景下無害的內(nèi)容,在另一種文化中可能極具冒犯性。例如,在東南亞,"香蕉"一詞(意為"外黃內(nèi)白")被用來貶低那些被認為放棄了文化認同并接受西方文化價值觀的亞裔。而在中文中,"屌"字直譯為"陰莖",既可用作冒犯性的臟話,也可用作贊美他人才能的非冒犯性表達。
這項研究不僅揭示了語言多樣性的缺失,還發(fā)現(xiàn)非英語語言通常只是作為多語言評估的一部分被研究,而非針對其獨特文化背景進行深入專門分析。更令人擔憂的是,許多商業(yè)LLM在非英語提示下展現(xiàn)出明顯較弱的安全表現(xiàn),產(chǎn)生了在英語環(huán)境中會被過濾的有害內(nèi)容。研究者們提出了三個具體方向來推進多語言安全研究:開發(fā)文化敏感的評估基準、創(chuàng)建多樣化的多語言安全訓練數(shù)據(jù),以及深入理解跨語言安全泛化的挑戰(zhàn)。
讓我們深入了解這項研究的發(fā)現(xiàn)及其對構(gòu)建更安全、更包容的人工智能的啟示。
一、研究方法:剖析安全研究的語言鴻溝
研究團隊采用了一種系統(tǒng)化的方法來評估LLM安全研究中的語言差距。他們選擇專注于ACL(計算語言學協(xié)會)等主要自然語言處理會議和研討會的論文,因為這些場所相比其他機器學習會議如ICLR、NeurIPS和ICML,包含了更多語言多樣性的NLP研究。
研究者使用關(guān)鍵詞匹配方法,通過"safe"和"safety"等關(guān)鍵詞篩選出安全相關(guān)的論文。隨后,他們手動將這些論文分類為七個不同的安全子主題:1)繞過安全機制的攻擊和防御,2)毒性和偏見研究,3)事實性和幻覺問題,4)AI隱私問題,5)政策和治理框架,6)LLM對齊,以及7)與安全無關(guān)的工作(這類被排除在分析之外)。
為了確保分析質(zhì)量,研究團隊還記錄了每篇論文研究的語言,并注明這些語言是否在論文中被明確提及。這些論文被分為三類:僅英語、僅非英語單語言,以及多語言(涵蓋兩種或更多語言)。
想象一下,這個過程就像是在圖書館中整理書籍——研究者們不僅要看書的標題,還要翻閱內(nèi)容,確認每本書討論的是哪些語言,并仔細核對這些語言是否被明確標注在書中。為了確保這個"圖書分類"過程的可靠性,研究團隊進行了多人標注一致性檢驗,結(jié)果顯示他們的分類方法具有很高的一致性(平均0.80至0.96的Cohen's κ或Jaccard相似度)。
在近300篇從2020年到2024年的論文中,研究團隊發(fā)現(xiàn)約28%的論文與LLM安全無關(guān)(即關(guān)鍵詞匹配的假陽性),這些論文在進一步分析前被過濾掉。這就像是在挖掘?qū)毑貢r,需要先去除表層的砂石,才能找到真正有價值的金礦。
二、主要發(fā)現(xiàn):安全研究中的英語中心主義
研究團隊的分析揭示了LLM安全研究中明顯的英語中心主義現(xiàn)象,這種現(xiàn)象不僅存在,而且隨著時間推移正在加劇。
想象一下一個蛋糕店,每天都有各種口味的蛋糕生產(chǎn)出來。但如果我們仔細觀察,會發(fā)現(xiàn)香草口味(代表英語)的蛋糕占據(jù)了絕大多數(shù)的貨架空間,而巧克力口味(代表中文)的蛋糕數(shù)量還不到香草口味的十分之一,其他各種獨特口味的蛋糕(代表其他語言)則只能擠在角落里的一小塊區(qū)域。更令人擔憂的是,隨著時間推移,香草蛋糕與其他口味蛋糕的比例失衡不僅沒有改善,反而在擴大。
具體來看,2020年,英語安全研究比非英語和多語言研究多5篇;到2024年,這一差距擴大到83篇。雖然兩類研究都在增長,但增長不成比例地集中在英語研究上。這就像是蛋糕店不斷擴大,但新增的貨架空間主要用來擺放更多的香草蛋糕,而非增加其他口味的多樣性。
更值得注意的是,非英語語言通常是作為"群體"被研究的。想象一下,在研究不同種類的樹木時,橡樹(代表英語)每一棵都得到單獨、詳細的研究,而其他種類的樹木(代表非英語語言)則被簡單地歸為"非橡樹"組,甚至高大的松樹(代表中文)也很少得到單獨關(guān)注。研究顯示,英語研究的頻率近乎中文(第二常研究語言)的十倍,而中文、阿拉伯語和西班牙語等語言主要出現(xiàn)在多語言研究中,很少有針對這些語言特定安全問題的深入分析。
這種"成群研究"的現(xiàn)象在資源較少的語言中更為明顯。例如,斯瓦希里語和泰盧固語等語言幾乎只出現(xiàn)在大型多語言評估中,而南非語等語言則只在一篇覆蓋約30種語言的論文中出現(xiàn)過。這種包含方式嚴重限制了對語言特定安全問題的分析深度和獲取有意義的見解的可能性。
三、安全子主題的語言分布:鴻溝無處不在
研究團隊進一步分析了不同安全子主題中的語言分布,發(fā)現(xiàn)英語中心主義在所有領(lǐng)域都普遍存在。
想象一座有多個房間的房子,每個房間代表一個安全研究子領(lǐng)域。無論你走進哪個房間,都會發(fā)現(xiàn)英語研究占據(jù)了大部分空間,非英語和多語言研究則擠在角落。特別是在LLM對齊和繞過安全機制攻擊的房間,這種不平衡尤為明顯。
在LLM對齊領(lǐng)域,包括評估和算法改進的工作,英語研究遠遠超過多語言研究。這就像是設(shè)計一個全球通用的安全系統(tǒng),但只在一個國家進行了全面測試。毒性和偏見研究也呈現(xiàn)類似模式,盡管這個領(lǐng)域理應(yīng)特別關(guān)注文化和語言變異的影響。
隱私和政策領(lǐng)域的多語言工作幾乎完全缺失,這表明這些新興安全問題幾乎完全通過英語視角概念化,可能忽視了不同語言環(huán)境中存在的重要文化和法律差異。這就像是制定一部適用于全球的法律,但只考慮了一個國家的法律傳統(tǒng)和文化背景。
研究還發(fā)現(xiàn),單語非英語安全論文在研討會中的比例相對較高(比英語論文高46%),這表明非英語安全研究在進入頂級會議方面可能面臨更高的障礙。研討會如性別偏見自然語言處理研討會(GeBNLP)和對話AI安全研討會(Safety4ConvAI)等成為傳播非英語安全研究的更容易接觸的場所。這種現(xiàn)象表明,除了整體的英語中心主義外,還有其他結(jié)構(gòu)因素可能影響著非英語安全工作的評估和傳播方式。
四、語言記錄實踐:透明度差異明顯
研究團隊還分析了安全研究中的語言記錄實踐,發(fā)現(xiàn)僅英語研究與非英語或多語言研究之間存在顯著差異。
想象你在閱讀食譜書,有些食譜明確列出了所有原料和適用的烹飪方法,而其他食譜則假設(shè)你已經(jīng)知道需要什么原料,因此省略了這些細節(jié)。在LLM安全研究中,英語論文往往就像那些省略關(guān)鍵信息的食譜——約50.6%的英語安全研究沒有明確說明研究的語言(即論文中沒有提到"英語")。相比之下,所有非英語單語和多語言出版物都100%明確記錄了所研究的語言。
這種差異凸顯了研究報告實踐中的系統(tǒng)性偏見,英語為中心的研究往往假設(shè)普遍性,而非英語研究則展現(xiàn)出更高的方法透明度。清晰記錄研究語言至關(guān)重要,因為安全對齊并不一定能跨語言泛化,明確說明所研究語言能讓未來研究者了解安全發(fā)現(xiàn)已被驗證的特定語言環(huán)境。此外,通過明確承認語言限制,研究領(lǐng)域可以更準確地衡量在擴大安全覆蓋范圍方面的進展,從而鼓勵更公平地分配安全研究,以服務(wù)更廣泛的全球人口。
五、多語言安全研究的未來方向
在深入分析當前LLM安全研究中的語言鴻溝后,研究團隊提出了三個具體的未來研究方向,以推進多語言安全研究。
### 多語言模型的安全評估
首先,研究者們指出,傳統(tǒng)評估指標通常關(guān)注語言間的平均表現(xiàn),將最大化均勻加權(quán)平均值的模型視為最佳。然而,這種標準容易受離群值影響,且不適合比較語言和任務(wù)支持不同的模型。
想象你在評估一系列多國料理廚師的表現(xiàn)。如果只看平均分數(shù),一位在法國菜上表現(xiàn)出色但在泰國菜上完全失敗的廚師可能獲得與各種菜系都表現(xiàn)中等的廚師相似的平均分。但顯然,在實際選擇時,你可能更傾向于那位各種菜系都能保持基本水準的廚師,而非在某些菜系上完全不及格的人。
研究團隊建議,除了報告平均安全分數(shù)外,還應(yīng)報告最差情況下的表現(xiàn),以確保模型在所有語言中都滿足基本安全閾值。例如,他們分析了一項評估多種LLM在10種語言中的無害性的研究,發(fā)現(xiàn)雖然Vicuna模型的平均無害性分數(shù)相當高(69.32),但其在孟加拉語中的最低分僅為18.4,遠低于ChatGPT(62.6)和PaLM-2(70.1)的最低分。僅依賴平均指標可能會創(chuàng)造虛假的安全感,導致像Vicuna這樣的模型在它們產(chǎn)生有害內(nèi)容的語言環(huán)境中部署。
此外,研究者們還呼吁在評估中納入更廣泛的語言覆蓋范圍。當前的多語言紅隊測試(尋找模型安全漏洞的過程)主要集中在模型在后預(yù)訓練過程(如指令跟隨和對齊微調(diào))中微調(diào)的語言上??紤]到預(yù)訓練中的語言污染可能促進跨語言遷移,這引發(fā)了對是否應(yīng)該在多語言LLM的安全評估中豁免某些語言的擔憂。
最后,研究者們強調(diào),評估多語言安全需要從根本上轉(zhuǎn)變思路,不能僅僅將評估視為向現(xiàn)有基準添加更多語言,而應(yīng)該納入真實使用者使用的語言模式。例如,代碼切換(在單一話語中在語言間切換的交流模式)和阿拉伯語的拉丁化(Arabizi,使用英文字符書寫阿拉伯語)等現(xiàn)象已被證明能繞過多語言安全防護機制。當前主要在單語環(huán)境中評估語言的安全框架無法捕捉多語言交流的復(fù)雜現(xiàn)實。
### 文化語境化的合成訓練數(shù)據(jù)
收集LLM安全對齊的標記訓練數(shù)據(jù)可能資源密集,許多以英語為中心的研究已轉(zhuǎn)向使用合成數(shù)據(jù)生成。然而,多語言合成安全數(shù)據(jù)的探索相對不足。研究者們提出了兩個基于憲法AI框架的可行未來研究方向。
憲法AI框架是什么?想象一個學生(LLM)先被要求寫一篇文章(生成內(nèi)容),然后老師(人類)給出一系列準則(憲法原則),讓學生根據(jù)這些準則修改原文。通過多輪批評和修改,學生學會了按照準則生成更好的內(nèi)容。這個過程可以創(chuàng)建成對的樣本(原始有害/無害內(nèi)容和修改后的無害/有害內(nèi)容),用于對齊訓練。
第一種方法是直接使用LLM生成多語言安全數(shù)據(jù)。想象你需要教一個全球廚師團隊(LLM)烹飪各國安全食品。你需要與語言學家、文化人類學家和AI研究者合作,創(chuàng)建三個關(guān)鍵組件:反映不同社會價值體系的文化敏感憲法原則、足夠強大能理解這些原則并生成目標語言高質(zhì)量內(nèi)容的多語言LLM,以及涉及母語使用者和文化專家的評估協(xié)議,以驗證憲法原則和生成的合成數(shù)據(jù)。
第二種方法是利用機器翻譯。但研究者們指出,機器翻譯常常無法捕捉或保留文化特定的有害內(nèi)容,可能引入不良社會偏見如性別刻板印象。憲法AI框架的迭代改進過程可以檢測和減輕可能無意中編碼有害內(nèi)容或失去重要文化細微差別的翻譯問題。
### 理解跨語言安全泛化
最后,研究者們強調(diào),理解安全對齊如何跨語言泛化至關(guān)重要,特別是當大多數(shù)現(xiàn)有安全對齊數(shù)據(jù)集中在英語或中文時。
他們提出了兩種研究方向:機制可解釋性和訓練數(shù)據(jù)影響分析。機制可解釋性,即對神經(jīng)網(wǎng)絡(luò)進行逆向工程以精確理解它們?nèi)绾翁幚硇畔ⅲ梢詭椭芯空邆儽碚髂軌騿⒂没蜃柚拱踩珜R知識遷移的機制。這種方法特別有助于解釋為什么去毒化和消除偏見可以有效地跨語言遷移,而拒絕訓練則不行;或者安全對齊在語言適應(yīng)到資源較少的語言后保留到什么程度。
另一種方法是訓練數(shù)據(jù)影響分析,利用影響函數(shù)追蹤特定訓練示例如何因果影響模型在生成過程中的行為。這種技術(shù)為研究兩個關(guān)鍵開放問題提供了有價值的補充:對于跨語言泛化,它可以幫助量化安全相關(guān)示例(尤其是來自高資源語言與低資源語言的示例)如何貢獻于有害或已對齊的輸出;對于語言適應(yīng),影響函數(shù)可以識別持續(xù)預(yù)訓練語料庫中的問題文檔,從而實現(xiàn)更有針對性地策劃更安全的語言特定數(shù)據(jù)。
六、結(jié)論與建議
總結(jié)這項深入研究,我們看到LLM安全研究中存在顯著且不斷擴大的語言鴻溝。就像一座橋梁,如果只在一端進行安全檢查,那么整座橋的安全性就無法得到保證。同樣,如果我們只關(guān)注英語環(huán)境下的AI安全,那么全球部署的AI系統(tǒng)將在非英語語言環(huán)境中面臨未知的安全風險。
研究團隊為推動多語言安全研究提出了幾點重要建議:
首先,他們建議將語言覆蓋報告整合到ACL會議投稿中。OpenReview投稿已經(jīng)包含作者可以指明所研究語言的元數(shù)據(jù)字段,但這些信息目前是私密的。公開這些元數(shù)據(jù)將允許更透明地跟蹤語言表示,并支持未來對多語言研究的元分析,特別是在LLM安全背景下。
其次,解決語言和主題表示中更深層次的結(jié)構(gòu)不平衡需要長期努力。研究者們認為,會議和研討會組織者可以提供激勵結(jié)構(gòu)來解決這種系統(tǒng)性不平衡,例如專門針對多語言安全子主題的特殊會議主題軌道和/或創(chuàng)建關(guān)于多語言安全基準的共享研討會任務(wù)。這些舉措可以有意義地擴大英語以外研究的范圍和可見度,幫助社區(qū)更好地服務(wù)多樣化的用戶群體。
最后,研究者們提出了三個具體的研究方向,包括改進多語言模型的安全評估方法、開發(fā)文化語境化的合成訓練數(shù)據(jù),以及深入理解跨語言安全泛化的機制。這些方向為構(gòu)建更安全、更包容的全球AI系統(tǒng)提供了路徑。
這項研究提醒我們,隨著AI技術(shù)繼續(xù)改變世界,確保它們在所有語言和文化背景中都安全運行變得越來越重要。語言多樣性不應(yīng)該成為安全的盲點,而應(yīng)該是AI安全研究的核心考慮因素。只有這樣,我們才能構(gòu)建真正為全球多樣化人口服務(wù)的AI系統(tǒng)。
對于有興趣深入了解這項研究的讀者,可以通過arXiv:2505.24119v1訪問完整論文。
好文章,需要你的鼓勵
新加坡國立大學研究團隊開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實驗顯示,僅訓練AI玩簡單撲克游戲就能讓其數(shù)學推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學題目作為訓練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學解題中,為AI訓練提供了新思路。
同濟大學團隊開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學習和數(shù)學優(yōu)化方法,在合成數(shù)據(jù)集上實現(xiàn)37.9%的精度提升,并在真實設(shè)備上展現(xiàn)出色泛化能力,為機器人、AR和自動駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學研究團隊通過對比實驗發(fā)現(xiàn),經(jīng)過強化學習訓練的視覺語言模型雖然表現(xiàn)出"頓悟時刻"現(xiàn)象,但這些自我糾錯行為并不能實際提升推理準確率。研究揭示了AI模型存在"生成-驗證差距",即生成答案的能力強于驗證答案質(zhì)量的能力,且模型在自我驗證時無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動態(tài)稀疏性實現(xiàn)大語言模型訓練加速1.6倍,計算成本降低2.2倍。該方法使用SVD稀疏性估計器智能選擇重要計算部分,在保持模型性能的同時顯著提升訓練效率,已在多個任務(wù)上驗證有效性。