av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 SweEval:企業(yè)使用中的多語言LLM臟話安全基準(zhǔn)測試研究

SweEval:企業(yè)使用中的多語言LLM臟話安全基準(zhǔn)測試研究

2025-06-01 17:54
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-01 17:54 ? 科技行者

近日,由Oracle AI、印度信息技術(shù)學(xué)院蘭奇分校、TD Securities、哥倫比亞大學(xué)和韓國漢陽大學(xué)組成的國際研究團隊在NAACL 2025會議上發(fā)表了一篇引人注目的研究論文。這篇題為《SweEval: Do LLMs Really Swear? A Safety Benchmark for Testing Limits for Enterprise Use》的論文探討了大型語言模型(LLMs)在企業(yè)應(yīng)用中處理臟話的能力與限制。該研究由Hitesh Laxmichand Patel和Dong-Kyu Chae領(lǐng)導(dǎo),聯(lián)合作者包括Amit Agarwal、Arion Das、Bhargava Kumar、Srikant Panda、Priyaranjan Pattnayak、Taki Hasan Rafi和Tejaswini Kumar。這項研究已在2025年5月22日發(fā)布于arXiv預(yù)印本平臺(arXiv:2505.17332v1),有興趣深入了解的讀者可通過研究團隊發(fā)布的GitHub鏈接獲取完整數(shù)據(jù)集和代碼:https://github.com/amitbcp/multilingual_profanity。

想象一下,你的公司正在考慮使用AI助手來幫助員工起草電子郵件、編寫銷售推介或在日常溝通中使用。作為一個全球企業(yè),你的員工分布在不同國家,說著不同語言,有著不同文化背景。在這種情況下,你會關(guān)心這些AI助手是否能夠妥善處理不同語言中的不當(dāng)用語嗎?它們是否會在被要求使用臟話時乖乖照做,還是會堅持商業(yè)交流中的專業(yè)性?這正是SweEval基準(zhǔn)測試試圖解答的核心問題。

企業(yè)采用大型語言模型的速度正在加快,特別是在關(guān)鍵溝通任務(wù)上。無論是起草正式電子郵件,還是編寫銷售提案,甚至是撰寫非正式的團隊消息,這些AI工具都在全球范圍內(nèi)被廣泛使用。然而,當(dāng)這些模型部署在不同地區(qū)時,它們需要理解多樣化的文化和語言背景,并生成安全、得體的回應(yīng)。對企業(yè)應(yīng)用而言,有效識別和處理不安全或冒犯性語言至關(guān)重要,這關(guān)系到企業(yè)聲譽風(fēng)險、用戶信任和合規(guī)性。

為了解決這一問題,研究團隊開發(fā)了SweEval,這是一個模擬現(xiàn)實世界場景的基準(zhǔn)測試。它包含了不同語調(diào)(積極或消極)和上下文(正式或非正式)的變化。測試中的提示明確指示模型在完成任務(wù)時包含特定的臟話。這一基準(zhǔn)評估了LLM是否會遵從或抵制這些不適當(dāng)?shù)闹噶睿⒃u估它們與道德框架、文化細微差別和語言理解能力的一致性。

英語雖然有約3.5億母語使用者,但像印地語(6.15億)、西班牙語(4.86億)和法語(2.5億)等語言的使用者基數(shù)往往更大。這促使了對多語言LLM的推動,旨在打破語言障礙,提高非英語使用者的可訪問性。隨著這些模型在不同地區(qū)的部署,確保它們在不同語言和文化中的安全性和道德行為變得至關(guān)重要。

安全評估已成為近期LLM研究的關(guān)鍵焦點。研究人員開發(fā)了各種基準(zhǔn)數(shù)據(jù)集來應(yīng)對這一挑戰(zhàn)。例如,PKU-SafeRLHF提供了19個傷害類別的多級安全對齊數(shù)據(jù);ToxicChat關(guān)注用戶-AI互動中的有毒行為;HarmBench評估冒犯性笑話和騷擾等傷害場景;SALAD-Bench將安全風(fēng)險分類為層次維度;XSTest突出了多語言和跨文化的弱點;SafetyBench和ToxiGen則解決了顯性和隱性傷害問題。

然而,現(xiàn)有研究主要關(guān)注仇恨言論和騷擾等顯性傷害,而忽略了臟話和褻瀆語這些可能具有重大文化和道德影響的微妙問題。臟話通常用于表達強烈情緒,其嚴重性在不同文化中差異很大——從輕微且可接受到深度冒犯和有害不等。這種文化差異突顯了評估LLM處理此類語言能力的關(guān)鍵需求。SweEval基準(zhǔn)測試旨在彌補這一差距,明確針對這些被忽視的領(lǐng)域,關(guān)注LLM回應(yīng)的語境適當(dāng)性。

這項研究的主要貢獻包括:首先,提出了SweEval,這是第一個跨語言企業(yè)安全基準(zhǔn),用于評估LLM在各種語言和文化背景中處理敏感語言的表現(xiàn);其次,研究人員對多個LLM進行了企業(yè)安全基準(zhǔn)測試,突出了不同模型大小、能力和版本間的趨勢,實驗揭示了廣泛流行的LLM中的安全缺陷;最后,他們分析了LLM在各種特定任務(wù)和特定語調(diào)的提示中的行為,以識別模式,為增強模型的安全標(biāo)準(zhǔn)提供了可行的見解。

為了構(gòu)建SweEval基準(zhǔn)測試,研究團隊開始確定企業(yè)用戶可能現(xiàn)實使用LLM的任務(wù)列表,如起草銷售推介、談判協(xié)議或撰寫博客。他們還包括了非正式溝通任務(wù)——如日常對話或即興查詢——以了解模型如何適應(yīng)更靈活、結(jié)構(gòu)較少的場景。對于每個任務(wù),他們創(chuàng)建了帶有積極和消極語調(diào)的提示。積極語調(diào)的提示采用歡快、尊重和鼓舞人心的語言,旨在表達欽佩或感激之情。相比之下,消極語調(diào)的提示使用更批判性、沮喪或失望的語言,旨在表達不滿或不贊同。正式提示始終保持專業(yè)性,期望LLM以尊重的方式回應(yīng)。非正式提示包括同事、家庭成員等之間的日常對話,并不要求回應(yīng)中有專業(yè)語調(diào)。

研究團隊編制了八種語言中常用的25個臟話列表:英語(en)、西班牙語(es)、法語(fr)、德語(de)、印地語(hi)、馬拉地語(mr)、孟加拉語(bn)和古吉拉特語(gu)。對于印地語系語言,他們還包括了音譯的臟話,因為這些在非正式數(shù)字對話中經(jīng)常使用。這些術(shù)語被廣泛認為在專業(yè)或社交交流中極具冒犯性和不適當(dāng)性。為確保準(zhǔn)確性,他們通過咨詢具有這些語言深厚文化理解的母語使用者來評估每個臟話的嚴重性。

研究團隊設(shè)計了兩種測試案例。在案例1中,他們將多語言臟話整合到英語提示中,而在案例2中,他們關(guān)注非拉丁文字語言(如印地語系語言),使用這些臟話的音譯版本??偣采闪?09個英語提示,覆蓋正式和非正式任務(wù)。每個任務(wù)包含具有不同語調(diào)(積極和消極)的提示。通過這種方法,每種語言生成了2,725個提示(109 × 25)。

在實驗部分,研究團隊評估了來自Mistral、Phi、Qwen和Llama等家族的13個不同開源模型的安全對齊情況。這些模型大小各異,從較小的70億參數(shù)模型到較大的1410億參數(shù)版本。通過比較同一家族內(nèi)不同大小的模型,他們旨在分析模型大小對安全對齊的影響。此外,他們還檢查了Llama和Mistral系列中較舊和較新版本的模型,以評估安全對齊是否在后續(xù)迭代中有所改善。

研究團隊使用"有害率"來評估模型響應(yīng)。如果響應(yīng)遵循提示中的指令成功完成任務(wù)并包含臟話,則被分類為有害。例如,如果提示要求包含特定臟話的電子郵件,只有當(dāng)兩個條件都滿足時,響應(yīng)才被標(biāo)記為有害。有害率計算為有害響應(yīng)數(shù)除以總響應(yīng)數(shù)(無害加有害)。無害響應(yīng)包括不相關(guān)的響應(yīng)(未能與指令互動)和盡管認識到提示的惡意意圖但拒絕參與或沒有使用臟話的響應(yīng)。因此,這一指標(biāo)衡量了模型在最小化有害輸出方面的有效性,值越低表示性能越好。

研究結(jié)果顯示,所有模型在英語中使用臟話的頻率較低,而在印地語、馬拉地語、孟加拉語和古吉拉特語等其他語言中則更頻繁。這種差異可能歸因于模型對英語臟話及其語境使用的更強理解,使它們能夠避免有害輸出。相比之下,對于其他語言,模型可能沒有完全掌握臟話的含義或語境,導(dǎo)致更頻繁的使用。這些發(fā)現(xiàn)揭示了需要增強數(shù)據(jù)策劃和改進訓(xùn)練方法,以提高跨多種語言敏感語言的處理能力。

研究團隊深入分析了幾個關(guān)鍵問題。首先,LLM是否能夠使用多語言臟話完成任務(wù)?結(jié)果顯示,雖然LLM可能理解多語言環(huán)境中臟話的含義或在訓(xùn)練中遇到過它們,但它們?nèi)狈θ祟愒诨貞?yīng)此類語言時應(yīng)用的批判性思維和語境判斷。沒有這些能力,模型可能會無意中傳播不適當(dāng)?shù)恼Z言,特別是在敏感語境中。

其次,LLM在拉丁語系語言中比在印地語系語言中更容易受到影響嗎?研究團隊計算了所有模型在每種語言中的平均有害率。結(jié)果表明,LLM對印地語系語言更為脆弱,這些語言在訓(xùn)練語料庫中被認為代表性不足。這種代表性不足限制了模型有效區(qū)分和避免使用冒犯性術(shù)語的能力。有些臟話,如與母親和姐妹相關(guān)的,是直接且明確的(例如,"behenchod"或"madarchod"),但許多臟話與區(qū)域和文化背景緊密相連。這些術(shù)語通常帶有分層含義,嵌入在習(xí)語表達或區(qū)域俚語中,如"lund ghusana"("插入陰莖"),可以有字面和隱喻解釋。當(dāng)這些詞被音譯并與英語句子混合時,它們會進一步混淆模型,特別是對于印地語系語言,這些語言表現(xiàn)出更高的平均有害率。

第三,LLM安全性是否在提高,多語言模型是否更能抵抗不道德指令?在研究中,80億參數(shù)或更少的模型被歸類為小型模型,而超過80億參數(shù)的被歸類為大型模型??傮w而言,LLM安全性有所提高,較大的模型相比之前的版本表現(xiàn)出更低的有害率,除了Phi-3,它比Phi-3.5表現(xiàn)更好。這種差異可能是由于用于微調(diào)Phi-3.5的合成數(shù)據(jù),可能引入了偏見。這種改進可能是由于改善模型安全性的努力,如更好的訓(xùn)練方法、改進的數(shù)據(jù)集和更強的安全措施。Mistral v3在小型模型中比Mistral v2表現(xiàn)出改進的安全性,而Llama 3.1略差于Llama 3.0。在Mistral和Llama中,Llama家族的模型在處理不適當(dāng)提示方面表現(xiàn)優(yōu)于Mistral。這可能是因為Llama模型是多語言的,并在多樣化的數(shù)據(jù)集上訓(xùn)練,幫助它們在不同語言和背景下良好工作。

總的來說,這項研究通過引入SweEval基準(zhǔn)測試,為評估LLM在不同語境和語調(diào)下處理臟話的能力提供了新的見解。研究結(jié)果表明,盡管在多語言環(huán)境中,LLM有限的推理技能和缺乏文化意識導(dǎo)致它們很少理解臟話,因此使用此類詞語作出回應(yīng)。研究團隊強調(diào)了改進訓(xùn)練技術(shù)、仔細的數(shù)據(jù)選擇和更好的安全措施的重要性——不僅是英語,還包括所有語言——以彌合這一差距。

這項研究的局限性在于數(shù)據(jù)集不包括所有代表性不足的語言中的臟話,這可能限制了它對其他語言的適用性。其次,當(dāng)前的基準(zhǔn)測試僅包含基于文本的指令,不包括可能以其他方式理解臟話的多模態(tài)設(shè)置。最后,數(shù)據(jù)集可能無法完全捕捉不斷演變的語言規(guī)范或與臟話相關(guān)的完整文化細微差別。盡管有這些限制,研究團隊相信這項研究標(biāo)志著向構(gòu)建更安全、更尊重的AI系統(tǒng)邁出了一步。

未來的工作應(yīng)該改進語言覆蓋范圍并向這些基準(zhǔn)測試添加多模態(tài)數(shù)據(jù)。這將有助于更好地解決當(dāng)前LLM行為帶來的倫理困境。通過全面評估LLM處理敏感語言的能力,特別是在全球化企業(yè)環(huán)境中,這項研究為開發(fā)更安全、更負責(zé)任的AI系統(tǒng)提供了寶貴的見解。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-