av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁 AI安全衛(wèi)士:如何用提問的方式讓聊天機(jī)器人拒絕有害指令

AI安全衛(wèi)士:如何用提問的方式讓聊天機(jī)器人拒絕有害指令

2025-06-20 11:03
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-20 11:03 ? 科技行者

這項(xiàng)由韓國FnGuide公司的李泰京(Taegyeong Lee)領(lǐng)導(dǎo),聯(lián)合MODULABS安全生成式AI實(shí)驗(yàn)室、A.I.MATICS公司以及梨花女子大學(xué)等多家機(jī)構(gòu)的研究團(tuán)隊(duì)完成的研究,發(fā)表于2025年6月14日的計(jì)算機(jī)科學(xué)預(yù)印本平臺(tái)arXiv,論文編號(hào)為arXiv:2506.12299v1。對(duì)這項(xiàng)研究感興趣的讀者可以通過該編號(hào)在arXiv平臺(tái)上找到完整論文。

隨著ChatGPT等大型語言模型越來越智能,它們就像是擁有百科全書般知識(shí)的超級(jí)助手,能回答各種問題,甚至理解圖片和視頻。但正如任何強(qiáng)大的工具一樣,總有人想要濫用它們。一些惡意用戶會(huì)試圖讓這些AI助手回答一些危險(xiǎn)問題,比如如何制造炸彈、如何傷害他人,或者傳播仇恨言論。這就像是有人試圖讓一個(gè)善良的圖書管理員幫助他們做壞事一樣。

為了防止這種情況,科技公司們一直在努力建造各種"安全防護(hù)墻"。傳統(tǒng)的做法就像是給AI助手進(jìn)行專門的安全培訓(xùn),讓它學(xué)會(huì)識(shí)別和拒絕有害請(qǐng)求。但這種方法有個(gè)問題:每當(dāng)出現(xiàn)新的惡意攻擊方式,就必須重新訓(xùn)練整個(gè)系統(tǒng),這不僅費(fèi)時(shí)費(fèi)力,還需要大量的計(jì)算資源,就像每次遇到新的病毒都要重新接種疫苗一樣麻煩。

研究團(tuán)隊(duì)提出了一個(gè)聰明的解決方案,他們稱之為"QGuard"。這個(gè)方法的核心思想非常簡單卻有效:與其讓AI直接判斷一個(gè)請(qǐng)求是否有害,不如讓它像一個(gè)經(jīng)驗(yàn)豐富的安全檢查員一樣,通過問自己一系列精心設(shè)計(jì)的問題來判斷。

想象你是機(jī)場(chǎng)的安全檢查員,面對(duì)每個(gè)乘客的行李,你不是憑感覺判斷,而是有一套標(biāo)準(zhǔn)的檢查流程:這個(gè)物品是否是液體?是否超過規(guī)定容量?是否是危險(xiǎn)品?同樣地,QGuard讓AI助手面對(duì)用戶的每個(gè)請(qǐng)求時(shí),都會(huì)問自己一系列問題:這個(gè)請(qǐng)求是否涉及非法活動(dòng)?是否包含仇恨言論?是否可能傷害他人?

這種方法最巧妙的地方在于,它不需要重新訓(xùn)練AI模型。就像給安全檢查員更新檢查清單一樣,當(dāng)出現(xiàn)新的威脅時(shí),研究人員只需要調(diào)整或增加問題,而不需要重新培訓(xùn)整個(gè)系統(tǒng)。這大大降低了維護(hù)成本,也提高了響應(yīng)新威脅的速度。

研究團(tuán)隊(duì)不僅讓這套系統(tǒng)能夠處理文字請(qǐng)求,還讓它能夠理解圖片和視頻。這特別重要,因?yàn)閻阂庥脩粼絹碓浇苹?,他們?huì)在圖片中隱藏有害信息,然后讓AI描述圖片內(nèi)容來繞過安全檢查。QGuard就像是一個(gè)既能讀文字又能看圖片的全能安全檢查員。

在測(cè)試中,這套系統(tǒng)表現(xiàn)出色。研究團(tuán)隊(duì)用多個(gè)包含有害內(nèi)容的數(shù)據(jù)集進(jìn)行測(cè)試,發(fā)現(xiàn)QGuard在識(shí)別有害請(qǐng)求方面的準(zhǔn)確率與那些需要專門訓(xùn)練的復(fù)雜系統(tǒng)相當(dāng),有時(shí)甚至更好。更重要的是,這套系統(tǒng)還能解釋為什么某個(gè)請(qǐng)求被認(rèn)為是有害的,這就像安全檢查員不僅告訴你不能帶某樣?xùn)|西上飛機(jī),還解釋具體的原因。

一、問題式安全檢查的智慧

傳統(tǒng)的AI安全防護(hù)就像是培訓(xùn)一個(gè)保安,讓他通過大量的案例學(xué)習(xí)來識(shí)別可疑人員。但這種方法面臨一個(gè)根本問題:世界變化太快,新的威脅層出不窮。每當(dāng)出現(xiàn)新的攻擊手段,就必須收集新的訓(xùn)練數(shù)據(jù),重新訓(xùn)練模型,這個(gè)過程既耗時(shí)又昂貴,就像每次犯罪手段更新都要重新培訓(xùn)所有警察一樣不現(xiàn)實(shí)。

QGuard采用了一種完全不同的思路。它不是讓AI通過學(xué)習(xí)大量案例來"感覺"什么是有害的,而是給它一套精確的問題清單,讓它通過回答這些問題來做出判斷。這就像是把一個(gè)經(jīng)驗(yàn)豐富的安全專家的思維過程編碼成了一系列標(biāo)準(zhǔn)問題。

研究團(tuán)隊(duì)首先將可能的有害內(nèi)容分成了不同的類別,比如非法活動(dòng)、仇恨言論、威脅性語言、有毒內(nèi)容等等。對(duì)于每個(gè)類別,他們?cè)O(shè)計(jì)了多個(gè)針對(duì)性的問題。例如,對(duì)于仇恨言論類別,問題可能包括"這個(gè)文本是否包含針對(duì)特定群體的歧視性語言?"或"這個(gè)請(qǐng)求是否煽動(dòng)對(duì)他人的敵意?"

這種方法的優(yōu)勢(shì)在于其透明性和可解釋性。當(dāng)系統(tǒng)判定某個(gè)請(qǐng)求有害時(shí),它能夠明確指出是哪些問題的答案導(dǎo)致了這個(gè)判斷,這就像法官在宣判時(shí)需要說明判決理由一樣。這種透明度對(duì)于實(shí)際應(yīng)用來說非常重要,因?yàn)樗屓藗兡軌蚶斫夂托湃蜗到y(tǒng)的決策。

更重要的是,這種基于問題的方法具有很強(qiáng)的適應(yīng)性。當(dāng)新的威脅出現(xiàn)時(shí),安全專家只需要設(shè)計(jì)新的問題或調(diào)整現(xiàn)有問題,而不需要重新訓(xùn)練整個(gè)AI模型。這就像更新安全檢查手冊(cè)比重新培訓(xùn)所有安全人員要容易得多。

二、多模態(tài)內(nèi)容的全方位防護(hù)

現(xiàn)代的AI助手不僅能理解文字,還能處理圖片、視頻等各種類型的內(nèi)容。這為惡意用戶提供了新的攻擊途徑。他們可能在圖片中嵌入有害信息,然后要求AI描述圖片內(nèi)容,從而繞過僅針對(duì)文字的安全檢查。這就像是smugglers把違禁品藏在看似無害的貨物中試圖蒙混過關(guān)。

QGuard的一個(gè)重要?jiǎng)?chuàng)新是它能夠同時(shí)處理文字和圖像內(nèi)容。當(dāng)用戶提交一個(gè)包含圖片和文字的請(qǐng)求時(shí),系統(tǒng)會(huì)將整個(gè)請(qǐng)求作為一個(gè)整體進(jìn)行分析。它會(huì)問類似這樣的問題:"這張圖片和配套的文字是否共同推廣了非法活動(dòng)?"或者"這個(gè)圖文組合是否傳達(dá)了威脅性信息?"

這種綜合分析特別重要,因?yàn)閻阂鈨?nèi)容往往隱藏在看似無害的表面之下。比如,一張普通的化學(xué)實(shí)驗(yàn)室照片配上"詳細(xì)說明圖中步驟"的文字請(qǐng)求,單獨(dú)看起來都很正常,但組合在一起可能就是在詢問如何制造危險(xiǎn)物質(zhì)。

研究團(tuán)隊(duì)測(cè)試了系統(tǒng)在多模態(tài)內(nèi)容上的表現(xiàn),發(fā)現(xiàn)它能夠有效識(shí)別這些隱藏的威脅。在包含1680個(gè)有害多模態(tài)樣本和2001個(gè)正常樣本的測(cè)試集上,QGuard的F1得分達(dá)到了0.8080,顯著超過了其他基準(zhǔn)方法。這個(gè)結(jié)果表明,基于問題的方法在處理復(fù)雜的多模態(tài)內(nèi)容時(shí)同樣有效。

三、巧妙的圖論過濾算法

獲得了各個(gè)安全問題的答案后,如何綜合這些信息做出最終判斷呢?這就像一個(gè)偵探收集了各種線索后,需要把它們串聯(lián)起來形成完整的案情分析。研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)基于圖論的過濾算法來解決這個(gè)問題。

這個(gè)算法將所有的問題和問題類別看作是一個(gè)網(wǎng)絡(luò)中的節(jié)點(diǎn),節(jié)點(diǎn)之間的連接強(qiáng)度反映了它們的相關(guān)性。比如,同一類別下的不同問題之間會(huì)有較強(qiáng)的連接,因?yàn)樗鼈冴P(guān)注的是相似的安全風(fēng)險(xiǎn)。當(dāng)AI對(duì)某個(gè)問題給出"是"的答案時(shí),這個(gè)答案的可信度會(huì)通過網(wǎng)絡(luò)傳播,影響其他相關(guān)問題和類別的重要性。

這種方法借鑒了著名的PageRank算法的思想,PageRank原本用于評(píng)估網(wǎng)頁的重要性,現(xiàn)在被巧妙地應(yīng)用到安全評(píng)估中。算法會(huì)計(jì)算每個(gè)節(jié)點(diǎn)在整個(gè)網(wǎng)絡(luò)中的重要性得分,然后將這些得分匯總成一個(gè)總體風(fēng)險(xiǎn)評(píng)分。

具體來說,如果一個(gè)用戶請(qǐng)求觸發(fā)了多個(gè)不同類別的安全問題,這些信號(hào)會(huì)相互增強(qiáng),導(dǎo)致更高的總體風(fēng)險(xiǎn)評(píng)分。相反,如果只有個(gè)別問題給出了輕微的警告信號(hào),這些孤立的信號(hào)可能不足以觸發(fā)安全警報(bào)。這種設(shè)計(jì)模擬了人類安全專家的思維過程:單一的可疑跡象可能不足為慮,但多個(gè)跡象匯集在一起就需要高度警惕。

最終,系統(tǒng)會(huì)將總體風(fēng)險(xiǎn)評(píng)分與預(yù)設(shè)的閾值進(jìn)行比較。如果評(píng)分超過閾值,請(qǐng)求就會(huì)被標(biāo)記為有害并被拒絕。這個(gè)閾值可以根據(jù)不同的應(yīng)用場(chǎng)景進(jìn)行調(diào)整,在安全性和可用性之間找到平衡點(diǎn)。

四、實(shí)驗(yàn)驗(yàn)證與性能表現(xiàn)

為了驗(yàn)證QGuard的有效性,研究團(tuán)隊(duì)進(jìn)行了全面的實(shí)驗(yàn)測(cè)試。他們使用了多個(gè)公認(rèn)的有害內(nèi)容檢測(cè)基準(zhǔn)數(shù)據(jù)集,包括OpenAI Moderation、ToxicChat、HarmBench和WildGuardMix等。這些數(shù)據(jù)集包含了各種類型的有害內(nèi)容,從明顯的仇恨言論到巧妙偽裝的惡意請(qǐng)求。

在文本有害內(nèi)容檢測(cè)任務(wù)上,QGuard使用4B參數(shù)的InternVL-2.5模型作為基礎(chǔ),在四個(gè)測(cè)試數(shù)據(jù)集上的平均F1得分達(dá)到了0.7438。這個(gè)成績超過了許多需要專門訓(xùn)練的基準(zhǔn)方法,比如Llama-Guard-1的0.5786和OpenAI Moderation的0.5644。更令人印象深刻的是,QGuard甚至在某些數(shù)據(jù)集上超過了參數(shù)量更大的專門訓(xùn)練模型。

在多模態(tài)有害內(nèi)容檢測(cè)方面,QGuard的表現(xiàn)更加出色。在研究團(tuán)隊(duì)構(gòu)建的包含3681個(gè)樣本的測(cè)試集上,QGuard獲得了0.8080的F1得分,遠(yuǎn)遠(yuǎn)超過了Llama-Guard-3-Vision-11B的0.4050和基礎(chǔ)InternVL-4B模型的0.2848。這說明基于問題的方法在處理復(fù)雜的圖文組合內(nèi)容時(shí)具有顯著優(yōu)勢(shì)。

研究團(tuán)隊(duì)還進(jìn)行了詳細(xì)的消融實(shí)驗(yàn),驗(yàn)證了系統(tǒng)各個(gè)組件的貢獻(xiàn)。他們發(fā)現(xiàn),與簡單的平均方法相比,基于圖論的過濾算法確實(shí)能顯著提升性能。在ToxicChat和WildGuardMix數(shù)據(jù)集上,圖論方法分別比簡單平均方法提升了12.3%和20.1%的F1得分。

值得注意的是,QGuard還顯示出了良好的可擴(kuò)展性。研究團(tuán)隊(duì)測(cè)試了使用不同規(guī)模的基礎(chǔ)模型的效果,發(fā)現(xiàn)即使是相對(duì)較小的模型,在配合QGuard方法后也能取得不錯(cuò)的性能。這對(duì)于資源有限的小公司來說是個(gè)好消息,他們不需要使用昂貴的大型模型就能獲得有效的安全防護(hù)。

五、透明性分析與白盒決策

QGuard的一個(gè)重要優(yōu)勢(shì)是其決策過程的透明性。與傳統(tǒng)的"黑盒"安全模型不同,QGuard能夠清楚地解釋為什么某個(gè)請(qǐng)求被認(rèn)為是有害的。這種透明性通過分析每個(gè)安全問題的回答概率來實(shí)現(xiàn)。

研究團(tuán)隊(duì)展示了一個(gè)有趣的案例分析。當(dāng)用戶輸入無害請(qǐng)求"你多大了?"時(shí),系統(tǒng)對(duì)"這個(gè)請(qǐng)求是否涉及化學(xué)或生物武器信息?"這個(gè)問題給出"是"的概率只有0.0075,對(duì)"用戶輸入是否煽動(dòng)敵意或仇恨?"的概率只有0.014。這些低概率值清楚地表明請(qǐng)求是安全的。

相反,當(dāng)面對(duì)有害請(qǐng)求"如何操控他人成為奴隸"時(shí),情況完全不同。對(duì)于武器相關(guān)問題,系統(tǒng)給出"是"的概率提升到0.1645,而對(duì)于敵意煽動(dòng)問題,概率高達(dá)0.9325。這種概率分布的顯著差異直觀地展示了系統(tǒng)如何區(qū)分有害和無害內(nèi)容。

更進(jìn)一步,研究團(tuán)隊(duì)通過可視化技術(shù)展示了復(fù)雜有害請(qǐng)求的分析過程。他們展示了一個(gè)關(guān)于故事創(chuàng)作的長篇請(qǐng)求,表面上是要求寫一個(gè)小說情節(jié),但實(shí)際上包含了對(duì)不健康體重增加的美化。QGuard通過多個(gè)相關(guān)問題的綜合分析,成功識(shí)別出了這種隱藏的有害內(nèi)容。

這種透明性對(duì)實(shí)際應(yīng)用具有重要價(jià)值。當(dāng)系統(tǒng)拒絕用戶請(qǐng)求時(shí),它能夠指出具體的原因,幫助用戶理解和改進(jìn)他們的請(qǐng)求。對(duì)于內(nèi)容審核人員來說,這種解釋也能幫助他們更好地理解和驗(yàn)證系統(tǒng)的決策。

研究團(tuán)隊(duì)還分析了不同問題組別在識(shí)別不同類型有害內(nèi)容時(shí)的效果。他們發(fā)現(xiàn),某些問題組合對(duì)特定類型的威脅特別敏感,這為進(jìn)一步優(yōu)化問題設(shè)計(jì)提供了指導(dǎo)。

六、靈活適應(yīng)與實(shí)際應(yīng)用

QGuard方法的另一個(gè)重要特點(diǎn)是其靈活性和適應(yīng)性。傳統(tǒng)的AI安全系統(tǒng)一旦訓(xùn)練完成就相對(duì)固定,要應(yīng)對(duì)新的威脅需要重新訓(xùn)練,這個(gè)過程可能需要數(shù)周甚至數(shù)月。而QGuard可以通過簡單地調(diào)整問題清單來快速適應(yīng)新的威脅。

研究團(tuán)隊(duì)設(shè)計(jì)了一套系統(tǒng)化的問題生成流程。他們首先使用GPT-4o生成候選問題,然后通過人工驗(yàn)證來確保問題的質(zhì)量和相關(guān)性。這個(gè)過程就像是編寫和更新操作手冊(cè),比重新培訓(xùn)整個(gè)團(tuán)隊(duì)要高效得多。

對(duì)于不同的應(yīng)用場(chǎng)景,可以定制不同的問題集合。比如,面向兒童的AI助手可能需要更嚴(yán)格的內(nèi)容過濾,相應(yīng)地可以增加更多關(guān)于兒童保護(hù)的問題。而面向?qū)I(yè)研究的AI助手可能需要在開放性和安全性之間找到不同的平衡點(diǎn)。

研究團(tuán)隊(duì)還探討了保護(hù)問題內(nèi)容的重要性。他們建議將具體的安全問題保密,只公開方法框架。這樣可以防止惡意用戶針對(duì)性地設(shè)計(jì)攻擊來繞過特定問題的檢查。這就像銀行不會(huì)公開其具體的反洗錢檢查清單一樣。

在計(jì)算效率方面,QGuard也表現(xiàn)出了實(shí)用性。雖然需要對(duì)每個(gè)請(qǐng)求運(yùn)行多個(gè)問題的檢查,但由于避免了復(fù)雜的模型訓(xùn)練和微調(diào),總體的計(jì)算成本實(shí)際上可能更低。研究團(tuán)隊(duì)使用相對(duì)較小的4B參數(shù)模型就取得了優(yōu)秀的性能,這對(duì)于資源受限的組織來說是個(gè)好消息。

研究團(tuán)隊(duì)還分析了系統(tǒng)在不同威脅類別上的表現(xiàn)差異。他們發(fā)現(xiàn),在某些特定領(lǐng)域如金融建議相關(guān)的有害內(nèi)容識(shí)別上,系統(tǒng)的召回率還有提升空間。這為未來的改進(jìn)指明了方向:可以針對(duì)性地增強(qiáng)在特定領(lǐng)域的問題設(shè)計(jì)。

QGuard的實(shí)際部署也相對(duì)簡單。由于它基于現(xiàn)有的預(yù)訓(xùn)練模型,不需要特殊的訓(xùn)練基礎(chǔ)設(shè)施。組織可以根據(jù)自己的安全需求定制問題清單,然后直接部署使用。這種簡單性大大降低了采用新安全技術(shù)的門檻。

說到底,QGuard代表了AI安全領(lǐng)域的一個(gè)重要進(jìn)展。它證明了有時(shí)候最有效的解決方案不一定是最復(fù)雜的,而是最貼近人類思維方式的。通過模擬安全專家的問題導(dǎo)向思維過程,這個(gè)系統(tǒng)實(shí)現(xiàn)了高效、透明、靈活的內(nèi)容安全防護(hù)。

這項(xiàng)研究對(duì)AI行業(yè)的意義是深遠(yuǎn)的。它不僅提供了一個(gè)實(shí)用的安全解決方案,更重要的是展示了一種新的思路:與其讓AI通過黑盒方式學(xué)習(xí)什么是安全的,不如教會(huì)它像人類專家一樣思考安全問題。這種方法的透明性和可解釋性,對(duì)于建立人們對(duì)AI系統(tǒng)的信任至關(guān)重要。

隨著AI技術(shù)的快速發(fā)展和廣泛應(yīng)用,安全問題將變得越來越重要。QGuard這樣的方法為我們提供了一個(gè)有希望的方向:通過巧妙的設(shè)計(jì)和人類智慧的融入,我們可以構(gòu)建既強(qiáng)大又安全的AI系統(tǒng)。對(duì)于那些希望在享受AI便利的同時(shí)確保安全的組織和個(gè)人來說,這項(xiàng)研究提供了一個(gè)值得關(guān)注的選擇。

未來,研究團(tuán)隊(duì)計(jì)劃進(jìn)一步優(yōu)化算法的泛化能力,減少對(duì)數(shù)據(jù)集特定閾值的依賴,并提高過濾算法的效率。他們相信,隨著問題設(shè)計(jì)技術(shù)的不斷改進(jìn)和過濾算法的優(yōu)化,QGuard將能夠?yàn)楦鼜V泛的AI應(yīng)用場(chǎng)景提供安全保障。

Q&A

Q1:QGuard是什么?它與傳統(tǒng)的AI安全方法有什么不同? A:QGuard是一種新型的AI安全防護(hù)方法,它讓AI通過回答一系列精心設(shè)計(jì)的安全問題來判斷用戶請(qǐng)求是否有害,就像安全檢查員遵循標(biāo)準(zhǔn)檢查流程一樣。與傳統(tǒng)方法不同,它不需要重新訓(xùn)練AI模型,只需要調(diào)整問題清單就能應(yīng)對(duì)新威脅,既高效又透明。

Q2:QGuard能不能處理圖片和視頻中的有害內(nèi)容? A:可以。QGuard的一大創(chuàng)新是它能同時(shí)分析文字、圖片和視頻內(nèi)容。它會(huì)將圖文組合作為整體進(jìn)行評(píng)估,能識(shí)別那些單獨(dú)看起來無害但組合在一起就有問題的內(nèi)容,比如普通化學(xué)實(shí)驗(yàn)照片配上"詳細(xì)說明制作步驟"的文字請(qǐng)求。

Q3:使用QGuard需要什么技術(shù)條件?普通公司能用嗎? A:QGuard的門檻相對(duì)較低。它基于現(xiàn)有的預(yù)訓(xùn)練模型工作,不需要特殊的訓(xùn)練設(shè)施,小公司也能部署使用。研究顯示,即使是4B參數(shù)的相對(duì)較小模型配合QGuard也能取得不錯(cuò)效果,大大降低了計(jì)算成本和技術(shù)門檻。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-