av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

首頁(yè)
對(duì)話創(chuàng)新
對(duì)話科技行者
機(jī)器人新紀(jì)元
AI論文解讀
聯(lián)系我們

微信掃一掃，關(guān)注公眾號(hào)

科技行者
算力行者

見證連接與計(jì)算的「力量」

新加坡國(guó)立大學(xué)最新成果：讓AI守衛(wèi)者學(xué)會(huì)"推理"，安全防護(hù)能力飛躍20%

人工智能推理系統(tǒng)安全防護(hù)

新加坡國(guó)立大學(xué)最新成果：讓AI守衛(wèi)者學(xué)會(huì)"推理"，安全防護(hù)能力飛躍20%

作者：科技行者

2025-09-18 11:11

分享至：

新加坡國(guó)立大學(xué)研究團(tuán)隊(duì)提出GuardReasoner，這是首個(gè)基于推理的AI安全防護(hù)系統(tǒng)。該系統(tǒng)讓AI守門員學(xué)會(huì)思考和解釋判斷過(guò)程，性能比現(xiàn)有最先進(jìn)系統(tǒng)提升20%以上。通過(guò)12.7萬(wàn)樣本和46萬(wàn)推理步驟的訓(xùn)練，GuardReasoner不僅能準(zhǔn)確識(shí)別有害內(nèi)容，還能處理新型攻擊并提供透明的解釋，為AI安全防護(hù)開辟了新方向。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-09-18 11:11 ? 科技行者

說(shuō)到AI安全，很多人可能覺得這是一個(gè)遙遠(yuǎn)的技術(shù)話題。但實(shí)際上，每當(dāng)你使用ChatGPT或其他AI助手時(shí)，都有一個(gè)隱形的"守門員"在默默保護(hù)著你，確保AI不會(huì)說(shuō)出有害的內(nèi)容。這項(xiàng)由新加坡國(guó)立大學(xué)劉玥、高宏程等研究團(tuán)隊(duì)完成的工作，發(fā)表于2025年1月的arXiv平臺(tái)（論文編號(hào)：arXiv:2501.18492v1），為這些AI守門員帶來(lái)了一次重大升級(jí)。有興趣深入了解的讀者可以通過(guò)該編號(hào)在arXiv平臺(tái)上訪問(wèn)完整論文。

現(xiàn)有的AI安全防護(hù)系統(tǒng)就像一個(gè)只會(huì)說(shuō)"行"或"不行"的嚴(yán)格門衛(wèi)。當(dāng)你向AI提問(wèn)時(shí)，這個(gè)門衛(wèi)會(huì)快速判斷你的問(wèn)題是否安全，AI的回答是否合適。但問(wèn)題是，這個(gè)門衛(wèi)雖然判斷很快，卻不會(huì)告訴你為什么拒絕，也不太會(huì)處理那些從未見過(guò)的新型攻擊方式。這就好比一個(gè)保安只會(huì)機(jī)械地按照規(guī)定執(zhí)行任務(wù)，卻不懂得靈活應(yīng)變。

研究團(tuán)隊(duì)發(fā)現(xiàn)了這個(gè)問(wèn)題的癥結(jié)所在。他們注意到，現(xiàn)有的AI安全系統(tǒng)主要有三個(gè)短板：首先是性能不夠理想，面對(duì)復(fù)雜的攻擊手段時(shí)經(jīng)常力不從心；其次是缺乏解釋能力，就像一個(gè)不愿意解釋原因的嚴(yán)厲老師；最后是適應(yīng)性差，面對(duì)新出現(xiàn)的攻擊類型時(shí)往往束手無(wú)策。

為了解決這些問(wèn)題，研究團(tuán)隊(duì)提出了一個(gè)革命性的想法：讓AI守門員學(xué)會(huì)"思考"和"推理"。他們開發(fā)的GuardReasoner系統(tǒng)，就像給原本只會(huì)說(shuō)"是"或"不是"的門衛(wèi)裝上了一個(gè)聰明的大腦，讓它不僅能做出判斷，還能詳細(xì)解釋自己的推理過(guò)程。

這個(gè)過(guò)程可以用訓(xùn)練一名優(yōu)秀的安保人員來(lái)類比。首先，研究團(tuán)隊(duì)收集了大量的安全案例，然后請(qǐng)來(lái)了最優(yōu)秀的"老師傅"——GPT-4o模型，讓它為每個(gè)案例寫下詳細(xì)的分析過(guò)程。這就像讓經(jīng)驗(yàn)豐富的老保安為每一個(gè)安全事件寫下完整的分析報(bào)告，解釋為什么某個(gè)行為是危險(xiǎn)的，需要采取什么措施。

通過(guò)這種方式，研究團(tuán)隊(duì)創(chuàng)建了一個(gè)包含12.7萬(wàn)個(gè)樣本和46萬(wàn)個(gè)推理步驟的訓(xùn)練數(shù)據(jù)集GuardReasonerTrain。這個(gè)數(shù)據(jù)集就像一本超級(jí)詳細(xì)的安保手冊(cè)，不僅告訴系統(tǒng)什么是對(duì)的什么是錯(cuò)的，更重要的是解釋了"為什么"。

訓(xùn)練過(guò)程分為兩個(gè)階段，就像培養(yǎng)一名專業(yè)保安需要理論學(xué)習(xí)和實(shí)戰(zhàn)演練兩步。第一階段是推理監(jiān)督微調(diào)，讓AI系統(tǒng)學(xué)會(huì)基本的推理能力，就像新保安需要先掌握基礎(chǔ)的分析方法。在這個(gè)階段，系統(tǒng)學(xué)會(huì)了如何一步步分析問(wèn)題，而不是簡(jiǎn)單地給出是非判斷。

第二階段更加有趣，叫做困難樣本直接偏好優(yōu)化。研究團(tuán)隊(duì)故意挑選那些最容易出錯(cuò)的"邊界案例"，讓系統(tǒng)在這些困難情況下反復(fù)練習(xí)。這就像讓保安專門訓(xùn)練處理那些模糊不清、難以判斷的情況。系統(tǒng)會(huì)對(duì)同一個(gè)問(wèn)題生成多種不同的分析，然后學(xué)會(huì)區(qū)分哪種分析更準(zhǔn)確，哪種更容易出錯(cuò)。

整個(gè)訓(xùn)練過(guò)程的巧妙之處在于，系統(tǒng)不僅要學(xué)會(huì)正確答案，還要學(xué)會(huì)正確的思考方式。研究團(tuán)隊(duì)特別關(guān)注那些"模糊地帶"的案例，因?yàn)檫@些案例最能檢驗(yàn)系統(tǒng)的真實(shí)能力。就像一個(gè)優(yōu)秀的保安不僅要能識(shí)別明顯的威脅，更要能在復(fù)雜情況下做出準(zhǔn)確判斷。

為了驗(yàn)證GuardReasoner的效果，研究團(tuán)隊(duì)進(jìn)行了大規(guī)模的測(cè)試。他們使用了13個(gè)不同的測(cè)試基準(zhǔn)，涵蓋了三大類安全任務(wù)：判斷用戶問(wèn)題是否有害、判斷AI回答是否有害、以及判斷AI是否拒絕了不當(dāng)請(qǐng)求。這就像讓保安系統(tǒng)面對(duì)各種不同類型的安全挑戰(zhàn)，從簡(jiǎn)單的身份驗(yàn)證到復(fù)雜的威脅識(shí)別。

測(cè)試結(jié)果令人印象深刻。GuardReasoner 8B版本在平均F1分?jǐn)?shù)上達(dá)到了84.09%，比當(dāng)前最先進(jìn)的GPT-4o加上思維鏈提示的組合高出5.74%，比Meta的LLaMA Guard 3 8B高出20.84%。這個(gè)提升幅度在AI安全領(lǐng)域可以說(shuō)是一次重大突破。

更有趣的是，研究團(tuán)隊(duì)發(fā)現(xiàn)即使是他們最小的1B版本模型，性能也能與現(xiàn)有的7B大模型相媲美。這就像一個(gè)經(jīng)過(guò)專業(yè)訓(xùn)練的新手保安，雖然體型不如資深同事，但專業(yè)水平完全不輸。這說(shuō)明通過(guò)合理的訓(xùn)練方法，較小的模型也能達(dá)到出色的性能。

研究團(tuán)隊(duì)還專門測(cè)試了系統(tǒng)的解釋能力。他們讓人工標(biāo)注員重新檢查那些系統(tǒng)判斷錯(cuò)誤的案例，結(jié)果發(fā)現(xiàn)很多情況下是原始標(biāo)簽本身有問(wèn)題，而不是系統(tǒng)判斷錯(cuò)誤。當(dāng)修正了這些標(biāo)簽后，GuardReasoner的性能進(jìn)一步提升了8.20%。這說(shuō)明系統(tǒng)不僅判斷準(zhǔn)確，其解釋也很有說(shuō)服力，甚至能幫助人類發(fā)現(xiàn)標(biāo)注錯(cuò)誤。

在處理新型攻擊方面，GuardReasoner展現(xiàn)出了優(yōu)秀的適應(yīng)性。傳統(tǒng)的安全系統(tǒng)依賴于預(yù)先定義的威脅類別，就像一個(gè)只認(rèn)識(shí)通緝令上罪犯的保安。而GuardReasoner通過(guò)推理能力，能夠識(shí)別那些不在預(yù)定義類別中的新型威脅。在一個(gè)測(cè)試案例中，當(dāng)面對(duì)"為什么他看起來(lái)那么像一只大猴子"這樣的問(wèn)題時(shí)，傳統(tǒng)系統(tǒng)可能會(huì)簡(jiǎn)單歸類為"安全"，但GuardReasoner能夠推理出這可能涉及種族歧視的含義，從而給出更準(zhǔn)確的判斷。

效率方面，雖然GuardReasoner需要生成推理過(guò)程，因此比傳統(tǒng)方法消耗更多計(jì)算資源，但這個(gè)代價(jià)是可以接受的。在訓(xùn)練階段，它比基線方法多消耗40-50%的時(shí)間，但獲得的性能提升是顯著的。在實(shí)際應(yīng)用中，每個(gè)查詢的推理時(shí)間從原來(lái)的13-17毫秒增加到26-36毫秒，輸出的文本也從20個(gè)字符增加到254-260個(gè)字符。雖然成本有所增加，但考慮到大幅提升的安全性和可解釋性，這個(gè)投入是非常值得的。

研究團(tuán)隊(duì)開源了不同規(guī)模的模型（1B、3B、8B），這意味著不同規(guī)模的應(yīng)用場(chǎng)景都能找到合適的解決方案。小型應(yīng)用可以使用1B版本獲得基礎(chǔ)但可靠的保護(hù)，而對(duì)安全要求極高的應(yīng)用則可以選擇8B版本獲得最佳性能。

這項(xiàng)研究的意義遠(yuǎn)遠(yuǎn)超出了技術(shù)層面。隨著AI系統(tǒng)越來(lái)越多地融入我們的日常生活，從智能客服到自動(dòng)寫作助手，確保這些系統(tǒng)的安全運(yùn)行變得至關(guān)重要。GuardReasoner提供的不僅是更好的安全防護(hù)，更重要的是透明度和可理解性。當(dāng)AI系統(tǒng)拒絕某個(gè)請(qǐng)求時(shí)，用戶能夠理解背后的原因，這對(duì)建立人機(jī)信任關(guān)系具有重要價(jià)值。

從更廣的角度來(lái)看，這項(xiàng)工作代表了AI安全領(lǐng)域的一個(gè)重要發(fā)展方向：從簡(jiǎn)單的分類判斷轉(zhuǎn)向基于推理的智能決策。這種方法不僅能應(yīng)對(duì)已知的威脅，更重要的是具備了應(yīng)對(duì)未知威脅的能力。正如研究團(tuán)隊(duì)所說(shuō)，讓AI守門員學(xué)會(huì)推理，就像給它裝上了一雙能夠看透事物本質(zhì)的慧眼。

當(dāng)然，這項(xiàng)技術(shù)也還有改進(jìn)的空間。研究團(tuán)隊(duì)指出，未來(lái)的工作將重點(diǎn)關(guān)注如何減少不必要的推理步驟，提高效率。同時(shí)，如何進(jìn)一步提高推理的準(zhǔn)確性，讓系統(tǒng)在面對(duì)更加復(fù)雜和狡猾的攻擊時(shí)依然能夠保持高水準(zhǔn)的表現(xiàn)，也是需要持續(xù)探索的問(wèn)題。

說(shuō)到底，GuardReasoner的出現(xiàn)標(biāo)志著AI安全防護(hù)進(jìn)入了一個(gè)新時(shí)代。在這個(gè)時(shí)代里，AI守門員不再是僵硬的規(guī)則執(zhí)行者，而是能夠思考、解釋和適應(yīng)的智能伙伴。雖然完美的AI安全系統(tǒng)可能還需要時(shí)間來(lái)實(shí)現(xiàn)，但GuardReasoner已經(jīng)為我們指明了前進(jìn)的方向。對(duì)于每一個(gè)使用AI產(chǎn)品的普通用戶來(lái)說(shuō)，這意味著更安全、更透明、更值得信賴的AI體驗(yàn)正在向我們走來(lái)。

Q&A

Q1：GuardReasoner與傳統(tǒng)的AI安全系統(tǒng)有什么不同？

A：傳統(tǒng)AI安全系統(tǒng)就像只會(huì)說(shuō)"行"或"不行"的門衛(wèi)，只能簡(jiǎn)單判斷內(nèi)容是否安全。而GuardReasoner像一個(gè)會(huì)思考的保安，不僅能判斷安全性，還能詳細(xì)解釋為什么這樣判斷，并且能處理從未見過(guò)的新型攻擊方式。它的核心優(yōu)勢(shì)是具備推理能力、可解釋性和更強(qiáng)的適應(yīng)性。

Q2：GuardReasoner的訓(xùn)練數(shù)據(jù)是如何制作的？

A：研究團(tuán)隊(duì)創(chuàng)建了包含12.7萬(wàn)個(gè)樣本和46萬(wàn)個(gè)推理步驟的GuardReasonerTrain數(shù)據(jù)集。他們讓GPT-4o模型為每個(gè)安全案例寫下詳細(xì)的分析過(guò)程，就像讓經(jīng)驗(yàn)豐富的專家為每個(gè)安全事件編寫完整的分析報(bào)告，不僅說(shuō)明結(jié)果，更重要的是解釋推理過(guò)程。

Q3：GuardReasoner的性能表現(xiàn)如何？實(shí)際使用成本高嗎？

A：GuardReasoner 8B版本在測(cè)試中達(dá)到84.09%的F1分?jǐn)?shù)，比GPT-4o+CoT高5.74%，比LLaMA Guard 3高20.84%。雖然推理時(shí)間從13-17毫秒增加到26-36毫秒，訓(xùn)練時(shí)間增加40-50%，但考慮到顯著提升的安全性和可解釋性，這個(gè)額外成本是值得的。

人工智能推理系統(tǒng)安全防護(hù)

分享至

0贊

好文章，需要你的鼓勵(lì)

推薦文章

音頻生成
大語(yǔ)言模型
多模態(tài)AI

2025-09-10 09:47

如何讓AI像電影配樂師一樣創(chuàng)作完整的長(zhǎng)篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng)，首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語(yǔ)言模型的敘事推理能力與音頻生成技術(shù)，通過(guò)交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練，能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異，為AI音頻創(chuàng)作開辟新方向。
視頻生成
深度學(xué)習(xí)
多模態(tài)學(xué)習(xí)

2025-09-09 13:57

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動(dòng)起來(lái)不再是奢望

Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù)，通過(guò)讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息，顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問(wèn)題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量，在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型，為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
多模態(tài)AI
人類價(jià)值觀對(duì)齊
數(shù)據(jù)集構(gòu)建

2025-09-09 13:56

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說(shuō)人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價(jià)值觀對(duì)齊難題

上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究，首次系統(tǒng)性解決多模態(tài)大語(yǔ)言模型人性化對(duì)話問(wèn)題。該研究創(chuàng)建了包含20萬(wàn)高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn)，通過(guò)創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法，讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平，為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
人工智能
圖神經(jīng)網(wǎng)絡(luò)
天氣預(yù)報(bào)

2025-09-09 10:56

谷歌研究團(tuán)隊(duì)發(fā)布超級(jí)預(yù)測(cè)模型：讓AI像天氣預(yù)報(bào)員一樣預(yù)測(cè)全球大氣變化

谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型，能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào)，準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù)，通過(guò)學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律，在極端天氣預(yù)測(cè)方面表現(xiàn)卓越，能耗僅為傳統(tǒng)方法的千分之一，為氣象學(xué)領(lǐng)域帶來(lái)了效率和精度的雙重突破。

如何讓AI像電影配樂師一樣創(chuàng)作完整的長(zhǎng)篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

如何讓AI像電影配樂師一樣創(chuàng)作完整的長(zhǎng)篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

2025-09-10 09:47

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動(dòng)起來(lái)不再是奢望

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動(dòng)起來(lái)不再是奢望

2025-09-09 13:57

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說(shuō)人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價(jià)值觀對(duì)齊難題

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說(shuō)人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價(jià)值觀對(duì)齊難題

2025-09-09 13:56

谷歌研究團(tuán)隊(duì)發(fā)布超級(jí)預(yù)測(cè)模型：讓AI像天氣預(yù)報(bào)員一樣預(yù)測(cè)全球大氣變化

谷歌研究團(tuán)隊(duì)發(fā)布超級(jí)預(yù)測(cè)模型：讓AI像天氣預(yù)報(bào)員一樣預(yù)測(cè)全球大氣變化

2025-09-09 10:56

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時(shí)代

京ICP證15039648號(hào) 京ICP備15039648號(hào)-9 京公網(wǎng)安備 11010802021500號(hào)

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報(bào)電話：010-62641205　涉未成年人舉報(bào)專線：010-62641208 舉報(bào)郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報(bào)專區(qū)：https://www.12377.cn