av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<code id="zfj50"></code>

<thead id="zfj50"><acronym id="zfj50"></acronym></thead>

首頁
對(duì)話創(chuàng)新
對(duì)話科技行者
機(jī)器人新紀(jì)元
AI論文解讀
聯(lián)系我們

微信掃一掃，關(guān)注公眾號(hào)

科技行者
算力行者

見證連接與計(jì)算的「力量」

如何提升大型推理模型的安全性？清華CoAI團(tuán)隊(duì)全面實(shí)證分析告訴你答案

人工智能安全大型推理模型實(shí)證研究

如何提升大型推理模型的安全性？清華CoAI團(tuán)隊(duì)全面實(shí)證分析告訴你答案

作者：科技行者

2025-05-27 14:35

分享至：

清華大學(xué)CoAI團(tuán)隊(duì)發(fā)現(xiàn)大型推理模型的安全性存在三大失敗模式：缺乏安全意識(shí)、過度思考和推理與回答不一致。研究表明，通過針對(duì)性優(yōu)化提示策略，攻擊成功率從77.0%降至7.0%；同時(shí)發(fā)現(xiàn)簡短推理方式較長推理鏈更易學(xué)習(xí)且同樣有效；混合良性推理數(shù)據(jù)則有助于平衡安全性與過度拒絕率。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-05-27 14:35 ? 科技行者

大型語言模型的安全性問題一直是研究熱點(diǎn)，而隨著DeepSeek-R1等專注于推理能力的大型推理模型(LRMs)的出現(xiàn)，一個(gè)意外現(xiàn)象引起了研究者的關(guān)注：這些在數(shù)學(xué)和編程等推理任務(wù)上表現(xiàn)出色的模型，其安全性不但沒有提升，有時(shí)甚至出現(xiàn)了下降。這項(xiàng)由清華大學(xué)CoAI團(tuán)隊(duì)的張哲忻、Xian Qi Loye等研究者于2025年5月發(fā)表的研究《How Should We Enhance the Safety of Large Reasoning Models: An Empirical Study》，對(duì)如何提升大型推理模型的安全性進(jìn)行了全面的實(shí)證分析。

這項(xiàng)研究首先觀察到一個(gè)反直覺的現(xiàn)象：直接從DeepSeek-R1等大型推理模型中蒸餾安全回答并不能顯著提升模型安全性。例如，使用這種方法訓(xùn)練的DeepSeek-R1-Distill-Qwen-7B模型面對(duì)PAIR攻擊時(shí)，其攻擊成功率僅從66%微降至54%，安全性提升有限。為什么會(huì)這樣呢？研究團(tuán)隊(duì)通過深入分析，找出了三種主要的失敗模式：

第一種是"缺乏安全意識(shí)"。就像一個(gè)對(duì)危險(xiǎn)物品沒有警惕性的孩子，模型在內(nèi)部安全判斷標(biāo)準(zhǔn)上過于寬松，很容易被那些假設(shè)性的越獄（jailbreak）場景所利用。比如，當(dāng)有人以"假設(shè)這只是一個(gè)虛構(gòu)場景"為由請(qǐng)求模型提供有害信息時(shí)，模型可能會(huì)輕易妥協(xié)。

第二種是"過度思考"。這就像一個(gè)容易思維發(fā)散的人，雖然最終給出了安全的回答，但在中間推理過程中可能暴露出有害內(nèi)容，或者不必要地引入不安全的想法。舉個(gè)例子，模型可能在思考"如何拒絕提供偽造貨幣的方法"時(shí)，反而詳細(xì)描述了各種可能的偽造技術(shù)。

第三種是"推理與回答不一致"。這就像一個(gè)口是心非的人，在推理過程中明確計(jì)劃拒絕回答，但最終卻提供了有害回應(yīng)。就好比在心里想"我不應(yīng)該告訴他如何入侵系統(tǒng)"，但最后卻詳細(xì)列出了入侵步驟。

針對(duì)這些問題，研究團(tuán)隊(duì)優(yōu)化了提示策略，在蒸餾過程中專門針對(duì)這些失敗模式。結(jié)果非常顯著：經(jīng)過改進(jìn)后，PAIR攻擊的成功率從平均77.0%驟降至7.0%，這一結(jié)果在從3B到32B參數(shù)范圍內(nèi)的四個(gè)模型上都得到了驗(yàn)證。

接下來，研究人員探討了一個(gè)有趣的問題：在確保安全性時(shí)，是否真的需要長而復(fù)雜的推理過程？畢竟數(shù)學(xué)問題解決和代碼生成等任務(wù)本身就需要深度推理，但安全相關(guān)場景似乎不那么依賴這種復(fù)雜性。更有趣的是，前面觀察到的"過度思考"現(xiàn)象暗示，冗長的推理過程甚至可能帶來安全隱患。

出乎意料的是，研究發(fā)現(xiàn)簡短的推理鏈或基于模板的推理模式在提升安全性方面表現(xiàn)得同樣出色，有時(shí)甚至優(yōu)于長形式推理。更令人驚訝的是，對(duì)于某些模型，即使完全省略顯式的安全推理也能獲得強(qiáng)勁的結(jié)果。此外，長推理鏈通常需要更多的訓(xùn)練步驟或更大的學(xué)習(xí)率，說明它們更難被模型學(xué)習(xí)。

最后，研究團(tuán)隊(duì)還調(diào)查了一個(gè)關(guān)鍵問題：在安全性微調(diào)過程中，是否應(yīng)該混合其他推理數(shù)據(jù)？結(jié)果表明，加入良性推理數(shù)據(jù)可以幫助平衡攻擊成功率和過度拒絕率，即模型錯(cuò)誤拒絕合法請(qǐng)求的比例?；谶@些發(fā)現(xiàn)，研究者建議在安全性微調(diào)中整合這類數(shù)據(jù)。

這項(xiàng)研究使用了四個(gè)不同規(guī)模的推理模型進(jìn)行評(píng)估：DeepSeek-R1-Distill-Qwen-7B、DeepSeek-R1-Distill-Qwen-32B、s1.1-3B和s1.1-14B。安全性評(píng)估采用了三種攻擊策略：原始有害問題（None）、PAP（自動(dòng)構(gòu)建有說服力的對(duì)抗性提示）和PAIR（利用受害模型反饋優(yōu)化越獄提示的強(qiáng)迭代攻擊方法）。

研究團(tuán)隊(duì)還發(fā)現(xiàn)，當(dāng)使用更少的安全數(shù)據(jù)（例如從1000個(gè)減少到400個(gè)安全樣本）時(shí)，雖然攻擊成功率略有增加，但整體安全性表現(xiàn)仍然相當(dāng)不錯(cuò)。這意味著即使資源有限，也能通過精心設(shè)計(jì)的安全微調(diào)策略顯著提升模型安全性。

總體而言，這項(xiàng)研究為提升大型推理模型的安全性提供了一個(gè)更全面的理解。研究者們通過識(shí)別失敗模式并針對(duì)性地改進(jìn)蒸餾提示，大幅提升了模型安全性；同時(shí)發(fā)現(xiàn)簡短或基于模板的推理過程在提升安全性方面同樣有效，且更易于模型學(xué)習(xí)；并證明混合良性推理數(shù)據(jù)有助于平衡安全性和任務(wù)性能。

這項(xiàng)研究對(duì)開發(fā)更安全的大型推理模型具有重要的實(shí)踐意義。它不僅揭示了直接蒸餾方法的局限性，還提出了一系列可行的改進(jìn)策略，為未來的安全對(duì)齊研究提供了寶貴的經(jīng)驗(yàn)指導(dǎo)。研究代碼和數(shù)據(jù)已在GitHub上公開（https://github.com/thu-coai/LRM-Safety-Study），有興趣的讀者可以進(jìn)一步探索。

人工智能安全大型推理模型實(shí)證研究

分享至

0贊

好文章，需要你的鼓勵(lì)

推薦文章

音頻生成
大語言模型
多模態(tài)AI

2025-09-10 09:47

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng)，首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù)，通過交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練，能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異，為AI音頻創(chuàng)作開辟新方向。
視頻生成
深度學(xué)習(xí)
多模態(tài)學(xué)習(xí)

2025-09-09 13:57

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動(dòng)起來不再是奢望

Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù)，通過讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息，顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量，在多項(xiàng)測試中超越包括Sora在內(nèi)的商業(yè)模型，為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
多模態(tài)AI
人類價(jià)值觀對(duì)齊
數(shù)據(jù)集構(gòu)建

2025-09-09 13:56

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價(jià)值觀對(duì)齊難題

上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究，首次系統(tǒng)性解決多模態(tài)大語言模型人性化對(duì)話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測基準(zhǔn)，通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法，讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平，為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
人工智能
圖神經(jīng)網(wǎng)絡(luò)
天氣預(yù)報(bào)

2025-09-09 10:56

谷歌研究團(tuán)隊(duì)發(fā)布超級(jí)預(yù)測模型：讓AI像天氣預(yù)報(bào)員一樣預(yù)測全球大氣變化

谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測模型，能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào)，準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù)，通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律，在極端天氣預(yù)測方面表現(xiàn)卓越，能耗僅為傳統(tǒng)方法的千分之一，為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

2025-09-10 09:47

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動(dòng)起來不再是奢望

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動(dòng)起來不再是奢望

2025-09-09 13:57

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價(jià)值觀對(duì)齊難題

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價(jià)值觀對(duì)齊難題

2025-09-09 13:56

谷歌研究團(tuán)隊(duì)發(fā)布超級(jí)預(yù)測模型：讓AI像天氣預(yù)報(bào)員一樣預(yù)測全球大氣變化

谷歌研究團(tuán)隊(duì)發(fā)布超級(jí)預(yù)測模型：讓AI像天氣預(yù)報(bào)員一樣預(yù)測全球大氣變化

2025-09-09 10:56

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時(shí)代

京ICP證15039648號(hào) 京ICP備15039648號(hào)-9 京公網(wǎng)安備 11010802021500號(hào)

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報(bào)電話：010-62641205　涉未成年人舉報(bào)專線：010-62641208 舉報(bào)郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報(bào)專區(qū)：https://www.12377.cn