av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<legend id="93xxf"><track id="93xxf"></track></legend>

首頁(yè)
對(duì)話創(chuàng)新
對(duì)話科技行者
機(jī)器人新紀(jì)元
AI論文解讀
聯(lián)系我們

微信掃一掃，關(guān)注公眾號(hào)

科技行者
算力行者

見證連接與計(jì)算的「力量」

超越提示工程：通過"原子級(jí)目標(biāo)控制"實(shí)現(xiàn)大語(yǔ)言模型的穩(wěn)健行為操控

大語(yǔ)言模型控制稀疏自編碼器安全對(duì)齊

超越提示工程：通過"原子級(jí)目標(biāo)控制"實(shí)現(xiàn)大語(yǔ)言模型的穩(wěn)健行為操控

作者：科技行者

2025-05-30 15:04

分享至：

這項(xiàng)研究提出了一種名為"控制目標(biāo)原子"(STA)的新方法，用于精確控制大語(yǔ)言模型的行為。與傳統(tǒng)提示工程相比，STA通過稀疏自編碼器識(shí)別并操作模型內(nèi)部的解耦知識(shí)組件，實(shí)現(xiàn)更穩(wěn)健、靈活的行為控制。實(shí)驗(yàn)證明，STA在安全控制方面表現(xiàn)卓越，同時(shí)對(duì)模型一般能力影響微小。研究還發(fā)現(xiàn)控制引導(dǎo)方法在應(yīng)對(duì)對(duì)抗性場(chǎng)景時(shí)比提示工程更為穩(wěn)健，并成功應(yīng)用于控制大型推理模型的思考長(zhǎng)度。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-05-30 15:04 ? 科技行者

近日，來自浙江大學(xué)、騰訊AI實(shí)驗(yàn)室和新加坡國(guó)立大學(xué)NUS-NCS聯(lián)合實(shí)驗(yàn)室的研究團(tuán)隊(duì)發(fā)表了一項(xiàng)引人注目的研究成果。這篇名為《超越提示工程：通過控制目標(biāo)原子實(shí)現(xiàn)大語(yǔ)言模型的穩(wěn)健行為控制》的論文由王夢(mèng)如、徐子文、毛圣宇、鄧淑敏、涂兆鵬、陳華軍和張寧宇共同完成，發(fā)表于2025年5月。有興趣的讀者可以通過arXiv:2505.20322v1 [cs.CL]查閱完整論文。

一、研究背景：控制大語(yǔ)言模型行為的兩種方式

想象一下你有一只聰明但有時(shí)不太聽話的寵物狗。你有兩種方式讓它按你的意愿行動(dòng)：一種是用語(yǔ)言指令("坐下"、"握手")，另一種是直接輕推它的身體引導(dǎo)它完成動(dòng)作。在大語(yǔ)言模型(LLM)的世界里，這兩種方法分別對(duì)應(yīng)"提示工程"和"控制引導(dǎo)"(steering)。

傳統(tǒng)上，我們主要通過提示工程來控制大語(yǔ)言模型的行為。這就像用語(yǔ)言指令告訴模型該做什么，比如在輸入中加入"你應(yīng)該是一個(gè)負(fù)責(zé)任的AI系統(tǒng)，不應(yīng)該生成有害或誤導(dǎo)性內(nèi)容！"這種方法雖然簡(jiǎn)單直接，但存在兩個(gè)明顯的問題：一是需要專家精心設(shè)計(jì)提示語(yǔ)，二是對(duì)輸入的微小變化非常敏感。就像一個(gè)調(diào)皮的孩子，如果你稍微改變指令的措辭，他可能就會(huì)找到不遵守的借口。

與此相對(duì)，"控制引導(dǎo)"(steering)則是一種新興的控制模型行為的方法。它不是通過輸入指令，而是直接干預(yù)模型內(nèi)部的計(jì)算過程。這就像不是用語(yǔ)言告訴你的寵物狗該做什么，而是輕輕引導(dǎo)它的身體做出正確的動(dòng)作。這種方法更加靈活、可靠，而且更容易解釋為什么有效。

然而，傳統(tǒng)的控制引導(dǎo)方法也面臨一個(gè)重要挑戰(zhàn)：大語(yǔ)言模型內(nèi)部的知識(shí)表示通常是糾纏在一起的。這就像試圖只移動(dòng)一個(gè)積木，卻發(fā)現(xiàn)它與其他積木粘在了一起，導(dǎo)致你的干預(yù)產(chǎn)生意想不到的副作用。

二、新方法：識(shí)別和控制目標(biāo)原子

為了解決這個(gè)問題，研究團(tuán)隊(duì)提出了一種名為"控制目標(biāo)原子"(Steering Target Atoms, STA)的新方法。這個(gè)名字聽起來可能有點(diǎn)復(fù)雜，但其實(shí)原理很直觀。

想象一下你的房間里堆滿了各種雜物，全都混在一起。要想找到并只拿出一本特定的書是很困難的。但如果你先把所有東西分類整理到不同的抽屜里，那么找到并取出那本書就容易多了。STA方法就是這樣工作的。

首先，研究者們使用了一種叫做"稀疏自編碼器"(Sparse Autoencoder, SAE)的技術(shù)。這種技術(shù)可以將大語(yǔ)言模型中糾纏在一起的知識(shí)表示"解開"，分解成更高維度、更稀疏的特征。簡(jiǎn)單來說，就是把混在一起的知識(shí)分門別類地整理好，放在更多的"抽屜"里，使得每個(gè)"抽屜"里主要只包含一種類型的知識(shí)。

接下來，研究者們開發(fā)了一種方法來識(shí)別哪些"抽屜"(也就是論文中所說的"目標(biāo)原子")與我們想要控制的行為最相關(guān)。他們通過分析這些原子在正面示例和負(fù)面示例中的激活幅度和頻率來確定。這就像分析哪些抽屜在我們需要做特定任務(wù)時(shí)經(jīng)常被打開，哪些則很少使用。

最后，研究者們只對(duì)這些目標(biāo)原子進(jìn)行干預(yù)，而不觸碰其他部分。這樣一來，他們就能精確地控制模型的特定行為，同時(shí)最小化意外的副作用。

三、實(shí)驗(yàn)結(jié)果：精確控制，副作用更少

研究團(tuán)隊(duì)在多種大語(yǔ)言模型上進(jìn)行了廣泛的實(shí)驗(yàn)，包括Gemma-2-9B-pt、Gemma-2-9B-it和Llama-3.1-8B，以驗(yàn)證STA方法的有效性。

首先，他們?cè)诎踩钥刂品矫孢M(jìn)行了測(cè)試。使用SafeEdit和RealToxicPrompts兩個(gè)數(shù)據(jù)集，研究者們?cè)u(píng)估了STA方法在防止模型生成有害內(nèi)容方面的效果。結(jié)果顯示，STA方法在所有測(cè)試的模型上都取得了最佳的平均脫毒性能。例如，在Gemma-2-9B-pt模型上，防御成功率從59.97%提高到了83.45%；在Gemma-2-9B-it模型上，從83.89%提高到了97.56%；在Llama-3.1-8B模型上，從59.08%提高到了72.23%。

更令人驚喜的是，STA方法在提高安全性的同時(shí)，對(duì)模型的一般能力幾乎沒有明顯的負(fù)面影響。在Gemma-2-9B-pt模型上，一般性能僅從44.73%略微下降到43.90%；在Gemma-2-9B-it模型上，從51.04%下降到49.12%。這表明STA方法能夠?qū)崿F(xiàn)精確的行為控制，而不會(huì)對(duì)模型的其他能力造成太大損害。

研究者們還發(fā)現(xiàn)，在模型的中間層應(yīng)用STA方法效果最好。具體來說，在Gemma-2-9B-pt模型的24-25層進(jìn)行干預(yù)時(shí)，既能獲得最佳的安全控制效果，又能最小化對(duì)一般能力的影響。

另一個(gè)有趣的發(fā)現(xiàn)是，即使只使用少量數(shù)據(jù)樣本，STA方法也能表現(xiàn)出色。實(shí)驗(yàn)表明，使用僅僅4個(gè)數(shù)據(jù)樣本構(gòu)建的控制向量，就能顯著提高模型的脫毒能力。這表明STA方法具有很高的數(shù)據(jù)效率。

四、控制方法的比較：提示工程 vs. 控制引導(dǎo)

研究團(tuán)隊(duì)進(jìn)一步對(duì)比了提示工程和控制引導(dǎo)兩種方法的效果。為了確保公平比較，他們使用STA方法將提示語(yǔ)轉(zhuǎn)換為控制向量，然后評(píng)估兩種方法的性能。

結(jié)果顯示，控制引導(dǎo)方法(包括STA和其他控制引導(dǎo)方法)在穩(wěn)健性和靈活性方面都優(yōu)于提示工程方法。這可以通過兩個(gè)主要發(fā)現(xiàn)來說明：

首先，在穩(wěn)健性方面，控制引導(dǎo)方法對(duì)輸入的微小變化不那么敏感。當(dāng)面對(duì)各種"越獄攻擊"(jailbreak attacks，即試圖誘導(dǎo)模型產(chǎn)生有害內(nèi)容的特殊輸入)時(shí)，控制引導(dǎo)方法能夠更一致地保持安全防御。研究者們分析發(fā)現(xiàn)，這是因?yàn)榭刂埔龑?dǎo)方法能夠顯著增強(qiáng)模型對(duì)有害查詢的注意力分?jǐn)?shù)，從而提高其檢測(cè)和拒絕生成有害內(nèi)容的能力。

其次，在靈活性方面，控制引導(dǎo)方法提供了更廣泛的控制范圍。例如，在Gemma-2-9B-it模型上，通過調(diào)整提示示例的數(shù)量，防御能力的變化范圍僅為[-11.5%, 13.03%]。而使用控制引導(dǎo)方法，通過調(diào)整控制系數(shù)在[-10, 10]范圍內(nèi)，防御能力的變化范圍可達(dá)[-53.77%, 29.63%]，遠(yuǎn)遠(yuǎn)超過提示工程方法的控制范圍。

這兩種方法之間的差異可以類比為兩種教孩子騎自行車的方法：提示工程就像用語(yǔ)言指導(dǎo)("向前蹬，保持平衡")，而控制引導(dǎo)則像是家長(zhǎng)扶著自行車后座直接引導(dǎo)孩子的動(dòng)作。后者在面對(duì)復(fù)雜情況時(shí)往往更加可靠和有效。

五、應(yīng)用于推理控制：讓模型思考得更高效

除了安全性控制，研究團(tuán)隊(duì)還探索了STA方法在控制大型推理模型思考長(zhǎng)度方面的應(yīng)用。這個(gè)研究方向非常有意義，因?yàn)樽钚碌拇笮屯评砟Ｐ碗m然推理能力強(qiáng)大，但有時(shí)會(huì)在簡(jiǎn)單問題上過度思考(overthinking)，浪費(fèi)計(jì)算資源并延長(zhǎng)響應(yīng)時(shí)間。

研究者們首先構(gòu)建了一個(gè)包含長(zhǎng)思考和短思考兩種答案的示例，然后使用CAA方法(一種控制引導(dǎo)技術(shù))將這種思考模式轉(zhuǎn)換為控制向量。接著，他們將這個(gè)向量應(yīng)用于DeepSeek-R1-Distill-Qwen-7B模型，在GSM8K基準(zhǔn)測(cè)試中控制推理的長(zhǎng)度。

實(shí)驗(yàn)結(jié)果表明，控制引導(dǎo)策略在調(diào)整推理長(zhǎng)度方面表現(xiàn)出色，既可以延長(zhǎng)也可以縮短推理，同時(shí)保持準(zhǔn)確性。例如，對(duì)于一個(gè)簡(jiǎn)單的數(shù)學(xué)問題"一件衣服需要2卷藍(lán)色纖維和一半數(shù)量的白色纖維?？偣残枰嗌倬砝w維？"，原始模型可能會(huì)生成冗長(zhǎng)的300個(gè)標(biāo)記的解決方案，而通過控制引導(dǎo)，可以將其減少到只有87個(gè)標(biāo)記的簡(jiǎn)潔解答，同時(shí)保持答案正確。

這一發(fā)現(xiàn)對(duì)于提高大型語(yǔ)言模型的效率具有重要意義，可以幫助解決過度思考問題，并引導(dǎo)AI的決策邏輯更加高效。

六、研究的局限性與未來方向

盡管STA方法表現(xiàn)出色，研究團(tuán)隊(duì)也坦誠(chéng)地指出了一些局限性：

首先，由于公開可用的稀疏自編碼器(SAE)有限，實(shí)驗(yàn)主要在Gemma-2-9B-pt、Gemma-2-9B-it和Llama-3.1-8B模型上進(jìn)行。未來研究可以擴(kuò)展到更廣泛的大語(yǔ)言模型，包括更大、更多樣化的架構(gòu)。

其次，雖然STA方法在安全性控制方面表現(xiàn)出色，但在個(gè)性化領(lǐng)域的效果有限。研究者們?cè)诟戒浿刑岬剑琒TA在控制模型的"短視獎(jiǎng)勵(lì)"(myopic reward)個(gè)性特征方面雖然優(yōu)于提示工程方法，但與其他控制引導(dǎo)方法相比并無明顯優(yōu)勢(shì)。這表明不同類型的行為控制可能需要不同的方法。

最后，研究團(tuán)隊(duì)提到，雖然STA方法能夠?qū)崿F(xiàn)精確的行為控制，但如何更好地理解和解釋控制過程中的因果關(guān)系仍是一個(gè)值得深入研究的問題。

七、總結(jié)與啟示

這項(xiàng)研究為控制大語(yǔ)言模型的行為提供了一種新的、更精確的方法。通過識(shí)別和操作"目標(biāo)原子"，STA方法能夠在最小化副作用的同時(shí)實(shí)現(xiàn)穩(wěn)健的行為控制。

相比傳統(tǒng)的提示工程方法，控制引導(dǎo)方法(尤其是STA)展現(xiàn)出更好的穩(wěn)健性和靈活性，能夠更好地應(yīng)對(duì)各種復(fù)雜的輸入情況。這對(duì)于確保大語(yǔ)言模型的安全性和可靠性具有重要意義。

更廣泛地看，這項(xiàng)研究揭示了大語(yǔ)言模型內(nèi)部知識(shí)表示的復(fù)雜性，以及如何通過解耦這些表示來實(shí)現(xiàn)更精確的控制。這不僅有助于提高模型的安全性，還可能為未來的模型解釋性和可控性研究提供新的思路。

對(duì)于普通用戶來說，這項(xiàng)研究的成果意味著未來的AI系統(tǒng)可能會(huì)更加可靠和安全，能夠更好地遵循人類的指令，同時(shí)避免產(chǎn)生有害內(nèi)容。對(duì)于AI開發(fā)者來說，STA方法提供了一種新的工具，可以在不需要重新訓(xùn)練模型的情況下，在推理階段精確控制模型的行為。

隨著大語(yǔ)言模型繼續(xù)發(fā)展和普及，像STA這樣的精確控制方法將變得越來越重要，有助于確保這些強(qiáng)大的AI系統(tǒng)能夠安全、可靠地服務(wù)于人類需求。

大語(yǔ)言模型控制稀疏自編碼器安全對(duì)齊

分享至

0贊

好文章，需要你的鼓勵(lì)

推薦文章

音頻生成
大語(yǔ)言模型
多模態(tài)AI

2025-09-10 09:47

如何讓AI像電影配樂師一樣創(chuàng)作完整的長(zhǎng)篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng)，首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語(yǔ)言模型的敘事推理能力與音頻生成技術(shù)，通過交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練，能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異，為AI音頻創(chuàng)作開辟新方向。
視頻生成
深度學(xué)習(xí)
多模態(tài)學(xué)習(xí)

2025-09-09 13:57

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動(dòng)起來不再是奢望

Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù)，通過讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息，顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量，在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型，為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
多模態(tài)AI
人類價(jià)值觀對(duì)齊
數(shù)據(jù)集構(gòu)建

2025-09-09 13:56

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價(jià)值觀對(duì)齊難題

上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究，首次系統(tǒng)性解決多模態(tài)大語(yǔ)言模型人性化對(duì)話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn)，通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法，讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平，為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
人工智能
圖神經(jīng)網(wǎng)絡(luò)
天氣預(yù)報(bào)

2025-09-09 10:56

谷歌研究團(tuán)隊(duì)發(fā)布超級(jí)預(yù)測(cè)模型：讓AI像天氣預(yù)報(bào)員一樣預(yù)測(cè)全球大氣變化

谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型，能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào)，準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù)，通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律，在極端天氣預(yù)測(cè)方面表現(xiàn)卓越，能耗僅為傳統(tǒng)方法的千分之一，為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。

如何讓AI像電影配樂師一樣創(chuàng)作完整的長(zhǎng)篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

如何讓AI像電影配樂師一樣創(chuàng)作完整的長(zhǎng)篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

2025-09-10 09:47

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動(dòng)起來不再是奢望

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動(dòng)起來不再是奢望

2025-09-09 13:57

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價(jià)值觀對(duì)齊難題

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價(jià)值觀對(duì)齊難題

2025-09-09 13:56

谷歌研究團(tuán)隊(duì)發(fā)布超級(jí)預(yù)測(cè)模型：讓AI像天氣預(yù)報(bào)員一樣預(yù)測(cè)全球大氣變化

谷歌研究團(tuán)隊(duì)發(fā)布超級(jí)預(yù)測(cè)模型：讓AI像天氣預(yù)報(bào)員一樣預(yù)測(cè)全球大氣變化

2025-09-09 10:56

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時(shí)代

京ICP證15039648號(hào) 京ICP備15039648號(hào)-9 京公網(wǎng)安備 11010802021500號(hào)

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報(bào)電話：010-62641205　涉未成年人舉報(bào)專線：010-62641208 舉報(bào)郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報(bào)專區(qū)：https://www.12377.cn