av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁(yè) 超越提示工程:通過"原子級(jí)目標(biāo)控制"實(shí)現(xiàn)大語(yǔ)言模型的穩(wěn)健行為操控

超越提示工程:通過"原子級(jí)目標(biāo)控制"實(shí)現(xiàn)大語(yǔ)言模型的穩(wěn)健行為操控

2025-05-30 15:04
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-30 15:04 ? 科技行者

近日,來自浙江大學(xué)、騰訊AI實(shí)驗(yàn)室和新加坡國(guó)立大學(xué)NUS-NCS聯(lián)合實(shí)驗(yàn)室的研究團(tuán)隊(duì)發(fā)表了一項(xiàng)引人注目的研究成果。這篇名為《超越提示工程:通過控制目標(biāo)原子實(shí)現(xiàn)大語(yǔ)言模型的穩(wěn)健行為控制》的論文由王夢(mèng)如、徐子文、毛圣宇、鄧淑敏、涂兆鵬、陳華軍和張寧宇共同完成,發(fā)表于2025年5月。有興趣的讀者可以通過arXiv:2505.20322v1 [cs.CL]查閱完整論文。

一、研究背景:控制大語(yǔ)言模型行為的兩種方式

想象一下你有一只聰明但有時(shí)不太聽話的寵物狗。你有兩種方式讓它按你的意愿行動(dòng):一種是用語(yǔ)言指令("坐下"、"握手"),另一種是直接輕推它的身體引導(dǎo)它完成動(dòng)作。在大語(yǔ)言模型(LLM)的世界里,這兩種方法分別對(duì)應(yīng)"提示工程"和"控制引導(dǎo)"(steering)。

傳統(tǒng)上,我們主要通過提示工程來控制大語(yǔ)言模型的行為。這就像用語(yǔ)言指令告訴模型該做什么,比如在輸入中加入"你應(yīng)該是一個(gè)負(fù)責(zé)任的AI系統(tǒng),不應(yīng)該生成有害或誤導(dǎo)性內(nèi)容!"這種方法雖然簡(jiǎn)單直接,但存在兩個(gè)明顯的問題:一是需要專家精心設(shè)計(jì)提示語(yǔ),二是對(duì)輸入的微小變化非常敏感。就像一個(gè)調(diào)皮的孩子,如果你稍微改變指令的措辭,他可能就會(huì)找到不遵守的借口。

與此相對(duì),"控制引導(dǎo)"(steering)則是一種新興的控制模型行為的方法。它不是通過輸入指令,而是直接干預(yù)模型內(nèi)部的計(jì)算過程。這就像不是用語(yǔ)言告訴你的寵物狗該做什么,而是輕輕引導(dǎo)它的身體做出正確的動(dòng)作。這種方法更加靈活、可靠,而且更容易解釋為什么有效。

然而,傳統(tǒng)的控制引導(dǎo)方法也面臨一個(gè)重要挑戰(zhàn):大語(yǔ)言模型內(nèi)部的知識(shí)表示通常是糾纏在一起的。這就像試圖只移動(dòng)一個(gè)積木,卻發(fā)現(xiàn)它與其他積木粘在了一起,導(dǎo)致你的干預(yù)產(chǎn)生意想不到的副作用。

二、新方法:識(shí)別和控制目標(biāo)原子

為了解決這個(gè)問題,研究團(tuán)隊(duì)提出了一種名為"控制目標(biāo)原子"(Steering Target Atoms, STA)的新方法。這個(gè)名字聽起來可能有點(diǎn)復(fù)雜,但其實(shí)原理很直觀。

想象一下你的房間里堆滿了各種雜物,全都混在一起。要想找到并只拿出一本特定的書是很困難的。但如果你先把所有東西分類整理到不同的抽屜里,那么找到并取出那本書就容易多了。STA方法就是這樣工作的。

首先,研究者們使用了一種叫做"稀疏自編碼器"(Sparse Autoencoder, SAE)的技術(shù)。這種技術(shù)可以將大語(yǔ)言模型中糾纏在一起的知識(shí)表示"解開",分解成更高維度、更稀疏的特征。簡(jiǎn)單來說,就是把混在一起的知識(shí)分門別類地整理好,放在更多的"抽屜"里,使得每個(gè)"抽屜"里主要只包含一種類型的知識(shí)。

接下來,研究者們開發(fā)了一種方法來識(shí)別哪些"抽屜"(也就是論文中所說的"目標(biāo)原子")與我們想要控制的行為最相關(guān)。他們通過分析這些原子在正面示例和負(fù)面示例中的激活幅度和頻率來確定。這就像分析哪些抽屜在我們需要做特定任務(wù)時(shí)經(jīng)常被打開,哪些則很少使用。

最后,研究者們只對(duì)這些目標(biāo)原子進(jìn)行干預(yù),而不觸碰其他部分。這樣一來,他們就能精確地控制模型的特定行為,同時(shí)最小化意外的副作用。

三、實(shí)驗(yàn)結(jié)果:精確控制,副作用更少

研究團(tuán)隊(duì)在多種大語(yǔ)言模型上進(jìn)行了廣泛的實(shí)驗(yàn),包括Gemma-2-9B-pt、Gemma-2-9B-it和Llama-3.1-8B,以驗(yàn)證STA方法的有效性。

首先,他們?cè)诎踩钥刂品矫孢M(jìn)行了測(cè)試。使用SafeEdit和RealToxicPrompts兩個(gè)數(shù)據(jù)集,研究者們?cè)u(píng)估了STA方法在防止模型生成有害內(nèi)容方面的效果。結(jié)果顯示,STA方法在所有測(cè)試的模型上都取得了最佳的平均脫毒性能。例如,在Gemma-2-9B-pt模型上,防御成功率從59.97%提高到了83.45%;在Gemma-2-9B-it模型上,從83.89%提高到了97.56%;在Llama-3.1-8B模型上,從59.08%提高到了72.23%。

更令人驚喜的是,STA方法在提高安全性的同時(shí),對(duì)模型的一般能力幾乎沒有明顯的負(fù)面影響。在Gemma-2-9B-pt模型上,一般性能僅從44.73%略微下降到43.90%;在Gemma-2-9B-it模型上,從51.04%下降到49.12%。這表明STA方法能夠?qū)崿F(xiàn)精確的行為控制,而不會(huì)對(duì)模型的其他能力造成太大損害。

研究者們還發(fā)現(xiàn),在模型的中間層應(yīng)用STA方法效果最好。具體來說,在Gemma-2-9B-pt模型的24-25層進(jìn)行干預(yù)時(shí),既能獲得最佳的安全控制效果,又能最小化對(duì)一般能力的影響。

另一個(gè)有趣的發(fā)現(xiàn)是,即使只使用少量數(shù)據(jù)樣本,STA方法也能表現(xiàn)出色。實(shí)驗(yàn)表明,使用僅僅4個(gè)數(shù)據(jù)樣本構(gòu)建的控制向量,就能顯著提高模型的脫毒能力。這表明STA方法具有很高的數(shù)據(jù)效率。

四、控制方法的比較:提示工程 vs. 控制引導(dǎo)

研究團(tuán)隊(duì)進(jìn)一步對(duì)比了提示工程和控制引導(dǎo)兩種方法的效果。為了確保公平比較,他們使用STA方法將提示語(yǔ)轉(zhuǎn)換為控制向量,然后評(píng)估兩種方法的性能。

結(jié)果顯示,控制引導(dǎo)方法(包括STA和其他控制引導(dǎo)方法)在穩(wěn)健性和靈活性方面都優(yōu)于提示工程方法。這可以通過兩個(gè)主要發(fā)現(xiàn)來說明:

首先,在穩(wěn)健性方面,控制引導(dǎo)方法對(duì)輸入的微小變化不那么敏感。當(dāng)面對(duì)各種"越獄攻擊"(jailbreak attacks,即試圖誘導(dǎo)模型產(chǎn)生有害內(nèi)容的特殊輸入)時(shí),控制引導(dǎo)方法能夠更一致地保持安全防御。研究者們分析發(fā)現(xiàn),這是因?yàn)榭刂埔龑?dǎo)方法能夠顯著增強(qiáng)模型對(duì)有害查詢的注意力分?jǐn)?shù),從而提高其檢測(cè)和拒絕生成有害內(nèi)容的能力。

其次,在靈活性方面,控制引導(dǎo)方法提供了更廣泛的控制范圍。例如,在Gemma-2-9B-it模型上,通過調(diào)整提示示例的數(shù)量,防御能力的變化范圍僅為[-11.5%, 13.03%]。而使用控制引導(dǎo)方法,通過調(diào)整控制系數(shù)在[-10, 10]范圍內(nèi),防御能力的變化范圍可達(dá)[-53.77%, 29.63%],遠(yuǎn)遠(yuǎn)超過提示工程方法的控制范圍。

這兩種方法之間的差異可以類比為兩種教孩子騎自行車的方法:提示工程就像用語(yǔ)言指導(dǎo)("向前蹬,保持平衡"),而控制引導(dǎo)則像是家長(zhǎng)扶著自行車后座直接引導(dǎo)孩子的動(dòng)作。后者在面對(duì)復(fù)雜情況時(shí)往往更加可靠和有效。

五、應(yīng)用于推理控制:讓模型思考得更高效

除了安全性控制,研究團(tuán)隊(duì)還探索了STA方法在控制大型推理模型思考長(zhǎng)度方面的應(yīng)用。這個(gè)研究方向非常有意義,因?yàn)樽钚碌拇笮屯评砟P碗m然推理能力強(qiáng)大,但有時(shí)會(huì)在簡(jiǎn)單問題上過度思考(overthinking),浪費(fèi)計(jì)算資源并延長(zhǎng)響應(yīng)時(shí)間。

研究者們首先構(gòu)建了一個(gè)包含長(zhǎng)思考和短思考兩種答案的示例,然后使用CAA方法(一種控制引導(dǎo)技術(shù))將這種思考模式轉(zhuǎn)換為控制向量。接著,他們將這個(gè)向量應(yīng)用于DeepSeek-R1-Distill-Qwen-7B模型,在GSM8K基準(zhǔn)測(cè)試中控制推理的長(zhǎng)度。

實(shí)驗(yàn)結(jié)果表明,控制引導(dǎo)策略在調(diào)整推理長(zhǎng)度方面表現(xiàn)出色,既可以延長(zhǎng)也可以縮短推理,同時(shí)保持準(zhǔn)確性。例如,對(duì)于一個(gè)簡(jiǎn)單的數(shù)學(xué)問題"一件衣服需要2卷藍(lán)色纖維和一半數(shù)量的白色纖維??偣残枰嗌倬砝w維?",原始模型可能會(huì)生成冗長(zhǎng)的300個(gè)標(biāo)記的解決方案,而通過控制引導(dǎo),可以將其減少到只有87個(gè)標(biāo)記的簡(jiǎn)潔解答,同時(shí)保持答案正確。

這一發(fā)現(xiàn)對(duì)于提高大型語(yǔ)言模型的效率具有重要意義,可以幫助解決過度思考問題,并引導(dǎo)AI的決策邏輯更加高效。

六、研究的局限性與未來方向

盡管STA方法表現(xiàn)出色,研究團(tuán)隊(duì)也坦誠(chéng)地指出了一些局限性:

首先,由于公開可用的稀疏自編碼器(SAE)有限,實(shí)驗(yàn)主要在Gemma-2-9B-pt、Gemma-2-9B-it和Llama-3.1-8B模型上進(jìn)行。未來研究可以擴(kuò)展到更廣泛的大語(yǔ)言模型,包括更大、更多樣化的架構(gòu)。

其次,雖然STA方法在安全性控制方面表現(xiàn)出色,但在個(gè)性化領(lǐng)域的效果有限。研究者們?cè)诟戒浿刑岬剑琒TA在控制模型的"短視獎(jiǎng)勵(lì)"(myopic reward)個(gè)性特征方面雖然優(yōu)于提示工程方法,但與其他控制引導(dǎo)方法相比并無明顯優(yōu)勢(shì)。這表明不同類型的行為控制可能需要不同的方法。

最后,研究團(tuán)隊(duì)提到,雖然STA方法能夠?qū)崿F(xiàn)精確的行為控制,但如何更好地理解和解釋控制過程中的因果關(guān)系仍是一個(gè)值得深入研究的問題。

七、總結(jié)與啟示

這項(xiàng)研究為控制大語(yǔ)言模型的行為提供了一種新的、更精確的方法。通過識(shí)別和操作"目標(biāo)原子",STA方法能夠在最小化副作用的同時(shí)實(shí)現(xiàn)穩(wěn)健的行為控制。

相比傳統(tǒng)的提示工程方法,控制引導(dǎo)方法(尤其是STA)展現(xiàn)出更好的穩(wěn)健性和靈活性,能夠更好地應(yīng)對(duì)各種復(fù)雜的輸入情況。這對(duì)于確保大語(yǔ)言模型的安全性和可靠性具有重要意義。

更廣泛地看,這項(xiàng)研究揭示了大語(yǔ)言模型內(nèi)部知識(shí)表示的復(fù)雜性,以及如何通過解耦這些表示來實(shí)現(xiàn)更精確的控制。這不僅有助于提高模型的安全性,還可能為未來的模型解釋性和可控性研究提供新的思路。

對(duì)于普通用戶來說,這項(xiàng)研究的成果意味著未來的AI系統(tǒng)可能會(huì)更加可靠和安全,能夠更好地遵循人類的指令,同時(shí)避免產(chǎn)生有害內(nèi)容。對(duì)于AI開發(fā)者來說,STA方法提供了一種新的工具,可以在不需要重新訓(xùn)練模型的情況下,在推理階段精確控制模型的行為。

隨著大語(yǔ)言模型繼續(xù)發(fā)展和普及,像STA這樣的精確控制方法將變得越來越重要,有助于確保這些強(qiáng)大的AI系統(tǒng)能夠安全、可靠地服務(wù)于人類需求。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-