近日,來自浙江大學(xué)、騰訊AI實(shí)驗(yàn)室和新加坡國(guó)立大學(xué)NUS-NCS聯(lián)合實(shí)驗(yàn)室的研究團(tuán)隊(duì)發(fā)表了一項(xiàng)引人注目的研究成果。這篇名為《超越提示工程:通過控制目標(biāo)原子實(shí)現(xiàn)大語(yǔ)言模型的穩(wěn)健行為控制》的論文由王夢(mèng)如、徐子文、毛圣宇、鄧淑敏、涂兆鵬、陳華軍和張寧宇共同完成,發(fā)表于2025年5月。有興趣的讀者可以通過arXiv:2505.20322v1 [cs.CL]查閱完整論文。
一、研究背景:控制大語(yǔ)言模型行為的兩種方式
想象一下你有一只聰明但有時(shí)不太聽話的寵物狗。你有兩種方式讓它按你的意愿行動(dòng):一種是用語(yǔ)言指令("坐下"、"握手"),另一種是直接輕推它的身體引導(dǎo)它完成動(dòng)作。在大語(yǔ)言模型(LLM)的世界里,這兩種方法分別對(duì)應(yīng)"提示工程"和"控制引導(dǎo)"(steering)。
傳統(tǒng)上,我們主要通過提示工程來控制大語(yǔ)言模型的行為。這就像用語(yǔ)言指令告訴模型該做什么,比如在輸入中加入"你應(yīng)該是一個(gè)負(fù)責(zé)任的AI系統(tǒng),不應(yīng)該生成有害或誤導(dǎo)性內(nèi)容!"這種方法雖然簡(jiǎn)單直接,但存在兩個(gè)明顯的問題:一是需要專家精心設(shè)計(jì)提示語(yǔ),二是對(duì)輸入的微小變化非常敏感。就像一個(gè)調(diào)皮的孩子,如果你稍微改變指令的措辭,他可能就會(huì)找到不遵守的借口。
與此相對(duì),"控制引導(dǎo)"(steering)則是一種新興的控制模型行為的方法。它不是通過輸入指令,而是直接干預(yù)模型內(nèi)部的計(jì)算過程。這就像不是用語(yǔ)言告訴你的寵物狗該做什么,而是輕輕引導(dǎo)它的身體做出正確的動(dòng)作。這種方法更加靈活、可靠,而且更容易解釋為什么有效。
然而,傳統(tǒng)的控制引導(dǎo)方法也面臨一個(gè)重要挑戰(zhàn):大語(yǔ)言模型內(nèi)部的知識(shí)表示通常是糾纏在一起的。這就像試圖只移動(dòng)一個(gè)積木,卻發(fā)現(xiàn)它與其他積木粘在了一起,導(dǎo)致你的干預(yù)產(chǎn)生意想不到的副作用。
二、新方法:識(shí)別和控制目標(biāo)原子
為了解決這個(gè)問題,研究團(tuán)隊(duì)提出了一種名為"控制目標(biāo)原子"(Steering Target Atoms, STA)的新方法。這個(gè)名字聽起來可能有點(diǎn)復(fù)雜,但其實(shí)原理很直觀。
想象一下你的房間里堆滿了各種雜物,全都混在一起。要想找到并只拿出一本特定的書是很困難的。但如果你先把所有東西分類整理到不同的抽屜里,那么找到并取出那本書就容易多了。STA方法就是這樣工作的。
首先,研究者們使用了一種叫做"稀疏自編碼器"(Sparse Autoencoder, SAE)的技術(shù)。這種技術(shù)可以將大語(yǔ)言模型中糾纏在一起的知識(shí)表示"解開",分解成更高維度、更稀疏的特征。簡(jiǎn)單來說,就是把混在一起的知識(shí)分門別類地整理好,放在更多的"抽屜"里,使得每個(gè)"抽屜"里主要只包含一種類型的知識(shí)。
接下來,研究者們開發(fā)了一種方法來識(shí)別哪些"抽屜"(也就是論文中所說的"目標(biāo)原子")與我們想要控制的行為最相關(guān)。他們通過分析這些原子在正面示例和負(fù)面示例中的激活幅度和頻率來確定。這就像分析哪些抽屜在我們需要做特定任務(wù)時(shí)經(jīng)常被打開,哪些則很少使用。
最后,研究者們只對(duì)這些目標(biāo)原子進(jìn)行干預(yù),而不觸碰其他部分。這樣一來,他們就能精確地控制模型的特定行為,同時(shí)最小化意外的副作用。
三、實(shí)驗(yàn)結(jié)果:精確控制,副作用更少
研究團(tuán)隊(duì)在多種大語(yǔ)言模型上進(jìn)行了廣泛的實(shí)驗(yàn),包括Gemma-2-9B-pt、Gemma-2-9B-it和Llama-3.1-8B,以驗(yàn)證STA方法的有效性。
首先,他們?cè)诎踩钥刂品矫孢M(jìn)行了測(cè)試。使用SafeEdit和RealToxicPrompts兩個(gè)數(shù)據(jù)集,研究者們?cè)u(píng)估了STA方法在防止模型生成有害內(nèi)容方面的效果。結(jié)果顯示,STA方法在所有測(cè)試的模型上都取得了最佳的平均脫毒性能。例如,在Gemma-2-9B-pt模型上,防御成功率從59.97%提高到了83.45%;在Gemma-2-9B-it模型上,從83.89%提高到了97.56%;在Llama-3.1-8B模型上,從59.08%提高到了72.23%。
更令人驚喜的是,STA方法在提高安全性的同時(shí),對(duì)模型的一般能力幾乎沒有明顯的負(fù)面影響。在Gemma-2-9B-pt模型上,一般性能僅從44.73%略微下降到43.90%;在Gemma-2-9B-it模型上,從51.04%下降到49.12%。這表明STA方法能夠?qū)崿F(xiàn)精確的行為控制,而不會(huì)對(duì)模型的其他能力造成太大損害。
研究者們還發(fā)現(xiàn),在模型的中間層應(yīng)用STA方法效果最好。具體來說,在Gemma-2-9B-pt模型的24-25層進(jìn)行干預(yù)時(shí),既能獲得最佳的安全控制效果,又能最小化對(duì)一般能力的影響。
另一個(gè)有趣的發(fā)現(xiàn)是,即使只使用少量數(shù)據(jù)樣本,STA方法也能表現(xiàn)出色。實(shí)驗(yàn)表明,使用僅僅4個(gè)數(shù)據(jù)樣本構(gòu)建的控制向量,就能顯著提高模型的脫毒能力。這表明STA方法具有很高的數(shù)據(jù)效率。
四、控制方法的比較:提示工程 vs. 控制引導(dǎo)
研究團(tuán)隊(duì)進(jìn)一步對(duì)比了提示工程和控制引導(dǎo)兩種方法的效果。為了確保公平比較,他們使用STA方法將提示語(yǔ)轉(zhuǎn)換為控制向量,然后評(píng)估兩種方法的性能。
結(jié)果顯示,控制引導(dǎo)方法(包括STA和其他控制引導(dǎo)方法)在穩(wěn)健性和靈活性方面都優(yōu)于提示工程方法。這可以通過兩個(gè)主要發(fā)現(xiàn)來說明:
首先,在穩(wěn)健性方面,控制引導(dǎo)方法對(duì)輸入的微小變化不那么敏感。當(dāng)面對(duì)各種"越獄攻擊"(jailbreak attacks,即試圖誘導(dǎo)模型產(chǎn)生有害內(nèi)容的特殊輸入)時(shí),控制引導(dǎo)方法能夠更一致地保持安全防御。研究者們分析發(fā)現(xiàn),這是因?yàn)榭刂埔龑?dǎo)方法能夠顯著增強(qiáng)模型對(duì)有害查詢的注意力分?jǐn)?shù),從而提高其檢測(cè)和拒絕生成有害內(nèi)容的能力。
其次,在靈活性方面,控制引導(dǎo)方法提供了更廣泛的控制范圍。例如,在Gemma-2-9B-it模型上,通過調(diào)整提示示例的數(shù)量,防御能力的變化范圍僅為[-11.5%, 13.03%]。而使用控制引導(dǎo)方法,通過調(diào)整控制系數(shù)在[-10, 10]范圍內(nèi),防御能力的變化范圍可達(dá)[-53.77%, 29.63%],遠(yuǎn)遠(yuǎn)超過提示工程方法的控制范圍。
這兩種方法之間的差異可以類比為兩種教孩子騎自行車的方法:提示工程就像用語(yǔ)言指導(dǎo)("向前蹬,保持平衡"),而控制引導(dǎo)則像是家長(zhǎng)扶著自行車后座直接引導(dǎo)孩子的動(dòng)作。后者在面對(duì)復(fù)雜情況時(shí)往往更加可靠和有效。
五、應(yīng)用于推理控制:讓模型思考得更高效
除了安全性控制,研究團(tuán)隊(duì)還探索了STA方法在控制大型推理模型思考長(zhǎng)度方面的應(yīng)用。這個(gè)研究方向非常有意義,因?yàn)樽钚碌拇笮屯评砟P碗m然推理能力強(qiáng)大,但有時(shí)會(huì)在簡(jiǎn)單問題上過度思考(overthinking),浪費(fèi)計(jì)算資源并延長(zhǎng)響應(yīng)時(shí)間。
研究者們首先構(gòu)建了一個(gè)包含長(zhǎng)思考和短思考兩種答案的示例,然后使用CAA方法(一種控制引導(dǎo)技術(shù))將這種思考模式轉(zhuǎn)換為控制向量。接著,他們將這個(gè)向量應(yīng)用于DeepSeek-R1-Distill-Qwen-7B模型,在GSM8K基準(zhǔn)測(cè)試中控制推理的長(zhǎng)度。
實(shí)驗(yàn)結(jié)果表明,控制引導(dǎo)策略在調(diào)整推理長(zhǎng)度方面表現(xiàn)出色,既可以延長(zhǎng)也可以縮短推理,同時(shí)保持準(zhǔn)確性。例如,對(duì)于一個(gè)簡(jiǎn)單的數(shù)學(xué)問題"一件衣服需要2卷藍(lán)色纖維和一半數(shù)量的白色纖維??偣残枰嗌倬砝w維?",原始模型可能會(huì)生成冗長(zhǎng)的300個(gè)標(biāo)記的解決方案,而通過控制引導(dǎo),可以將其減少到只有87個(gè)標(biāo)記的簡(jiǎn)潔解答,同時(shí)保持答案正確。
這一發(fā)現(xiàn)對(duì)于提高大型語(yǔ)言模型的效率具有重要意義,可以幫助解決過度思考問題,并引導(dǎo)AI的決策邏輯更加高效。
六、研究的局限性與未來方向
盡管STA方法表現(xiàn)出色,研究團(tuán)隊(duì)也坦誠(chéng)地指出了一些局限性:
首先,由于公開可用的稀疏自編碼器(SAE)有限,實(shí)驗(yàn)主要在Gemma-2-9B-pt、Gemma-2-9B-it和Llama-3.1-8B模型上進(jìn)行。未來研究可以擴(kuò)展到更廣泛的大語(yǔ)言模型,包括更大、更多樣化的架構(gòu)。
其次,雖然STA方法在安全性控制方面表現(xiàn)出色,但在個(gè)性化領(lǐng)域的效果有限。研究者們?cè)诟戒浿刑岬剑琒TA在控制模型的"短視獎(jiǎng)勵(lì)"(myopic reward)個(gè)性特征方面雖然優(yōu)于提示工程方法,但與其他控制引導(dǎo)方法相比并無明顯優(yōu)勢(shì)。這表明不同類型的行為控制可能需要不同的方法。
最后,研究團(tuán)隊(duì)提到,雖然STA方法能夠?qū)崿F(xiàn)精確的行為控制,但如何更好地理解和解釋控制過程中的因果關(guān)系仍是一個(gè)值得深入研究的問題。
七、總結(jié)與啟示
這項(xiàng)研究為控制大語(yǔ)言模型的行為提供了一種新的、更精確的方法。通過識(shí)別和操作"目標(biāo)原子",STA方法能夠在最小化副作用的同時(shí)實(shí)現(xiàn)穩(wěn)健的行為控制。
相比傳統(tǒng)的提示工程方法,控制引導(dǎo)方法(尤其是STA)展現(xiàn)出更好的穩(wěn)健性和靈活性,能夠更好地應(yīng)對(duì)各種復(fù)雜的輸入情況。這對(duì)于確保大語(yǔ)言模型的安全性和可靠性具有重要意義。
更廣泛地看,這項(xiàng)研究揭示了大語(yǔ)言模型內(nèi)部知識(shí)表示的復(fù)雜性,以及如何通過解耦這些表示來實(shí)現(xiàn)更精確的控制。這不僅有助于提高模型的安全性,還可能為未來的模型解釋性和可控性研究提供新的思路。
對(duì)于普通用戶來說,這項(xiàng)研究的成果意味著未來的AI系統(tǒng)可能會(huì)更加可靠和安全,能夠更好地遵循人類的指令,同時(shí)避免產(chǎn)生有害內(nèi)容。對(duì)于AI開發(fā)者來說,STA方法提供了一種新的工具,可以在不需要重新訓(xùn)練模型的情況下,在推理階段精確控制模型的行為。
隨著大語(yǔ)言模型繼續(xù)發(fā)展和普及,像STA這樣的精確控制方法將變得越來越重要,有助于確保這些強(qiáng)大的AI系統(tǒng)能夠安全、可靠地服務(wù)于人類需求。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語(yǔ)言模型的敘事推理能力與音頻生成技術(shù),通過交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語(yǔ)言模型人性化對(duì)話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。