近日,來自浙江大學、騰訊AI實驗室和新加坡國立大學NUS-NCS聯(lián)合實驗室的研究團隊發(fā)表了一項引人注目的研究成果。這篇名為《超越提示工程:通過控制目標原子實現(xiàn)大語言模型的穩(wěn)健行為控制》的論文由王夢如、徐子文、毛圣宇、鄧淑敏、涂兆鵬、陳華軍和張寧宇共同完成,發(fā)表于2025年5月。有興趣的讀者可以通過arXiv:2505.20322v1 [cs.CL]查閱完整論文。
一、研究背景:控制大語言模型行為的兩種方式
想象一下你有一只聰明但有時不太聽話的寵物狗。你有兩種方式讓它按你的意愿行動:一種是用語言指令("坐下"、"握手"),另一種是直接輕推它的身體引導它完成動作。在大語言模型(LLM)的世界里,這兩種方法分別對應"提示工程"和"控制引導"(steering)。
傳統(tǒng)上,我們主要通過提示工程來控制大語言模型的行為。這就像用語言指令告訴模型該做什么,比如在輸入中加入"你應該是一個負責任的AI系統(tǒng),不應該生成有害或誤導性內(nèi)容!"這種方法雖然簡單直接,但存在兩個明顯的問題:一是需要專家精心設(shè)計提示語,二是對輸入的微小變化非常敏感。就像一個調(diào)皮的孩子,如果你稍微改變指令的措辭,他可能就會找到不遵守的借口。
與此相對,"控制引導"(steering)則是一種新興的控制模型行為的方法。它不是通過輸入指令,而是直接干預模型內(nèi)部的計算過程。這就像不是用語言告訴你的寵物狗該做什么,而是輕輕引導它的身體做出正確的動作。這種方法更加靈活、可靠,而且更容易解釋為什么有效。
然而,傳統(tǒng)的控制引導方法也面臨一個重要挑戰(zhàn):大語言模型內(nèi)部的知識表示通常是糾纏在一起的。這就像試圖只移動一個積木,卻發(fā)現(xiàn)它與其他積木粘在了一起,導致你的干預產(chǎn)生意想不到的副作用。
二、新方法:識別和控制目標原子
為了解決這個問題,研究團隊提出了一種名為"控制目標原子"(Steering Target Atoms, STA)的新方法。這個名字聽起來可能有點復雜,但其實原理很直觀。
想象一下你的房間里堆滿了各種雜物,全都混在一起。要想找到并只拿出一本特定的書是很困難的。但如果你先把所有東西分類整理到不同的抽屜里,那么找到并取出那本書就容易多了。STA方法就是這樣工作的。
首先,研究者們使用了一種叫做"稀疏自編碼器"(Sparse Autoencoder, SAE)的技術(shù)。這種技術(shù)可以將大語言模型中糾纏在一起的知識表示"解開",分解成更高維度、更稀疏的特征。簡單來說,就是把混在一起的知識分門別類地整理好,放在更多的"抽屜"里,使得每個"抽屜"里主要只包含一種類型的知識。
接下來,研究者們開發(fā)了一種方法來識別哪些"抽屜"(也就是論文中所說的"目標原子")與我們想要控制的行為最相關(guān)。他們通過分析這些原子在正面示例和負面示例中的激活幅度和頻率來確定。這就像分析哪些抽屜在我們需要做特定任務時經(jīng)常被打開,哪些則很少使用。
最后,研究者們只對這些目標原子進行干預,而不觸碰其他部分。這樣一來,他們就能精確地控制模型的特定行為,同時最小化意外的副作用。
三、實驗結(jié)果:精確控制,副作用更少
研究團隊在多種大語言模型上進行了廣泛的實驗,包括Gemma-2-9B-pt、Gemma-2-9B-it和Llama-3.1-8B,以驗證STA方法的有效性。
首先,他們在安全性控制方面進行了測試。使用SafeEdit和RealToxicPrompts兩個數(shù)據(jù)集,研究者們評估了STA方法在防止模型生成有害內(nèi)容方面的效果。結(jié)果顯示,STA方法在所有測試的模型上都取得了最佳的平均脫毒性能。例如,在Gemma-2-9B-pt模型上,防御成功率從59.97%提高到了83.45%;在Gemma-2-9B-it模型上,從83.89%提高到了97.56%;在Llama-3.1-8B模型上,從59.08%提高到了72.23%。
更令人驚喜的是,STA方法在提高安全性的同時,對模型的一般能力幾乎沒有明顯的負面影響。在Gemma-2-9B-pt模型上,一般性能僅從44.73%略微下降到43.90%;在Gemma-2-9B-it模型上,從51.04%下降到49.12%。這表明STA方法能夠?qū)崿F(xiàn)精確的行為控制,而不會對模型的其他能力造成太大損害。
研究者們還發(fā)現(xiàn),在模型的中間層應用STA方法效果最好。具體來說,在Gemma-2-9B-pt模型的24-25層進行干預時,既能獲得最佳的安全控制效果,又能最小化對一般能力的影響。
另一個有趣的發(fā)現(xiàn)是,即使只使用少量數(shù)據(jù)樣本,STA方法也能表現(xiàn)出色。實驗表明,使用僅僅4個數(shù)據(jù)樣本構(gòu)建的控制向量,就能顯著提高模型的脫毒能力。這表明STA方法具有很高的數(shù)據(jù)效率。
四、控制方法的比較:提示工程 vs. 控制引導
研究團隊進一步對比了提示工程和控制引導兩種方法的效果。為了確保公平比較,他們使用STA方法將提示語轉(zhuǎn)換為控制向量,然后評估兩種方法的性能。
結(jié)果顯示,控制引導方法(包括STA和其他控制引導方法)在穩(wěn)健性和靈活性方面都優(yōu)于提示工程方法。這可以通過兩個主要發(fā)現(xiàn)來說明:
首先,在穩(wěn)健性方面,控制引導方法對輸入的微小變化不那么敏感。當面對各種"越獄攻擊"(jailbreak attacks,即試圖誘導模型產(chǎn)生有害內(nèi)容的特殊輸入)時,控制引導方法能夠更一致地保持安全防御。研究者們分析發(fā)現(xiàn),這是因為控制引導方法能夠顯著增強模型對有害查詢的注意力分數(shù),從而提高其檢測和拒絕生成有害內(nèi)容的能力。
其次,在靈活性方面,控制引導方法提供了更廣泛的控制范圍。例如,在Gemma-2-9B-it模型上,通過調(diào)整提示示例的數(shù)量,防御能力的變化范圍僅為[-11.5%, 13.03%]。而使用控制引導方法,通過調(diào)整控制系數(shù)在[-10, 10]范圍內(nèi),防御能力的變化范圍可達[-53.77%, 29.63%],遠遠超過提示工程方法的控制范圍。
這兩種方法之間的差異可以類比為兩種教孩子騎自行車的方法:提示工程就像用語言指導("向前蹬,保持平衡"),而控制引導則像是家長扶著自行車后座直接引導孩子的動作。后者在面對復雜情況時往往更加可靠和有效。
五、應用于推理控制:讓模型思考得更高效
除了安全性控制,研究團隊還探索了STA方法在控制大型推理模型思考長度方面的應用。這個研究方向非常有意義,因為最新的大型推理模型雖然推理能力強大,但有時會在簡單問題上過度思考(overthinking),浪費計算資源并延長響應時間。
研究者們首先構(gòu)建了一個包含長思考和短思考兩種答案的示例,然后使用CAA方法(一種控制引導技術(shù))將這種思考模式轉(zhuǎn)換為控制向量。接著,他們將這個向量應用于DeepSeek-R1-Distill-Qwen-7B模型,在GSM8K基準測試中控制推理的長度。
實驗結(jié)果表明,控制引導策略在調(diào)整推理長度方面表現(xiàn)出色,既可以延長也可以縮短推理,同時保持準確性。例如,對于一個簡單的數(shù)學問題"一件衣服需要2卷藍色纖維和一半數(shù)量的白色纖維。總共需要多少卷纖維?",原始模型可能會生成冗長的300個標記的解決方案,而通過控制引導,可以將其減少到只有87個標記的簡潔解答,同時保持答案正確。
這一發(fā)現(xiàn)對于提高大型語言模型的效率具有重要意義,可以幫助解決過度思考問題,并引導AI的決策邏輯更加高效。
六、研究的局限性與未來方向
盡管STA方法表現(xiàn)出色,研究團隊也坦誠地指出了一些局限性:
首先,由于公開可用的稀疏自編碼器(SAE)有限,實驗主要在Gemma-2-9B-pt、Gemma-2-9B-it和Llama-3.1-8B模型上進行。未來研究可以擴展到更廣泛的大語言模型,包括更大、更多樣化的架構(gòu)。
其次,雖然STA方法在安全性控制方面表現(xiàn)出色,但在個性化領(lǐng)域的效果有限。研究者們在附錄中提到,STA在控制模型的"短視獎勵"(myopic reward)個性特征方面雖然優(yōu)于提示工程方法,但與其他控制引導方法相比并無明顯優(yōu)勢。這表明不同類型的行為控制可能需要不同的方法。
最后,研究團隊提到,雖然STA方法能夠?qū)崿F(xiàn)精確的行為控制,但如何更好地理解和解釋控制過程中的因果關(guān)系仍是一個值得深入研究的問題。
七、總結(jié)與啟示
這項研究為控制大語言模型的行為提供了一種新的、更精確的方法。通過識別和操作"目標原子",STA方法能夠在最小化副作用的同時實現(xiàn)穩(wěn)健的行為控制。
相比傳統(tǒng)的提示工程方法,控制引導方法(尤其是STA)展現(xiàn)出更好的穩(wěn)健性和靈活性,能夠更好地應對各種復雜的輸入情況。這對于確保大語言模型的安全性和可靠性具有重要意義。
更廣泛地看,這項研究揭示了大語言模型內(nèi)部知識表示的復雜性,以及如何通過解耦這些表示來實現(xiàn)更精確的控制。這不僅有助于提高模型的安全性,還可能為未來的模型解釋性和可控性研究提供新的思路。
對于普通用戶來說,這項研究的成果意味著未來的AI系統(tǒng)可能會更加可靠和安全,能夠更好地遵循人類的指令,同時避免產(chǎn)生有害內(nèi)容。對于AI開發(fā)者來說,STA方法提供了一種新的工具,可以在不需要重新訓練模型的情況下,在推理階段精確控制模型的行為。
隨著大語言模型繼續(xù)發(fā)展和普及,像STA這樣的精確控制方法將變得越來越重要,有助于確保這些強大的AI系統(tǒng)能夠安全、可靠地服務于人類需求。
好文章,需要你的鼓勵
北航團隊推出Easy Dataset框架,通過直觀的圖形界面和角色驅(qū)動的生成方法,讓普通用戶能夠輕松將各種格式文檔轉(zhuǎn)換為高質(zhì)量的AI訓練數(shù)據(jù)。該工具集成了智能文檔解析、混合分塊策略和個性化問答生成功能,在金融領(lǐng)域?qū)嶒炛酗@著提升了AI模型的專業(yè)表現(xiàn),同時保持通用能力。項目已開源并獲得超過9000顆GitHub星標。
盧森堡計算機事件響應中心開發(fā)的VLAI系統(tǒng),基于RoBERTa模型,能夠通過閱讀漏洞描述自動判斷危險等級。該系統(tǒng)在60萬個真實漏洞數(shù)據(jù)上訓練,準確率達82.8%,已集成到實際安全服務中。研究采用開源方式,為網(wǎng)絡安全專家提供快速漏洞風險評估工具,有效解決了官方評分發(fā)布前的安全決策難題。
中國電信研究院等機構(gòu)聯(lián)合開發(fā)的xVerify系統(tǒng),專門解決復雜AI推理模型的評估難題。該系統(tǒng)能夠準確判斷包含多步推理過程的AI輸出,在準確率和效率方面均超越現(xiàn)有方法,為AI評估領(lǐng)域提供了重要突破。
昆侖公司Skywork AI團隊開發(fā)的Skywork R1V模型,成功將文本推理能力擴展到視覺領(lǐng)域。該模型僅用380億參數(shù)就實現(xiàn)了與大型閉源模型相媲美的多模態(tài)推理性能,在MMMU測試中達到69.0分,在MathVista獲得67.5分,同時保持了優(yōu)秀的文本推理能力。研究團隊采用高效的多模態(tài)遷移、混合優(yōu)化框架和自適應推理鏈蒸餾三項核心技術(shù),成功實現(xiàn)了視覺理解與邏輯推理的完美結(jié)合,并將所有代碼和權(quán)重完全開源。