在大語(yǔ)言模型(LLM)迅速發(fā)展的今天,一項(xiàng)來(lái)自印度的創(chuàng)新研究正在改變我們微調(diào)這些龐大模型的方式。發(fā)表于2025年6月5日(arXiv:2506.05629v1)的研究論文《利用自注意力機(jī)制實(shí)現(xiàn)輸入依賴的軟提示在大語(yǔ)言模型中的應(yīng)用》(Leveraging Self-Attention for Input-Dependent Soft Prompting in LLMs)由IIIT海德拉巴的Ananth Muppidi、IIT哈拉格普爾的Abhilash Nandy以及Adobe研究院的Sambaran Bandyopadhyay共同完成。這項(xiàng)研究為如何更高效地讓大語(yǔ)言模型適應(yīng)特定任務(wù)提供了一種全新思路。
想象一下,你有一輛功能強(qiáng)大的越野車(大語(yǔ)言模型),它在各種一般道路上表現(xiàn)出色,但當(dāng)你需要在特定地形如沙漠或雪地行駛時(shí)(特定領(lǐng)域任務(wù)),你需要對(duì)它進(jìn)行調(diào)整。傳統(tǒng)的方法是徹底改裝整車(完全微調(diào)),這既昂貴又費(fèi)時(shí)。而近年來(lái)出現(xiàn)的"軟提示"方法則像是安裝一個(gè)小型輔助設(shè)備,只需調(diào)整這個(gè)設(shè)備而不觸碰汽車本身,就能讓車輛適應(yīng)特殊地形。
研究團(tuán)隊(duì)發(fā)現(xiàn),現(xiàn)有的軟提示方法存在一個(gè)關(guān)鍵限制:它們通常使用同一個(gè)"通用輔助設(shè)備"來(lái)應(yīng)對(duì)所有地形。這就好比無(wú)論是沙漠、雪地還是山路,都使用同一套輪胎調(diào)整,顯然不夠理想。少數(shù)幾個(gè)考慮到輸入依賴的方法又過(guò)于復(fù)雜,需要在車輛的多個(gè)部件上都安裝調(diào)整裝置。
于是,研究者們提出了一種創(chuàng)新的解決方案:輸入依賴的軟提示技術(shù)搭配自注意力機(jī)制(ID-SPAM)。這種方法就像一個(gè)智能適應(yīng)系統(tǒng),它會(huì)根據(jù)當(dāng)前道路情況(輸入文本)自動(dòng)調(diào)整輔助設(shè)備的參數(shù),并且特別關(guān)注路面的關(guān)鍵特征(文本中的重要詞匯),同時(shí)保持整個(gè)系統(tǒng)的簡(jiǎn)單高效。
通過(guò)在GLUE和SuperGLUE這兩個(gè)語(yǔ)言理解基準(zhǔn)測(cè)試上的實(shí)驗(yàn),研究團(tuán)隊(duì)證明了ID-SPAM的優(yōu)越性。與現(xiàn)有技術(shù)相比,這種新方法在多數(shù)任務(wù)上表現(xiàn)更好,特別是在零樣本域遷移能力(將一個(gè)任務(wù)學(xué)到的知識(shí)應(yīng)用到全新任務(wù))方面表現(xiàn)出色。這就像一輛車不僅能適應(yīng)沙漠,還能憑借這種適應(yīng)性更快地調(diào)整到雪地環(huán)境,而無(wú)需重新學(xué)習(xí)。
接下來(lái),讓我們深入了解這項(xiàng)研究的細(xì)節(jié),看看研究團(tuán)隊(duì)是如何設(shè)計(jì)并實(shí)現(xiàn)這個(gè)創(chuàng)新系統(tǒng)的。
一、研究背景與挑戰(zhàn)
大語(yǔ)言模型如BERT和GPT系列在自然語(yǔ)言處理領(lǐng)域取得了顯著進(jìn)步,它們?cè)谏伞⒎g和摘要等任務(wù)上表現(xiàn)出色。然而,當(dāng)面對(duì)特定領(lǐng)域的任務(wù)時(shí),這些模型往往需要在特定數(shù)據(jù)集上進(jìn)行微調(diào)才能發(fā)揮最佳性能。
傳統(tǒng)的微調(diào)方法需要更新模型中所有參數(shù),對(duì)于擁有數(shù)百萬(wàn)甚至數(shù)十億參數(shù)的大模型來(lái)說(shuō),這種做法計(jì)算成本高昂且技術(shù)復(fù)雜。想象一下,這就像重新編程一個(gè)巨大的電子設(shè)備,需要調(diào)整每一個(gè)電路和芯片,工作量驚人。
為此,研究人員開發(fā)了參數(shù)高效微調(diào)(PEFT)方法,其核心思想是固定模型大部分參數(shù),只學(xué)習(xí)一小部分參數(shù)。這就像只更換設(shè)備的某個(gè)模塊,而不是重建整個(gè)系統(tǒng)。
在這些PEFT方法中,軟提示(Soft Prompting)是一種很有前途的方法。它不改變模型核心架構(gòu),而是在模型的一個(gè)或多個(gè)變換器層的輸入處引入一個(gè)小的可訓(xùn)練向量(稱為"軟提示")。在微調(diào)過(guò)程中,只有這個(gè)軟提示被訓(xùn)練以適應(yīng)下游任務(wù),基礎(chǔ)模型的參數(shù)保持不變。
現(xiàn)有的軟提示方法主要有以下幾種:
普通提示調(diào)整(Prompt Tuning):在文本輸入的嵌入向量前添加可訓(xùn)練的軟提示向量。
前綴調(diào)整(Prefix Tuning):在每個(gè)變換器層前添加軟提示。
P-tuning:將可學(xué)習(xí)的提示與輸入嵌入交錯(cuò)排列。
這些方法雖然有效,但都存在一個(gè)共同的局限性:軟提示與實(shí)際輸入是獨(dú)立的。這就像一個(gè)固定的輔助工具,無(wú)論處理什么樣的輸入都使用相同的設(shè)置,這限制了模型根據(jù)實(shí)際輸入調(diào)整的能力,也使訓(xùn)練變得更加困難,增加了收斂時(shí)間。
雖然一些最近的方法開始利用輸入依賴的軟提示,但它們要么需要在基礎(chǔ)模型的每個(gè)變換器層或中間層后連接軟提示,要么需要通過(guò)與輸入詞元的交叉注意力轉(zhuǎn)換軟提示。這些方法仍然存在多重限制:結(jié)構(gòu)復(fù)雜、無(wú)法根據(jù)輸入詞的重要性進(jìn)行不同權(quán)重的注意力分配,以及可訓(xùn)練參數(shù)數(shù)量增加顯著。
二、創(chuàng)新解決方案:ID-SPAM
研究團(tuán)隊(duì)提出的輸入依賴軟提示技術(shù)搭配自注意力機(jī)制(ID-SPAM)就像是一個(gè)智能適應(yīng)系統(tǒng),它能夠根據(jù)輸入內(nèi)容生成定制化的軟提示,并且通過(guò)自注意力機(jī)制關(guān)注輸入中的重要元素。
這種方法的工作原理可以類比為一個(gè)自動(dòng)導(dǎo)航系統(tǒng):當(dāng)你駕駛汽車進(jìn)入不同地形時(shí),系統(tǒng)會(huì)分析當(dāng)前路況(輸入文本),特別關(guān)注關(guān)鍵路標(biāo)和障礙物(重要詞匯),然后自動(dòng)調(diào)整車輛設(shè)置(生成軟提示)以適應(yīng)當(dāng)前環(huán)境。
具體來(lái)說(shuō),ID-SPAM的工作流程如下:
首先,系統(tǒng)接收輸入文本,并將其轉(zhuǎn)換為詞元嵌入表示。
然后,一個(gè)可訓(xùn)練的注意力層會(huì)分析這些詞元嵌入,根據(jù)它們?cè)诋?dāng)前任務(wù)中的重要性賦予不同的權(quán)重。這就像導(dǎo)航系統(tǒng)會(huì)特別關(guān)注路上的急轉(zhuǎn)彎或陡坡,而不是平坦的直路。
接下來(lái),系統(tǒng)計(jì)算這些加權(quán)嵌入的平均值,形成一個(gè)上下文豐富的表示。
這個(gè)表示經(jīng)過(guò)一個(gè)下投影多層感知機(jī)(MLP)層,一個(gè)ReLU激活層,以及一個(gè)上投影MLP層,最終形成輸入依賴的軟提示。
生成的軟提示可以添加到模型的任何變換器層的輸入中,為當(dāng)前輸入提供定制化的處理方式。
這種方法的美妙之處在于它既簡(jiǎn)單又高效:它保持可訓(xùn)練參數(shù)的數(shù)量較小,使訓(xùn)練過(guò)程更加平穩(wěn),同時(shí)通過(guò)關(guān)注輸入中的關(guān)鍵元素提高了模型性能。
從數(shù)學(xué)角度看,ID-SPAM首先通過(guò)自注意力機(jī)制計(jì)算輸入的加權(quán)表示:
A = mean(softmax((EWQ)(EWK)^T/√dk)(EWV))
然后通過(guò)MLP網(wǎng)絡(luò)生成軟提示:
ST = resize(σ(Wupσ(Wdown(A))))
其中,WQ、WK和WV是查詢、鍵和值參數(shù)矩陣,σ是非線性激活函數(shù)(這里使用ReLU)。
三、實(shí)驗(yàn)評(píng)估與結(jié)果
為了驗(yàn)證ID-SPAM的有效性,研究團(tuán)隊(duì)在多個(gè)自然語(yǔ)言理解任務(wù)上進(jìn)行了廣泛的實(shí)驗(yàn),并與多種基線方法進(jìn)行了比較。
實(shí)驗(yàn)使用了GLUE基準(zhǔn)測(cè)試中的六個(gè)任務(wù):SST-2(情感分析)、MRPC(釋義識(shí)別)、MNLI(自然語(yǔ)言推理)、QNLI(問(wèn)題回答)、RTE(文本蘊(yùn)含識(shí)別)和QQP(問(wèn)題等價(jià)性判斷)。這些任務(wù)涵蓋了自然語(yǔ)言理解的多個(gè)方面,提供了對(duì)方法性能的全面評(píng)估。
研究團(tuán)隊(duì)使用RoBERTa-BASE和RoBERTa-LARGE作為基礎(chǔ)模型,通過(guò)準(zhǔn)確率和F1分?jǐn)?shù)評(píng)估性能。
實(shí)驗(yàn)結(jié)果令人印象深刻:
在使用RoBERTa-BASE模型時(shí),ID-SPAM在6個(gè)GLUE任務(wù)中的4個(gè)上表現(xiàn)優(yōu)于所有基于軟提示的基線方法,平均表現(xiàn)也是最好的。
在使用RoBERTa-LARGE模型時(shí),ID-SPAM同樣在6個(gè)任務(wù)中的4個(gè)上表現(xiàn)最佳,并在平均表現(xiàn)上領(lǐng)先。
具體來(lái)說(shuō),ID-SPAM在RoBERTa-BASE上的平均得分為84.8,超過(guò)了第二名LPT的83.1;在RoBERTa-LARGE上的平均得分為88.1,超過(guò)了第二名SMoP的85.6。
研究團(tuán)隊(duì)還在SuperGLUE基準(zhǔn)測(cè)試的四個(gè)任務(wù)上進(jìn)行了實(shí)驗(yàn),結(jié)果顯示ID-SPAM在使用RoBERTa-BASE時(shí)在2/4個(gè)任務(wù)上表現(xiàn)最佳,在使用RoBERTa-LARGE時(shí)在3/4個(gè)任務(wù)上表現(xiàn)最佳,并且在兩種情況下都有最好的平均表現(xiàn)。
更令人驚喜的是,在零樣本任務(wù)和域遷移實(shí)驗(yàn)中,ID-SPAM展現(xiàn)出了優(yōu)越的泛化能力。研究團(tuán)隊(duì)選擇了(QQP, MRPC)和(SST-2, IMDB)兩對(duì)任務(wù)進(jìn)行測(cè)試,結(jié)果表明ID-SPAM不僅優(yōu)于所有基于軟提示的基線,甚至在3/4的情況下優(yōu)于完全微調(diào)。這證明了該方法出色的泛化能力。
此外,研究團(tuán)隊(duì)還分析了軟提示添加位置的影響。結(jié)果顯示,當(dāng)軟提示添加到模型中層時(shí),ID-SPAM和LPT都表現(xiàn)更好。特別是,ID-SPAM在幾乎每個(gè)層索引上都明顯優(yōu)于LPT,特別是在RTE數(shù)據(jù)集上。ID-SPAM在較早層上表現(xiàn)更好,這可能是因?yàn)檐浱崾臼峭ㄟ^(guò)對(duì)輸入嵌入的單一注意力層生成的,與早期層輸出的兼容性更高。
四、討論與結(jié)論
ID-SPAM方法的成功在于它巧妙地結(jié)合了輸入依賴性和自注意力機(jī)制,使軟提示能夠根據(jù)具體輸入進(jìn)行調(diào)整,并關(guān)注輸入中的關(guān)鍵元素。這就像一個(gè)智能助手,它不僅能理解你的問(wèn)題,還能抓住問(wèn)題的核心,提供定制化的解答。
與現(xiàn)有方法相比,ID-SPAM具有以下優(yōu)勢(shì):
簡(jiǎn)單高效:設(shè)計(jì)簡(jiǎn)潔,保持可訓(xùn)練參數(shù)數(shù)量小,訓(xùn)練過(guò)程平穩(wěn)。
輸入敏感:能夠根據(jù)具體輸入生成定制化的軟提示,提高處理多樣化輸入的能力。
注意力分配:通過(guò)自注意力機(jī)制,能夠區(qū)分輸入中不同詞元的重要性,關(guān)注關(guān)鍵信息。
泛化能力強(qiáng):在零樣本任務(wù)和域遷移實(shí)驗(yàn)中表現(xiàn)出色,證明了良好的泛化能力。
這項(xiàng)研究不僅提供了一種新的參數(shù)高效微調(diào)方法,還為理解輸入依賴性和注意力機(jī)制在軟提示中的作用提供了寶貴見解。未來(lái)的研究方向可能包括探索更復(fù)雜的注意力機(jī)制、將該方法應(yīng)用于更多類型的任務(wù),以及與其他參數(shù)高效方法的結(jié)合。
當(dāng)然,這項(xiàng)研究也存在一些局限性。研究團(tuán)隊(duì)承認(rèn),由于計(jì)算資源有限,他們無(wú)法使用最新的超大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型(如Llama-3.1-70B和Mixtral 8x22B)作為基礎(chǔ)模型進(jìn)行實(shí)驗(yàn)。此外,當(dāng)前的工作還沒(méi)有一種自動(dòng)化的方式來(lái)選擇在LM中輸入軟提示的最佳層,這仍然作為一個(gè)超參數(shù)需要調(diào)整。
總的來(lái)說(shuō),ID-SPAM代表了參數(shù)高效微調(diào)領(lǐng)域的一項(xiàng)重要進(jìn)展,為如何更高效地調(diào)整大語(yǔ)言模型以適應(yīng)特定任務(wù)提供了一種有效的解決方案。它不僅在性能上超越了現(xiàn)有方法,還具有簡(jiǎn)單、高效和良好泛化能力的特點(diǎn),為未來(lái)的研究和應(yīng)用提供了寶貴的啟示。
正如研究團(tuán)隊(duì)在論文結(jié)尾所說(shuō):"ID-SPAM是一種高效的、輸入依賴的軟提示生成框架,能夠很好地泛化到多種NLP任務(wù)。"這種能夠適應(yīng)各種語(yǔ)言處理挑戰(zhàn)的方法,將為大語(yǔ)言模型在特定領(lǐng)域的應(yīng)用開辟更廣闊的前景。
好文章,需要你的鼓勵(lì)
新加坡國(guó)立大學(xué)研究團(tuán)隊(duì)開發(fā)了SPIRAL框架,通過(guò)讓AI與自己對(duì)弈零和游戲來(lái)提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡(jiǎn)單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無(wú)需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開發(fā)的GIGA-ToF技術(shù)通過(guò)融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問(wèn)題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺(jué)解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過(guò)對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺(jué)語(yǔ)言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無(wú)法有效利用視覺(jué)信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過(guò)動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語(yǔ)言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。