av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁(yè) 突破傳統(tǒng)限制:IIIT海德拉巴和IIT哈拉格普爾團(tuán)隊(duì)發(fā)布基于輸入自注意力的軟提示技術(shù),讓大語(yǔ)言模型更高效適應(yīng)特定任務(wù)

突破傳統(tǒng)限制:IIIT海德拉巴和IIT哈拉格普爾團(tuán)隊(duì)發(fā)布基于輸入自注意力的軟提示技術(shù),讓大語(yǔ)言模型更高效適應(yīng)特定任務(wù)

2025-06-10 10:51
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-10 10:51 ? 科技行者

在大語(yǔ)言模型(LLM)迅速發(fā)展的今天,一項(xiàng)來(lái)自印度的創(chuàng)新研究正在改變我們微調(diào)這些龐大模型的方式。發(fā)表于2025年6月5日(arXiv:2506.05629v1)的研究論文《利用自注意力機(jī)制實(shí)現(xiàn)輸入依賴的軟提示在大語(yǔ)言模型中的應(yīng)用》(Leveraging Self-Attention for Input-Dependent Soft Prompting in LLMs)由IIIT海德拉巴的Ananth Muppidi、IIT哈拉格普爾的Abhilash Nandy以及Adobe研究院的Sambaran Bandyopadhyay共同完成。這項(xiàng)研究為如何更高效地讓大語(yǔ)言模型適應(yīng)特定任務(wù)提供了一種全新思路。

想象一下,你有一輛功能強(qiáng)大的越野車(大語(yǔ)言模型),它在各種一般道路上表現(xiàn)出色,但當(dāng)你需要在特定地形如沙漠或雪地行駛時(shí)(特定領(lǐng)域任務(wù)),你需要對(duì)它進(jìn)行調(diào)整。傳統(tǒng)的方法是徹底改裝整車(完全微調(diào)),這既昂貴又費(fèi)時(shí)。而近年來(lái)出現(xiàn)的"軟提示"方法則像是安裝一個(gè)小型輔助設(shè)備,只需調(diào)整這個(gè)設(shè)備而不觸碰汽車本身,就能讓車輛適應(yīng)特殊地形。

研究團(tuán)隊(duì)發(fā)現(xiàn),現(xiàn)有的軟提示方法存在一個(gè)關(guān)鍵限制:它們通常使用同一個(gè)"通用輔助設(shè)備"來(lái)應(yīng)對(duì)所有地形。這就好比無(wú)論是沙漠、雪地還是山路,都使用同一套輪胎調(diào)整,顯然不夠理想。少數(shù)幾個(gè)考慮到輸入依賴的方法又過(guò)于復(fù)雜,需要在車輛的多個(gè)部件上都安裝調(diào)整裝置。

于是,研究者們提出了一種創(chuàng)新的解決方案:輸入依賴的軟提示技術(shù)搭配自注意力機(jī)制(ID-SPAM)。這種方法就像一個(gè)智能適應(yīng)系統(tǒng),它會(huì)根據(jù)當(dāng)前道路情況(輸入文本)自動(dòng)調(diào)整輔助設(shè)備的參數(shù),并且特別關(guān)注路面的關(guān)鍵特征(文本中的重要詞匯),同時(shí)保持整個(gè)系統(tǒng)的簡(jiǎn)單高效。

通過(guò)在GLUE和SuperGLUE這兩個(gè)語(yǔ)言理解基準(zhǔn)測(cè)試上的實(shí)驗(yàn),研究團(tuán)隊(duì)證明了ID-SPAM的優(yōu)越性。與現(xiàn)有技術(shù)相比,這種新方法在多數(shù)任務(wù)上表現(xiàn)更好,特別是在零樣本域遷移能力(將一個(gè)任務(wù)學(xué)到的知識(shí)應(yīng)用到全新任務(wù))方面表現(xiàn)出色。這就像一輛車不僅能適應(yīng)沙漠,還能憑借這種適應(yīng)性更快地調(diào)整到雪地環(huán)境,而無(wú)需重新學(xué)習(xí)。

接下來(lái),讓我們深入了解這項(xiàng)研究的細(xì)節(jié),看看研究團(tuán)隊(duì)是如何設(shè)計(jì)并實(shí)現(xiàn)這個(gè)創(chuàng)新系統(tǒng)的。

一、研究背景與挑戰(zhàn)

大語(yǔ)言模型如BERT和GPT系列在自然語(yǔ)言處理領(lǐng)域取得了顯著進(jìn)步,它們?cè)谏伞⒎g和摘要等任務(wù)上表現(xiàn)出色。然而,當(dāng)面對(duì)特定領(lǐng)域的任務(wù)時(shí),這些模型往往需要在特定數(shù)據(jù)集上進(jìn)行微調(diào)才能發(fā)揮最佳性能。

傳統(tǒng)的微調(diào)方法需要更新模型中所有參數(shù),對(duì)于擁有數(shù)百萬(wàn)甚至數(shù)十億參數(shù)的大模型來(lái)說(shuō),這種做法計(jì)算成本高昂且技術(shù)復(fù)雜。想象一下,這就像重新編程一個(gè)巨大的電子設(shè)備,需要調(diào)整每一個(gè)電路和芯片,工作量驚人。

為此,研究人員開發(fā)了參數(shù)高效微調(diào)(PEFT)方法,其核心思想是固定模型大部分參數(shù),只學(xué)習(xí)一小部分參數(shù)。這就像只更換設(shè)備的某個(gè)模塊,而不是重建整個(gè)系統(tǒng)。

在這些PEFT方法中,軟提示(Soft Prompting)是一種很有前途的方法。它不改變模型核心架構(gòu),而是在模型的一個(gè)或多個(gè)變換器層的輸入處引入一個(gè)小的可訓(xùn)練向量(稱為"軟提示")。在微調(diào)過(guò)程中,只有這個(gè)軟提示被訓(xùn)練以適應(yīng)下游任務(wù),基礎(chǔ)模型的參數(shù)保持不變。

現(xiàn)有的軟提示方法主要有以下幾種:

普通提示調(diào)整(Prompt Tuning):在文本輸入的嵌入向量前添加可訓(xùn)練的軟提示向量。

前綴調(diào)整(Prefix Tuning):在每個(gè)變換器層前添加軟提示。

P-tuning:將可學(xué)習(xí)的提示與輸入嵌入交錯(cuò)排列。

這些方法雖然有效,但都存在一個(gè)共同的局限性:軟提示與實(shí)際輸入是獨(dú)立的。這就像一個(gè)固定的輔助工具,無(wú)論處理什么樣的輸入都使用相同的設(shè)置,這限制了模型根據(jù)實(shí)際輸入調(diào)整的能力,也使訓(xùn)練變得更加困難,增加了收斂時(shí)間。

雖然一些最近的方法開始利用輸入依賴的軟提示,但它們要么需要在基礎(chǔ)模型的每個(gè)變換器層或中間層后連接軟提示,要么需要通過(guò)與輸入詞元的交叉注意力轉(zhuǎn)換軟提示。這些方法仍然存在多重限制:結(jié)構(gòu)復(fù)雜、無(wú)法根據(jù)輸入詞的重要性進(jìn)行不同權(quán)重的注意力分配,以及可訓(xùn)練參數(shù)數(shù)量增加顯著。

二、創(chuàng)新解決方案:ID-SPAM

研究團(tuán)隊(duì)提出的輸入依賴軟提示技術(shù)搭配自注意力機(jī)制(ID-SPAM)就像是一個(gè)智能適應(yīng)系統(tǒng),它能夠根據(jù)輸入內(nèi)容生成定制化的軟提示,并且通過(guò)自注意力機(jī)制關(guān)注輸入中的重要元素。

這種方法的工作原理可以類比為一個(gè)自動(dòng)導(dǎo)航系統(tǒng):當(dāng)你駕駛汽車進(jìn)入不同地形時(shí),系統(tǒng)會(huì)分析當(dāng)前路況(輸入文本),特別關(guān)注關(guān)鍵路標(biāo)和障礙物(重要詞匯),然后自動(dòng)調(diào)整車輛設(shè)置(生成軟提示)以適應(yīng)當(dāng)前環(huán)境。

具體來(lái)說(shuō),ID-SPAM的工作流程如下:

首先,系統(tǒng)接收輸入文本,并將其轉(zhuǎn)換為詞元嵌入表示。

然后,一個(gè)可訓(xùn)練的注意力層會(huì)分析這些詞元嵌入,根據(jù)它們?cè)诋?dāng)前任務(wù)中的重要性賦予不同的權(quán)重。這就像導(dǎo)航系統(tǒng)會(huì)特別關(guān)注路上的急轉(zhuǎn)彎或陡坡,而不是平坦的直路。

接下來(lái),系統(tǒng)計(jì)算這些加權(quán)嵌入的平均值,形成一個(gè)上下文豐富的表示。

這個(gè)表示經(jīng)過(guò)一個(gè)下投影多層感知機(jī)(MLP)層,一個(gè)ReLU激活層,以及一個(gè)上投影MLP層,最終形成輸入依賴的軟提示。

生成的軟提示可以添加到模型的任何變換器層的輸入中,為當(dāng)前輸入提供定制化的處理方式。

這種方法的美妙之處在于它既簡(jiǎn)單又高效:它保持可訓(xùn)練參數(shù)的數(shù)量較小,使訓(xùn)練過(guò)程更加平穩(wěn),同時(shí)通過(guò)關(guān)注輸入中的關(guān)鍵元素提高了模型性能。

從數(shù)學(xué)角度看,ID-SPAM首先通過(guò)自注意力機(jī)制計(jì)算輸入的加權(quán)表示:

A = mean(softmax((EWQ)(EWK)^T/√dk)(EWV))

然后通過(guò)MLP網(wǎng)絡(luò)生成軟提示:

ST = resize(σ(Wupσ(Wdown(A))))

其中,WQ、WK和WV是查詢、鍵和值參數(shù)矩陣,σ是非線性激活函數(shù)(這里使用ReLU)。

三、實(shí)驗(yàn)評(píng)估與結(jié)果

為了驗(yàn)證ID-SPAM的有效性,研究團(tuán)隊(duì)在多個(gè)自然語(yǔ)言理解任務(wù)上進(jìn)行了廣泛的實(shí)驗(yàn),并與多種基線方法進(jìn)行了比較。

實(shí)驗(yàn)使用了GLUE基準(zhǔn)測(cè)試中的六個(gè)任務(wù):SST-2(情感分析)、MRPC(釋義識(shí)別)、MNLI(自然語(yǔ)言推理)、QNLI(問(wèn)題回答)、RTE(文本蘊(yùn)含識(shí)別)和QQP(問(wèn)題等價(jià)性判斷)。這些任務(wù)涵蓋了自然語(yǔ)言理解的多個(gè)方面,提供了對(duì)方法性能的全面評(píng)估。

研究團(tuán)隊(duì)使用RoBERTa-BASE和RoBERTa-LARGE作為基礎(chǔ)模型,通過(guò)準(zhǔn)確率和F1分?jǐn)?shù)評(píng)估性能。

實(shí)驗(yàn)結(jié)果令人印象深刻:

在使用RoBERTa-BASE模型時(shí),ID-SPAM在6個(gè)GLUE任務(wù)中的4個(gè)上表現(xiàn)優(yōu)于所有基于軟提示的基線方法,平均表現(xiàn)也是最好的。

在使用RoBERTa-LARGE模型時(shí),ID-SPAM同樣在6個(gè)任務(wù)中的4個(gè)上表現(xiàn)最佳,并在平均表現(xiàn)上領(lǐng)先。

具體來(lái)說(shuō),ID-SPAM在RoBERTa-BASE上的平均得分為84.8,超過(guò)了第二名LPT的83.1;在RoBERTa-LARGE上的平均得分為88.1,超過(guò)了第二名SMoP的85.6。

研究團(tuán)隊(duì)還在SuperGLUE基準(zhǔn)測(cè)試的四個(gè)任務(wù)上進(jìn)行了實(shí)驗(yàn),結(jié)果顯示ID-SPAM在使用RoBERTa-BASE時(shí)在2/4個(gè)任務(wù)上表現(xiàn)最佳,在使用RoBERTa-LARGE時(shí)在3/4個(gè)任務(wù)上表現(xiàn)最佳,并且在兩種情況下都有最好的平均表現(xiàn)。

更令人驚喜的是,在零樣本任務(wù)和域遷移實(shí)驗(yàn)中,ID-SPAM展現(xiàn)出了優(yōu)越的泛化能力。研究團(tuán)隊(duì)選擇了(QQP, MRPC)和(SST-2, IMDB)兩對(duì)任務(wù)進(jìn)行測(cè)試,結(jié)果表明ID-SPAM不僅優(yōu)于所有基于軟提示的基線,甚至在3/4的情況下優(yōu)于完全微調(diào)。這證明了該方法出色的泛化能力。

此外,研究團(tuán)隊(duì)還分析了軟提示添加位置的影響。結(jié)果顯示,當(dāng)軟提示添加到模型中層時(shí),ID-SPAM和LPT都表現(xiàn)更好。特別是,ID-SPAM在幾乎每個(gè)層索引上都明顯優(yōu)于LPT,特別是在RTE數(shù)據(jù)集上。ID-SPAM在較早層上表現(xiàn)更好,這可能是因?yàn)檐浱崾臼峭ㄟ^(guò)對(duì)輸入嵌入的單一注意力層生成的,與早期層輸出的兼容性更高。

四、討論與結(jié)論

ID-SPAM方法的成功在于它巧妙地結(jié)合了輸入依賴性和自注意力機(jī)制,使軟提示能夠根據(jù)具體輸入進(jìn)行調(diào)整,并關(guān)注輸入中的關(guān)鍵元素。這就像一個(gè)智能助手,它不僅能理解你的問(wèn)題,還能抓住問(wèn)題的核心,提供定制化的解答。

與現(xiàn)有方法相比,ID-SPAM具有以下優(yōu)勢(shì):

簡(jiǎn)單高效:設(shè)計(jì)簡(jiǎn)潔,保持可訓(xùn)練參數(shù)數(shù)量小,訓(xùn)練過(guò)程平穩(wěn)。

輸入敏感:能夠根據(jù)具體輸入生成定制化的軟提示,提高處理多樣化輸入的能力。

注意力分配:通過(guò)自注意力機(jī)制,能夠區(qū)分輸入中不同詞元的重要性,關(guān)注關(guān)鍵信息。

泛化能力強(qiáng):在零樣本任務(wù)和域遷移實(shí)驗(yàn)中表現(xiàn)出色,證明了良好的泛化能力。

這項(xiàng)研究不僅提供了一種新的參數(shù)高效微調(diào)方法,還為理解輸入依賴性和注意力機(jī)制在軟提示中的作用提供了寶貴見解。未來(lái)的研究方向可能包括探索更復(fù)雜的注意力機(jī)制、將該方法應(yīng)用于更多類型的任務(wù),以及與其他參數(shù)高效方法的結(jié)合。

當(dāng)然,這項(xiàng)研究也存在一些局限性。研究團(tuán)隊(duì)承認(rèn),由于計(jì)算資源有限,他們無(wú)法使用最新的超大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型(如Llama-3.1-70B和Mixtral 8x22B)作為基礎(chǔ)模型進(jìn)行實(shí)驗(yàn)。此外,當(dāng)前的工作還沒(méi)有一種自動(dòng)化的方式來(lái)選擇在LM中輸入軟提示的最佳層,這仍然作為一個(gè)超參數(shù)需要調(diào)整。

總的來(lái)說(shuō),ID-SPAM代表了參數(shù)高效微調(diào)領(lǐng)域的一項(xiàng)重要進(jìn)展,為如何更高效地調(diào)整大語(yǔ)言模型以適應(yīng)特定任務(wù)提供了一種有效的解決方案。它不僅在性能上超越了現(xiàn)有方法,還具有簡(jiǎn)單、高效和良好泛化能力的特點(diǎn),為未來(lái)的研究和應(yīng)用提供了寶貴的啟示。

正如研究團(tuán)隊(duì)在論文結(jié)尾所說(shuō):"ID-SPAM是一種高效的、輸入依賴的軟提示生成框架,能夠很好地泛化到多種NLP任務(wù)。"這種能夠適應(yīng)各種語(yǔ)言處理挑戰(zhàn)的方法,將為大語(yǔ)言模型在特定領(lǐng)域的應(yīng)用開辟更廣闊的前景。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-