在人工智能和機(jī)器學(xué)習(xí)領(lǐng)域,一項(xiàng)重要的新突破近期引起了廣泛關(guān)注。這項(xiàng)由四川大學(xué)的陸奧軍、四川大學(xué)的丁春暉、四川大學(xué)的孫亞男(通訊作者)、清華大學(xué)的馮濤以及浙江大學(xué)的袁杭杰共同完成的研究,于2025年6月4日發(fā)布在arXiv上(arXiv:2506.03956v1),標(biāo)題為"Adapt before Continual Learning"(適應(yīng)再連續(xù)學(xué)習(xí))。這項(xiàng)研究提出了一種全新的連續(xù)學(xué)習(xí)方法,旨在解決當(dāng)今機(jī)器學(xué)習(xí)系統(tǒng)面臨的一個(gè)關(guān)鍵挑戰(zhàn):如何在學(xué)習(xí)新知識(shí)的同時(shí)保留已有知識(shí)。
想象一下,如果我們的大腦每學(xué)習(xí)一項(xiàng)新技能就會(huì)忘記之前掌握的技能,那將是多么令人沮喪。例如,當(dāng)你學(xué)習(xí)彈鋼琴時(shí),突然發(fā)現(xiàn)自己忘記了如何騎自行車(chē)。這就是人工智能系統(tǒng)經(jīng)常面臨的"災(zāi)難性遺忘"問(wèn)題。連續(xù)學(xué)習(xí)(Continual Learning,簡(jiǎn)稱(chēng)CL)正是為解決這一問(wèn)題而生,它致力于使神經(jīng)網(wǎng)絡(luò)能夠增量獲取新知識(shí)(可塑性),同時(shí)保留現(xiàn)有知識(shí)(穩(wěn)定性)。
在近年來(lái),預(yù)訓(xùn)練模型(Pre-trained Models,簡(jiǎn)稱(chēng)PTMs)在連續(xù)學(xué)習(xí)中變得越來(lái)越重要。這些模型就像是已經(jīng)接受過(guò)廣泛教育的"大腦",擁有豐富的通用知識(shí)。目前主流的方法通常會(huì)凍結(jié)這些預(yù)訓(xùn)練模型的"骨干"部分,以保持其穩(wěn)定性,同時(shí)只訓(xùn)練一些輕量級(jí)的、特定任務(wù)的模塊(例如提示詞或適配器)來(lái)學(xué)習(xí)新知識(shí)。這就像保留一個(gè)知識(shí)豐富的顧問(wèn)(預(yù)訓(xùn)練模型),只在需要解決特定問(wèn)題時(shí)向他詢(xún)問(wèn)建議(通過(guò)輕量級(jí)模塊)。
然而,這些方法存在一個(gè)關(guān)鍵問(wèn)題:當(dāng)預(yù)訓(xùn)練模型的知識(shí)領(lǐng)域與新任務(wù)之間存在較大差距時(shí),凍結(jié)的預(yù)訓(xùn)練模型往往難以為新任務(wù)提取有用的特征,導(dǎo)致學(xué)習(xí)新知識(shí)的能力(可塑性)受限。另一方面,如果完全重新訓(xùn)練整個(gè)預(yù)訓(xùn)練模型來(lái)適應(yīng)每個(gè)新任務(wù),又容易導(dǎo)致災(zāi)難性遺忘,丟失之前獲得的通用知識(shí)。
這就像是一個(gè)資深物理學(xué)家(預(yù)訓(xùn)練模型)被要求解決一個(gè)復(fù)雜的生物學(xué)問(wèn)題。如果他只能用物理學(xué)知識(shí)(凍結(jié)的模型)來(lái)思考,可能難以找到最佳解決方案;但如果他完全轉(zhuǎn)行學(xué)習(xí)生物學(xué)(完全重新訓(xùn)練),又可能會(huì)逐漸忘記物理學(xué)知識(shí)。
針對(duì)這一挑戰(zhàn),四川大學(xué)的研究團(tuán)隊(duì)提出了一個(gè)創(chuàng)新性的解決方案:在連續(xù)學(xué)習(xí)的核心過(guò)程之前,先對(duì)預(yù)訓(xùn)練模型進(jìn)行適應(yīng)性調(diào)整(Adapting PTMs before the core CL process,簡(jiǎn)稱(chēng)ACL)。這種方法像是讓那位物理學(xué)家在保持物理知識(shí)的基礎(chǔ)上,通過(guò)短期強(qiáng)化學(xué)習(xí)來(lái)獲取足夠的生物學(xué)知識(shí),使他能夠更好地解決生物學(xué)問(wèn)題,同時(shí)不忘記物理學(xué)知識(shí)。
一、ACL框架的工作原理
ACL框架的核心理念非常直觀:在學(xué)習(xí)每個(gè)新任務(wù)之前,先對(duì)預(yù)訓(xùn)練模型進(jìn)行短暫的適應(yīng)調(diào)整,使其更好地適應(yīng)當(dāng)前任務(wù)的數(shù)據(jù)分布,然后再使用現(xiàn)有的連續(xù)學(xué)習(xí)方法(如提示詞調(diào)整)進(jìn)行學(xué)習(xí)。這個(gè)過(guò)程分為兩個(gè)階段:
首先是"適應(yīng)階段"(Adaptation Phase)。在這個(gè)階段,研究團(tuán)隊(duì)對(duì)預(yù)訓(xùn)練模型的權(quán)重進(jìn)行調(diào)整,使其能夠?yàn)楫?dāng)前任務(wù)生成更具辨別力的特征。想象成一位教師在講授新課程前,先花一些時(shí)間熟悉課程內(nèi)容和學(xué)生背景,以便更有效地教學(xué)。
接下來(lái)是"核心學(xué)習(xí)階段"(Core Learning Phase)。在這個(gè)階段,適應(yīng)后的預(yù)訓(xùn)練模型被凍結(jié),而分類(lèi)頭部和輕量級(jí)模塊繼續(xù)進(jìn)行微調(diào),以學(xué)習(xí)特征的分類(lèi)。這就像教師已經(jīng)掌握了教學(xué)內(nèi)容,現(xiàn)在專(zhuān)注于幫助學(xué)生理解和應(yīng)用這些內(nèi)容。
研究團(tuán)隊(duì)在理論上證明,通過(guò)鼓勵(lì)模型的輸出嵌入向其原始類(lèi)原型靠近,同時(shí)遠(yuǎn)離其他類(lèi)原型,可以有效地增強(qiáng)可塑性,同時(shí)保持穩(wěn)定性。這種方法就像教導(dǎo)學(xué)生在學(xué)習(xí)新概念時(shí),既要理解其獨(dú)特性(與原型靠近),又要明確其與其他概念的區(qū)別(與其他原型遠(yuǎn)離)。
二、適應(yīng)性調(diào)整算法的詳細(xì)設(shè)計(jì)
那么,ACL框架是如何實(shí)現(xiàn)這種平衡可塑性和穩(wěn)定性的適應(yīng)性調(diào)整的呢?這里涉及到一些有趣的理論基礎(chǔ)和算法設(shè)計(jì)。
研究團(tuán)隊(duì)首先分析了增強(qiáng)可塑性的目標(biāo)。他們發(fā)現(xiàn),對(duì)于同一類(lèi)的樣本,如果能夠減小其嵌入表示之間的距離,使它們更加集中或緊密聚集,就能增強(qiáng)模型的辨別能力。這就像在一個(gè)派對(duì)上,讓來(lái)自同一個(gè)家庭的成員站得更近,這樣就能輕松識(shí)別出誰(shuí)和誰(shuí)是親戚關(guān)系。
但是,僅僅關(guān)注可塑性是不夠的,還需要考慮如何保持穩(wěn)定性。研究團(tuán)隊(duì)采用了特征蒸餾的方法,通過(guò)最小化原始嵌入和適應(yīng)后嵌入之間的均方誤差來(lái)促進(jìn)穩(wěn)定性。這就像讓學(xué)生在學(xué)習(xí)新知識(shí)的同時(shí),不時(shí)回顧和復(fù)習(xí)之前學(xué)過(guò)的內(nèi)容,以防遺忘。
通過(guò)數(shù)學(xué)推導(dǎo),研究團(tuán)隊(duì)證明,對(duì)于最佳穩(wěn)定性,適應(yīng)后的嵌入應(yīng)該向其原始類(lèi)原型(即該類(lèi)樣本的平均嵌入)靠近。更有趣的是,這種向類(lèi)原型靠近的方法不僅有利于穩(wěn)定性,還有助于增強(qiáng)可塑性,因?yàn)樗鼫p小了同類(lèi)樣本嵌入之間的距離。
然而,僅僅讓嵌入向其原始類(lèi)原型靠近可能還不足以在多類(lèi)場(chǎng)景中獲得最佳特征辨別能力。為解決這個(gè)問(wèn)題,研究團(tuán)隊(duì)引入了對(duì)比學(xué)習(xí)的原理,不僅鼓勵(lì)嵌入向其真實(shí)類(lèi)別的原型靠近,還同時(shí)推動(dòng)它們遠(yuǎn)離其他、不正確類(lèi)別的原型。這就像教導(dǎo)學(xué)生不僅要理解一個(gè)概念是什么,還要明白它不是什么,從而形成更清晰的認(rèn)知邊界。
具體來(lái)說(shuō),對(duì)于每個(gè)適應(yīng)后的嵌入和每個(gè)類(lèi)原型,算法計(jì)算一個(gè)相似度分?jǐn)?shù)。然后,使用SoftMax函數(shù)將這些分?jǐn)?shù)轉(zhuǎn)換為概率分布,訓(xùn)練目標(biāo)是最大化嵌入與其真實(shí)類(lèi)別原型之間的概率。這種對(duì)比訓(xùn)練目標(biāo)通過(guò)最小化交叉熵?fù)p失來(lái)實(shí)現(xiàn):L = - log o_{i,yi},其中o_{i,yi}是樣本i屬于其真實(shí)類(lèi)別yi的概率。
這種方法的美妙之處在于,它既增強(qiáng)了模型的可塑性(通過(guò)使同類(lèi)樣本的嵌入更加集中),又保持了穩(wěn)定性(通過(guò)向原始類(lèi)原型靠近),從而在兩者之間取得了良好的平衡。
三、實(shí)驗(yàn)設(shè)置與結(jié)果分析
為了驗(yàn)證ACL框架的有效性,研究團(tuán)隊(duì)在兩個(gè)具有顯著領(lǐng)域差異的數(shù)據(jù)集上進(jìn)行了廣泛的實(shí)驗(yàn):ImageNet-R和ImageNet-A。這兩個(gè)數(shù)據(jù)集與預(yù)訓(xùn)練模型通常使用的ImageNet系列數(shù)據(jù)集有很大不同,因此代表了現(xiàn)實(shí)世界中常見(jiàn)的領(lǐng)域差異挑戰(zhàn)。
研究團(tuán)隊(duì)將每個(gè)數(shù)據(jù)集平均劃分為多個(gè)任務(wù),形成兩種任務(wù)配置:(1) 20個(gè)任務(wù),每個(gè)任務(wù)10個(gè)類(lèi)別(Inc-10);(2) 10個(gè)任務(wù),每個(gè)任務(wù)20個(gè)類(lèi)別(Inc-20)。這樣的設(shè)置模擬了連續(xù)學(xué)習(xí)中數(shù)據(jù)以流式方式到達(dá)的現(xiàn)實(shí)場(chǎng)景。
實(shí)驗(yàn)中,研究團(tuán)隊(duì)將ACL框架與六種最先進(jìn)的基于預(yù)訓(xùn)練模型的連續(xù)學(xué)習(xí)方法進(jìn)行了比較:L2P、DualPrompt、RanPAC、FeCAM、SSIAT和MOS。由于ACL被設(shè)計(jì)為即插即用的組件,他們將其整合到這些基線方法中,以系統(tǒng)地評(píng)估其有效性。
實(shí)驗(yàn)結(jié)果令人印象深刻。在ImageNet-A-Inc20數(shù)據(jù)集上,集成ACL后,所有基線方法的性能都有顯著提升。以平均最優(yōu)準(zhǔn)確率(AOA)衡量的可塑性提高了高達(dá)10.41%,以最終準(zhǔn)確率(LA)衡量的整體連續(xù)學(xué)習(xí)性能提高了高達(dá)7.85%。
更令人驚訝的是,ACL不僅提高了可塑性,還保持了穩(wěn)定性。研究結(jié)果顯示,適應(yīng)過(guò)的PTM不僅能更好地學(xué)習(xí)新任務(wù),還能更好地保留之前學(xué)到的知識(shí),這在t-SNE可視化結(jié)果中得到了明顯體現(xiàn)。
研究團(tuán)隊(duì)還進(jìn)行了消融研究,以深入了解ACL框架中各個(gè)組件的重要性。結(jié)果表明,對(duì)整個(gè)預(yù)訓(xùn)練模型骨干使用提出的對(duì)比損失進(jìn)行連續(xù)適應(yīng)對(duì)于實(shí)現(xiàn)最佳性能至關(guān)重要。此外,增加適應(yīng)階段的訓(xùn)練輪數(shù)超過(guò)兩輪后,性能提升變得微不足道,這表明ACL框架在計(jì)算效率方面也有優(yōu)勢(shì)。
四、ACL框架的廣泛適用性
ACL框架的一個(gè)顯著優(yōu)勢(shì)是其廣泛的適用性。實(shí)驗(yàn)表明,它不僅能與各種連續(xù)學(xué)習(xí)方法無(wú)縫集成,還可以應(yīng)用于不同類(lèi)型的預(yù)訓(xùn)練模型。
研究團(tuán)隊(duì)在ViT-B/16-IN21K(僅在ImageNet21K上預(yù)訓(xùn)練的模型)上進(jìn)行了額外實(shí)驗(yàn),結(jié)果顯示ACL持續(xù)提升了各種連續(xù)學(xué)習(xí)方法的性能,證明了其在不同預(yù)訓(xùn)練模型上的通用性。
更值得注意的是,盡管該研究主要關(guān)注視覺(jué)模型,但其中提出的見(jiàn)解也可能適用于視覺(jué)-語(yǔ)言模型,如CLIP。實(shí)驗(yàn)結(jié)果表明,ACL顯著提升了Continual CLIP的連續(xù)學(xué)習(xí)性能,展示了該框架在視覺(jué)-語(yǔ)言模型領(lǐng)域的應(yīng)用潛力。
這種廣泛的適用性使ACL成為一個(gè)非常實(shí)用的解決方案,可以幫助研究人員和實(shí)踐者在各種連續(xù)學(xué)習(xí)場(chǎng)景中提高模型性能。
五、研究意義與未來(lái)展望
這項(xiàng)研究的意義不僅限于提出一個(gè)新的連續(xù)學(xué)習(xí)框架,更在于它重新審視了基于預(yù)訓(xùn)練模型的連續(xù)學(xué)習(xí)中的穩(wěn)定性-可塑性平衡問(wèn)題。傳統(tǒng)觀點(diǎn)認(rèn)為,保持穩(wěn)定性需要犧牲可塑性,反之亦然。然而,ACL框架證明,通過(guò)精心設(shè)計(jì)的適應(yīng)機(jī)制,可以同時(shí)增強(qiáng)可塑性和保持穩(wěn)定性,從而取得更好的整體性能。
從更廣泛的角度來(lái)看,這項(xiàng)研究為如何更有效地利用預(yù)訓(xùn)練模型應(yīng)對(duì)變化環(huán)境的挑戰(zhàn)提供了新的思路。在當(dāng)今數(shù)據(jù)不斷演化的世界中,模型需要不斷適應(yīng)新的數(shù)據(jù)分布,同時(shí)保持對(duì)先前數(shù)據(jù)的良好表現(xiàn)。ACL框架為解決這一挑戰(zhàn)提供了一種簡(jiǎn)單而有效的方法。
未來(lái)的研究方向可能包括探索更有效或高效的適應(yīng)算法,以進(jìn)一步提高ACL框架的性能和適用性。此外,將ACL框架擴(kuò)展到更多類(lèi)型的模型和任務(wù),如自然語(yǔ)言處理或多模態(tài)學(xué)習(xí),也是一個(gè)有前景的方向。
總的來(lái)說(shuō),這項(xiàng)研究為連續(xù)學(xué)習(xí)領(lǐng)域注入了新的活力,為解決人工智能系統(tǒng)中的災(zāi)難性遺忘問(wèn)題提供了一條有前途的路徑。隨著人工智能技術(shù)的不斷發(fā)展,像ACL這樣的創(chuàng)新方法將有助于構(gòu)建更加智能、靈活和可持續(xù)的學(xué)習(xí)系統(tǒng),使它們能夠像人類(lèi)一樣,在保留已有知識(shí)的同時(shí),不斷學(xué)習(xí)和適應(yīng)新知識(shí)。
好文章,需要你的鼓勵(lì)
北航團(tuán)隊(duì)推出Easy Dataset框架,通過(guò)直觀的圖形界面和角色驅(qū)動(dòng)的生成方法,讓普通用戶(hù)能夠輕松將各種格式文檔轉(zhuǎn)換為高質(zhì)量的AI訓(xùn)練數(shù)據(jù)。該工具集成了智能文檔解析、混合分塊策略和個(gè)性化問(wèn)答生成功能,在金融領(lǐng)域?qū)嶒?yàn)中顯著提升了AI模型的專(zhuān)業(yè)表現(xiàn),同時(shí)保持通用能力。項(xiàng)目已開(kāi)源并獲得超過(guò)9000顆GitHub星標(biāo)。
盧森堡計(jì)算機(jī)事件響應(yīng)中心開(kāi)發(fā)的VLAI系統(tǒng),基于RoBERTa模型,能夠通過(guò)閱讀漏洞描述自動(dòng)判斷危險(xiǎn)等級(jí)。該系統(tǒng)在60萬(wàn)個(gè)真實(shí)漏洞數(shù)據(jù)上訓(xùn)練,準(zhǔn)確率達(dá)82.8%,已集成到實(shí)際安全服務(wù)中。研究采用開(kāi)源方式,為網(wǎng)絡(luò)安全專(zhuān)家提供快速漏洞風(fēng)險(xiǎn)評(píng)估工具,有效解決了官方評(píng)分發(fā)布前的安全決策難題。
中國(guó)電信研究院等機(jī)構(gòu)聯(lián)合開(kāi)發(fā)的xVerify系統(tǒng),專(zhuān)門(mén)解決復(fù)雜AI推理模型的評(píng)估難題。該系統(tǒng)能夠準(zhǔn)確判斷包含多步推理過(guò)程的AI輸出,在準(zhǔn)確率和效率方面均超越現(xiàn)有方法,為AI評(píng)估領(lǐng)域提供了重要突破。
昆侖公司Skywork AI團(tuán)隊(duì)開(kāi)發(fā)的Skywork R1V模型,成功將文本推理能力擴(kuò)展到視覺(jué)領(lǐng)域。該模型僅用380億參數(shù)就實(shí)現(xiàn)了與大型閉源模型相媲美的多模態(tài)推理性能,在MMMU測(cè)試中達(dá)到69.0分,在MathVista獲得67.5分,同時(shí)保持了優(yōu)秀的文本推理能力。研究團(tuán)隊(duì)采用高效的多模態(tài)遷移、混合優(yōu)化框架和自適應(yīng)推理鏈蒸餾三項(xiàng)核心技術(shù),成功實(shí)現(xiàn)了視覺(jué)理解與邏輯推理的完美結(jié)合,并將所有代碼和權(quán)重完全開(kāi)源。