這項由四川大學、浙江大學和清華大學研究團隊共同完成的研究,發(fā)表于2025年6月的第42屆國際機器學習會議(ICML 2025)。論文由來自四川大學的陸奧軍和孫亞男、浙江大學的袁杭杰以及清華大學的馮濤共同撰寫,標題為《從架構(gòu)角度重新思考持續(xù)學習中的穩(wěn)定性-可塑性權(quán)衡》(arXiv:2506.03951v1)。有興趣深入了解的讀者可以通過arXiv預印本平臺查閱完整論文。
持續(xù)學習的平衡難題
想象一下,你在嘗試學習各種新技能。一方面,你希望快速掌握新知識;另一方面,你不想忘記已經(jīng)學會的內(nèi)容。這正是人工智能研究中"持續(xù)學習"(Continual Learning, CL)面臨的核心挑戰(zhàn)。
神經(jīng)網(wǎng)絡在學習新任務時,往往會出現(xiàn)"災難性遺忘"(catastrophic forgetting)現(xiàn)象,也就是說,當學習新數(shù)據(jù)時,網(wǎng)絡會迅速忘記之前學過的知識。要解決這個問題,神經(jīng)網(wǎng)絡必須在兩個相互沖突的目標之間找到平衡:穩(wěn)定性(stability)——保持已獲取的知識,和可塑性(plasticity)——學習新概念的能力。這種兩難局面被稱為"穩(wěn)定性-可塑性困境"。
研究團隊指出,現(xiàn)有的大多數(shù)持續(xù)學習方法都專注于開發(fā)新的學習算法來優(yōu)化參數(shù)層面的權(quán)衡,卻忽視了網(wǎng)絡架構(gòu)本身對穩(wěn)定性和可塑性的影響。本研究正是針對這一研究空白,探索了架構(gòu)層面的穩(wěn)定性-可塑性困境,并提出了一種創(chuàng)新解決方案。
架構(gòu)層面的穩(wěn)定性與可塑性
研究團隊首先進行了一項實驗,比較了原始ResNet-18網(wǎng)絡與其更寬但更淺的變體在持續(xù)學習中的表現(xiàn)。實驗結(jié)果非常有趣:ResNet-18在新任務上達到了更高的準確率,表明它具有更好的可塑性;而更寬更淺的變體則展現(xiàn)出更低的平均遺忘,說明它具有更強的穩(wěn)定性。
這就像兩個不同類型的學生:一個學生(深度網(wǎng)絡)善于快速學習新知識,但容易忘記舊知識;另一個學生(寬度網(wǎng)絡)記憶力很好,能保持已學內(nèi)容,但學習新事物較慢。研究者由此推斷,在架構(gòu)層面也存在穩(wěn)定性-可塑性的權(quán)衡問題。
想象一下,如果能將這兩種學生的優(yōu)勢結(jié)合起來會怎樣?這正是研究團隊提出的創(chuàng)新思路。他們開發(fā)了一個名為"雙架構(gòu)"(Dual-Architecture, 簡稱Dual-Arch)的框架,利用兩個獨立網(wǎng)絡的互補優(yōu)勢:一個專注于可塑性,另一個專注于穩(wěn)定性。
雙架構(gòu)框架的工作原理
傳統(tǒng)的持續(xù)學習方法通常使用單一學習器,通過優(yōu)化損失函數(shù)來平衡穩(wěn)定性和可塑性。相比之下,Dual-Arch框架采用了兩個具有不同架構(gòu)的獨立網(wǎng)絡:可塑性學習器(Plastic Learner)和穩(wěn)定性學習器(Stable Learner)。
可以把這個過程想象成兩個專家的合作:一個是創(chuàng)新專家,擅長快速掌握新知識;另一個是記憶專家,善于保存和整合知識。當新任務出現(xiàn)時,創(chuàng)新專家(可塑性學習器)首先學習新知識,然后通過"知識蒸餾"(knowledge distillation)技術(shù)將這些新知識傳授給記憶專家(穩(wěn)定性學習器)。記憶專家在接收新知識的同時,也保留了之前積累的經(jīng)驗。
具體來說,研究團隊為兩個學習器設計了專門的輕量級架構(gòu)??伤苄詫W習器采用深而窄的架構(gòu),類似于ResNet-18但通道數(shù)減少;穩(wěn)定性學習器則采用寬而淺的架構(gòu),保持與ResNet-18相同的寬度但減少了殘差塊的數(shù)量,并修改了全局平均池化層以增加分類器的寬度。這樣的設計使得兩個網(wǎng)絡都比原始ResNet-18小得多,但組合起來能發(fā)揮更好的性能。
學習算法的工作流程
Dual-Arch的學習過程可以分為兩個連續(xù)的階段。當新任務出現(xiàn)時:
首先,可塑性學習器會專注于學習當前任務數(shù)據(jù),不考慮保留之前學到的知識。這就像讓創(chuàng)新專家自由發(fā)揮,專心吸收新知識。
然后,可塑性學習器的參數(shù)被凍結(jié),作為"教師模型"保存下來。穩(wěn)定性學習器(作為"學生模型")通過一個復合損失函數(shù)進行訓練,這個損失函數(shù)包含三部分:一個硬標簽損失(交叉熵損失)確保預測與實際標簽一致;一個蒸餾損失使穩(wěn)定性學習器能從可塑性學習器中學習;以及一個由特定持續(xù)學習方法定義的損失項,用于保留之前的知識。
通過這種方式,穩(wěn)定性學習器能夠同時保持之前學到的知識,并有效整合新知識。在評估階段,只使用穩(wěn)定性學習器進行推理,確保計算效率。
實驗驗證與結(jié)果分析
研究團隊在多個數(shù)據(jù)集上進行了廣泛實驗,包括CIFAR100和ImageNet100,并與五種最先進的持續(xù)學習方法(iCaRL、WA、DER、Foster和MEMO)結(jié)合測試。
實驗結(jié)果令人印象深刻:Dual-Arch框架在各種方法、數(shù)據(jù)集和增量步驟中始終優(yōu)于使用單一架構(gòu)的基線。最大提升達到了10.29%的最終準確率(LA)和7.62%的平均增量準確率(AIA),同時參數(shù)數(shù)量減少了至少33%。
這就像用更少的資源獲得了更好的學習效果。想象一下,如果兩個專業(yè)人士共同工作,每人專注于自己的專長領(lǐng)域,他們的總體表現(xiàn)通常會優(yōu)于一個人試圖同時處理所有任務。
研究者還進行了消融研究,證明了雙網(wǎng)絡框架和專門設計的架構(gòu)的重要性。結(jié)果顯示,去除可塑性學習器會導致AIA平均下降2.63%,而使用非專門化架構(gòu)也會降低性能。
在參數(shù)效率方面,Dual-Arch表現(xiàn)尤為突出。研究顯示,與基線相比,Dual-Arch可以在減少高達87%參數(shù)的同時仍然提高性能。這對于內(nèi)存受限的環(huán)境特別有益。
為什么Dual-Arch有效?
為了深入了解Dual-Arch的工作原理,研究者分析了穩(wěn)定性-可塑性權(quán)衡和偏差校正兩個方面。
在穩(wěn)定性-可塑性權(quán)衡方面,研究顯示Dual-Arch確實結(jié)合了兩種架構(gòu)的優(yōu)勢。單獨使用可塑性網(wǎng)絡會在先前任務上出現(xiàn)嚴重遺忘,而單獨使用穩(wěn)定性網(wǎng)絡則在新任務上表現(xiàn)不佳。Dual-Arch在兩個方面都表現(xiàn)出色,實現(xiàn)了架構(gòu)層面的穩(wěn)定性-可塑性平衡。
在偏差校正方面,研究者分析了任務混淆矩陣,發(fā)現(xiàn)Dual-Arch能夠更準確地確定正確的任務ID,減少任務間的分類錯誤。特別是,它顯著減少了將早期任務數(shù)據(jù)錯分為最近學習任務的情況,這被稱為"任務新近性偏差"(task-recency bias),是災難性遺忘的主要原因之一。
研究的意義與啟示
這項研究提供了一個全新的視角來思考持續(xù)學習中的穩(wěn)定性-可塑性困境。與傳統(tǒng)方法不同,Dual-Arch將這種權(quán)衡從參數(shù)層面擴展到架構(gòu)層面,并通過利用兩種互補架構(gòu)的優(yōu)勢來解決這一挑戰(zhàn)。
這項工作的核心啟示在于,為了實現(xiàn)有效的持續(xù)學習,不僅需要優(yōu)化學習算法,還需要仔細考慮網(wǎng)絡架構(gòu)的設計。通過為不同目標(穩(wěn)定性和可塑性)定制不同的架構(gòu),可以實現(xiàn)更好的整體性能。
對于實際應用,Dual-Arch提供了一種參數(shù)高效的解決方案,特別適合資源受限的環(huán)境。它可以作為即插即用的組件,輕松與各種現(xiàn)有持續(xù)學習方法結(jié)合,顯著提高它們的性能。
研究團隊還驗證了該方法在Vision Transformers等其他架構(gòu)上的有效性,說明這一框架具有廣泛的適用性。此外,在具有模糊任務邊界的更具挑戰(zhàn)性場景中,Dual-Arch也表現(xiàn)出色,進一步證明了其實用價值。
總結(jié)與展望
歸根結(jié)底,這項研究向我們展示了一個簡單而強大的見解:在持續(xù)學習中,網(wǎng)絡架構(gòu)的設計與學習算法同樣重要。通過將穩(wěn)定性和可塑性分配給兩個專門設計的網(wǎng)絡,Dual-Arch框架實現(xiàn)了兩全其美——更好的性能和更少的參數(shù)。
這就像是在學習過程中擁有兩位專家教練,一位幫助你快速掌握新知識,另一位幫助你牢固記住已學內(nèi)容。這種方法不僅在理論上具有吸引力,在實踐中也證明了其有效性。
雖然Dual-Arch在訓練時間方面有所增加(約1.39倍至1.77倍),但在推理時卻實現(xiàn)了更高的計算效率。對于許多實際應用來說,這是一個值得接受的權(quán)衡。
這項研究為持續(xù)學習領(lǐng)域開辟了新的研究方向,鼓勵研究者探索架構(gòu)設計在解決學習困境中的潛力。未來的工作可能會進一步優(yōu)化專用架構(gòu)的設計,或探索更多可能的架構(gòu)組合,以進一步提高持續(xù)學習的性能。
對普通讀者來說,這項研究啟示我們,在面對需要同時保持舊知識和學習新內(nèi)容的任務時,可以考慮采用"分工合作"的策略,讓不同的系統(tǒng)各司其職,從而達到整體最優(yōu)的效果。
好文章,需要你的鼓勵
新加坡國立大學研究團隊開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實驗顯示,僅訓練AI玩簡單撲克游戲就能讓其數(shù)學推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學題目作為訓練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學解題中,為AI訓練提供了新思路。
同濟大學團隊開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學習和數(shù)學優(yōu)化方法,在合成數(shù)據(jù)集上實現(xiàn)37.9%的精度提升,并在真實設備上展現(xiàn)出色泛化能力,為機器人、AR和自動駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學研究團隊通過對比實驗發(fā)現(xiàn),經(jīng)過強化學習訓練的視覺語言模型雖然表現(xiàn)出"頓悟時刻"現(xiàn)象,但這些自我糾錯行為并不能實際提升推理準確率。研究揭示了AI模型存在"生成-驗證差距",即生成答案的能力強于驗證答案質(zhì)量的能力,且模型在自我驗證時無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動態(tài)稀疏性實現(xiàn)大語言模型訓練加速1.6倍,計算成本降低2.2倍。該方法使用SVD稀疏性估計器智能選擇重要計算部分,在保持模型性能的同時顯著提升訓練效率,已在多個任務上驗證有效性。