這項由哈爾濱工業(yè)大學(xué)張育南、姜朔然、趙夢晨等研究人員主導(dǎo)的研究發(fā)表在《Journal of LaTeX Class Files》第14卷第8期(2021年8月),為大語言模型的持續(xù)學(xué)習(xí)難題提供了突破性解決方案。有興趣深入了解的讀者可以通過論文代碼庫https://github.com/Qznan/GeRe獲取完整資料。
當(dāng)今的人工智能就像一個極其聰明但健忘的學(xué)生。它能快速掌握新知識,卻常常在學(xué)會新技能后忘記之前學(xué)過的內(nèi)容。這種現(xiàn)象在學(xué)術(shù)界被稱為"災(zāi)難性遺忘",是困擾AI研究多年的核心難題。
考慮這樣一個場景:你有一個AI助手,最初它能流利地進(jìn)行日常對話,還具備豐富的常識知識。然后你教它學(xué)習(xí)醫(yī)學(xué)知識,它很快就能回答各種醫(yī)學(xué)問題。但問題來了——當(dāng)你再問它一些基本的生活常識時,它卻開始胡言亂語,仿佛完全忘記了之前掌握的基礎(chǔ)能力。這就是大語言模型在持續(xù)學(xué)習(xí)過程中面臨的核心困境。
哈工大的研究團(tuán)隊發(fā)現(xiàn)了一個令人驚喜的解決方案。他們提出了一個名為GeRe(General Sample Replay,通用樣本回放)的框架,最關(guān)鍵的發(fā)現(xiàn)是:只需要一千個從互聯(lián)網(wǎng)上隨機(jī)挑選的普通文本,就能讓AI在學(xué)習(xí)新技能的同時保持原有能力不退化。
這個發(fā)現(xiàn)顛覆了傳統(tǒng)認(rèn)知。以往的研究認(rèn)為,要讓AI記住舊技能,必須不斷收集和存儲每個任務(wù)的專門樣本,這就像一個學(xué)生要想記住所學(xué)的每門課程,就必須保留每門課的所有筆記和練習(xí)題。但哈工大團(tuán)隊發(fā)現(xiàn),只要有一份"通用備忘錄"——也就是那一千個普通文本樣本——就足夠了。
這些普通文本樣本就像是AI的"營養(yǎng)均衡餐"。正如人體需要各種營養(yǎng)素來維持健康一樣,AI也需要多樣化的文本內(nèi)容來保持其語言理解能力的完整性。研究團(tuán)隊從SlimPajama-627B這個大型文本數(shù)據(jù)集中隨機(jī)抽取了一千個樣本,這些樣本涵蓋了各種主題和寫作風(fēng)格,從健身建議到動物百科,從商業(yè)描述到技術(shù)文檔,應(yīng)有盡有。
更加精妙的是,研究團(tuán)隊不僅僅是簡單地讓AI重復(fù)學(xué)習(xí)這些樣本,而是開發(fā)了一種全新的"神經(jīng)激活狀態(tài)約束優(yōu)化方法",他們稱之為閾值邊際損失(TM)。這個方法的核心思想是監(jiān)控AI大腦中神經(jīng)元的激活狀態(tài),確保在學(xué)習(xí)新任務(wù)時這些狀態(tài)保持穩(wěn)定。
把這個過程比作調(diào)音師調(diào)節(jié)鋼琴。鋼琴有很多琴弦,每根弦都有其特定的音調(diào)。當(dāng)鋼琴師彈奏不同曲子時,不同的琴弦會被觸發(fā)。如果某些琴弦的音調(diào)發(fā)生了漂移,整個鋼琴的和聲就會變得不協(xié)調(diào)。TM損失就像一個精密的調(diào)音器,它時刻監(jiān)控著AI"大腦"中每個"琴弦"(神經(jīng)元)的狀態(tài),確保它們在學(xué)習(xí)新曲子(新任務(wù))時仍然保持原有的音調(diào)(激活模式)。
研究團(tuán)隊的實驗設(shè)計極其嚴(yán)密。他們選擇了Llama-3.1-8B這個擁有80億參數(shù)的大語言模型作為實驗對象,讓它依次學(xué)習(xí)15個不同的下游任務(wù)。這些任務(wù)涵蓋了情感分析、自然語言推理、文本分類等多個領(lǐng)域,就像讓一個學(xué)生連續(xù)學(xué)習(xí)語文、數(shù)學(xué)、物理、化學(xué)等不同學(xué)科。
實驗結(jié)果令人振奮。傳統(tǒng)的持續(xù)學(xué)習(xí)方法在面對這15個任務(wù)時表現(xiàn)得非常糟糕:不使用任何防遺忘措施的基線方法,在MMLU(一個衡量AI常識能力的標(biāo)準(zhǔn)測試)上的得分從66.5分暴跌到38.3分,平均任務(wù)表現(xiàn)也從理想的81.0分下降到37.5分。這就像一個原本成績優(yōu)秀的學(xué)生,在學(xué)習(xí)新課程后反而連基礎(chǔ)知識都忘記了。
但使用GeRe框架的AI表現(xiàn)截然不同。在全參數(shù)微調(diào)設(shè)置下,它不僅將MMLU得分維持在60.7分的高水平,15個任務(wù)的平均表現(xiàn)也達(dá)到了74.4分。在LoRA(一種參數(shù)高效的微調(diào)方法)設(shè)置下,表現(xiàn)更加出色:MMLU得分保持在66.3分,任務(wù)平均表現(xiàn)為64.4分。
這些數(shù)字背后蘊(yùn)含著深刻的意義。GeRe方法證明了一個重要理論:維護(hù)AI的通用能力本身就能促進(jìn)特定任務(wù)的表現(xiàn)。這就像一個擁有扎實基礎(chǔ)知識的學(xué)生,在學(xué)習(xí)新學(xué)科時往往能夠觸類旁通,表現(xiàn)更加優(yōu)異。
研究團(tuán)隊還發(fā)現(xiàn)了一個有趣的現(xiàn)象。他們通過優(yōu)化景觀可視化技術(shù)分析了不同方法在訓(xùn)練過程中的行為。結(jié)果顯示,GeRe方法具有更好的魯棒性,就像在崎嶇山路上行駛的越野車,它能夠在各種復(fù)雜地形上保持穩(wěn)定,而傳統(tǒng)方法則像普通轎車,在遇到路況變化時容易失控。
特別值得一提的是,GeRe方法對學(xué)習(xí)率這個關(guān)鍵參數(shù)表現(xiàn)出了驚人的魯棒性。學(xué)習(xí)率就像駕駛時的油門,踩得太輕學(xué)不到新知識,踩得太重又容易忘記舊知識。傳統(tǒng)方法需要精心調(diào)節(jié)這個參數(shù),稍有不慎就會導(dǎo)致性能急劇下降。但GeRe方法即使在學(xué)習(xí)率增加3到10倍的情況下,仍能保持穩(wěn)定的性能表現(xiàn)。
研究團(tuán)隊還通過大量的對比實驗驗證了TM損失的優(yōu)越性。他們比較了多種不同的回放策略,包括簡單的標(biāo)簽擬合、基于KL散度的邏輯模仿、基于L1/L2損失的特征模仿等。結(jié)果表明,TM損失在各種設(shè)置下都能取得最佳性能,展現(xiàn)出更好的魯棒性和泛化能力。
這項研究的意義遠(yuǎn)超學(xué)術(shù)范疇。在實際應(yīng)用中,大語言模型需要不斷適應(yīng)新的領(lǐng)域和任務(wù)。比如,一個客服AI可能需要從處理一般咨詢逐步擴(kuò)展到處理技術(shù)支持、投訴處理、銷售咨詢等多個專業(yè)領(lǐng)域。傳統(tǒng)方法要求為每個新領(lǐng)域?qū)iT收集和存儲大量訓(xùn)練樣本,不僅成本高昂,還面臨數(shù)據(jù)隱私和存儲空間的限制。
GeRe方法的出現(xiàn)徹底改變了這種狀況。它只需要一次性準(zhǔn)備一千個通用文本樣本,就能支持模型在任意多個任務(wù)上的持續(xù)學(xué)習(xí)。這就像擁有了一把萬能鑰匙,能夠打開所有領(lǐng)域的大門。
從技術(shù)實現(xiàn)角度來看,GeRe方法也展現(xiàn)出了極強(qiáng)的實用性。研究團(tuán)隊提供了完整的開源代碼和數(shù)據(jù),任何研究者或開發(fā)者都可以輕松復(fù)現(xiàn)和應(yīng)用這項技術(shù)。更重要的是,這種方法不依賴于特定的模型架構(gòu)或訓(xùn)練框架,具有很好的通用性。
當(dāng)然,這項研究也有其局限性。一千個樣本雖然相對簡單,但如何選擇這些樣本仍然需要一定的技巧。研究團(tuán)隊使用的是隨機(jī)抽樣方法,但在特定應(yīng)用場景下,可能需要更加精心的樣本選擇策略。此外,雖然GeRe方法在多個基準(zhǔn)測試上表現(xiàn)優(yōu)異,但在更加復(fù)雜和多樣化的實際應(yīng)用中的表現(xiàn)還需要進(jìn)一步驗證。
展望未來,這項研究為大語言模型的持續(xù)學(xué)習(xí)開辟了新的道路。隨著AI技術(shù)的快速發(fā)展,我們有理由相信,未來的AI系統(tǒng)將能夠像人類一樣,在不斷學(xué)習(xí)新知識的同時保持已有能力,實現(xiàn)真正意義上的終身學(xué)習(xí)。
說到底,哈工大團(tuán)隊的這項研究不僅解決了一個重要的技術(shù)難題,更重要的是,它證明了簡單往往比復(fù)雜更有效。一千個普通的文本樣本,配合巧妙的算法設(shè)計,就能讓AI獲得近乎人類的學(xué)習(xí)能力。這種"以簡馭繁"的智慧,或許正是人工智能發(fā)展的正確方向。
Q&A
Q1:GeRe框架具體是怎么工作的?為什么只需要一千個樣本?
A:GeRe框架的核心是使用一千個從互聯(lián)網(wǎng)隨機(jī)收集的普通文本作為"營養(yǎng)均衡餐",在AI學(xué)習(xí)新任務(wù)時同時讓它復(fù)習(xí)這些通用樣本。這些樣本就像維生素,能保持AI的基礎(chǔ)能力不退化。之所以一千個就夠,是因為這些樣本覆蓋了足夠多樣的語言模式和知識領(lǐng)域,能夠維持AI神經(jīng)網(wǎng)絡(luò)的整體平衡狀態(tài)。
Q2:閾值邊際損失(TM)比傳統(tǒng)方法好在哪里?
A:TM損失就像一個精密的調(diào)音器,它不是簡單地要求AI完全復(fù)制舊的輸出,而是監(jiān)控AI大腦中神經(jīng)元的激活狀態(tài),只要這些狀態(tài)保持在合理范圍內(nèi)就行。這比傳統(tǒng)的L1/L2損失更加靈活,避免了過度嚴(yán)格的約束,讓AI在學(xué)習(xí)新知識時有更大的適應(yīng)空間,同時又不會偏離太遠(yuǎn)。
Q3:這項技術(shù)對普通用戶使用AI產(chǎn)品有什么影響?
A:這項技術(shù)最直接的影響是讓AI產(chǎn)品更加穩(wěn)定可靠。以后你使用的AI助手在學(xué)會新技能后不會忘記基本常識,比如一個AI客服在學(xué)會處理技術(shù)問題后仍然能夠進(jìn)行正常的日常對話。對AI公司來說,這大大降低了維護(hù)成本,因為不需要為每個新功能都收集大量專門的訓(xùn)練數(shù)據(jù)。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學(xué)習(xí)外觀和運(yùn)動信息,顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運(yùn)動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報,準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。