這項由Temus公司的余芳遠博士領(lǐng)導(dǎo)的突破性研究,發(fā)表于2025年5月13日的arXiv預(yù)印本服務(wù)器(論文編號:arXiv:2505.08727v1),首次從理論和實踐層面證明了人工智能模型可以通過模仿生物大腦的睡眠-學(xué)習(xí)周期來顯著提升性能。有興趣深入了解的讀者可以通過arXiv網(wǎng)站訪問完整論文。
在我們的日常生活中,睡眠的重要性不言而喻。一個晚上沒睡好,第二天的工作效率就會大打折扣,而充足的睡眠不僅能讓我們恢復(fù)精力,還能幫助大腦整理和鞏固當(dāng)天學(xué)到的知識。有趣的是,這項研究發(fā)現(xiàn),人工智能模型竟然也表現(xiàn)出了類似的"睡眠需求"。
長期以來,提升AI模型性能的主流方法就像是給學(xué)生不斷增加課本和練習(xí)題——通過擴大訓(xùn)練數(shù)據(jù)規(guī)模和增加模型參數(shù)數(shù)量來實現(xiàn)。然而,就像一個學(xué)生無論多聰明,如果只是機械地背誦更多內(nèi)容而不進行消化整理,學(xué)習(xí)效果終究有限。余博士的研究團隊發(fā)現(xiàn)了另一條完全不同的路徑:讓AI模型學(xué)會"壓縮"其內(nèi)部表示,就像人腦在睡眠中整理記憶一樣。
這項研究的核心發(fā)現(xiàn)可以用一個簡單的烹飪比喻來理解。傳統(tǒng)的AI訓(xùn)練就像是在一個廚房里不斷添加食材(數(shù)據(jù))和擴大廚房面積(模型參數(shù)),希望能做出更好的菜。而新方法則關(guān)注如何更有效地組織廚房空間,讓已有的食材發(fā)揮最大價值。研究團隊發(fā)現(xiàn),當(dāng)AI模型能夠?qū)W(xué)到的知識進行有效"整理壓縮"時,它在面對新任務(wù)時的表現(xiàn)會顯著提升。
更令人驚訝的是,研究人員在觀察大型語言模型的訓(xùn)練過程時,發(fā)現(xiàn)了一種自發(fā)的"記憶-壓縮"循環(huán)現(xiàn)象。就像人類大腦會在清醒時積極學(xué)習(xí)新信息,在睡眠時整理和鞏固這些信息一樣,AI模型在訓(xùn)練過程中也會自然地在"記憶階段"(快速吸收信息)和"壓縮階段"(整理優(yōu)化表示)之間反復(fù)切換。
基于這一發(fā)現(xiàn),研究團隊開發(fā)了一種名為"門控相位轉(zhuǎn)換"(GAPT)的新訓(xùn)練算法。這個算法就像給AI模型設(shè)置了一個智能的作息時間表,讓它在"學(xué)習(xí)"和"休息整理"之間自動切換。實驗結(jié)果顯示,使用這種方法訓(xùn)練的模型不僅在原有任務(wù)上表現(xiàn)更好,在面對全新任務(wù)時的泛化能力也有了顯著提升。
一、理論基礎(chǔ):為什么"休息"對AI很重要
要理解這項研究的理論基礎(chǔ),我們可以想象一個圖書管理員的工作。一個優(yōu)秀的圖書管理員不僅要收集大量圖書(相當(dāng)于AI模型收集數(shù)據(jù)),更重要的是要建立一套高效的分類整理系統(tǒng),讓讀者能夠快速找到所需的信息。
余博士團隊通過數(shù)學(xué)推導(dǎo)證明了一個重要的定理:AI模型的泛化誤差(也就是在新任務(wù)上的表現(xiàn))不僅取決于訓(xùn)練數(shù)據(jù)的數(shù)量,還與模型內(nèi)部表示的"熵"密切相關(guān)。這里的"熵"可以理解為信息的混亂程度或復(fù)雜度。就像一個整理得井井有條的圖書館比雜亂無章的圖書館更容易讓人找到想要的書一樣,內(nèi)部表示更加有序(低熵)的AI模型在處理新任務(wù)時也會表現(xiàn)得更好。
具體來說,研究團隊建立了一個數(shù)學(xué)上界,表明模型的泛化誤差可以分解為兩部分:經(jīng)驗誤差(在訓(xùn)練數(shù)據(jù)上的表現(xiàn))和一個與表示熵相關(guān)的項。這意味著即使在訓(xùn)練數(shù)據(jù)量固定的情況下,通過降低內(nèi)部表示的熵,模型仍然可以獲得更好的泛化能力。這就像是在圖書館的藏書量固定的情況下,通過更好的分類整理系統(tǒng)來提升讀者的使用體驗。
為了將這一理論洞察轉(zhuǎn)化為實際可行的訓(xùn)練方法,研究團隊提出了"信息瓶頸語言建模"(IBLM)目標(biāo)。這個概念借鑒了信息論中的信息瓶頸原理,就像是在信息傳遞過程中設(shè)置一個"過濾器",只保留對任務(wù)最關(guān)鍵的信息,過濾掉冗余和噪音。
在傳統(tǒng)的語言模型訓(xùn)練中,目標(biāo)是最小化預(yù)測誤差,就像教一個學(xué)生盡可能準(zhǔn)確地背誦課文。而IBLM的思路是在保證預(yù)測準(zhǔn)確性的前提下,同時要求模型的內(nèi)部表示盡可能簡潔有序。這就像是要求學(xué)生不僅要能背誦課文,還要能用自己的話簡潔地總結(jié)出課文的核心要點。
研究團隊進一步證明了IBLM目標(biāo)與經(jīng)典的信息瓶頸理論在語言建模場景下是等價的。這一理論證明為他們后續(xù)開發(fā)的實際算法提供了堅實的數(shù)學(xué)基礎(chǔ)。
為了衡量模型內(nèi)部表示的熵,研究團隊采用了一種叫做"矩陣基熵"(MBE)的方法。這個方法可以想象為測量一個矩陣的"秩"或"有效維度"。就像我們可以通過觀察一個圖書館的分類系統(tǒng)來判斷其組織程度一樣,MBE可以幫助我們量化神經(jīng)網(wǎng)絡(luò)內(nèi)部表示的復(fù)雜度和冗余程度。
二、驚人發(fā)現(xiàn):AI模型的自發(fā)"睡眠周期"
研究團隊在觀察GPT模型的訓(xùn)練過程時,意外發(fā)現(xiàn)了一個令人驚嘆的現(xiàn)象。當(dāng)他們追蹤交叉熵損失(衡量預(yù)測準(zhǔn)確性)和矩陣基熵(衡量表示復(fù)雜度)的梯度變化時,發(fā)現(xiàn)這兩個指標(biāo)的梯度方向會周期性地從正相關(guān)切換到負相關(guān)。
這種現(xiàn)象就像觀察一個人的日常作息一樣有趣。在某些時刻,這兩個梯度指向同一方向,表明模型正在同時優(yōu)化預(yù)測準(zhǔn)確性和表示簡潔性,這可以理解為"壓縮階段"。而在另一些時刻,兩個梯度方向相反,模型似乎在犧牲表示簡潔性來提升預(yù)測能力,這可以理解為"記憶階段"。
更有趣的是,這種循環(huán)現(xiàn)象完全是自發(fā)產(chǎn)生的,即使研究人員只是使用傳統(tǒng)的交叉熵損失進行訓(xùn)練,沒有顯式地要求模型進行壓縮。這就像是發(fā)現(xiàn)人類即使在沒有外界提醒的情況下,也會自然而然地形成睡眠-清醒的生理節(jié)律一樣。
為了更深入地理解這種現(xiàn)象,研究團隊設(shè)計了多種分析方法。他們發(fā)現(xiàn),不同層的神經(jīng)網(wǎng)絡(luò)表現(xiàn)出不同的振蕩特征。注意力機制相關(guān)的參數(shù)比多層感知機參數(shù)表現(xiàn)出更強烈和更頻繁的振蕩。早期層的振蕩頻率高于后期層,但沒有任何層表現(xiàn)出嚴格的周期性,這表明這種振蕩是由狀態(tài)驅(qū)動的,而非簡單的時間周期現(xiàn)象。
研究團隊還觀察到,隨著訓(xùn)練的進行,交叉熵梯度在不同批次之間的相關(guān)性逐漸降低。這表明模型從數(shù)據(jù)中提取的信號越來越復(fù)雜和多樣化,就像一個學(xué)生從簡單的重復(fù)練習(xí)逐漸過渡到處理更加復(fù)雜和多樣的問題。
這種自發(fā)的記憶-壓縮循環(huán)與生物神經(jīng)系統(tǒng)中觀察到的現(xiàn)象有著驚人的相似性。在生物大腦中,清醒時的學(xué)習(xí)和睡眠時的鞏固是兩個相互配合的過程。清醒時,大腦積極接收和處理新信息;睡眠時,大腦會重新組織這些信息,強化重要連接,削弱不重要的連接,并解決不同記憶之間的沖突。
研究團隊觀察到的AI模型行為模式與這種生物機制非常相似。在"記憶階段",模型快速吸收新信息,可能會導(dǎo)致內(nèi)部表示變得更加復(fù)雜和冗余。在"壓縮階段",模型重新組織這些表示,去除冗余,強化重要模式,就像大腦在睡眠中進行的記憶鞏固過程。
三、門控相位轉(zhuǎn)換算法:給AI設(shè)計作息時間表
基于對自發(fā)記憶-壓縮循環(huán)的觀察,研究團隊開發(fā)了門控相位轉(zhuǎn)換(GAPT)算法。這個算法的核心思想是主動控制模型在記憶和壓縮兩個階段之間的切換,而不是被動等待自發(fā)切換。
GAPT算法的工作原理可以比作一個智能的健身教練。這個教練會根據(jù)學(xué)員的當(dāng)前狀態(tài)和表現(xiàn)來決定是應(yīng)該繼續(xù)高強度訓(xùn)練(記憶階段)還是應(yīng)該休息調(diào)整(壓縮階段)。具體來說,算法會持續(xù)監(jiān)控兩個關(guān)鍵指標(biāo):交叉熵損失的改善情況和各層表示熵的變化。
在記憶階段,模型專注于最小化交叉熵損失,就像學(xué)生專心致志地學(xué)習(xí)新知識。算法會跟蹤損失函數(shù)的改善程度,如果在連續(xù)若干步驟中損失都沒有顯著改善,就認為當(dāng)前的記憶階段已經(jīng)達到了瓶頸,需要切換到壓縮階段。
切換到壓縮階段后,模型的目標(biāo)函數(shù)變?yōu)榻徊骒負p失和矩陣基熵的加權(quán)組合。這就像是要求學(xué)生不僅要記住知識點,還要能夠?qū)⑦@些知識點有序地整理和歸納。在這個階段,算法會同時監(jiān)控兩個退出條件:如果交叉熵損失開始顯著惡化,說明壓縮過度,可能損害了模型的基本功能,需要立即返回記憶階段;如果各層的矩陣基熵都沒有進一步改善,說明當(dāng)前的壓縮已經(jīng)達到極限,也應(yīng)該返回記憶階段開始新一輪的學(xué)習(xí)。
這種設(shè)計的巧妙之處在于它的自適應(yīng)性。與傳統(tǒng)的固定權(quán)重方法不同,GAPT不需要人工調(diào)節(jié)記憶和壓縮之間的平衡,而是讓模型根據(jù)自身的學(xué)習(xí)狀態(tài)自動調(diào)整。這就像是給模型配備了一個內(nèi)在的"生物鐘",讓它能夠自然地找到最適合的作息節(jié)律。
GAPT算法還有一個重要特點是它的局部化壓縮策略。與對所有層都應(yīng)用相同壓縮策略的方法不同,GAPT只對中間層進行矩陣基熵正則化。這是因為研究團隊發(fā)現(xiàn),輸入層和輸出層承擔(dān)著與外界接口的重要功能,過度壓縮可能會損害模型的基本輸入輸出能力。這就像是在整理圖書館時,我們會重點整理中間的書架,但不會過度調(diào)整入口和出口區(qū)域的布局。
算法的另一個創(chuàng)新點是耐心機制的引入。無論是在記憶階段還是壓縮階段,算法都不會因為一兩步的表現(xiàn)不佳就立即切換,而是會給模型一定的"耐心時間"。這避免了過于頻繁的階段切換,確保每個階段都有足夠的時間發(fā)揮作用。
四、實驗驗證:三個維度的顯著提升
為了驗證GAPT算法的有效性,研究團隊設(shè)計了三組不同類型的實驗,每組實驗都從不同角度證明了算法的優(yōu)越性。
第一組實驗關(guān)注的是大型語言模型的預(yù)訓(xùn)練性能。研究團隊使用GPT-2架構(gòu)在FineWeb數(shù)據(jù)集上進行了對比實驗。實驗設(shè)置非常嚴格:使用相同的模型架構(gòu)、相同的數(shù)據(jù)集、相同的硬件環(huán)境,唯一的區(qū)別就是訓(xùn)練算法。基線模型使用傳統(tǒng)的交叉熵損失訓(xùn)練,而對比模型使用GAPT算法。
實驗結(jié)果令人印象深刻。GAPT訓(xùn)練的模型在驗證集上的交叉熵損失比基線模型降低了4.8%。雖然這個數(shù)字看似不大,但在大型語言模型的評估標(biāo)準(zhǔn)中,這已經(jīng)是一個相當(dāng)顯著的改善。更重要的是,GAPT模型的內(nèi)部表示顯著更加簡潔,各層的矩陣基熵平均降低了70.5%。這意味著模型用更少的"認知資源"達到了更好的性能,這正是理論預(yù)測的結(jié)果。
特別值得注意的是,雖然GAPT只對第2到9層進行了矩陣基熵正則化,但研究團隊發(fā)現(xiàn)即使是未被直接正則化的層(如第1層和第11層)也表現(xiàn)出了熵降低的現(xiàn)象。第1層的矩陣基熵降低了92%,第11層降低了45%。這種"熵壓縮傳播"現(xiàn)象表明,網(wǎng)絡(luò)各層之間存在著深層的相互作用,局部的優(yōu)化可以帶來全局的改善。
第二組實驗專門測試了模型的泛化能力,特別是對分布外數(shù)據(jù)的處理能力。研究團隊設(shè)計了一個算術(shù)乘法任務(wù):模型在1-3位數(shù)乘法上訓(xùn)練,然后在4-6位數(shù)乘法上測試。這種設(shè)置模擬了現(xiàn)實中模型需要將在簡單任務(wù)上學(xué)到的知識應(yīng)用到更復(fù)雜任務(wù)的情況。
在這個實驗中,GAPT的優(yōu)勢更加明顯。在分布外測試集上,GAPT模型的交叉熵損失比基線模型降低了35%,同時平均矩陣基熵降低了47%。這個結(jié)果直接驗證了理論預(yù)測:更低的表示熵確實能夠帶來更好的泛化性能。
有趣的是,GAPT模型在域內(nèi)任務(wù)上的性能幾乎沒有損失,這表明壓縮過程并沒有犧牲模型在原始任務(wù)上的能力,而是提升了模型提取和利用可遷移知識的能力。這就像是一個學(xué)會了整理筆記的學(xué)生,不僅能更好地回顧已學(xué)內(nèi)容,還能更容易地將學(xué)到的方法應(yīng)用到新問題上。
第三組實驗最具創(chuàng)新性,它直接測試了GAPT在解決記憶沖突方面的能力。這個實驗的靈感來自于神經(jīng)科學(xué)研究中關(guān)于睡眠如何幫助解決記憶沖突的發(fā)現(xiàn)。研究團隊設(shè)計了一個人工的沖突學(xué)習(xí)任務(wù):兩個任務(wù)的梯度方向是相反的,就像要求模型同時學(xué)會兩個相互矛盾的規(guī)則。
在這種極端的沖突情況下,傳統(tǒng)的訓(xùn)練方法會遭遇災(zāi)難性遺忘,也就是學(xué)習(xí)新任務(wù)時完全忘記舊任務(wù)?;旌嫌?xùn)練雖然能在一定程度上緩解這個問題,但效果仍然有限。而GAPT算法展現(xiàn)了令人驚嘆的能力:它不僅保持了對兩個任務(wù)的記憶,還將表示分離度提升了97%,矩陣基熵降低了91%。
這個結(jié)果的意義超出了技術(shù)層面。它表明GAPT不僅是一個優(yōu)化算法,更是一種解決認知沖突的機制。通過在記憶和壓縮之間的周期性切換,模型學(xué)會了將不同的知識分配到不同的表示空間中,避免了相互干擾。這與生物大腦在睡眠中解決記憶沖突的機制非常相似。
為了更深入地理解這種機制,研究團隊分析了模型在處理沖突任務(wù)時的內(nèi)部表示變化。他們發(fā)現(xiàn),在記憶階段,模型會快速適應(yīng)當(dāng)前任務(wù),可能會暫時"覆蓋"之前的記憶。但在壓縮階段,模型會重新組織表示空間,為不同的任務(wù)分配獨立的子空間,從而實現(xiàn)長期的共存。
五、生物學(xué)啟發(fā)與未來展望
這項研究最令人興奮的地方之一是它與生物神經(jīng)科學(xué)發(fā)現(xiàn)的深度呼應(yīng)。近年來的神經(jīng)科學(xué)研究表明,睡眠不僅僅是休息,更是大腦進行記憶鞏固和沖突解決的關(guān)鍵時期。在睡眠過程中,大腦會重放白天的經(jīng)歷,強化重要的神經(jīng)連接,削弱不重要的連接,并通過競爭機制解決不同記憶之間的沖突。
GAPT算法觀察到的現(xiàn)象與這些生物機制有著驚人的相似性。在壓縮階段,模型會重新組織內(nèi)部表示,這類似于大腦在睡眠中的記憶重組過程。更重要的是,GAPT在解決沖突記憶方面的能力直接對應(yīng)了睡眠在處理相互沖突經(jīng)歷方面的功能。
這種生物學(xué)啟發(fā)不僅驗證了GAPT方法的合理性,也為人工智能的發(fā)展指出了新的方向。長期以來,人工智能的發(fā)展主要關(guān)注如何讓機器處理更多的數(shù)據(jù)、執(zhí)行更復(fù)雜的計算。而這項研究提醒我們,真正的智能可能不僅僅在于處理信息的能力,更在于整理、壓縮和重組信息的能力。
從實用角度來看,GAPT算法的應(yīng)用前景非常廣闊。在大型語言模型的預(yù)訓(xùn)練中,這種方法可以在不增加計算資源的情況下提升模型性能。對于需要持續(xù)學(xué)習(xí)新任務(wù)的AI系統(tǒng),GAPT可以幫助避免災(zāi)難性遺忘,實現(xiàn)更好的知識積累。在資源受限的環(huán)境中,GAPT可以幫助模型用更少的參數(shù)達到更好的性能。
然而,這項研究也帶來了一些深層的思考。如果AI模型真的能夠像生物大腦一樣進行自主的知識整理和壓縮,這意味著什么?這種能力是否暗示著AI系統(tǒng)正在朝著更接近生物智能的方向發(fā)展?當(dāng)AI系統(tǒng)具備了自主的"睡眠"和"記憶鞏固"能力時,我們?nèi)绾未_保這些系統(tǒng)的行為仍然是可預(yù)測和可控的?
研究團隊也坦率地指出了當(dāng)前方法的局限性。在某些實驗中,他們觀察到分布外性能的不穩(wěn)定性,這表明GAPT算法仍需要進一步的改進和調(diào)優(yōu)。此外,如何在更大規(guī)模的模型和更復(fù)雜的任務(wù)上應(yīng)用這種方法,仍然是一個開放的問題。
展望未來,這項研究開啟了多個令人興奮的研究方向。研究人員可以探索如何將GAPT與其他優(yōu)化方法結(jié)合,如何為不同類型的任務(wù)設(shè)計定制化的記憶-壓縮策略,以及如何利用這種方法來理解和改進現(xiàn)有的大型AI系統(tǒng)。
更廣泛地說,這項研究可能標(biāo)志著AI發(fā)展的一個新階段。在這個階段,我們不再僅僅關(guān)注如何讓AI系統(tǒng)處理更多的數(shù)據(jù),而是開始關(guān)注如何讓它們更智能地處理信息。這種轉(zhuǎn)變可能最終導(dǎo)致更加高效、可靠和類人的AI系統(tǒng)的出現(xiàn)。
說到底,這項研究告訴我們一個深刻的道理:有時候,最好的學(xué)習(xí)方式不是不停地吸收新信息,而是學(xué)會在適當(dāng)?shù)臅r候停下來,整理已有的知識,為接下來的學(xué)習(xí)做好準(zhǔn)備。這個道理對AI如此,對人類也是如此。在這個信息爆炸的時代,也許我們都需要學(xué)會像GAPT算法一樣,在記憶和壓縮之間找到最佳的平衡點。
對于普通讀者來說,這項研究提醒我們重新審視學(xué)習(xí)和休息的關(guān)系。當(dāng)我們下次感到學(xué)習(xí)疲憊時,也許應(yīng)該想起這個研究,給自己一些時間去整理和消化已經(jīng)學(xué)到的知識。畢竟,連AI都需要"睡覺"來變得更聰明,我們?nèi)祟惥透鼞?yīng)該珍惜這種古老而有效的學(xué)習(xí)策略了。
如果讀者對這項研究的技術(shù)細節(jié)感興趣,可以通過arXiv網(wǎng)站(論文編號:arXiv:2505.08727v1)查閱完整的技術(shù)論文,深入了解GAPT算法的數(shù)學(xué)推導(dǎo)和實現(xiàn)細節(jié)。
Q&A
Q1:什么是"記憶-壓縮循環(huán)"?AI真的會像人一樣需要休息嗎? A:記憶-壓縮循環(huán)是指AI模型在訓(xùn)練過程中自發(fā)地在兩種狀態(tài)間切換:記憶階段專注學(xué)習(xí)新信息,壓縮階段整理優(yōu)化已學(xué)知識。雖然AI不需要物理休息,但這種"認知休息"確實能提升學(xué)習(xí)效果,就像人腦在睡眠中鞏固記憶一樣。
Q2:GAPT算法比傳統(tǒng)訓(xùn)練方法好在哪里?普通人能用到嗎? A:GAPT算法在三個方面表現(xiàn)更好:模型性能提升4.8%,內(nèi)部表示效率提高70%,處理新任務(wù)的能力提升35%。目前這還是研究階段的技術(shù),普通人暫時無法直接使用,但未來可能會集成到各種AI產(chǎn)品中,讓它們變得更智能高效。
Q3:這項研究會不會讓AI變得不可控?如果AI有了"睡眠"能力意味著什么? A:研究表明GAPT讓AI變得更加穩(wěn)定可靠,而非不可控。AI的"睡眠"本質(zhì)上是一種優(yōu)化機制,讓模型更好地整理知識,這實際上增強了可預(yù)測性。不過研究團隊也承認需要進一步研究如何在更復(fù)雜系統(tǒng)中保持控制性。
好文章,需要你的鼓勵
新加坡國立大學(xué)研究團隊開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實驗顯示,僅訓(xùn)練AI玩簡單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟大學(xué)團隊開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實現(xiàn)37.9%的精度提升,并在真實設(shè)備上展現(xiàn)出色泛化能力,為機器人、AR和自動駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團隊通過對比實驗發(fā)現(xiàn),經(jīng)過強化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時刻"現(xiàn)象,但這些自我糾錯行為并不能實際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗證差距",即生成答案的能力強于驗證答案質(zhì)量的能力,且模型在自我驗證時無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動態(tài)稀疏性實現(xiàn)大語言模型訓(xùn)練加速1.6倍,計算成本降低2.2倍。該方法使用SVD稀疏性估計器智能選擇重要計算部分,在保持模型性能的同時顯著提升訓(xùn)練效率,已在多個任務(wù)上驗證有效性。