av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<blockquote id="fan6v"></blockquote>

微信掃一掃，關(guān)注公眾號

科技行者
算力行者

見證連接與計(jì)算的「力量」

MIT團(tuán)隊(duì)發(fā)明"智能減肥法"讓AI訓(xùn)練快1.6倍：只需要一半的算力就能教會大模型新技能

大語言模型稀疏性訓(xùn)練計(jì)算效率優(yōu)化

MIT團(tuán)隊(duì)發(fā)明"智能減肥法"讓AI訓(xùn)練快1.6倍：只需要一半的算力就能教會大模型新技能

作者：科技行者

2025-07-02 14:25

分享至：

MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù)，通過動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語言模型訓(xùn)練加速1.6倍，計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分，在保持模型性能的同時(shí)顯著提升訓(xùn)練效率，已在多個(gè)任務(wù)上驗(yàn)證有效性。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-07-02 14:25 ? 科技行者

這項(xiàng)由麻省理工學(xué)院（MIT）、加州大學(xué)伯克利分校、多倫多大學(xué)以及谷歌DeepMind共同完成的研究，于2025年6月發(fā)表在第42屆國際機(jī)器學(xué)習(xí)大會（ICML 2025）上。論文的主要作者包括MIT的劉志堅(jiān)、韓松，伯克利的Kurt Keutzer，多倫多大學(xué)的Konstantinos N. Plataniotis等知名學(xué)者。感興趣的讀者可以通過arXiv:2506.16500v1訪問完整論文，項(xiàng)目主頁為https://z-lab.ai/projects/sparselora。

當(dāng)我們想要訓(xùn)練一個(gè)大型AI模型學(xué)會新技能時(shí)，就像給一個(gè)聰明但固執(zhí)的學(xué)生補(bǔ)課一樣。傳統(tǒng)的方法是讓這個(gè)學(xué)生把所有相關(guān)知識都重新學(xué)一遍，這不僅費(fèi)時(shí)費(fèi)力，還需要巨大的計(jì)算資源。近年來，研究人員開發(fā)了一些"偷懶"的方法，比如LoRA、QLoRA和DoRA，它們通過只訓(xùn)練模型的一小部分參數(shù)來節(jié)省內(nèi)存，就像給學(xué)生發(fā)一本薄薄的補(bǔ)充教材，而不是厚厚的全科教科書。

但這里有個(gè)問題：雖然這些方法節(jié)省了內(nèi)存，卻沒有減少計(jì)算量。實(shí)際上，有些方法甚至讓訓(xùn)練變得更慢了。這就好比學(xué)生雖然拿到了薄教材，但學(xué)習(xí)過程反而變得更加繁瑣復(fù)雜。

研究團(tuán)隊(duì)仔細(xì)觀察發(fā)現(xiàn)，在AI模型訓(xùn)練過程中，并不是所有的計(jì)算都同樣重要。就像一個(gè)廚師做菜時(shí)，不需要同時(shí)使用廚房里的所有工具和食材，只需要根據(jù)當(dāng)前步驟選擇最關(guān)鍵的那些。基于這個(gè)洞察，他們提出了SparseLoRA——一種"智能減肥法"，能夠根據(jù)具體情況動(dòng)態(tài)選擇最重要的計(jì)算，跳過那些不必要的部分。

SparseLoRA的核心創(chuàng)新在于引入了"上下文稀疏性"的概念。簡單來說，就是在每個(gè)訓(xùn)練步驟中，模型會智能地識別出哪些部分對當(dāng)前任務(wù)最關(guān)鍵，然后只對這些關(guān)鍵部分進(jìn)行計(jì)算，而暫時(shí)"冷藏"其他部分。這種做法不僅大幅減少了計(jì)算量，還保持了訓(xùn)練效果。

研究團(tuán)隊(duì)在多個(gè)任務(wù)上測試了他們的方法，包括常識推理、數(shù)學(xué)解題、代碼生成和指令跟隨等。結(jié)果顯示，SparseLoRA能夠?qū)⒂?jì)算成本降低多達(dá)2.2倍，實(shí)際訓(xùn)練速度提升1.6倍，同時(shí)幾乎沒有損失模型的性能表現(xiàn)。

一、動(dòng)態(tài)稀疏性的巧妙設(shè)計(jì)

傳統(tǒng)的模型訓(xùn)練就像一個(gè)工廠流水線，每個(gè)工位都必須全力運(yùn)轉(zhuǎn)，不管當(dāng)前生產(chǎn)的是什么產(chǎn)品。而SparseLoRA采用了完全不同的思路：它讓工廠變得更加靈活，能夠根據(jù)當(dāng)前生產(chǎn)需求動(dòng)態(tài)調(diào)整哪些工位需要運(yùn)轉(zhuǎn)，哪些可以暫時(shí)休息。

研究團(tuán)隊(duì)首先分析了大語言模型在訓(xùn)練過程中的計(jì)算分布。他們發(fā)現(xiàn)，在不同的序列長度下，線性層（包括注意力機(jī)制和前饋網(wǎng)絡(luò)）占據(jù)了訓(xùn)練時(shí)間的主要部分。這些線性層就像工廠里最耗能的大型機(jī)器，如果能讓它們只在必要時(shí)工作，就能大幅節(jié)省資源。

SparseLoRA的設(shè)計(jì)哲學(xué)是"只計(jì)算真正需要的部分"。它會根據(jù)輸入數(shù)據(jù)的特征，動(dòng)態(tài)決定哪些神經(jīng)元通道需要激活，哪些可以跳過。這種選擇不是隨機(jī)的，而是基于精心設(shè)計(jì)的重要性評估機(jī)制。

研究團(tuán)隊(duì)開發(fā)了兩種不同的評估標(biāo)準(zhǔn)來判斷神經(jīng)元的重要性。對于前饋網(wǎng)絡(luò)（FFN），他們使用L2范數(shù)標(biāo)準(zhǔn)，這相當(dāng)于測量每個(gè)神經(jīng)元的"活躍程度"?；钴S程度高的神經(jīng)元對當(dāng)前計(jì)算更重要，需要保留；活躍程度低的則可以暫時(shí)忽略。對于注意力機(jī)制中的查詢和鍵值投影，他們設(shè)計(jì)了專門的QK范數(shù)標(biāo)準(zhǔn)，通過分析查詢和鍵值向量的乘積來評估每個(gè)通道的貢獻(xiàn)度。

這種動(dòng)態(tài)選擇機(jī)制的巧妙之處在于，它不是預(yù)先固定哪些部分重要，而是根據(jù)每個(gè)具體的輸入樣本來做決定。同一個(gè)神經(jīng)元可能在處理某些輸入時(shí)非常重要，在處理其他輸入時(shí)則相對次要。這種靈活性確保了模型既能大幅減少計(jì)算量，又不會錯(cuò)過關(guān)鍵信息。

二、SVD稀疏性估計(jì)器的技術(shù)突破

如果說動(dòng)態(tài)稀疏性是SparseLoRA的核心理念，那么SVD稀疏性估計(jì)器就是實(shí)現(xiàn)這一理念的關(guān)鍵技術(shù)工具。這個(gè)估計(jì)器就像一個(gè)經(jīng)驗(yàn)豐富的工廠調(diào)度員，能夠快速準(zhǔn)確地判斷出在每個(gè)時(shí)刻哪些生產(chǎn)線應(yīng)該開工，哪些應(yīng)該待機(jī)。

傳統(tǒng)的稀疏性方法面臨一個(gè)根本矛盾：為了知道哪些計(jì)算重要，往往需要先進(jìn)行一些計(jì)算，這就像為了決定是否要做一道菜，必須先把所有食材都準(zhǔn)備好一樣，顯然不夠高效。研究團(tuán)隊(duì)通過SVD（奇異值分解）技術(shù)巧妙地解決了這個(gè)問題。

SVD稀疏性估計(jì)器的工作原理可以這樣理解：它首先對預(yù)訓(xùn)練模型的權(quán)重進(jìn)行數(shù)學(xué)分解，提取出最重要的"特征模式"。這個(gè)過程只需要在訓(xùn)練開始前做一次，就像給工廠的每臺機(jī)器制作一份"重要性檔案"。然后在實(shí)際訓(xùn)練過程中，估計(jì)器只需要進(jìn)行很少量的計(jì)算，就能根據(jù)這些預(yù)先提取的模式來判斷當(dāng)前哪些部分最重要。

這種設(shè)計(jì)的精妙之處在于，它將復(fù)雜的重要性判斷轉(zhuǎn)化為簡單的模式匹配問題。估計(jì)器使用低秩近似技術(shù)，只保留最重要的幾個(gè)奇異值和對應(yīng)的向量，這樣就能用很小的計(jì)算代價(jià)獲得接近完美判斷的效果。實(shí)驗(yàn)數(shù)據(jù)顯示，這個(gè)估計(jì)器只增加了0.05%的計(jì)算量和0.8%的運(yùn)行時(shí)間開銷，但能夠達(dá)到接近理想情況99%的準(zhǔn)確性。

更重要的是，這個(gè)估計(jì)器是"免訓(xùn)練"的，不需要針對特定任務(wù)或數(shù)據(jù)集進(jìn)行專門訓(xùn)練。這意味著它具有很好的通用性，可以直接應(yīng)用到不同的模型和任務(wù)上，而不用擔(dān)心過擬合或適應(yīng)性問題。

三、層次敏感性的深度分析

在深入研究過程中，團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象：模型的不同層對稀疏性的容忍度差別巨大，就像人體的不同器官對營養(yǎng)缺乏的敏感性不同一樣。有些層即使大幅減少計(jì)算也不會影響最終效果，而有些層則需要精心呵護(hù)。

研究團(tuán)隊(duì)對LLaMA2-7B模型進(jìn)行了全面的敏感性分析。他們發(fā)現(xiàn)，模型的深層（靠近輸出端的層）通常包含更多冗余信息，對稀疏性的容忍度更高，而淺層（靠近輸入端的層）則更加敏感。這種現(xiàn)象的背后有著深刻的原理：淺層主要負(fù)責(zé)提取和編碼基礎(chǔ)特征，這些特征對后續(xù)所有計(jì)算都至關(guān)重要；而深層則更多地進(jìn)行特征組合和決策，即使丟失一些信息也不會嚴(yán)重影響最終結(jié)果。

基于這個(gè)發(fā)現(xiàn)，SparseLoRA采用了非均勻稀疏性配置策略。對于淺層，它采用相對保守的稀疏性比例，確保基礎(chǔ)特征提取不受影響；對于深層，則可以采用更激進(jìn)的稀疏性比例，大幅減少計(jì)算量。這種分層策略在保證性能的前提下，進(jìn)一步提升了計(jì)算效率。

除了層間差異，研究團(tuán)隊(duì)還發(fā)現(xiàn)了令牌級別的敏感性差異。在語言模型的訓(xùn)練過程中，輸入序列通常包含上下文令牌（用于理解背景）和輸出令牌（用于計(jì)算損失）。他們發(fā)現(xiàn)，輸出令牌對計(jì)算精度的要求遠(yuǎn)高于上下文令牌，因?yàn)檩敵隽钆浦苯佑绊懩Ｐ偷膶W(xué)習(xí)方向。

基于這個(gè)洞察，SparseLoRA實(shí)施了"上下文-輸出感知"的稀疏性策略：對上下文令牌應(yīng)用稀疏計(jì)算，而對輸出令牌保持密集計(jì)算。這種策略確保了學(xué)習(xí)過程的準(zhǔn)確性，同時(shí)仍能獲得顯著的效率提升。實(shí)驗(yàn)表明，這種策略比簡單的均勻稀疏性方法效果更好，特別是在數(shù)學(xué)推理等對精確性要求較高的任務(wù)上。

四、漸進(jìn)式稀疏訓(xùn)練的智慧

訓(xùn)練過程的不同階段對計(jì)算精度的需求也不相同，這促使研究團(tuán)隊(duì)設(shè)計(jì)了漸進(jìn)式稀疏訓(xùn)練策略。這種策略認(rèn)識到，訓(xùn)練初期是模型建立基礎(chǔ)認(rèn)知框架的關(guān)鍵時(shí)期，需要相對完整的信息；而訓(xùn)練后期主要是微調(diào)和優(yōu)化，可以承受更多的稀疏性。

具體來說，SparseLoRA在訓(xùn)練的最初階段（通常是前10%的步驟）保持密集計(jì)算，讓模型有足夠的信息建立正確的學(xué)習(xí)方向。之后逐漸切換到稀疏計(jì)算模式，在保證學(xué)習(xí)效果的前提下大幅提升計(jì)算效率。這種漸進(jìn)式策略在多個(gè)實(shí)驗(yàn)中都顯示出了優(yōu)于固定稀疏性策略的效果。

研究團(tuán)隊(duì)還仔細(xì)分析了不同訓(xùn)練步驟的敏感性變化。他們發(fā)現(xiàn)，早期訓(xùn)練步驟對權(quán)重更新的質(zhì)量要求更高，因?yàn)檫@些更新決定了模型的基本學(xué)習(xí)方向。而后期步驟主要進(jìn)行微調(diào)，即使稍有偏差也不會嚴(yán)重影響最終效果。這個(gè)發(fā)現(xiàn)進(jìn)一步支持了漸進(jìn)式稀疏訓(xùn)練的合理性。

五、全面的實(shí)驗(yàn)驗(yàn)證與性能表現(xiàn)

為了驗(yàn)證SparseLoRA的有效性，研究團(tuán)隊(duì)在五個(gè)不同類型的任務(wù)上進(jìn)行了廣泛測試，包括常識推理、數(shù)學(xué)推理、代碼生成、指令跟隨和序列分類。這些任務(wù)覆蓋了大語言模型的主要應(yīng)用場景，確保了實(shí)驗(yàn)結(jié)果的代表性和可信度。

在常識推理任務(wù)中，SparseLoRA在LLaMA2-13B模型上實(shí)現(xiàn)了1.3倍的速度提升，同時(shí)將計(jì)算量減少了39%。更令人印象深刻的是，模型的準(zhǔn)確性不僅沒有下降，在某些子任務(wù)上甚至略有提升。這表明適當(dāng)?shù)南∈栊钥赡芫哂蓄愃普齽t化的效果，幫助模型避免過擬合。

數(shù)學(xué)推理任務(wù)的結(jié)果更加亮眼。在LLaMA3-8B模型上，SparseLoRA實(shí)現(xiàn)了1.6倍的速度提升，計(jì)算量減少了54%，同時(shí)在GSM8K等標(biāo)準(zhǔn)數(shù)學(xué)題目上保持了相同的解題能力。這個(gè)結(jié)果特別重要，因?yàn)閿?shù)學(xué)推理通常被認(rèn)為是最需要精確計(jì)算的任務(wù)之一。

代碼生成任務(wù)的測試顯示，SparseLoRA在HumanEval和HumanEval+基準(zhǔn)測試中都保持了與原始LoRA相同的性能，同時(shí)實(shí)現(xiàn)了1.3倍的速度提升。這對于實(shí)際的軟件開發(fā)應(yīng)用來說意義重大，因?yàn)樗馕吨梢杂酶俚挠?jì)算資源訓(xùn)練出同樣優(yōu)秀的代碼生成模型。

指令跟隨任務(wù)使用了MT-Bench評估框架，涵蓋了寫作、角色扮演、數(shù)學(xué)、推理等八個(gè)不同維度。SparseLoRA在所有維度上都保持了競爭性的性能，平均得分與原始方法幾乎相同，但訓(xùn)練速度提升了1.5倍。

研究團(tuán)隊(duì)還進(jìn)行了大量的消融實(shí)驗(yàn)，驗(yàn)證了設(shè)計(jì)中每個(gè)組件的貢獻(xiàn)。他們發(fā)現(xiàn)，SVD稀疏性估計(jì)器、層次敏感性配置、上下文-輸出感知策略和漸進(jìn)式訓(xùn)練每個(gè)都對最終性能有重要貢獻(xiàn)，缺少任何一個(gè)都會導(dǎo)致效果下降。

六、兼容性與實(shí)用性考量

SparseLoRA的一個(gè)重要優(yōu)勢是它與現(xiàn)有方法的良好兼容性。研究團(tuán)隊(duì)特別測試了SparseLoRA與QLoRA的結(jié)合使用效果。QLoRA是一種通過量化技術(shù)減少內(nèi)存使用的方法，但會增加計(jì)算時(shí)間。將SparseLoRA與QLoRA結(jié)合使用，可以同時(shí)獲得內(nèi)存和計(jì)算效率的雙重優(yōu)勢。

實(shí)驗(yàn)結(jié)果顯示，SparseQLoRA（兩種方法的結(jié)合）在常識推理任務(wù)上實(shí)現(xiàn)了1.2倍的速度提升，同時(shí)保持了QLoRA的內(nèi)存節(jié)省優(yōu)勢。這種兼容性使得SparseLoRA可以很容易地集成到現(xiàn)有的訓(xùn)練流程中，而不需要大幅修改已有的代碼或系統(tǒng)架構(gòu)。

研究團(tuán)隊(duì)還測試了SparseLoRA在不同投影配置下的表現(xiàn)。除了標(biāo)準(zhǔn)的QKVO投影，他們還測試了包含up和down投影的更復(fù)雜配置。結(jié)果顯示，SparseLoRA的優(yōu)勢不僅限于特定的網(wǎng)絡(luò)結(jié)構(gòu)，而是具有廣泛的適用性。

在硬件兼容性方面，SparseLoRA設(shè)計(jì)了結(jié)構(gòu)化稀疏性，這意味著它可以在常見的GPU硬件上獲得實(shí)際的速度提升，而不僅僅是理論上的計(jì)算量減少。這對于實(shí)際應(yīng)用來說至關(guān)重要，因?yàn)樵S多稀疏性方法雖然在理論上減少了計(jì)算量，但由于硬件限制無法獲得實(shí)際的速度提升。

七、技術(shù)細(xì)節(jié)與實(shí)現(xiàn)考量

SparseLoRA的實(shí)現(xiàn)涉及多個(gè)精心設(shè)計(jì)的技術(shù)細(xì)節(jié)。首先是稀疏性配置的選擇。研究團(tuán)隊(duì)發(fā)現(xiàn)，不同模型和任務(wù)需要不同的稀疏性配置。例如，在LLaMA3-8B的數(shù)學(xué)推理任務(wù)中，他們對第3到第30層的FFN應(yīng)用99%的稀疏性，對第14到第29層的某些注意力投影應(yīng)用75%的稀疏性。這些配置都是通過敏感性分析確定的，確保在不同層上的稀疏性比例是最優(yōu)的。

SVD分解的秩選擇也是一個(gè)重要的技術(shù)考量。研究團(tuán)隊(duì)發(fā)現(xiàn)，使用秩8的SVD分解能夠在計(jì)算開銷和估計(jì)準(zhǔn)確性之間取得最佳平衡。更高的秩會增加計(jì)算開銷，而更低的秩會影響估計(jì)準(zhǔn)確性。秩8的選擇使得SVD估計(jì)器能夠以30MB的額外內(nèi)存和0.8%的運(yùn)行時(shí)開銷獲得接近完美的重要性估計(jì)。

在實(shí)際實(shí)現(xiàn)中，SparseLoRA還考慮了內(nèi)存訪問模式的優(yōu)化。通過仔細(xì)設(shè)計(jì)稀疏權(quán)重的切片和計(jì)算順序，它能夠最大化GPU的計(jì)算效率，避免內(nèi)存訪問瓶頸。這種底層優(yōu)化確保了理論上的計(jì)算減少能夠轉(zhuǎn)化為實(shí)際的性能提升。

研究團(tuán)隊(duì)還提供了詳細(xì)的超參數(shù)配置指南。對于不同的任務(wù)和模型，他們給出了推薦的稀疏性比例、SVD秩選擇和漸進(jìn)式訓(xùn)練的步驟配置。這些指南基于大量的實(shí)驗(yàn)數(shù)據(jù)，可以幫助實(shí)際用戶快速獲得最佳的訓(xùn)練效果。

八、深入的比較分析

為了更全面地評估SparseLoRA的優(yōu)勢，研究團(tuán)隊(duì)進(jìn)行了與多種現(xiàn)有方法的詳細(xì)比較。與傳統(tǒng)的LoRA相比，SparseLoRA在保持相同準(zhǔn)確性的情況下實(shí)現(xiàn)了顯著的速度提升。與QLoRA相比，SparseLoRA不僅速度更快，而且不需要專門的量化硬件支持。與DoRA相比，SparseLoRA避免了額外的計(jì)算開銷，實(shí)際上比DoRA快了一倍以上。

研究團(tuán)隊(duì)還比較了SparseLoRA與GaLore的性能。GaLore是另一種旨在提高訓(xùn)練效率的方法，它通過梯度的低秩投影來減少內(nèi)存使用。然而，GaLore的在線SVD更新帶來了顯著的計(jì)算開銷，使得訓(xùn)練時(shí)間增加了58%。相比之下，SparseLoRA通過離線SVD分解避免了這種開銷，實(shí)現(xiàn)了真正的速度提升。

在等計(jì)算量比較中，SparseLoRA顯示出了更強(qiáng)的優(yōu)勢。當(dāng)限定相同的計(jì)算預(yù)算時(shí)，SparseLoRA訓(xùn)練的模型在各項(xiàng)任務(wù)上都表現(xiàn)更好。這種等FLOP比較特別重要，因?yàn)樗从沉嗽趯?shí)際應(yīng)用中資源受限情況下的真實(shí)性能差異。

研究團(tuán)隊(duì)還進(jìn)行了學(xué)習(xí)率敏感性分析，發(fā)現(xiàn)SparseLoRA對不同學(xué)習(xí)率的魯棒性很好。在數(shù)學(xué)推理任務(wù)中，最佳SparseLoRA配置與最佳LoRA配置的性能差距僅為0.2%，在常識推理任務(wù)中差距為0.3%。這種魯棒性證明了SparseLoRA的穩(wěn)定性和實(shí)用性。

歸根結(jié)底，這項(xiàng)研究為大語言模型的高效訓(xùn)練開辟了一條新的道路。SparseLoRA通過巧妙的動(dòng)態(tài)稀疏性設(shè)計(jì)，實(shí)現(xiàn)了計(jì)算效率和模型性能的雙重優(yōu)化。它不僅在多個(gè)標(biāo)準(zhǔn)任務(wù)上驗(yàn)證了有效性，還展現(xiàn)了良好的通用性和兼容性。

更重要的是，SparseLoRA的成功證明了一個(gè)重要觀點(diǎn)：在AI模型訓(xùn)練中，"更多"并不總是"更好"。通過智能地選擇真正重要的計(jì)算，我們可以用更少的資源獲得相同甚至更好的效果。這種思路不僅對當(dāng)前的大語言模型訓(xùn)練有價(jià)值，也為未來更加高效的AI系統(tǒng)設(shè)計(jì)指明了方向。

隨著AI模型規(guī)模的不斷增長和應(yīng)用場景的不斷擴(kuò)展，計(jì)算效率將變得越來越重要。SparseLoRA提供的解決方案讓更多的研究者和開發(fā)者能夠以更低的成本訓(xùn)練和部署先進(jìn)的AI模型，這對于AI技術(shù)的普及和發(fā)展具有重要意義。對于那些希望深入了解這項(xiàng)技術(shù)細(xì)節(jié)的讀者，可以通過arXiv:2506.16500v1訪問完整的研究論文，或者訪問項(xiàng)目主頁https://z-lab.ai/projects/sparselora獲取更多資源。

Q&A

Q1：SparseLoRA是什么？它與普通的LoRA有什么區(qū)別？ A：SparseLoRA是一種智能化的AI模型訓(xùn)練方法，它在傳統(tǒng)LoRA的基礎(chǔ)上增加了動(dòng)態(tài)稀疏性功能。簡單來說，普通LoRA只能節(jié)省內(nèi)存，而SparseLoRA既能節(jié)省內(nèi)存又能加快訓(xùn)練速度。它通過智能選擇重要的計(jì)算部分，跳過不必要的計(jì)算，實(shí)現(xiàn)了最高1.6倍的速度提升。

Q2：SparseLoRA會不會影響AI模型的性能和準(zhǔn)確性？ A：不會顯著影響性能。研究團(tuán)隊(duì)在多個(gè)任務(wù)上的測試顯示，SparseLoRA在大幅提升訓(xùn)練速度的同時(shí)，幾乎沒有損失模型的準(zhǔn)確性。在某些任務(wù)上，由于稀疏性帶來的正則化效果，性能甚至略有提升。這說明適當(dāng)?shù)南∈栊圆粌H不會傷害模型，還可能有助于提升效果。

Q3：普通用戶能使用SparseLoRA技術(shù)嗎？有什么要求？ A：SparseLoRA主要面向AI研究者和開發(fā)者，需要一定的機(jī)器學(xué)習(xí)背景才能使用。它可以在常見的GPU硬件上運(yùn)行，與現(xiàn)有的訓(xùn)練框架兼容。研究團(tuán)隊(duì)已經(jīng)開源了相關(guān)代碼，技術(shù)人員可以通過項(xiàng)目主頁獲取實(shí)現(xiàn)細(xì)節(jié)。對于普通用戶來說，主要受益是未來AI服務(wù)的成本可能會因此降低。

大語言模型稀疏性訓(xùn)練計(jì)算效率優(yōu)化

分享至

0贊

好文章，需要你的鼓勵(lì)

推薦文章

音頻生成
大語言模型
多模態(tài)AI

2025-09-10 09:47

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng)，首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù)，通過交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練，能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異，為AI音頻創(chuàng)作開辟新方向。
視頻生成
深度學(xué)習(xí)
多模態(tài)學(xué)習(xí)

2025-09-09 13:57

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動(dòng)起來不再是奢望

Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù)，通過讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息，顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量，在多項(xiàng)測試中超越包括Sora在內(nèi)的商業(yè)模型，為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
多模態(tài)AI
人類價(jià)值觀對齊
數(shù)據(jù)集構(gòu)建

2025-09-09 13:56

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價(jià)值觀對齊難題

上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究，首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn)，通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法，讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平，為AI價(jià)值觀對齊提供了可行技術(shù)路徑。
人工智能
圖神經(jīng)網(wǎng)絡(luò)
天氣預(yù)報(bào)

2025-09-09 10:56

谷歌研究團(tuán)隊(duì)發(fā)布超級預(yù)測模型：讓AI像天氣預(yù)報(bào)員一樣預(yù)測全球大氣變化

谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測模型，能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào)，準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù)，通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律，在極端天氣預(yù)測方面表現(xiàn)卓越，能耗僅為傳統(tǒng)方法的千分之一，為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

2025-09-10 09:47

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動(dòng)起來不再是奢望

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動(dòng)起來不再是奢望

2025-09-09 13:57

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價(jià)值觀對齊難題

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價(jià)值觀對齊難題

2025-09-09 13:56

谷歌研究團(tuán)隊(duì)發(fā)布超級預(yù)測模型：讓AI像天氣預(yù)報(bào)員一樣預(yù)測全球大氣變化

谷歌研究團(tuán)隊(duì)發(fā)布超級預(yù)測模型：讓AI像天氣預(yù)報(bào)員一樣預(yù)測全球大氣變化

2025-09-09 10:56

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時(shí)代

京ICP證15039648號京ICP備15039648號-9 京公網(wǎng)安備 11010802021500號

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報(bào)電話：010-62641205　涉未成年人舉報(bào)專線：010-62641208 舉報(bào)郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報(bào)專區(qū)：https://www.12377.cn

<ruby id="4tjsq"></ruby>

<var id="4tjsq"><strong id="4tjsq"></strong></var>

<em id="4tjsq"><tfoot id="4tjsq"></tfoot></em>