av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<sub id="km1a5"><p id="km1a5"></p></sub>

^{<sub id="km1a5"></sub>}

<legend id="km1a5"></legend>

<legend id="km1a5"></legend>^{<sub id="km1a5"><i id="km1a5"></i></sub>}

微信掃一掃，關(guān)注公眾號

科技行者
算力行者

見證連接與計算的「力量」

擴散語言模型遇到量化壓縮：香港城市大學團隊首次系統(tǒng)研究擴散大語言模型的壓縮之路

人工智能模型壓縮擴散模型

擴散語言模型遇到量化壓縮：香港城市大學團隊首次系統(tǒng)研究擴散大語言模型的壓縮之路

作者：科技行者

2025-09-09 10:36

分享至：

香港城市大學等機構(gòu)聯(lián)合開展的首個擴散大語言模型量化研究發(fā)現(xiàn)，這類新型AI模型存在特殊的激活異常值分布模式，為量化壓縮帶來新挑戰(zhàn)。研究系統(tǒng)評估了多種量化方法，發(fā)現(xiàn)4位權(quán)重量化和8位權(quán)重激活同時量化是目前最實用的選擇，GPTQ和DuQuant分別在兩種策略中表現(xiàn)最佳，為擴散語言模型的實用化部署提供了技術(shù)指導。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-09-09 10:36 ? 科技行者

這項由香港城市大學、中科院自動化所等多家知名機構(gòu)聯(lián)合開展的研究發(fā)表于2025年8月，是首個系統(tǒng)性研究擴散大語言模型量化技術(shù)的學術(shù)成果。有興趣深入了解的讀者可以通過arXiv:2508.14896v1訪問完整論文。研究團隊由林浩昆、徐浩博等學者領(lǐng)導，他們來自香港城市大學、清華大學、哈佛大學、中文大學香港分校等頂尖學府。

在人工智能快速發(fā)展的今天，大語言模型就像是一臺超級智能的文字處理器，能夠理解和生成各種文本內(nèi)容。傳統(tǒng)的大語言模型采用自回歸方式工作，就像我們寫作文時一個字一個字地往下寫，前面的內(nèi)容決定后面寫什么。但最近出現(xiàn)了一種全新的方法——擴散大語言模型，它的工作方式更像是在一張模糊的畫紙上逐漸清晰地顯現(xiàn)出文字，能夠同時考慮前后文的關(guān)系，提供更精細的文本生成控制。

然而，這些強大的擴散語言模型面臨著一個現(xiàn)實問題：它們實在太"龐大"了。就像一座裝滿書籍的巨大圖書館，雖然知識豐富，但要把它搬到普通人的手機或電腦上幾乎不可能。為了解決這個問題，研究人員開發(fā)了各種"壓縮"技術(shù)，其中最受關(guān)注的就是量化技術(shù)。量化技術(shù)就像是將圖書館里厚重的精裝書換成輕便的口袋書，在保持大部分內(nèi)容不變的情況下，大幅減少存儲空間和計算需求。

這種量化技術(shù)在傳統(tǒng)自回歸語言模型上已經(jīng)相當成熟，但對于新興的擴散語言模型來說，還是一片未開墾的土地。研究團隊決定填補這個空白，系統(tǒng)性地探索擴散語言模型的量化壓縮之路。

一、擴散模型中的"異常分子"現(xiàn)象

當研究團隊深入分析擴散語言模型的內(nèi)部結(jié)構(gòu)時，他們發(fā)現(xiàn)了一個有趣的現(xiàn)象——激活異常值的存在。這就像在一個安靜的圖書館里，突然有幾個人大聲說話，他們的聲音遠遠超過了周圍的正常音量。在神經(jīng)網(wǎng)絡(luò)中，這些"異常分子"表現(xiàn)為數(shù)值異常巨大的激活值，它們雖然數(shù)量不多，但卻主導了整個數(shù)值范圍。

研究團隊通過可視化分析發(fā)現(xiàn)，這些異常值可以分為兩類。第一類是"普通異常值"，它們在所有文本位置上都表現(xiàn)出相對較大的數(shù)值，就像圖書館里那些天生聲音比較大的人。第二類是"極端異常值"，它們只在少數(shù)幾個特定位置出現(xiàn)極大的數(shù)值，就像偶爾有人忍不住大喊一聲。

有趣的是，研究團隊發(fā)現(xiàn)極端異常值特別喜歡出現(xiàn)在神經(jīng)網(wǎng)絡(luò)的前饋層的第二個線性層中。這個發(fā)現(xiàn)與傳統(tǒng)自回歸語言模型的觀察結(jié)果一致，說明這種現(xiàn)象具有一定的普遍性。然而，與傳統(tǒng)模型相比，擴散語言模型中的普通異常值數(shù)值相對較小，但極端異常值卻分布在更多的文本位置上，這給量化壓縮帶來了新的挑戰(zhàn)。

這些異常值的存在就像在錄音時突然出現(xiàn)的噪音峰值，如果直接按照最大音量來調(diào)整整個錄音設(shè)備的設(shè)置，會導致正常聲音變得模糊不清。同樣，如果量化算法需要照顧這些異常值，就會犧牲大部分正常數(shù)值的精度。這就是為什么傳統(tǒng)的量化方法在面對擴散語言模型時表現(xiàn)不佳的原因。

二、量化技術(shù)的"烹飪實驗"

為了系統(tǒng)性地研究擴散語言模型的量化效果，研究團隊設(shè)計了一系列精心安排的實驗，就像一位經(jīng)驗豐富的廚師嘗試不同的烹飪方法來制作同一道菜。他們選擇了當前最具代表性的擴散語言模型作為研究對象，包括LLaDA-8B模型的基礎(chǔ)版和指令微調(diào)版，以及Dream-7B模型。

在量化方法的選擇上，研究團隊采用了兩種主要策略。第一種是"僅權(quán)重量化"，這就像只壓縮食譜中的配料用量，而保持烹飪過程不變。具體來說，他們使用了GPTQ和AWQ兩種先進的量化方法。GPTQ方法更像是精確的數(shù)學計算，通過優(yōu)化算法來最小化量化誤差。AWQ方法則更注重實用性，它會識別最重要的權(quán)重參數(shù)并給予特殊保護。

第二種策略是"權(quán)重和激活值同時量化"，這相當于既壓縮配料用量，又簡化烹飪步驟。這種方法雖然壓縮效果更顯著，但技術(shù)難度也更高。研究團隊測試了SmoothQuant、QuaRot和DuQuant三種方法。SmoothQuant采用重新分配的策略，將量化難度從激活值轉(zhuǎn)移到權(quán)重上。QuaRot和DuQuant則采用旋轉(zhuǎn)變換的方法，就像轉(zhuǎn)動萬花筒一樣重新排列數(shù)據(jù)分布，使其更適合量化處理。

三、不同精度下的表現(xiàn)差異

研究團隊發(fā)現(xiàn)，量化位寬的選擇就像調(diào)節(jié)畫筆的粗細一樣，直接影響最終的繪畫效果。對于僅權(quán)重量化來說，4位量化被證明是最佳選擇。在這種設(shè)置下，模型性能幾乎沒有損失，有時甚至略有提升。比如，經(jīng)過4位GPTQ量化的LLaDA-8B指令版本在六個常識問答任務上的平均準確率從65.7%提升到66.0%，在數(shù)學推理任務上也僅有0.6%的輕微下降。

然而，當量化位寬進一步壓縮到3位時，性能損失開始變得明顯。這就像用過于粗糙的畫筆作畫，雖然還能看出大致輪廓，但細節(jié)開始模糊。特別是在數(shù)學推理和代碼生成這些需要精確邏輯的任務上，性能下降更加顯著，有時甚至超過10%。

對于權(quán)重和激活值同時量化的情況，8位量化表現(xiàn)出了令人滿意的效果。幾乎所有的量化方法在這個精度下都能保持接近原始模型的性能，性能損失通常不超過2%。這說明即使是相對簡單的SmoothQuant方法也能在8位設(shè)置下有效處理擴散語言模型中的激活異常值。

但是，當同時量化精度降到4位時，情況發(fā)生了戲劇性的變化。SmoothQuant的性能出現(xiàn)了災難性的下降，在某些任務上準確率甚至下降了30%以上，幾乎完全失去了實用價值。這就像用破損的工具進行精密加工，結(jié)果可想而知。相比之下，基于旋轉(zhuǎn)變換的QuaRot和DuQuant方法雖然也有性能損失，但仍能保持相對可接受的水平，證明了它們在處理激活異常值方面的優(yōu)勢。

四、不同量化方法的對決

在僅權(quán)重量化的比較中，GPTQ方法展現(xiàn)出了全面的優(yōu)勢。在絕大多數(shù)任務和設(shè)置下，GPTQ都能提供比AWQ更好的性能保持。這種優(yōu)勢特別體現(xiàn)在常識推理任務上，GPTQ量化后的模型通常能保持更高的準確率。

有意思的是，AWQ方法的相對弱勢可能與擴散語言模型的特殊性質(zhì)有關(guān)。AWQ的核心思想是保護那些被激活值標記為重要的權(quán)重參數(shù)，但在擴散語言模型中，激活異常值的分布模式與傳統(tǒng)自回歸模型不同，這可能削弱了AWQ的優(yōu)勢。這就像一個專門為某種地形設(shè)計的導航系統(tǒng)，在另一種完全不同的地形中可能就不那么有效了。

在代碼生成任務上，情況變得更加復雜。雖然GPTQ在大多數(shù)情況下仍然表現(xiàn)更好，但AWQ在某些極端壓縮設(shè)置下反而顯示出了一定的韌性。不過，需要注意的是，代碼生成任務本身對量化技術(shù)提出了更高的挑戰(zhàn)，即使是最好的方法也難以在低位寬設(shè)置下保持令人滿意的性能。

對于權(quán)重和激活值同時量化，基于旋轉(zhuǎn)變換的方法明顯勝出。QuaRot和DuQuant在各種任務和設(shè)置下都顯著優(yōu)于SmoothQuant，特別是在具有挑戰(zhàn)性的4位量化設(shè)置下。這兩種方法通過巧妙的數(shù)學變換，有效緩解了激活異常值帶來的問題。

在QuaRot和DuQuant的直接對比中，DuQuant展現(xiàn)出了細微但一致的優(yōu)勢。比如在常識問答任務上，DuQuant在LLaDA-8B模型上的性能下降為5.1%，而QuaRot為6.6%。在指令微調(diào)版本上，這個差距更加明顯，DuQuant的性能下降僅為2.5%，而QuaRot為3.9%。這種一致的優(yōu)勢使得DuQuant成為權(quán)重激活值同時量化的首選方法。

五、任務類型對量化效果的影響

研究團隊發(fā)現(xiàn)，不同類型的任務對量化技術(shù)的敏感度存在顯著差異，這就像不同類型的精密儀器對環(huán)境擾動的容忍度不同。一般性的常識問答任務表現(xiàn)出了最強的量化魯棒性。這些任務通常不需要復雜的多步推理，更多依賴于模型已經(jīng)學到的知識和常識，因此對量化引起的精度損失相對不敏感。

數(shù)學推理任務的情況就完全不同了。這類任務需要精確的邏輯推理和多步計算，每一步的小誤差都可能在后續(xù)步驟中被放大，最終導致完全錯誤的結(jié)果。這就像搭建多米諾骨牌，如果某一塊的位置稍有偏差，就可能導致整個鏈條的失敗。在3位量化設(shè)置下，即使是表現(xiàn)最好的GPTQ方法也會在數(shù)學任務上出現(xiàn)超過10%的性能下降。

代碼生成任務面臨著更加嚴峻的挑戰(zhàn)。代碼不僅需要語法正確，還要邏輯嚴密，任何細微的錯誤都可能導致程序無法運行。量化引入的精度損失會影響模型對代碼語法和邏輯的精確把握，進而導致生成的代碼出現(xiàn)各種問題。在4位權(quán)重激活值同時量化的設(shè)置下，即使是最優(yōu)秀的DuQuant方法也會出現(xiàn)超過14%的性能下降。

更值得注意的是，代碼生成任務的評估結(jié)果往往具有較大的標準差，這表明量化對不同類型代碼任務的影響程度差異很大。某些相對簡單的編程任務可能受影響較小，而復雜的算法實現(xiàn)則可能受到嚴重影響。

這些發(fā)現(xiàn)提醒我們，在實際應用中部署量化后的擴散語言模型時，需要根據(jù)具體的使用場景來選擇合適的量化策略。對于主要處理常識問答的應用，可以采用更激進的量化設(shè)置來獲得更好的壓縮效果。而對于需要進行數(shù)學計算或代碼生成的應用，則需要更加保守的量化策略，甚至考慮為這些關(guān)鍵功能保留更高的精度。

六、模型類型的量化表現(xiàn)差異

研究團隊觀察到一個非常有趣的現(xiàn)象：經(jīng)過指令微調(diào)的模型在量化面前表現(xiàn)出了更強的"抗壓能力"。LLaDA-8B指令版相比基礎(chǔ)版在幾乎所有量化設(shè)置下都表現(xiàn)出更小的性能損失。這種差異并非偶然，而是反映了兩種模型在訓練過程中形成的不同特性。

指令微調(diào)的過程就像給模型進行了專門的"抗干擾訓練"。在這個過程中，模型學會了如何在面對各種變化和擾動時仍然保持穩(wěn)定的輸出。這種訓練使得模型的內(nèi)部表示更加魯棒，對量化引入的數(shù)值擾動有更強的容忍能力。相比之下，基礎(chǔ)模型雖然學習了大量的語言知識，但缺乏這種專門的穩(wěn)定性訓練，因此在面對量化擾動時更容易出現(xiàn)性能下降。

這種差異在具有挑戰(zhàn)性的任務上表現(xiàn)得更加明顯。在數(shù)學推理任務上，3位量化設(shè)置下，指令微調(diào)版本的性能下降約為5%，而基礎(chǔ)版本的下降幅度接近10%。在代碼生成任務上，這種差異同樣顯著，指令微調(diào)版本展現(xiàn)出了更好的量化魯棒性。

為了驗證這些發(fā)現(xiàn)的普遍性，研究團隊還對Dream-7B模型進行了評估。結(jié)果證實了他們的主要結(jié)論：4位量化是僅權(quán)重量化的最佳選擇，而GPTQ方法持續(xù)優(yōu)于AWQ。在Dream模型上，3位量化同樣導致了顯著的性能下降，進一步證明了這個精度閾值的重要性。

值得注意的是，Dream模型系列在面對激進量化時表現(xiàn)出了相對更高的敏感性。即使在一般任務上，3位量化也會導致接近風險級別的性能下降，這提醒我們不同的模型架構(gòu)和訓練策略可能會影響量化的效果。

七、量化技術(shù)的實用性思考

通過這項全面的研究，我們可以清楚地看到擴散語言模型量化技術(shù)的現(xiàn)狀和前景。目前來說，4位僅權(quán)重量化已經(jīng)達到了相當實用的水平，能夠在保持幾乎無損性能的同時，顯著減少模型的存儲需求和內(nèi)存占用。這對于在資源受限的設(shè)備上部署擴散語言模型具有重要意義。

8位權(quán)重激活值同時量化也展現(xiàn)出了良好的實用價值。雖然這種方法的壓縮效果不如僅權(quán)重量化那么激進，但它能夠進一步減少推理時的計算需求，這對于提高模型的運行速度具有重要作用。對于需要實時響應的應用場景，這種方法提供了一個很好的性能和效率平衡點。

然而，研究也揭示了一些需要進一步改進的領(lǐng)域。4位權(quán)重激活值同時量化仍然面臨較大的性能損失，特別是在復雜任務上。這表明現(xiàn)有的量化技術(shù)還需要進一步發(fā)展，才能實現(xiàn)真正的超低精度量化而不顯著損害模型性能。

研究團隊的工作還指出了擴散語言模型量化研究的幾個重要方向。首先，針對擴散模型特有的激活異常值分布模式，需要開發(fā)更加專門化的量化算法。其次，考慮到不同任務對量化的敏感度差異，未來可能需要開發(fā)任務感知的自適應量化策略。最后，隨著擴散語言模型架構(gòu)的不斷演進，量化技術(shù)也需要相應地發(fā)展和適應。

說到底，這項研究為擴散語言模型的實用化部署鋪平了道路。雖然目前的量化技術(shù)還不能完全解決所有問題，但已經(jīng)為我們提供了足夠的工具來在實際應用中平衡性能和效率。隨著技術(shù)的不斷進步，我們有理由相信，未來會有更加強大而高效的擴散語言模型出現(xiàn)在我們的日常生活中，從智能助手到內(nèi)容創(chuàng)作工具，從教育應用到專業(yè)軟件，它們將以更加輕量和高效的形式服務于各個領(lǐng)域。對于普通用戶來說，這意味著他們將能夠在自己的設(shè)備上享受到更加智能和便捷的AI服務，而不需要依賴昂貴的云計算資源。這項研究雖然看起來技術(shù)性很強，但它的最終目標是讓AI技術(shù)真正惠及每一個人。

Q&A

Q1：擴散語言模型和傳統(tǒng)語言模型有什么區(qū)別？

A：傳統(tǒng)語言模型像寫作文一樣一個字一個字地生成文本，而擴散語言模型更像在模糊畫紙上逐漸顯現(xiàn)文字，能同時考慮前后文關(guān)系，提供更精細的文本生成控制。擴散模型采用雙向上下文編碼和迭代去噪方式工作。

Q2：量化技術(shù)會讓模型變笨嗎？

A：研究發(fā)現(xiàn)4位權(quán)重量化幾乎不會影響模型性能，有時甚至略有提升。但在數(shù)學推理和代碼生成等復雜任務上，過度量化確實會導致明顯的性能下降。就像把精裝書換成口袋書，內(nèi)容基本保持不變，但極其精細的部分可能會有所損失。

Q3：普通用戶能用上量化后的擴散語言模型嗎？

A：量化技術(shù)的最終目標就是讓AI模型能在普通設(shè)備上運行。4位量化已經(jīng)能顯著減少存儲需求，8位量化還能降低計算需求。這意味著未來用戶可以在自己的手機或電腦上使用強大的AI功能，而不需要依賴云服務。

人工智能模型壓縮擴散模型

分享至

0贊

好文章，需要你的鼓勵

推薦文章

音頻生成
大語言模型
多模態(tài)AI

2025-09-10 09:47

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實驗室團隊AudioStory突破性進展

騰訊ARC實驗室推出AudioStory系統(tǒng)，首次實現(xiàn)AI根據(jù)復雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù)，通過交錯式推理生成、解耦橋接機制和漸進式訓練，能夠?qū)碗s指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準測試中表現(xiàn)優(yōu)異，為AI音頻創(chuàng)作開辟新方向。
視頻生成
深度學習
多模態(tài)學習

2025-09-09 13:57

Meta與特拉維夫大學聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

Meta與特拉維夫大學聯(lián)合研發(fā)的VideoJAM技術(shù)，通過讓AI同時學習外觀和運動信息，顯著解決了當前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運動質(zhì)量，在多項測試中超越包括Sora在內(nèi)的商業(yè)模型，為AI視頻生成的實用化應用奠定了重要基礎(chǔ)。
多模態(tài)AI
人類價值觀對齊
數(shù)據(jù)集構(gòu)建

2025-09-09 13:56

上海AI實驗室重磅發(fā)布：讓AI看圖"說人話"的神奇訓練法，解決多模態(tài)AI與人類價值觀對齊難題

上海AI實驗室發(fā)布OmniAlign-V研究，首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓練數(shù)據(jù)集和MM-AlignBench評測基準，通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法，讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平，為AI價值觀對齊提供了可行技術(shù)路徑。
人工智能
圖神經(jīng)網(wǎng)絡(luò)
天氣預報

2025-09-09 10:56

谷歌研究團隊發(fā)布超級預測模型：讓AI像天氣預報員一樣預測全球大氣變化

谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預測模型，能夠在不到一分鐘內(nèi)完成10天全球天氣預報，準確性超越傳統(tǒng)方法90%的指標。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù)，通過學習40年歷史數(shù)據(jù)掌握天氣變化規(guī)律，在極端天氣預測方面表現(xiàn)卓越，能耗僅為傳統(tǒng)方法的千分之一，為氣象學領(lǐng)域帶來了效率和精度的雙重突破。

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實驗室團隊AudioStory突破性進展

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實驗室團隊AudioStory突破性進展

2025-09-10 09:47

Meta與特拉維夫大學聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

Meta與特拉維夫大學聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

2025-09-09 13:57

上海AI實驗室重磅發(fā)布：讓AI看圖"說人話"的神奇訓練法，解決多模態(tài)AI與人類價值觀對齊難題

上海AI實驗室重磅發(fā)布：讓AI看圖"說人話"的神奇訓練法，解決多模態(tài)AI與人類價值觀對齊難題

2025-09-09 13:56

谷歌研究團隊發(fā)布超級預測模型：讓AI像天氣預報員一樣預測全球大氣變化

谷歌研究團隊發(fā)布超級預測模型：讓AI像天氣預報員一樣預測全球大氣變化

2025-09-09 10:56

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時代

京ICP證15039648號京ICP備15039648號-9 京公網(wǎng)安備 11010802021500號

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報電話：010-62641205　涉未成年人舉報專線：010-62641208 舉報郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報專區(qū)：https://www.12377.cn

<p id="5gkmb"></p><sub id="5gkmb"></sub>