av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃，關(guān)注公眾號

科技行者
算力行者

見證連接與計算的「力量」

讓語言模型流動起來：MediaTek Research團隊研發(fā)的Latent Flow Transformer，通過流匹配壓縮Transformer層數(shù)

大型語言模型流匹配技術(shù)模型壓縮

讓語言模型流動起來：MediaTek Research團隊研發(fā)的Latent Flow Transformer，通過流匹配壓縮Transformer層數(shù)

作者：科技行者

2025-05-26 07:51

分享至：

MediaTek Research團隊提出的Latent Flow Transformer（LFT）是一種創(chuàng)新架構(gòu)，通過流匹配技術(shù)將多個Transformer層壓縮為單層，大幅提升效率。研究引入"重耦合比率"指標(biāo)精確預(yù)測適合壓縮的層，并開發(fā)Flow Walking算法解決路徑交叉問題。在Pythia-410M模型上，LFT成功將12層壓縮為1層，其性能超過簡單跳過3層的方法，縮小了自回歸與基于流的生成方法之間的差距。這一技術(shù)不僅降低了模型參數(shù)量，還保持與原始架構(gòu)兼容性，為大型語言模型的高效部署開辟了新途徑。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-05-26 07:51 ? 科技行者

大型語言模型（LLMs）在近年來取得了令人矚目的進展，但它們的高計算需求和龐大的參數(shù)量使得普通用戶難以輕松獲取和應(yīng)用這些模型。在這個背景下，來自MediaTek Research的研究團隊包括Yen-Chen Wu、Feng-Ting Liao、Meng-Hsi Chen、Pei-Chen Ho、Farhang Nabiei和Da-shan Shiu最近發(fā)表了一項突破性研究——Latent Flow Transformer（LFT）。這項研究于2025年5月20日發(fā)布在arXiv預(yù)印本平臺（arXiv:2505.14513v1），旨在解決大型語言模型結(jié)構(gòu)效率問題，為模型壓縮提供全新思路。

想象一下，如果你正在搭建一座多層大樓，但發(fā)現(xiàn)有些樓層其實并不必要，去掉它們后大樓依然穩(wěn)固且功能齊全，你會怎么做？這正是LFT嘗試解決的問題。當(dāng)代的大型語言模型就像一座由數(shù)十上百層組成的高樓，每一層（transformer層）都會對信息進行處理和傳遞。研究人員發(fā)現(xiàn)，這些層中有許多可能是冗余的，但傳統(tǒng)的壓縮方法如剪枝和知識蒸餾并未能提供足夠規(guī)模的減少。

與此同時，在圖像生成領(lǐng)域，擴散模型和流匹配（Flow Matching）模型已經(jīng)證明了其令人印象深刻的效率，最新的方法甚至能夠在僅一次采樣過程中生成高質(zhì)量圖像。受此啟發(fā)，研究團隊提出了Latent Flow Transformer，這是一種創(chuàng)新的transformer變體，它通過流匹配（Flow Matching）來學(xué)習(xí)潛在空間的傳輸映射，實現(xiàn)了將多個transformer層壓縮為單一層的目標(biāo)。

簡單來說，LFT就像是在語言模型的多層結(jié)構(gòu)中建立了一條"高速公路"，讓信息可以直接從起點跳躍到終點，而不必經(jīng)過中間的每一個"收費站"（層）。這種方法不僅保持了與原始架構(gòu)的兼容性，還大大減少了計算需求和參數(shù)量。

為了確定哪些層適合被替換，研究團隊引入了一個名為"重耦合比率"（Recoupling Ratio）的指標(biāo)，它能準(zhǔn)確預(yù)測流匹配的質(zhì)量。有趣的是，他們的分析發(fā)現(xiàn)中間層特別適合壓縮，這支持了一個直覺——早期層和后期層在功能上存在質(zhì)的差異。

在Pythia-410M模型上的實驗中，研究團隊證明了通過流匹配訓(xùn)練的LFT可以將24層中的6層壓縮，并且性能優(yōu)于直接跳過2層的方法（LM logits的KL散度為0.407 vs. 0.529），這證明了該設(shè)計的可行性。更令人興奮的是，當(dāng)使用他們新提出的Flow Walking（FW）算法訓(xùn)練時，LFT進一步將12層蒸餾為一層，同時將KL散度降低到0.736，超過了跳過3層的效果（0.932），這顯著縮小了自回歸和基于流的生成范式之間的差距。

讓我們深入了解這項研究的細節(jié)，看看MediaTek Research團隊是如何實現(xiàn)這一令人印象深刻的突破的。

一、Transformer層的連續(xù)時間視角

要理解LFT的工作原理，我們首先需要轉(zhuǎn)變看待Transformer層的方式。想象一下，如果把神經(jīng)網(wǎng)絡(luò)的每一層比作一個加工站，那么傳統(tǒng)的觀點是數(shù)據(jù)包裹必須在每個站點都停留并接受處理。但研究者提出了一個更流暢的視角：將這些離散的處理站點看作一條連續(xù)的流水線。

在這種連續(xù)時間的視角下，一個有L個離散層的神經(jīng)網(wǎng)絡(luò)，特別是帶有殘差連接的網(wǎng)絡(luò)，可以被視為一個將隱藏狀態(tài)從初始狀態(tài)逐步改進到最終狀態(tài)的過程。用數(shù)學(xué)語言來說，這可以表示為一個常微分方程（ODE）：

``` dht/dt = uθ(ht, t) ```

這里，`θ`是參數(shù)化這個方程的參數(shù)，當(dāng)時間`t`與層數(shù)`l/L`匹配時，`ht`就對應(yīng)于第`l`層的隱藏狀態(tài)。想象成一條河流，水（數(shù)據(jù)）從起點流向終點，在每一個時刻都有一個微小的變化，這些微小變化的累積形成了整體的轉(zhuǎn)換效果。

然而，學(xué)習(xí)這種參數(shù)θ涉及到昂貴的模擬計算：

``` ht2 = ht1 + ∫(t1到t2) uθ(ht, t) dt ```

這就像是要預(yù)測河水從一點流到另一點需要解決復(fù)雜的水流方程，計算成本很高。

二、無需模擬的流匹配訓(xùn)練

這就是流匹配（Flow Matching）方法發(fā)揮作用的地方。流匹配提供了一種無需模擬的解決方案，讓我們可以直接學(xué)習(xí)從起點到終點的"流動"。

想象你有一個小球從位置x0要移動到位置x1，流匹配就是學(xué)習(xí)這個球在單位時間內(nèi)通過預(yù)定義路徑移動所需的速度場。它通過最小化以下?lián)p失函數(shù)來學(xué)習(xí)：

``` LFlowMatching = Et[||uθ(xt, t) - vt||?] ```

其中，xt和vt分別是粒子在時間t的位置和速度。

在實踐中，一條直線、勻速軌跡是流匹配的常見選擇。在這種情況下，xt和vt可以簡單地表示為： ``` xt = (1-t)·x0 + t·x1 vt = x1 - x0 ```

這就像是小球沿著直線勻速移動，從起點到終點。

在離散時間推理過程中，數(shù)據(jù)點沿著流動軌跡以離散步驟移動。當(dāng)從時間點t移動到t+d時，一個步驟是：

``` xt+d = xt + d·uθ(xt, t) ```

為了提高流軌跡的穩(wěn)定性和準(zhǔn)確性，可以使用中點估計：

``` xt+d = xt + d·uθ(xt + d/2·uθ(xt, t), t + d/2) ```

這就像是在預(yù)測未來位置時，不僅考慮當(dāng)前位置，還考慮中間過程的狀態(tài)，從而獲得更精確的估計。

三、配對數(shù)據(jù)流匹配的挑戰(zhàn)

在配對樣本的流匹配中，至關(guān)重要的是保持源分布和目標(biāo)分布之間的確定性對應(yīng)關(guān)系。這種設(shè)置下，當(dāng)插值軌跡相交時，會對標(biāo)準(zhǔn)流匹配方法帶來挑戰(zhàn)，因為這些方法在交叉點附近會平均沖突的速度信號，產(chǎn)生有偏估計，無法準(zhǔn)確地將源點傳輸?shù)狡渑鋵Φ哪繕?biāo)。

想象兩條河流交匯，如果只看交匯點的水流方向，你無法確定哪股水來自哪條上游河道。為了克服這個問題，有研究引入了輔助加速度場來調(diào)節(jié)每條軌跡上的變化率，從而使對真實配對映射的對齊更加清晰。另一種方法是學(xué)習(xí)潛在空間投影，在流估計之前解開交叉對，有效地防止軌跡交叉。

四、Latent Flow Transformer架構(gòu)

有了這些背景知識，我們現(xiàn)在可以深入了解Latent Flow Transformer（LFT）的具體工作原理。LFT是一種新型的、為語言建模設(shè)計的Transformer變體，它試圖利用流相關(guān)概念的優(yōu)勢，正如這些概念在圖像生成中所展示的那樣。

LFT通過將教師模型中的連續(xù)Transformer層塊替換為單個學(xué)習(xí)的傳輸運算符（稱為潛在流層）來減少模型大小。該運算符使用流概念進行訓(xùn)練，以準(zhǔn)確地將該塊輸入的潛在表示映射到其對應(yīng)的輸出。

對于LFT的速度場估計網(wǎng)絡(luò)，研究團隊遵循了前人的方法，通過附加的縮放和移位運算符增強了一個教師Transformer層，以及預(yù)測這些因子的MLP網(wǎng)絡(luò)。他們通過從這個增強網(wǎng)絡(luò)的輸出中減去輸入潛在表示來獲得速度估計。

五、重耦合比率：預(yù)測流匹配質(zhì)量

選擇最佳的層塊進行替換對LFT的性能至關(guān)重要。通過流匹配學(xué)習(xí)的可行性受到流路徑交叉的限制，而在LFT中這一挑戰(zhàn)更為嚴重，因為保留原始輸入-輸出配對排除了使用重流方法的可能。

為了指導(dǎo)層選擇，研究團隊引入了一個稱為"重耦合比率"的指標(biāo)。給定來自層m到n的樣本潛在對，這個估計器量化了它們原始配對與由最優(yōu)傳輸（OT）指定的配對之間的偏差。最優(yōu)傳輸確定了層m和層n的潛在表示之間的最小成本映射。

重耦合比率R被定義為與最優(yōu)傳輸矩陣M不一致的配對關(guān)系的百分比：

``` R := 1 - E[Tr(M)/OM] ```

這里OM是矩陣M的階。因為重耦合比率量化了與原始配對的不一致程度，所以較低的R表示更好的一致性，從而預(yù)測較少的流交叉問題，學(xué)習(xí)LFT的可行性更高。

六、學(xué)習(xí)速度場

要學(xué)習(xí)速度場，研究團隊對一系列x0、x1對應(yīng)用了標(biāo)準(zhǔn)流匹配算法。對于替換從層m到層n（包括n）的所有層的LFT，他們將給定令牌的層m的輸入潛在表示作為x0，將層n的輸出潛在表示作為相應(yīng)的x1。

學(xué)習(xí)過程如下： 1. 從訓(xùn)練數(shù)據(jù)集中抽取一個樣本d 2. 獲取(x0, x1)對，分別是LLM教師模型在層m和層n上處理數(shù)據(jù)d的潛在表示 3. 隨機抽取時間點t 4. 計算插值位置xt = (1-t)x0 + tx1 5. 更新參數(shù)θ以最小化uθ(xt, t)和真實速度(x1-x0)之間的平方誤差

七、LFT的展開結(jié)構(gòu)與Transformer的相似性

在推理時，將潛在流層展開成一組固定的時間點t0=0 < t1 < t2... < 1，會將潛在演化過程硬化為靜態(tài)處理圖，這有利于可視化數(shù)據(jù)流和優(yōu)化硬件實現(xiàn)。對于單步流匹配結(jié)合簡單重建近似規(guī)則的特定情況，潛在流層相當(dāng)于單個標(biāo)準(zhǔn)Transformer層。如果使用多個步驟，潛在流層相當(dāng)于具有跨層注意力的Transformer層堆棧。

這種展開的LFT與標(biāo)準(zhǔn)Transformer之間的結(jié)構(gòu)相似性具有重要的實際意義，使研究人員和實踐者能夠利用為基于Transformer的LLM開發(fā)的廣泛生態(tài)系統(tǒng)和高度優(yōu)化的基礎(chǔ)設(shè)施。

八、Flow Walking：提高配對數(shù)據(jù)流匹配

為了解決交叉軌跡的挑戰(zhàn)，同時支持將潛在流層展開回Transformer結(jié)構(gòu)，研究團隊引入了Flow Walking (FW)算法來訓(xùn)練和推理LFT的潛在流層。

FW使用數(shù)值積分來近似從x0到x1的路徑，定義一個步驟為sθ(xt, t, t')=xt+d，其中d=t'-t，xt+d可以由前面介紹的方程確定。關(guān)鍵直覺是通過在交叉點附近輕微分離軌跡來學(xué)習(xí)非交叉軌跡。學(xué)習(xí)速度場的目標(biāo)函數(shù)定義為：

``` LFlowWalking(k) = Et1,...,tk-1[||x0 + ∑Δθ,ti - x1||?] ```

其中Δθ,ti = sθ(xti-1, ti-1, ti) - xti-1，t0=0，tk=1，ti從[0,1]中隨機采樣。

研究團隊在實驗中發(fā)現(xiàn)，選擇k=3并隨機采樣t可以提供一個高效且泛化的訓(xùn)練損失。此外，他們還探索了添加直線性正則化器的可能性，通過標(biāo)準(zhǔn)流匹配來實現(xiàn)：

``` L = LFlowWalking + αLFlowMatching ```

這產(chǎn)生了一個非交叉、直線插值的配對數(shù)據(jù)，顯示出在配對數(shù)據(jù)應(yīng)用中的潛力。

九、實驗結(jié)果與分析

研究團隊在Pythia-410M模型上進行了廣泛的實驗來驗證所提出的框架。他們的主要發(fā)現(xiàn)包括：

1. **層選擇至關(guān)重要**：通過重耦合比率選擇的層構(gòu)建的LFT始終優(yōu)于使用任意層選擇的LFT。這驗證了該指標(biāo)在預(yù)測流匹配質(zhì)量方面的有效性。

2. **重耦合比率分析**：分析顯示，Transformer模型的中間層特別適合壓縮，支持早期層和后期層在質(zhì)量上有所不同的假設(shè)。特別是通過計算層0到層6之間的最優(yōu)傳輸矩陣，他們發(fā)現(xiàn)重耦合比率為0.53，表明可能會遇到大量與流交叉相關(guān)的問題。相比之下，層6到層18之間的最優(yōu)傳輸矩陣顯示重耦合比率為零，表明對于這批數(shù)據(jù)，現(xiàn)有的配對已經(jīng)是最優(yōu)的。

3. **LFT的蒸餾質(zhì)量**：在The Pile上訓(xùn)練時，標(biāo)準(zhǔn)流匹配（LFT-SFM）和Flow Walking（LFT-FW）都顯示出快速收斂，并且明顯優(yōu)于簡單的層跳過方法。當(dāng)替換Pythia-410m的層6-12（25%的參數(shù)）或?qū)?-18（50%的參數(shù)）時，LFT-FW在多個離散時間點的推理上始終優(yōu)于基線。值得注意的是，LFT-FW與k=1達到了與回歸模型相當(dāng)?shù)男阅?，并且?yōu)于具有k=8的LFT-SFM，表明Flow Walking的隱式速度估計更準(zhǔn)確地引導(dǎo)模型朝向其目標(biāo)隱藏狀態(tài)。

4. **離散時間點對推理性能的影響**：離散時間點的數(shù)量k是LFT在推理時的關(guān)鍵超參數(shù)。對于LFT-SFM，KL散度和NMSE隨著k的減少而減少，這意味著早期速度估計更正確地引導(dǎo)隱藏狀態(tài)朝向其目標(biāo)。對于LFT-FW，它在k=3時達到最佳性能，與方程中的三步積分相匹配。當(dāng)k接近1時，KL散度急劇上升，表明t=0時的隱式速度估計不準(zhǔn)確，必須通過多步校正進行改進。有趣的是，盡管從未使用超過三個積分步驟進行訓(xùn)練，LFT-FW對k=8表現(xiàn)出強大的泛化能力，僅顯示輕微的性能下降。

5. **性能對比**：在替換層6-18的設(shè)置下，LFT-FW（k=3）達到了0.736的KL散度，明顯優(yōu)于跳過三層的基線（0.932），驗證了該方法的有效性。這表明Flow Walking成功地克服了主要障礙，即在遠距離Transformer層之間對齊潛在傳輸，有效地橋接了自回歸和基于流的建模范式之間的差距。

十、討論與未來方向

研究團隊指出了幾個有趣的應(yīng)用和未來研究方向：

1. **推測解碼**：推測解碼指的是使用小型草稿模型來加速全尺寸模型的推理。由于直線流Transformer的大小可能比其教師模型小一個數(shù)量級，將直線流Transformer用作推測解碼中的草稿模型是很自然的?？紤]到研究中展示的KL距離結(jié)果，這樣的配置非常有前景。

2. **動態(tài)計算**：傳統(tǒng)Transformer具有固定的計算成本和固定的生成質(zhì)量。相比之下，直線流Transformer允許動態(tài)地改變步驟數(shù)，即在逐句或甚至逐令牌的基礎(chǔ)上動態(tài)改變計算投入。這讓我們可以考慮如何在使用的步驟數(shù)和相應(yīng)的質(zhì)量之間達到最佳平衡。

3. **應(yīng)用于其他模型**：最近，狀態(tài)空間模型和循環(huán)模型因其處理上下文的恒定計算復(fù)雜度而成為Transformer的替代候選。研究團隊推測，如果應(yīng)用他們的方法，可以創(chuàng)建直線流RWKV、直線流MAMBA、直線流xLSTM等。

4. **流解纏**：在當(dāng)前方法中，他們保留了源Transformer的輸入和輸出層不變。已經(jīng)確立的是，安排流匹配對以最小化流交叉顯著提高了性能。一個提議的優(yōu)化方向是優(yōu)化輸入和輸出層以最小化流交叉，條件是輸入嵌入和輸出logit。

5. **從頭訓(xùn)練流替換的Transformer**：一個開放問題是，一旦流替換并結(jié)構(gòu)簡化，是否可以從頭訓(xùn)練所得到的淺層Transformer，而無需首先預(yù)訓(xùn)練完整深度模型。擴散文獻中的先前觀察表明，從頭訓(xùn)練的一步生成器很少能匹配蒸餾的性能。語言建模中可能也存在類似的模式。

這項研究為提高Transformer模型的效率提供了新的視角和方法，有望在降低計算需求的同時保持性能，使大型語言模型更加普及和易于訪問。

大型語言模型流匹配技術(shù)模型壓縮

分享至

0贊

好文章，需要你的鼓勵

推薦文章

自對弈訓(xùn)練
推理能力提升
零和游戲?qū)W習(xí)

2025-07-02 14:26

AI玩游戲能讓推理變聰明？新加坡國立大學(xué)發(fā)現(xiàn)自對弈訓(xùn)練的神奇效果

新加坡國立大學(xué)研究團隊開發(fā)了SPIRAL框架，通過讓AI與自己對弈零和游戲來提升推理能力。實驗顯示，僅訓(xùn)練AI玩簡單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%，通用推理提升8.4%，且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中，為AI訓(xùn)練提供了新思路。
計算機視覺
圖像降噪
3D相機技術(shù)

2025-07-02 14:26

同濟大學(xué)突破性研究：讓3D相機告別"噪點困擾"的智能降噪新技術(shù)

同濟大學(xué)團隊開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息，創(chuàng)新性地解決了3D相機噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系，結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法，在合成數(shù)據(jù)集上實現(xiàn)37.9%的精度提升，并在真實設(shè)備上展現(xiàn)出色泛化能力，為機器人、AR和自動駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
人工智能
視覺語言模型
強化學(xué)習(xí)

2025-07-02 14:26

AI視覺推理模型的"頓悟時刻"真的存在嗎？伊利諾伊大學(xué)研究揭示令人意外的真相

伊利諾伊大學(xué)研究團隊通過對比實驗發(fā)現(xiàn)，經(jīng)過強化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時刻"現(xiàn)象，但這些自我糾錯行為并不能實際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗證差距"，即生成答案的能力強于驗證答案質(zhì)量的能力，且模型在自我驗證時無法有效利用視覺信息，為AI多模態(tài)推理發(fā)展提供了重要啟示。
大語言模型
稀疏性訓(xùn)練
計算效率優(yōu)化

2025-07-02 14:25

MIT團隊發(fā)明"智能減肥法"讓AI訓(xùn)練快1.6倍：只需要一半的算力就能教會大模型新技能

MIT等頂尖機構(gòu)聯(lián)合提出SparseLoRA技術(shù)，通過動態(tài)稀疏性實現(xiàn)大語言模型訓(xùn)練加速1.6倍，計算成本降低2.2倍。該方法使用SVD稀疏性估計器智能選擇重要計算部分，在保持模型性能的同時顯著提升訓(xùn)練效率，已在多個任務(wù)上驗證有效性。

AI玩游戲能讓推理變聰明？新加坡國立大學(xué)發(fā)現(xiàn)自對弈訓(xùn)練的神奇效果

AI玩游戲能讓推理變聰明？新加坡國立大學(xué)發(fā)現(xiàn)自對弈訓(xùn)練的神奇效果

2025-07-02 14:26

同濟大學(xué)突破性研究：讓3D相機告別"噪點困擾"的智能降噪新技術(shù)

同濟大學(xué)突破性研究：讓3D相機告別"噪點困擾"的智能降噪新技術(shù)

2025-07-02 14:26

AI視覺推理模型的"頓悟時刻"真的存在嗎？伊利諾伊大學(xué)研究揭示令人意外的真相

AI視覺推理模型的"頓悟時刻"真的存在嗎？伊利諾伊大學(xué)研究揭示令人意外的真相

2025-07-02 14:26

MIT團隊發(fā)明"智能減肥法"讓AI訓(xùn)練快1.6倍：只需要一半的算力就能教會大模型新技能

MIT團隊發(fā)明"智能減肥法"讓AI訓(xùn)練快1.6倍：只需要一半的算力就能教會大模型新技能

2025-07-02 14:25

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時代

京ICP證15039648號京ICP備15039648號-9 京公網(wǎng)安備 11010802021500號

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報電話：010-62641205　涉未成年人舉報專線：010-62641208 舉報郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報專區(qū)：https://www.12377.cn

<legend id="trz53"><track id="trz53"></track></legend>