av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見(jiàn)證連接與計(jì)算的「力量」

首頁(yè) FEAT:北航團(tuán)隊(duì)推出全維高效注意力Transformer,讓醫(yī)療視頻生成更智能、更高效

FEAT:北航團(tuán)隊(duì)推出全維高效注意力Transformer,讓醫(yī)療視頻生成更智能、更高效

2025-06-10 09:25
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-10 09:25 ? 科技行者

醫(yī)療視頻的生成一直是人工智能領(lǐng)域的重要挑戰(zhàn)。2025年6月,來(lái)自北京航空航天大學(xué)、清華大學(xué)、中國(guó)醫(yī)學(xué)科學(xué)院腫瘤醫(yī)院和字節(jié)跳動(dòng)的研究團(tuán)隊(duì)聯(lián)合發(fā)表了一篇?jiǎng)?chuàng)新性論文《FEAT: Full-Dimensional Efficient Attention Transformer for Medical Video Generation》,該論文提出了一種全新的醫(yī)療視頻生成方法。這項(xiàng)研究由北航黃慧晗和楊志文共同第一作作者,徐巖教授擔(dān)任通訊作者,發(fā)表于arXiv預(yù)印本平臺(tái)(arXiv:2506.04956v1)。

想象一下,如果你曾經(jīng)看過(guò)醫(yī)生使用內(nèi)窺鏡檢查的視頻,你會(huì)發(fā)現(xiàn)這些視頻不僅需要清晰的空間細(xì)節(jié)(就像普通照片一樣),還需要流暢的時(shí)間連貫性(物體如何隨時(shí)間移動(dòng))。生成這樣的視頻對(duì)人工智能來(lái)說(shuō)是個(gè)不小的挑戰(zhàn),就像要求一個(gè)人不僅能畫(huà)出一幅精美的靜態(tài)畫(huà)作,還要能創(chuàng)作出一段流暢的動(dòng)畫(huà)片。

現(xiàn)有的視頻生成技術(shù)面臨三個(gè)主要問(wèn)題。首先,它們就像一個(gè)只關(guān)注畫(huà)面構(gòu)圖和動(dòng)作流暢度,卻忽略了色彩協(xié)調(diào)的動(dòng)畫(huà)師——忽略了視頻中不同通道(如顏色、紋理等)之間的相互作用。其次,這些技術(shù)使用的注意力機(jī)制計(jì)算量太大,就像一個(gè)需要同時(shí)記住畫(huà)面中每個(gè)細(xì)節(jié)與其他所有細(xì)節(jié)關(guān)系的畫(huà)家,效率極低。最后,它們只能粗略地適應(yīng)不同程度的噪聲,就像一個(gè)不管畫(huà)布上污漬多少都只用同一種方式清潔的修復(fù)師。

研究團(tuán)隊(duì)提出的FEAT模型通過(guò)三項(xiàng)創(chuàng)新解決了這些問(wèn)題。想象一個(gè)精通空間構(gòu)圖、時(shí)間流動(dòng)和色彩平衡的全能動(dòng)畫(huà)師,F(xiàn)EAT建立了一個(gè)統(tǒng)一的框架,能夠同時(shí)處理空間、時(shí)間和通道三個(gè)維度的依賴關(guān)系。它使用了線性復(fù)雜度的注意力機(jī)制,就像一個(gè)能夠高效記憶關(guān)鍵點(diǎn)而不是所有細(xì)節(jié)的畫(huà)家。此外,它還引入了一個(gè)殘差值引導(dǎo)模塊,能夠根據(jù)具體內(nèi)容和噪聲情況提供精細(xì)的像素級(jí)指導(dǎo),就像一個(gè)能夠根據(jù)污漬性質(zhì)調(diào)整清潔方法的專業(yè)修復(fù)師。

讓我們深入了解FEAT如何改變醫(yī)療視頻生成的游戲規(guī)則。

一、研究背景與挑戰(zhàn)

近年來(lái),擴(kuò)散模型在醫(yī)學(xué)影像人工智能生成內(nèi)容(AIGC)領(lǐng)域取得了革命性進(jìn)展,使得圖像合成、跨模態(tài)轉(zhuǎn)換和圖像重建等應(yīng)用成為可能。然而,雖然這些模型在生成具有空間信息的靜態(tài)醫(yī)學(xué)圖像方面表現(xiàn)出色,但合成高保真的動(dòng)態(tài)醫(yī)學(xué)視頻——需要同時(shí)建模額外的時(shí)間動(dòng)態(tài)和一致性——仍然是一個(gè)重大挑戰(zhàn)。

研究人員已經(jīng)探索了各種編碼空間-時(shí)間動(dòng)態(tài)的方法,包括偽3D卷積、串行2D+1D(空間+時(shí)間)卷積和空間-時(shí)間自注意力機(jī)制。鑒于自注意力能夠捕捉長(zhǎng)距離依賴關(guān)系以及Transformer的可擴(kuò)展性,最近的研究大多采用Transformer架構(gòu),使用級(jí)聯(lián)的空間和時(shí)間自注意力機(jī)制。

然而,當(dāng)前同時(shí)整合空間和時(shí)間自注意力的Transformer仍面臨三個(gè)關(guān)鍵限制:

首先是通道間交互不足。盡管現(xiàn)有架構(gòu)在處理空間和時(shí)間維度方面很復(fù)雜,但它們忽略了建立對(duì)模型特征組成至關(guān)重要的通道依賴關(guān)系。擴(kuò)散模型的出色生成性能很大程度上依賴于去噪過(guò)程,而通道注意力機(jī)制已被廣泛證明對(duì)去噪非常有效。忽略這一重要維度上的交互會(huì)阻礙模型性能。

其次是計(jì)算復(fù)雜度過(guò)高。用于建??臻g和時(shí)間依賴關(guān)系的自注意力機(jī)制計(jì)算復(fù)雜度呈二次方增長(zhǎng),這嚴(yán)重限制了它們?cè)诟叻直媛省⒍鄮t(yī)療視頻中的實(shí)際應(yīng)用。想象一下,如果你需要比較一個(gè)100×100像素、16幀視頻中的每個(gè)點(diǎn)與其他所有點(diǎn)的關(guān)系,這將是一個(gè)天文數(shù)字的計(jì)算量!

第三是粗糙的去噪引導(dǎo)。在擴(kuò)散模型中,模型需要適應(yīng)不同時(shí)間步受不同噪聲水平影響的輸入?,F(xiàn)有方法依賴時(shí)間步嵌入作為全局級(jí)別的引導(dǎo),使用自適應(yīng)層歸一化(adaLN)來(lái)適應(yīng)特定噪聲水平。然而,這種方法過(guò)于粗糙,無(wú)法考慮噪聲模式與視頻內(nèi)容之間的動(dòng)態(tài)交互。雖然最近的工作使用來(lái)自DINO的注意力圖來(lái)考慮內(nèi)容信息,提供更細(xì)粒度的引導(dǎo),但這種方法在訓(xùn)練期間引入了額外的大量計(jì)算開(kāi)銷。

因此,現(xiàn)有方法在實(shí)現(xiàn)高效且有效的醫(yī)療視頻生成方面存在缺陷。

二、FEAT的創(chuàng)新設(shè)計(jì):像一位全能的視頻藝術(shù)家

為了解決上述挑戰(zhàn),研究團(tuán)隊(duì)提出了FEAT,一種全維度高效注意力Transformer,通過(guò)三項(xiàng)關(guān)鍵創(chuàng)新解決了這些問(wèn)題:

首先是全維度依賴關(guān)系建模。想象一個(gè)藝術(shù)家在創(chuàng)作動(dòng)畫(huà)時(shí),不僅要考慮每一幀畫(huà)面的構(gòu)圖(空間維度),還要考慮不同幀之間的動(dòng)作流暢度(時(shí)間維度),以及整體的色彩和光影協(xié)調(diào)(通道維度)。FEAT引入了一個(gè)統(tǒng)一的范式,采用順序空間-時(shí)間-通道注意力機(jī)制,建立跨所有維度的全局依賴關(guān)系,實(shí)現(xiàn)醫(yī)療視頻的整體特征建模。

其次是線性復(fù)雜度設(shè)計(jì)。傳統(tǒng)的自注意力機(jī)制就像要求藝術(shù)家在創(chuàng)作每個(gè)細(xì)節(jié)時(shí)都考慮畫(huà)面中的所有其他細(xì)節(jié),這在數(shù)學(xué)上表現(xiàn)為二次方的計(jì)算復(fù)雜度,極其耗時(shí)。FEAT用兩個(gè)計(jì)算效率更高的組件替代了傳統(tǒng)的自注意力:(1)受RWKV啟發(fā)的加權(quán)鍵值(WKV)注意力,用于建模空間和時(shí)間依賴關(guān)系;(2)全局通道注意力,用于建模通道依賴關(guān)系。這兩個(gè)組件都能在各自維度內(nèi)建立全局依賴關(guān)系,同時(shí)保持線性計(jì)算復(fù)雜度。

第三是殘差值引導(dǎo)。想象一個(gè)修復(fù)師根據(jù)不同類型和程度的污漬調(diào)整清潔方法。FEAT引入了一個(gè)新穎的殘差值引導(dǎo)模塊(ResVGM),利用輸入嵌入(同時(shí)編碼視頻內(nèi)容和特定噪聲模式)作為細(xì)粒度的像素級(jí)引導(dǎo),使模型能夠適應(yīng)處理不同時(shí)間步的輸入。ResVGM參數(shù)高效,計(jì)算開(kāi)銷可忽略不計(jì),同時(shí)顯著提高生成性能。

有了這三項(xiàng)創(chuàng)新,F(xiàn)EAT實(shí)現(xiàn)了高效且有效的醫(yī)療視頻生成。實(shí)驗(yàn)表明,F(xiàn)EAT的小型版本(FEAT-S)僅使用最先進(jìn)模型Endora參數(shù)的23%,就實(shí)現(xiàn)了可比甚至更優(yōu)的性能。此外,更大版本的FEAT-L在不同數(shù)據(jù)集上優(yōu)于所有比較方法。

三、FEAT的技術(shù)實(shí)現(xiàn):高效注意力機(jī)制的藝術(shù)

FEAT的核心在于其創(chuàng)新的架構(gòu)設(shè)計(jì)。想象一下,傳統(tǒng)的Transformer模型像是一個(gè)需要同時(shí)關(guān)注所有細(xì)節(jié)的繪畫(huà)大師,計(jì)算量巨大;而FEAT則像一個(gè)善于捕捉關(guān)鍵信息的高效藝術(shù)家,通過(guò)巧妙的結(jié)構(gòu)設(shè)計(jì)大幅降低了計(jì)算復(fù)雜度。

擴(kuò)散模型的基本原理是通過(guò)迭代去噪將隨機(jī)噪聲轉(zhuǎn)換為高保真數(shù)據(jù)樣本。正向擴(kuò)散過(guò)程通過(guò)添加高斯噪聲逐步破壞輸入數(shù)據(jù)x0,定義為轉(zhuǎn)移概率q(xt|xt-1),其中t時(shí)間步的邊緣分布表示為q(xt|x0) = N(αtx0, σt?I)。αt和σt的系數(shù)設(shè)計(jì)使得xT在t→T時(shí)收斂到N(0, I)。在反向擴(kuò)散過(guò)程中,噪聲預(yù)測(cè)網(wǎng)絡(luò)εθ(xt, t)參數(shù)化轉(zhuǎn)移p(xt-1|xt),迭代地對(duì)xt進(jìn)行去噪以恢復(fù)數(shù)據(jù)分布。

由于直接在高分辨率像素空間訓(xùn)練擴(kuò)散模型計(jì)算成本高昂,研究團(tuán)隊(duì)采用了廣泛使用的潛在擴(kuò)散模型方法,在預(yù)訓(xùn)練自編碼器編碼的潛在空間中執(zhí)行擴(kuò)散過(guò)程。

FEAT的架構(gòu)創(chuàng)新在于如何設(shè)計(jì)Transformer塊以在三個(gè)維度上建立全局依賴關(guān)系,同時(shí)保持計(jì)算效率。對(duì)于空間和時(shí)間Transformer塊,團(tuán)隊(duì)采用了如圖2(a)和(b)所示的WKV注意力機(jī)制。為了更好地適應(yīng)空間和時(shí)間維度,他們修改了原始的token-shift機(jī)制,該機(jī)制旨在增強(qiáng)局部性。對(duì)于空間Transformer塊,引入了2D深度卷積(標(biāo)記為"Shift S")以增強(qiáng)空間維度的局部性。類似地,對(duì)于時(shí)間Transformer塊,應(yīng)用了1D深度卷積(標(biāo)記為"Shift T")以增強(qiáng)時(shí)間維度的局部性。對(duì)于通道Transformer塊,直接采用了圖2(c)所示的全局通道注意力機(jī)制。

這三個(gè)Transformer塊按順序級(jí)聯(lián),使FEAT能夠高效地建立跨空間、時(shí)間和通道維度的全局依賴關(guān)系,實(shí)現(xiàn)醫(yī)療視頻的整體特征建模。

四、殘差值引導(dǎo)模塊:精細(xì)調(diào)整的藝術(shù)

大多數(shù)現(xiàn)有的視頻擴(kuò)散模型使用時(shí)間步t作為全局引導(dǎo),以適應(yīng)去噪過(guò)程中的特定噪聲水平。然而,這種方法相對(duì)粗糙,不足以進(jìn)行內(nèi)容依賴的去噪。

想象一位修復(fù)古畫(huà)的藝術(shù)家,如果只根據(jù)畫(huà)作的年代(對(duì)應(yīng)時(shí)間步)來(lái)選擇修復(fù)方法,而不考慮具體的損壞類型和畫(huà)作內(nèi)容,修復(fù)效果顯然不會(huì)理想。為了克服這一限制,研究團(tuán)隊(duì)提出將輸入嵌入作為額外的細(xì)粒度引導(dǎo)。在去噪過(guò)程中,輸入嵌入(通過(guò)對(duì)輸入或上一時(shí)間步去噪輸出的卷積獲得)同時(shí)編碼了生成的視頻內(nèi)容和相關(guān)的噪聲模式。這些組件為在特定噪聲水平下實(shí)現(xiàn)內(nèi)容依賴的去噪提供了關(guān)鍵引導(dǎo)。

如圖3所示,研究團(tuán)隊(duì)將輸入嵌入Z整合到所有Transformer塊中作為細(xì)粒度引導(dǎo)。具體來(lái)說(shuō),對(duì)于第i個(gè)Transformer塊,Z作為殘差值添加,與注意力中的輸入值Vi和輸出隱藏層Hi交互,如下所示:

Hi = LinAttention(Qi, Ki, Vi + λ?c·Z) + λ?c·(Z - Vi)

其中,LinAttention(·)表示兩種注意力機(jī)制——WKV注意力和全局通道注意力,它們都表現(xiàn)出線性計(jì)算復(fù)雜度。Qi、Ki和Vi分別表示查詢、鍵和值。請(qǐng)注意,在WKV注意力中可以省略Qi。λ?c、λ?c ∈ R^C是兩個(gè)可學(xué)習(xí)的權(quán)重參數(shù)。

這個(gè)過(guò)程確保模型中所有Transformer塊的特征提取基于輸入視頻內(nèi)容和噪聲水平逐步細(xì)化。ResVGM引入的額外參數(shù)和計(jì)算開(kāi)銷可忽略不計(jì),同時(shí)顯著提高了性能。

五、實(shí)驗(yàn)結(jié)果:性能的藝術(shù)證明

研究團(tuán)隊(duì)在兩個(gè)公開(kāi)可用的醫(yī)療視頻數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)評(píng)估:結(jié)腸鏡檢查數(shù)據(jù)集和Kvasir-Capsule數(shù)據(jù)集。遵循標(biāo)準(zhǔn)化視頻處理協(xié)議,他們通過(guò)固定間隔采樣從連續(xù)視頻中均勻提取16幀序列。所有幀在模型訓(xùn)練期間調(diào)整為128×128像素分辨率,以確保維度一致性。

對(duì)于定量評(píng)估,團(tuán)隊(duì)采用了四個(gè)已建立的評(píng)估指標(biāo):Fréchet Inception Distance(FID)、Inception Score(IS)、Fréchet Video Distance(FVD)及其內(nèi)容無(wú)偏變體CD-FVD。遵循StyleGAN-V的評(píng)估框架,他們通過(guò)對(duì)2048個(gè)視頻樣本的統(tǒng)計(jì)分析計(jì)算FVD分?jǐn)?shù),每個(gè)樣本保持完整的16幀時(shí)間結(jié)構(gòu),以保留運(yùn)動(dòng)動(dòng)態(tài)和時(shí)間連貫性。

如表1所示,F(xiàn)EAT-S實(shí)現(xiàn)了與Endora相當(dāng)?shù)男阅?,同時(shí)只需要后者參數(shù)的23%和更低的計(jì)算成本。同時(shí),F(xiàn)EAT-L在性能上超過(guò)了所有比較方法。圖4中的視覺(jué)定性比較結(jié)果也證明了FEAT可以生成更高質(zhì)量和一致性的視頻。

團(tuán)隊(duì)還探索了將生成的視頻作為下游任務(wù)中的無(wú)標(biāo)簽數(shù)據(jù)進(jìn)行半監(jiān)督學(xué)習(xí)的效果,特別是在PolyDiag等基于視頻的疾病診斷基準(zhǔn)上利用FixMatch框架。在這個(gè)實(shí)驗(yàn)中,他們從PolyDiag訓(xùn)練集中隨機(jī)選擇40個(gè)標(biāo)記視頻,并使用從結(jié)腸鏡檢查數(shù)據(jù)集生成的200個(gè)視頻作為無(wú)標(biāo)簽數(shù)據(jù)。如表2所示,F(xiàn)EAT生成的數(shù)據(jù)顯著提升了下游任務(wù)的性能,相比僅監(jiān)督學(xué)習(xí)基線和其他視頻生成技術(shù),這證實(shí)了FEAT作為可靠視頻數(shù)據(jù)增強(qiáng)器的有效性。

最后,表3中的消融研究評(píng)估了FEAT-S模型的關(guān)鍵組件。研究從一個(gè)簡(jiǎn)單的空間-時(shí)間Transformer擴(kuò)散模型基線開(kāi)始,該基線未包含任何提出的策略。然后,他們逐步添加三個(gè)提出的設(shè)計(jì)策略:WKV注意力、通道注意力和ResVGM。結(jié)果清楚地表明,每個(gè)策略都為模型性能的漸進(jìn)提升做出了貢獻(xiàn),突顯了這些設(shè)計(jì)選擇在增強(qiáng)醫(yī)療視頻生成模型有效性方面的重要作用。

六、總結(jié)與未來(lái)展望

這項(xiàng)研究介紹了FEAT,一種創(chuàng)新的全維度高效注意力Transformer,顯著提升了醫(yī)療視頻生成技術(shù)。FEAT通過(guò)三項(xiàng)核心創(chuàng)新解決了三個(gè)關(guān)鍵挑戰(zhàn)——有限的通道間交互、過(guò)高的計(jì)算成本和粗糙的去噪引導(dǎo)。

首先,統(tǒng)一的空間-時(shí)間-通道注意力范式實(shí)現(xiàn)了跨所有維度的整體特征建模。其次,線性復(fù)雜度的注意力設(shè)計(jì)使其能夠高效擴(kuò)展到高分辨率視頻。第三,輕量級(jí)的殘差值引導(dǎo)模塊自適應(yīng)地細(xì)化去噪過(guò)程,以微小的額外計(jì)算成本優(yōu)化生成性能。

實(shí)驗(yàn)結(jié)果表明,F(xiàn)EAT在效率和有效性方面都優(yōu)于現(xiàn)有方法,標(biāo)志著醫(yī)療視頻生成領(lǐng)域的重大進(jìn)步。未來(lái)工作將擴(kuò)展FEAT到更多成像模態(tài),并進(jìn)行更全面的評(píng)估。

對(duì)于醫(yī)療領(lǐng)域的專業(yè)人士和研究人員來(lái)說(shuō),F(xiàn)EAT提供了一種高效生成高質(zhì)量醫(yī)療視頻的新工具,可能在醫(yī)學(xué)教育、模擬訓(xùn)練和數(shù)據(jù)增強(qiáng)方面帶來(lái)重要應(yīng)用。對(duì)于AI研究社區(qū),F(xiàn)EAT展示了如何通過(guò)精心設(shè)計(jì)的注意力機(jī)制和引導(dǎo)策略,在保持計(jì)算效率的同時(shí)提高生成模型性能。

這項(xiàng)研究的代碼已公開(kāi)可用,感興趣的讀者可以通過(guò)論文中提供的鏈接獲取。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-