av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 這次與眾不同:Datadog公司如何打造出一款專注于可觀測性數據的時間序列基礎模型

這次與眾不同:Datadog公司如何打造出一款專注于可觀測性數據的時間序列基礎模型

2025-05-27 17:08
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-27 17:08 ? 科技行者

在快速發(fā)展的技術世界中,隨時掌握計算機系統(tǒng)的健康狀況至關重要。當我們談論"可觀測性"時,指的是收集和分析分布式計算機系統(tǒng)生成的數據,以便及時發(fā)現、診斷和解決性能與可靠性問題。這項由Datadog公司的Ben Cohen、Emaad Khwaja領導,并有眾多研究人員參與的最新研究成果,于2025年5月20日發(fā)表在arXiv預印本平臺上(編號:2505.14766v1)。這篇論文介紹了兩項重大貢獻:一個名為TOTO的時間序列預測基礎模型,以及一個專門用于可觀測性數據評估的大規(guī)?;鶞蕯祿疊OOM。這項研究值得我們關注,因為它可能徹底改變我們監(jiān)控和預測復雜計算系統(tǒng)行為的方式。

讓我們先理解一下為什么可觀測性數據如此特別。想象你有一臺正在運行多個應用程序的電腦。要確保它運行良好,你需要監(jiān)控很多指標:內存使用量、CPU負載、磁盤讀寫速度、網絡吞吐量、點擊次數、錯誤率和延遲等。這些指標各自展現不同的行為模式,共同反映系統(tǒng)的運行狀況。當這些指標出現異常時(比如錯誤率突然飆升),你需要快速找出原因;或者,你可能想提前預測資源何時會耗盡,以便及時擴展系統(tǒng)。

現實世界中,可觀測性系統(tǒng)通常需要監(jiān)控數百萬甚至數十億個不同的時間序列。這種規(guī)模使得為每個時間序列單獨訓練復雜模型變得不切實際。你可以想象這就像要為城市中的每條街道分別預測交通狀況,而不是建立一個統(tǒng)一的交通預測系統(tǒng)。這正是時間序列基礎模型的用武之地——它們可以在不需要針對特定時間序列進行訓練的情況下,直接進行"零樣本"預測。

然而,研究人員發(fā)現現有的通用時間序列基礎模型在處理可觀測性數據時表現不佳。這就像一個擅長預測天氣的系統(tǒng)可能無法準確預測股票市場一樣——不同領域的數據有其獨特的特點和挑戰(zhàn)。

一、TOTO:為可觀測性而生的時間序列基礎模型

TOTO(Time Series Optimized Transformer for Observability)是一個擁有1.51億參數的時間序列預測基礎模型。它采用了現代的僅解碼器架構,并融入了專為應對多變量可觀測性時間序列數據挑戰(zhàn)而設計的創(chuàng)新架構。

讓我們通過一個簡單的比喻來理解TOTO的工作原理:想象你在觀察一個繁忙的道路網絡。每條道路(變量)在不同時間點有不同的交通流量(數值)。TOTO的任務是根據過去幾小時的交通數據,預測未來幾小時內每條道路的交通情況。

TOTO的關鍵創(chuàng)新組件包括:

首先是"基于補丁的因果實例歸一化"。普通人可能會問:"這是什么意思?"簡單來說,可觀測性數據往往變化劇烈——就像一條平時很少車輛的道路,突然因為一場音樂會而變得異常擁堵。大多數模型會使用整個歷史數據的平均值和方差來標準化輸入,但這對于這種快速變化的數據效果不佳。TOTO采用了一種新方法,它只使用當前和過去的數據來計算標準化參數,確保模型不會"偷看"未來的數據。這就像交通預報員只能根據已經發(fā)生的交通狀況,而不是根據將要舉行的活動來預測交通一樣。研究表明,這種方法在處理高度非平穩(wěn)的序列時表現出色。

第二個創(chuàng)新是"比例因子化注意力"。想象你需要同時關注數十條甚至上百條道路的交通狀況。傳統(tǒng)方法要么會試圖同時分析所有道路和所有時間點的關系(計算成本極高),要么只關注時間維度而忽略道路之間的關系(丟失重要信息)。TOTO采用了一種平衡的方法:它更多地關注時間維度的關系(例如,早高峰通常在下午高峰之前),但也不忽視變量之間的關系(例如,主干道擁堵時,附近的小路也可能變得繁忙)。具體來說,TOTO使用了11:1的比例——11個時間維度的注意力層后跟1個變量維度的注意力層,這樣既能捕捉時間模式,又能理解變量間的相互影響,同時保持計算效率。

第三個關鍵組件是"學生T混合模型"。為什么需要這個?可觀測性數據經常出現極端值——就像平常車流量為100輛/小時的道路,偶爾可能因為事故飆升到1000輛/小時。普通的高斯分布(鐘形曲線)難以捕捉這種極端情況。TOTO使用學生T分布的混合模型,這種分布有"更厚的尾部",能更好地表示罕見但重要的極端情況。這使得TOTO不僅能預測普通情況,還能對異常情況做出合理的概率估計。

最后,TOTO使用了"復合魯棒損失函數",這有點像訓練一個運動員同時掌握多種技能。該損失函數結合了負對數似然(關注概率預測質量)和柯西損失(關注點預測準確性),幫助模型在訓練過程中避免某些病態(tài)解,并減輕離群值的影響。

TOTO的訓練數據集是目前最大的同類數據集之一,包含約2.36萬億個時間序列點,其中1.59萬億是非重復的非合成數據。這個數據集比領先的時間序列基礎模型的預訓練語料庫大4-10倍。其中43%來自Datadog自己的內部可觀測性平臺,完全匿名化處理,不包含任何客戶數據。此外,還包括公共數據集和合成數據,以提高模型的泛化能力。

二、BOOM:為可觀測性而生的基準數據集

除了TOTO模型,研究團隊還推出了BOOM(Benchmark of Observability Metrics),這是一個專門針對可觀測性時間序列的大規(guī)模評估框架。

BOOM包含約3.5億個觀測值,跨越2,807個真實世界的時間序列。盡管BOOM的唯一序列數量比通用時間序列基準GIFT-Eval少(2,807對144K),但它的總數據點更多(3.5億對1.58億),且維度顯著更高,每個序列的中位變量數為60,而GIFT-Eval主要是單變量或低基數多變量序列。

BOOM的數據完全來自Datadog平臺的匿名化遙測和內部可觀測性指標。為確保評估設置穩(wěn)健并防止污染,TOTO的訓練數據專門來自生產環(huán)境,而BOOM的評估數據則來自單獨的暫存環(huán)境。

為了突顯BOOM數據的多樣性,研究人員將每個時間序列根據其查詢字符串分配了一個或多個標簽,形成了一個分類法。這些領域包括:應用程序使用(占41.3%,如請求率、API調用)、基礎設施(占34.4%,如CPU使用率、內存消耗)、數據庫(占29.3%,如查詢延遲)、網絡(占10%,如吞吐量、延遲)和安全(占0.3%,如登錄嘗試、代碼漏洞)。

那么,可觀測性時間序列有什么特別之處呢?研究人員分析了六個相關統(tǒng)計特性,發(fā)現BOOM數據集與通用時間序列基準相比有顯著差異:

首先是"一階自相關函數",它衡量短期時間依賴性。BOOM分布在較小值處有較大的下尾,表明局部噪聲波動更大。

其次是"ARCH-LM統(tǒng)計量",它檢測自回歸條件異方差性。BOOM分布是雙峰的,在接近零處有一個大峰值,這表明時變波動性更高。

"頻譜熵"在可觀測性序列中平均更高,表明周期性更少,不規(guī)則性更大。

"KPSS統(tǒng)計量",一種非平穩(wěn)性測試,在BOOM可觀測性數據中取值更大,表明更頻繁地偏離確定性趨勢。

"平坦點"衡量時間序列中最長常數子序列的長度。這個指標在BOOM中更高,表明可觀測性數據中的稀疏指標更多。

最后,"偏度"揭示了可觀測性數據中更重尾、不對稱的分布,這通常反映了突發(fā)行為和罕見但極端的事件。

總的來說,這些統(tǒng)計特性在BOOM數據中的更極端值,強化了可觀測性時間序列的獨特性和挑戰(zhàn)性。

三、實驗結果:TOTO的表現如何?

研究團隊在三個基準上評估了TOTO:BOOM、GIFT-Eval和LSF(長序列預測)。

在BOOM上,TOTO顯著優(yōu)于其他基礎模型和基線方法。具體而言,TOTO的MASE(平均絕對比例誤差)和CRPS(連續(xù)排序概率得分)分別比次優(yōu)模型MoiraiBase低13.1%和12.4%,平均排名也顯著更低(2.351對4.278)。TOTO在各種預測期限(短期、中期、長期)和各種指標類型(計數、分布、儀表、速率)上都表現出色,展示了其在不同情境下的魯棒性。

在GIFT-Eval上,盡管這是一個通用時間序列預測基準,TOTO仍然取得了頂級性能,平均排名分數為5.495(截至2025年5月)。它在點預測(MASE為0.673)和概率預測(CRPS為0.437)方面都表現強勁。值得注意的是,TOTO是最佳表現模型,盡管一些競爭模型與基準數據集之間存在已知的部分數據泄露問題。

在LSF基準上,盡管這個基準在數據集多樣性和監(jiān)督方法飽和方面有已知限制,TOTO仍然取得了最先進的結果,在與其他零樣本方法相比的12個報告指標中取得了8個最佳性能,并且平均MAE和MSE最低。此外,當在LSF的訓練分割上微調時,TOTO在全樣本評估中也取得了最先進的結果,這凸顯了TOTO作為多功能選擇的強大泛化能力。

研究人員還進行了消融實驗,以說明TOTO各架構組件的作用。結果表明,去除因果縮放導致NLL增加27.3%,去除學生T混合模型導致NLL增加27.2%,這證明了這些組件對于模型性能的重要性。

四、研究的意義與展望

這項研究通過可觀測性的視角重新構建了時間序列預測,展示了一個領域特定基礎模型可以如何超越通用模型。TOTO的零樣本能力特別適合可觀測性場景,在這些場景中,需要實時監(jiān)控數百萬個時間序列,而沒有時間為每個序列單獨訓練模型。

當然,TOTO也有一些限制。例如,它假設時間序列是固定間隔的,目前使用啟發(fā)式方法處理缺失點。它也不直接納入基于日歷的特征,這對某些應用可能很重要。此外,對極端預測長度的性能研究也將對某些應用有所啟發(fā)。

研究團隊已將TOTO的模型權重、推理代碼和評估腳本,以及BOOM的數據和評估代碼,都以Apache 2.0許可證開源提供,希望加速解答這些和其他開放問題的研究,為社區(qū)做出貢獻,并引起人們對這一重要實際應用的關注。

總的來說,這項研究不僅推進了時間序列預測技術的前沿,還特別關注了一個具有重大實際意義的應用領域——可觀測性。通過開源他們的工作,研究團隊為未來的研究和應用打開了新的可能性,這對于依賴復雜分布式系統(tǒng)的組織和個人都有潛在的深遠影響。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-