在快速發(fā)展的技術(shù)世界中,隨時掌握計(jì)算機(jī)系統(tǒng)的健康狀況至關(guān)重要。當(dāng)我們談?wù)?可觀測性"時,指的是收集和分析分布式計(jì)算機(jī)系統(tǒng)生成的數(shù)據(jù),以便及時發(fā)現(xiàn)、診斷和解決性能與可靠性問題。這項(xiàng)由Datadog公司的Ben Cohen、Emaad Khwaja領(lǐng)導(dǎo),并有眾多研究人員參與的最新研究成果,于2025年5月20日發(fā)表在arXiv預(yù)印本平臺上(編號:2505.14766v1)。這篇論文介紹了兩項(xiàng)重大貢獻(xiàn):一個名為TOTO的時間序列預(yù)測基礎(chǔ)模型,以及一個專門用于可觀測性數(shù)據(jù)評估的大規(guī)?;鶞?zhǔn)數(shù)據(jù)集BOOM。這項(xiàng)研究值得我們關(guān)注,因?yàn)樗赡軓氐赘淖兾覀儽O(jiān)控和預(yù)測復(fù)雜計(jì)算系統(tǒng)行為的方式。
讓我們先理解一下為什么可觀測性數(shù)據(jù)如此特別。想象你有一臺正在運(yùn)行多個應(yīng)用程序的電腦。要確保它運(yùn)行良好,你需要監(jiān)控很多指標(biāo):內(nèi)存使用量、CPU負(fù)載、磁盤讀寫速度、網(wǎng)絡(luò)吞吐量、點(diǎn)擊次數(shù)、錯誤率和延遲等。這些指標(biāo)各自展現(xiàn)不同的行為模式,共同反映系統(tǒng)的運(yùn)行狀況。當(dāng)這些指標(biāo)出現(xiàn)異常時(比如錯誤率突然飆升),你需要快速找出原因;或者,你可能想提前預(yù)測資源何時會耗盡,以便及時擴(kuò)展系統(tǒng)。
現(xiàn)實(shí)世界中,可觀測性系統(tǒng)通常需要監(jiān)控?cái)?shù)百萬甚至數(shù)十億個不同的時間序列。這種規(guī)模使得為每個時間序列單獨(dú)訓(xùn)練復(fù)雜模型變得不切實(shí)際。你可以想象這就像要為城市中的每條街道分別預(yù)測交通狀況,而不是建立一個統(tǒng)一的交通預(yù)測系統(tǒng)。這正是時間序列基礎(chǔ)模型的用武之地——它們可以在不需要針對特定時間序列進(jìn)行訓(xùn)練的情況下,直接進(jìn)行"零樣本"預(yù)測。
然而,研究人員發(fā)現(xiàn)現(xiàn)有的通用時間序列基礎(chǔ)模型在處理可觀測性數(shù)據(jù)時表現(xiàn)不佳。這就像一個擅長預(yù)測天氣的系統(tǒng)可能無法準(zhǔn)確預(yù)測股票市場一樣——不同領(lǐng)域的數(shù)據(jù)有其獨(dú)特的特點(diǎn)和挑戰(zhàn)。
一、TOTO:為可觀測性而生的時間序列基礎(chǔ)模型
TOTO(Time Series Optimized Transformer for Observability)是一個擁有1.51億參數(shù)的時間序列預(yù)測基礎(chǔ)模型。它采用了現(xiàn)代的僅解碼器架構(gòu),并融入了專為應(yīng)對多變量可觀測性時間序列數(shù)據(jù)挑戰(zhàn)而設(shè)計(jì)的創(chuàng)新架構(gòu)。
讓我們通過一個簡單的比喻來理解TOTO的工作原理:想象你在觀察一個繁忙的道路網(wǎng)絡(luò)。每條道路(變量)在不同時間點(diǎn)有不同的交通流量(數(shù)值)。TOTO的任務(wù)是根據(jù)過去幾小時的交通數(shù)據(jù),預(yù)測未來幾小時內(nèi)每條道路的交通情況。
TOTO的關(guān)鍵創(chuàng)新組件包括:
首先是"基于補(bǔ)丁的因果實(shí)例歸一化"。普通人可能會問:"這是什么意思?"簡單來說,可觀測性數(shù)據(jù)往往變化劇烈——就像一條平時很少車輛的道路,突然因?yàn)橐粓鲆魳窌兊卯惓矶隆4蠖鄶?shù)模型會使用整個歷史數(shù)據(jù)的平均值和方差來標(biāo)準(zhǔn)化輸入,但這對于這種快速變化的數(shù)據(jù)效果不佳。TOTO采用了一種新方法,它只使用當(dāng)前和過去的數(shù)據(jù)來計(jì)算標(biāo)準(zhǔn)化參數(shù),確保模型不會"偷看"未來的數(shù)據(jù)。這就像交通預(yù)報(bào)員只能根據(jù)已經(jīng)發(fā)生的交通狀況,而不是根據(jù)將要舉行的活動來預(yù)測交通一樣。研究表明,這種方法在處理高度非平穩(wěn)的序列時表現(xiàn)出色。
第二個創(chuàng)新是"比例因子化注意力"。想象你需要同時關(guān)注數(shù)十條甚至上百條道路的交通狀況。傳統(tǒng)方法要么會試圖同時分析所有道路和所有時間點(diǎn)的關(guān)系(計(jì)算成本極高),要么只關(guān)注時間維度而忽略道路之間的關(guān)系(丟失重要信息)。TOTO采用了一種平衡的方法:它更多地關(guān)注時間維度的關(guān)系(例如,早高峰通常在下午高峰之前),但也不忽視變量之間的關(guān)系(例如,主干道擁堵時,附近的小路也可能變得繁忙)。具體來說,TOTO使用了11:1的比例——11個時間維度的注意力層后跟1個變量維度的注意力層,這樣既能捕捉時間模式,又能理解變量間的相互影響,同時保持計(jì)算效率。
第三個關(guān)鍵組件是"學(xué)生T混合模型"。為什么需要這個?可觀測性數(shù)據(jù)經(jīng)常出現(xiàn)極端值——就像平常車流量為100輛/小時的道路,偶爾可能因?yàn)槭鹿曙j升到1000輛/小時。普通的高斯分布(鐘形曲線)難以捕捉這種極端情況。TOTO使用學(xué)生T分布的混合模型,這種分布有"更厚的尾部",能更好地表示罕見但重要的極端情況。這使得TOTO不僅能預(yù)測普通情況,還能對異常情況做出合理的概率估計(jì)。
最后,TOTO使用了"復(fù)合魯棒損失函數(shù)",這有點(diǎn)像訓(xùn)練一個運(yùn)動員同時掌握多種技能。該損失函數(shù)結(jié)合了負(fù)對數(shù)似然(關(guān)注概率預(yù)測質(zhì)量)和柯西損失(關(guān)注點(diǎn)預(yù)測準(zhǔn)確性),幫助模型在訓(xùn)練過程中避免某些病態(tài)解,并減輕離群值的影響。
TOTO的訓(xùn)練數(shù)據(jù)集是目前最大的同類數(shù)據(jù)集之一,包含約2.36萬億個時間序列點(diǎn),其中1.59萬億是非重復(fù)的非合成數(shù)據(jù)。這個數(shù)據(jù)集比領(lǐng)先的時間序列基礎(chǔ)模型的預(yù)訓(xùn)練語料庫大4-10倍。其中43%來自Datadog自己的內(nèi)部可觀測性平臺,完全匿名化處理,不包含任何客戶數(shù)據(jù)。此外,還包括公共數(shù)據(jù)集和合成數(shù)據(jù),以提高模型的泛化能力。
二、BOOM:為可觀測性而生的基準(zhǔn)數(shù)據(jù)集
除了TOTO模型,研究團(tuán)隊(duì)還推出了BOOM(Benchmark of Observability Metrics),這是一個專門針對可觀測性時間序列的大規(guī)模評估框架。
BOOM包含約3.5億個觀測值,跨越2,807個真實(shí)世界的時間序列。盡管BOOM的唯一序列數(shù)量比通用時間序列基準(zhǔn)GIFT-Eval少(2,807對144K),但它的總數(shù)據(jù)點(diǎn)更多(3.5億對1.58億),且維度顯著更高,每個序列的中位變量數(shù)為60,而GIFT-Eval主要是單變量或低基數(shù)多變量序列。
BOOM的數(shù)據(jù)完全來自Datadog平臺的匿名化遙測和內(nèi)部可觀測性指標(biāo)。為確保評估設(shè)置穩(wěn)健并防止污染,TOTO的訓(xùn)練數(shù)據(jù)專門來自生產(chǎn)環(huán)境,而BOOM的評估數(shù)據(jù)則來自單獨(dú)的暫存環(huán)境。
為了突顯BOOM數(shù)據(jù)的多樣性,研究人員將每個時間序列根據(jù)其查詢字符串分配了一個或多個標(biāo)簽,形成了一個分類法。這些領(lǐng)域包括:應(yīng)用程序使用(占41.3%,如請求率、API調(diào)用)、基礎(chǔ)設(shè)施(占34.4%,如CPU使用率、內(nèi)存消耗)、數(shù)據(jù)庫(占29.3%,如查詢延遲)、網(wǎng)絡(luò)(占10%,如吞吐量、延遲)和安全(占0.3%,如登錄嘗試、代碼漏洞)。
那么,可觀測性時間序列有什么特別之處呢?研究人員分析了六個相關(guān)統(tǒng)計(jì)特性,發(fā)現(xiàn)BOOM數(shù)據(jù)集與通用時間序列基準(zhǔn)相比有顯著差異:
首先是"一階自相關(guān)函數(shù)",它衡量短期時間依賴性。BOOM分布在較小值處有較大的下尾,表明局部噪聲波動更大。
其次是"ARCH-LM統(tǒng)計(jì)量",它檢測自回歸條件異方差性。BOOM分布是雙峰的,在接近零處有一個大峰值,這表明時變波動性更高。
"頻譜熵"在可觀測性序列中平均更高,表明周期性更少,不規(guī)則性更大。
"KPSS統(tǒng)計(jì)量",一種非平穩(wěn)性測試,在BOOM可觀測性數(shù)據(jù)中取值更大,表明更頻繁地偏離確定性趨勢。
"平坦點(diǎn)"衡量時間序列中最長常數(shù)子序列的長度。這個指標(biāo)在BOOM中更高,表明可觀測性數(shù)據(jù)中的稀疏指標(biāo)更多。
最后,"偏度"揭示了可觀測性數(shù)據(jù)中更重尾、不對稱的分布,這通常反映了突發(fā)行為和罕見但極端的事件。
總的來說,這些統(tǒng)計(jì)特性在BOOM數(shù)據(jù)中的更極端值,強(qiáng)化了可觀測性時間序列的獨(dú)特性和挑戰(zhàn)性。
三、實(shí)驗(yàn)結(jié)果:TOTO的表現(xiàn)如何?
研究團(tuán)隊(duì)在三個基準(zhǔn)上評估了TOTO:BOOM、GIFT-Eval和LSF(長序列預(yù)測)。
在BOOM上,TOTO顯著優(yōu)于其他基礎(chǔ)模型和基線方法。具體而言,TOTO的MASE(平均絕對比例誤差)和CRPS(連續(xù)排序概率得分)分別比次優(yōu)模型MoiraiBase低13.1%和12.4%,平均排名也顯著更低(2.351對4.278)。TOTO在各種預(yù)測期限(短期、中期、長期)和各種指標(biāo)類型(計(jì)數(shù)、分布、儀表、速率)上都表現(xiàn)出色,展示了其在不同情境下的魯棒性。
在GIFT-Eval上,盡管這是一個通用時間序列預(yù)測基準(zhǔn),TOTO仍然取得了頂級性能,平均排名分?jǐn)?shù)為5.495(截至2025年5月)。它在點(diǎn)預(yù)測(MASE為0.673)和概率預(yù)測(CRPS為0.437)方面都表現(xiàn)強(qiáng)勁。值得注意的是,TOTO是最佳表現(xiàn)模型,盡管一些競爭模型與基準(zhǔn)數(shù)據(jù)集之間存在已知的部分?jǐn)?shù)據(jù)泄露問題。
在LSF基準(zhǔn)上,盡管這個基準(zhǔn)在數(shù)據(jù)集多樣性和監(jiān)督方法飽和方面有已知限制,TOTO仍然取得了最先進(jìn)的結(jié)果,在與其他零樣本方法相比的12個報(bào)告指標(biāo)中取得了8個最佳性能,并且平均MAE和MSE最低。此外,當(dāng)在LSF的訓(xùn)練分割上微調(diào)時,TOTO在全樣本評估中也取得了最先進(jìn)的結(jié)果,這凸顯了TOTO作為多功能選擇的強(qiáng)大泛化能力。
研究人員還進(jìn)行了消融實(shí)驗(yàn),以說明TOTO各架構(gòu)組件的作用。結(jié)果表明,去除因果縮放導(dǎo)致NLL增加27.3%,去除學(xué)生T混合模型導(dǎo)致NLL增加27.2%,這證明了這些組件對于模型性能的重要性。
四、研究的意義與展望
這項(xiàng)研究通過可觀測性的視角重新構(gòu)建了時間序列預(yù)測,展示了一個領(lǐng)域特定基礎(chǔ)模型可以如何超越通用模型。TOTO的零樣本能力特別適合可觀測性場景,在這些場景中,需要實(shí)時監(jiān)控?cái)?shù)百萬個時間序列,而沒有時間為每個序列單獨(dú)訓(xùn)練模型。
當(dāng)然,TOTO也有一些限制。例如,它假設(shè)時間序列是固定間隔的,目前使用啟發(fā)式方法處理缺失點(diǎn)。它也不直接納入基于日歷的特征,這對某些應(yīng)用可能很重要。此外,對極端預(yù)測長度的性能研究也將對某些應(yīng)用有所啟發(fā)。
研究團(tuán)隊(duì)已將TOTO的模型權(quán)重、推理代碼和評估腳本,以及BOOM的數(shù)據(jù)和評估代碼,都以Apache 2.0許可證開源提供,希望加速解答這些和其他開放問題的研究,為社區(qū)做出貢獻(xiàn),并引起人們對這一重要實(shí)際應(yīng)用的關(guān)注。
總的來說,這項(xiàng)研究不僅推進(jìn)了時間序列預(yù)測技術(shù)的前沿,還特別關(guān)注了一個具有重大實(shí)際意義的應(yīng)用領(lǐng)域——可觀測性。通過開源他們的工作,研究團(tuán)隊(duì)為未來的研究和應(yīng)用打開了新的可能性,這對于依賴復(fù)雜分布式系統(tǒng)的組織和個人都有潛在的深遠(yuǎn)影響。
好文章,需要你的鼓勵
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學(xué)習(xí)外觀和運(yùn)動信息,顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運(yùn)動質(zhì)量,在多項(xiàng)測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。