支付寶昨日發(fā)生大面積訪問和交易故障的事件令人記憶猶新,在網(wǎng)商銀行即將開業(yè)之際,對螞蟻金服來說,無疑迎來當(dāng)頭一棒。因?yàn)榫W(wǎng)商銀行聲稱是中國第一家完全跑在“云”上的銀行,這也是螞蟻金融服務(wù)集團(tuán)積極推動(dòng)的旗艦業(yè)務(wù)。
事件一出,支付寶官方稱因市政施工導(dǎo)致杭州市某地光纜被挖斷,使支付寶一個(gè)主要機(jī)房被影響,從而出現(xiàn)訪問故障。
超過2個(gè)小時(shí)后,支付寶恢復(fù)服務(wù),并稱其異地多活的系統(tǒng)架構(gòu)在此次意外中發(fā)揮了巨大作用。
對于此類解釋,遭來了眾多業(yè)內(nèi)專業(yè)人士的質(zhì)疑。在我們的采訪中,不論是IT提供商、企業(yè)用戶還是分析師,他們都認(rèn)為,“由鏈路(所謂的光纖被挖斷,戲稱挖掘機(jī)事件)原因?qū)е碌木W(wǎng)絡(luò)中斷在大部分IT事故中并不算嚴(yán)重的。”
為什么?因?yàn)閿?shù)據(jù)中心的災(zāi)備能力,這是很多大型企業(yè)構(gòu)建的IT架構(gòu)的一部分。對于支付寶來說,更不例外,尤其支付寶還堅(jiān)稱其異地多活發(fā)揮作用。
不說全業(yè)務(wù)恢復(fù),支付寶最起碼的做到正常登錄總沒問題吧?
一位長期觀察企業(yè)級IT的資深媒體人直言,“RTO(Recovery Time Objective,恢復(fù)時(shí)間目標(biāo))超過兩個(gè)小時(shí),還能說得上多活,簡直笑話。”
這和有觀點(diǎn)認(rèn)為支付寶事件是中國金融史上首次完全意義的災(zāi)難恢復(fù)案例觀點(diǎn)相左。
“多活”如此引人爭議,我們就來看一看它的來龍去脈。
我們來說所謂多活本身的概念,一是多中心之間地位均等,正常模式下協(xié)同工作,并行的為業(yè)務(wù)訪問提供服務(wù);二是在一個(gè)數(shù)據(jù)中心發(fā)生故障或?yàn)?zāi)難的情況下,其他數(shù)據(jù)中心可以正常運(yùn)行并對關(guān)鍵業(yè)務(wù)或全部業(yè)務(wù)實(shí)現(xiàn)接管,達(dá)到互為備份的效果,實(shí)現(xiàn)用戶的“故障無感知”。
看上去,多活簡直簡直就是數(shù)據(jù)中心災(zāi)難恢復(fù)的救火隊(duì)長??!那到底支付寶的災(zāi)備建設(shè)是什么樣子的呢?多活的技術(shù)指標(biāo)是什么?異地多活,異地是什么,多活又是幾活呢?支付寶在那兩個(gè)多小時(shí)的時(shí)間里又是怎樣進(jìn)行異地多活的呢?
我們迫切想知道這些問題的答案,因?yàn)檫@些答案最能說明真相。
不過我們在對支付寶的采訪中,對方并沒有給出回復(fù)。
在早前我們對某IT提供商的采訪中說到,“雙活已經(jīng)部署在了其大型客戶的IT架構(gòu)中,它實(shí)現(xiàn)的是一鍵配置,一鍵容災(zāi),在分鐘內(nèi)實(shí)現(xiàn)。這不是一個(gè)概念,而是客戶的實(shí)際運(yùn)行狀況,兩個(gè)數(shù)據(jù)中心融合在一起,并行和雙活使用。”
這種災(zāi)備級的能力使得用戶所有的業(yè)務(wù)系統(tǒng)在兩個(gè)或多個(gè)數(shù)據(jù)中心同時(shí)運(yùn)行,同時(shí)為用戶提供服務(wù),當(dāng)某個(gè)數(shù)據(jù)中心的單個(gè)或整個(gè)應(yīng)用系統(tǒng)出現(xiàn)問題時(shí),都可以由另一個(gè)數(shù)據(jù)中心的對應(yīng)系統(tǒng)來接管全部業(yè)務(wù),實(shí)現(xiàn)持續(xù)的服務(wù)提供,對用戶來講甚至感知不到業(yè)務(wù)系統(tǒng)的跨數(shù)據(jù)中心切換。
阿里巴巴技術(shù)保障部研究員畢玄在今年四月份接受某技術(shù)媒體采訪談到其主導(dǎo)的數(shù)據(jù)中心異地多活項(xiàng)目說到,“淘寶因?yàn)槟軌蜃龅疆惖囟嗷?,并且流量是可以隨時(shí)切換的,所以對于我們來講,如果一地出現(xiàn)故障,不管是什么原因,最容易的解決方案,就是把這一地的流量全部切走。這樣可以把故障控制在一分鐘以內(nèi),整個(gè)可用性是非常高的。”
當(dāng)然這是在進(jìn)行中的項(xiàng)目,也就是其定的標(biāo)準(zhǔn)目標(biāo)是這樣的,現(xiàn)在看來,這還差點(diǎn)距離。
其實(shí)關(guān)于災(zāi)備,國務(wù)院信息化工作辦公室在2007年7月將領(lǐng)導(dǎo)編制的《重要信息系統(tǒng)災(zāi)難恢復(fù)指南》正式升級成為國家標(biāo)準(zhǔn)《信息系統(tǒng)災(zāi)難恢復(fù)規(guī)范》(GB/T 20988-2007 )。這是中國災(zāi)難備份與恢復(fù)行業(yè)的第一個(gè)國家標(biāo)準(zhǔn),并于2007年11月1日開始正式實(shí)施,并作為各行業(yè)進(jìn)行災(zāi)備建設(shè)的重要參考性文件。
《規(guī)范》在附錄A對災(zāi)難恢復(fù)能力作了等級劃分,共6級:第1級 基本支持,第2級 備用場地支持,第3級 電子傳輸和部分設(shè)備支持,第4級 電子傳輸及完整設(shè)備支持,第5級 實(shí)時(shí)數(shù)據(jù)傳輸及完整設(shè)備支持,第6級 數(shù)據(jù)零丟失和遠(yuǎn)程集群支持。
并指出信息系統(tǒng)災(zāi)難恢復(fù)能力等級與恢復(fù)時(shí)間目標(biāo)(RTO)和恢復(fù)點(diǎn)目標(biāo)(RPO)的對應(yīng)關(guān)系。
因?yàn)闆]有得到支付寶的答案,我們不知道支付寶的標(biāo)準(zhǔn)是什么,當(dāng)然對照此表你可以參考支付寶的災(zāi)難恢復(fù)能力等級。
其實(shí),也有專業(yè)人士指出多活的挑戰(zhàn)性:在技術(shù)層面,不僅涉及到服務(wù)器/虛擬機(jī)之間的集群協(xié)同,還包括數(shù)據(jù)的復(fù)制與同步,更重要的是涉及到跨數(shù)據(jù)中心的網(wǎng)絡(luò)互聯(lián)互通及分支/Internet用戶對DC的訪問,因此網(wǎng)絡(luò)對業(yè)務(wù)的感知能力及對流量的牽引成為方案設(shè)計(jì)與部署的重中之重。此外,網(wǎng)絡(luò)訪問控制策略的遷移、服務(wù)器網(wǎng)關(guān)及數(shù)據(jù)同步對網(wǎng)絡(luò)帶寬與服務(wù)質(zhì)量的要求、IP地址設(shè)置、路由發(fā)布控制、網(wǎng)關(guān)設(shè)計(jì)、防火墻狀態(tài)會(huì)話、流量路徑規(guī)劃及迂回控制等技術(shù)都是設(shè)計(jì)上必須要考慮和解決的問題。
反正,我們看下來,多活的最高境界這樣子的:如果中斷了一個(gè)數(shù)據(jù)中心,其他的數(shù)據(jù)中心仍可獨(dú)立響應(yīng)業(yè)務(wù),對用戶來說業(yè)務(wù)切換是無感知的。
再有一個(gè)參考,去年筆者曾采訪過某IT大型企業(yè),在他們的容災(zāi)演練中,兩個(gè)數(shù)據(jù)中心相隔1300公里,2小時(shí)成功切換關(guān)鍵業(yè)務(wù)系統(tǒng),4小時(shí)切換全部業(yè)務(wù)系統(tǒng),細(xì)分下來共包括500多個(gè)IT系統(tǒng),整個(gè)切換沒有任何數(shù)據(jù)丟失和不一致。當(dāng)然那不是雙活也不是多活,作為非技術(shù)專業(yè)人士我不知道這對支付寶事件有什么參考意義。
看了著這么多多活,又加上兩個(gè)小時(shí),有人直言,“支付寶這次的故障絕非光纖問題那么簡單,而是多活切換的技術(shù)不過關(guān)。”
當(dāng)然也有業(yè)內(nèi)人士說到,“粗略得看支付寶并沒有切換異地容災(zāi),而是恢復(fù)了網(wǎng)絡(luò),雖然花的時(shí)間長了點(diǎn)。”
真相是什么呢,現(xiàn)在不得而知。不過支付寶的反應(yīng)相對于1月19日微信出現(xiàn)短暫癱瘓時(shí)的就是不告訴你已經(jīng)很有進(jìn)步了。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。