美國(guó)最大的云服務(wù)廠商故障四個(gè)多小時(shí),可能會(huì)毀了你一整天的心情。設(shè)想一下, 當(dāng)你為了加拿大之旅在Airbnb上挑選小木屋,卻只能瞪著網(wǎng)頁(yè)上的文字描述,因?yàn)閳D片打不開了。當(dāng)你興致勃勃地晨跑了10公里,想在Runkeeper跟好友曬曬驕傲感,突然發(fā)現(xiàn)運(yùn)動(dòng)記錄傳不上去了。以及你家的智能硬件由于沒(méi)法調(diào)取云端的數(shù)據(jù),突然從貼心管家變成了不懂你的“弱智”機(jī)器人。接受現(xiàn)實(shí)吧,這就是在云端的生活。
美國(guó)時(shí)間2月28日上午9:54分,知乎網(wǎng)友“十六樓的老民工”剛喝完早上第一杯咖啡,突然發(fā)現(xiàn)之前在電腦上下達(dá)的部署指令并未完成,S3云服務(wù)出錯(cuò)了。他任職的那所舊金山公司,是亞馬遜云的大客戶。隨即,他從AWS技術(shù)服務(wù)人員那端確認(rèn)了S3出故障的消息。
S3是亞馬遜提供的一款明星級(jí)的存儲(chǔ)桶產(chǎn)品,通俗地講,可用于圖片及網(wǎng)頁(yè)上其他項(xiàng)目的保存?zhèn)浞?,同時(shí)可以在服務(wù)器和靜態(tài)網(wǎng)站里共享文檔。由其引發(fā)的故障,迅速在美國(guó)各類新聞網(wǎng)站、應(yīng)用程序和智能硬件公司的身上爆發(fā),Quora、Netflix、Airbnb 、Slack、Nest、Runkeeper以及亞馬遜的智能家居操作系統(tǒng)Alexa等等,都因此出現(xiàn)了不同程度的服務(wù)中斷。
大約十幾分鐘后,“十六樓的老民工”就意識(shí)到,盡管云計(jì)算廠商的服務(wù)故障或宕機(jī)時(shí)有發(fā)生,但這次事故的嚴(yán)重程度足以上新聞。“我原以為AWS很可靠了,S3一般很穩(wěn)定,上一次這么大規(guī)模的(事故)還是2012年圣誕節(jié)的時(shí)候。”
在行業(yè)內(nèi)人士眼中,亞馬遜提供的云服務(wù)產(chǎn)品非常穩(wěn)定,S3此前從未出現(xiàn)嚴(yán)重故障,公司的運(yùn)維能力也很強(qiáng),通常出現(xiàn)問(wèn)題一小時(shí)內(nèi)就能解決。但在那一天接下來(lái)的四個(gè)小時(shí)里,亞馬遜卻經(jīng)歷了漫長(zhǎng)的尷尬。
關(guān)于事故的影響范疇,SimilarTech營(yíng)銷總監(jiān)丹尼爾·巴楚科估算稱:“在互聯(lián)網(wǎng)最大的網(wǎng)站中,有1%使用S3。而根據(jù)他所在的機(jī)構(gòu)提供的數(shù)據(jù),S3被近15萬(wàn)家網(wǎng)站使用,包括ESPN和AOL等。
不過(guò)這次事故對(duì)中國(guó)企業(yè)并未造成太大波及。36氪聯(lián)系了有米科技、侯斯特、天天果園、OPPO等多家亞馬遜云的中國(guó)客戶,尚未發(fā)現(xiàn)服務(wù)受影響的案例。
“亞馬遜在全球有多個(gè)數(shù)據(jù)中心,這次僅僅是是美國(guó)東部的弗吉尼亞州數(shù)據(jù)中心出了故障,不是全球性故障。這個(gè)中心靠近美國(guó)東部,一般美國(guó)人才會(huì)采用,中國(guó)國(guó)內(nèi)使用的話訪問(wèn)速度很慢,所以估計(jì)國(guó)內(nèi)用戶用的很少。”有米科技CTO蔡銳濤說(shuō)。
另外,這次事故發(fā)生的時(shí)間是亞太區(qū)的夜晚,大洋彼岸的企業(yè)也躲過(guò)一劫。
S3停擺將給亞馬遜造成多大的經(jīng)濟(jì)損失?Gartner調(diào)研總監(jiān)張毅表示,云計(jì)算廠商的賠付協(xié)議通常會(huì)規(guī)定一個(gè)用時(shí)間衡量的可用性。舉例而言,根據(jù)企業(yè)與云計(jì)算廠商簽訂的SLA(service level agreement),當(dāng)某企業(yè)要求可用性為99.95%,意味著每年365天中必須有99.95%的時(shí)間正常運(yùn)轉(zhuǎn),而牽涉到特別重要的客戶或關(guān)鍵任務(wù),比如電商客戶,可能要保證99.99%的有效服務(wù)時(shí)間。如果停擺時(shí)間超過(guò)0.05%或0.01%,通常會(huì)以更多免費(fèi)服務(wù)時(shí)間作為賠償。
在2013年亞馬遜發(fā)生的一次服務(wù)器故障中,曾有媒體估算亞馬遜每秒的損失約為1100美元。
美國(guó)時(shí)間14:08,亞馬遜宣布S3已恢復(fù)正常,災(zāi)難停止了。
這場(chǎng)風(fēng)波留給人們提的醒是,在購(gòu)買云計(jì)算服務(wù)時(shí)要提前設(shè)計(jì)好一套Plan B。
Commvault 亞太區(qū)企業(yè)解決方案架構(gòu)師李可表示,“各種系統(tǒng)部件的故障和情況都有可能發(fā)生,一定要從公司的業(yè)務(wù)需要出發(fā),來(lái)制定數(shù)據(jù)恢復(fù)保護(hù)和系統(tǒng)容災(zāi)的方案規(guī)劃,來(lái)根據(jù)這個(gè)去評(píng)估自身所能承受的損失的數(shù)據(jù)量和時(shí)間點(diǎn),然后根據(jù)這個(gè)來(lái)制定數(shù)據(jù)恢復(fù)和容災(zāi)方案,來(lái)制定混合云等方案。”
不過(guò)設(shè)計(jì)出什么樣的備災(zāi)方案需要權(quán)衡風(fēng)險(xiǎn)與成本。
“你可以在AWS上再設(shè)計(jì)一套備災(zāi)方案,比如可以在us east和us west間切換。不過(guò)這不容易,也有額外費(fèi)用。”“十六樓的老民工”說(shuō)。
“你要用兩套系統(tǒng),但架構(gòu)開發(fā)時(shí)間、人手、推向市場(chǎng)的時(shí)間都是金錢。所以有的企業(yè)反倒寧愿掛掉五個(gè)小時(shí)。也有的公司使用云服務(wù)只是作為長(zhǎng)期存儲(chǔ),不會(huì)每天看,事故發(fā)生了只會(huì)影響數(shù)據(jù)調(diào)用。”Gartner調(diào)研總監(jiān)張毅告訴36氪。
但這次S3事故前,很多企業(yè)并沒(méi)有做類似方案設(shè)計(jì),原因在于S3此前顯示出具有很強(qiáng)的穩(wěn)定性,在人們觀念中為一份低風(fēng)險(xiǎn)的東西買保險(xiǎn),總認(rèn)為不夠劃算。
另一種方式是自建云,滿足自己的可用性,免去了因?yàn)楣性棋礄C(jī)而躺槍的風(fēng)險(xiǎn),不過(guò)自建的方式在成本和穩(wěn)定性上都會(huì)帶來(lái)不小的挑戰(zhàn)。這些都要自己去計(jì)算權(quán)衡。
網(wǎng)頁(yè)、電郵中的圖像和附件看不到、各種APP數(shù)據(jù)上傳受阻、智能硬件因?yàn)闊o(wú)法調(diào)取提供服務(wù)所需的數(shù)據(jù)瞬間倒退成老式電器……S3的故障讓很多人恍然大悟,自己的整個(gè)生活已經(jīng)被搬上了云端。一家云計(jì)算服務(wù)商的停擺,甚至有足夠的力量中斷互聯(lián)網(wǎng)世界的運(yùn)行,特別是當(dāng)這家公司是亞馬遜。根據(jù)市場(chǎng)研究公司Synergy Research Group去年發(fā)布的第三季度數(shù)據(jù),亞馬遜云服務(wù)在全球IaaS(基礎(chǔ)設(shè)施服務(wù))公開市場(chǎng)的份額已經(jīng)上升至45%。
“但云計(jì)算就是填坑填出來(lái)的,只有出現(xiàn)事故,才能發(fā)現(xiàn)系統(tǒng)設(shè)計(jì)和流程上的不足,加以改進(jìn)。很多東西不是靠紙面上能解決的。S3已經(jīng)是很穩(wěn)定的服務(wù),今天的事故又一次告訴我們,革命尚未成功,同志仍需努力。”“十六樓的老民工”說(shuō)。
就在亞馬遜云出故障的同日,隔著太平洋的中國(guó),百度移動(dòng)端和客戶端搜索也掛掉了30多分鐘。有的網(wǎng)友看到百度搜索顯示無(wú)法訪問(wèn),第一反應(yīng)卻是去百度一下這是怎么回事。大概2月28日的黃歷上寫了三個(gè)大字——“宜宕機(jī)”。