亞馬遜云停擺4小時震動硅谷,我們賴以生存的互聯(lián)網(wǎng)有多脆弱?
2017-03-02 09:16:51 來源:36氪 作者:孫然 盧曉明 熱度:
美國最大的云服務(wù)廠商故障四個多小時,可能會毀了你一整天的心情。設(shè)想一下, 當(dāng)你為了加拿大之旅在Airbnb上挑選小木屋,卻只能瞪著網(wǎng)頁上的文字描述,因?yàn)閳D片打不開了。當(dāng)你興致勃勃地晨跑了10公里,想在Runkeeper跟好友曬曬驕傲感,突然發(fā)現(xiàn)運(yùn)動記錄傳不上去了。以及你家的智能硬件由于沒法調(diào)取云端的數(shù)據(jù),突然從貼心管家變成了不懂你的“弱智”機(jī)器人。接受現(xiàn)實(shí)吧,這就是在云端的生活。
美國時間2月28日上午9:54分,知乎網(wǎng)友“十六樓的老民工”剛喝完早上第一杯咖啡,突然發(fā)現(xiàn)之前在電腦上下達(dá)的部署指令并未完成,S3云服務(wù)出錯了。他任職的那所舊金山公司,是亞馬遜云的大客戶。隨即,他從AWS技術(shù)服務(wù)人員那端確認(rèn)了S3出故障的消息。
S3是亞馬遜提供的一款明星級的存儲桶產(chǎn)品,通俗地講,可用于圖片及網(wǎng)頁上其他項(xiàng)目的保存?zhèn)浞荩瑫r可以在服務(wù)器和靜態(tài)網(wǎng)站里共享文檔。由其引發(fā)的故障,迅速在美國各類新聞網(wǎng)站、應(yīng)用程序和智能硬件公司的身上爆發(fā),Quora、Netflix、Airbnb 、Slack、Nest、Runkeeper以及亞馬遜的智能家居操作系統(tǒng)Alexa等等,都因此出現(xiàn)了不同程度的服務(wù)中斷。
大約十幾分鐘后,“十六樓的老民工”就意識到,盡管云計算廠商的服務(wù)故障或宕機(jī)時有發(fā)生,但這次事故的嚴(yán)重程度足以上新聞。“我原以為AWS很可靠了,S3一般很穩(wěn)定,上一次這么大規(guī)模的(事故)還是2012年圣誕節(jié)的時候。”
在行業(yè)內(nèi)人士眼中,亞馬遜提供的云服務(wù)產(chǎn)品非常穩(wěn)定,S3此前從未出現(xiàn)嚴(yán)重故障,公司的運(yùn)維能力也很強(qiáng),通常出現(xiàn)問題一小時內(nèi)就能解決。但在那一天接下來的四個小時里,亞馬遜卻經(jīng)歷了漫長的尷尬。
關(guān)于事故的影響范疇,SimilarTech營銷總監(jiān)丹尼爾·巴楚科估算稱:“在互聯(lián)網(wǎng)最大的網(wǎng)站中,有1%使用S3。而根據(jù)他所在的機(jī)構(gòu)提供的數(shù)據(jù),S3被近15萬家網(wǎng)站使用,包括ESPN和AOL等。
不過這次事故對中國企業(yè)并未造成太大波及。36氪聯(lián)系了有米科技、侯斯特、天天果園、OPPO等多家亞馬遜云的中國客戶,尚未發(fā)現(xiàn)服務(wù)受影響的案例。
“亞馬遜在全球有多個數(shù)據(jù)中心,這次僅僅是是美國東部的弗吉尼亞州數(shù)據(jù)中心出了故障,不是全球性故障。這個中心靠近美國東部,一般美國人才會采用,中國國內(nèi)使用的話訪問速度很慢,所以估計國內(nèi)用戶用的很少。”有米科技CTO蔡銳濤說。
另外,這次事故發(fā)生的時間是亞太區(qū)的夜晚,大洋彼岸的企業(yè)也躲過一劫。
S3停擺將給亞馬遜造成多大的經(jīng)濟(jì)損失?Gartner調(diào)研總監(jiān)張毅表示,云計算廠商的賠付協(xié)議通常會規(guī)定一個用時間衡量的可用性。舉例而言,根據(jù)企業(yè)與云計算廠商簽訂的SLA(service level agreement),當(dāng)某企業(yè)要求可用性為99.95%,意味著每年365天中必須有99.95%的時間正常運(yùn)轉(zhuǎn),而牽涉到特別重要的客戶或關(guān)鍵任務(wù),比如電商客戶,可能要保證99.99%的有效服務(wù)時間。如果停擺時間超過0.05%或0.01%,通常會以更多免費(fèi)服務(wù)時間作為賠償。
在2013年亞馬遜發(fā)生的一次服務(wù)器故障中,曾有媒體估算亞馬遜每秒的損失約為1100美元。
美國時間14:08,亞馬遜宣布S3已恢復(fù)正常,災(zāi)難停止了。
這場風(fēng)波留給人們提的醒是,在購買云計算服務(wù)時要提前設(shè)計好一套Plan B。
Commvault 亞太區(qū)企業(yè)解決方案架構(gòu)師李可表示,“各種系統(tǒng)部件的故障和情況都有可能發(fā)生,一定要從公司的業(yè)務(wù)需要出發(fā),來制定數(shù)據(jù)恢復(fù)保護(hù)和系統(tǒng)容災(zāi)的方案規(guī)劃,來根據(jù)這個去評估自身所能承受的損失的數(shù)據(jù)量和時間點(diǎn),然后根據(jù)這個來制定數(shù)據(jù)恢復(fù)和容災(zāi)方案,來制定混合云等方案。”
不過設(shè)計出什么樣的備災(zāi)方案需要權(quán)衡風(fēng)險與成本。
“你可以在AWS上再設(shè)計一套備災(zāi)方案,比如可以在us east和us west間切換。不過這不容易,也有額外費(fèi)用。”“十六樓的老民工”說。
“你要用兩套系統(tǒng),但架構(gòu)開發(fā)時間、人手、推向市場的時間都是金錢。所以有的企業(yè)反倒寧愿掛掉五個小時。也有的公司使用云服務(wù)只是作為長期存儲,不會每天看,事故發(fā)生了只會影響數(shù)據(jù)調(diào)用。”Gartner調(diào)研總監(jiān)張毅告訴36氪。
但這次S3事故前,很多企業(yè)并沒有做類似方案設(shè)計,原因在于S3此前顯示出具有很強(qiáng)的穩(wěn)定性,在人們觀念中為一份低風(fēng)險的東西買保險,總認(rèn)為不夠劃算。
另一種方式是自建云,滿足自己的可用性,免去了因?yàn)楣性棋礄C(jī)而躺槍的風(fēng)險,不過自建的方式在成本和穩(wěn)定性上都會帶來不小的挑戰(zhàn)。這些都要自己去計算權(quán)衡。
網(wǎng)頁、電郵中的圖像和附件看不到、各種APP數(shù)據(jù)上傳受阻、智能硬件因?yàn)闊o法調(diào)取提供服務(wù)所需的數(shù)據(jù)瞬間倒退成老式電器……S3的故障讓很多人恍然大悟,自己的整個生活已經(jīng)被搬上了云端。一家云計算服務(wù)商的停擺,甚至有足夠的力量中斷互聯(lián)網(wǎng)世界的運(yùn)行,特別是當(dāng)這家公司是亞馬遜。根據(jù)市場研究公司Synergy Research Group去年發(fā)布的第三季度數(shù)據(jù),亞馬遜云服務(wù)在全球IaaS(基礎(chǔ)設(shè)施服務(wù))公開市場的份額已經(jīng)上升至45%。
“但云計算就是填坑填出來的,只有出現(xiàn)事故,才能發(fā)現(xiàn)系統(tǒng)設(shè)計和流程上的不足,加以改進(jìn)。很多東西不是靠紙面上能解決的。S3已經(jīng)是很穩(wěn)定的服務(wù),今天的事故又一次告訴我們,革命尚未成功,同志仍需努力。”“十六樓的老民工”說。
就在亞馬遜云出故障的同日,隔著太平洋的中國,百度移動端和客戶端搜索也掛掉了30多分鐘。有的網(wǎng)友看到百度搜索顯示無法訪問,第一反應(yīng)卻是去百度一下這是怎么回事。大概2月28日的黃歷上寫了三個大字——“宜宕機(jī)”。
責(zé)任編輯:王剛