阿里云官方通告華北區(qū)域出現(xiàn)宕機(jī)，將根據(jù)SLA協(xié)議協(xié)調(diào)賠償

5G寬帶 dvbcn編輯 2019-03-04 12:00 閱讀 7,691 來源：DVBCN 　

阿里云又出事了!北京時(shí)間2019年3月3日凌晨，阿里云華北2地域可用區(qū)C部分ECS服務(wù)器等實(shí)例出現(xiàn)IO HANG，之后經(jīng)緊急排查處理后已全部恢復(fù)。

阿里云官方通告華北區(qū)域出現(xiàn)宕機(jī)，將根據(jù)SLA協(xié)議協(xié)調(diào)賠償-DVBCN

其實(shí)這已經(jīng)不是阿里云第一次出現(xiàn)問題和故障了，早在2018年6月28日，阿里云就因故障導(dǎo)致用戶在訪問阿里云官網(wǎng)控制臺和使用部分產(chǎn)品功能出現(xiàn)問題。

之后阿里云方面稱：“故障從北京時(shí)間27日16:21左右開始，到16:50開始陸續(xù)恢復(fù)。故障起因是上線一個自動化運(yùn)維新功能時(shí)，執(zhí)行了一項(xiàng)變更驗(yàn)證操作，觸發(fā)了一個未知代碼bug，錯誤代碼禁用了部分內(nèi)部IP，導(dǎo)致部分產(chǎn)品訪問鏈路不通。”

2018十大云計(jì)算廠商宕機(jī)事件回顧

其實(shí)近幾年云宕機(jī)事件發(fā)生也是很頻繁的，據(jù)眾視媒體獲悉，僅2018年一年，全球主流云計(jì)算廠商曾發(fā)生數(shù)十起宕機(jī)事故。

例如：2018年1月18日，谷歌云自動化機(jī)制失效，導(dǎo)致其us-central1和europe-west3 兩大可用區(qū)中的計(jì)算引擎停運(yùn)93分鐘。谷歌對此的回應(yīng)是“網(wǎng)絡(luò)編程失效”導(dǎo)致Autoscaler(自動擴(kuò)展器)服務(wù)無法正常運(yùn)行，該服務(wù)失效意味著新的虛擬機(jī)或剛遷移的虛擬機(jī)無法與其他可用區(qū)虛擬機(jī)聯(lián)系。

2018年3月2日凌晨，依賴 AWS 服務(wù)的部分 Alexa 開始出現(xiàn)失聲問題，該智能音箱的紅色指示燈不停閃爍表明服務(wù)出現(xiàn)中斷，Alexa也一直發(fā)出系統(tǒng)內(nèi)置道歉聲。隨后幾小時(shí)內(nèi)，Alexa 又接到了成千上萬封投訴。據(jù)了解，Alexa這一故障源于亞馬遜AWS的網(wǎng)絡(luò)服務(wù)出現(xiàn)問題，其他依賴 AWS 作為骨干網(wǎng)的應(yīng)用在當(dāng)天也受到了影響，包括軟件開發(fā)公司 Atlassian，云通訊公司Twilio等。

2018年5月31日，因北弗吉尼亞地區(qū)的數(shù)據(jù)中心出現(xiàn)硬件故障，AWS再次出現(xiàn)連接問題。在此事故中，AWS的核心EC2服務(wù)，Workspaces虛擬桌面服務(wù)以及Redshift數(shù)據(jù)倉庫服務(wù)均受到影響。

2018年6月17日至18日，因愛爾蘭數(shù)據(jù)中心的恒溫系統(tǒng)出現(xiàn)問題，微軟Azure被高溫影響導(dǎo)致存儲和網(wǎng)絡(luò)中斷。

2018年7月20日，騰訊云云硬盤發(fā)生故障(騰訊云后期給出的事故原因說明)，導(dǎo)致該公司存放的數(shù)據(jù)全部丟失，并且不能恢復(fù)，這是該創(chuàng)業(yè)公司近千萬元級的平臺數(shù)據(jù)，包括經(jīng)過長期推廣導(dǎo)流積累起來的精準(zhǔn)注冊用戶以及內(nèi)容數(shù)據(jù)。

2018年7月24日，用戶登錄騰訊云時(shí)反復(fù)出現(xiàn)超時(shí)、退出等情況，即便更換運(yùn)營商，結(jié)果也一樣。隨后，騰訊云發(fā)布通知稱初步確定是運(yùn)營商光纜中斷，運(yùn)營商已經(jīng)找到斷點(diǎn)，正在連線中，主要受影響的為廣州區(qū)域部分用戶。

2018年9月4日上午，微軟Azure美國中南區(qū)數(shù)據(jù)中心附近發(fā)生雷擊在內(nèi)的惡劣天氣，影響冷卻系統(tǒng)的電壓，導(dǎo)致多個Azure服務(wù)出現(xiàn)連接問題，客戶難以訪問存儲在該區(qū)數(shù)據(jù)中心的資源。受影響的服務(wù)包括Office365、Active Directory、Visual Studio Online、Visual Studio Team Services 等。

2018年11月9日，谷歌公有云上提供的Kubernetes服務(wù)(GKE)節(jié)點(diǎn)池建置功能出現(xiàn)異常，維運(yùn)人員無法透過Cloud Console UI建立新節(jié)點(diǎn)。

如何有效降低云宕機(jī)事件發(fā)生

云計(jì)算并不是天生就是不可靠的，但是如同所有的IT形式一樣，必須仔細(xì)挑選和管理云服務(wù)以實(shí)現(xiàn)特定的可靠性和可用性目標(biāo)。

而想要免受云宕機(jī)事件影響的第一步就是要評估云廠商數(shù)據(jù)中心的可靠性，因?yàn)榇蟛糠值脑茝S商都擁有著很少數(shù)量的數(shù)據(jù)中心，通常情況下只有一個，而這些數(shù)據(jù)中心易于產(chǎn)生與企業(yè)相同類型的故障。

其次，備份數(shù)據(jù)中心必須位于不同于主數(shù)據(jù)中心的另一區(qū)域，這樣它就不會受到相同問題的影響，同時(shí)它還必須擁有足夠的容量以處理云應(yīng)用的故障轉(zhuǎn)移。

最后，網(wǎng)絡(luò)性能問題或缺少也將導(dǎo)致云宕機(jī)事件得發(fā)生，云計(jì)算故障的最常見原因通常并不是云計(jì)算，而是網(wǎng)絡(luò)。大部分的云應(yīng)用都是通過互聯(lián)網(wǎng)進(jìn)行訪問的，而互聯(lián)網(wǎng)可用性則是大多數(shù)云宕機(jī)事件的罪魁禍?zhǔn)住?br />

阿里云的全球地位依然牢固

雖然此次的宕機(jī)事件或多或少會對阿里云的帶來一些負(fù)面影響，但是想要動搖阿里云在國內(nèi)的地位卻很難。目前在全球市場上，阿里云已擁有超過1500個節(jié)點(diǎn)，帶寬總量超過120T，服務(wù)超過30萬客戶。全國互聯(lián)網(wǎng)三分之一的流量由阿里云承擔(dān)，近70%內(nèi)容通過阿里云完成加速調(diào)度，80%的國內(nèi)TOP直播網(wǎng)站/APP使用阿里云加速。在權(quán)威市場研究機(jī)構(gòu)Gartner公布的最新視頻云報(bào)告中，阿里云被評定為"全球級"。

而據(jù)最新的研究報(bào)告顯示，阿里云以42.5%的市場份額，成為中國視頻云市場第一大廠商，所占份額幾乎為二至五名總和，阿里云視頻云憑借絕對領(lǐng)先的市場份額和完整的產(chǎn)品線位居市場競爭力領(lǐng)導(dǎo)者的位置。

同時(shí)，在剛剛結(jié)束的MWC 2019上，阿里云發(fā)布了7款產(chǎn)品，涵蓋無服務(wù)器計(jì)算、高性能存儲、全球網(wǎng)絡(luò)、企業(yè)級數(shù)據(jù)庫、大數(shù)據(jù)計(jì)算等。

阿里云方面介紹，本次發(fā)布的產(chǎn)品包含：可實(shí)現(xiàn)每秒17億次計(jì)算能力的實(shí)時(shí)計(jì)算引擎Blink，EB級數(shù)據(jù)存儲能力的大數(shù)據(jù)計(jì)算引擎，業(yè)界首款企業(yè)級MariaDB云數(shù)據(jù)庫以及為國際企業(yè)定制的全球網(wǎng)絡(luò)連接解決方案。產(chǎn)品均已大規(guī)模應(yīng)用于阿里巴巴集團(tuán)內(nèi)部淘寶、天貓、菜鳥等核心業(yè)務(wù)場景。

阿里云官方通告華北區(qū)域出現(xiàn)宕機(jī)，將根據(jù)SLA協(xié)議協(xié)調(diào)賠償-DVBCN