其實(shí)這已經(jīng)不是阿里云第一次出現(xiàn)問(wèn)題和故障了,早在2018年6月28日,阿里云就因故障導(dǎo)致用戶在訪問(wèn)阿里云官網(wǎng)控制臺(tái)和使用部分產(chǎn)品功能出現(xiàn)問(wèn)題。
之后阿里云方面稱:“故障從北京時(shí)間27日16:21左右開(kāi)始,到16:50開(kāi)始陸續(xù)恢復(fù)。故障起因是上線一個(gè)自動(dòng)化運(yùn)維新功能時(shí),執(zhí)行了一項(xiàng)變更驗(yàn)證操作,觸發(fā)了一個(gè)未知代碼bug,錯(cuò)誤代碼禁用了部分內(nèi)部IP,導(dǎo)致部分產(chǎn)品訪問(wèn)鏈路不通。”
2018十大云計(jì)算廠商宕機(jī)事件回顧
其實(shí)近幾年云宕機(jī)事件發(fā)生也是很頻繁的,據(jù)眾視媒體獲悉,僅2018年一年,全球主流云計(jì)算廠商曾發(fā)生數(shù)十起宕機(jī)事故。
例如:2018年1月18日,谷歌云自動(dòng)化機(jī)制失效,導(dǎo)致其us-central1和europe-west3 兩大可用區(qū)中的計(jì)算引擎停運(yùn)93分鐘。谷歌對(duì)此的回應(yīng)是“網(wǎng)絡(luò)編程失效”導(dǎo)致Autoscaler(自動(dòng)擴(kuò)展器)服務(wù)無(wú)法正常運(yùn)行,該服務(wù)失效意味著新的虛擬機(jī)或剛遷移的虛擬機(jī)無(wú)法與其他可用區(qū)虛擬機(jī)聯(lián)系。
2018年3月2日凌晨,依賴 AWS 服務(wù)的部分 Alexa 開(kāi)始出現(xiàn)失聲問(wèn)題,該智能音箱的紅色指示燈不停閃爍表明服務(wù)出現(xiàn)中斷,Alexa也一直發(fā)出系統(tǒng)內(nèi)置道歉聲。隨后幾小時(shí)內(nèi),Alexa 又接到了成千上萬(wàn)封投訴。據(jù)了解,Alexa這一故障源于亞馬遜AWS的網(wǎng)絡(luò)服務(wù)出現(xiàn)問(wèn)題,其他依賴 AWS 作為骨干網(wǎng)的應(yīng)用在當(dāng)天也受到了影響,包括軟件開(kāi)發(fā)公司 Atlassian,云通訊公司Twilio等。
2018年5月31日,因北弗吉尼亞地區(qū)的數(shù)據(jù)中心出現(xiàn)硬件故障,AWS再次出現(xiàn)連接問(wèn)題。在此事故中,AWS的核心EC2服務(wù),Workspaces虛擬桌面服務(wù)以及Redshift數(shù)據(jù)倉(cāng)庫(kù)服務(wù)均受到影響。
2018年6月17日至18日,因愛(ài)爾蘭數(shù)據(jù)中心的恒溫系統(tǒng)出現(xiàn)問(wèn)題,微軟Azure被高溫影響導(dǎo)致存儲(chǔ)和網(wǎng)絡(luò)中斷。
2018年7月20日,騰訊云云硬盤發(fā)生故障(騰訊云后期給出的事故原因說(shuō)明),導(dǎo)致該公司存放的數(shù)據(jù)全部丟失,并且不能恢復(fù),這是該創(chuàng)業(yè)公司近千萬(wàn)元級(jí)的平臺(tái)數(shù)據(jù),包括經(jīng)過(guò)長(zhǎng)期推廣導(dǎo)流積累起來(lái)的精準(zhǔn)注冊(cè)用戶以及內(nèi)容數(shù)據(jù)。
2018年7月24日,用戶登錄騰訊云時(shí)反復(fù)出現(xiàn)超時(shí)、退出等情況,即便更換運(yùn)營(yíng)商,結(jié)果也一樣。隨后,騰訊云發(fā)布通知稱初步確定是運(yùn)營(yíng)商光纜中斷,運(yùn)營(yíng)商已經(jīng)找到斷點(diǎn),正在連線中,主要受影響的為廣州區(qū)域部分用戶。
2018年9月4日上午,微軟Azure美國(guó)中南區(qū)數(shù)據(jù)中心附近發(fā)生雷擊在內(nèi)的惡劣天氣,影響冷卻系統(tǒng)的電壓,導(dǎo)致多個(gè)Azure服務(wù)出現(xiàn)連接問(wèn)題,客戶難以訪問(wèn)存儲(chǔ)在該區(qū)數(shù)據(jù)中心的資源。受影響的服務(wù)包括Office365、Active Directory、Visual Studio Online、Visual Studio Team Services 等。
2018年11月9日,谷歌公有云上提供的Kubernetes服務(wù)(GKE)節(jié)點(diǎn)池建置功能出現(xiàn)異常,維運(yùn)人員無(wú)法透過(guò)Cloud Console UI建立新節(jié)點(diǎn)。
如何有效降低云宕機(jī)事件發(fā)生
云計(jì)算并不是天生就是不可靠的,但是如同所有的IT形式一樣,必須仔細(xì)挑選和管理云服務(wù)以實(shí)現(xiàn)特定的可靠性和可用性目標(biāo)。
而想要免受云宕機(jī)事件影響的第一步就是要評(píng)估云廠商數(shù)據(jù)中心的可靠性,因?yàn)榇蟛糠值脑茝S商都擁有著很少數(shù)量的數(shù)據(jù)中心,通常情況下只有一個(gè),而這些數(shù)據(jù)中心易于產(chǎn)生與企業(yè)相同類型的故障。
其次,備份數(shù)據(jù)中心必須位于不同于主數(shù)據(jù)中心的另一區(qū)域,這樣它就不會(huì)受到相同問(wèn)題的影響,同時(shí)它還必須擁有足夠的容量以處理云應(yīng)用的故障轉(zhuǎn)移。
最后,網(wǎng)絡(luò)性能問(wèn)題或缺少也將導(dǎo)致云宕機(jī)事件得發(fā)生,云計(jì)算故障的最常見(jiàn)原因通常并不是云計(jì)算,而是網(wǎng)絡(luò)。大部分的云應(yīng)用都是通過(guò)互聯(lián)網(wǎng)進(jìn)行訪問(wèn)的,而互聯(lián)網(wǎng)可用性則是大多數(shù)云宕機(jī)事件的罪魁禍?zhǔn)住?br />
阿里云的全球地位依然牢固
雖然此次的宕機(jī)事件或多或少會(huì)對(duì)阿里云的帶來(lái)一些負(fù)面影響,但是想要?jiǎng)訐u阿里云在國(guó)內(nèi)的地位卻很難。目前在全球市場(chǎng)上,阿里云已擁有超過(guò)1500個(gè)節(jié)點(diǎn),帶寬總量超過(guò)120T,服務(wù)超過(guò)30萬(wàn)客戶。全國(guó)互聯(lián)網(wǎng)三分之一的流量由阿里云承擔(dān),近70%內(nèi)容通過(guò)阿里云完成加速調(diào)度,80%的國(guó)內(nèi)TOP直播網(wǎng)站/APP使用阿里云加速。在權(quán)威市場(chǎng)研究機(jī)構(gòu)Gartner公布的最新視頻云報(bào)告中,阿里云被評(píng)定為"全球級(jí)"。
而據(jù)最新的研究報(bào)告顯示,阿里云以42.5%的市場(chǎng)份額,成為中國(guó)視頻云市場(chǎng)第一大廠商,所占份額幾乎為二至五名總和,阿里云視頻云憑借絕對(duì)領(lǐng)先的市場(chǎng)份額和完整的產(chǎn)品線位居市場(chǎng)競(jìng)爭(zhēng)力領(lǐng)導(dǎo)者的位置。
同時(shí),在剛剛結(jié)束的MWC 2019上,阿里云發(fā)布了7款產(chǎn)品,涵蓋無(wú)服務(wù)器計(jì)算、高性能存儲(chǔ)、全球網(wǎng)絡(luò)、企業(yè)級(jí)數(shù)據(jù)庫(kù)、大數(shù)據(jù)計(jì)算等。
阿里云方面介紹,本次發(fā)布的產(chǎn)品包含:可實(shí)現(xiàn)每秒17億次計(jì)算能力的實(shí)時(shí)計(jì)算引擎Blink,EB級(jí)數(shù)據(jù)存儲(chǔ)能力的大數(shù)據(jù)計(jì)算引擎,業(yè)界首款企業(yè)級(jí)MariaDB云數(shù)據(jù)庫(kù)以及為國(guó)際企業(yè)定制的全球網(wǎng)絡(luò)連接解決方案。產(chǎn)品均已大規(guī)模應(yīng)用于阿里巴巴集團(tuán)內(nèi)部淘寶、天貓、菜鳥等核心業(yè)務(wù)場(chǎng)景。