智能運(yùn)維開啟數(shù)據(jù)中心運(yùn)維的智能時(shí)代
2019-01-15 14:31:51
來(lái)源:
DVBCN 熱度:
我們處在這個(gè)數(shù)字化時(shí)代,數(shù)據(jù)中心規(guī)模和容量都在成倍增長(zhǎng),隨之而來(lái)的運(yùn)維管理復(fù)雜度和難度也越來(lái)越大,從腳本運(yùn)維、工具運(yùn)維到平臺(tái)運(yùn)維演進(jìn)至今,人力已接近極限,AIOps應(yīng)運(yùn)而生。
我們處在這個(gè)數(shù)字化時(shí)代,數(shù)據(jù)中心規(guī)模和容量都在成倍增長(zhǎng),隨之而來(lái)的運(yùn)維管理復(fù)雜度和難度也越來(lái)越大,從腳本運(yùn)維、工具運(yùn)維到平臺(tái)運(yùn)維演進(jìn)至今,人力已接近極限,AIOps應(yīng)運(yùn)而生。AIOps(Artificial Intelligence for IT Operations),即智能運(yùn)維,是將人工智能與運(yùn)維結(jié)合,基于已有運(yùn)維數(shù)據(jù)(日志、監(jiān)控信息、應(yīng)用信息等),通過(guò)機(jī)器學(xué)習(xí)的方法來(lái)提升運(yùn)維效率,從而逐步取代人工的運(yùn)維。早些時(shí)候,關(guān)于機(jī)器人是否能代替人類的話題引起熱議,很多人還擔(dān)心人類引入AI的后果可能是最終被機(jī)器人所擊敗,世界變成是機(jī)器人的。別的領(lǐng)域不說(shuō),單說(shuō)運(yùn)維,那巴不得AI能將人替代,這樣可以節(jié)省很大的人力開支,人工運(yùn)維效率低不說(shuō),還容易出錯(cuò),將運(yùn)維交給AI是不錯(cuò)的出路,這就是AIOps火起來(lái)的原因。
AIOps并不是憑空而起的技術(shù),實(shí)際上,運(yùn)維一直是數(shù)據(jù)中心重要的工作之一,在數(shù)據(jù)中心漫長(zhǎng)的生命周期內(nèi),幾乎大部分時(shí)間都是運(yùn)維的工作。在運(yùn)維發(fā)展的過(guò)程中,從最開始的人工運(yùn)維,到工具運(yùn)維,再到Devops,Devops可以理解為自動(dòng)化運(yùn)維,現(xiàn)在到了AIOps的時(shí)代。人工運(yùn)維顧名思義,是利用單獨(dú)的腳本或者一些簡(jiǎn)單的工具,沒有較為完善的系統(tǒng)和運(yùn)維理念,絕大部分運(yùn)維的工作靠人工完成;工具運(yùn)維則依賴較為完善的工具,并經(jīng)過(guò)不斷改進(jìn),工具越來(lái)越成熟,工具可以替代一些重復(fù)性的操作類人工工作;Devops則完全依賴自動(dòng)化,通過(guò)SRE、Chatops等高級(jí)形式工具,將運(yùn)維流程和操作實(shí)現(xiàn)完全自動(dòng)化,Devops可以代替大部分的人力工作;AIOps則將AI技術(shù)引入到運(yùn)維當(dāng)中,通過(guò)機(jī)器的自我學(xué)習(xí)、自行分析決策,自動(dòng)去執(zhí)行腳本。顯然,隨著運(yùn)維技能的提升,數(shù)據(jù)中心越來(lái)越多運(yùn)維的工作都可以交由機(jī)器來(lái)自動(dòng)完成,至少最終數(shù)據(jù)中心完全可以自動(dòng)運(yùn)行,鮮有人工參與,這樣能極大降低數(shù)據(jù)中心的人力成本,提升數(shù)據(jù)中心的競(jìng)爭(zhēng)力。
AIOps可并不是拿來(lái)就可以用的,它要對(duì)海量的數(shù)據(jù)進(jìn)行學(xué)習(xí),學(xué)習(xí)完后有了經(jīng)驗(yàn),才能夠根據(jù)學(xué)習(xí)的經(jīng)驗(yàn)來(lái)工作。所以AIOps需要大量的監(jiān)測(cè)日志、設(shè)備運(yùn)行狀態(tài)信息、已發(fā)生過(guò)的故障、歷史經(jīng)驗(yàn)、自動(dòng)化腳本等等,數(shù)據(jù)越豐富,AIOps的能力就越強(qiáng),試想如果靠人去記憶查找,人的大腦是記不住太多東西的,而機(jī)器不同,它可以清楚記得數(shù)十G文件中的任何位置的標(biāo)點(diǎn)符號(hào),相對(duì)于人類的智慧——雖然是無(wú)限的,但不如機(jī)器來(lái)得高效。所以當(dāng)遇到問題時(shí),AIOps依賴的歷史數(shù)據(jù)要比人腦積攢的多得多,如此才能給出最佳的問題處理方式,這也是AI在任何一個(gè)領(lǐng)域中應(yīng)用時(shí)所用的相同方式。AIOps就是將人工決策分析交給了機(jī)器,用機(jī)器學(xué)習(xí)方法做決策分析。從技術(shù)上說(shuō),AIOps需要大量的實(shí)踐和沉淀,任何歷史的經(jīng)驗(yàn)數(shù)據(jù)對(duì)AIOps都有益。如果說(shuō)AIOps學(xué)習(xí)的數(shù)據(jù)樣本很少,那么再好的算法,也會(huì)經(jīng)常給不出決策結(jié)果,最終還是要人工干預(yù),要是事事還要人去參與,那AIOps就失去存在的意義了。在AIOps學(xué)習(xí)階段,要給AIOps輸入大量的學(xué)習(xí)樣本,學(xué)的越多,AIOps能夠代替人處理的工作就會(huì)越多,隨著時(shí)間的積累,你會(huì)發(fā)現(xiàn)AIOps能干的事情越來(lái)越多,只要讓AIOps學(xué)習(xí)一次,類似的工作AIOps都可以做起來(lái),比人工高效多了。數(shù)據(jù)中心出現(xiàn)故障是無(wú)法完全避免,重點(diǎn)是快速應(yīng)對(duì),不以發(fā)生故障為恥,以快速修復(fù)為榮,AIOps幾乎可以數(shù)秒之間就可以完成故障排查和解除,在這么短的時(shí)間完成,人工是無(wú)法做到的,這么快就恢復(fù),業(yè)務(wù)層面也基本不會(huì)有感知,真正做到即便出故障了,也能保持業(yè)務(wù)無(wú)中斷。
AIOps既然是這么棒的技術(shù),一定在數(shù)據(jù)中心大受歡迎吧,實(shí)際卻不是這樣。AIOps概念炒得挺火,真正落地實(shí)現(xiàn)的案例并不多。一方面是AIOps采用的機(jī)器算法很重要,算法要適應(yīng)數(shù)據(jù)中心的環(huán)境,根據(jù)數(shù)據(jù)可以得出接近人判斷的結(jié)果,AI技術(shù)本身也在不斷發(fā)展過(guò)程中,這方面也還不成熟,技術(shù)雖夠先進(jìn),可與實(shí)際應(yīng)用還有距離。另一方面是每個(gè)行業(yè)的數(shù)據(jù)都有自己的特點(diǎn),數(shù)據(jù)中心也不例外,而且數(shù)據(jù)中心的數(shù)據(jù)量和特征都特別多,這對(duì)AI是個(gè)挑戰(zhàn),數(shù)據(jù)中心里有太多新的IT技術(shù),產(chǎn)生很多新的數(shù)據(jù),這些都需要AIOps不斷調(diào)整算法,不斷去適應(yīng)和學(xué)習(xí),如果學(xué)的不好,容易給出錯(cuò)誤的決策,導(dǎo)致系統(tǒng)失控和癱瘓,這時(shí)就需要人工多介入,及時(shí)調(diào)整AIOps的算法和數(shù)據(jù)錄入的準(zhǔn)確性,將一個(gè)數(shù)據(jù)中心的AIOps真正建起來(lái),這不亞于數(shù)據(jù)中心運(yùn)維工作幾年的工作量。所以AIOps需要一個(gè)專業(yè)的團(tuán)隊(duì)來(lái)做,大型的企業(yè)都有自己的AIOps團(tuán)隊(duì),而中小企業(yè)則從外部聘請(qǐng)IBM、Oracle等AI技術(shù)公司來(lái)做,這種投入目前看也是蠻大的,往往讓那些想引入AIOps的數(shù)據(jù)中心暫時(shí)擱置起來(lái)。所以,當(dāng)前AIOps落地成了最大的難題,已有部署AIOps的數(shù)據(jù)中心,AIOps發(fā)展差異都很大。
運(yùn)維未來(lái)的方向肯定是AIOps,這一點(diǎn)毋庸置疑,只不過(guò)AIOps仍處于偏理論階段,還需要時(shí)間進(jìn)行不斷完善。AIOps可以貫徹整個(gè)運(yùn)維領(lǐng)域,從硬件資源規(guī)劃、管理、實(shí)施,操作系統(tǒng)安裝配置,到中間件及應(yīng)用軟件的上線、變更,以及后續(xù)的監(jiān)控、報(bào)警、維護(hù)、優(yōu)化等各方面都能夠支持,AIOps幾乎無(wú)所不能,只要人能做的工作,AIOps都能做,人不能做的工作,AIOps也都能做。隨著AIOps的成熟,后面也許會(huì)進(jìn)入AIDevops時(shí)代,它比AIOps多了一個(gè)Dev,比Devops多了一個(gè)AI。這是智能化開發(fā)和運(yùn)維、智能化生命周期管理時(shí)代,這要比AIOps還要智能,將具有度量、分析、學(xué)習(xí)、預(yù)測(cè)、指導(dǎo),行動(dòng)的能力,AIDevops才是智能運(yùn)維的未來(lái)。
責(zé)任編輯:孫云逸
相關(guān)推薦
10大前沿運(yùn)營(yíng)商級(jí)網(wǎng)絡(luò)技術(shù)本文介紹介紹了10大前沿運(yùn)營(yíng)商級(jí)網(wǎng)絡(luò)技術(shù):GPON,云計(jì)算,云手機(jī),CDN,集裝箱數(shù)據(jù)中心,高壓直流供電,蒸發(fā)式冷卻,風(fēng)光互補(bǔ)基站,RFID。一、GPONGPON技術(shù)發(fā)源于1995年形成的ATMPON(既APON),最早由FSAN標(biāo)準(zhǔn)組織提出,經(jīng)ITU-T指定,2004年形成最終標(biāo)準(zhǔn)。一直與EPON處于競(jìng)爭(zhēng)地位。在亞太地區(qū)一直被壓制,2010年開始發(fā)力,目前新增份額已經(jīng)開始超越EPON。中移動(dòng)專寵GPON,中電信、中聯(lián)通也開始青睞GPON。GPON為運(yùn)營(yíng)商提供了更大的分光比、2倍于EPON的下行帶寬,在FTTH中優(yōu)勢(shì)尤為明顯。中國(guó)移動(dòng)研究院網(wǎng)絡(luò)研究所所長(zhǎng)助理李晗——“GPON的DFB+APD提
分區(qū)防護(hù) 全面應(yīng)對(duì)數(shù)據(jù)中心安全挑戰(zhàn) 隨著企業(yè)的高速發(fā)展和經(jīng)營(yíng)對(duì)數(shù)據(jù)依賴性的增長(zhǎng),數(shù)據(jù)中心向著更大容量、更高能力、超大規(guī)模、多種業(yè)務(wù)模式和運(yùn)營(yíng)模式共存的方向發(fā)展。與此同時(shí),DDoS攻擊、黑客入侵等為數(shù)據(jù)中心網(wǎng)絡(luò)安全帶來(lái)了嚴(yán)峻的挑戰(zhàn)。而華為認(rèn)為:在數(shù)據(jù)中心安全防護(hù)解決方案中融入分區(qū)設(shè)計(jì)理念,能夠有效保障數(shù)據(jù)中心的網(wǎng)絡(luò)安全防護(hù)。數(shù)據(jù)中心嚴(yán)峻的安全挑戰(zhàn)目前,DDoS攻擊已經(jīng)成為數(shù)