京東云資深產(chǎn)品經(jīng)理 張寶權(quán):服務(wù)監(jiān)控-嚴(yán)守CDN質(zhì)量命脈
2017-08-03 09:51:47 來源:IDC圈 熱度:

大家下午好,今天很榮幸能夠代表京東云跟大家分享一下我們?cè)贑DN質(zhì)量監(jiān)控管理方面所做的事情和一些思考。CDN是云計(jì)算里面最大的一個(gè)戰(zhàn)場(chǎng),硝煙戰(zhàn)火非常濃烈,大家都知道價(jià)格戰(zhàn)非常激烈,從2015年視頻業(yè)務(wù)井噴式增長開始,眾多云服務(wù)商躋身這個(gè)市場(chǎng),大家共同顛覆傳統(tǒng)的CDN15年以來寡頭壟斷的市場(chǎng)格局,價(jià)格也非常透明,價(jià)格戰(zhàn)成為似乎最有效的競(jìng)爭(zhēng)手段,目前只是一個(gè)視頻業(yè)務(wù)的爆發(fā),未來還有物聯(lián)網(wǎng)、AR、VR一系列的云計(jì)算的需求,接下來CDN怎么發(fā)展,今天我重點(diǎn)談一下質(zhì)量方面的思考。
對(duì)于客戶來講我們?nèi)绾芜xCDN的服務(wù),CDN本質(zhì)是IT服務(wù)型的產(chǎn)品,選型這種產(chǎn)品的時(shí)候,首先考慮功能。是否具備全站的分發(fā)能力,是否有全域覆蓋能力,是否具備安全防護(hù)及靈活配置的能力??疾焱旯δ苤螅蠹視?huì)開始關(guān)注價(jià)格,目前市場(chǎng)上價(jià)格很便宜了,大家都可以看得到。本質(zhì)上CDN是一個(gè)服務(wù),功能、價(jià)格其實(shí)并不是本質(zhì)的需求,本質(zhì)需求是什么?是加速的效果。里面包含服務(wù)的能力,因?yàn)樗且环NIT的服務(wù),不止是產(chǎn)品本身的服務(wù),包含未來售后服務(wù)、運(yùn)維的服務(wù)、以后異常的處理。
我們核心在哪?核心就是我們的質(zhì)量。我所理解CDN產(chǎn)業(yè)未來發(fā)展有這樣幾個(gè)特點(diǎn),目前是價(jià)格戰(zhàn),價(jià)格戰(zhàn)是短期的,未來一定是以服務(wù)透明以質(zhì)量為核心的競(jìng)爭(zhēng)態(tài)勢(shì),眾多CDN服務(wù)提供商拼的是服務(wù)質(zhì)量和成本效率,只有服務(wù)質(zhì)量上去才能贏得更多的客戶,關(guān)于質(zhì)量、穩(wěn)定性、服務(wù)能力等等這些都是依賴于CDN廠商,云廠商也好,自己能夠自治,出現(xiàn)問題可以自愈。對(duì)于CDN來講目前產(chǎn)品變得沒有太大的差異化了,未來肯定形成很多細(xì)分市場(chǎng),我們現(xiàn)在只是做分發(fā),未來可能有信息采集上傳,編輯計(jì)算轉(zhuǎn)發(fā)等等一系列的功能特性,我們把質(zhì)量做進(jìn)去,把穩(wěn)定性做強(qiáng),這樣才能做更多的功能特性。
對(duì)于CDN的服務(wù)質(zhì)量我們?nèi)绾卧u(píng)測(cè)?其實(shí)圍繞一個(gè)核心就是用戶的體驗(yàn)。對(duì)于不同的業(yè)務(wù),我們有不同的要求。比如說頁面,我們更關(guān)心是可用性,頁面加載的時(shí)間,業(yè)界比較通用的做法就是統(tǒng)計(jì)建連的耗時(shí),對(duì)于文件下載,在此基礎(chǔ)上包含下載的速度、命中率,回源占比。
影響CDN質(zhì)量的因素大家可以從這個(gè)圖可以看起,這是典型CDN服務(wù)的場(chǎng)景,我不多講了,大家都比較了解。我們最終目標(biāo)保證客戶下載成功下載耗時(shí)最短,這是我們核心的目標(biāo),這個(gè)核心目標(biāo)多方面因素建造起來的,分解每一個(gè)環(huán)節(jié),包含用戶建連的時(shí)間,邊緣節(jié)點(diǎn)的下載速度,上層回源站的情況,有多個(gè)環(huán)節(jié),形成很多影響質(zhì)量和穩(wěn)定性的因素, 用戶DNS配置錯(cuò)誤都導(dǎo)致異常。我們整個(gè)用戶接入寬帶,移動(dòng)網(wǎng)絡(luò)性能和穩(wěn)定性的問題。調(diào)度機(jī)制,一個(gè)服務(wù)商把CDN做好,調(diào)度很重要,映客的薛寧也在圍繞這方面在講,這里面有很大優(yōu)化的空間。另外作為CDN邊緣節(jié)點(diǎn)鏈路的質(zhì)量和穩(wěn)定性,同時(shí)還有CDN緩存的性能、回源的機(jī)制,回上層的鏈路,甚至上層回源的機(jī)制,上層回源站的鏈路,包括源站的問題。諸多問題中大家發(fā)現(xiàn)這里面真正是CDN廠商自己能夠控制或者把握的只是我標(biāo)綠的這些,其他都是CDN廠商沒法把控的。對(duì)于CDN服務(wù)質(zhì)量管理,我理解兩個(gè)字就是容錯(cuò),容錯(cuò)能力越強(qiáng)服務(wù)質(zhì)量才會(huì)越好。
怎么去容錯(cuò),怎么監(jiān)控,怎么評(píng)測(cè)CDN的服務(wù)?我總結(jié)下來有兩種方法,一種是白盒監(jiān)控,一種是黑盒監(jiān)控。白盒包含CDN自身各個(gè)模塊是否存活、負(fù)載情況、服務(wù)性能,但這不能代表用戶的感知。另外黑盒是從用戶角度去看服務(wù)是不是可用,響應(yīng)反映速度是否夠快,服務(wù)是否穩(wěn)定。
這里面存在一些差異,對(duì)于CDN服務(wù)商的白盒監(jiān)測(cè),可以實(shí)現(xiàn)問題根源可追溯,事前預(yù)警、事后分析。但無法真正感知網(wǎng)民的實(shí)際體驗(yàn),對(duì)終端服務(wù)的實(shí)際效果不敏感,同事會(huì)產(chǎn)生大量的告警事件,導(dǎo)致重要告警無法甄別,甚至被淹沒。對(duì)于緩存、卡頓、流暢度等視頻播放指標(biāo)也無法感知,用戶出現(xiàn)投訴時(shí)才發(fā)現(xiàn)問題,解決問題,很被動(dòng)。
引入第三方監(jiān)控,最大的好處是相對(duì)公正,但同事也引入新的問題,大家知道所有第三方的探測(cè)都是利用招募來的CMA探測(cè)終端模擬網(wǎng)民的請(qǐng)求行為,而終端的負(fù)載、接入網(wǎng)絡(luò)的質(zhì)量無法保證,甚至一些終端可能會(huì)在玩游戲的同時(shí)跑監(jiān)測(cè)任務(wù),終端探測(cè)頻度也不夠,大多在一小時(shí)探測(cè)一次的頻率。這里面其實(shí)存在很多的問題,即使第三方提供數(shù)據(jù)報(bào)告,也需要依托CDN服務(wù)商自己排查問題。
還有一種方案我們客戶自己干,在它的終端進(jìn)行分析,無論是探測(cè)也好還是日志分析也好,都是真實(shí)采樣的真實(shí)數(shù)據(jù),不像第三方采樣的模擬探測(cè)數(shù)據(jù),但也存在諸多問題,包含需要技術(shù)的投入,對(duì)終端資源的損耗,過頻的探測(cè)會(huì)影響用戶體驗(yàn)。只能做事后分析,發(fā)現(xiàn)問題時(shí)還是需要反饋給CDN服務(wù)商,由CDN服務(wù)商解決?! ?/span>
下面我說一下我們京東云CDN產(chǎn)品的情況。京東云CDN的前身是京東自建的CDN的網(wǎng)絡(luò),這個(gè)網(wǎng)絡(luò)最早服務(wù)于京東商城,我們這個(gè)網(wǎng)絡(luò)服務(wù)商城有四五年的時(shí)間了,去年開始我們把這部分資源開放出來給我們客戶,面向客戶的云CDN服務(wù)跟我們自建是兩套網(wǎng)絡(luò)。我們6.18大促,雙十一大促的時(shí)候整個(gè)CDN云平臺(tái)也會(huì)承擔(dān)京東商城的量,平時(shí)量是自建解決的。我們整個(gè)服務(wù)產(chǎn)品的穩(wěn)定性和性能是經(jīng)過京東商城嚴(yán)苛要求所歷練、打磨煉出來的一個(gè)產(chǎn)品。
質(zhì)量是我們一直追求的核心目標(biāo),目前京東云CDN的整體負(fù)載很低,大家知道CDN服務(wù)的一個(gè)很重要指標(biāo)——拼命中率,每個(gè)CDN節(jié)點(diǎn)的存儲(chǔ)資源是有限的,儲(chǔ)量過高就很難緩存,但我們可以做到很高的命中率,穩(wěn)定性和可靠性也是由我們專業(yè)的運(yùn)維團(tuán)隊(duì)保障的,這些運(yùn)維團(tuán)隊(duì)本身就是CDN客戶,他們最了解客戶什么問題最著急,什么問題需要最及時(shí)處理,質(zhì)量透明化是我們一項(xiàng)很重要的服務(wù)理念,我們會(huì)把所有CDN監(jiān)測(cè)數(shù)據(jù)開放給我們客戶,我們共同使用這些數(shù)據(jù),共同保障客戶的服務(wù)質(zhì)量。
下面介紹一下我們的CDN服務(wù)質(zhì)量監(jiān)控體系,最下面的是數(shù)據(jù)采集層,一方面基于部署在cache點(diǎn)和京東配送站的探針,京東物流在我們?nèi)珖鞯囟急椴挤浅V泛,我們充分利用配送站資源做整個(gè)數(shù)據(jù)的采集。另外就是日志,我們基于訪問日志和系統(tǒng)日志,結(jié)合探針和日志上傳進(jìn)行數(shù)據(jù)的處理。上層我們做四種監(jiān)測(cè)和分析。設(shè)備層監(jiān)控,網(wǎng)絡(luò)層監(jiān)控,剛才提到網(wǎng)絡(luò)質(zhì)量是影響CDN服務(wù)質(zhì)量的重要因素,我們對(duì)于網(wǎng)絡(luò)方面包含連通性、丟包、帶寬、網(wǎng)絡(luò)負(fù)載的監(jiān)測(cè)、分析,基于我們?nèi)罩镜玫较嚓P(guān)數(shù)據(jù)進(jìn)行告警。再往上就是應(yīng)用層,這個(gè)應(yīng)用層CDN本身服務(wù)內(nèi)部自身模塊的應(yīng)用本身的狀態(tài)、能力、性能,這里面有很多的指標(biāo)。再往上大家最關(guān)注的業(yè)務(wù)層,業(yè)務(wù)層其實(shí)很多的CDN服務(wù)商現(xiàn)在已經(jīng)把這個(gè)數(shù)據(jù)開放出來了,比如狀態(tài)碼、命中率、可用性,對(duì)于解析時(shí)間、建連時(shí)間、卡頓率、慢速比,卻很難呈現(xiàn)。慢速比由CDN廠商自己通過視頻碼率和下載數(shù)據(jù)結(jié)合算下來,跟真實(shí)用戶體驗(yàn)還是有差異的。我們業(yè)務(wù)層可以完整覆蓋從用戶角度看到服務(wù)質(zhì)量的指標(biāo)。
再往右邊是我們整個(gè)數(shù)據(jù)的呈現(xiàn),包含實(shí)時(shí)監(jiān)控和實(shí)時(shí)告警。
下面說一下配送站的情況,京東全國有兩萬多個(gè)配送站點(diǎn),所有配送站點(diǎn)都有一臺(tái)主機(jī)電腦,基本任務(wù)就是提交一些報(bào)表,這些設(shè)備CPU和存儲(chǔ)利用率非常低,我們利用這些資源把我們探針部署在配送站上,我們做到實(shí)時(shí)的探測(cè),我們基于配置任務(wù)調(diào)度進(jìn)行我們目標(biāo)任務(wù)探測(cè)。拿到這樣數(shù)據(jù)之后我們做什么?用戶體驗(yàn)感知,通過配送站可以真實(shí)反映用戶體驗(yàn)。我們對(duì)于直播點(diǎn)播可以通過客戶端進(jìn)行模擬監(jiān)測(cè)。第二個(gè)網(wǎng)絡(luò)劫持。我們通過配送站能夠發(fā)現(xiàn)集中性的哪些區(qū)域有劫持情況。第三個(gè)調(diào)度決策支撐。正常CDN的調(diào)度結(jié)合我們網(wǎng)民所處運(yùn)營商所處的地域,整個(gè)負(fù)載,鏈路情況,有的廠商考慮成本效率問題,大家都是比較通用的辦法。但是有了配送站這樣一個(gè)節(jié)點(diǎn),我們可以基于具體的任務(wù)進(jìn)行任務(wù)分發(fā)和探測(cè),它所采集的數(shù)據(jù)可以實(shí)時(shí)注入到我們調(diào)度系統(tǒng)里面,形成實(shí)時(shí)調(diào)度的優(yōu)化。
第四個(gè)鏈路質(zhì)量的評(píng)測(cè),我們整個(gè)鏈路選型,運(yùn)營商網(wǎng)絡(luò)選型還是調(diào)度時(shí)也好,都會(huì)參考整個(gè)配送站的數(shù)據(jù)進(jìn)行評(píng)測(cè)。
還有網(wǎng)絡(luò)質(zhì)量調(diào)優(yōu)參考以及過程信息拆解,把CDN和網(wǎng)民到我們服務(wù)端到源站整個(gè)全鏈條數(shù)據(jù)都可以拿到進(jìn)行全面分析。
下面看一下我們的監(jiān)控,第一個(gè)設(shè)備監(jiān)控,圍繞磁盤等整個(gè)網(wǎng)絡(luò)負(fù)載等我們都有很清晰的監(jiān)測(cè),設(shè)備進(jìn)程、端口等一系列的應(yīng)用。
第二個(gè)網(wǎng)絡(luò)層監(jiān)控,包括網(wǎng)絡(luò)丟包和網(wǎng)絡(luò)延遲,我們從用戶到節(jié)點(diǎn)之間的探測(cè),以往情況下大家用第三方做的,我們用我們配送站的節(jié)點(diǎn),實(shí)現(xiàn)模擬網(wǎng)民到我們邊緣的探測(cè)。節(jié)點(diǎn)之間的探測(cè),節(jié)點(diǎn)回源站的探測(cè)。我們可以結(jié)合不同區(qū)域不同運(yùn)營商之間的互探形成鏈路的訪問。我們目前基本上可以達(dá)到每分鐘級(jí)數(shù)據(jù)采集和分鐘級(jí)結(jié)果呈現(xiàn)。
第二個(gè)應(yīng)用層監(jiān)測(cè),包括ATS、NGINX等命中指標(biāo)都可以進(jìn)行告警。
第三個(gè)節(jié)點(diǎn)級(jí)監(jiān)控,兩個(gè)層面,一個(gè)是節(jié)點(diǎn)本身的健康度,我們結(jié)合節(jié)點(diǎn)自身負(fù)載、帶寬、設(shè)備存活情況、節(jié)點(diǎn)命中、節(jié)點(diǎn)歷史服務(wù)質(zhì)量,對(duì)每一個(gè)節(jié)點(diǎn)進(jìn)行評(píng)分,基于這些進(jìn)行實(shí)時(shí)調(diào)度。
第二個(gè)節(jié)點(diǎn)質(zhì)量的圖,下面象限表示是質(zhì)量,左邊縱線表示訪問量,我們可以對(duì)調(diào)度進(jìn)行實(shí)時(shí)的參考,對(duì)于訪問質(zhì)量好,訪問量不高的節(jié)點(diǎn)我們加大調(diào)度,實(shí)現(xiàn)最優(yōu)的用戶體驗(yàn)。
再往上業(yè)務(wù)層監(jiān)控,傳統(tǒng)基于第三方監(jiān)控的DNS解析時(shí)間建連時(shí)間,首包時(shí)間我們可以進(jìn)行實(shí)時(shí)監(jiān)控和管理,進(jìn)行多維度的控制,我們針對(duì)某一域名監(jiān)控,某一地區(qū)監(jiān)控,可以多維靈活進(jìn)行監(jiān)控。
第二個(gè)視頻卡頓率、流暢率等等一系列的分析,這是我們面向最終用戶實(shí)際體驗(yàn)的。左邊是我們命中率右邊是狀態(tài)碼,我們達(dá)到秒級(jí)上傳分鐘級(jí)統(tǒng)計(jì)。
下面挑幾點(diǎn)重要的質(zhì)量優(yōu)化技術(shù)進(jìn)行闡述。第一個(gè)圖片壓縮技術(shù),京東商城里面有很多圖片,我們多年來其實(shí)對(duì)于圖片如何快速的呈現(xiàn)下了很大功夫,我們采用Webp的圖片,我可以壓縮到webp格式壓縮給網(wǎng)民,整個(gè)速度快了很多。
第二高性能三級(jí)緩存,低延時(shí)、高命中。我整個(gè)存儲(chǔ)分為三層,最熱文件存在內(nèi)存,次熱我們到SSD+NVME緩存。對(duì)于冷文件我們存儲(chǔ)在磁盤里面,通過這種機(jī)制我們實(shí)現(xiàn)快速命中、快速分發(fā)。
這里面有幾個(gè)重要技術(shù)我可以大概提一下,對(duì)于電商來講其實(shí)所有內(nèi)容的刷新是非常重要的指標(biāo),我們這里面下了很大功夫,目前我們整個(gè)CDN的內(nèi)容刷新實(shí)現(xiàn)秒級(jí)刷新,把這個(gè)任務(wù)分發(fā)出去下一秒不會(huì)讓客戶看到這個(gè)內(nèi)容,我們做了DNS容錯(cuò),我們服務(wù)過程當(dāng)中發(fā)現(xiàn)有很多網(wǎng)民DNS配置錯(cuò)誤,這樣訪問異常,我們通過技術(shù)評(píng)估和研發(fā),我們實(shí)現(xiàn)了DNS容錯(cuò)的方案,即使用戶DNS的配置錯(cuò)誤我們可以引導(dǎo)你到我們正確內(nèi)容上,還有協(xié)議優(yōu)化等問題,我不詳細(xì)說了。
最后說一下我們服務(wù)質(zhì)量體系,我們整個(gè)京東云運(yùn)維體系原來服務(wù)于京東商城的,我們歷經(jīng)多年的大促考驗(yàn),從技術(shù)來講和服務(wù)能力來講有很專業(yè)的服務(wù)能力,我們提供7乘24小時(shí)服務(wù),對(duì)客戶有需求促銷服務(wù)要求,我們可以提供專屬資源。我們目前做到80%的問題在客戶之前發(fā)現(xiàn),80%的問題在5分鐘之內(nèi)定位原因。
最后對(duì)整個(gè)服務(wù)運(yùn)營保障的技術(shù)能力蓋有規(guī)范流程,一系列的制度保障我們更好服務(wù)客戶,把我們服務(wù)商城大促的這種能力復(fù)制到我們客戶身上。從今年6.18的數(shù)據(jù)來看,最大量是常量四到五倍,我們整個(gè)資源非常充足的,客戶在我們這服務(wù)實(shí)際上可以得到充分的保障的。最后公布我們新的促銷的消息,我們目前在六個(gè)月內(nèi),向新用戶提供300GB的CDN國內(nèi)免費(fèi)流量,大家感興趣可以掃描二維碼關(guān)注。
下一篇:映客直播服務(wù)端高級(jí)開發(fā)工程師 薛寧: 映客直播調(diào)度系統(tǒng)實(shí)踐上一篇:中國電信CDN運(yùn)營中心售前總監(jiān)、業(yè)務(wù)總監(jiān) 劉杰: 推動(dòng)CDN聯(lián)盟,共建大視頻平臺(tái)
責(zé)任編輯:王良地