欧美色图 亚洲|野外口爆视频国产|久久精品视频观看|97精品人人抽插

京東云資深產(chǎn)品經(jīng)理 張寶權(quán):服務(wù)監(jiān)控-嚴(yán)守CDN質(zhì)量命脈

2017-08-03 09:51:47 來源:IDC圈 熱度:

大家下午好,今天很榮幸能夠代表京東云跟大家分享一下我們在CDN質(zhì)量監(jiān)控管理方面所做的事情和一些思考。CDN是云計算里面最大的一個戰(zhàn)場,硝煙戰(zhàn)火非常濃烈,大家都知道價格戰(zhàn)非常激烈,從2015年視頻業(yè)務(wù)井噴式增長開始,眾多云服務(wù)商躋身這個市場,大家共同顛覆傳統(tǒng)的CDN15年以來寡頭壟斷的市場格局,價格也非常透明,價格戰(zhàn)成為似乎最有效的競爭手段,目前只是一個視頻業(yè)務(wù)的爆發(fā),未來還有物聯(lián)網(wǎng)、AR、VR一系列的云計算的需求,接下來CDN怎么發(fā)展,今天我重點談一下質(zhì)量方面的思考。
 
對于客戶來講我們?nèi)绾芜xCDN的服務(wù),CDN本質(zhì)是IT服務(wù)型的產(chǎn)品,選型這種產(chǎn)品的時候,首先考慮功能。是否具備全站的分發(fā)能力,是否有全域覆蓋能力,是否具備安全防護(hù)及靈活配置的能力。考察完功能之后,大家會開始關(guān)注價格,目前市場上價格很便宜了,大家都可以看得到。本質(zhì)上CDN是一個服務(wù),功能、價格其實并不是本質(zhì)的需求,本質(zhì)需求是什么?是加速的效果。里面包含服務(wù)的能力,因為它是一種IT的服務(wù),不止是產(chǎn)品本身的服務(wù),包含未來售后服務(wù)、運(yùn)維的服務(wù)、以后異常的處理。
 
我們核心在哪?核心就是我們的質(zhì)量。我所理解CDN產(chǎn)業(yè)未來發(fā)展有這樣幾個特點,目前是價格戰(zhàn),價格戰(zhàn)是短期的,未來一定是以服務(wù)透明以質(zhì)量為核心的競爭態(tài)勢,眾多CDN服務(wù)提供商拼的是服務(wù)質(zhì)量和成本效率,只有服務(wù)質(zhì)量上去才能贏得更多的客戶,關(guān)于質(zhì)量、穩(wěn)定性、服務(wù)能力等等這些都是依賴于CDN廠商,云廠商也好,自己能夠自治,出現(xiàn)問題可以自愈。對于CDN來講目前產(chǎn)品變得沒有太大的差異化了,未來肯定形成很多細(xì)分市場,我們現(xiàn)在只是做分發(fā),未來可能有信息采集上傳,編輯計算轉(zhuǎn)發(fā)等等一系列的功能特性,我們把質(zhì)量做進(jìn)去,把穩(wěn)定性做強(qiáng),這樣才能做更多的功能特性。
 
對于CDN的服務(wù)質(zhì)量我們?nèi)绾卧u測?其實圍繞一個核心就是用戶的體驗。對于不同的業(yè)務(wù),我們有不同的要求。比如說頁面,我們更關(guān)心是可用性,頁面加載的時間,業(yè)界比較通用的做法就是統(tǒng)計建連的耗時,對于文件下載,在此基礎(chǔ)上包含下載的速度、命中率,回源占比。
 
影響CDN質(zhì)量的因素大家可以從這個圖可以看起,這是典型CDN服務(wù)的場景,我不多講了,大家都比較了解。我們最終目標(biāo)保證客戶下載成功下載耗時最短,這是我們核心的目標(biāo),這個核心目標(biāo)多方面因素建造起來的,分解每一個環(huán)節(jié),包含用戶建連的時間,邊緣節(jié)點的下載速度,上層回源站的情況,有多個環(huán)節(jié),形成很多影響質(zhì)量和穩(wěn)定性的因素, 用戶DNS配置錯誤都導(dǎo)致異常。我們整個用戶接入寬帶,移動網(wǎng)絡(luò)性能和穩(wěn)定性的問題。調(diào)度機(jī)制,一個服務(wù)商把CDN做好,調(diào)度很重要,映客的薛寧也在圍繞這方面在講,這里面有很大優(yōu)化的空間。另外作為CDN邊緣節(jié)點鏈路的質(zhì)量和穩(wěn)定性,同時還有CDN緩存的性能、回源的機(jī)制,回上層的鏈路,甚至上層回源的機(jī)制,上層回源站的鏈路,包括源站的問題。諸多問題中大家發(fā)現(xiàn)這里面真正是CDN廠商自己能夠控制或者把握的只是我標(biāo)綠的這些,其他都是CDN廠商沒法把控的。對于CDN服務(wù)質(zhì)量管理,我理解兩個字就是容錯,容錯能力越強(qiáng)服務(wù)質(zhì)量才會越好。
 
怎么去容錯,怎么監(jiān)控,怎么評測CDN的服務(wù)?我總結(jié)下來有兩種方法,一種是白盒監(jiān)控,一種是黑盒監(jiān)控。白盒包含CDN自身各個模塊是否存活、負(fù)載情況、服務(wù)性能,但這不能代表用戶的感知。另外黑盒是從用戶角度去看服務(wù)是不是可用,響應(yīng)反映速度是否夠快,服務(wù)是否穩(wěn)定。
 
這里面存在一些差異,對于CDN服務(wù)商的白盒監(jiān)測,可以實現(xiàn)問題根源可追溯,事前預(yù)警、事后分析。但無法真正感知網(wǎng)民的實際體驗,對終端服務(wù)的實際效果不敏感,同事會產(chǎn)生大量的告警事件,導(dǎo)致重要告警無法甄別,甚至被淹沒。對于緩存、卡頓、流暢度等視頻播放指標(biāo)也無法感知,用戶出現(xiàn)投訴時才發(fā)現(xiàn)問題,解決問題,很被動。
 
引入第三方監(jiān)控,最大的好處是相對公正,但同事也引入新的問題,大家知道所有第三方的探測都是利用招募來的CMA探測終端模擬網(wǎng)民的請求行為,而終端的負(fù)載、接入網(wǎng)絡(luò)的質(zhì)量無法保證,甚至一些終端可能會在玩游戲的同時跑監(jiān)測任務(wù),終端探測頻度也不夠,大多在一小時探測一次的頻率。這里面其實存在很多的問題,即使第三方提供數(shù)據(jù)報告,也需要依托CDN服務(wù)商自己排查問題。
 
還有一種方案我們客戶自己干,在它的終端進(jìn)行分析,無論是探測也好還是日志分析也好,都是真實采樣的真實數(shù)據(jù),不像第三方采樣的模擬探測數(shù)據(jù),但也存在諸多問題,包含需要技術(shù)的投入,對終端資源的損耗,過頻的探測會影響用戶體驗。只能做事后分析,發(fā)現(xiàn)問題時還是需要反饋給CDN服務(wù)商,由CDN服務(wù)商解決?!   ?/span>
 
下面我說一下我們京東云CDN產(chǎn)品的情況。京東云CDN的前身是京東自建的CDN的網(wǎng)絡(luò),這個網(wǎng)絡(luò)最早服務(wù)于京東商城,我們這個網(wǎng)絡(luò)服務(wù)商城有四五年的時間了,去年開始我們把這部分資源開放出來給我們客戶,面向客戶的云CDN服務(wù)跟我們自建是兩套網(wǎng)絡(luò)。我們6.18大促,雙十一大促的時候整個CDN云平臺也會承擔(dān)京東商城的量,平時量是自建解決的。我們整個服務(wù)產(chǎn)品的穩(wěn)定性和性能是經(jīng)過京東商城嚴(yán)苛要求所歷練、打磨煉出來的一個產(chǎn)品。
 
質(zhì)量是我們一直追求的核心目標(biāo),目前京東云CDN的整體負(fù)載很低,大家知道CDN服務(wù)的一個很重要指標(biāo)——拼命中率,每個CDN節(jié)點的存儲資源是有限的,儲量過高就很難緩存,但我們可以做到很高的命中率,穩(wěn)定性和可靠性也是由我們專業(yè)的運(yùn)維團(tuán)隊保障的,這些運(yùn)維團(tuán)隊本身就是CDN客戶,他們最了解客戶什么問題最著急,什么問題需要最及時處理,質(zhì)量透明化是我們一項很重要的服務(wù)理念,我們會把所有CDN監(jiān)測數(shù)據(jù)開放給我們客戶,我們共同使用這些數(shù)據(jù),共同保障客戶的服務(wù)質(zhì)量。
 
下面介紹一下我們的CDN服務(wù)質(zhì)量監(jiān)控體系,最下面的是數(shù)據(jù)采集層,一方面基于部署在cache點和京東配送站的探針,京東物流在我們?nèi)珖鞯囟急椴挤浅V泛,我們充分利用配送站資源做整個數(shù)據(jù)的采集。另外就是日志,我們基于訪問日志和系統(tǒng)日志,結(jié)合探針和日志上傳進(jìn)行數(shù)據(jù)的處理。上層我們做四種監(jiān)測和分析。設(shè)備層監(jiān)控,網(wǎng)絡(luò)層監(jiān)控,剛才提到網(wǎng)絡(luò)質(zhì)量是影響CDN服務(wù)質(zhì)量的重要因素,我們對于網(wǎng)絡(luò)方面包含連通性、丟包、帶寬、網(wǎng)絡(luò)負(fù)載的監(jiān)測、分析,基于我們?nèi)罩镜玫较嚓P(guān)數(shù)據(jù)進(jìn)行告警。再往上就是應(yīng)用層,這個應(yīng)用層CDN本身服務(wù)內(nèi)部自身模塊的應(yīng)用本身的狀態(tài)、能力、性能,這里面有很多的指標(biāo)。再往上大家最關(guān)注的業(yè)務(wù)層,業(yè)務(wù)層其實很多的CDN服務(wù)商現(xiàn)在已經(jīng)把這個數(shù)據(jù)開放出來了,比如狀態(tài)碼、命中率、可用性,對于解析時間、建連時間、卡頓率、慢速比,卻很難呈現(xiàn)。慢速比由CDN廠商自己通過視頻碼率和下載數(shù)據(jù)結(jié)合算下來,跟真實用戶體驗還是有差異的。我們業(yè)務(wù)層可以完整覆蓋從用戶角度看到服務(wù)質(zhì)量的指標(biāo)。
 
再往右邊是我們整個數(shù)據(jù)的呈現(xiàn),包含實時監(jiān)控和實時告警。
 
下面說一下配送站的情況,京東全國有兩萬多個配送站點,所有配送站點都有一臺主機(jī)電腦,基本任務(wù)就是提交一些報表,這些設(shè)備CPU和存儲利用率非常低,我們利用這些資源把我們探針部署在配送站上,我們做到實時的探測,我們基于配置任務(wù)調(diào)度進(jìn)行我們目標(biāo)任務(wù)探測。拿到這樣數(shù)據(jù)之后我們做什么?用戶體驗感知,通過配送站可以真實反映用戶體驗。我們對于直播點播可以通過客戶端進(jìn)行模擬監(jiān)測。第二個網(wǎng)絡(luò)劫持。我們通過配送站能夠發(fā)現(xiàn)集中性的哪些區(qū)域有劫持情況。第三個調(diào)度決策支撐。正常CDN的調(diào)度結(jié)合我們網(wǎng)民所處運(yùn)營商所處的地域,整個負(fù)載,鏈路情況,有的廠商考慮成本效率問題,大家都是比較通用的辦法。但是有了配送站這樣一個節(jié)點,我們可以基于具體的任務(wù)進(jìn)行任務(wù)分發(fā)和探測,它所采集的數(shù)據(jù)可以實時注入到我們調(diào)度系統(tǒng)里面,形成實時調(diào)度的優(yōu)化。
 
第四個鏈路質(zhì)量的評測,我們整個鏈路選型,運(yùn)營商網(wǎng)絡(luò)選型還是調(diào)度時也好,都會參考整個配送站的數(shù)據(jù)進(jìn)行評測。
 
還有網(wǎng)絡(luò)質(zhì)量調(diào)優(yōu)參考以及過程信息拆解,把CDN和網(wǎng)民到我們服務(wù)端到源站整個全鏈條數(shù)據(jù)都可以拿到進(jìn)行全面分析。
 
下面看一下我們的監(jiān)控,第一個設(shè)備監(jiān)控,圍繞磁盤等整個網(wǎng)絡(luò)負(fù)載等我們都有很清晰的監(jiān)測,設(shè)備進(jìn)程、端口等一系列的應(yīng)用。
 
第二個網(wǎng)絡(luò)層監(jiān)控,包括網(wǎng)絡(luò)丟包和網(wǎng)絡(luò)延遲,我們從用戶到節(jié)點之間的探測,以往情況下大家用第三方做的,我們用我們配送站的節(jié)點,實現(xiàn)模擬網(wǎng)民到我們邊緣的探測。節(jié)點之間的探測,節(jié)點回源站的探測。我們可以結(jié)合不同區(qū)域不同運(yùn)營商之間的互探形成鏈路的訪問。我們目前基本上可以達(dá)到每分鐘級數(shù)據(jù)采集和分鐘級結(jié)果呈現(xiàn)。
 
第二個應(yīng)用層監(jiān)測,包括ATS、NGINX等命中指標(biāo)都可以進(jìn)行告警。
 
第三個節(jié)點級監(jiān)控,兩個層面,一個是節(jié)點本身的健康度,我們結(jié)合節(jié)點自身負(fù)載、帶寬、設(shè)備存活情況、節(jié)點命中、節(jié)點歷史服務(wù)質(zhì)量,對每一個節(jié)點進(jìn)行評分,基于這些進(jìn)行實時調(diào)度。
 
第二個節(jié)點質(zhì)量的圖,下面象限表示是質(zhì)量,左邊縱線表示訪問量,我們可以對調(diào)度進(jìn)行實時的參考,對于訪問質(zhì)量好,訪問量不高的節(jié)點我們加大調(diào)度,實現(xiàn)最優(yōu)的用戶體驗。
 
再往上業(yè)務(wù)層監(jiān)控,傳統(tǒng)基于第三方監(jiān)控的DNS解析時間建連時間,首包時間我們可以進(jìn)行實時監(jiān)控和管理,進(jìn)行多維度的控制,我們針對某一域名監(jiān)控,某一地區(qū)監(jiān)控,可以多維靈活進(jìn)行監(jiān)控。
 
第二個視頻卡頓率、流暢率等等一系列的分析,這是我們面向最終用戶實際體驗的。左邊是我們命中率右邊是狀態(tài)碼,我們達(dá)到秒級上傳分鐘級統(tǒng)計。
 
下面挑幾點重要的質(zhì)量優(yōu)化技術(shù)進(jìn)行闡述。第一個圖片壓縮技術(shù),京東商城里面有很多圖片,我們多年來其實對于圖片如何快速的呈現(xiàn)下了很大功夫,我們采用Webp的圖片,我可以壓縮到webp格式壓縮給網(wǎng)民,整個速度快了很多。
 
第二高性能三級緩存,低延時、高命中。我整個存儲分為三層,最熱文件存在內(nèi)存,次熱我們到SSD+NVME緩存。對于冷文件我們存儲在磁盤里面,通過這種機(jī)制我們實現(xiàn)快速命中、快速分發(fā)。
 
這里面有幾個重要技術(shù)我可以大概提一下,對于電商來講其實所有內(nèi)容的刷新是非常重要的指標(biāo),我們這里面下了很大功夫,目前我們整個CDN的內(nèi)容刷新實現(xiàn)秒級刷新,把這個任務(wù)分發(fā)出去下一秒不會讓客戶看到這個內(nèi)容,我們做了DNS容錯,我們服務(wù)過程當(dāng)中發(fā)現(xiàn)有很多網(wǎng)民DNS配置錯誤,這樣訪問異常,我們通過技術(shù)評估和研發(fā),我們實現(xiàn)了DNS容錯的方案,即使用戶DNS的配置錯誤我們可以引導(dǎo)你到我們正確內(nèi)容上,還有協(xié)議優(yōu)化等問題,我不詳細(xì)說了。
 
最后說一下我們服務(wù)質(zhì)量體系,我們整個京東云運(yùn)維體系原來服務(wù)于京東商城的,我們歷經(jīng)多年的大促考驗,從技術(shù)來講和服務(wù)能力來講有很專業(yè)的服務(wù)能力,我們提供7乘24小時服務(wù),對客戶有需求促銷服務(wù)要求,我們可以提供專屬資源。我們目前做到80%的問題在客戶之前發(fā)現(xiàn),80%的問題在5分鐘之內(nèi)定位原因。
 
最后對整個服務(wù)運(yùn)營保障的技術(shù)能力蓋有規(guī)范流程,一系列的制度保障我們更好服務(wù)客戶,把我們服務(wù)商城大促的這種能力復(fù)制到我們客戶身上。從今年6.18的數(shù)據(jù)來看,最大量是常量四到五倍,我們整個資源非常充足的,客戶在我們這服務(wù)實際上可以得到充分的保障的。最后公布我們新的促銷的消息,我們目前在六個月內(nèi),向新用戶提供300GB的CDN國內(nèi)免費流量,大家感興趣可以掃描二維碼關(guān)注?!?/span>

責(zé)任編輯:王良地