5月17-18日,2017亞太OTT/IPTV生態(tài)大會在北京隆重召開。在18日下午舉行的“IPTV新業(yè)務(wù)發(fā)展論壇”上,上海星紅桉數(shù)據(jù)科技有限公司營銷中心總經(jīng)理、副總裁郭碩帶來了《星紅桉的大數(shù)據(jù)之路》的精彩演講。

圖為上海星紅桉數(shù)據(jù)科技有限公司營銷中心總經(jīng)理、副總裁 郭碩
為數(shù)據(jù)分析而生 碩果累累
據(jù)郭碩介紹,星紅桉成立于上海,第一個數(shù)據(jù)平臺建設(shè)始于2013年新疆天山云大數(shù)據(jù)平臺;截止到15年8月,已經(jīng)為10家以上的有線電視提供數(shù)據(jù)服務(wù);2015年12月開啟IPTV業(yè)務(wù)之旅,為山東IPTV提供數(shù)據(jù)分析服務(wù);2016年4月為廣西IPTV提供數(shù)據(jù)服務(wù);2016年5月為大象融媒提供數(shù)據(jù)服務(wù);2016年8月為為河北IPTV提供服務(wù);2017年期待為更多的客戶提供數(shù)據(jù)服務(wù)。
一方面是巨大的數(shù)據(jù),另一方面是在大數(shù)據(jù)系統(tǒng)架構(gòu)進行的分析和商業(yè)應用。為什么這么說呢,因為一直以來,數(shù)據(jù)量和分析的元素一直都在。做大數(shù)據(jù)的目的就是讓業(yè)務(wù)表現(xiàn)的更佳,創(chuàng)造新的價值。
星紅桉大數(shù)據(jù)路徑——四部曲
星紅桉把數(shù)據(jù)定為4步,數(shù)據(jù)本身、從數(shù)據(jù)獲取信息、認知,然后是人工智能。

數(shù)據(jù)應用3大核心領(lǐng)域:創(chuàng)意與節(jié)目的匹配、廣告與內(nèi)容的匹配、內(nèi)容與人的匹配。

數(shù)據(jù)存儲3個層次
內(nèi)存數(shù)據(jù)庫集群(Redis)
分布式文件存儲(HDFS)
數(shù)據(jù)庫存儲
實例
每個用戶每天產(chǎn)生的數(shù)據(jù)量值,數(shù)據(jù)量值每個用戶平均每天產(chǎn)生1150條數(shù)據(jù),其中主動行為數(shù)據(jù)50條。按100萬用戶計算,每天產(chǎn)生數(shù)據(jù)11億5千萬條數(shù)據(jù),文件大小約75G。一個月平均產(chǎn)生340億5千萬條數(shù)據(jù)。
根據(jù)實際測試,按照1分鐘心跳,根據(jù)57萬實時在線戶數(shù)高峰期實測,單臺采集每秒流量為2MB/s,考慮做1.2倍冗余,計算所需帶寬如下:100萬實時在線戶數(shù)高峰期帶寬需求:(100/57)*(2*1.2)*8*7=236M。
郭碩表示,他們每天為8個百萬用戶以上量級的系統(tǒng)提供服務(wù)。

數(shù)據(jù)的ETL
目標:通過對數(shù)據(jù)的清洗、分析、審核工作,建立一套可以被信賴的數(shù)據(jù)集。
實例:74G數(shù)據(jù)寫入分布式文件系統(tǒng)需30分鐘左右,處理到業(yè)務(wù)單元時間為8分鐘。
郭碩指出,ETL的過程代表對業(yè)務(wù)本質(zhì)的認知。是最基礎(chǔ)的一步。此過程都圍繞這一件事情做“整合”。此外星紅桉還提供咨詢報告,我們服務(wù)的客戶,每周、每月都出服務(wù)的報告。
演講最后,郭碩補充到,沒有大數(shù)據(jù)能離開人工智能,分支亦然。星紅桉也在進行第一步探索,包括產(chǎn)品往運營商輸送,把整個的數(shù)據(jù)做成一款產(chǎn)品,打通直播、點播平臺,通過讓用戶更好的選擇想看的東西,把實時收視率結(jié)合上節(jié)目單,結(jié)合一些數(shù)據(jù)去做排行,用戶可以基于這個排行選擇節(jié)目。
星紅桉將讓電視更貼心!
責任編輯:王剛