3月21-25日,一年一度的
CCBN展會(huì)在北京隆重舉行,來(lái)自產(chǎn)業(yè)各個(gè)環(huán)節(jié)的企業(yè)紛紛在展會(huì)上為觀眾呈現(xiàn)了最新的產(chǎn)品技術(shù)和解決方案。在DVBCN&AsiaOTT-CCBN采訪間,廣州市誠(chéng)毅科技軟件開(kāi)發(fā)有限公司總經(jīng)理
邵山先生接受了DVBCN&AsiaOTT記者的專(zhuān)訪。
邵總表示,
誠(chéng)毅軟件與省網(wǎng)底層數(shù)據(jù)的聯(lián)系比較多,到目前為止誠(chéng)毅軟件用戶數(shù)超過(guò)6000萬(wàn),每天實(shí)時(shí)更新的數(shù)據(jù)大概100T,大數(shù)據(jù)目前并不熱,誠(chéng)毅軟件早在十幾年前做移動(dòng)通信時(shí)就有涉及到大數(shù)據(jù)方面的應(yīng)用,有通信的運(yùn)營(yíng)商在做精準(zhǔn)營(yíng)銷(xiāo)和KPI管理、流程預(yù)警等等其它主題,它給內(nèi)部服務(wù)。
今年的變化在未來(lái)更多是一種行業(yè)和行業(yè)間數(shù)據(jù)的跨界連接。比如房間與地理信息都可以整合到互聯(lián)網(wǎng)上面,多維度地加載到一起,所以數(shù)據(jù)之間的跨界,行業(yè)內(nèi)的應(yīng)用在未來(lái)的趨勢(shì)更加有吸引力,同時(shí)也帶來(lái)新的挑戰(zhàn)。
一、數(shù)據(jù)清理的現(xiàn)狀
2016年作為跨界元年,2016年開(kāi)始很多人都開(kāi)始研究,要把自己的數(shù)據(jù)跟更多有數(shù)據(jù)的人融合。大數(shù)據(jù)自身服務(wù)還遠(yuǎn)遠(yuǎn)沒(méi)到位,雖然跨界提了很多,但數(shù)據(jù)縱深的發(fā)展,現(xiàn)在廣電整個(gè)行業(yè)還是有問(wèn)題的,邵總認(rèn)為是它數(shù)據(jù)的準(zhǔn)確性,絕大部分?jǐn)?shù)據(jù)要通過(guò)整理和清理才能叫數(shù)據(jù),通過(guò)整理清理后的數(shù)據(jù)真正加工出來(lái)才能叫信息,所以很多數(shù)據(jù)是無(wú)效的,廣電到現(xiàn)在為止自身數(shù)據(jù)的清洗并沒(méi)有完成。
誠(chéng)毅軟件在做這方面清洗與甲方的配合,因?yàn)閱慰恳环矫孀霾坏?,誠(chéng)毅軟件在幾個(gè)數(shù)據(jù)清洗好的地方都是因?yàn)榧追降呐浜虾艿轿唬匾晹?shù)據(jù),有甲方的力量一起做這個(gè)事,技術(shù)手段才會(huì)得到形成。從技術(shù)角度來(lái)看,誠(chéng)毅軟件數(shù)據(jù)清理的60%到70%,能夠靠技術(shù)、自動(dòng)化、或人工化來(lái)得到實(shí)現(xiàn),但到70%為極限,剩下30%一定要甲方一起統(tǒng)計(jì),因?yàn)槔锩娴膬?nèi)容,如數(shù)據(jù)的來(lái)源、財(cái)務(wù)等結(jié)構(gòu)并不知道。
從現(xiàn)在來(lái)看,本身數(shù)據(jù)的規(guī)整清理是大數(shù)據(jù)到目前為止廣電最需要的,誠(chéng)毅軟件提供技術(shù)手段,廣電提供管理手段,按照這個(gè)規(guī)則來(lái)執(zhí)行,再進(jìn)來(lái)的數(shù)據(jù)不就不再是“臟數(shù)據(jù)”。從這個(gè)角度來(lái)看,本身的清理和后期數(shù)據(jù)的灌入按照新的標(biāo)準(zhǔn),這是需要的。
誠(chéng)毅在廣電行業(yè)占有率很高,如果有相應(yīng)規(guī)范,大家聯(lián)合統(tǒng)一,出來(lái)的數(shù)據(jù)執(zhí)行新的標(biāo)準(zhǔn),就可以準(zhǔn)確定位用戶,現(xiàn)在很多盒子都帶Wi-Fi的,,如果把系統(tǒng)加以衍生的話理論上都可以定位到。邵山指出只要新的規(guī)范建立起來(lái)了,之后在執(zhí)行過(guò)程中誠(chéng)毅就可以發(fā)揮更大的作用,九成幾的數(shù)據(jù)都是比較準(zhǔn)確的,只是后期需要再注意一些小細(xì)節(jié),整個(gè)干凈程度就會(huì)大大提升。
二、內(nèi)容推送的精準(zhǔn)度應(yīng)該基于了解
在內(nèi)容推送方面,邵山便是,所有應(yīng)用基于了解,要有了解才能推送得準(zhǔn)確,廣電為什么在業(yè)界目前為止推送的準(zhǔn)確率(不高),他認(rèn)為內(nèi)部真正的數(shù)據(jù)是不超過(guò)20%,現(xiàn)在普遍最好的也就是12%到15%,也就是推薦10個(gè)片子,可能也就中一點(diǎn)幾的片子,推薦準(zhǔn)確率其實(shí)不是那么高。
邵山談到,現(xiàn)在最高的還是Netfilx做得好,它號(hào)稱自己的準(zhǔn)確率是75%,推薦四個(gè)片子,三個(gè)片子都能中。原因就是基于對(duì)這個(gè)客戶(的了解),因?yàn)樗那吧硎亲鐾扑偷?,用戶住在哪里、是什么人,系統(tǒng)都是了解的。而廣電做的推送在家庭之后沒(méi)有掛到個(gè)人上,有可能是小孩看,有可能是老人看,需要基于了解才能分析,現(xiàn)在廣電整個(gè)推薦準(zhǔn)確率不高就是基于了解程度還不夠深。
互聯(lián)網(wǎng)上,比如用戶是通過(guò)賬號(hào)登陸進(jìn)去的,但很多基礎(chǔ)信息不一定是真的了解到的,比如用戶會(huì)考慮在購(gòu)買(mǎi)智能電視機(jī)時(shí)要不要把信息登記得那么全,家里幾套房、在客廳看還是在臥室看,這些信息是不好獲取到的。推薦率不高,主要是因?yàn)閷?duì)客戶的了解程度不夠,所以推片準(zhǔn)確率不夠?,F(xiàn)在有什么解決辦法呢?它要通過(guò)模型訓(xùn)練,那就一定要積累什么時(shí)間點(diǎn)、什么帳號(hào)登陸(因?yàn)橛凶訋ぬ?hào)),慢慢訓(xùn)練模型,跑一段時(shí)間我們就能確定出來(lái)客戶的畫(huà)像,有了畫(huà)像、知道了喜好,推薦準(zhǔn)確率就會(huì)提高。各地標(biāo)準(zhǔn)都不一樣,互聯(lián)互通時(shí)對(duì)比數(shù)據(jù)也會(huì)存在問(wèn)題。而且現(xiàn)在條塊化帶來(lái)整個(gè)IT系統(tǒng)支撐的效率不是特別高。邵山認(rèn)為現(xiàn)在推薦準(zhǔn)確率的問(wèn)題主要還是處于跑基礎(chǔ)數(shù)據(jù)的階段性問(wèn)題。
三、人工智能與推送的結(jié)合
邵山表示因?yàn)楝F(xiàn)在推薦的東西跟人工智能有關(guān),目前誠(chéng)毅也專(zhuān)門(mén)設(shè)立了一個(gè)小組研究這一方面,通過(guò)深度學(xué)習(xí)、通過(guò)模型建立,來(lái)建立這方面(的技術(shù)),讓人的需求和內(nèi)容更加匹配,一定要通過(guò)智能的學(xué)習(xí)才能建立起來(lái)這個(gè)東西。這之中是需要測(cè)算的,內(nèi)容和需求匹配,其實(shí)這里面有很多深度學(xué)習(xí)的經(jīng)驗(yàn)。未來(lái)從推薦的角度來(lái)說(shuō)它肯定會(huì)不停地升級(jí),現(xiàn)在國(guó)內(nèi)在15%到20%左右。
在談到與其他企業(yè)合作時(shí),邵山表示也是想跟愛(ài)奇藝、騰訊、樂(lè)視探討模型建立的事宜,他認(rèn)為雙方思路肯定會(huì)存在不同,但沒(méi)關(guān)系,大家可以一起跑,跑出來(lái)以后互相借鑒。你有你的、我有我的,策略是這樣,讓大家通過(guò)自己的算法、自己的模型來(lái)跑。