圖為 金山云金睛AI首席算法架構(gòu)師蘇馳博士
金山云的全方位內(nèi)容安全監(jiān)管
目前我國(guó)的網(wǎng)民已經(jīng)超過(guò)8億,互聯(lián)網(wǎng)的普及率接近60%,這也導(dǎo)致每天產(chǎn)生海量的網(wǎng)絡(luò)視頻的文本,其中不乏一些暗流,也就是所謂的黃色、恐怖、違規(guī)、或者是涉政敏感的內(nèi)容,所以內(nèi)容安全是整個(gè)企業(yè)的生死線也是國(guó)家監(jiān)管的紅線。
而針對(duì)這一現(xiàn)象,過(guò)去的解決方法主要以人工審核和用戶舉報(bào)為主,但是效果并不明顯,蘇馳介紹到:“金山云的內(nèi)容安全監(jiān)管是全方位的,包括文本、語(yǔ)音、圖像、視頻等。”
首先對(duì)于文字來(lái)說(shuō),金山云有大量的數(shù)據(jù)可以進(jìn)行語(yǔ)音分析和深度學(xué)習(xí)的處理,把涉政,色情、暴恐以及隱藏特別深晦的東西分析出來(lái)。
金山云“金睛”在云服務(wù)的豐富底層資源上,借助每日千萬(wàn)級(jí)海量圖片庫(kù)訓(xùn)練出精準(zhǔn)AI算法模型,對(duì)違規(guī)場(chǎng)景進(jìn)行精細(xì)化標(biāo)簽,目前分別支持80+低俗和色情場(chǎng)景、200+暴恐類標(biāo)簽識(shí)別、1200+敏感人物等六大違規(guī)場(chǎng)景的精準(zhǔn)識(shí)別,10億精標(biāo)數(shù)據(jù),毫秒級(jí)響應(yīng)速度,即發(fā)即審,免去平臺(tái)突發(fā)的內(nèi)容風(fēng)險(xiǎn)。
除此之外,金山云也開發(fā)了人臉識(shí)別系統(tǒng),包括主播黑名單和主播白名單,主播白名單有主播的身份庫(kù),直播的時(shí)候需要先進(jìn)行認(rèn)證。而一旦進(jìn)行了黑名單,通過(guò)人臉識(shí)別之后,直播的內(nèi)容將無(wú)法播放,這是對(duì)于直播平臺(tái)主播實(shí)時(shí)的監(jiān)控系統(tǒng)。
不僅如此,圖像和視頻處理完之后還將通過(guò)相關(guān)的語(yǔ)音識(shí)別技術(shù),看看有沒(méi)有主播詐騙的信息,語(yǔ)音轉(zhuǎn)寫時(shí)有無(wú)敏感詞等等。
圖像分類和OCR文字識(shí)別技術(shù)
先前講到內(nèi)容監(jiān)管應(yīng)該怎么做,但是遇到問(wèn)題時(shí)該怎么解決呢?目前每天在互聯(lián)網(wǎng)上都會(huì)有黃色和恐怖的圖片,但是樣本非常小,其次標(biāo)簽規(guī)也不統(tǒng)一。蘇馳介紹說(shuō):“金山云采用的是圖片分類技術(shù)為多模態(tài)分析,該技術(shù)同時(shí)針對(duì)包括圖像、文本和語(yǔ)音,只要這三條有一條不合格就不行。”
說(shuō)到多模態(tài)分析,蘇馳以視頻舉例到:“我們對(duì)視頻進(jìn)行統(tǒng)一分析,首先得到圖片,我們會(huì)圖片分類過(guò)OCR產(chǎn)生文本,然后得到音頻信息,音頻信息要過(guò)音頻分類,這四塊處理之后我們只要找到一個(gè)進(jìn)行違規(guī)我們會(huì)輸出違規(guī)反饋給客戶,同時(shí)告訴客戶我們?cè)谀膲K進(jìn)行違規(guī),這個(gè)到底是因?yàn)槭裁丛蜻`規(guī)。”
另外開放數(shù)據(jù)帶來(lái)的問(wèn)題網(wǎng)絡(luò)圖片、分辨率、碼流、碼率完全不一樣,有可能特別小的手機(jī)截圖,或者是4K的截圖,或者是一個(gè)微信長(zhǎng)視頻的截圖,這塊我們?cè)趺刺幚?,我們?huì)有一個(gè)尺度判斷,來(lái)一張圖片之后我們對(duì)尺度判斷,通過(guò)判斷會(huì)把它放到不同的分辨率進(jìn)行預(yù)測(cè)的結(jié)果。
OCR文字的識(shí)別技術(shù)主要檢測(cè)的是長(zhǎng)視頻彈幕。蘇馳介紹到:“對(duì)于文本處理我們有多旋轉(zhuǎn)方向的文本檢測(cè)模型做訓(xùn)練,同時(shí)會(huì)采集生成達(dá)到千萬(wàn)量級(jí)的標(biāo)準(zhǔn)做文字檢測(cè)。”
精準(zhǔn)度+全維度的內(nèi)容監(jiān)管優(yōu)勢(shì)
金山云對(duì)于內(nèi)容監(jiān)管有核心優(yōu)勢(shì)體現(xiàn)在精準(zhǔn)的識(shí)別度以及全維度的解決方案,蘇馳表示:“我們訓(xùn)練數(shù)據(jù)級(jí)達(dá)到百億,無(wú)論是視頻直播、點(diǎn)播、軟視頻、資訊類的內(nèi)容我們都有不同場(chǎng)景的模型做專業(yè)的配置。”
不僅如此,金山云線下有專業(yè)的售后專家團(tuán),每天的日?qǐng)?bào),每周的周報(bào),每月的月報(bào)都會(huì)對(duì)公司業(yè)務(wù)進(jìn)行重新的修正。