主持人:請您簡單介紹一下七牛AI實(shí)驗(yàn)室的情況。
彭垚:這個實(shí)驗(yàn)室是2016年年初的時候建立的,因?yàn)槠吲T粕嫌袕V大富媒體互聯(lián)網(wǎng)用戶的UGC內(nèi)容,所以我們以內(nèi)容安全審核為需求建立了AI實(shí)驗(yàn)室。后來已經(jīng)接入了更多創(chuàng)新型的應(yīng)用和擴(kuò)展到傳統(tǒng)行業(yè),包括公安、政府運(yùn)營城市規(guī)劃管理和電視臺內(nèi)容的媒資管理。我們的實(shí)驗(yàn)室成長速度非常快,研究團(tuán)隊已超過100人。
主持人:七牛云AI團(tuán)隊在ACM國際多媒體會議的LSVC競賽中取得第二名的成績,這個成績對七牛云來說有什么樣的收獲?
彭垚:這個競賽是我們實(shí)驗(yàn)室第一次參加學(xué)術(shù)性的會議,之所以參加是因?yàn)槲覀儼l(fā)布了一篇大規(guī)模短視頻分類的大規(guī)模學(xué)習(xí)平臺的論文,內(nèi)容包括我們用自己的一套算法框架解決大規(guī)模的視頻分類的需求問題。這個競賽我們最后拿了第二名,和第一名差零點(diǎn)幾分,但第一名的方法耗費(fèi)資源非常大,我們的方法相對更輕量一些,我認(rèn)為這算是中國計算機(jī)識別在國際學(xué)術(shù)方面比較大的突破。今年我們還會在視頻分類基礎(chǔ)上再投入更多的研究。
主持人:您剛才提到您對大規(guī)模視頻分類有所研究,您還可以再具體談?wù)剢幔?/strong>
彭垚:關(guān)于大規(guī)模視頻分類,大家可以理解為一個圖像更多是空間信息,它可能有三通道的圖像在空間上表示的信息,但視頻內(nèi)涵內(nèi)容非常多。首先它有圖像空間上的內(nèi)容,第二,還有時間上的積累和時間序列的內(nèi)容??臻g圖像加時間序列,本身就是一個能夠得出更多信息的方法。當(dāng)然兩個圖片之間有一個變化,就是會計算光流,類似于光走向的方向,這也是非常重要的信息。我們常常用這種信息再通過時間上的變化抓整個光流的變化,以此知道整個行為。
此外,如果視頻里因?yàn)橛斜尘耙魳坊蛘哒f話聲音,我想識別視頻到底是聚會還是婚禮,看畫面中的人是很難區(qū)別的,還需要更多的信息才能識別出來。在這個區(qū)別上聚會是非常嘈雜的音樂背景,婚禮則會聽到比較正規(guī)的結(jié)婚進(jìn)行曲的音樂,通過這樣的信息就可以識別出來。當(dāng)然視頻里還有很多信息,比如通過文本的一些識別,看到這個視頻里寫了“生日快樂”就是在過生日。
視頻識別是AI認(rèn)知整體能力的體現(xiàn),不是傳統(tǒng)的計算機(jī)視覺、而是把視覺,語音識別,文字文本的理解都放進(jìn)去,從而融合起來的識別。
主持人:您如何看待視頻分類在實(shí)際業(yè)務(wù)中的應(yīng)用呢?
彭垚:視頻分類在實(shí)際業(yè)務(wù)應(yīng)用場景還是相對比較多的,比如在互聯(lián)網(wǎng)的短視頻平臺上,每天有上萬或者幾十萬的視頻,通過這些方法做分類,標(biāo)注所有視頻內(nèi)容的時候就會知道每個用戶喜歡什么,或者每天在拍什么。媒體發(fā)展到最后一定是個性化的過程,我看到的東西都是我相對比較喜歡看的,我的平臺推給他的內(nèi)容也是我認(rèn)為比較好的,所以對視頻的理解和分類是非常重要的環(huán)節(jié)。
推薦閱讀:【CCBN專訪】七牛云呂桂華:廣電行業(yè)增強(qiáng)互聯(lián)網(wǎng)思維是當(dāng)務(wù)之急