首頁

5G開啟倒計時 AI內(nèi)容服務(wù)已進(jìn)入新賽道

2019-05-28 17:40:35 來源：

DVBCN 熱度:

　　2019年被譽(yù)為中國的“5G元年”，它將為視頻行業(yè)帶來巨大的改變。在5G技術(shù)的支撐下，傳輸速度較于4G將快百倍，高速度、泛在網(wǎng)、低功耗、低時延的5G優(yōu)勢將革新當(dāng)前的視頻產(chǎn)業(yè)。第七屆中國網(wǎng)絡(luò)視聽大會上，圍繞這一話題，金山云高級技術(shù)總監(jiān)韓博發(fā)表主題演講，重點(diǎn)闡述5G背景下，AI內(nèi)容服務(wù)產(chǎn)業(yè)隨著視頻生產(chǎn)、服務(wù)、消費(fèi)方式的升級，在技術(shù)演進(jìn)過程中的突破性進(jìn)展。

　　金山云高級技術(shù)總監(jiān)韓博在大會發(fā)表主題演講

　　AI內(nèi)容服務(wù)隨5G同行

　　5G網(wǎng)絡(luò)是信息基礎(chǔ)設(shè)施又一次全面升級，能為跨領(lǐng)域、全方位、多層次的產(chǎn)業(yè)深度融合提供堅實(shí)支撐。韓博表示，5G將促進(jìn)數(shù)字內(nèi)容制作、分發(fā)、呈現(xiàn)的全產(chǎn)業(yè)鏈升級。AI內(nèi)容服務(wù)作為貫穿視頻內(nèi)容生產(chǎn)全過程的重要“參與者”，已做好了迎接5G時代到來的準(zhǔn)備。

　　以金山云金睛為例，它基于金山云強(qiáng)大的云計算基礎(chǔ)資源能力和海量數(shù)據(jù)積累，專注于圖像識別、語音識別、多模態(tài)視頻分析、文本識別、人臉識別、行人車輛識別等人工智能領(lǐng)域的研究，提供跨行業(yè)、多場景的AI解決方案。在AI內(nèi)容服務(wù)方面，已覆蓋內(nèi)容生產(chǎn)、內(nèi)容風(fēng)控、內(nèi)容分發(fā)全環(huán)節(jié)。

　　“我們的生活不僅是一系列的靜態(tài)快照，而是隨著時間變化在現(xiàn)實(shí)世界動態(tài)發(fā)生事件，視頻內(nèi)容更是如此。內(nèi)容趨勢的變遷，同時也會推動人工智能技術(shù)的演進(jìn)?；诖耍鹕皆平鹁υ趩文B(tài)識別的基礎(chǔ)上，升級為多模態(tài)融合理解，以應(yīng)對5G時代低延時、高速率、龐大體量的AI內(nèi)容服務(wù)需求。”韓博介紹道。

　　多模態(tài)融合理解帶來認(rèn)知升級

　　多模態(tài)，簡單來說是相對于單一的視覺、語音、OCR識別等，將多個模態(tài)的信息結(jié)合起來，也就是視頻中的音視圖文內(nèi)容進(jìn)行綜合判定、理解。相比傳統(tǒng)單一的交互模式，多模態(tài)融合技術(shù)。表達(dá)效率和表達(dá)的信息完整度更高，是智能交互的發(fā)展趨勢。

　　韓博介紹，多模態(tài)融合理解技術(shù)可以對視頻內(nèi)容進(jìn)行精準(zhǔn)的場景識別、對象跟蹤、行為理解、圖文聯(lián)想等。比如基于單模態(tài)的圖像識別很難判斷出直播過程中，主播是在抽煙，還是在吃棒棒糖。但是基于多模態(tài)的視頻理解，我們可以通過將連貫主播的行為動作進(jìn)行分析，判斷是否有點(diǎn)煙行為，是否有吐煙行為，從而準(zhǔn)確的判斷主播是否在抽煙。

　　除此之外，在視頻內(nèi)容的生產(chǎn)過程中，多模態(tài)融合理解技術(shù)優(yōu)勢明顯。例如自動進(jìn)行語音轉(zhuǎn)寫，并且放到指定位置;實(shí)現(xiàn)智能BGM功能，根據(jù)視頻內(nèi)容自動推薦背景音樂;支持視頻特效功能，對應(yīng)視頻場景或者動作，給出視頻特效等。

　　相對于 AI 目前所展示出在圖像和語音領(lǐng)域的單一感知能力，視頻理解更加復(fù)雜，也更加困難，這體現(xiàn)在理解視頻是二者的疊加，實(shí)現(xiàn)多模態(tài)融合理解的背后，需要技術(shù)的突破。韓博在現(xiàn)場重點(diǎn)介紹了金山云金睛在多模態(tài)理解技術(shù)上的突破——AI算法團(tuán)隊通過訓(xùn)練超千萬個高質(zhì)量的短視頻，得到的具有很強(qiáng)的泛化能力的內(nèi)容理解模型和金山云金睛專利時序算法。

　　多模態(tài)融合理解必須全面捕捉視頻內(nèi)容中的時序信息。金山云內(nèi)容理解模型通過三維時空卷積(3D conv)和三維時空卷積長短時注意力循環(huán)神經(jīng)網(wǎng)絡(luò)(LSTM and Attention)來精細(xì)捕捉視頻單幀圖片的局部與整體時空信息。受人腦注意力機(jī)制的啟發(fā)，引入“時空注意力機(jī)制”，使得模型可以聚焦關(guān)鍵幀、關(guān)鍵位置的信息，降低無關(guān)幀對模型性能的影響。整個模型不需要任何人工干預(yù)，輸入原始視頻，就可以得到最終的預(yù)測結(jié)果，整個模型精度高、速度快。

　　金山云金睛內(nèi)容識別已經(jīng)全面運(yùn)用多模態(tài)視頻識別技術(shù)進(jìn)行視頻內(nèi)容處理，可以更加精準(zhǔn)的理解視頻內(nèi)容，幫助內(nèi)容平臺快速、精準(zhǔn)審核視頻內(nèi)容，以及對視頻進(jìn)行精準(zhǔn)的標(biāo)簽分類和特征提取，用于內(nèi)容推薦和分發(fā)。為平臺優(yōu)質(zhì)內(nèi)容產(chǎn)出、打通作者和用戶間壁壘，實(shí)現(xiàn)平臺差異化布局夯實(shí)了技術(shù)基礎(chǔ)。

下一篇：未來電視肖云：5G＋視頻成趨勢，助用戶回流到智能大屏上一篇：金山云構(gòu)建“超清+高速”全新服務(wù)生態(tài) 助力5G新視界

責(zé)任編輯：

5G AR VR

相關(guān)推薦

2.5G移動網(wǎng)絡(luò)的流媒體技術(shù)發(fā)展分析

一、現(xiàn)狀分析在手機(jī)增值業(yè)務(wù)市場，短信、彩信、彩e等雖然有了交互、24小時不間斷等不同于傳統(tǒng)媒體的特點(diǎn)，但傳輸?shù)闹饕庆o態(tài)為主的圖像和文字內(nèi)容，影響了其媒體作用的充分發(fā)揮。隨著最終用戶需求的提升，如何更好地融合聲音、文字、圖像，支持多媒體功能，既發(fā)揮短信方便、快捷的優(yōu)點(diǎn)，又可以彌補(bǔ)短信形式單調(diào)的不足，真正使移動用戶”振聾發(fā)聵"，進(jìn)入一個有聲有色、逼真形象的美麗世界成為移動運(yùn)營商普遍關(guān)心的話題。流媒體（StreamingMedia）的出現(xiàn)改變了這種狀況。它不需要下載整個文件就可以在向播放器傳輸?shù)倪^程中一邊下載一邊播放，實(shí)現(xiàn)了在網(wǎng)上點(diǎn)播或觀看電影、電視的夢想?，F(xiàn)在，以”流”的形式進(jìn)行數(shù)字媒體的傳送，

eSilicon 與 MIPS 宣布28 納米下1.5GHz處理器集群

尊敬的媒體朋友：最大的獨(dú)立半導(dǎo)體價值鏈制造者(valuechainproducer，VCP)eSilicon公司，以及業(yè)界標(biāo)準(zhǔn)處理器架構(gòu)與內(nèi)核的領(lǐng)導(dǎo)廠商MIPS科技公司共同宣布，已采用GLOBALFOUNDRIES的先進(jìn)低功率28納米SLP制程技術(shù)，在GLOBALFOUNDRIES位于德勒斯登(Dresden)的Fab1進(jìn)行高性能、三路微處理器集群的流片，預(yù)計明年初正式出貨。SoC設(shè)計已可立即開始。MIPS科技提供以其先進(jìn)MIPS32®1074Kf™同步處理系統(tǒng)(C

5G卡位戰(zhàn)：下一個十年通信的預(yù)備賽

兩年之前我們剛開始相關(guān)研究的時候，還沒什么人愿意談5G?，F(xiàn)在我很高興看到越來越多的公司加入進(jìn)來了。歐盟METIS 5G項(xiàng)目總體負(fù)責(zé)人，來自...

5G時代的CDN將會是什么狀態(tài)？

欧美色图 亚洲|野外口爆视频国产|久久精品视频观看|97精品人人抽插

5G開啟倒計時 AI內(nèi)容服務(wù)已進(jìn)入新賽道

相關(guān)推薦

欧美色图亚洲|野外口爆视频国产|久久精品视频观看|97精品人人抽插