2021年5月27日下午,國(guó)家廣電總局原副總工程師杜百川在北京國(guó)際會(huì)議中心舉辦的第二十八屆中國(guó)國(guó)際廣播電視信息網(wǎng)絡(luò)展覽會(huì)(CCBN)上做了題為《加快建立智慧廣電開(kāi)放算法平臺(tái)和評(píng)估體系》的主題報(bào)告。
以下為演講全文:
各位嘉賓下午好!下午說(shuō)了很多有關(guān)人工智能和大數(shù)據(jù)方面的應(yīng)用和發(fā)展,很令人振奮。但是人工智能的大數(shù)據(jù)也必須有相應(yīng)的評(píng)價(jià)體系,應(yīng)當(dāng)說(shuō)智慧廣電,我的理解是指利用算法、大數(shù)據(jù)、AI、物聯(lián)網(wǎng)、區(qū)塊鏈等新技術(shù)促進(jìn)廣電各方面工作的智能、高效、協(xié)調(diào)、高質(zhì)量發(fā)展。
剛才科大訊飛也說(shuō)了大數(shù)據(jù)和AI在整個(gè)行業(yè)都得到了廣泛的應(yīng)用,比如說(shuō)機(jī)器主持人、機(jī)器人撰稿、內(nèi)容和演員選擇、節(jié)目?jī)r(jià)值評(píng)價(jià),以及傳輸?shù)闹悄苈酚伞⒅悄苓吘?、智能分發(fā)、接收的智能操作系統(tǒng)、智能推薦,包括整個(gè)的智能運(yùn)維和安全都已經(jīng)用到了AI和大數(shù)據(jù)。但是AI的應(yīng)用越來(lái)越廣泛,正在影響全球商業(yè)和私人生活,涉及到巨大的機(jī)遇和風(fēng)險(xiǎn)。AI的許多技術(shù)活動(dòng),包括了網(wǎng)絡(luò)優(yōu)化、飲食安全、數(shù)據(jù)管理、語(yǔ)義互操作性以及所有領(lǐng)域,這些都必須要考慮人的因素,這里面包括這幾個(gè)方面。
第一,在AI使用當(dāng)中,包括倫理要求,比如說(shuō)電子衛(wèi)生保健,飲食安全。第二,通過(guò)對(duì)使用AI的系統(tǒng)進(jìn)行適當(dāng)?shù)臏y(cè)試和評(píng)估來(lái)確保安全性。第三,克服一些與AI相關(guān)的安全性問(wèn)題,就是有些算法是不透明的,你不知道在干什么,有時(shí)候會(huì)出現(xiàn)問(wèn)題。我們前面講的都是好的地方,實(shí)際上是有安全問(wèn)題的。第四是更好地管理和表征AI所使用的數(shù)據(jù),包括來(lái)自IoT的系統(tǒng)數(shù)據(jù)。為了加快廣電AI的應(yīng)用,可靠性和信任度,有必要建立開(kāi)放的廣電應(yīng)用算法平臺(tái)和建立健全的測(cè)試評(píng)價(jià)體系。
我們可以舉一個(gè)例子,歐盟在這方面,對(duì)AI要求以人為本,2019年4月,EC HLEG(高級(jí)別道德小組)發(fā)布了一系列“可信賴(lài)AI倫理準(zhǔn)則”,包括要求鼓勵(lì)在歐盟標(biāo)準(zhǔn)化路線(xiàn)圖中考慮七類(lèi)要求:可問(wèn)責(zé),人類(lèi)代理,技術(shù)穩(wěn)健性,隱私和數(shù)據(jù)治理,透明度,非歧視性和社會(huì)效益。歐洲議會(huì)的一項(xiàng)原則,算法問(wèn)責(zé)制和透明度的治理框架建議,創(chuàng)建一個(gè)用于算法決策的監(jiān)管機(jī)構(gòu),來(lái)定義可用于區(qū)分可接受的算法和不可接受的算法,以及可接受的決策系統(tǒng)和不可接受決策系統(tǒng)的指標(biāo)。并不是所有的AI都是可接受的。
2020年2月,EC的AI人工智能白皮書(shū)-“歐洲實(shí)現(xiàn)卓越和信任方法”確認(rèn)有必要對(duì)個(gè)人和整個(gè)社會(huì)進(jìn)行風(fēng)險(xiǎn)評(píng)估,支持傳統(tǒng)價(jià)值觀(guān)和基本權(quán)利,包括安全和賠償責(zé)任,以及消除種族和性別偏見(jiàn),有必要在當(dāng)前單獨(dú)工作的各個(gè)學(xué)科之間搭起橋梁。我們要有一個(gè)公共的平臺(tái),在這方面,我國(guó)的大數(shù)據(jù)立法,在國(guó)家層面已經(jīng)有了,但還不是很完善,國(guó)家層面除了在《中華人民共和國(guó)憲法》,《中華人民共和國(guó)網(wǎng)絡(luò)安全法》,《中華人民共和國(guó)民法總責(zé)》當(dāng)中有涉及個(gè)人信息和隱私保護(hù)條款,還有一些指導(dǎo)意見(jiàn)和行業(yè)規(guī)范意見(jiàn)當(dāng)中對(duì)數(shù)據(jù)安全保護(hù)提出了宏觀(guān)要求,比如說(shuō)國(guó)務(wù)院印發(fā)的《關(guān)于運(yùn)用大數(shù)據(jù)加強(qiáng)對(duì)市場(chǎng)主體服務(wù)和監(jiān)管的若干意見(jiàn)》,中國(guó)人民銀行制定并發(fā)布的《個(gè)人信用信息基礎(chǔ)數(shù)據(jù)庫(kù)管理暫行辦法》,國(guó)家網(wǎng)信辦制定的《個(gè)人信息和重要數(shù)據(jù)出境安全評(píng)估辦法(征求意見(jiàn)稿)》對(duì)我國(guó)境內(nèi)進(jìn)行個(gè)人信息和重要數(shù)據(jù)收集的網(wǎng)絡(luò)運(yùn)營(yíng)商提出了需進(jìn)行安全評(píng)估等要求。
地方層面,2017年浙江省發(fā)布《浙江省公共數(shù)據(jù)和電子政務(wù)管理辦法》,2018年貴陽(yáng)市發(fā)布了《貴陽(yáng)市大數(shù)據(jù)安全管理?xiàng)l例》,2020年深圳市印發(fā)《深圳經(jīng)濟(jì)特區(qū)數(shù)據(jù)條例(征求意稿)》,從個(gè)人數(shù)據(jù)保護(hù)、公共數(shù)據(jù)管理和應(yīng)用、數(shù)據(jù)要素市場(chǎng)培育、數(shù)據(jù)安全管理、法律責(zé)任等方面全面對(duì)自然人、法人和非法人組織數(shù)據(jù)的相關(guān)權(quán)益進(jìn)行了規(guī)范,并首次提出了數(shù)據(jù)權(quán)的概念。
國(guó)家層面的大數(shù)據(jù)的立法,是由信標(biāo)委來(lái)組織的,分成了管理、數(shù)據(jù)、技術(shù)、平臺(tái)工具,治理與管理,安全與隱私等方面,非常全面。人工智能方面,也提出了治理的方法和目標(biāo),也就是說(shuō),要堅(jiān)持科技造福人類(lèi),平衡發(fā)展和有效治理的關(guān)系,要求全面釋放人工智能帶來(lái)的紅利與價(jià)值。如何全面釋放,關(guān)鍵在于后面要精確防范,并應(yīng)對(duì)人工智能可能帶來(lái)的風(fēng)險(xiǎn),也只有控制好風(fēng)險(xiǎn),也就是只有你有剎車(chē),你的車(chē)才能開(kāi)得安全。已經(jīng)發(fā)布了多項(xiàng)大數(shù)據(jù)國(guó)標(biāo),大概有30多項(xiàng),我就不一一念了,非常全面,包括評(píng)估方面的,成熟度模型等等,總局也加強(qiáng)了大數(shù)據(jù)的合規(guī)管理。2020年4月,國(guó)家廣電總局發(fā)布了6號(hào)令《廣播電視行業(yè)統(tǒng)計(jì)管理規(guī)定》,該規(guī)定用于廣播電視主管部門(mén)依法調(diào)查、搜集、整理、研究和提供廣播電視、網(wǎng)絡(luò)視聽(tīng)節(jié)目服務(wù)統(tǒng)計(jì)資料,包括大數(shù)據(jù)統(tǒng)計(jì)資料,廣播電視行業(yè)的統(tǒng)計(jì)活動(dòng)。按照6號(hào)令,廣播電視主管部門(mén)應(yīng)當(dāng)依托大數(shù)據(jù)統(tǒng)計(jì)信息系統(tǒng),統(tǒng)籌收視收聽(tīng)率(點(diǎn)擊率),統(tǒng)計(jì)工作,對(duì)數(shù)據(jù)的采集、發(fā)布進(jìn)行監(jiān)督;任何機(jī)構(gòu)和個(gè)人不得干擾、破壞廣播電視主管部門(mén)依法開(kāi)展的收視收聽(tīng)率(點(diǎn)擊率)統(tǒng)計(jì)工作,不得制造虛假的收視收聽(tīng)率(點(diǎn)擊率)。
2020年4月廣電總局下發(fā)74號(hào)文和修訂版的《廣播電視和網(wǎng)絡(luò)視聽(tīng)統(tǒng)計(jì)調(diào)查制度》,明確統(tǒng)計(jì)對(duì)象和范圍為全國(guó)廣播電視和網(wǎng)絡(luò)視聽(tīng)行政事業(yè)單位、企業(yè)單位以及產(chǎn)業(yè)活動(dòng)單位。調(diào)查制度還規(guī)定調(diào)整了網(wǎng)絡(luò)視聽(tīng)節(jié)目服務(wù)、IPTV、互聯(lián)網(wǎng)電視(OTT)和短視頻等網(wǎng)絡(luò)視聽(tīng)報(bào)表,新增對(duì)產(chǎn)業(yè)基地(園區(qū))的統(tǒng)計(jì),并強(qiáng)化了高清超高清、智能終端等內(nèi)容。
同時(shí),2021年5月科技司制定和發(fā)布《網(wǎng)絡(luò)視聽(tīng)收視大數(shù)據(jù)技術(shù)規(guī)范第一部分:總體要求》第二部分,數(shù)據(jù)元素集,第三部分接口,《廣播電視和網(wǎng)絡(luò)視聽(tīng)收視綜合評(píng)價(jià)數(shù)據(jù)脫敏規(guī)則》,廣電對(duì)大數(shù)據(jù)標(biāo)準(zhǔn)制定了大數(shù)據(jù)集,跟剛才國(guó)家的類(lèi)似。同時(shí),也制定了大數(shù)據(jù)治理的框架,這個(gè)我就不一一詳細(xì)說(shuō)了。影視保護(hù)技術(shù)是隨時(shí)間進(jìn)步的,比如說(shuō)剛開(kāi)始是匿名化,在大數(shù)據(jù)時(shí)代加了去識(shí)別,到了AI和機(jī)器學(xué)習(xí)階段,有了影視增強(qiáng)。隱私保護(hù)相關(guān)問(wèn)題,也有一定的相關(guān)解決措施,有四個(gè)方面。第一個(gè)方面是數(shù)據(jù)偏見(jiàn),怎么來(lái)糾正,拒絕有些錯(cuò)誤的分類(lèi)。第二是采取對(duì)抗的辦法,這方面相應(yīng)標(biāo)準(zhǔn)是ISO/IEC的TR24028和24027。數(shù)據(jù)中毒,加強(qiáng)異常檢測(cè);數(shù)據(jù)消毒,對(duì)新加入數(shù)據(jù)進(jìn)行精確的檢查。第三是模式抽取,主要是PATE和誤導(dǎo)對(duì)手,這個(gè)也有相應(yīng)的標(biāo)準(zhǔn)。第四是隱藏或者是隱匿,我想辦法躲在你的數(shù)據(jù)里,采取的什么辦法呢?對(duì)抗訓(xùn)練和深度的池。實(shí)際上AI和數(shù)據(jù)的國(guó)際標(biāo)準(zhǔn),主要是由ISO/IEC/JTC1和SC42,一共有五個(gè)工作組,第一個(gè)工作組是基礎(chǔ)標(biāo)準(zhǔn),第二個(gè)是大數(shù)據(jù),第三個(gè)是可信任度,第四個(gè)是用例和應(yīng)用,第五個(gè)是AI系統(tǒng)的計(jì)算方法和技術(shù)特征。我們注意,這個(gè)工作組實(shí)際上名字是AI工作組,但是大數(shù)據(jù)是其中的一個(gè)分工作組。
各個(gè)工作組都制定了相應(yīng)的標(biāo)準(zhǔn),已經(jīng)頒布的就是我現(xiàn)在用粗體字表示的,都是近一兩年,2019年、2018年、2020年有關(guān)的標(biāo)準(zhǔn)。國(guó)內(nèi)剛才說(shuō)的那些標(biāo)準(zhǔn)也是相應(yīng)采取的。這里面就包括了去年頒布的可信任度的標(biāo)準(zhǔn)評(píng)估。第二個(gè)是評(píng)價(jià),神經(jīng)網(wǎng)絡(luò)魯棒性的評(píng)價(jià),有一系列的對(duì)AI算法和AI系統(tǒng)的評(píng)估。用例和應(yīng)用當(dāng)中也有一個(gè),用例已經(jīng)發(fā)過(guò)了,還有治理應(yīng)用,我就不再詳細(xì)說(shuō)了。
對(duì)于廣電來(lái)說(shuō),我們現(xiàn)在盡管大數(shù)據(jù)和AI得到了廣泛的應(yīng)用,但是也存在著不少問(wèn)題,比如說(shuō)很多地方都是獨(dú)立的投入,而且很多是相似的方案,這樣浪費(fèi)了投資。相對(duì)來(lái)說(shuō),訓(xùn)練的序列也比較少,所以范圍也小,迭代的機(jī)會(huì)不高,體量也不高,還缺乏廣電專(zhuān)用的大數(shù)據(jù)和AI應(yīng)用算法的開(kāi)放平臺(tái)。我們和訊飛合作,訊飛那兒有,但是廣電還有很多基礎(chǔ)應(yīng)用上沒(méi)有開(kāi)放的平臺(tái),算法各自也沒(méi)有迭代。廣電專(zhuān)用平臺(tái)能夠減少整體投資,擴(kuò)大訓(xùn)練規(guī)模和范圍,加速迭代升級(jí)速度來(lái)提高質(zhì)量。我們舉一個(gè)例子,GitHub是一個(gè)開(kāi)放的算法平臺(tái),包括騰訊,包括百度,都在這上面有,很多應(yīng)用范圍都可以直接利用他的算法,包括代碼直接進(jìn)行升級(jí)、運(yùn)算,同時(shí)也提高了平臺(tái)算法的進(jìn)步,增強(qiáng)了他的進(jìn)步。我一直想這個(gè)問(wèn)題,安卓開(kāi)始也是開(kāi)放平臺(tái),中國(guó)提供了很多促進(jìn)他的方式和方法,但是最后不讓我們用。GitHub現(xiàn)在都是公開(kāi)的,還是可以用,我們有這么大的用戶(hù)量,為什么我們自己不弄一個(gè)開(kāi)放平臺(tái)。
對(duì)于測(cè)試來(lái)說(shuō),最基本的測(cè)試,圖靈測(cè)試,我們可以看到,評(píng)估者不知道的一面墻,響應(yīng)A是人類(lèi),響應(yīng)B是機(jī)器,看看評(píng)估者能不能判斷是機(jī)器還是人,這是最基本的測(cè)試。
但是對(duì)于ICT生態(tài)系統(tǒng)支持的AI系統(tǒng)應(yīng)該包括這么幾個(gè)鏈條,第一是數(shù)據(jù)源,包括圖像、文字、IoT,第二個(gè)是計(jì)算環(huán)境,包括邊緣,包括云。第三個(gè)是AI引擎,或者是單獨(dú)的AI引擎,第四個(gè)是AI服務(wù)和應(yīng)用。對(duì)于AI和大數(shù)據(jù)的測(cè)試,也包括了這四個(gè)方面。
四個(gè)方面,因?yàn)锳I當(dāng)中總會(huì)存在一些失敗點(diǎn),對(duì)于任何AI系統(tǒng)的測(cè)試策略都必須仔細(xì)構(gòu)建來(lái)降低失敗的風(fēng)險(xiǎn)。為此,首先必須確定一個(gè)AI框架是處于哪個(gè)部分和階段,然后定義一個(gè)跨整個(gè)框架要采用哪些特定的測(cè)試技術(shù)的綜合測(cè)試策略,為確保AI系統(tǒng)正常發(fā)揮作用,一般有四種常見(jiàn)的測(cè)試。第一是基本認(rèn)知測(cè)試,就是單項(xiàng)測(cè)試,比如說(shuō)自然語(yǔ)言處理,語(yǔ)音識(shí)別,圖象識(shí)別,光學(xué)字符識(shí)別,根據(jù)不同的能力和應(yīng)用的要求給出相應(yīng)的指標(biāo),這是第一項(xiàng)測(cè)試。第二是AI平臺(tái)測(cè)試,比如說(shuō)華為的Atlas,百度的PaddlePaddle,騰訊的TI-ONE,IBM的Watson,Azure的ML Studio等等,這都屬于平臺(tái)。第三是基于ML的分析模型的測(cè)試。第四是AI驅(qū)動(dòng)的解決方案的測(cè)試。除了平臺(tái)測(cè)試以外,這三個(gè)測(cè)試都比較好理解,我們下面專(zhuān)門(mén)說(shuō)一下平臺(tái)的測(cè)試,實(shí)際上也包括了四個(gè)部分。
第一是數(shù)據(jù)源和整理測(cè)試。一要核查不同系統(tǒng)來(lái)的數(shù)據(jù)質(zhì)量——數(shù)據(jù)正確性、完整性和適合性,以及格式檢查、數(shù)據(jù)溯源和樣式分析。二要核查加到原始數(shù)據(jù)的轉(zhuǎn)換規(guī)則和邏輯,是不是能得到期望的輸出格式,任何性質(zhì)的數(shù)據(jù)、表格、純文本或者是大數(shù)據(jù),測(cè)試方法和自動(dòng)框架是不是都能起作用。核查輸出查詢(xún)或程序可提供想要的數(shù)據(jù)輸出,還有就是正面和負(fù)面的場(chǎng)景測(cè)試。第二是算法測(cè)試,這個(gè)我就不再詳細(xì)說(shuō)了。第三是API的完整性測(cè)試,核查每個(gè)API的輸入請(qǐng)求和響應(yīng),包括相應(yīng)對(duì)是不是完整,測(cè)試部件間通信,執(zhí)行API和算法的完整性測(cè)試。第四是系統(tǒng)和回歸測(cè)試。
歐洲對(duì)AI的測(cè)試框架制定了相應(yīng)的標(biāo)準(zhǔn),我們就不一一詳細(xì)說(shuō)了,希望我們能夠在不久的將來(lái)建立我們自己的測(cè)試平臺(tái)和相應(yīng)的評(píng)估辦法。謝謝大家!