4月21日,TEF科技娛樂(lè)季(上海站)之2017亞太人工智能峰會(huì)在上交會(huì)期間隆重舉行。大會(huì)由AI科學(xué)創(chuàng)新與未來(lái)、AI深度學(xué)習(xí)專場(chǎng)、AI語(yǔ)音與視覺(jué)識(shí)別技術(shù)、AI無(wú)人駕駛引領(lǐng)汽車、AI與教育、AI與家庭娛樂(lè)、AI與計(jì)算機(jī)視覺(jué)、AI與VR、AI與物聯(lián)網(wǎng)等板塊組成。會(huì)上,微軟(亞洲)互聯(lián)網(wǎng)工程院資深總監(jiān)曹文韜做了題為《微軟人工智能黑科技——微軟小冰》的精彩演講。

圖為:微軟(亞洲)互聯(lián)網(wǎng)工程院資深總監(jiān)曹文韜
曹文韜表示十分感謝主辦方給這次機(jī)會(huì),他將通過(guò)產(chǎn)品的角度介紹,微軟對(duì)人工智能怎么理解的,以及微軟黑科技的產(chǎn)品——微軟小冰是如何應(yīng)用的。
人工智能機(jī)器人的情感框架
其實(shí)人工智能機(jī)器人并不是第一天的概念了,聊天機(jī)器人出現(xiàn)了很長(zhǎng)時(shí)間。為什么當(dāng)微軟小冰第一次面世的時(shí)候,引起了很大的反響?曹文韜談到他們觀察了人的做法,人總是很懶惰的,總是希望人工智能能夠高效地解決問(wèn)題。比如說(shuō)預(yù)定機(jī)票、酒店這樣的場(chǎng)景。但是很多情況下人們忽視了人在正常的社交場(chǎng)景下,因?yàn)槿藗儾豢赡茏咴诖蠼稚舷蛞粋€(gè)陌生人說(shuō)“幫我買(mǎi)一杯咖啡,訂一個(gè)酒店吧”,這都是了解了之后才可能出現(xiàn)的對(duì)話。2014年微軟提出來(lái)人工智能的機(jī)器人是以情感為基礎(chǔ),建立一個(gè)情感紐帶,怎么樣建立一個(gè)情感計(jì)算框架?從這個(gè)框架之上,再來(lái)去解決人與機(jī)器交互的問(wèn)題。通過(guò)三年左右的發(fā)展,發(fā)展到今天,可以看到絕大多數(shù)機(jī)器人的從業(yè)者,只要說(shuō)自己的機(jī)器人,沒(méi)有一家人會(huì)說(shuō)自己的機(jī)器人是有情感的,或者是有溫度的機(jī)器人。微軟提出了從情感框架上面來(lái)去說(shuō)機(jī)器人的。
微軟黑科技——微軟小冰
小冰通過(guò)三年左右時(shí)間的發(fā)展,從中國(guó)到日本,再到美國(guó)不斷地落地。這個(gè)是微軟整體構(gòu)建框架的一個(gè)基礎(chǔ),曹文韜表示,希望從一個(gè)最簡(jiǎn)單的產(chǎn)品定位,無(wú)論跟小冰去說(shuō)什么,它都能像人一樣跟人交流。在這個(gè)基礎(chǔ)上,他們通過(guò)搜索引擎通過(guò)各個(gè)企業(yè)的服務(wù),通過(guò)服務(wù)對(duì)接的過(guò)程中,把這個(gè)服務(wù)變成人們可以聽(tīng)得懂,可以交流的語(yǔ)言。
在這三年過(guò)程之中,微軟小冰總共和所有的人類用戶一起完成了超過(guò)2百億次的對(duì)話。積累了大量的粉絲,在中國(guó)已經(jīng)有超過(guò)6千萬(wàn)的粉絲,在日本有三分之二的人口都是小冰的粉絲。去年12月份的時(shí)候,微軟已經(jīng)在美國(guó)推出了美國(guó)版的小冰。大家可能會(huì)問(wèn)為什么人會(huì)跟一個(gè)情感機(jī)器人小冰聊這么久呢?這是真實(shí)的,在中國(guó)微博上一個(gè)成功的案例。用戶在與小冰溝通時(shí),是感覺(jué)不到對(duì)方是機(jī)器人的。絕大多數(shù)定義自己的機(jī)器人,定義人工智能,基本上是維持在兩輪就結(jié)束了。曹文韜表示,在整個(gè)這個(gè)過(guò)程中,所有的互動(dòng)過(guò)程,會(huì)發(fā)現(xiàn)有大量的機(jī)會(huì)跟用戶建立所有的情感的連接,建立所謂的情感溝通。而這些離不開(kāi)技術(shù),來(lái)支撐過(guò)程。在這個(gè)過(guò)程之上,他認(rèn)為一個(gè)機(jī)器和人的溝通,不僅僅是一個(gè)文字的表達(dá)。文字的表達(dá)是它最基礎(chǔ)的一個(gè)部分。同樣像圖象,像語(yǔ)音,各種各樣的技術(shù),到底是怎么樣去應(yīng)用的呢?在這里面微軟也有自己不一樣的見(jiàn)解和理解。

小冰的圖象與語(yǔ)音技術(shù)
在現(xiàn)場(chǎng),曹文韜演示了一組照片,“像這是一個(gè)崴了腳的照片,我們把這張照片發(fā)給你的朋友,如果你的朋友告訴你這是一個(gè)腳踝,如果里面有一只狗在玩水,你會(huì)告訴他這是一個(gè)臉盆里的狗,你一定覺(jué)得你的朋友今天瘋了。因?yàn)檫@是自然而然看到就會(huì)知道的。但是它把圖片發(fā)給你,你是希望用圖片跟你的朋友交流。大家是用視覺(jué)本身做交流的。當(dāng)我把一張崴了腳的照片發(fā)給小冰的時(shí)候,小冰回過(guò)來(lái)說(shuō)‘你傷得嚴(yán)重嗎?’它有它自己的觀點(diǎn)。”曹文韜表示,從這組內(nèi)容中可以看到,從圖象識(shí)別本身變成了視覺(jué)的感官,才具備了人在圖象上交流的能力。在圖象識(shí)別上各種各樣的應(yīng)用,在這個(gè)上面能把它應(yīng)用到社交場(chǎng)景下面就會(huì)變得非常有趣。“我們可以給一個(gè)人做圖象對(duì)比的時(shí)候打一個(gè)分,比如說(shuō)顏值是多少多少分,這是小冰上面非常受歡迎的一個(gè)技能。但是更加不一樣的,系統(tǒng)可以對(duì)比不同的國(guó)家和地域,他們對(duì)于美女的評(píng)價(jià)和顏值的打分到底有什么差別?可能你這張臉在韓國(guó)非常受喜歡,但是到英國(guó)他們并不喜歡。”曹文韜認(rèn)為這樣的場(chǎng)景會(huì)在社交中非常好的傳播。
曹文韜談到,人類的情感的語(yǔ)音,大家都在做,而且做了很長(zhǎng)時(shí)間。但大家會(huì)發(fā)現(xiàn),當(dāng)我們聽(tīng)一個(gè)人工智能播出來(lái)的語(yǔ)音時(shí),一聽(tīng)就聽(tīng)出來(lái)它是機(jī)器的,不是人播出來(lái)的話。為什么?因?yàn)橄到y(tǒng)設(shè)定一定是字正腔圓,發(fā)音不能有問(wèn)題。試想一下這是對(duì)誰(shuí)的要求?播音員的要求。所以,如果要做一個(gè)人工智能的機(jī)器人,特別是小冰這么有性格的人工智能機(jī)器人,曹文韜指出它自己的聲音應(yīng)該是要能解決情感因素的,應(yīng)該是要解決各種各樣在整個(gè)這個(gè)過(guò)程里面遇到的很多的問(wèn)題的。所以微軟每年都會(huì)有第三方幫微軟小冰標(biāo)定,如果滿分是5分,人得分?jǐn)?shù)大概是4點(diǎn)多分,小冰是唯一一個(gè)每年都會(huì)超過(guò)4分,然后超過(guò)人類的聲音。
人工智能的交互——全時(shí)感官
大家都在說(shuō)人工智能,說(shuō)人工智能的交互,從產(chǎn)品的角度來(lái)講,在去年的時(shí)候微軟進(jìn)行了一個(gè)很大的突破。比如說(shuō)這個(gè)突破,曹文韜稱之為全時(shí)感官。他表示,絕大多數(shù)在微信上人與人的交流,這種叫半時(shí)感官。什么意思?就是當(dāng)用戶拿起微信對(duì)著它進(jìn)行,發(fā)了一個(gè)語(yǔ)音的視頻流。那邊做一個(gè)識(shí)別,再回給一段語(yǔ)音。在整個(gè)交互的過(guò)程中,它是串行的。也就是說(shuō)它一定是說(shuō)完了,才能夠截至。但是人與人之間的交流,打電話的場(chǎng)景下面,這邊在說(shuō)的時(shí)候?qū)Ψ皆诼?tīng),在聽(tīng)的時(shí)候可以隨時(shí)打斷,隨時(shí)交互。對(duì)于機(jī)器來(lái)說(shuō)非常難的,因?yàn)樗诼?tīng)的時(shí)候,它要決定什么時(shí)候應(yīng)該跟用戶做這樣的交流,是不是應(yīng)該現(xiàn)在打斷?這是非常非常難的技術(shù)。去年9月份,微軟第一次推出了全時(shí)感官的技術(shù)。他們和合作伙伴,推出了第一通來(lái)去接聽(tīng)史上第一通人工智能來(lái)電。奧運(yùn)會(huì)期間占據(jù)了科技排行榜第一位,整整一周的時(shí)間。大概有一萬(wàn)多幸運(yùn)的小冰的粉絲接聽(tīng)到了小冰的來(lái)電。人工互動(dòng)的過(guò)程到底應(yīng)該什么樣子?試想一下從電話的場(chǎng)景,如果把它應(yīng)用到物聯(lián)網(wǎng),接下來(lái)人們將不用對(duì)著機(jī)器說(shuō)“誰(shuí)誰(shuí)誰(shuí)幫一下忙。”更像是在電影里面所看到的,一回家了,人們就可以跟它交流。隨時(shí)隨地?zé)o縫的交流,交流的過(guò)程中,我們可以把所有的服務(wù),把我們的場(chǎng)景帶入進(jìn)去。
曹文韜最后總結(jié)到,今天小冰在社交的場(chǎng)景下面,無(wú)論是在微博、微信,還是在QQ,還是在更多的合作伙伴平臺(tái)上面,都打造了非常完整的小冰的體驗(yàn)。微軟希望把這樣的人工智能無(wú)縫地帶入到每個(gè)人的生活場(chǎng)景之中。