亞馬遜、微軟、三星、谷歌、蘋(píng)果等公司都在爭(zhēng)奪智能家居交互入口的躍進(jìn)道路上,巨頭圍獵之下,中國(guó)的大小公司所面臨的競(jìng)爭(zhēng)激烈程度可見(jiàn)一斑,而更殘酷的可能是,到最后這會(huì)是一場(chǎng) AI 技術(shù)之戰(zhàn)。
整個(gè)科技的變革帶來(lái)新一次紅利,我們也在思考是否有比觸屏更好的交互方式,經(jīng)過(guò)一段時(shí)間的研究,我們認(rèn)為語(yǔ)言是下一代交互的自然方式。」阿里巴巴人工智能實(shí)驗(yàn)室負(fù)責(zé)人淺雪(本名陳麗娟)在發(fā)布會(huì)上說(shuō),「另一方面,智能音箱是一個(gè)產(chǎn)品線很長(zhǎng)的產(chǎn)品,任何一個(gè)環(huán)節(jié)出現(xiàn)問(wèn)題,整個(gè)音箱的體驗(yàn)都會(huì)很差,這是阿里自己做音箱的重要原因。
阿里巴巴人工智能實(shí)驗(yàn)室負(fù)責(zé)人淺雪
7 月 5 日,在位于北京鼓樓的時(shí)間博物館,阿里巴巴 Ai Labs 舉辦「未來(lái),開(kāi)口即來(lái)」新品發(fā)布會(huì),宣布推出該部門(mén)第一款自主開(kāi)發(fā)的智能音箱「天貓精靈 X1」,其售價(jià)僅為 499 元。如此前機(jī)器之心的報(bào)道,它能夠理解中文語(yǔ)音指令,通過(guò)語(yǔ)音交互實(shí)現(xiàn)購(gòu)物、播放音樂(lè)音頻內(nèi)容、玩游戲、查天氣、問(wèn)百科、充話費(fèi)、控制天貓魔盒等功能,短期內(nèi)僅面向中國(guó)市場(chǎng)發(fā)售。
作為淘寶網(wǎng)第一代產(chǎn)品經(jīng)理,淺雪特別談到開(kāi)發(fā)音箱的產(chǎn)品設(shè)計(jì)理念:「在家庭環(huán)境下使用的一款產(chǎn)品,不應(yīng)該是外觀很大、只有大聲音的智能設(shè)備,這是我們對(duì)這款產(chǎn)品的第一個(gè)思考,另一方面,語(yǔ)音交互這種方式將無(wú)所不在,做得越來(lái)越小,才是語(yǔ)音交互助手終極追求方向。
阿里巴巴智能音箱技術(shù)揭秘
根據(jù)現(xiàn)場(chǎng)介紹,天貓精靈 X1 采用了首顆為智能語(yǔ)音行業(yè)開(kāi)發(fā)的定制芯片,在解碼、降噪、聲音處理、多聲道的協(xié)同等方面做了專門(mén)的優(yōu)化處理。針對(duì) AliGenie 需要進(jìn)行大量音頻處理、聲音合成的工作環(huán)境,定制芯片加入了獨(dú)立的 NEON 處理單元,NEON 技術(shù)可加速音頻和語(yǔ)音處理、電話和聲音合成等,從而帶來(lái)更優(yōu)秀的語(yǔ)音識(shí)別及音頻處理效果。值得一提的是,這款芯片面積減少 25%,功耗降低 32%,效率提高了 25%。
系統(tǒng)軟件方面,采用了一鍵聲波配網(wǎng)技術(shù),這讓天貓精靈 X1 不到 10 秒就能連上網(wǎng)絡(luò)。而配網(wǎng)對(duì)智能家居來(lái)說(shuō),非常有挑戰(zhàn)性,目前大部分產(chǎn)品配網(wǎng)時(shí)間平均大于 30 秒。
收音方案則采用了六麥克風(fēng)收音陣列技術(shù)。在頂部的六顆高靈敏麥克風(fēng)有助于收集來(lái)自不同方向的聲音,從而更容易在周圍的噪音中識(shí)別出有用的信息,來(lái)達(dá)到更好的遠(yuǎn)場(chǎng)交互效果。據(jù)了解,思必馳作為項(xiàng)目合作方,在這款音箱中提供了環(huán)形六麥陣列、語(yǔ)音識(shí)別、語(yǔ)音合成、回聲消噪及語(yǔ)音增強(qiáng)等前端技術(shù)解決方案。
作為提升天貓精靈 X1 理解力、執(zhí)行力和進(jìn)化力的關(guān)鍵系統(tǒng) AliGenie,集成了阿里巴巴積累多年的自然語(yǔ)言處理、人機(jī)交互等技術(shù)。淺雪介紹稱,「AliGenie 擁有用戶畫(huà)像、語(yǔ)境和上下文、同義詞、反義詞、上下位、口語(yǔ)化表達(dá)能力。我們通過(guò)數(shù)據(jù)算法格式,以計(jì)算、算法、數(shù)據(jù)三方面來(lái)呈現(xiàn)。計(jì)算層面使用了 FPGA 云端硬件定制化邏輯電路加速,進(jìn)行前端云端聯(lián)合優(yōu)化。在算法方面,具備語(yǔ)音特征表達(dá)能力,并首創(chuàng)了混合神經(jīng)網(wǎng)絡(luò),AliGenie 也學(xué)習(xí)了強(qiáng)化和隨機(jī)策略?!箯臄?shù)據(jù)上看,憑借阿里巴巴積累起來(lái)的一批獨(dú)有、海量的中文語(yǔ)料,AliGenie 目前認(rèn)識(shí)的中文實(shí)體已經(jīng)超過(guò)一億,但在維基百科上的中文實(shí)體還不到 1000 萬(wàn)。
不久前,為天貓精靈 X1 提供技術(shù)支持的團(tuán)隊(duì)也首次曝光了其自然語(yǔ)言處理成果。據(jù)了解,目前通過(guò)深度機(jī)器學(xué)習(xí),天貓精靈 X1 已兼容 20 個(gè)領(lǐng)域的自然語(yǔ)義理解。
基于聲紋識(shí)別技術(shù),天貓精靈 X1 實(shí)現(xiàn)了不少功能。首先,音箱能夠在家庭使用場(chǎng)景中識(shí)別 6 個(gè)人,并保證身份指向性,以提供良好的私密性。其次,用戶在發(fā)起購(gòu)物、充值等需求時(shí)說(shuō)出聲紋密碼,音箱就可以啟動(dòng)聲音識(shí)別系統(tǒng)進(jìn)行身份驗(yàn)證,并在確認(rèn)后完成交易。與亞馬遜 Echo 購(gòu)物功能不同的是,前者支持用戶把商品加進(jìn)購(gòu)物車,而天貓精靈 X1 可以通過(guò)聲紋驗(yàn)證直接支付。根據(jù)官方信息,阿里人工智能實(shí)驗(yàn)室正在對(duì)聲紋識(shí)別、聲紋購(gòu)、NLP 中文對(duì)話引擎等核心技術(shù)申請(qǐng)專利。
下一代交互入口陷入混戰(zhàn)
至此,這場(chǎng)由亞馬遜帶動(dòng)起來(lái)的語(yǔ)音交互中國(guó)巷戰(zhàn),已經(jīng)聚齊中國(guó)互聯(lián)網(wǎng)巨頭。除了通過(guò)自主研發(fā)與合作方式推出產(chǎn)品,也紛紛開(kāi)放自己的技術(shù)與服務(wù)實(shí)施生態(tài)化圈地運(yùn)動(dòng)。
AliGenie 系統(tǒng)不僅支持天貓精靈 X1,還擁有一個(gè)開(kāi)發(fā)者平臺(tái),將對(duì)開(kāi)發(fā)者開(kāi)放深度學(xué)習(xí)、自然語(yǔ)言處理、搜索 / 推薦算法、知識(shí)表示及推理問(wèn)答系統(tǒng)四個(gè)方面的核心技術(shù)。在分成方面,開(kāi)發(fā)者可以獲得全部收益,平臺(tái)在推廣期間不參與分成。
AliGenie 平臺(tái)主要面向四種類型的開(kāi)發(fā)者,包括內(nèi)容開(kāi)發(fā)者、應(yīng)用開(kāi)發(fā)者、智能家居開(kāi)發(fā)商和硬件生產(chǎn)商。不同的開(kāi)發(fā)者,可以通過(guò) AliGenie 創(chuàng)建技能,提供更多的語(yǔ)音服務(wù),如現(xiàn)場(chǎng)展示的應(yīng)用 Keep。
事實(shí)上,阿里巴巴的優(yōu)勢(shì)也包括內(nèi)容和應(yīng)用端,從淘寶網(wǎng)、天貓到支付寶等平臺(tái)可支持的日常商業(yè)服務(wù)眾多。目前,該系統(tǒng)除了包括音樂(lè)音頻、兒童教育、家居控制等方面的應(yīng)用入駐,該系統(tǒng)也接入 5 家酒店,并與美國(guó)最大玩具廠商美泰達(dá)成戰(zhàn)略合作,在智能家電方面支持 100 多個(gè)品牌。在這之后,阿里還會(huì)推出相關(guān)的阿里 AI 創(chuàng)新開(kāi)發(fā)者計(jì)劃。
不久前,騰訊云也推出騰訊云小微智能服務(wù)系統(tǒng),包含了硬件、skill、智能服務(wù)三大平臺(tái)。與幾大巨頭中最早推出音箱產(chǎn)品叮咚的京東、更專注于開(kāi)放語(yǔ)音交互底層技術(shù)的 DuerOS 相比,騰訊云小微不僅僅聚焦在語(yǔ)音層面,服務(wù)于包括智能音箱在內(nèi)的各類硬件產(chǎn)品以及機(jī)器人等,幾乎對(duì)標(biāo)于 Amazon 的 Alexa。在此前機(jī)器之心的采訪中得知,除了飛利浦電視、親見(jiàn)家庭語(yǔ)音助手等已經(jīng)亮相的產(chǎn)品外,其平臺(tái)已經(jīng)有 200 多家合作伙伴已經(jīng)在陸續(xù)接入,在騰訊云小微第一期「畢業(yè)生」中將有 30 多款針對(duì)不同場(chǎng)景的智能音箱與耳機(jī)、20 多款人形機(jī)器人、車載 HUD、大家電等產(chǎn)品,同時(shí)還有超市智能管理、樓宇監(jiān)控對(duì)講等應(yīng)用。而在騰訊公司執(zhí)行董事劉熾平在接受《The Information》采訪時(shí)透露,騰訊正在研發(fā)一款智能音箱,或在八月份發(fā)布。
一批仍然不可忽視的玩家,也都在不斷加碼。利用先發(fā)優(yōu)勢(shì),京東與科大訊飛于 2015 年 8 月合作推出的京東叮咚也已經(jīng)接入 100 多項(xiàng)互聯(lián)網(wǎng)服務(wù)并且擁有自主的開(kāi)發(fā)者平臺(tái),服務(wù)伙伴包括中通快遞、e 袋洗、百度地圖、京東通信、JIMI 機(jī)器人、有道云筆記。此外,叮咚還接入智能硬件平臺(tái)——京東微聯(lián),從而使用戶通過(guò)叮咚音箱的語(yǔ)音交互控制平臺(tái)上的家電產(chǎn)品,包括生活電器、廚房電器、空調(diào)、可穿戴設(shè)備等。在 2017 年 6 月的亞洲消費(fèi)電子展上,京東發(fā)布了叮咚智能音箱 Top 和叮咚二代,相比第一代產(chǎn)品,新產(chǎn)品新增了自定義喚醒詞、聲紋識(shí)別、第三方音箱擴(kuò)展、多種發(fā)音人等功能。
除了互聯(lián)網(wǎng)巨頭,傳統(tǒng) IT 廠商聯(lián)想集團(tuán)也進(jìn)軍智能音箱領(lǐng)域,在 2017 年 1 月,聯(lián)想在 2017 年國(guó)際消費(fèi)類電子產(chǎn)品展覽會(huì)上發(fā)布智能音箱,共配置了八個(gè) 360 度遠(yuǎn)場(chǎng)麥克風(fēng),并采用噪聲抑制與回聲消除技術(shù),使其能夠接收 16 英尺(5 米)以外用戶的語(yǔ)音命令。聯(lián)想的智能音箱擁有兩個(gè)版本,國(guó)內(nèi)版采用聯(lián)想研究院與思必馳共同研發(fā)的中文自然語(yǔ)義理解系統(tǒng),能進(jìn)行多輪語(yǔ)言自然互動(dòng)。海外版則集成 Amazon Alexa 云語(yǔ)音服務(wù)。
亞馬遜、微軟、三星、谷歌、蘋(píng)果等公司也都在爭(zhēng)奪智能家居交互入口的躍進(jìn)道路上,巨頭圍獵之下,中國(guó)的大小公司所面臨的競(jìng)爭(zhēng)激烈程度可見(jiàn)一斑,而更殘酷的可能是,到最后這會(huì)是一場(chǎng) AI 技術(shù)之戰(zhàn)。