7月5日,阿里巴巴第一款人工智能音箱:天貓精靈X1正式落地。
此前界面新聞報(bào)道過(guò)這款人工智能音箱的定價(jià)、基本硬件參數(shù)。阿里人工智能實(shí)驗(yàn)室負(fù)責(zé)人陳麗娟告訴界面新聞?dòng)浾?,這款音箱除了市場(chǎng)上常見(jiàn)的內(nèi)容播出、提醒設(shè)置、鬧鐘天氣等,它在購(gòu)物場(chǎng)景上更會(huì)領(lǐng)先行業(yè)均值。比如,179.99美元的亞馬遜Echo在購(gòu)物上還是停留在以加入購(gòu)物車(chē)為主,而阿里的這款“天貓精靈X1”音箱已經(jīng)能夠完成從回溯購(gòu)買(mǎi)記錄、挑選下單到最后支付的整個(gè)過(guò)程。這主要得益于其搭載了內(nèi)置第一代中文人機(jī)交流系統(tǒng)AliGenie。這是阿里第一次正式發(fā)布智能音箱產(chǎn)品和中文人機(jī)交流系統(tǒng)。這款音箱的誕生也代表阿里對(duì)語(yǔ)音交互的重視,體現(xiàn)了其試圖搶占物聯(lián)網(wǎng)入口的企圖。
淘寶上的商品成千上萬(wàn),一款語(yǔ)音交互產(chǎn)品如何能挑選出消費(fèi)者想要的商品?陳麗娟表示,該款產(chǎn)品擁有“決策力”,它會(huì)學(xué)習(xí)消費(fèi)者的購(gòu)物習(xí)慣、了解用戶畫(huà)像,然后再進(jìn)行興趣推薦。阿里在電商領(lǐng)域長(zhǎng)期積累起來(lái)的技術(shù)優(yōu)勢(shì)可以直接用在語(yǔ)音交互場(chǎng)景下。
中美的居家環(huán)境有很大差異,所以直接將亞馬遜的Echo、蘋(píng)果的HomePod搬到中國(guó)市場(chǎng)來(lái)可能并不是很接地氣。美國(guó)人使用智能音箱頻率最高的場(chǎng)景是在廚房,做菜時(shí)需要訂一個(gè)倒計(jì)時(shí)等。到了國(guó)內(nèi)市場(chǎng),智能硬件設(shè)備千差萬(wàn)別、中國(guó)用戶更需要一個(gè)助手級(jí)的、對(duì)中文語(yǔ)音交互友好的“全能產(chǎn)品”。
語(yǔ)音交互拆解來(lái)看,可以分成語(yǔ)音識(shí)別、語(yǔ)音合成和自然語(yǔ)言處理等,每一個(gè)大塊又可以分成更細(xì)節(jié)的處理步驟。而國(guó)內(nèi)做語(yǔ)音行業(yè)的公司,多半停留在語(yǔ)音輸入法(如科大訊飛),或語(yǔ)音搜索。真正能將語(yǔ)音交互商用的仍十分有限。除了產(chǎn)品層面,自然語(yǔ)音處理技術(shù)(NLP)仍是人工智能行業(yè)最有挑戰(zhàn)的部分。
阿里正是看中了這樣的市場(chǎng)機(jī)會(huì)和行業(yè)風(fēng)口。
阿里人工智能實(shí)驗(yàn)室負(fù)責(zé)人陳麗娟是淘寶最早的一批產(chǎn)品經(jīng)理。按照阿里慣常的方法,這款人工智能音箱也是采用了“淘寶模式”,即對(duì)開(kāi)發(fā)者足夠友好,開(kāi)放API接口,接入各種智能設(shè)備和軟件App。這與蘋(píng)果的HomePod完全不同,蘋(píng)果公司為了安全考慮,要求所有接入Homekit平臺(tái)的設(shè)備都要裝入特殊的MFi芯片,這無(wú)意間抬高了硬件創(chuàng)業(yè)公司接入蘋(píng)果設(shè)備的成本。
據(jù)界面新聞?dòng)浾吡私?,阿里大生態(tài)環(huán)境的支持將成為這款音箱最核心的優(yōu)勢(shì)。在軟件層面,阿里音箱有阿里文娛體系下內(nèi)容的支持,比如優(yōu)酷的視頻內(nèi)容轉(zhuǎn)錄;目前第三方App在陸續(xù)適配,例如健身軟件Keep和喜馬拉雅FM等。在硬件上,有阿里智能IoE的接入,目前正在談得包括古北科技、涂鴉科技等;品類總量在100家以上。阿里大生態(tài)環(huán)境的支持將成為這款音箱最核心的優(yōu)勢(shì)。
阿里鼓勵(lì)用戶建立自己的“語(yǔ)音公眾號(hào)”,這部分更針對(duì)個(gè)人。在輔助的App里,用戶可以錄入自己的音頻文件,直接在后臺(tái)播放,未來(lái)還可能?chē)L試付費(fèi)模式。鼓勵(lì)用戶充分建立自己的語(yǔ)音信息,運(yùn)用到具體的場(chǎng)景里。
雖然這款產(chǎn)品的名字是掛在“天貓”下面的,但足夠可以看出阿里對(duì)于語(yǔ)音交互的重視。在這場(chǎng)幾乎所有互聯(lián)網(wǎng)公司都已經(jīng)入場(chǎng)的技術(shù)大戰(zhàn)中,阿里不希望落后。
在阿里巴巴技術(shù)團(tuán)隊(duì)中,流傳著這樣一句話:“阿里巴巴的商業(yè)掩蓋了技術(shù)光芒。”不論正確與否,至少這代表了阿里的技術(shù)自信。
阿里巴巴的語(yǔ)音識(shí)別技術(shù)早就存在,只是一直沒(méi)有對(duì)外公布。最早的應(yīng)用在客服體系中,因?yàn)榭头墙佑|語(yǔ)音最多的部門(mén),客戶每天會(huì)打電話進(jìn)來(lái),在客服的質(zhì)檢抽查中,人工質(zhì)檢效率低下,就需要語(yǔ)音技術(shù)識(shí)別、轉(zhuǎn)化成文字版本,這是語(yǔ)音技術(shù)的第一個(gè)應(yīng)用場(chǎng)景。
在天貓?zhí)詫欰pp中,都已經(jīng)嵌入了語(yǔ)音搜索功能,神馬搜索中也使用到了語(yǔ)音搜索技術(shù)。雖然識(shí)別的準(zhǔn)確率有待提高,但這些都表明,阿里的語(yǔ)音交互產(chǎn)品是多年積累下來(lái)的技術(shù),可以用在各個(gè)產(chǎn)品和場(chǎng)景中。
在接受采訪時(shí),陳麗娟強(qiáng)調(diào),阿里巴巴所采用的供應(yīng)商思必馳只是用了它六個(gè)麥克風(fēng)陣列的架構(gòu)設(shè)計(jì),語(yǔ)音交互是阿里的核心技術(shù)之一。在語(yǔ)料的搜集上,都是使用阿里生態(tài)各產(chǎn)品中的語(yǔ)料,淘寶有4.5億的月活,其中如果只有1%的使用語(yǔ)音搜索,其可訓(xùn)練語(yǔ)料都非??捎^;也有一些語(yǔ)料采用了眾包購(gòu)買(mǎi)的方式。
未來(lái),除了這款音箱,語(yǔ)音交互可能更多用于阿里生態(tài)中的購(gòu)物充值、汽車(chē)操作系統(tǒng)、TTS語(yǔ)音轉(zhuǎn)換(Text to Speech)等場(chǎng)景中。
在天貓精靈X1發(fā)布的同一天,百度也公布了基于自然語(yǔ)言處理的DuerOS語(yǔ)音系統(tǒng),這與阿里巴巴的語(yǔ)音交互系統(tǒng)Ali Genie形成正面競(jìng)爭(zhēng)。
在評(píng)價(jià)競(jìng)爭(zhēng)對(duì)手時(shí),陳麗娟說(shuō),“今天我們的天貓精靈大家手上就能拿得到,上手可用。但是DuerOS這個(gè)東西大家買(mǎi)過(guò)嗎?它的差距不光只是說(shuō)技術(shù)層面的,我們要把這個(gè)路都跑通,成功了才會(huì)有更多這樣的合作伙伴跟我們一起玩。”
這話更直白一點(diǎn),意思就是,盡管李彥宏已經(jīng)坐著有人駕駛的“無(wú)人駕駛汽車(chē)”在五環(huán)上上路,DuerOS距離完全可商用產(chǎn)品的面市還有一段時(shí)間。
阿里智能音箱是阿里巴巴人工智能實(shí)驗(yàn)室出手的第一臺(tái)商用產(chǎn)品,是語(yǔ)音交互能力的集中體現(xiàn)。
在最開(kāi)始,阿里并沒(méi)有想做一款語(yǔ)音硬件產(chǎn)品,因?yàn)橛布a(chǎn)品供應(yīng)鏈長(zhǎng)。但后來(lái)團(tuán)隊(duì)發(fā)現(xiàn)一款智能音箱涉及的關(guān)鍵環(huán)節(jié)太多,阿里放棄了完全代工的模式,轉(zhuǎn)而自主研發(fā)。整個(gè)研發(fā)周期前后跨度一年,最大的難點(diǎn)就在于每條鏈路都是單線的。
比如,麥克風(fēng)陣列里面需要密封,第一版產(chǎn)品密封性不好,稍微漏氣就會(huì)影響到ASR(自動(dòng)語(yǔ)音識(shí)別),ASR不準(zhǔn)確會(huì)進(jìn)一步影響到NLP(自然語(yǔ)言處理),進(jìn)而影響到全局,是一個(gè)線性增長(zhǎng)放大的蝴蝶效應(yīng)。
從2017年開(kāi)始,阿里巴巴正在不斷加強(qiáng)對(duì)人工智能的人力投入,挖來(lái)前南洋理工大學(xué)終身教授王剛,還找來(lái)亞馬遜資深主任科學(xué)家(Senior Principal Scientist)任小楓擔(dān)任人工智能團(tuán)隊(duì)iDST的副院長(zhǎng)和首席科學(xué)家等。
從組織架構(gòu)上,阿里的人工智能實(shí)驗(yàn)室組織劃分也更加明確。2013年前后成立的iDST是AI基礎(chǔ)技術(shù)研究機(jī)構(gòu),也是2016年成立的人工智能實(shí)驗(yàn)室(AI Labs)的前身,其研究成果來(lái)源于iDST的技術(shù)積累,并應(yīng)用于阿里巴巴的各個(gè)產(chǎn)品線。
在大框架上,實(shí)驗(yàn)室內(nèi)部分為終端實(shí)驗(yàn)室、硬件實(shí)驗(yàn)室、代碼實(shí)驗(yàn)室,并不是完全按照產(chǎn)品線劃分。以人工智能領(lǐng)域很重要的計(jì)算能力來(lái)講,在不同實(shí)驗(yàn)室里,計(jì)算能力又分為在云端計(jì)算和在終端上的計(jì)算能力。
AI實(shí)驗(yàn)室看起來(lái)更應(yīng)該從事底層技術(shù)研究,阿里巴巴也沒(méi)有太多硬件傳統(tǒng),更多定位于一家大數(shù)據(jù)驅(qū)動(dòng)的公司。在解釋阿里為什么會(huì)做硬件時(shí),陳麗娟這樣表述:“我們不想把它停留在實(shí)驗(yàn)室。AI應(yīng)該是具體的服務(wù),應(yīng)該給用戶帶來(lái)新的體驗(yàn)。哪怕淘寶第一版購(gòu)物體驗(yàn)很差,但相比于線下購(gòu)物,仍然能給用戶帶來(lái)不一樣的感覺(jué)。今天AI應(yīng)該是技術(shù)產(chǎn)品還是產(chǎn)品技術(shù),這是一個(gè)問(wèn)題。”