Siri給全世界展現(xiàn)的,是一種更加「擬人化」,更加「生活化」的新的交互方式,盡管推出后并不如人們所期待的那樣聰明,但從那時開始,人類對于「語音交互能帶來怎樣的可能性」這個問題,開始有了更多的思考。
Amazon Echo讓人們認識到,原來在家庭生活當中,人們不用圍繞手機,也能夠擁有更智能化的體驗。
2017年,國內(nèi)互聯(lián)網(wǎng)公司們也開始了智能音箱的征途,從百度、阿里巴巴、京東,到小米、喜馬拉雅FM,眾多廠商相繼宣布要瞄準智能音箱發(fā)力,一系列新品也開始在市場出現(xiàn)。
智能音箱戰(zhàn)場已經(jīng)硝煙四起,它的「中國式玩法」究竟是什么?怎樣揚長避短尋找到正確的路徑理解國內(nèi)用戶和智能音箱的關系?這些問題在深圳米唐科技創(chuàng)始人&CEO宋少鵬看來,不單單是技術問題,更是用戶體驗差異的問題。要想找到答案,就必須了解中美環(huán)境的異同。
在極客公園Rebuild 2017大會上,宋少鵬和我們分享了如何從細節(jié)角度來看,中美智能音箱使用上的異同,從更深的角度去理解,中國人究竟需要什么樣的智能家居產(chǎn)品。
語音交互是交互進化的自然階段
在宋少鵬看來,在探討語音交互、人工智能這些話題之前,首先要討論的是Amazon Echo成功的一些必備因素,因為這些要素當中包含了三個問題:
為什么是語音交互而不是其它交互方式進入到人們家庭當中?
為什么智能音箱是從美國,從一個做電商的公司進行了落地?
中國和美國的差異,怎樣影響智能音箱的不同體驗?
為什么是語音交互?在宋少鵬看來,這是由人機交互演進之后的自然選擇,因為它意味著交互成本降低,他舉出了兩個例子:
第一,如果你想算2 的10次方減1,在鼠標、鍵盤、觸摸、語音四中交互環(huán)境下,完成這個交互時間最少的,就是語音交互。因為語音交互所需要消耗的能量更少,人們完成這個交互所需要付出的成本更低。
第二,在古代,熱愛音樂的人去欣賞音樂,需要駕著馬車到音樂廳或者歌劇院。后來留聲機的發(fā)明使人們可以躺在家里聽音樂。面到了iPod,大家可以把1000首歌裝進口袋,手指一滑,就可以欣賞喜歡的音樂。到2014年 Amazon Echo發(fā)布智能音箱,人們只用動動嘴就能得到自己想要的音樂,這意味著能量消耗進一步減少。
所以說,語音交互降低了人跟物理世界交互所需的能耗。這個趨勢符合產(chǎn)品迭代的趨勢。
基于這樣的判斷,宋少鵬創(chuàng)立了Sugr米唐科技,從2013年開始研究音頻產(chǎn)品的互聯(lián)網(wǎng)化,從語音、觸摸、體感等多種方式降低人們獲取音樂的能耗。
而到了2014年,Amazon Echo和 Alexa的發(fā)布,解決了人們需要的語音交互的很多問題。于是Sugr主動擁抱Alexa平臺,成為國內(nèi)第一個經(jīng)過Alexa認證的智能音箱產(chǎn)品。
從小眾走向剛需的智能音箱
說到第二個問題:為什么智能音箱從美國,從一個做電商的公司進行了落地?宋少鵬和他的團隊從2014年就開始運營自有品牌的音箱產(chǎn)品,通過用戶訪談,以及后臺數(shù)據(jù)發(fā)現(xiàn)了一些規(guī)律:中國的音樂消費者跟美國的音樂消費者在消費習慣上有很大的不同。
美國的音樂消費者是成長于汽車上的黃金一代,汽車上都配備收音機,所以他們的音樂消費是從聽收音機開始的。大家習慣了這種背景式的、實時存在式的播放,在任何一個生活場景里面都會有音樂存在,這種情況下,他們更傾向于流媒體音樂形式。
而說到中國的音樂消費者,最初接觸音樂是源于80年代初期改革開放,港臺音樂以盒帶和卡帶形式大量流入內(nèi)地,所以大家接觸音樂是一個歌手的完整專輯,里面有各種各樣的曲風,但很少有合集和混編。
這樣的不同其實就在我們兩地的音樂APP上有了體現(xiàn),宋少鵬以Spotify和 QQ音樂做了類比:
搜索在QQ音樂始終是一級菜單,在最顯眼的地方,最方便用戶搜索。在Spotify上你要到二級菜單才能完成搜索的功能。
封面、歌詞在QQ音樂屬于非常顯著的位置,非常多的視覺信息,而在Spotify里沒有。
因為美國人對音樂的剛性需求,他們對于流媒體音樂的使用習慣,所以在智能音箱為大家提供語音交互的時候,用戶對于語義理解的要求反而沒有那么高,點播歌曲的頻度沒有那么多。
當我們再看Amazon Echo在北美剛開始的成功,其實就在于Amazon Echo首先解決了家庭環(huán)境聽音樂的痛點,可以讓音樂一天不停地播放,使得Amazon可以以MVP(minimum viable product,最小化可實現(xiàn)原型)的形式,拿出一款產(chǎn)品來迅速交付消費者并進行迭代。
這之后Amazon Echo進入了一個快速迭代的流程,開始迭代服務、信息,比如說天氣、交通等等,這樣使他的服務越來越豐富,也使得用戶的黏性越來越高。
音箱本來是被動播放音樂的產(chǎn)品,人工智能和語音助手的植入使它成為一個主動獲取信息、獲取音樂,成為一個流量的入口。慢慢地,技術的迭代使得它開始加入了家居其他產(chǎn)品的控制功能,逐步成長為家居的中控,這樣就有了無比巨大的想象空間。
這也就解釋了為什么幾乎所有的互聯(lián)網(wǎng)巨頭,包括Google、亞馬遜、微軟、蘋果都進入了這樣一個產(chǎn)品競爭的賽道。
智能音箱落地中國還缺什么
盡管宋少鵬和他的團隊開發(fā)出的產(chǎn)品早已進入了亞馬遜的Alexa認證體系,成為亞馬遜平臺上第一個通過認證的來自中國的智能音箱。但智能音箱在中國應該給用戶提供什么樣的服務?仍是他思索的問題。
中美消費者對于音樂消費的DNA是不同的,所以在中國,點播會是一個非常強的需求,是一個常態(tài),點播所帶來的技術上的需求會更加急迫,它包括更強大的語義理解能力,更豐富、更深入的音樂知識圖譜,以及更完善的音樂版權和曲庫。
另外,中國人家庭環(huán)境和美國也有區(qū)別,通常都是壁掛式或者是落地式的空調,每一個空調都有單獨的搖控器,這就決定了如果音箱作為一個智能家居的中控,它對于空調的接口、控制場景和體驗是不同的。
這樣的場景還有很多,包括廚房、臥室等等,也正因為不同的場景,因此所帶來的用戶需求一定是不同的。
所以在宋少鵬看來,在中國做智能音箱一定不能復制Echo的路徑,而是要找到我們真正消費者的需求,落實消費者的場景,來解決我們自己的問題。
宋少鵬和他的團隊做出了Sugr Sense方案,這是一個完整的智能音箱解決方案,它包括了麥克風和麥克風陣列的處理技術,里面有去回聲、去噪音、聲源定位、語音喚醒等等技術特征。這其中有一套單麥克風的解決技術,是目前全球唯一一套可以通過Amazon嚴格測試并認證的單麥克風解決方案,不但可以降低行業(yè)門檻,還可以提升整個行業(yè)的效率。
這項單麥克風解決方案在Amazon的測試環(huán)境里擁有不錯的成績,在9 英尺的環(huán)境下(2.74米),普通辦公或者是家居環(huán)境下,喚醒響應率能達到100%,在9 英尺的距離,在設備自身播放音樂,AEC(自適應回聲消除)場景下,正確響應率達到了98%。
提到產(chǎn)品經(jīng)歷過Amazon的認證過程,宋少鵬提到,Amazon對于產(chǎn)品認證的環(huán)節(jié)非常考量,有多個環(huán)節(jié):
首先,認證從產(chǎn)品開箱體驗開始,事無巨細。
之后,官方會測試網(wǎng)絡的配置、喚醒的速度、燈效、光效、回答的效率、回答的準確率,甚至連APP的交互體驗都在測試范圍內(nèi)。
經(jīng)歷了這樣的過程,產(chǎn)品會接入Amazon,幫助合作伙伴把產(chǎn)品送到線上和北美線下的店鋪進行銷售,這樣是從認證-合作的整個過程。
所以,Amazon Echo的成功不僅僅在于提供給用戶一些方便的功能,更是從包裝到使用到售后的一套完整的用戶體驗,而在國內(nèi),經(jīng)歷這樣良性的過程,才能把握好產(chǎn)品對于產(chǎn)品和消費者之間的關系,這也許是智能音箱落地中國的重要因素。