思必馳DUI:追求智能語音體驗,打造高可用定制的語音交互平臺
思必馳成立于2007年英國劍橋高新區(qū),創(chuàng)始人均來自劍橋,2008年回國落戶蘇州;是國內(nèi)唯一擁有人機對話技術(shù),國際上極少數(shù)擁有自主產(chǎn)權(quán)、中英文綜合語音技術(shù)(語音識別、語音合成、自然語言理解、智能交互決策、聲紋識別、性別及年齡識別、情緒識別等)的公司之一。
去年9月,思必馳在北京發(fā)布了其擁有完全自主知識產(chǎn)權(quán)的DUI平臺。
DUI平臺集成的核心智能對話技術(shù)具有高度可定制性,實現(xiàn)了從本地端設(shè)備到云端服務(wù),從識別到合成,從語義到對話邏輯,從技術(shù)模塊到內(nèi)容資源的全方位定制支持。此外,平臺還為開發(fā)者提供大數(shù)據(jù)運維和后臺分析服務(wù),根據(jù)硬件配置和具體需求提供定制的增值服務(wù),可持續(xù)優(yōu)化用戶體驗,以一種“三方共贏”的方式構(gòu)建AI良好生態(tài)。
思必馳聯(lián)合創(chuàng)始人/首席科學(xué)家 俞凱
DUI平臺的發(fā)布會上,思必馳聯(lián)合創(chuàng)始人/首席科學(xué)家俞凱圍繞對話智能、流通、生長三個方面,從技術(shù)層面做了分享。
這次分享雖然是圍繞思必馳的產(chǎn)品,但內(nèi)容上值得智能語音行業(yè)乃至整個AI行業(yè)借鑒,以下我們對分享內(nèi)容進行了梳理與整合。
從語音到對話,這些年發(fā)生了很大的變化
這是個不斷變化的時代,從2013年到2018年,我們經(jīng)歷了從PC互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)到智能設(shè)備互聯(lián)的發(fā)展,交互方式也經(jīng)歷著從文本搜索、語音/文本對話、自然口語對話的變遷。
技術(shù)變革,從未停歇。在這段時間里,技術(shù)在不斷變革,深度學(xué)習(xí)的應(yīng)用進入了深水區(qū),當(dāng)下大家都認為的“深度學(xué)習(xí)+大數(shù)據(jù)”就是一切嗎?是的,是因為現(xiàn)在無論如何都缺少不了深度學(xué)習(xí)和大數(shù)據(jù);說不是,是因為單純的深度學(xué)習(xí)和大數(shù)據(jù),沒有專業(yè)化的支持和專業(yè)化的調(diào)整還不能發(fā)揮作用。
應(yīng)用變革,如雨后春筍。在技術(shù)驅(qū)動下,各類應(yīng)用如雨后春筍般誕生,在整個應(yīng)用的層面,關(guān)注對話,并且以對話為核心,有的是數(shù)據(jù)驅(qū)動,有的是專業(yè)技術(shù)驅(qū)動,有的是產(chǎn)品應(yīng)用驅(qū)動,此類公司越來越多,這是一個趨勢,趨向于專業(yè)化分工。
產(chǎn)業(yè)鏈變革,AI 及 AI+ 的專業(yè)分化進程加速。在產(chǎn)業(yè)鏈上的專業(yè)化分工更加明顯,促進其快速細分化。例如,在基礎(chǔ)層,芯片、大數(shù)據(jù)、云計算等成為基礎(chǔ)支撐;在交互層,語音、圖像、觸覺等成為交互方式的中流砥柱;在系統(tǒng)應(yīng)用層,汽車、家居、娛樂、醫(yī)療、教育、金融等各個領(lǐng)域在不斷接納與滲透。專業(yè)化的分工、專業(yè)化的結(jié)合已經(jīng)不可避免了。
對話智能:信息自由溝通的未來
俞凱從概念上進行了解析,指出對話不等于語音,對話是以人機交互為核心,包括各個模態(tài),對語義的理解,聲音、圖像、感知層面直接的編碼,以完整系統(tǒng)作為優(yōu)化目標的一種系統(tǒng)級合成,需要全面的技術(shù)創(chuàng)新能力。
對話具備更大的價值,讓產(chǎn)品實現(xiàn)自由的人機交互。思必馳是引領(lǐng)中國對話智能發(fā)展的領(lǐng)軍企業(yè)之一,自2013年起,在產(chǎn)業(yè)界最早系統(tǒng)性提出,并一以貫之的專注推進對話智能的概念、技術(shù)發(fā)展及應(yīng)用。2014年,思必馳發(fā)布了國內(nèi)第一個口語對話系統(tǒng)平臺"思必馳對話工場",開放底層的ASR、TTS、NLU等SDK接口。伴隨著業(yè)務(wù)轉(zhuǎn)型的進一步轉(zhuǎn)型,思必馳AIOS對話操作系統(tǒng)在國內(nèi)智能硬件領(lǐng)域得到了十分廣泛的應(yīng)用。為追求體驗升級,打造高可用定制的對話平臺,思必馳策劃并推出了DUI開放平臺。
封閉解決方案VS開放生態(tài)圈
毋庸置疑,語音交互已經(jīng)成為當(dāng)下智能產(chǎn)品的必備交互方式,多樣化的產(chǎn)品帶來了多樣化的需求,這為技術(shù)提供方帶來很大挑戰(zhàn)。例如,在對話上有命令、問答、閑聊、任務(wù)等不同模式;在場景上,存在控制、購物、金融、教育、家庭、旅游等多種場景,并不斷并入新場景;在細節(jié)上,要求多喚醒詞、新領(lǐng)域、新說法、新動作、新邏輯等等,整個需求趨向于個性化、特色化。
就此問題,俞凱表示,目前國內(nèi)提供語音交互技能的公司大體上有兩種不同的思路。一是提供封閉的解決方案,所有的東西都包攬優(yōu)化;二是像思必馳DUI這樣的思路,開放,形成一個生態(tài)圈,有博弈的過程,但這是一個多贏博弈的過程,在生態(tài)圈上大家互相體諒。
封閉和開放的對比,就像是一家獨大和萬馬奔騰的關(guān)系。開放生態(tài)圈才具備更大的價值,將核心技術(shù)開放出去,對AI應(yīng)用企業(yè)以及技術(shù)企業(yè)的流通和生長都有積極作用,使得大家都不瘸腿。
必須要有大規(guī)模的定制技術(shù)的能力
俞凱表示真正實現(xiàn)流通型的對話智能,必須要有大規(guī)模的定制技術(shù)的能力,即DUI提出的:規(guī)模定制化。
語音識別&語音合成方面:規(guī)模定制化將技術(shù)的應(yīng)用權(quán)限交給了廠商,多場景環(huán)境、多樣化技術(shù)需求重要問題,需要滿足諸如多喚醒詞、即時喚醒定制、個性化語音自動訓(xùn)練、垂直領(lǐng)域主題自適應(yīng)、新詞隨意添加、說話人及聲學(xué)環(huán)境自適應(yīng)等需求。
語義理解及對話方面:開放平臺在語義理解及對話方面的需求是要支持意圖及語義槽自定義,語義理解自定義,語音語義聯(lián)動定制即時完成,在公共語義理解模塊實現(xiàn)自適應(yīng)優(yōu)化,支持對話邏輯的自定義,可以進行技能組合及上下文傳遞等。思必馳通過支持語義理解定制和語言模型自適應(yīng),同時通過結(jié)合深度強化學(xué)習(xí)及統(tǒng)計實現(xiàn)統(tǒng)計對話管理,并支持跨Skill的上下文信息和指代消解。
軟硬件系統(tǒng)支撐方面:這方面,要求軟硬件配置即時更新生效,跨平臺支撐,大規(guī)模定制化部署。思必馳DUI開放平臺的四大系統(tǒng)(玲瓏、天機、青囊、紫微)即是從軟硬件配合方面去考慮,玲瓏系統(tǒng)主要負責(zé)做跨平臺的轉(zhuǎn)接,紫微負責(zé)內(nèi)容和服務(wù)支撐,天機為用戶提供可視化大數(shù)據(jù)和運營系統(tǒng),而青囊則負責(zé)DUI服務(wù)力和研發(fā)支撐。四大系統(tǒng)各自分工又相互協(xié)同,保證DUI的最終落地應(yīng)用。