為了方便廣大企業(yè)及個(gè)人開發(fā)者更好地享受到靈云全方位人工智能技術(shù),近日,靈云SDK實(shí)現(xiàn)了版本全面升級,十多項(xiàng)人工智能技術(shù)全部對外開放,讓開發(fā)者真正能享受到全方位人工智能技術(shù)帶來的輕松與便捷。
登錄靈云開發(fā)者社區(qū),開發(fā)者即可下載包括語音識別、語音合成、語音喚醒、語義理解、文字識別、人臉識別、手寫識別、機(jī)器翻譯、聲紋識別、鍵盤輸入在內(nèi)的十多項(xiàng)人工智能技術(shù)SDK,支持Windows/Android/Linux/IOS等各種主流操作系統(tǒng),能方便的集成到各種應(yīng)用與客戶業(yè)務(wù)系統(tǒng)中。除此之外,在社區(qū)內(nèi)還有麥克風(fēng)陣列、靈云種子等聚合性SDK以方便開發(fā)者快速實(shí)現(xiàn)近遠(yuǎn)場語音交互。
語音合成SDK
作為國內(nèi)最早從事語音技術(shù)研究與應(yīng)用的企業(yè),捷通華聲為廣大開發(fā)者提供的靈云語音合成SDK可將文本實(shí)時(shí)準(zhǔn)確地轉(zhuǎn)換為自然、流暢的語音,并提供男聲、女聲、童聲等多種合成音色,支持中文普通話、粵語、維語、英語、日語等21種語言,并可為用戶提供定制化的語音合成服務(wù)。
語音合成SDK可以根據(jù)當(dāng)前網(wǎng)絡(luò)狀況及指令的類型,自動判斷使用本地引擎還是云端引擎進(jìn)行語音合成。此次版本的升級優(yōu)化了優(yōu)化TTS Player,提升云端訪問速度。
語音識別SDK
采用行業(yè)領(lǐng)先的深度學(xué)習(xí)算法,捷通華聲為開發(fā)者提供行業(yè)領(lǐng)先的語音識別SDK,普通話識別準(zhǔn)確率高達(dá)96%,并采用實(shí)時(shí)識別方式,實(shí)時(shí)率可達(dá)0.3以下,已支持普通話、英語、粵語、維吾爾語、客家話等多種語言,具備很強(qiáng)的口音普適性,并可自由定制垂直領(lǐng)域的語音識別模型,識別效果更精確。
此次版本更新,SDK增加了本地語音意圖理解、云端本地雙路識別功能,優(yōu)化ASR Recorder,提升云端訪問速度。
語音喚醒SDK
靈云語音喚醒SDK采用先進(jìn)的芯片,ROM小于40K,低功率持續(xù)偵聽,用戶使用無感知,無需網(wǎng)絡(luò),實(shí)時(shí)離線喚醒,喚醒率大于95%,且誤喚醒率低于小于 1次/24小時(shí),并支持自定義設(shè)置多個(gè)喚醒詞,滿足用戶個(gè)性化需求。
語義理解SDK
為開發(fā)者提供的語義理解SDK可實(shí)現(xiàn)意圖理解與智能問答兩類核心功能,支持上下文語義分析、多輪對話、實(shí)體屬性等,支持天氣、導(dǎo)航、航班、音樂、閑聊等20多個(gè)常見領(lǐng)域,且支持HTTP、Socket、WebService以及MRCP等多種接口,滿足不同需求。
聲紋識別SDK
靈云聲紋識別技術(shù)采用端點(diǎn)檢測和噪聲消除技術(shù),克服環(huán)境噪音對的影響,識別準(zhǔn)確率高達(dá)99%,能夠在多人對話場景中分離出單個(gè)說話人音頻,并識別出每個(gè)人的說話內(nèi)容,并提供聲紋自由說、動態(tài)數(shù)字、開放文本、固定文本密碼等多種識別模式。
人臉識別SDK
靈云人臉識別技術(shù),采用最新深度學(xué)習(xí)算法,并引入國際領(lǐng)先的多模型融合技術(shù),具備“一對一確認(rèn)”與“多選一辨別”功能,可對人臉五官定位并對性別、表情、年齡、膚色、姿態(tài)等人臉屬性進(jìn)行分析,提供人臉屬性識別、關(guān)鍵點(diǎn)定位、人臉1:1比對、人臉1:N識別、活體檢測等能力。
光學(xué)字符識別SDK
捷通華聲與清華大學(xué)合力攻關(guān),應(yīng)用最新機(jī)器學(xué)習(xí)算法,光學(xué)字符識別技術(shù)國際領(lǐng)先,識別率高達(dá)99.99%,讓機(jī)器不再只能識別“清晰、端正的文字”,還能識別“傾斜、相對模糊的文字”,并且支持更多的字體。支持文檔識別、票據(jù)識別、證照識別、銀行卡識別、名片識別等多種應(yīng)用領(lǐng)域。
手寫識別SDK
靈云手寫識別技術(shù)采用最新深度學(xué)習(xí)算法,正楷、連筆字、無筆順識別率均在98%以上,且可支持中文、英文、維吾爾文、日文、韓文等多種語言、50多種筆勢識別,還擁有傾斜校正、簡繁體自動判斷、拼音獲取等強(qiáng)大功能,同時(shí)提供鋼筆、鉛筆、毛筆等多種筆形,將輸寫體驗(yàn)融入藝術(shù)與傳統(tǒng)文化。
機(jī)器翻譯SDK
靈云機(jī)器翻譯技術(shù)采用國際先進(jìn)的翻譯技術(shù)及深度學(xué)習(xí)算法,可生成流暢的譯文,翻譯結(jié)果地道流暢,忠實(shí)表達(dá)原文內(nèi)容,滿足高質(zhì)量的翻譯要求,該版本SDK支持中英、中維等多種語言互譯,具有翻譯準(zhǔn)確率高、翻譯快速等優(yōu)點(diǎn)。
鍵盤輸入SDK
靈云開放平臺為廣大開發(fā)者提供鍵盤輸入SDK,支持中文,外文,韓文,日文等識別,同時(shí)支持多種鍵盤(T9,Qwerty以及容錯(cuò)鍵盤)以及多種輸入模式(拼音,五筆,筆畫等)。
全方位AI技術(shù) 助力智能場景應(yīng)用落地
十多年的行業(yè)積累,捷通華聲靈云全方位人工智能技術(shù)已在各行各業(yè)得到廣泛應(yīng)用實(shí)踐,靈云SDK在移動應(yīng)用、智能客服、智能家電、智能音箱、智能車載、機(jī)器人等應(yīng)用領(lǐng)域大顯神通:可為移動應(yīng)用提供智能語音、圖像、手寫、生物特征識別等智能技術(shù)集成手段,可利用語音識別SDK、語音合成SDK、麥克風(fēng)陣列SDK等讓電視、空調(diào)等實(shí)現(xiàn)自然遠(yuǎn)場語言交互,可通過SDK結(jié)合打造可語音、手寫的智能車載輸入法,讓車載設(shè)備擁有遠(yuǎn)場語音識別能力,可真正實(shí)現(xiàn)讓機(jī)器人“能說會聽、能寫會看、能辨音會認(rèn)人、能思考會判斷”。
未來,捷通華聲將通過靈云全方位人工智能開放平臺,為廣大企業(yè)及個(gè)人開發(fā)者提供更多更加智能的人工智能能力SDK,助力企業(yè)智能化產(chǎn)品、設(shè)備的快速落地,從而實(shí)現(xiàn)“讓每個(gè)企業(yè)都擁有人工智能,讓每個(gè)人都能享受到人工智能的輕松與便捷”。