All in AI 的百度,1月17日在北京發(fā)布了百度 AI 輸入法,即百度輸入法的 8.0 版本。意料之中,AI 依然是重頭戲,并且?guī)砹艘豁椉夹g突破、兩項全新功能,以及超過競品 20% 的相對正確率。
為了這次發(fā)布,百度特意將著名主持人、“中國好舌頭”華少請到了現(xiàn)場擔任主持,在華少的主持之下,百度副總裁、AIG 負責人王海峰、百度語音技術部總監(jiān)高亮以及百度輸入法負責人蔡玉婷悉數(shù)登場。
王海峰回顧了人機交互的歷史,從打孔紙帶到字符再到圖形界面,智能手機出現(xiàn)后,則出現(xiàn)了觸摸的交互方式。他認為,對于智能手機來說,模擬鍵盤很重要,“一部手機可以沒有游戲、地圖、社交軟件,但是不能沒有鍵盤”。但接著他也表示,即便現(xiàn)在有語音輸入的加持,其實還不足夠,未來的輸入方式一定是“全感官輸入”,一定是由 AI 技術來支撐的。
而針對百度輸入法這個產(chǎn)品,王海峰表示,百度輸入法是百度 AI 技術應用的橋頭堡,新的 AI 技術將會首先應用在輸入法上,未來將會賦予更多 AI 能力,提升人機交互的體驗。
一項技術突破:Deep Peak 2 模型
王海峰之后,百度語音技術部總監(jiān)高亮上臺,揭示了“近半年來百度語音技術上的一項突破”,即 Deep Peak 2 模型:
Deep Peak 2 模型的全稱為基于 LSTM 和 CTC 的上下文無關音素組合建模,該技術將高頻出現(xiàn)的音素聯(lián)合在一起,形成一個音素組合體,然后將這個音素組合體看作一個基本建模單元。與以往使用的上下文相關建模方式相比,Deep Peak 2 模型能夠充分發(fā)揮神經(jīng)網(wǎng)絡模型的參數(shù)優(yōu)勢,對多種說話方式的穩(wěn)定性更強、準確度更高;同時能夠帶來更快的解碼速度,提升語音識別的整體效率,目前其相對正確率已領先行業(yè) 20%。
除此之外,高亮表示,這種建模方式對中文和英文都同時適用,讓產(chǎn)品具備了更強的中英文混合識別能力。相對正確率領先行業(yè) 20%,是基于一個有 1400 句的黑盒測試集測試的結果,而同比之前版本的百度輸入法,Deep Peak 2 模型在整體上確實提高了百度輸入法的準確率。
兩項全新功能:語音速記和AR表情
在這項突破的支持下,新版本的百度輸入法推出了兩項全新功能,分別是語音速記和AR表情,在此之前,通過語音輸入,百度輸入法其實已經(jīng)具備了很多功能,諸如語音修改、語音中英日實時互譯、語音輕聲識別、場景化語音識別、語音聯(lián)想表情、OCR掃描輸入等。
所謂語音速記,分為單人、多人兩種模式。在單人模式下,適用于記筆記、寫文章、記錄靈感等場景,可以連續(xù)不間斷,并且同時記錄下音頻文件,方便后期進行修改。而多人模式則適用于一對一采訪、2-4人小型會議的場景,并且應用了聲紋識別,可以區(qū)分不同說話人。
在活動現(xiàn)場,主持人華少在58秒內(nèi)用極快語速念了一段426字、中英文混雜的“廣告”,輸入法均做了實時轉錄。
所謂AR表情,基于百度的人臉識別技術和 AR 技術,用戶不僅可根據(jù)相機或相冊進行人臉識別、制作表情包,還支持用戶通過自己的表情控制虛擬人物形象。制作出來的AR表情,可以直接通過輸入法搜索、語音輸入和鍵盤輸入時展示出來。蔡玉婷解釋說,百度輸入法不僅僅想要通過麥克風進行語音輸入,也希望控制更多的“感官”,實現(xiàn)多模態(tài)的輸入。
同時,百度輸入法還與桃花塢等中國非物質文化遺產(chǎn)達成合作,將中國民間傳統(tǒng)藝術如年畫等引入到表情中,讓眾多古典人物形象沖破次元壁壘“活”了起來,成為對中國歷史文化最好的傳承。
截至目前,百度輸入法這款產(chǎn)品上線已有8年,月活躍量達到 4 億,而語音輸入日流量達到 2.5億,8.0安卓版本已經(jīng)上線,iOS 版本正在經(jīng)由蘋果審核。面對未來的輸入法形態(tài),蔡玉婷認為,百度 AI 輸入法未來想要做的,是聽見、看見、理解用戶的表達,全面提升用戶輸入的效率。
而這也將成為,百度和其他廠商的輸入法之間,最大的不同。