谷歌、百度、微軟、Facebook、阿里……我們介紹過很多中美在人工智能領(lǐng)域技術(shù)和商業(yè)化方面的進展,包括印度、以色列等等地區(qū)也出現(xiàn)過不少創(chuàng)業(yè)團隊。
可這里面似乎沒有戰(zhàn)斗民族俄羅斯什么事。按理說,俄羅斯有在冷戰(zhàn)時代遺留下來的大量科技人才儲備,國家對數(shù)學(xué)、計算機等學(xué)科的基礎(chǔ)教育也足夠重視,強大的黑客團隊展示了俄羅斯人資技術(shù)上能達到的種種可能。而且天寒地凍的氣候,好像也挺適合在家宅著擼代碼的。
放眼俄羅斯、甚至整個東歐地區(qū),在人工智能領(lǐng)域最活躍的可能就是Yandex了。
Yandex:把搜索引擎當(dāng)做技術(shù)發(fā)展的根本
Yandex是誰?大多數(shù)人第一反應(yīng)是俄羅斯的“百度”。
沒錯,在1990年,來自莫斯科大學(xué)的兩位校友阿卡季·弗洛日和阿卡季·勃可夫斯基共同創(chuàng)建了俄羅斯自己的搜索引擎Yandex。“Yandex”一詞俄語含義是“Языковой index”(語言索引),是英語單詞“Yet Another indexer”的縮寫。意味“另一種搜索引擎”。從名字就能感受到兩位創(chuàng)始人對英語世界的反抗。
建立了搜索引擎后,Yandex逐漸開始發(fā)展為一家全能型的互聯(lián)網(wǎng)公司:建立門戶網(wǎng)站、創(chuàng)立電商平臺、與聯(lián)邦儲蓄銀行Sberbank合作推廣線上支付、代理來自中國的4399小游戲、推出打車平臺……基本你能想到的風(fēng)口,Yandex都沒錯過。
和谷歌、百度一樣,搜索引擎成了Yandex收集語料數(shù)據(jù)、著手機器學(xué)習(xí)技術(shù)發(fā)展的根本。
戰(zhàn)斗民族在人工智能上發(fā)展如何?
Yandex在機器學(xué)習(xí)方面都做了什么?
首先,是時下最火的無人駕駛。據(jù)稱Yandex正在著手研發(fā)無人駕駛需要的計算機視覺、語音識別等等相關(guān)的技術(shù)。目前Yandex選擇了豐田普銳斯作為原型車,加上英偉達的芯片、Velodyne的雷達傳感器,目標(biāo)向L5級的無人駕駛沖擊。
幾個月以前,Yandex還曬出了旗下無人駕駛車的場地測試視頻,視頻中無人車的表現(xiàn)中規(guī)中矩,雖然實現(xiàn)了在無人控制的情況下緩慢駕駛,但也會有難以越過障礙、躲避行人不及時等情況。
Yandex為自己定下了目標(biāo),明年要讓豐田普銳斯上公共道路測試,同時還和卡車制造商Kamaz、Daimler達成合作,計劃推出無人駕駛的迷你公交車。坦白講,Yandex對于自身無人駕駛技術(shù)的披露相當(dāng)少,俄羅斯本土是否有無人駕駛必備的高精地圖也不得而知,俄羅斯的無人駕駛究竟會發(fā)展成什么樣,目前很難下個定論。
除了無人駕駛,Yandex還“有樣學(xué)樣”的推出了語音助手Alice,以此展示自己的語音識別技術(shù)。和Siri、谷歌語音助手一樣,Alice可以幫助用戶連接出行、購物、支付、新聞、音樂等等服務(wù)。
Yandex還給Alice加上了基于神經(jīng)網(wǎng)絡(luò)的聊天引擎,讓Alice可以在社交網(wǎng)絡(luò)上學(xué)習(xí)他人的言論,這一技術(shù)的確較為先進。在測試中,Alice甚至還學(xué)會了一些政治、暴力方面的不當(dāng)言論,不過在問題曝光后,這些言論很快被技術(shù)和諧了。
除了這些以外,Yandex還開源了機器學(xué)習(xí)框架Catboost、推出了深度神經(jīng)網(wǎng)絡(luò)搜索引擎等等。
分詞技術(shù):本土搜索引擎的神器
我們想了解到的是,Yandex是如何戰(zhàn)勝谷歌搜索,還在自然語言方面取得了相對前沿的進展。答案或許是因為Yandex獨有的分詞技術(shù)。
所謂分詞技術(shù),其實是中文搜索引擎中的技術(shù)。即搜索引擎針對用戶提交查詢的關(guān)鍵詞串進行的查詢處理后根據(jù)用戶的關(guān)鍵詞串用各種匹配方法進行分詞的一種技術(shù)。
比如在搜索引擎中搜“不知道你在說什么”,就可能分成“不,知道,你,在,說什么”和“不知道,你,在,說什么”等等很多種分法,再到數(shù)據(jù)庫中進行索引。
如何確定分詞的方式有很多種,比如正向最大匹配法,按照中文閱讀習(xí)慣,從左向右分詞;又比如最短路徑分詞法,把一段話切出的詞數(shù)最少等等。這些只是比較傳統(tǒng)的方法,現(xiàn)在還可以利用NLP技術(shù),從語義理解上進行分詞;利用鄰近算法,看哪些相鄰字符出現(xiàn)的頻率最多,就按照這樣的方式進行分詞。
如何戰(zhàn)勝谷歌?語言壁壘是關(guān)鍵
同樣的概念,在Yandex的搜索引擎技術(shù)中也存在,只不過不叫分詞技術(shù),叫“морфология”這個詞可以被理解為“詞形”。
這就要談到了俄語這門語言的特殊性,和中文、英語不同,俄語中詞與詞之間的關(guān)系通常用詞形變化表示,于是,同一個名詞可以有12個形式,形容詞甚至能達到20、30個形式……所以,俄語中會有動名詞、形名詞這些奇怪的東西。
于是,因為俄語的特性,在搜索中非常容易引起歧義,對搜索的精度要求也更高。比如машиностроительный這個詞,在俄語中意為“機械的”。在谷歌搜索中,可以找到與之完全匹配的網(wǎng)頁,卻很難找到有關(guān)機械形容詞剩下的二十多個詞形變化的網(wǎng)頁。
而Yandex搜索引擎技術(shù)擅長的,恰恰就是關(guān)鍵詞的多義分析和查找。也形成了一些Yandex獨有的搜索方式,比如加上“”即可只搜索指定單詞,不搜索變形詞,也利用指令只搜索形容詞形態(tài)、動詞形態(tài)等等。
俄語屬于斯拉夫語族內(nèi)的東斯拉夫語支,也就是說白俄羅斯語、烏克蘭語甚至捷克、波蘭等等地方的語言都會都類似的語法形態(tài)。而Yandex的分詞技術(shù)在這些語言中的表現(xiàn)也很出色。
憑借著語言優(yōu)勢上的獨有技術(shù),Yandex戰(zhàn)勝了谷歌成為了俄羅斯本土最大的搜索引擎。而大量用戶使用累積的數(shù)據(jù),更讓Yandex可以發(fā)展機器學(xué)習(xí)技術(shù)對算法進行進一步優(yōu)化。放到整個NLP技術(shù)里也是一樣,難怪Yandex可以在語音識別上獲得不小的進展。
機器學(xué)習(xí)給了這個世界一個相對平等的機會,就算技術(shù)、資金相對落后,語言上的優(yōu)勢仍然可以樹立起壁壘,更別提語料數(shù)據(jù)這一寶貴的數(shù)據(jù)。有Yandex的案例在先,是不是意味著那些基于泰語、印度語、阿拉伯語等等小語種的搜索引擎,也會在人工智能領(lǐng)域有著獨有的優(yōu)勢?
看來除了中美之外,我們還可以把眼光放到更遠的地方。