微軟采用了對偶學習(dual learning)、推敲網(wǎng)絡(luò)(deliberation networks)聯(lián)合訓練(joint training)和一致性規(guī)范(agreement regularization)的技術(shù)組合。對偶學習和推敲網(wǎng)絡(luò)此前已經(jīng)發(fā)布,此次新增了后兩項技術(shù)。
根據(jù)微軟的介紹,對偶學習類似與人類翻譯的“回譯”,將中文翻譯成英文后,系統(tǒng)會將相應(yīng)的英文結(jié)果再翻譯回中文,并與原始的中文句子進行比對;推敲網(wǎng)絡(luò)顧名思義,是機器翻譯的不斷推敲修改。
聯(lián)合訓練則可以理解為用迭代的方式去改進翻譯系統(tǒng),用中英翻譯的句子對去補充反向翻譯系統(tǒng)的訓練數(shù)據(jù)集,同樣的過程也可以反向進行。一致性規(guī)范則讓翻譯可以從左到右進行,也可以從右到左進行,最終讓兩個過程生成一致的翻譯結(jié)果。
目前微軟的這一翻譯已經(jīng)開放(地址:https://translator.microsoft.com/neural/),實際使用中運行可能偏慢。微軟會顯示兩種翻譯結(jié)果,從實際測試來看,微軟修正后的翻譯系統(tǒng)(右),顯示出了相對更高的翻譯水平。
微軟亞洲研究院副院長、自然語言計算組負責人周明表示,仍有很多挑戰(zhàn)有待解決,例如在實時的新聞報道上測試翻譯系統(tǒng)。
考慮到中文的復雜性,中翻英常被用于考驗機器翻譯的水平。而近年來機器翻譯水平的突飛猛進,人工智能的深度神經(jīng)網(wǎng)絡(luò)學習功不可沒。
2016年9月,谷歌翻譯就宣布在翻譯系統(tǒng)中引入神經(jīng)網(wǎng)絡(luò),令中翻英更為流暢自然。
神經(jīng)網(wǎng)絡(luò)的學習,以谷歌的機器翻譯為例,翻譯不再以單詞為單位,而是以整句為單位,兼具單詞的意義和合適的語法。這種深度學習不但能提升翻譯水平,還在自動駕駛等其他需要人工智能的領(lǐng)域,有重要作用。
不過,機器翻譯軟件的英翻中水平,似乎還是有些堪憂……