期待人工智能為漢語國際化助力

5G寬帶 dvbcn編輯 2018-03-06 10:59 閱讀 4,683 來源：DVBCN 　

新年結(jié)束后第一個工作周，第五屆中文句法錯誤自動檢測技術(shù)評測（ChineseGrammarti-calErrorDiagnosis,CGED）悄悄拉開了戰(zhàn)幕，人工智能學(xué)術(shù)界和工業(yè)界的不少單位即將在“幫老外批漢語作文”這一任務(wù)上一較高下。據(jù)介紹今年評測活動的競爭將十分激烈。這多少也和去年年底的AI批改留學(xué)生作文的熱點事件有關(guān)。

　　
2017年12月央視新聞一則《浙外引進(jìn)阿里AI批改作文，不到200字作文看出8處錯誤》的新聞，引發(fā)各媒體關(guān)注和網(wǎng)友熱議。據(jù)報道，一些較為隱蔽的錯誤點，甚至有經(jīng)驗的教師也無法立刻發(fā)現(xiàn)。

就像所有其他人工智能應(yīng)用一樣，一經(jīng)眾多媒體的宣傳，自動作文批改就已經(jīng)開始有點兒“威脅”漢語教師了。但查閱CGED技術(shù)評測的綜述論文可知，經(jīng)過超過五千個錯誤點測試后，即使是2016年和2017年技術(shù)評測第一名（哈工大與阿里巴巴）識別錯誤類型和錯誤位置的綜合精度也都在40%以下。再加上留學(xué)生手寫作文掃描識別為數(shù)字化文本環(huán)節(jié)的差錯，錯誤識別的綜合精度只會更低。另一方面，為了降低運算難度，評測還將真實語言教學(xué)中的幾十種錯誤標(biāo)記，歸并為了冗余、缺失、錯用、亂序四種大錯誤類型。由于評測中錯誤劃分很粗，教師無法只通過錯誤統(tǒng)計就準(zhǔn)確把握學(xué)生語言能力?？傊詣优木嚯x投入教學(xué)前線還有很大的差距。

人工智能領(lǐng)域有句很有道理的笑話：人工智能，沒有人工就沒有智能。相比高考作文，漢語作為第二語言的寫作數(shù)據(jù)還較為稀缺。受教學(xué)模式、學(xué)習(xí)階段和母語的影響，留學(xué)生容易出現(xiàn)的語法錯誤類型極富多樣性。今天在大多數(shù)人工智能應(yīng)用中取得輝煌戰(zhàn)績的深度神經(jīng)網(wǎng)絡(luò)模型，對數(shù)據(jù)規(guī)模和質(zhì)量的要求則更加苛刻。

目前，市場上較為成功的人工智能應(yīng)用大多都因為構(gòu)建了“服務(wù)—用戶—數(shù)據(jù)”的正反饋閉環(huán)，即通過智能服務(wù)擴大用戶群體，大量用戶產(chǎn)生數(shù)據(jù)，數(shù)據(jù)驅(qū)動模型進(jìn)一步改進(jìn)服務(wù)效果。這就要求人工智能服務(wù)在先期必須達(dá)到用戶基本可以忍受的效果。而對于漢語作為第二語言的句法錯誤檢測任務(wù)，雖然已經(jīng)取得了不小的進(jìn)步，但還無法開啟如導(dǎo)航、廣告推薦這樣的正反饋閉環(huán)。正如黎明之前的黑暗最難熬，推動智能起飛之前的這段人工之路也最艱苦。但好在語言處理被視作人工智能皇冠上的明珠，越來越多的資本和人力都在不斷涌入，相信句法錯誤檢測這樣的細(xì)分領(lǐng)域，在可預(yù)見的未來也能進(jìn)入飛速發(fā)展期。屆時，教師省心、學(xué)生省力的批改機器人就不再只停留于展示中了。

另一方面，技術(shù)評測將助力技術(shù)發(fā)展。畢竟光說不練假把式，在同一數(shù)據(jù)平臺上一較高下，方可刺激學(xué)界和業(yè)界苦練真功。期待今天還停留在展示和概念階段的AI能高速成長，為漢語國際傳播貢獻(xiàn)力量。

人工智能