近日,微軟公布的一篇新論文提出了一種新架構(gòu),它的內(nèi)部表征(在執(zhí)行文本問答任務(wù)時通過端到端的優(yōu)化來學(xué)習(xí)的表征)可以用語言學(xué)理論的基本概念來解釋。這篇論文的作者之一鄧力目前已經(jīng)離開了微軟,加入了對沖基金巨頭 Citadel 任首席人工智能科學(xué)家。
論文內(nèi)容:
我們介紹了一種新架構(gòu),它的內(nèi)部表征(在深度學(xué)習(xí)網(wǎng)絡(luò)中通過執(zhí)行文本問答任務(wù)來端到端優(yōu)化而學(xué)習(xí)到的表征)可以用語言學(xué)理論的基本概念來解釋。這種可解釋性相對于新的基于原模型的準(zhǔn)確度只有幾個點(diǎn)的降低(BiDAF[1])。被解釋的內(nèi)部表征是張量積表示(Tensor Product Representation):對于每個輸入詞,模型選擇一個符號來對詞進(jìn)行編碼,一個放置符號的角色(role),然后將它們綁定起來。這種選擇是通過軟注意(soft attention)模型實(shí)現(xiàn)的,總體的解釋是由符號的解釋所構(gòu)建的,與訓(xùn)練模型利用的一樣,模型也利用對角色的解釋。
我們發(fā)現(xiàn)了對初始假設(shè)的支持,即符號可以被解釋為詞匯-語義詞義(lexical-semantic word meanings),而角色可被解釋為對語法角色(或類別)的近似,例如主語、問詞、限定詞等。通過非常詳細(xì)的、細(xì)粒度的分析,我們發(fā)現(xiàn)了在學(xué)習(xí)到的角色和又標(biāo)準(zhǔn)解析器 [2] 分配的詞性之間的特定對應(yīng)關(guān)系,并且在模型的幫助下找到了幾個差異。在這個意義上,該模型可以在僅有無語言學(xué)相關(guān)注釋的文本、問題和答案的情況下學(xué)習(xí)到語法的重要方面:模型沒有先驗(yàn)的語言學(xué)知識。該模型僅有使用符號和角色來進(jìn)行表征的方式和以一種大致離散的方式有利于這種使用的歸納偏置。