上一節(jié),我們介紹利用文本和知識庫融合訓練詞向量的方法,如何更好的融合這些結構化知識呢?使得訓練得到的詞向量更具有泛化能力,能有效識別同義詞反義詞,又能學習到上下文信息還有不同級別的語義信息。
基于上述目標,我們嘗試基于CBOW模型,將知識庫中抽取的知識融合共同訓練,提出LRWE模型。模型的結構圖如下:
下面詳細介紹該模型的思想和求解方法。
1. LWE模型
在Word2vec的CBOW模型中,通過上下文的詞預測目標詞,目標是讓目標詞在其給定上下文出現的概率最大,所以詞向量訓練的結果是與其上下文的詞相關聯的。然而 CBOW模型只考慮了詞語的局部上下文信息,無法很好的表達同義詞和反義詞等信息。例如下面的幾個case:
為了解決上述問題,本文將同義詞和反義詞等詞匯信息以外部知識的形式,作為詞向量訓練中的監(jiān)督數據,讓訓練得到的詞向量能學習到同義、反義等詞匯信息,從而能更好地區(qū)分同義詞和反義詞。
1.1 模型思想
記 ???? 的同義詞和反義詞集合為( ???? , ?????????? , ?????????? ),其中 SYN 表示同義詞集合,ANT 表示反義詞集合,我們的目標是已知目標詞對應的同義詞集合和反義詞集合,預測目標詞,使得目標詞和它的同義詞距離盡可能相近,與反義詞距離盡可能遠。
例如“The cat sat on the mat.”,已知sat有同義詞seated,反義詞stand,來預測目標詞為sat。
該模型稱為詞匯信息模型,模型結構圖如下:
對于一個詞語,我們根據它的同義詞和反義詞預測目標詞,最大化詞語和它的同義詞同時出現的概率, 并降低詞語和它反義詞同時出現的概率。根據這個目標,定義以下的目標函數:
我們目標是在基于上下文的CBOW語言模型訓練過程中,加入同義詞反義詞信息作為監(jiān)督,使得訓練所得詞向量能學習到同義和反義知識。基于該想法,我們提出基于詞匯信息的詞向量模型(Lexical Information Word