Nianwen Xue在《Chinese Word Segmentation as Character Tagging》中將中文分詞視作為序列標注問題(sequence tagging problem),由此引入監(jiān)督學習算法來解決分詞問題。
首先,我們將簡要地介紹HMM(主要參考了李航老師的《統(tǒng)計學習方法》)。HMM包含如下的五元組:
狀態(tài)值集合Q 網(wǎng)友評論