1 簡(jiǎn)介
jieba分詞主要是基于統(tǒng)計(jì)詞典,構(gòu)造一個(gè)前綴詞典;然后利用前綴詞典對(duì)輸入句子進(jìn)行切分,得到所有的切分可能,根據(jù)切分位置,構(gòu)造一個(gè)有向無(wú)環(huán)圖;通過(guò)動(dòng)態(tài)規(guī)劃算法,計(jì)算得到最大概率路徑,也就得到了最終的切分形式。
2 實(shí)例講解
以“去北京大學(xué)玩”為例,作為待分詞的輸入文本。
離線統(tǒng)計(jì)的詞典形式如下,每一行有三列,第一列是詞,第二列是詞頻,第三列是詞性。
... 北京大學(xué) 2053 nt
大學(xué) 20025 n
去 123402 v
玩 4207 v
北京 34488 ns
北 17860 ns
京 6583 ns
大 144099 a
學(xué) 17482 n ...
2.1 前綴詞典構(gòu)建
首先是基于統(tǒng)計(jì)詞典構(gòu)造前綴詞典,如統(tǒng)計(jì)詞典中的詞“北京大學(xué)”的前綴分別是“北”、“北京”、“北京大”;詞“大學(xué)”的前綴是“大”。統(tǒng)計(jì)詞典中所有的詞形成的前綴詞典如下所示,你也許會(huì)注意到“北京大”作為“北京大學(xué)”的前綴,但是它的詞頻卻為0,這是為了便于后面有向無(wú)環(huán)圖的構(gòu)建。
... 北京大學(xué) 2053 北京大 0 大學(xué) 20025 去 123402 玩 4207 北京 34488 北 17860 京 6583 大 144099 學(xué) 17482 ...
2.2 有向無(wú)環(huán)圖構(gòu)建
延伸閱讀
- ssh框架 2016-09-30
- 阿里移動(dòng)安全 [無(wú)線安全]玩轉(zhuǎn)無(wú)線電——不安全的藍(lán)牙鎖 2017-07-26
- 消息隊(duì)列NetMQ 原理分析4-Socket、Session、Option和Pipe 2024-03-26
- Selective Search for Object Recognition 論文筆記【圖片目標(biāo)分割】 2017-07-26
- 詞向量-LRWE模型-更好地識(shí)別反義詞同義詞 2017-07-26
- 從棧不平衡問(wèn)題 理解 calling convention 2017-07-26
- php imagemagick 處理 圖片剪切、壓縮、合并、插入文本、背景色透明 2017-07-26
- Swift實(shí)現(xiàn)JSON轉(zhuǎn)Model - HandyJSON使用講解 2017-07-26
- 阿里移動(dòng)安全 Android端惡意鎖屏勒索應(yīng)用分析 2017-07-26
- 集合結(jié)合數(shù)據(jù)結(jié)構(gòu)來(lái)看看(二) 2017-07-26
![學(xué)習(xí)是年輕人改變自己的最好方式-Java培訓(xùn),做最負(fù)責(zé)任的教育,學(xué)習(xí)改變命運(yùn),軟件學(xué)習(xí),再就業(yè),大學(xué)生如何就業(yè),幫大學(xué)生找到好工作,lphotoshop培訓(xùn),電腦培訓(xùn),電腦維修培訓(xùn),移動(dòng)軟件開(kāi)發(fā)培訓(xùn),網(wǎng)站設(shè)計(jì)培訓(xùn),網(wǎng)站建設(shè)培訓(xùn)](http://m.roadsoft.com.cn/attached/image/templet/e87d53eb-cf7a-4689-887a-1cd260f416a5.jpg)