在文本挖掘的分詞原理中,我們講到了文本挖掘的預(yù)處理的關(guān)鍵一步:“分詞”,而在做了分詞后,如果我們是做文本分類聚類,則后面關(guān)鍵的特征預(yù)處理步驟有向量化或向量化的特例Hash Trick,本文我們就對(duì)向量化和特例Hash Trick預(yù)處理方法做一個(gè)總結(jié)。
1. 詞袋模型
在講向量化與Hash Trick之前,我們先說說詞袋模型(Bag of Words,簡(jiǎn)稱BoW)。詞袋模型假設(shè)我們不考慮文本中詞與詞之間的上下文關(guān)系,僅僅只考慮所有詞的權(quán)重。而權(quán)重與詞在文本中出現(xiàn)的頻率有關(guān)。
詞袋模型首先會(huì)進(jìn)行分詞,在分詞之后,通過統(tǒng)計(jì)每個(gè)詞在文本中出現(xiàn)的次數(shù),我們就可以得到該文本基于詞的特征,如果將各個(gè)文本樣本的這些詞與對(duì)應(yīng)的詞頻放在一起,就是我們常說的向量化。向量化完畢后一般也會(huì)使用TF-IDF進(jìn)行特征的權(quán)重修正,再將特征進(jìn)行標(biāo)準(zhǔn)化。 再進(jìn)行一些其他的特征工程后,就可以將數(shù)據(jù)帶入機(jī)器學(xué)習(xí)算法進(jìn)行分類聚類了。
總結(jié)下詞袋模型的三部曲:分詞(tokenizing),統(tǒng)計(jì)修訂詞特征值(counting)與標(biāo)準(zhǔn)化(normalizing)。
與詞袋模型非常類似的一個(gè)模型是詞集模型(Set of Words,簡(jiǎn)稱SoW),和詞袋模型唯一的不同是它僅僅考慮詞是否在文本中出現(xiàn),而不考慮詞頻。也就是一個(gè)詞在文本在文本中出現(xiàn)1次和多次特征處理是一樣的。在大多數(shù)時(shí)候,我們使用詞袋模型,后面的討論也是以詞袋模型為主。
當(dāng)然,詞袋模型有很大的局限性,因?yàn)樗鼉H僅考慮了詞頻,沒有考慮上下文的關(guān)系,因此會(huì)丟失一部分文本的語義。但是大多數(shù)時(shí)候,如果我們的目的是分類聚類,則詞袋模型表現(xiàn)的很好。
2. 詞袋模型之向量化
延伸閱讀
- ssh框架 2016-09-30
- 阿里移動(dòng)安全 [無線安全]玩轉(zhuǎn)無線電——不安全的藍(lán)牙鎖 2017-07-26
- 消息隊(duì)列NetMQ 原理分析4-Socket、Session、Option和Pipe 2024-03-26
- Selective Search for Object Recognition 論文筆記【圖片目標(biāo)分割】 2017-07-26
- 詞向量-LRWE模型-更好地識(shí)別反義詞同義詞 2017-07-26
- 從棧不平衡問題 理解 calling convention 2017-07-26
- php imagemagick 處理 圖片剪切、壓縮、合并、插入文本、背景色透明 2017-07-26
- Swift實(shí)現(xiàn)JSON轉(zhuǎn)Model - HandyJSON使用講解 2017-07-26
- 阿里移動(dòng)安全 Android端惡意鎖屏勒索應(yīng)用分析 2017-07-26
- 集合結(jié)合數(shù)據(jù)結(jié)構(gòu)來看看(二) 2017-07-26