在上篇實(shí)現(xiàn)了電影詳情和短評(píng)數(shù)據(jù)的抓取。到目前為止,已經(jīng)抓了2000多部電影電視以及20000多的短評(píng)數(shù)據(jù)。
數(shù)據(jù)本身沒(méi)有規(guī)律和價(jià)值,需要通過(guò)分析提煉成知識(shí)才有意義。抱著試試玩的想法,準(zhǔn)備做一個(gè)有關(guān)情感分析方面的統(tǒng)計(jì),看看這些評(píng)論里面的小伙伴都抱著什么態(tài)度來(lái)看待自己看過(guò)的電影,懷著何種心情寫(xiě)下的短評(píng)。
鑒于爬取的是短評(píng)數(shù)據(jù),少則10來(lái)個(gè)字,多則百來(lái)個(gè)字,網(wǎng)上查找了下,發(fā)現(xiàn)Google開(kāi)源的Word2Vec比較合適,于是今天搗鼓了一天,把自己遇到的問(wèn)題和運(yùn)行的結(jié)果在這里做個(gè)總結(jié)。
Word2Ve是google 推出的做詞嵌入(word embedding)的開(kāi)源工具。 簡(jiǎn)單的說(shuō),它在給定的語(yǔ)料庫(kù)上訓(xùn)練一個(gè)模型,然后會(huì)輸出所有出現(xiàn)在語(yǔ)料庫(kù)上的單詞的向量表示,這個(gè)向量稱為"word embedding"。基于這個(gè)向量表示,可以計(jì)算詞與詞之間的關(guān)系,例如相似性(同義詞等),語(yǔ)義關(guān)聯(lián)性(中國(guó) - 北京 = 英國(guó) - 倫敦)等。
算法的原理如果有興趣,可以找資料了解。
這里使用Word2Vec的大致流程如下:
1. 獲取數(shù)據(jù)(這里是豆瓣電影短評(píng)數(shù)據(jù))
延伸閱讀
- ssh框架 2016-09-30
- 阿里移動(dòng)安全 [無(wú)線安全]玩轉(zhuǎn)無(wú)線電——不安全的藍(lán)牙鎖 2017-07-26
- 消息隊(duì)列NetMQ 原理分析4-Socket、Session、Option和Pipe 2024-03-26
- Selective Search for Object Recognition 論文筆記【圖片目標(biāo)分割】 2017-07-26
- 詞向量-LRWE模型-更好地識(shí)別反義詞同義詞 2017-07-26
- 從棧不平衡問(wèn)題 理解 calling convention 2017-07-26
- php imagemagick 處理 圖片剪切、壓縮、合并、插入文本、背景色透明 2017-07-26
- Swift實(shí)現(xiàn)JSON轉(zhuǎn)Model - HandyJSON使用講解 2017-07-26
- 阿里移動(dòng)安全 Android端惡意鎖屏勒索應(yīng)用分析 2017-07-26
- 集合結(jié)合數(shù)據(jù)結(jié)構(gòu)來(lái)看看(二) 2017-07-26