在知乎看到一個(gè)可視化話題的文章,所以一時(shí)心血來(lái)潮,打算用Java也寫(xiě)一個(gè)爬蟲(chóng)并且集成到Spring中,結(jié)合ECharts生成人物關(guān)系,當(dāng)然,既然爬一次,個(gè)人信息也都要獲取到。
那么今天起起(結(jié)束日未知,目錄也會(huì)根據(jù)實(shí)際情況進(jìn)行更新),我將寫(xiě)一個(gè)系列的爬取知乎的爬蟲(chóng)文章,一直到數(shù)據(jù)可視化完成(完成后,爬蟲(chóng)部分將使用Scala重寫(xiě))。
1. 預(yù)計(jì)可視化部分包括
人物關(guān)系可視化
人員地理分布可視化
人員大學(xué)分布可視化
男女比例可視化
用戶點(diǎn)贊可視化
2. 預(yù)計(jì)內(nèi)容和目錄
開(kāi)篇感言
如何過(guò)濾重復(fù)數(shù)據(jù)
如何在爬取時(shí)創(chuàng)建人物關(guān)系
登陸請(qǐng)求分析
跟隨/關(guān)注請(qǐng)求分析
抓取頁(yè)面數(shù)據(jù)
jsoup抽取頁(yè)面內(nèi)容
優(yōu)化
使用多線程加速
使用隊(duì)列減少數(shù)據(jù)庫(kù)訪問(wèn)
延伸閱讀
- ssh框架 2016-09-30
- 阿里移動(dòng)安全 [無(wú)線安全]玩轉(zhuǎn)無(wú)線電——不安全的藍(lán)牙鎖 2017-07-26
- 消息隊(duì)列NetMQ 原理分析4-Socket、Session、Option和Pipe 2024-03-26
- Selective Search for Object Recognition 論文筆記【圖片目標(biāo)分割】 2017-07-26
- 詞向量-LRWE模型-更好地識(shí)別反義詞同義詞 2017-07-26
- 從棧不平衡問(wèn)題 理解 calling convention 2017-07-26
- php imagemagick 處理 圖片剪切、壓縮、合并、插入文本、背景色透明 2017-07-26
- Swift實(shí)現(xiàn)JSON轉(zhuǎn)Model - HandyJSON使用講解 2017-07-26
- 阿里移動(dòng)安全 Android端惡意鎖屏勒索應(yīng)用分析 2017-07-26
- 集合結(jié)合數(shù)據(jù)結(jié)構(gòu)來(lái)看看(二) 2017-07-26