雖然我是不用微博的,但由于某種原因,手機端的微博會時不時地推送幾條我必須看的消息過來。微博被看久了,前幾天又看到 語亮 - 簡書 一年前的的微博爬蟲,就有了對某人微博深入挖掘的想法。
之前語亮的爬蟲不能抓取用戶一條微博的多張圖片,一年后微博界面也發(fā)生了一些變化,決定還是參考語亮爬取手機端界面的方法更新下代碼,同時加上一點小小的數(shù)據(jù)分析。
主要想法是抓取指定用戶的全部微博原創(chuàng)內(nèi)容和全部原創(chuàng)圖片保存到本地,然后對原創(chuàng)微博進行分類,并統(tǒng)計用戶最愛使用的表情、最常使用的詞語和微博中提到的人名。
(經(jīng)過驗證妹子的微博大多集中在美食類、購物類、美妝類和旅游類)
下面說下爬取步驟、展示結(jié)果以及詳細代碼:
因為PC端的微博是JS內(nèi)容不好爬取,所以還是選擇了chrome打開微博手機版進行爬取,簡單粗暴無障礙。
1、獲取自己的cookie,利用chrome瀏覽器。
在chrome 中打開微博手機版,F(xiàn)12打開開發(fā)者工具,勾選Network的Preserve log項,然后輸入賬號密碼登陸自己的微博。
在m.weibo.cn->Headers->Cookie 復(fù)制下自己的cookie,一會需要粘貼到代碼中運行。
延伸閱讀
- ssh框架 2016-09-30
- 阿里移動安全 [無線安全]玩轉(zhuǎn)無線電——不安全的藍牙鎖 2017-07-26
- 消息隊列NetMQ 原理分析4-Socket、Session、Option和Pipe 2024-03-26
- Selective Search for Object Recognition 論文筆記【圖片目標分割】 2017-07-26
- 詞向量-LRWE模型-更好地識別反義詞同義詞 2017-07-26
- 從棧不平衡問題 理解 calling convention 2017-07-26
- php imagemagick 處理 圖片剪切、壓縮、合并、插入文本、背景色透明 2017-07-26
- Swift實現(xiàn)JSON轉(zhuǎn)Model - HandyJSON使用講解 2017-07-26
- 阿里移動安全 Android端惡意鎖屏勒索應(yīng)用分析 2017-07-26
- 集合結(jié)合數(shù)據(jù)結(jié)構(gòu)來看看(二) 2017-07-26
![學(xué)習(xí)是年輕人改變自己的最好方式-Java培訓(xùn),做最負責(zé)任的教育,學(xué)習(xí)改變命運,軟件學(xué)習(xí),再就業(yè),大學(xué)生如何就業(yè),幫大學(xué)生找到好工作,lphotoshop培訓(xùn),電腦培訓(xùn),電腦維修培訓(xùn),移動軟件開發(fā)培訓(xùn),網(wǎng)站設(shè)計培訓(xùn),網(wǎng)站建設(shè)培訓(xùn)](http://m.roadsoft.com.cn/attached/image/templet/e87d53eb-cf7a-4689-887a-1cd260f416a5.jpg)