原因就是這樣,作為技術(shù)喵,任何問題都不能阻礙一顆愛漫畫的心。所以問題就來了,挖掘機(jī)技修哪家強(qiáng)?
在bing上搜索Python、爬蟲框架。找到大家常用的框架。
Scrapy似乎是個很不錯的選擇。至于相對于其他框架的優(yōu)點(diǎn),小喵沒有細(xì)查,至少這個框架是之前聽過的。但是在實(shí)現(xiàn)的時候發(fā)現(xiàn)有一些問題,scrapy不能直接抓取動態(tài)的頁面。小喵需要抓取的網(wǎng)站的漫畫都是使用Ajax生成的。需要自己分析各種數(shù)據(jù),這個有點(diǎn)麻煩。
那么有沒有可以渲染頁面的工具呢?像瀏覽器一樣的?有。
這里介紹兩個工具:
PhantomJs,可以理解是一個瀏覽器。不過它沒有界面,我們可以通過js的代碼模擬用戶的行為。這就要求了解它的api并有js基礎(chǔ)了。
Selenium,這是個瀏覽器自動化測試框架。它依賴于瀏覽器(這個瀏覽器也可以是PhantomJs),通過Selenium可以模擬用戶的行為。而且有Python接口,所以相對簡單一些。
我們這個爬蟲使用selenium + phantomjs來實(shí)現(xiàn)。
喲,這個爬蟲軟件應(yīng)該有個響當(dāng)當(dāng)?shù)拿?。。。就?nbsp;漫畫喵 吧,英文名Cartoon Cat。
下面我們一點(diǎn)點(diǎn)的介紹這個爬蟲的實(shí)現(xiàn)過程吧。
一、初生-環(huán)境搭建
延伸閱讀
- ssh框架 2016-09-30
- 阿里移動安全 [無線安全]玩轉(zhuǎn)無線電——不安全的藍(lán)牙鎖 2017-07-26
- 消息隊列NetMQ 原理分析4-Socket、Session、Option和Pipe 2024-03-26
- Selective Search for Object Recognition 論文筆記【圖片目標(biāo)分割】 2017-07-26
- 詞向量-LRWE模型-更好地識別反義詞同義詞 2017-07-26
- 從棧不平衡問題 理解 calling convention 2017-07-26
- php imagemagick 處理 圖片剪切、壓縮、合并、插入文本、背景色透明 2017-07-26
- Swift實(shí)現(xiàn)JSON轉(zhuǎn)Model - HandyJSON使用講解 2017-07-26
- 阿里移動安全 Android端惡意鎖屏勒索應(yīng)用分析 2017-07-26
- 集合結(jié)合數(shù)據(jù)結(jié)構(gòu)來看看(二) 2017-07-26
