這兩年python特別火,火到博客園現(xiàn)在也是隔三差五的出現(xiàn)一些python的文章。各種開源軟件、各種爬蟲算法紛紛開路,作為互聯(lián)網(wǎng)行業(yè)的IT狗自然看的我也是心癢癢,于是趁著這個(gè)霧霾橫行的周末瞅了兩眼,作為一名老司機(jī)覺得還是應(yīng)該以練帶學(xué),1024在程序員界這么流行的網(wǎng)站,當(dāng)然拿來(lái)先練一練。
python自稱是以自然語(yǔ)言的視角來(lái)編程,特點(diǎn)是開發(fā)快,語(yǔ)言簡(jiǎn)潔,沒那么多技巧,大名鼎鼎的豆瓣、youtube都是使用python開發(fā)的網(wǎng)站,看來(lái)python在大規(guī)模使用這個(gè)方面來(lái)講應(yīng)該沒有啥子問題;python也不是沒有缺點(diǎn)在性能方面就Java、C++等老前輩還是沒得比的,另外python和nodejs一樣只能使用CPU單核,也是性能方面影響是因素之一。但python在特定領(lǐng)域表現(xiàn)突出,特別是腳本、爬蟲、科學(xué)算法等。
好了,還是說(shuō)正事如何爬取1024網(wǎng)站的圖片
分析
列表頁(yè)面
首先進(jìn)入1024的導(dǎo)航網(wǎng)站,隨便點(diǎn)擊一個(gè)地址進(jìn)入選擇圖片區(qū)或者在網(wǎng)站地址后面添加thread0806.php?fid=16&search=&page=,這就是1024網(wǎng)站的圖片區(qū),這個(gè)爬蟲就是主要抓取這個(gè)區(qū)域的所有圖片,使用瀏覽器debug分析一下這個(gè)頁(yè)面發(fā)現(xiàn)基本都是列表頁(yè),格式如下:
在地址欄http://xxxxxx.biz/thread0806.php?fid=16&search=&page=后面拼1、2、3等于就是訪問圖片區(qū)第一頁(yè)、第二頁(yè)、第三頁(yè)的列表頁(yè)。根據(jù)這些列表頁(yè)就可以爬出具體的每一個(gè)圖片頁(yè)的地址,類似上圖的地址:htm_data/16/1611/2114702.html 在地址的前面拼接上主站地址就是具體的圖片頁(yè)了。所以根據(jù)以上的分析:通過循環(huán)地址欄找到不同的列表頁(yè)在根據(jù)列表頁(yè)找到具體的圖片頁(yè)
延伸閱讀
- ssh框架 2016-09-30
- 阿里移動(dòng)安全 [無(wú)線安全]玩轉(zhuǎn)無(wú)線電——不安全的藍(lán)牙鎖 2017-07-26
- 消息隊(duì)列NetMQ 原理分析4-Socket、Session、Option和Pipe 2024-03-26
- Selective Search for Object Recognition 論文筆記【圖片目標(biāo)分割】 2017-07-26
- 詞向量-LRWE模型-更好地識(shí)別反義詞同義詞 2017-07-26
- 從棧不平衡問題 理解 calling convention 2017-07-26
- php imagemagick 處理 圖片剪切、壓縮、合并、插入文本、背景色透明 2017-07-26
- Swift實(shí)現(xiàn)JSON轉(zhuǎn)Model - HandyJSON使用講解 2017-07-26
- 阿里移動(dòng)安全 Android端惡意鎖屏勒索應(yīng)用分析 2017-07-26
- 集合結(jié)合數(shù)據(jù)結(jié)構(gòu)來(lái)看看(二) 2017-07-26
學(xué)習(xí)是年輕人改變自己的最好方式